{"step": 136, "episode/length": 135.0, "episode/score": 0.09999998658895493, "episode/sum_abs_reward": 2.1000000163912773, "episode/reward_rate": 0.007352941176470588}
{"step": 315, "episode/length": 178.0, "episode/score": 0.09999998658895493, "episode/sum_abs_reward": 1.900000013411045, "episode/reward_rate": 0.00558659217877095}
{"step": 471, "episode/length": 155.0, "episode/score": 1.099999986588955, "episode/sum_abs_reward": 3.1000000163912773, "episode/reward_rate": 0.01282051282051282}
{"step": 620, "episode/length": 148.0, "episode/score": 1.1000000089406967, "episode/sum_abs_reward": 2.8999999910593033, "episode/reward_rate": 0.020134228187919462}
{"step": 765, "episode/length": 144.0, "episode/score": 1.099999986588955, "episode/sum_abs_reward": 3.3000000193715096, "episode/reward_rate": 0.013793103448275862}
{"step": 914, "episode/length": 148.0, "episode/score": 0.09999998658895493, "episode/sum_abs_reward": 3.1000000312924385, "episode/reward_rate": 0.006711409395973154}
{"step": 1100, "stats/sum_log_reward": 0.6000000139077505, "stats/max_log_achievement_wake_up": 1.8333333333333333, "stats/max_log_achievement_collect_wood": 0.25, "stats/max_log_achievement_collect_drink": 0.3333333333333333, "stats/max_log_achievement_collect_sapling": 0.5}
{"step": 1101, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 7.26043701171875, "train/action_min": 0.0, "train/action_std": 4.83748197555542, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.00031381394364871085, "train/actor_opt_grad_steps": 1.0, "train/actor_opt_loss": -2.0777781009674072, "train/adv_mag": 0.0, "train/adv_max": 0.0, "train/adv_mean": 0.0, "train/adv_min": 0.0, "train/adv_std": 0.0, "train/cont_avg": 0.99609375, "train/cont_loss_mean": 0.6661807298660278, "train/cont_loss_std": 0.27943092584609985, "train/cont_neg_acc": 0.5, "train/cont_neg_loss": 0.773800790309906, "train/cont_pos_acc": 0.5882352590560913, "train/cont_pos_loss": 0.6657586097717285, "train/cont_pred": 0.5328019261360168, "train/cont_rate": 0.99609375, "train/dyn_loss_mean": 10.829235076904297, "train/dyn_loss_std": 0.5232030749320984, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 7.309016227722168, "train/extr_critic_critic_opt_grad_steps": 1.0, "train/extr_critic_critic_opt_loss": 29756.990234375, "train/extr_critic_mag": 0.0, "train/extr_critic_max": 0.0, "train/extr_critic_mean": 0.0, "train/extr_critic_min": 0.0, "train/extr_critic_std": 0.0, "train/extr_return_normed_mag": 0.0, "train/extr_return_normed_max": 0.0, "train/extr_return_normed_mean": 0.0, "train/extr_return_normed_min": 0.0, "train/extr_return_normed_std": 0.0, "train/extr_return_rate": 0.0, "train/extr_return_raw_mag": 0.0, "train/extr_return_raw_max": 0.0, "train/extr_return_raw_mean": 0.0, "train/extr_return_raw_min": 0.0, "train/extr_return_raw_std": 0.0, "train/extr_reward_mag": 0.0, "train/extr_reward_max": 0.0, "train/extr_reward_mean": 0.0, "train/extr_reward_min": 0.0, "train/extr_reward_std": 0.0, "train/image_loss_mean": 3712.110595703125, "train/image_loss_std": 159.8107147216797, "train/model_loss_mean": 3724.81591796875, "train/model_loss_std": 159.71871948242188, "train/model_opt_grad_norm": NaN, "train/model_opt_grad_steps": 0.0, "train/model_opt_loss": 37248160.0, "train/model_opt_model_opt_grad_overflow": 1.0, "train/model_opt_model_opt_grad_scale": 5000.0, "train/policy_entropy_mag": 2.7769358158111572, "train/policy_entropy_max": 2.7769358158111572, "train/policy_entropy_mean": 2.5753836631774902, "train/policy_entropy_min": 1.8028273582458496, "train/policy_entropy_std": 0.08171389251947403, "train/policy_logprob_mag": 5.404805660247803, "train/policy_logprob_max": -0.6051998138427734, "train/policy_logprob_mean": -2.5755209922790527, "train/policy_logprob_min": -5.404805660247803, "train/policy_logprob_std": 0.6755052804946899, "train/policy_randomness_mag": 0.9801364541053772, "train/policy_randomness_max": 0.9801364541053772, "train/policy_randomness_mean": 0.9089974761009216, "train/policy_randomness_min": 0.6363189220428467, "train/policy_randomness_std": 0.028841419145464897, "train/post_ent_mag": 106.17237091064453, "train/post_ent_max": 106.17237091064453, "train/post_ent_mean": 105.61624145507812, "train/post_ent_min": 104.90541076660156, "train/post_ent_std": 0.23147206008434296, "train/prior_ent_mag": 106.5346908569336, "train/prior_ent_max": 106.5346908569336, "train/prior_ent_mean": 105.5699462890625, "train/prior_ent_min": 104.75077056884766, "train/prior_ent_std": 0.28445470333099365, "train/rep_loss_mean": 10.829235076904297, "train/rep_loss_std": 0.5232030749320984, "train/reward_avg": 0.0027343749534338713, "train/reward_loss_mean": 5.541262626647949, "train/reward_loss_std": 9.5367431640625e-07, "train/reward_max_data": 1.0, "train/reward_max_pred": 0.0, "train/reward_neg_acc": 0.9999999403953552, "train/reward_neg_loss": 5.541262149810791, "train/reward_pos_acc": 0.0, "train/reward_pos_loss": 5.541264057159424, "train/reward_pred": 0.0, "train/reward_rate": 0.0068359375, "train/params_agent/wm/model_opt": 181569923.0, "train/params_agent/task_behavior/critic/critic_opt": 9708799.0, "train/params_agent/task_behavior/ac/actor_opt": 9464849.0, "replay/size": 1038.0, "replay/inserts": 1038.0, "replay/samples": 112.0, "replay/insert_wait_avg": 2.9678289600879472e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3155596596854075e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 111.61480927467346, "timer/env.step_count": 1101.0, "timer/env.step_total": 11.180753469467163, "timer/env.step_frac": 0.10017267011541801, "timer/env.step_avg": 0.010155089436391611, "timer/env.step_min": 0.002215862274169922, "timer/env.step_max": 1.253610610961914, "timer/replay.add_count": 1101.0, "timer/replay.add_total": 0.1264667510986328, "timer/replay.add_frac": 0.001133064258412252, "timer/replay.add_avg": 0.00011486535067995714, "timer/replay.add_min": 3.790855407714844e-05, "timer/replay.add_max": 0.016386747360229492, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.010256767272949219, "timer/logger.write_frac": 9.189432244343389e-05, "timer/logger.write_avg": 0.010256767272949219, "timer/logger.write_min": 0.010256767272949219, "timer/logger.write_max": 0.010256767272949219, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0754084587097168, "timer/checkpoint.save_frac": 0.0006756133814119928, "timer/checkpoint.save_avg": 0.0754084587097168, "timer/checkpoint.save_min": 0.0754084587097168, "timer/checkpoint.save_max": 0.0754084587097168, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.483529806137085, "timer/agent.save_frac": 0.013291514054252952, "timer/agent.save_avg": 1.483529806137085, "timer/agent.save_min": 1.483529806137085, "timer/agent.save_max": 1.483529806137085, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.034706115722656e-05, "timer/replay.save_frac": 7.198602199776202e-07, "timer/replay.save_avg": 8.034706115722656e-05, "timer/replay.save_min": 8.034706115722656e-05, "timer/replay.save_max": 8.034706115722656e-05, "timer/agent.policy_count": 1.0, "timer/agent.policy_total": 11.487308979034424, "timer/agent.policy_frac": 0.10291921881768615, "timer/agent.policy_avg": 11.487308979034424, "timer/agent.policy_min": 11.487308979034424, "timer/agent.policy_max": 11.487308979034424, "timer/dataset_count": 1.0, "timer/dataset_total": 2.2172927856445312e-05, "timer/dataset_frac": 1.986557877089575e-07, "timer/dataset_avg": 2.2172927856445312e-05, "timer/dataset_min": 2.2172927856445312e-05, "timer/dataset_max": 2.2172927856445312e-05, "timer/agent.train_count": 1.0, "timer/agent.train_total": 74.84694910049438, "timer/agent.train_frac": 0.6705826008832138, "timer/agent.train_avg": 74.84694910049438, "timer/agent.train_min": 74.84694910049438, "timer/agent.train_max": 74.84694910049438, "timer/agent.report_count": 1.0, "timer/agent.report_total": 13.603920698165894, "timer/agent.report_frac": 0.12188275719477273, "timer/agent.report_avg": 13.603920698165894, "timer/agent.report_min": 13.603920698165894, "timer/agent.report_max": 13.603920698165894}
{"step": 1116, "episode/length": 201.0, "episode/score": 0.09999997168779373, "episode/sum_abs_reward": 2.1000000312924385, "episode/reward_rate": 0.009900990099009901}
{"step": 1337, "episode/length": 220.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 5.300000034272671, "episode/reward_rate": 0.013574660633484163}
{"step": 1501, "episode/length": 163.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.500000022351742, "episode/reward_rate": 0.024390243902439025}
{"step": 1636, "episode/length": 134.0, "episode/score": 0.10000000149011612, "episode/sum_abs_reward": 2.100000001490116, "episode/reward_rate": 0.014814814814814815}
{"step": 1815, "episode/length": 178.0, "episode/score": 0.09999998658895493, "episode/sum_abs_reward": 2.1000000163912773, "episode/reward_rate": 0.00558659217877095}
{"step": 1983, "episode/length": 167.0, "episode/score": 0.09999998658895493, "episode/sum_abs_reward": 2.3000000193715096, "episode/reward_rate": 0.005952380952380952}
{"step": 2154, "episode/length": 170.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.100000016391277, "episode/reward_rate": 0.017543859649122806}
{"step": 2229, "episode/length": 74.0, "episode/score": 0.09999998658895493, "episode/sum_abs_reward": 1.900000013411045, "episode/reward_rate": 0.013333333333333334}
{"step": 2473, "stats/sum_log_reward": 0.9749999390915036, "stats/max_log_achievement_collect_drink": 0.25, "stats/max_log_achievement_collect_sapling": 1.375, "stats/max_log_achievement_collect_wood": 0.125, "stats/max_log_achievement_wake_up": 1.75, "stats/mean_log_entropy": 1.6116104824468493, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 6.3456573486328125, "train/action_min": 0.0, "train/action_std": 3.4960831701755524, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.015464301431647447, "train/actor_opt_grad_steps": 345.0, "train/actor_opt_loss": 82.43360836102681, "train/adv_mag": 1.3728682772703262, "train/adv_max": 1.3685716365700287, "train/adv_mean": 0.0295533153017887, "train/adv_min": -0.4920974350577179, "train/adv_std": 0.13627998918373657, "train/cont_avg": 0.9942411534926471, "train/cont_loss_mean": 0.03254111569292624, "train/cont_loss_std": 0.26140621764694943, "train/cont_neg_acc": 0.1239320754128344, "train/cont_neg_loss": 3.1223515907631203, "train/cont_pos_acc": 0.9938923120498657, "train/cont_pos_loss": 0.014596774261650246, "train/cont_pred": 0.9879600510877722, "train/cont_rate": 0.9942411534926471, "train/dyn_loss_mean": 4.713069656315972, "train/dyn_loss_std": 9.148967877468642, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 11.408295967999626, "train/extr_critic_critic_opt_grad_steps": 345.0, "train/extr_critic_critic_opt_loss": 25775.997572954962, "train/extr_critic_mag": 0.031800115809721106, "train/extr_critic_max": 0.03178038842537824, "train/extr_critic_mean": 0.02396187471019453, "train/extr_critic_min": 0.01593029499053955, "train/extr_critic_std": 0.0038116348095643356, "train/extr_return_normed_mag": 1.447176567700808, "train/extr_return_normed_max": 1.4466442258631371, "train/extr_return_normed_mean": 0.10467451169482528, "train/extr_return_normed_min": -0.4235984852549497, "train/extr_return_normed_std": 0.13797570198585163, "train/extr_return_rate": 0.028661153426048046, "train/extr_return_raw_mag": 1.3986113577582941, "train/extr_return_raw_max": 1.3954850461938322, "train/extr_return_raw_mean": 0.05351532657411607, "train/extr_return_raw_min": -0.4747576678188018, "train/extr_return_raw_std": 0.13797570178041282, "train/extr_reward_mag": 0.3852299627135782, "train/extr_reward_max": 0.38509271775974946, "train/extr_reward_mean": 0.004099872203369159, "train/extr_reward_min": -0.11243985330357271, "train/extr_reward_std": 0.029136523924062838, "train/image_loss_mean": 129.16164485146018, "train/image_loss_std": 56.670186940361475, "train/model_loss_mean": 132.51538203744326, "train/model_loss_std": 58.35850550146664, "train/model_opt_grad_norm": 576.7036417792825, "train/model_opt_grad_steps": 336.0, "train/model_opt_loss": 2588.191016702091, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 19.53125, "train/policy_entropy_mag": 2.4438904103110817, "train/policy_entropy_max": 2.4438904103110817, "train/policy_entropy_mean": 1.605925171800396, "train/policy_entropy_min": 1.0464151243076605, "train/policy_entropy_std": 0.26729554341941636, "train/policy_logprob_mag": 6.132496388519511, "train/policy_logprob_max": -0.5814137151190901, "train/policy_logprob_mean": -1.6064856651732151, "train/policy_logprob_min": -6.132496388519511, "train/policy_logprob_std": 0.8282043545999948, "train/policy_randomness_mag": 0.8625860691947096, "train/policy_randomness_max": 0.8625860691947096, "train/policy_randomness_mean": 0.5668211109552752, "train/policy_randomness_min": 0.3693386177422808, "train/policy_randomness_std": 0.09434359756928376, "train/post_ent_mag": 53.568421588224524, "train/post_ent_max": 53.568421588224524, "train/post_ent_mean": 33.149040194118726, "train/post_ent_min": 17.05303192138672, "train/post_ent_std": 8.746954799574965, "train/prior_ent_mag": 59.36548709869385, "train/prior_ent_max": 59.36548709869385, "train/prior_ent_mean": 39.1992720155155, "train/prior_ent_min": 21.617388451800625, "train/prior_ent_std": 7.82860529466587, "train/rep_loss_mean": 4.713069656315972, "train/rep_loss_std": 9.148967877468642, "train/reward_avg": 0.005721507331198903, "train/reward_loss_mean": 0.49335849164601636, "train/reward_loss_std": 0.6984299965397942, "train/reward_max_data": 1.0, "train/reward_max_pred": 0.5166943301172817, "train/reward_neg_acc": 0.995927169919014, "train/reward_neg_loss": 0.4622469076558071, "train/reward_pos_acc": 0.43926529739709463, "train/reward_pos_loss": 3.3318024575710297, "train/reward_pred": 0.0034731512457844525, "train/reward_rate": 0.010928883272058824, "stats/max_log_achievement_place_plant": 0.42857142857142855, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "replay/size": 2410.0, "replay/inserts": 1372.0, "replay/samples": 10976.0, "replay/insert_wait_avg": 3.3950319095533723e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3983197531964271e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 286.92524790763855, "timer/env.step_count": 1372.0, "timer/env.step_total": 20.546589612960815, "timer/env.step_frac": 0.0716095560177917, "timer/env.step_avg": 0.014975648405948117, "timer/env.step_min": 0.0029230117797851562, "timer/env.step_max": 1.7888689041137695, "timer/replay.add_count": 1372.0, "timer/replay.add_total": 0.3107643127441406, "timer/replay.add_frac": 0.001083084583912866, "timer/replay.add_avg": 0.00022650460112546693, "timer/replay.add_min": 5.936622619628906e-05, "timer/replay.add_max": 0.000946044921875, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030347824096679688, "timer/logger.write_frac": 0.0001057690960206077, "timer/logger.write_avg": 0.030347824096679688, "timer/logger.write_min": 0.030347824096679688, "timer/logger.write_max": 0.030347824096679688, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1372.0, "timer/agent.policy_total": 10.704299211502075, "timer/agent.policy_frac": 0.037306926767726616, "timer/agent.policy_avg": 0.0078019673553222126, "timer/agent.policy_min": 0.006150960922241211, "timer/agent.policy_max": 0.36321330070495605, "timer/dataset_count": 686.0, "timer/dataset_total": 0.05686497688293457, "timer/dataset_frac": 0.00019818742790191627, "timer/dataset_avg": 8.28935523074848e-05, "timer/dataset_min": 5.1975250244140625e-05, "timer/dataset_max": 0.0001971721649169922, "timer/agent.train_count": 686.0, "timer/agent.train_total": 254.60979580879211, "timer/agent.train_frac": 0.8873732711411692, "timer/agent.train_avg": 0.3711513058437203, "timer/agent.train_min": 0.36187744140625, "timer/agent.train_max": 0.3903651237487793, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2214822769165039, "timer/agent.report_frac": 0.0007719163040953413, "timer/agent.report_avg": 0.2214822769165039, "timer/agent.report_min": 0.2214822769165039, "timer/agent.report_max": 0.2214822769165039, "fps": 4.781621051594499}
{"step": 2527, "episode/length": 297.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 3.900000013411045, "episode/reward_rate": 0.010067114093959731}
{"step": 2708, "episode/length": 180.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.100000016391277, "episode/reward_rate": 0.016574585635359115}
{"step": 2889, "episode/length": 180.0, "episode/score": 1.0999999791383743, "episode/sum_abs_reward": 2.9000000208616257, "episode/reward_rate": 0.011049723756906077}
{"step": 3167, "episode/length": 277.0, "episode/score": 3.0999999791383743, "episode/sum_abs_reward": 4.900000020861626, "episode/reward_rate": 0.014388489208633094}
{"step": 3393, "episode/length": 225.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.017699115044247787}
{"step": 3547, "episode/length": 153.0, "episode/score": 0.09999998658895493, "episode/sum_abs_reward": 2.1000000163912773, "episode/reward_rate": 0.006493506493506494}
{"step": 3655, "episode/length": 107.0, "episode/score": 0.09999998658895493, "episode/sum_abs_reward": 2.3000000193715096, "episode/reward_rate": 0.009259259259259259}
{"step": 3931, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 5.026009337542808, "train/action_min": 0.0, "train/action_std": 2.336394004625817, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.044550535645437976, "train/actor_opt_grad_steps": 1050.0, "train/actor_opt_loss": 173.2051775422815, "train/adv_mag": 3.815572361423545, "train/adv_max": 3.8075564217894047, "train/adv_mean": 0.08862168151783208, "train/adv_min": -0.6992141459494421, "train/adv_std": 0.3179529346015355, "train/cont_avg": 0.9942744006849316, "train/cont_loss_mean": 0.009375439271847526, "train/cont_loss_std": 0.13019940602810007, "train/cont_neg_acc": 0.5994509805555213, "train/cont_neg_loss": 1.0687946540188709, "train/cont_pos_acc": 0.9992596123316516, "train/cont_pos_loss": 0.003148150957414357, "train/cont_pred": 0.9942022970277969, "train/cont_rate": 0.9942744006849316, "train/dyn_loss_mean": 3.914442395510739, "train/dyn_loss_std": 5.978684072625147, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.8813169100513196, "train/extr_critic_critic_opt_grad_steps": 1050.0, "train/extr_critic_critic_opt_loss": 20086.200757170376, "train/extr_critic_mag": 1.09172630473359, "train/extr_critic_max": 1.09172630473359, "train/extr_critic_mean": 0.47951262270751066, "train/extr_critic_min": -0.11876473851399878, "train/extr_critic_std": 0.3516552276807289, "train/extr_return_normed_mag": 4.37837376006662, "train/extr_return_normed_max": 4.37837376006662, "train/extr_return_normed_mean": 0.42976077860348844, "train/extr_return_normed_min": -0.4696842360578171, "train/extr_return_normed_std": 0.4280874112697497, "train/extr_return_rate": 0.4473004313823703, "train/extr_return_raw_mag": 7.109130349877763, "train/extr_return_raw_max": 7.109130349877763, "train/extr_return_raw_mean": 0.6268683173885085, "train/extr_return_raw_min": -0.9363717871577772, "train/extr_return_raw_std": 0.7358029227550715, "train/extr_reward_mag": 0.9881043630103542, "train/extr_reward_max": 0.9881043630103542, "train/extr_reward_mean": 0.024851746940789968, "train/extr_reward_min": -0.44318883386376784, "train/extr_reward_std": 0.13328834898667793, "train/image_loss_mean": 19.866544736574774, "train/image_loss_std": 15.107078735142538, "train/model_loss_mean": 22.33483224372341, "train/model_loss_std": 17.063470775133943, "train/model_opt_grad_norm": 181.96985218622913, "train/model_opt_grad_steps": 1041.0, "train/model_opt_loss": 649.7013641775471, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 30.500856164383563, "train/policy_entropy_mag": 2.137102158102271, "train/policy_entropy_max": 2.137102158102271, "train/policy_entropy_mean": 0.3486345879835625, "train/policy_entropy_min": 0.07957393880168052, "train/policy_entropy_std": 0.3808652369739258, "train/policy_logprob_mag": 7.437880973293357, "train/policy_logprob_max": -0.00948337789573898, "train/policy_logprob_mean": -0.3489235894729013, "train/policy_logprob_min": -7.437880973293357, "train/policy_logprob_std": 1.0015280107929283, "train/policy_randomness_mag": 0.7543032773553509, "train/policy_randomness_max": 0.7543032773553509, "train/policy_randomness_mean": 0.12305270982523488, "train/policy_randomness_min": 0.028086108321400537, "train/policy_randomness_std": 0.13442871428719938, "train/post_ent_mag": 45.671779528056106, "train/post_ent_max": 45.671779528056106, "train/post_ent_mean": 24.55604574125107, "train/post_ent_min": 10.590090059254267, "train/post_ent_std": 5.726722377620331, "train/prior_ent_mag": 58.48996379277477, "train/prior_ent_max": 58.48996379277477, "train/prior_ent_mean": 29.122622738145804, "train/prior_ent_min": 11.512865680537812, "train/prior_ent_std": 7.7518381223286665, "train/rep_loss_mean": 3.914442395510739, "train/rep_loss_std": 5.978684072625147, "train/reward_avg": 0.006284781626412926, "train/reward_loss_mean": 0.11024663354946326, "train/reward_loss_std": 0.4376370200555619, "train/reward_max_data": 1.0, "train/reward_max_pred": 0.9867099523544312, "train/reward_neg_acc": 0.9961683505201993, "train/reward_neg_loss": 0.09414744022468181, "train/reward_pos_acc": 0.8493250808487199, "train/reward_pos_loss": 1.4998042183379605, "train/reward_pred": 0.005137103670340491, "train/reward_rate": 0.011598351883561644, "stats/sum_log_reward": 1.6714284994772501, "stats/max_log_achievement_collect_drink": 27.714285714285715, "stats/max_log_achievement_collect_sapling": 7.571428571428571, "stats/max_log_achievement_collect_wood": 0.14285714285714285, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_place_plant": 0.42857142857142855, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.3099264140639986, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "replay/size": 3868.0, "replay/inserts": 1458.0, "replay/samples": 11664.0, "replay/insert_wait_avg": 3.39443955074776e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4166119003819177e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.33375811576843, "timer/env.step_count": 1458.0, "timer/env.step_total": 18.306373596191406, "timer/env.step_frac": 0.06095343297750406, "timer/env.step_avg": 0.012555811794369964, "timer/env.step_min": 0.0023806095123291016, "timer/env.step_max": 1.6207146644592285, "timer/replay.add_count": 1458.0, "timer/replay.add_total": 0.27411389350891113, "timer/replay.add_frac": 0.0009126975776171307, "timer/replay.add_avg": 0.00018800678567140681, "timer/replay.add_min": 5.7697296142578125e-05, "timer/replay.add_max": 0.0011444091796875, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021898984909057617, "timer/logger.write_frac": 7.291549590178372e-05, "timer/logger.write_avg": 0.021898984909057617, "timer/logger.write_min": 0.021898984909057617, "timer/logger.write_max": 0.021898984909057617, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1458.0, "timer/agent.policy_total": 10.929052114486694, "timer/agent.policy_frac": 0.036389689201284915, "timer/agent.policy_avg": 0.007495920517480586, "timer/agent.policy_min": 0.0056629180908203125, "timer/agent.policy_max": 0.017644882202148438, "timer/dataset_count": 729.0, "timer/dataset_total": 0.06441688537597656, "timer/dataset_frac": 0.00021448433163196408, "timer/dataset_avg": 8.83633544252079e-05, "timer/dataset_min": 5.507469177246094e-05, "timer/dataset_max": 0.00039887428283691406, "timer/agent.train_count": 729.0, "timer/agent.train_total": 270.0474157333374, "timer/agent.train_frac": 0.8991577151618212, "timer/agent.train_avg": 0.37043541252858353, "timer/agent.train_min": 0.3615758419036865, "timer/agent.train_max": 0.40345048904418945, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2225205898284912, "timer/agent.report_frac": 0.0007409110158795972, "timer/agent.report_avg": 0.2225205898284912, "timer/agent.report_min": 0.2225205898284912, "timer/agent.report_max": 0.2225205898284912, "fps": 4.854488379126647}
{"step": 4019, "episode/length": 363.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.700000025331974, "episode/reward_rate": 0.016483516483516484}
{"step": 4220, "episode/length": 200.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.01990049751243781}
{"step": 4434, "episode/length": 213.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 3.900000013411045, "episode/reward_rate": 0.014018691588785047}
{"step": 4585, "episode/length": 150.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 4.900000013411045, "episode/reward_rate": 0.026490066225165563}
{"step": 4651, "episode/length": 65.0, "episode/score": 0.09999998658895493, "episode/sum_abs_reward": 2.1000000163912773, "episode/reward_rate": 0.015151515151515152}
{"step": 4799, "episode/length": 147.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.02702702702702703}
{"step": 4995, "episode/length": 195.0, "episode/score": -0.8999999910593033, "episode/sum_abs_reward": 0.8999999910593033, "episode/reward_rate": 0.00510204081632653}
{"step": 5161, "episode/length": 165.0, "episode/score": 0.10000000894069672, "episode/sum_abs_reward": 1.8999999910593033, "episode/reward_rate": 0.012048192771084338}
{"step": 5352, "episode/length": 190.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.100000016391277, "episode/reward_rate": 0.015706806282722512}
{"step": 5353, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 3.9658658739546655, "train/action_min": 0.0, "train/action_std": 2.9577817866499996, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.050389534597035865, "train/actor_opt_grad_steps": 1770.0, "train/actor_opt_loss": 127.21153560154875, "train/adv_mag": 1.8431883941233997, "train/adv_max": 1.8387977573233591, "train/adv_mean": 0.040975896195626596, "train/adv_min": -0.6230671233694318, "train/adv_std": 0.16521437182812623, "train/cont_avg": 0.9944294674295775, "train/cont_loss_mean": 0.004489771730219781, "train/cont_loss_std": 0.07965160427372378, "train/cont_neg_acc": 0.8412754405552233, "train/cont_neg_loss": 0.5014734216937041, "train/cont_pos_acc": 0.9995985492854051, "train/cont_pos_loss": 0.0015219418356780447, "train/cont_pred": 0.9943555442380233, "train/cont_rate": 0.9944294674295775, "train/dyn_loss_mean": 4.180349930910997, "train/dyn_loss_std": 6.044866702925991, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.4415694727024562, "train/extr_critic_critic_opt_grad_steps": 1770.0, "train/extr_critic_critic_opt_loss": 19122.283258142605, "train/extr_critic_mag": 3.4314366730166155, "train/extr_critic_max": 3.4314366730166155, "train/extr_critic_mean": 1.2020594502838564, "train/extr_critic_min": -0.3127792855383645, "train/extr_critic_std": 1.0993376710045506, "train/extr_return_normed_mag": 2.726278953149285, "train/extr_return_normed_max": 2.726278953149285, "train/extr_return_normed_mean": 0.4288934578358288, "train/extr_return_normed_min": -0.246223691273743, "train/extr_return_normed_std": 0.3939067952229943, "train/extr_return_rate": 0.6059584411936747, "train/extr_return_raw_mag": 9.253339095854423, "train/extr_return_raw_max": 9.253339095854423, "train/extr_return_raw_mean": 1.3413244393509878, "train/extr_return_raw_min": -1.0613122120709486, "train/extr_return_raw_std": 1.4077434657325207, "train/extr_reward_mag": 0.9976873716837923, "train/extr_reward_max": 0.9976873716837923, "train/extr_reward_mean": 0.030592980092837358, "train/extr_reward_min": -0.3866608042112539, "train/extr_reward_std": 0.1571635936557407, "train/image_loss_mean": 15.62587214187837, "train/image_loss_std": 15.438134838157977, "train/model_loss_mean": 18.217484514478226, "train/model_loss_std": 17.44264798768809, "train/model_opt_grad_norm": 154.92032655527893, "train/model_opt_grad_steps": 1761.0, "train/model_opt_loss": 827.854179704693, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 45.11443661971831, "train/policy_entropy_mag": 2.3510607229152196, "train/policy_entropy_max": 2.3510607229152196, "train/policy_entropy_mean": 0.5375589329591939, "train/policy_entropy_min": 0.07954677414726204, "train/policy_entropy_std": 0.48841690681350064, "train/policy_logprob_mag": 7.4374573868764955, "train/policy_logprob_max": -0.009479597224001313, "train/policy_logprob_mean": -0.5370289011740349, "train/policy_logprob_min": -7.4374573868764955, "train/policy_logprob_std": 1.1377877870076138, "train/policy_randomness_mag": 0.8298212642401037, "train/policy_randomness_max": 0.8298212642401037, "train/policy_randomness_mean": 0.1897347135023332, "train/policy_randomness_min": 0.028076520504456172, "train/policy_randomness_std": 0.17238973374937622, "train/post_ent_mag": 45.37286172786229, "train/post_ent_max": 45.37286172786229, "train/post_ent_mean": 24.652276052555568, "train/post_ent_min": 11.259092948806117, "train/post_ent_std": 5.392423377910131, "train/prior_ent_mag": 59.98019570364079, "train/prior_ent_max": 59.98019570364079, "train/prior_ent_mean": 29.364467701441804, "train/prior_ent_min": 13.316287524263624, "train/prior_ent_std": 7.8030646955463245, "train/rep_loss_mean": 4.180349930910997, "train/rep_loss_std": 6.044866702925991, "train/reward_avg": 0.007348976490697758, "train/reward_loss_mean": 0.07891270292686745, "train/reward_loss_std": 0.3559035379701937, "train/reward_max_data": 1.0, "train/reward_max_pred": 0.9969458093105907, "train/reward_neg_acc": 0.9948384845760506, "train/reward_neg_loss": 0.06429515792135622, "train/reward_pos_acc": 0.8983378208858867, "train/reward_pos_loss": 1.2319283401462393, "train/reward_pred": 0.006795409507721557, "train/reward_rate": 0.012447733274647887, "stats/sum_log_reward": 1.988888778620296, "stats/max_log_achievement_collect_drink": 12.88888888888889, "stats/max_log_achievement_collect_sapling": 1.2222222222222223, "stats/max_log_achievement_collect_wood": 0.7777777777777778, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_eat_cow": 0.2222222222222222, "stats/max_log_achievement_place_plant": 1.2222222222222223, "stats/max_log_achievement_wake_up": 0.8888888888888888, "stats/mean_log_entropy": 0.65397576491038, "replay/size": 5290.0, "replay/inserts": 1422.0, "replay/samples": 11376.0, "replay/insert_wait_avg": 3.2741476882526813e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.5149723460737998e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.06744956970215, "timer/env.step_count": 1422.0, "timer/env.step_total": 23.41483426094055, "timer/env.step_frac": 0.07803190347542698, "timer/env.step_avg": 0.016466128172250738, "timer/env.step_min": 0.0025641918182373047, "timer/env.step_max": 2.3322222232818604, "timer/replay.add_count": 1422.0, "timer/replay.add_total": 0.26882338523864746, "timer/replay.add_frac": 0.0008958765291741614, "timer/replay.add_avg": 0.00018904598118048345, "timer/replay.add_min": 5.888938903808594e-05, "timer/replay.add_max": 0.0019409656524658203, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022981882095336914, "timer/logger.write_frac": 7.658905398867161e-05, "timer/logger.write_avg": 0.022981882095336914, "timer/logger.write_min": 0.022981882095336914, "timer/logger.write_max": 0.022981882095336914, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0005831718444824219, "timer/checkpoint.save_frac": 1.9434691944050994e-06, "timer/checkpoint.save_avg": 0.0005831718444824219, "timer/checkpoint.save_min": 0.0005831718444824219, "timer/checkpoint.save_max": 0.0005831718444824219, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4148104190826416, "timer/agent.save_frac": 0.004714974653570339, "timer/agent.save_avg": 1.4148104190826416, "timer/agent.save_min": 1.4148104190826416, "timer/agent.save_max": 1.4148104190826416, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.0001087188720703125, "timer/replay.save_frac": 3.623147803142786e-07, "timer/replay.save_avg": 0.0001087188720703125, "timer/replay.save_min": 0.0001087188720703125, "timer/replay.save_max": 0.0001087188720703125, "timer/agent.policy_count": 1422.0, "timer/agent.policy_total": 11.997936248779297, "timer/agent.policy_frac": 0.039984131121134206, "timer/agent.policy_avg": 0.008437367263557875, "timer/agent.policy_min": 0.0059108734130859375, "timer/agent.policy_max": 1.4241626262664795, "timer/dataset_count": 711.0, "timer/dataset_total": 0.05721926689147949, "timer/dataset_frac": 0.00019068801688930983, "timer/dataset_avg": 8.04771686237405e-05, "timer/dataset_min": 5.555152893066406e-05, "timer/dataset_max": 0.0002262592315673828, "timer/agent.train_count": 711.0, "timer/agent.train_total": 263.63770937919617, "timer/agent.train_frac": 0.8785948284535815, "timer/agent.train_avg": 0.3707984660748188, "timer/agent.train_min": 0.36261844635009766, "timer/agent.train_max": 0.7587645053863525, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2206273078918457, "timer/agent.report_frac": 0.000735259049951023, "timer/agent.report_avg": 0.2206273078918457, "timer/agent.report_min": 0.2206273078918457, "timer/agent.report_max": 0.2206273078918457, "fps": 4.738823985360631}
{"step": 5524, "episode/length": 171.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 4.900000013411045, "episode/reward_rate": 0.023255813953488372}
{"step": 5692, "episode/length": 167.0, "episode/score": 2.1000000089406967, "episode/sum_abs_reward": 5.100000008940697, "episode/reward_rate": 0.023809523809523808}
{"step": 5775, "episode/length": 82.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 3.900000013411045, "episode/reward_rate": 0.03614457831325301}
{"step": 5995, "episode/length": 219.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.02727272727272727}
{"step": 6176, "episode/length": 180.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 4.900000013411045, "episode/reward_rate": 0.022099447513812154}
{"step": 6355, "episode/length": 178.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.027932960893854747}
{"step": 6558, "episode/length": 202.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 3.900000013411045, "episode/reward_rate": 0.014778325123152709}
{"step": 6591, "episode/length": 32.0, "episode/score": -0.9000000134110451, "episode/sum_abs_reward": 1.1000000163912773, "episode/reward_rate": 0.0}
{"step": 6646, "episode/length": 54.0, "episode/score": 0.10000000149011612, "episode/sum_abs_reward": 1.700000025331974, "episode/reward_rate": 0.01818181818181818}
{"step": 6781, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.986641777886285, "train/action_min": 0.0, "train/action_std": 4.491756045156055, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03790755531129738, "train/actor_opt_grad_steps": 2485.0, "train/actor_opt_loss": 47.7556993448072, "train/adv_mag": 1.0152660368217363, "train/adv_max": 0.999928435517682, "train/adv_mean": 0.015683036553430913, "train/adv_min": -0.5301075933708085, "train/adv_std": 0.0941070673159427, "train/cont_avg": 0.9945610894097222, "train/cont_loss_mean": 0.0009505602446261542, "train/cont_loss_std": 0.025694215122131128, "train/cont_neg_acc": 0.9715658633245362, "train/cont_neg_loss": 0.1035098228054873, "train/cont_pos_acc": 0.9999181893136766, "train/cont_pos_loss": 0.00030700198061595074, "train/cont_pred": 0.9945687676469485, "train/cont_rate": 0.9945610894097222, "train/dyn_loss_mean": 4.197437177101771, "train/dyn_loss_std": 6.4143804775344, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.3227603650755353, "train/extr_critic_critic_opt_grad_steps": 2485.0, "train/extr_critic_critic_opt_loss": 15909.105170355902, "train/extr_critic_mag": 4.880797737174564, "train/extr_critic_max": 4.880797737174564, "train/extr_critic_mean": 1.6773754093382094, "train/extr_critic_min": -0.2743416213326984, "train/extr_critic_std": 1.6361084514194064, "train/extr_return_normed_mag": 1.9441677613390818, "train/extr_return_normed_max": 1.9441677613390818, "train/extr_return_normed_mean": 0.42461231764819884, "train/extr_return_normed_min": -0.13550970643862253, "train/extr_return_normed_std": 0.38822682905528283, "train/extr_return_rate": 0.5966968975133367, "train/extr_return_raw_mag": 8.731682631704542, "train/extr_return_raw_max": 8.731682631704542, "train/extr_return_raw_mean": 1.7488400373193953, "train/extr_return_raw_min": -0.8307936510278119, "train/extr_return_raw_std": 1.7885538670751784, "train/extr_reward_mag": 0.9995793037944369, "train/extr_reward_max": 0.9995793037944369, "train/extr_reward_mean": 0.027349312893218465, "train/extr_reward_min": -0.4287623084253735, "train/extr_reward_std": 0.15161518825011122, "train/image_loss_mean": 11.55606492360433, "train/image_loss_std": 11.79469084739685, "train/model_loss_mean": 14.125420954492357, "train/model_loss_std": 14.258826812108358, "train/model_opt_grad_norm": 93.12796089384291, "train/model_opt_grad_steps": 2476.0, "train/model_opt_loss": 1103.5485110812717, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 78.125, "train/policy_entropy_mag": 2.5007728272014194, "train/policy_entropy_max": 2.5007728272014194, "train/policy_entropy_mean": 0.8799503387676345, "train/policy_entropy_min": 0.07950147210309903, "train/policy_entropy_std": 0.6189467360575994, "train/policy_logprob_mag": 7.436782207753923, "train/policy_logprob_max": -0.00947345402609143, "train/policy_logprob_mean": -0.8811013988322682, "train/policy_logprob_min": -7.436782207753923, "train/policy_logprob_std": 1.3024524814552731, "train/policy_randomness_mag": 0.8826630645328097, "train/policy_randomness_max": 0.8826630645328097, "train/policy_randomness_mean": 0.31058385492199, "train/policy_randomness_min": 0.02806053080389069, "train/policy_randomness_std": 0.21846103399164146, "train/post_ent_mag": 42.733264128367104, "train/post_ent_max": 42.733264128367104, "train/post_ent_mean": 24.928443749745686, "train/post_ent_min": 10.88056570953793, "train/post_ent_std": 5.572995775275761, "train/prior_ent_mag": 60.78068463007609, "train/prior_ent_max": 60.78068463007609, "train/prior_ent_mean": 29.851591375139023, "train/prior_ent_min": 13.066200560993618, "train/prior_ent_std": 8.19670950041877, "train/rep_loss_mean": 4.197437177101771, "train/rep_loss_std": 6.4143804775344, "train/reward_avg": 0.009465874620622748, "train/reward_loss_mean": 0.04994317894387576, "train/reward_loss_std": 0.2646739118629032, "train/reward_max_data": 1.0, "train/reward_max_pred": 0.9990985641876856, "train/reward_neg_acc": 0.9954701405432489, "train/reward_neg_loss": 0.03643674684119307, "train/reward_pos_acc": 0.950470771226618, "train/reward_pos_loss": 0.9729260388347838, "train/reward_pred": 0.008995677810162306, "train/reward_rate": 0.014336480034722222, "stats/sum_log_reward": 2.3222221715582743, "stats/max_log_achievement_collect_drink": 0.5555555555555556, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_wood": 0.7777777777777778, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_eat_cow": 0.1111111111111111, "stats/max_log_achievement_place_plant": 1.5555555555555556, "stats/max_log_achievement_wake_up": 1.4444444444444444, "stats/mean_log_entropy": 1.0495367778672113, "stats/max_log_achievement_place_table": 0.3333333333333333, "replay/size": 6718.0, "replay/inserts": 1428.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 3.4018057067187226e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3714077092018448e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.34367060661316, "timer/env.step_count": 1428.0, "timer/env.step_total": 22.83122682571411, "timer/env.step_frac": 0.0760170067163433, "timer/env.step_avg": 0.015988254079631732, "timer/env.step_min": 0.0030221939086914062, "timer/env.step_max": 1.7454142570495605, "timer/replay.add_count": 1428.0, "timer/replay.add_total": 0.255312442779541, "timer/replay.add_frac": 0.0008500676650314581, "timer/replay.add_avg": 0.00017879022603609315, "timer/replay.add_min": 6.103515625e-05, "timer/replay.add_max": 0.0008153915405273438, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02321338653564453, "timer/logger.write_frac": 7.728941478526835e-05, "timer/logger.write_avg": 0.02321338653564453, "timer/logger.write_min": 0.02321338653564453, "timer/logger.write_max": 0.02321338653564453, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1428.0, "timer/agent.policy_total": 10.589531183242798, "timer/agent.policy_frac": 0.035258046763079115, "timer/agent.policy_avg": 0.00741563808350336, "timer/agent.policy_min": 0.005975484848022461, "timer/agent.policy_max": 0.02081608772277832, "timer/dataset_count": 714.0, "timer/dataset_total": 0.055828094482421875, "timer/dataset_frac": 0.00018588070915449687, "timer/dataset_avg": 7.819060851879814e-05, "timer/dataset_min": 5.626678466796875e-05, "timer/dataset_max": 0.00021195411682128906, "timer/agent.train_count": 714.0, "timer/agent.train_total": 265.91984248161316, "timer/agent.train_frac": 0.8853852053699911, "timer/agent.train_avg": 0.3724367541759288, "timer/agent.train_min": 0.36570310592651367, "timer/agent.train_max": 0.3861963748931885, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22284841537475586, "timer/agent.report_frac": 0.000741978064410887, "timer/agent.report_avg": 0.22284841537475586, "timer/agent.report_min": 0.22284841537475586, "timer/agent.report_max": 0.22284841537475586, "fps": 4.7544539773649275}
{"step": 6851, "episode/length": 204.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.3000000193715096, "episode/reward_rate": 0.01951219512195122}
{"step": 6929, "episode/length": 77.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.05128205128205128}
{"step": 7110, "episode/length": 180.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.022099447513812154}
{"step": 7320, "episode/length": 209.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.03333333333333333}
{"step": 7499, "episode/length": 178.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.100000016391277, "episode/reward_rate": 0.01675977653631285}
{"step": 7625, "episode/length": 125.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.700000025331974, "episode/reward_rate": 0.023809523809523808}
{"step": 7780, "episode/length": 154.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 4.900000013411045, "episode/reward_rate": 0.025806451612903226}
{"step": 7933, "episode/length": 152.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.100000016391277, "episode/reward_rate": 0.0196078431372549}
{"step": 8112, "episode/length": 178.0, "episode/score": 2.0999999791383743, "episode/sum_abs_reward": 3.9000000208616257, "episode/reward_rate": 0.01675977653631285}
{"step": 8219, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 5.85781012641059, "train/action_min": 0.0, "train/action_std": 4.600077506568697, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03616839233371946, "train/actor_opt_grad_steps": 3205.0, "train/actor_opt_loss": 29.545377103818787, "train/adv_mag": 0.7957553519970841, "train/adv_max": 0.7864775471389294, "train/adv_mean": 0.008720828123235455, "train/adv_min": -0.4541303693420357, "train/adv_std": 0.07293715871249636, "train/cont_avg": 0.9940185546875, "train/cont_loss_mean": 0.0003926602865362838, "train/cont_loss_std": 0.010176052819335583, "train/cont_neg_acc": 0.9860008822547065, "train/cont_neg_loss": 0.03801724667699899, "train/cont_pos_acc": 0.9999590416749319, "train/cont_pos_loss": 0.00014779376581309912, "train/cont_pred": 0.993994733525647, "train/cont_rate": 0.9940185546875, "train/dyn_loss_mean": 4.30394787258572, "train/dyn_loss_std": 6.544253879123264, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.4265706969632044, "train/extr_critic_critic_opt_grad_steps": 3205.0, "train/extr_critic_critic_opt_loss": 15786.152994791666, "train/extr_critic_mag": 5.773643983734979, "train/extr_critic_max": 5.773643983734979, "train/extr_critic_mean": 1.7587872727049723, "train/extr_critic_min": -0.2712191939353943, "train/extr_critic_std": 1.754578110244539, "train/extr_return_normed_mag": 1.7406414151191711, "train/extr_return_normed_max": 1.7406414151191711, "train/extr_return_normed_mean": 0.40411723405122757, "train/extr_return_normed_min": -0.10753663355070683, "train/extr_return_normed_std": 0.3740474623110559, "train/extr_return_rate": 0.6009765946202807, "train/extr_return_raw_mag": 8.392681201299032, "train/extr_return_raw_max": 8.392681201299032, "train/extr_return_raw_mean": 1.8016669518417783, "train/extr_return_raw_min": -0.7207764358156257, "train/extr_return_raw_std": 1.8441051476531558, "train/extr_reward_mag": 1.003287888235516, "train/extr_reward_max": 1.003287888235516, "train/extr_reward_mean": 0.02427269297833037, "train/extr_reward_min": -0.42039870884683395, "train/extr_reward_std": 0.14578506091816557, "train/image_loss_mean": 9.582823124196794, "train/image_loss_std": 9.40839100546307, "train/model_loss_mean": 12.209772282176548, "train/model_loss_std": 11.978977474901411, "train/model_opt_grad_norm": 88.46621640523274, "train/model_opt_grad_steps": 3196.0, "train/model_opt_loss": 1662.5748240152996, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 137.80381944444446, "train/policy_entropy_mag": 2.489552312427097, "train/policy_entropy_max": 2.489552312427097, "train/policy_entropy_mean": 0.9376780448688401, "train/policy_entropy_min": 0.07948289501170318, "train/policy_entropy_std": 0.6069924285014471, "train/policy_logprob_mag": 7.437425759103563, "train/policy_logprob_max": -0.009470943012274802, "train/policy_logprob_mean": -0.9379948518342442, "train/policy_logprob_min": -7.437425759103563, "train/policy_logprob_std": 1.2796379857593112, "train/policy_randomness_mag": 0.8787027133835686, "train/policy_randomness_max": 0.8787027133835686, "train/policy_randomness_mean": 0.3309592004451487, "train/policy_randomness_min": 0.02805397395665447, "train/policy_randomness_std": 0.21424169321027067, "train/post_ent_mag": 41.30893140368991, "train/post_ent_max": 41.30893140368991, "train/post_ent_mean": 24.80148145887587, "train/post_ent_min": 10.761106597052681, "train/post_ent_std": 5.2564324206776085, "train/prior_ent_mag": 60.604467233022056, "train/prior_ent_max": 60.604467233022056, "train/prior_ent_mean": 29.660309341218735, "train/prior_ent_min": 12.355113294389513, "train/prior_ent_std": 8.118235369523367, "train/rep_loss_mean": 4.30394787258572, "train/rep_loss_std": 6.544253879123264, "train/reward_avg": 0.010618760742040144, "train/reward_loss_mean": 0.04418758740131226, "train/reward_loss_std": 0.2255068694551786, "train/reward_max_data": 1.0, "train/reward_max_pred": 1.0014842765198813, "train/reward_neg_acc": 0.9950900814599462, "train/reward_neg_loss": 0.030848132381733093, "train/reward_pos_acc": 0.9621934021512667, "train/reward_pos_loss": 0.8872793465852737, "train/reward_pred": 0.010417811894310743, "train/reward_rate": 0.015950520833333332, "stats/sum_log_reward": 2.8777777089012995, "stats/max_log_achievement_collect_drink": 0.0, "stats/max_log_achievement_collect_sapling": 2.2222222222222223, "stats/max_log_achievement_collect_wood": 1.2222222222222223, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_eat_cow": 0.1111111111111111, "stats/max_log_achievement_place_plant": 2.111111111111111, "stats/max_log_achievement_place_table": 0.2222222222222222, "stats/max_log_achievement_wake_up": 1.5555555555555556, "stats/mean_log_entropy": 1.0364816851086087, "stats/max_log_achievement_defeat_zombie": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 0.16666666666666666, "replay/size": 8156.0, "replay/inserts": 1438.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.2048895229716293e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.414138849653687e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2982409000397, "timer/env.step_count": 1438.0, "timer/env.step_total": 21.645522594451904, "timer/env.step_frac": 0.07208008455053538, "timer/env.step_avg": 0.015052519189465858, "timer/env.step_min": 0.0027854442596435547, "timer/env.step_max": 1.6192731857299805, "timer/replay.add_count": 1438.0, "timer/replay.add_total": 0.25594329833984375, "timer/replay.add_frac": 0.0008522970283566851, "timer/replay.add_avg": 0.00017798560385246437, "timer/replay.add_min": 5.817413330078125e-05, "timer/replay.add_max": 0.0008027553558349609, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.019601106643676758, "timer/logger.write_frac": 6.527213274686275e-05, "timer/logger.write_avg": 0.019601106643676758, "timer/logger.write_min": 0.019601106643676758, "timer/logger.write_max": 0.019601106643676758, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1438.0, "timer/agent.policy_total": 10.577173948287964, "timer/agent.policy_frac": 0.03522223079491428, "timer/agent.policy_avg": 0.007355475624678695, "timer/agent.policy_min": 0.0058405399322509766, "timer/agent.policy_max": 0.018861770629882812, "timer/dataset_count": 719.0, "timer/dataset_total": 0.05457711219787598, "timer/dataset_frac": 0.0001817430299767992, "timer/dataset_avg": 7.590697106797771e-05, "timer/dataset_min": 5.602836608886719e-05, "timer/dataset_max": 0.0001678466796875, "timer/agent.train_count": 719.0, "timer/agent.train_total": 267.0850045681, "timer/agent.train_frac": 0.8893991645359142, "timer/agent.train_avg": 0.3714673220696801, "timer/agent.train_min": 0.36177945137023926, "timer/agent.train_max": 0.3843882083892822, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21935701370239258, "timer/agent.report_frac": 0.0007304638650061556, "timer/agent.report_avg": 0.21935701370239258, "timer/agent.report_min": 0.21935701370239258, "timer/agent.report_max": 0.21935701370239258, "fps": 4.788469150052469}
{"step": 8286, "episode/length": 173.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 4.899999991059303, "episode/reward_rate": 0.028735632183908046}
{"step": 8489, "episode/length": 202.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.019704433497536946}
{"step": 8652, "episode/length": 162.0, "episode/score": 0.09999998658895493, "episode/sum_abs_reward": 2.1000000163912773, "episode/reward_rate": 0.006134969325153374}
{"step": 8893, "episode/length": 240.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 4.900000013411045, "episode/reward_rate": 0.016597510373443983}
{"step": 9045, "episode/length": 151.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 3.900000013411045, "episode/reward_rate": 0.019736842105263157}
{"step": 9216, "episode/length": 170.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.100000016391277, "episode/reward_rate": 0.017543859649122806}
{"step": 9432, "episode/length": 215.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.023148148148148147}
{"step": 9585, "episode/length": 152.0, "episode/score": 0.09999998658895493, "episode/sum_abs_reward": 1.900000013411045, "episode/reward_rate": 0.006535947712418301}
{"step": 9643, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 6.342467402068662, "train/action_min": 0.0, "train/action_std": 4.334232689629139, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0318277244731574, "train/actor_opt_grad_steps": 3920.0, "train/actor_opt_loss": -16.005081170041795, "train/adv_mag": 0.7800732733498157, "train/adv_max": 0.763355554829181, "train/adv_mean": 0.003143872754995934, "train/adv_min": -0.42226208683470606, "train/adv_std": 0.0664143924352149, "train/cont_avg": 0.994291923415493, "train/cont_loss_mean": 0.0009145715850907045, "train/cont_loss_std": 0.02500838796538734, "train/cont_neg_acc": 0.9632517384811187, "train/cont_neg_loss": 0.1186902366903845, "train/cont_pos_acc": 0.99994454753231, "train/cont_pos_loss": 0.00019881656737204677, "train/cont_pred": 0.9944215710733978, "train/cont_rate": 0.994291923415493, "train/dyn_loss_mean": 4.285608160663658, "train/dyn_loss_std": 6.552314167291346, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.3297537363750833, "train/extr_critic_critic_opt_grad_steps": 3920.0, "train/extr_critic_critic_opt_loss": 15118.29336762764, "train/extr_critic_mag": 6.275451492255842, "train/extr_critic_max": 6.275451492255842, "train/extr_critic_mean": 1.6878813177766934, "train/extr_critic_min": -0.27685776562757897, "train/extr_critic_std": 1.695230589786046, "train/extr_return_normed_mag": 1.7881861119203164, "train/extr_return_normed_max": 1.7881861119203164, "train/extr_return_normed_mean": 0.3822450513990832, "train/extr_return_normed_min": -0.11372991672284166, "train/extr_return_normed_std": 0.35931055520621824, "train/extr_return_rate": 0.6096794622045167, "train/extr_return_raw_mag": 8.620304087517967, "train/extr_return_raw_max": 8.620304087517967, "train/extr_return_raw_mean": 1.7037222603677025, "train/extr_return_raw_min": -0.7367654333651905, "train/extr_return_raw_std": 1.7670364698893588, "train/extr_reward_mag": 1.005902864563633, "train/extr_reward_max": 1.005902864563633, "train/extr_reward_mean": 0.0196246735581105, "train/extr_reward_min": -0.41216895278071014, "train/extr_reward_std": 0.13482589872790054, "train/image_loss_mean": 7.949422453490781, "train/image_loss_std": 8.923229425725802, "train/model_loss_mean": 10.561007479546776, "train/model_loss_std": 11.505082251320422, "train/model_opt_grad_norm": 103.11285932299117, "train/model_opt_grad_steps": 3911.0, "train/model_opt_loss": 2236.5337739326583, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 213.46830985915494, "train/policy_entropy_mag": 2.4524376224464093, "train/policy_entropy_max": 2.4524376224464093, "train/policy_entropy_mean": 0.7943905163818682, "train/policy_entropy_min": 0.07941769745568154, "train/policy_entropy_std": 0.558920296145157, "train/policy_logprob_mag": 7.43798866406293, "train/policy_logprob_max": -0.009462142323838994, "train/policy_logprob_mean": -0.7952723956443895, "train/policy_logprob_min": -7.43798866406293, "train/policy_logprob_std": 1.2302401737428048, "train/policy_randomness_mag": 0.8656028593090218, "train/policy_randomness_max": 0.8656028593090218, "train/policy_randomness_mean": 0.2803849913704563, "train/policy_randomness_min": 0.028030961961813376, "train/policy_randomness_std": 0.19727433651265963, "train/post_ent_mag": 40.056953860000824, "train/post_ent_max": 40.056953860000824, "train/post_ent_mean": 24.609172471812073, "train/post_ent_min": 10.140182387660927, "train/post_ent_std": 5.208892640933184, "train/prior_ent_mag": 61.56694971004003, "train/prior_ent_max": 61.56694971004003, "train/prior_ent_mean": 29.23116705451213, "train/prior_ent_min": 11.426985552613164, "train/prior_ent_std": 8.13198082883593, "train/rep_loss_mean": 4.285608160663658, "train/rep_loss_std": 6.552314167291346, "train/reward_avg": 0.01198145889424601, "train/reward_loss_mean": 0.03930547450419883, "train/reward_loss_std": 0.20100478932891094, "train/reward_max_data": 1.0, "train/reward_max_pred": 1.0031676695380412, "train/reward_neg_acc": 0.9957588877476437, "train/reward_neg_loss": 0.02613660547567505, "train/reward_pos_acc": 0.9755532531671121, "train/reward_pos_loss": 0.8127187784288971, "train/reward_pred": 0.011888635987547082, "train/reward_rate": 0.016890404929577465, "stats/sum_log_reward": 2.22499992698431, "stats/max_log_achievement_collect_drink": 5.0, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_wood": 0.25, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_table": 0.0, "stats/max_log_achievement_wake_up": 1.875, "stats/mean_log_entropy": 0.8966918587684631, "replay/size": 9580.0, "replay/inserts": 1424.0, "replay/samples": 11392.0, "replay/insert_wait_avg": 3.208605091223556e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.414459240570497e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.23171734809875, "timer/env.step_count": 1424.0, "timer/env.step_total": 21.68330430984497, "timer/env.step_frac": 0.07222189747762266, "timer/env.step_avg": 0.015227039543430456, "timer/env.step_min": 0.0025632381439208984, "timer/env.step_max": 1.7952468395233154, "timer/replay.add_count": 1424.0, "timer/replay.add_total": 0.2538907527923584, "timer/replay.add_frac": 0.0008456493372350427, "timer/replay.add_avg": 0.0001782940679721618, "timer/replay.add_min": 6.318092346191406e-05, "timer/replay.add_max": 0.009315729141235352, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0205996036529541, "timer/logger.write_frac": 6.861234993726605e-05, "timer/logger.write_avg": 0.0205996036529541, "timer/logger.write_min": 0.0205996036529541, "timer/logger.write_max": 0.0205996036529541, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0006208419799804688, "timer/checkpoint.save_frac": 2.0678760574141593e-06, "timer/checkpoint.save_avg": 0.0006208419799804688, "timer/checkpoint.save_min": 0.0006208419799804688, "timer/checkpoint.save_max": 0.0006208419799804688, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.404552698135376, "timer/agent.save_frac": 0.0046782289044661135, "timer/agent.save_avg": 1.404552698135376, "timer/agent.save_min": 1.404552698135376, "timer/agent.save_max": 1.404552698135376, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.654594421386719e-05, "timer/replay.save_frac": 2.8826382828008445e-07, "timer/replay.save_avg": 8.654594421386719e-05, "timer/replay.save_min": 8.654594421386719e-05, "timer/replay.save_max": 8.654594421386719e-05, "timer/agent.policy_count": 1424.0, "timer/agent.policy_total": 13.287226676940918, "timer/agent.policy_frac": 0.04425657220464572, "timer/agent.policy_avg": 0.009330917610211318, "timer/agent.policy_min": 0.005524873733520508, "timer/agent.policy_max": 1.3939857482910156, "timer/dataset_count": 712.0, "timer/dataset_total": 0.056775569915771484, "timer/dataset_frac": 0.00018910583604311192, "timer/dataset_avg": 7.974096898282512e-05, "timer/dataset_min": 5.7220458984375e-05, "timer/dataset_max": 0.0002970695495605469, "timer/agent.train_count": 712.0, "timer/agent.train_total": 264.2402663230896, "timer/agent.train_frac": 0.8801210899937015, "timer/agent.train_avg": 0.3711239695549011, "timer/agent.train_min": 0.36328721046447754, "timer/agent.train_max": 0.38361477851867676, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2179889678955078, "timer/agent.report_frac": 0.0007260690836430318, "timer/agent.report_avg": 0.2179889678955078, "timer/agent.report_min": 0.2179889678955078, "timer/agent.report_max": 0.2179889678955078, "fps": 4.742900517989275}
{"step": 9756, "episode/length": 170.0, "episode/score": 0.09999998658895493, "episode/sum_abs_reward": 2.500000022351742, "episode/reward_rate": 0.005847953216374269}
{"step": 9967, "episode/length": 210.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.3000000193715096, "episode/reward_rate": 0.018957345971563982}
{"step": 10025, "episode/length": 57.0, "episode/score": 0.10000000894069672, "episode/sum_abs_reward": 2.0999999940395355, "episode/reward_rate": 0.034482758620689655}
{"step": 10191, "episode/length": 165.0, "episode/score": 1.099999986588955, "episode/sum_abs_reward": 2.900000013411045, "episode/reward_rate": 0.012048192771084338}
{"step": 10407, "episode/length": 215.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 4.900000013411045, "episode/reward_rate": 0.018518518518518517}
{"step": 10600, "episode/length": 192.0, "episode/score": 1.099999986588955, "episode/sum_abs_reward": 3.1000000163912773, "episode/reward_rate": 0.010362694300518135}
{"step": 10849, "episode/length": 248.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.024096385542168676}
{"step": 11030, "episode/length": 180.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.022099447513812154}
{"step": 11093, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 5.3207812839084205, "train/action_min": 0.0, "train/action_std": 3.810760213269128, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03483912654014097, "train/actor_opt_grad_steps": 4635.0, "train/actor_opt_loss": -4.199556164857414, "train/adv_mag": 0.8458852176037099, "train/adv_max": 0.8300179719097085, "train/adv_mean": 0.005792576249304047, "train/adv_min": -0.45990393517745864, "train/adv_std": 0.06685140485771829, "train/cont_avg": 0.994140625, "train/cont_loss_mean": 0.00023758121766882646, "train/cont_loss_std": 0.006751231202189147, "train/cont_neg_acc": 0.9982638888888888, "train/cont_neg_loss": 0.010636958635283614, "train/cont_pos_acc": 0.9999589671691259, "train/cont_pos_loss": 0.00016086748149114606, "train/cont_pred": 0.994065672159195, "train/cont_rate": 0.994140625, "train/dyn_loss_mean": 4.118946072128084, "train/dyn_loss_std": 6.649912238121033, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.379344080057409, "train/extr_critic_critic_opt_grad_steps": 4635.0, "train/extr_critic_critic_opt_loss": 15849.942192925348, "train/extr_critic_mag": 6.5839364065064325, "train/extr_critic_max": 6.5839364065064325, "train/extr_critic_mean": 1.4326951644486852, "train/extr_critic_min": -0.29402880205048454, "train/extr_critic_std": 1.534519362780783, "train/extr_return_normed_mag": 1.8772152927186754, "train/extr_return_normed_max": 1.8772152927186754, "train/extr_return_normed_mean": 0.34863523828486603, "train/extr_return_normed_min": -0.12809274537074897, "train/extr_return_normed_std": 0.3466404411527846, "train/extr_return_rate": 0.5890299781329102, "train/extr_return_raw_mag": 8.548866967360178, "train/extr_return_raw_max": 8.548866967360178, "train/extr_return_raw_mean": 1.459630356894599, "train/extr_return_raw_min": -0.7516738399863243, "train/extr_return_raw_std": 1.6079070170720418, "train/extr_reward_mag": 1.005891786681281, "train/extr_reward_max": 1.005891786681281, "train/extr_reward_mean": 0.021459717930863716, "train/extr_reward_min": -0.4639900243944592, "train/extr_reward_std": 0.14238741310934225, "train/image_loss_mean": 7.230016820960575, "train/image_loss_std": 8.678584323989021, "train/model_loss_mean": 9.739567750030094, "train/model_loss_std": 11.367428845829433, "train/model_opt_grad_norm": 86.71723792288039, "train/model_opt_grad_steps": 4626.0, "train/model_opt_loss": 3043.614919026693, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 312.5, "train/policy_entropy_mag": 2.4699345098601446, "train/policy_entropy_max": 2.4699345098601446, "train/policy_entropy_mean": 0.7506681010127068, "train/policy_entropy_min": 0.07938176983346541, "train/policy_entropy_std": 0.5880306172702048, "train/policy_logprob_mag": 7.438207129637401, "train/policy_logprob_max": -0.009457099225579036, "train/policy_logprob_mean": -0.7507396282421218, "train/policy_logprob_min": -7.438207129637401, "train/policy_logprob_std": 1.2189165006081264, "train/policy_randomness_mag": 0.8717784898148643, "train/policy_randomness_max": 0.8717784898148643, "train/policy_randomness_mean": 0.2649529000951184, "train/policy_randomness_min": 0.02801828117420276, "train/policy_randomness_std": 0.20754900409115684, "train/post_ent_mag": 39.176126903957794, "train/post_ent_max": 39.176126903957794, "train/post_ent_mean": 24.060800366931492, "train/post_ent_min": 9.729818185170492, "train/post_ent_std": 5.025507503085667, "train/prior_ent_mag": 62.31601211759779, "train/prior_ent_max": 62.31601211759779, "train/prior_ent_mean": 28.5788762834337, "train/prior_ent_min": 11.11735561158922, "train/prior_ent_std": 8.158292637930977, "train/rep_loss_mean": 4.118946072128084, "train/rep_loss_std": 6.649912238121033, "train/reward_avg": 0.010942925328789797, "train/reward_loss_mean": 0.037945775936047234, "train/reward_loss_std": 0.21446796744647953, "train/reward_max_data": 1.0, "train/reward_max_pred": 1.0031021005577512, "train/reward_neg_acc": 0.9967735865049892, "train/reward_neg_loss": 0.02527828152394957, "train/reward_pos_acc": 0.971766606801086, "train/reward_pos_loss": 0.8209023434254858, "train/reward_pred": 0.01061184790968481, "train/reward_rate": 0.016045464409722224, "stats/sum_log_reward": 2.099999944679439, "stats/max_log_achievement_collect_drink": 1.875, "stats/max_log_achievement_collect_sapling": 1.25, "stats/max_log_achievement_collect_wood": 0.625, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_table": 0.0, "stats/max_log_achievement_wake_up": 1.75, "stats/mean_log_entropy": 0.8169294223189354, "replay/size": 11030.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.289189831963901e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.417460112736143e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3751587867737, "timer/env.step_count": 1450.0, "timer/env.step_total": 19.645362377166748, "timer/env.step_frac": 0.06540275319875015, "timer/env.step_avg": 0.013548525777356378, "timer/env.step_min": 0.002554178237915039, "timer/env.step_max": 1.5946791172027588, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.2685253620147705, "timer/replay.add_frac": 0.0008939666086215462, "timer/replay.add_avg": 0.00018518990483777276, "timer/replay.add_min": 6.222724914550781e-05, "timer/replay.add_max": 0.004770994186401367, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029163122177124023, "timer/logger.write_frac": 9.708899462563731e-05, "timer/logger.write_avg": 0.029163122177124023, "timer/logger.write_min": 0.029163122177124023, "timer/logger.write_max": 0.029163122177124023, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 10.648464441299438, "timer/agent.policy_frac": 0.03545054952050289, "timer/agent.policy_avg": 0.007343768580206509, "timer/agent.policy_min": 0.005757570266723633, "timer/agent.policy_max": 0.027825117111206055, "timer/dataset_count": 725.0, "timer/dataset_total": 0.056644439697265625, "timer/dataset_frac": 0.00018857897545873834, "timer/dataset_avg": 7.813026165140086e-05, "timer/dataset_min": 5.602836608886719e-05, "timer/dataset_max": 0.00019979476928710938, "timer/agent.train_count": 725.0, "timer/agent.train_total": 269.05426263809204, "timer/agent.train_frac": 0.8957274087671301, "timer/agent.train_avg": 0.37110932777667865, "timer/agent.train_min": 0.36363840103149414, "timer/agent.train_max": 0.3858025074005127, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21962285041809082, "timer/agent.report_frac": 0.0007311618287782371, "timer/agent.report_avg": 0.21962285041809082, "timer/agent.report_min": 0.21962285041809082, "timer/agent.report_max": 0.21962285041809082, "fps": 4.827217061146534}
{"step": 11200, "episode/length": 169.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.023529411764705882}
{"step": 11402, "episode/length": 201.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.3000000193715096, "episode/reward_rate": 0.024752475247524754}
{"step": 11591, "episode/length": 188.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.026455026455026454}
{"step": 11792, "episode/length": 200.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 6.700000047683716, "episode/reward_rate": 0.024875621890547265}
{"step": 11974, "episode/length": 181.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03296703296703297}
{"step": 12120, "episode/length": 145.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.100000016391277, "episode/reward_rate": 0.02054794520547945}
{"step": 12321, "episode/length": 200.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.024875621890547265}
{"step": 12512, "episode/length": 190.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.020942408376963352}
{"step": 12531, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 5.2481494479709205, "train/action_min": 0.0, "train/action_std": 3.8060914973417916, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.039967289892956614, "train/actor_opt_grad_steps": 5355.0, "train/actor_opt_loss": 23.867962181412924, "train/adv_mag": 1.0079472967320018, "train/adv_max": 0.9819062683317397, "train/adv_mean": 0.007844164285567482, "train/adv_min": -0.6008455931312509, "train/adv_std": 0.07066588160685366, "train/cont_avg": 0.9940049913194444, "train/cont_loss_mean": 0.0005703537692767213, "train/cont_loss_std": 0.015413564412057212, "train/cont_neg_acc": 0.9902497215403451, "train/cont_neg_loss": 0.04582832719562349, "train/cont_pos_acc": 0.9999318511949645, "train/cont_pos_loss": 0.0002344158296435022, "train/cont_pred": 0.9939709835582309, "train/cont_rate": 0.9940049913194444, "train/dyn_loss_mean": 4.034957746664683, "train/dyn_loss_std": 6.8883640964825945, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.3694244474172592, "train/extr_critic_critic_opt_grad_steps": 5355.0, "train/extr_critic_critic_opt_loss": 15846.591159396701, "train/extr_critic_mag": 7.717860043048859, "train/extr_critic_max": 7.717860043048859, "train/extr_critic_mean": 1.5598997962143686, "train/extr_critic_min": -0.320529419514868, "train/extr_critic_std": 1.5800268054008484, "train/extr_return_normed_mag": 2.0392514947387905, "train/extr_return_normed_max": 2.0392514947387905, "train/extr_return_normed_mean": 0.3788283804638518, "train/extr_return_normed_min": -0.14557999129303628, "train/extr_return_normed_std": 0.3576931098683013, "train/extr_return_rate": 0.7123408930169212, "train/extr_return_raw_mag": 9.307987021075355, "train/extr_return_raw_max": 9.307987021075355, "train/extr_return_raw_mean": 1.5964466217491362, "train/extr_return_raw_min": -0.8397354785766866, "train/extr_return_raw_std": 1.6627684864732954, "train/extr_reward_mag": 1.0052520384391148, "train/extr_reward_max": 1.0052520384391148, "train/extr_reward_mean": 0.02462454740371969, "train/extr_reward_min": -0.46055858665042454, "train/extr_reward_std": 0.15103662096791798, "train/image_loss_mean": 6.525808566146427, "train/image_loss_std": 9.622543295224508, "train/model_loss_mean": 8.986324608325958, "train/model_loss_std": 12.452056189378103, "train/model_opt_grad_norm": 77.07258007261488, "train/model_opt_grad_steps": 5346.0, "train/model_opt_loss": 5548.970998128255, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 616.3194444444445, "train/policy_entropy_mag": 2.5183665487501354, "train/policy_entropy_max": 2.5183665487501354, "train/policy_entropy_mean": 0.7330192037754588, "train/policy_entropy_min": 0.0793771871055166, "train/policy_entropy_std": 0.6420735932058759, "train/policy_logprob_mag": 7.438303523593479, "train/policy_logprob_max": -0.00945625628810376, "train/policy_logprob_mean": -0.7330667806996239, "train/policy_logprob_min": -7.438303523593479, "train/policy_logprob_std": 1.220254851712121, "train/policy_randomness_mag": 0.888872874279817, "train/policy_randomness_max": 0.888872874279817, "train/policy_randomness_mean": 0.258723609149456, "train/policy_randomness_min": 0.02801666357037094, "train/policy_randomness_std": 0.22662379903097948, "train/post_ent_mag": 38.497228463490806, "train/post_ent_max": 38.497228463490806, "train/post_ent_mean": 23.823210769229465, "train/post_ent_min": 9.574311282899645, "train/post_ent_std": 4.840019375085831, "train/prior_ent_mag": 62.94600375493368, "train/prior_ent_max": 62.94600375493368, "train/prior_ent_mean": 28.033938301934135, "train/prior_ent_min": 10.96513623661465, "train/prior_ent_std": 8.087202078766293, "train/rep_loss_mean": 4.034957746664683, "train/rep_loss_std": 6.8883640964825945, "train/reward_avg": 0.011648220343178965, "train/reward_loss_mean": 0.03897103131748736, "train/reward_loss_std": 0.20153058599680662, "train/reward_max_data": 1.0041666676600773, "train/reward_max_pred": 1.00265185866091, "train/reward_neg_acc": 0.9958849185042911, "train/reward_neg_loss": 0.025787358767249517, "train/reward_pos_acc": 0.9777450238664945, "train/reward_pos_loss": 0.7981941642032729, "train/reward_pred": 0.011379112822598673, "train/reward_rate": 0.017049153645833332, "stats/sum_log_reward": 3.7249999046325684, "stats/max_log_achievement_collect_drink": 6.5, "stats/max_log_achievement_collect_sapling": 2.125, "stats/max_log_achievement_collect_wood": 1.125, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_table": 0.125, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.8685479164123535, "replay/size": 12468.0, "replay/inserts": 1438.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.252142162084248e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3534772379507773e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.20999813079834, "timer/env.step_count": 1438.0, "timer/env.step_total": 20.792962312698364, "timer/env.step_frac": 0.0692613918329232, "timer/env.step_avg": 0.014459639994922367, "timer/env.step_min": 0.002732992172241211, "timer/env.step_max": 1.6313152313232422, "timer/replay.add_count": 1438.0, "timer/replay.add_total": 0.2743196487426758, "timer/replay.add_frac": 0.0009137592033932114, "timer/replay.add_avg": 0.00019076470705332112, "timer/replay.add_min": 5.936622619628906e-05, "timer/replay.add_max": 0.017430543899536133, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02094721794128418, "timer/logger.write_frac": 6.97752175867164e-05, "timer/logger.write_avg": 0.02094721794128418, "timer/logger.write_min": 0.02094721794128418, "timer/logger.write_max": 0.02094721794128418, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1438.0, "timer/agent.policy_total": 10.59375810623169, "timer/agent.policy_frac": 0.03528782576260535, "timer/agent.policy_avg": 0.007367008418798115, "timer/agent.policy_min": 0.005802154541015625, "timer/agent.policy_max": 0.018477201461791992, "timer/dataset_count": 719.0, "timer/dataset_total": 0.056114912033081055, "timer/dataset_frac": 0.00018691886473625165, "timer/dataset_avg": 7.804577473307518e-05, "timer/dataset_min": 5.459785461425781e-05, "timer/dataset_max": 0.00018072128295898438, "timer/agent.train_count": 719.0, "timer/agent.train_total": 267.80551195144653, "timer/agent.train_frac": 0.8920606029742104, "timer/agent.train_avg": 0.3724694185694667, "timer/agent.train_min": 0.36606693267822266, "timer/agent.train_max": 0.38643980026245117, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21924877166748047, "timer/agent.report_frac": 0.0007303180208273946, "timer/agent.report_avg": 0.21924877166748047, "timer/agent.report_min": 0.21924877166748047, "timer/agent.report_max": 0.21924877166748047, "fps": 4.789879342904837}
{"step": 12548, "episode/length": 35.0, "episode/score": 2.100000023841858, "episode/sum_abs_reward": 3.5, "episode/reward_rate": 0.1111111111111111}
{"step": 12963, "episode/length": 414.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.012048192771084338}
{"step": 13119, "episode/length": 155.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.02564102564102564}
{"step": 13283, "episode/length": 163.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.03048780487804878}
{"step": 13513, "episode/length": 229.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.02608695652173913}
{"step": 13699, "episode/length": 185.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.021505376344086023}
{"step": 13869, "episode/length": 169.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.023529411764705882}
{"step": 13953, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.708882936289613, "train/action_min": 0.0, "train/action_std": 3.278825232680415, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.043599285001696, "train/actor_opt_grad_steps": 6070.0, "train/actor_opt_loss": 35.88048879025688, "train/adv_mag": 0.9990492971010612, "train/adv_max": 0.9596296179462487, "train/adv_mean": 0.011787076678879651, "train/adv_min": -0.6265946962464024, "train/adv_std": 0.0740485530818852, "train/cont_avg": 0.9951309419014085, "train/cont_loss_mean": 0.001039957336702237, "train/cont_loss_std": 0.024402035559087123, "train/cont_neg_acc": 0.9783753047526722, "train/cont_neg_loss": 0.12930894756547634, "train/cont_pos_acc": 0.9997926413173407, "train/cont_pos_loss": 0.000432833377589173, "train/cont_pred": 0.9950443539820927, "train/cont_rate": 0.9951309419014085, "train/dyn_loss_mean": 4.138800040097304, "train/dyn_loss_std": 6.858957559290067, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.3719550094134372, "train/extr_critic_critic_opt_grad_steps": 6070.0, "train/extr_critic_critic_opt_loss": 15846.906800176057, "train/extr_critic_mag": 8.510736008764992, "train/extr_critic_max": 8.510736008764992, "train/extr_critic_mean": 1.6805415354983908, "train/extr_critic_min": -0.33863419714108317, "train/extr_critic_std": 1.5729330610221541, "train/extr_return_normed_mag": 1.9997444438262724, "train/extr_return_normed_max": 1.9997444438262724, "train/extr_return_normed_mean": 0.3889082498113874, "train/extr_return_normed_min": -0.10482013765984857, "train/extr_return_normed_std": 0.3375440309165229, "train/extr_return_rate": 0.7344007114289512, "train/extr_return_raw_mag": 9.808513768961731, "train/extr_return_raw_max": 9.808513768961731, "train/extr_return_raw_mean": 1.740057842832216, "train/extr_return_raw_min": -0.7200730648678793, "train/extr_return_raw_std": 1.6875102486408933, "train/extr_reward_mag": 1.0056895974656226, "train/extr_reward_max": 1.0056895974656226, "train/extr_reward_mean": 0.026095448481574864, "train/extr_reward_min": -0.4351425355588886, "train/extr_reward_std": 0.1543942810574048, "train/image_loss_mean": 7.244844292251157, "train/image_loss_std": 10.65022751982783, "train/model_loss_mean": 9.767259711950597, "train/model_loss_std": 13.454827617591535, "train/model_opt_grad_norm": 84.76595491758535, "train/model_opt_grad_steps": 6060.295774647887, "train/model_opt_loss": 4079.159336143816, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 404.92957746478874, "train/policy_entropy_mag": 2.4471582526892, "train/policy_entropy_max": 2.4471582526892, "train/policy_entropy_mean": 0.6238032533249385, "train/policy_entropy_min": 0.07937578227318509, "train/policy_entropy_std": 0.5620339752083093, "train/policy_logprob_mag": 7.438361416400318, "train/policy_logprob_max": -0.009455932238677018, "train/policy_logprob_mean": -0.6242202419630238, "train/policy_logprob_min": -7.438361416400318, "train/policy_logprob_std": 1.1627201882886216, "train/policy_randomness_mag": 0.8637394745584944, "train/policy_randomness_max": 0.8637394745584944, "train/policy_randomness_mean": 0.22017517245151627, "train/policy_randomness_min": 0.02801616788959839, "train/policy_randomness_std": 0.19837332884190786, "train/post_ent_mag": 38.33443515401491, "train/post_ent_max": 38.33443515401491, "train/post_ent_mean": 24.008334415059693, "train/post_ent_min": 9.522090858137103, "train/post_ent_std": 4.927578788408091, "train/prior_ent_mag": 63.64368148588798, "train/prior_ent_max": 63.64368148588798, "train/prior_ent_mean": 28.35758539656518, "train/prior_ent_min": 10.822181392723406, "train/prior_ent_std": 8.149201910260697, "train/rep_loss_mean": 4.138800040097304, "train/rep_loss_std": 6.858957559290067, "train/reward_avg": 0.014090008718866698, "train/reward_loss_mean": 0.03809544407355953, "train/reward_loss_std": 0.20682448883291701, "train/reward_max_data": 1.0042253531200784, "train/reward_max_pred": 1.0034859247610604, "train/reward_neg_acc": 0.9964377023804356, "train/reward_neg_loss": 0.02369889443818952, "train/reward_pos_acc": 0.9767033508126165, "train/reward_pos_loss": 0.8009958930418525, "train/reward_pred": 0.013864608684843275, "train/reward_rate": 0.018650968309859156, "stats/sum_log_reward": 3.5285713332039967, "stats/max_log_achievement_collect_drink": 7.0, "stats/max_log_achievement_collect_sapling": 2.5714285714285716, "stats/max_log_achievement_collect_wood": 1.8571428571428572, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_table": 0.2857142857142857, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.6627817494528634, "replay/size": 13890.0, "replay/inserts": 1422.0, "replay/samples": 11376.0, "replay/insert_wait_avg": 3.243800457016828e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3603230233601545e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.18732261657715, "timer/env.step_count": 1422.0, "timer/env.step_total": 19.323160886764526, "timer/env.step_frac": 0.06437034288568404, "timer/env.step_avg": 0.013588720736121327, "timer/env.step_min": 0.0029354095458984375, "timer/env.step_max": 1.678335189819336, "timer/replay.add_count": 1422.0, "timer/replay.add_total": 0.2665250301361084, "timer/replay.add_frac": 0.000887862378107603, "timer/replay.add_avg": 0.0001874296977047176, "timer/replay.add_min": 5.91278076171875e-05, "timer/replay.add_max": 0.013453483581542969, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021079301834106445, "timer/logger.write_frac": 7.022049315863544e-05, "timer/logger.write_avg": 0.021079301834106445, "timer/logger.write_min": 0.021079301834106445, "timer/logger.write_max": 0.021079301834106445, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0005381107330322266, "timer/checkpoint.save_frac": 1.7925831388940562e-06, "timer/checkpoint.save_avg": 0.0005381107330322266, "timer/checkpoint.save_min": 0.0005381107330322266, "timer/checkpoint.save_max": 0.0005381107330322266, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3784799575805664, "timer/agent.save_frac": 0.004592065865956869, "timer/agent.save_avg": 1.3784799575805664, "timer/agent.save_min": 1.3784799575805664, "timer/agent.save_max": 1.3784799575805664, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.916854858398438e-05, "timer/replay.save_frac": 2.970430190280802e-07, "timer/replay.save_avg": 8.916854858398438e-05, "timer/replay.save_min": 8.916854858398438e-05, "timer/replay.save_max": 8.916854858398438e-05, "timer/agent.policy_count": 1422.0, "timer/agent.policy_total": 14.934724807739258, "timer/agent.policy_frac": 0.049751350848400294, "timer/agent.policy_avg": 0.010502619414725217, "timer/agent.policy_min": 0.005900859832763672, "timer/agent.policy_max": 2.984895706176758, "timer/dataset_count": 711.0, "timer/dataset_total": 0.05569171905517578, "timer/dataset_frac": 0.00018552322119981602, "timer/dataset_avg": 7.832871878365088e-05, "timer/dataset_min": 5.2928924560546875e-05, "timer/dataset_max": 0.00016808509826660156, "timer/agent.train_count": 711.0, "timer/agent.train_total": 264.925017118454, "timer/agent.train_frac": 0.8825323295109202, "timer/agent.train_avg": 0.37260902548305763, "timer/agent.train_min": 0.36348986625671387, "timer/agent.train_max": 0.46547770500183105, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22152495384216309, "timer/agent.report_frac": 0.0007379557268149934, "timer/agent.report_avg": 0.22152495384216309, "timer/agent.report_min": 0.22152495384216309, "timer/agent.report_max": 0.22152495384216309, "fps": 4.736938880069952}
{"step": 14120, "episode/length": 250.0, "episode/score": 4.099999964237213, "episode/sum_abs_reward": 5.699999988079071, "episode/reward_rate": 0.0199203187250996}
{"step": 14288, "episode/length": 167.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.100000016391277, "episode/reward_rate": 0.017857142857142856}
{"step": 14447, "episode/length": 158.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.025157232704402517}
{"step": 14605, "episode/length": 157.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.500000022351742, "episode/reward_rate": 0.02531645569620253}
{"step": 14781, "episode/length": 175.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.03409090909090909}
{"step": 14971, "episode/length": 189.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.100000016391277, "episode/reward_rate": 0.015789473684210527}
{"step": 15179, "episode/length": 207.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.3000000193715096, "episode/reward_rate": 0.014423076923076924}
{"step": 15346, "episode/length": 166.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.029940119760479042}
{"step": 15387, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.945392184787327, "train/action_min": 0.0, "train/action_std": 3.341988149616453, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03726419289078978, "train/actor_opt_grad_steps": 6785.0, "train/actor_opt_loss": 25.88962520990107, "train/adv_mag": 0.8735138037138515, "train/adv_max": 0.837847205499808, "train/adv_mean": 0.008319329985574263, "train/adv_min": -0.588231730585297, "train/adv_std": 0.0633663022890687, "train/cont_avg": 0.9939507378472222, "train/cont_loss_mean": 0.000313958425924928, "train/cont_loss_std": 0.009302381865457695, "train/cont_neg_acc": 0.9942129635148578, "train/cont_neg_loss": 0.03427930614220208, "train/cont_pos_acc": 0.999986377855142, "train/cont_pos_loss": 6.105319343498018e-05, "train/cont_pred": 0.9939716507991155, "train/cont_rate": 0.9939507378472222, "train/dyn_loss_mean": 3.9652681284480624, "train/dyn_loss_std": 7.020848996109432, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.315840697950787, "train/extr_critic_critic_opt_grad_steps": 6785.0, "train/extr_critic_critic_opt_loss": 15599.057454427084, "train/extr_critic_mag": 9.634787725077736, "train/extr_critic_max": 9.634787725077736, "train/extr_critic_mean": 2.0442975759506226, "train/extr_critic_min": -0.35290180808968014, "train/extr_critic_std": 1.8491696814695995, "train/extr_return_normed_mag": 1.818430678711997, "train/extr_return_normed_max": 1.818430678711997, "train/extr_return_normed_mean": 0.3710494654046165, "train/extr_return_normed_min": -0.08272596264982389, "train/extr_return_normed_std": 0.3177342750132084, "train/extr_return_rate": 0.7602051157090399, "train/extr_return_raw_mag": 11.045981188615164, "train/extr_return_raw_max": 11.045981188615164, "train/extr_return_raw_mean": 2.0952916426791086, "train/extr_return_raw_min": -0.7109276031454405, "train/extr_return_raw_std": 1.963698825902409, "train/extr_reward_mag": 1.0093153417110443, "train/extr_reward_max": 1.0093153417110443, "train/extr_reward_mean": 0.023374244764757652, "train/extr_reward_min": -0.4396675510538949, "train/extr_reward_std": 0.15118852713041836, "train/image_loss_mean": 6.371431466605928, "train/image_loss_std": 10.059250526958042, "train/model_loss_mean": 8.788259506225586, "train/model_loss_std": 12.96479868888855, "train/model_opt_grad_norm": 79.12739912668864, "train/model_opt_grad_steps": 6775.0, "train/model_opt_loss": 3577.250537448459, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 407.9861111111111, "train/policy_entropy_mag": 2.4586196972264185, "train/policy_entropy_max": 2.4586196972264185, "train/policy_entropy_mean": 0.6024083495140076, "train/policy_entropy_min": 0.07937552831653091, "train/policy_entropy_std": 0.5480292840964265, "train/policy_logprob_mag": 7.438363644811842, "train/policy_logprob_max": -0.009455903911859624, "train/policy_logprob_mean": -0.6026706231964959, "train/policy_logprob_min": -7.438363644811842, "train/policy_logprob_std": 1.1575832267602284, "train/policy_randomness_mag": 0.8677848610613081, "train/policy_randomness_max": 0.8677848610613081, "train/policy_randomness_mean": 0.2126237093988392, "train/policy_randomness_min": 0.028016078260002866, "train/policy_randomness_std": 0.1934302912818061, "train/post_ent_mag": 38.88167794545492, "train/post_ent_max": 38.88167794545492, "train/post_ent_mean": 23.89590793185764, "train/post_ent_min": 9.312124424510532, "train/post_ent_std": 4.933969438076019, "train/prior_ent_mag": 64.26625813378229, "train/prior_ent_max": 64.26625813378229, "train/prior_ent_mean": 28.044372240702312, "train/prior_ent_min": 10.751864367061192, "train/prior_ent_std": 8.371750401126015, "train/rep_loss_mean": 3.9652681284480624, "train/rep_loss_std": 7.020848996109432, "train/reward_avg": 0.013499620098931095, "train/reward_loss_mean": 0.037353165447711945, "train/reward_loss_std": 0.18640702435125908, "train/reward_max_data": 1.0111111137602065, "train/reward_max_pred": 1.0057200110620923, "train/reward_neg_acc": 0.9963653393917613, "train/reward_neg_loss": 0.02325148745957348, "train/reward_pos_acc": 0.9856742951605055, "train/reward_pos_loss": 0.7736214904321564, "train/reward_pred": 0.013239305408205837, "train/reward_rate": 0.018690321180555556, "stats/sum_log_reward": 3.2249999046325684, "stats/max_log_achievement_collect_drink": 2.125, "stats/max_log_achievement_collect_sapling": 2.125, "stats/max_log_achievement_collect_wood": 1.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_place_plant": 1.75, "stats/max_log_achievement_place_table": 0.125, "stats/max_log_achievement_wake_up": 1.375, "stats/mean_log_entropy": 0.6908926442265511, "replay/size": 15324.0, "replay/inserts": 1434.0, "replay/samples": 11472.0, "replay/insert_wait_avg": 3.469040204291563e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3637575976851927e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.311639547348, "timer/env.step_count": 1434.0, "timer/env.step_total": 21.100119829177856, "timer/env.step_frac": 0.07026074600698635, "timer/env.step_avg": 0.014714170034294182, "timer/env.step_min": 0.0027570724487304688, "timer/env.step_max": 1.6891939640045166, "timer/replay.add_count": 1434.0, "timer/replay.add_total": 0.27269458770751953, "timer/replay.add_frac": 0.0009080386898041816, "timer/replay.add_avg": 0.0001901635897541977, "timer/replay.add_min": 5.91278076171875e-05, "timer/replay.add_max": 0.0016393661499023438, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021693706512451172, "timer/logger.write_frac": 7.223731502764773e-05, "timer/logger.write_avg": 0.021693706512451172, "timer/logger.write_min": 0.021693706512451172, "timer/logger.write_max": 0.021693706512451172, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1434.0, "timer/agent.policy_total": 10.51184344291687, "timer/agent.policy_frac": 0.03500311695797439, "timer/agent.policy_avg": 0.007330434757961555, "timer/agent.policy_min": 0.005705595016479492, "timer/agent.policy_max": 0.02016139030456543, "timer/dataset_count": 717.0, "timer/dataset_total": 0.05882000923156738, "timer/dataset_frac": 0.00019586323500556043, "timer/dataset_avg": 8.203627507889453e-05, "timer/dataset_min": 5.698204040527344e-05, "timer/dataset_max": 0.00017404556274414062, "timer/agent.train_count": 717.0, "timer/agent.train_total": 267.6569609642029, "timer/agent.train_frac": 0.8912640261550812, "timer/agent.train_avg": 0.3733012007868938, "timer/agent.train_min": 0.36583876609802246, "timer/agent.train_max": 0.4049856662750244, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21973896026611328, "timer/agent.report_frac": 0.000731703108801644, "timer/agent.report_avg": 0.21973896026611328, "timer/agent.report_min": 0.21973896026611328, "timer/agent.report_max": 0.21973896026611328, "fps": 4.774940444096303}
{"step": 15511, "episode/length": 164.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.030303030303030304}
{"step": 15671, "episode/length": 159.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.0375}
{"step": 15836, "episode/length": 164.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.500000022351742, "episode/reward_rate": 0.024242424242424242}
{"step": 15878, "episode/length": 41.0, "episode/score": 1.1000000089406967, "episode/sum_abs_reward": 2.8999999910593033, "episode/reward_rate": 0.07142857142857142}
{"step": 16072, "episode/length": 193.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.020618556701030927}
{"step": 16245, "episode/length": 172.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.023121387283236993}
{"step": 16436, "episode/length": 190.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.02617801047120419}
{"step": 16605, "episode/length": 168.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.04142011834319527}
{"step": 16823, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 5.020623948838976, "train/action_min": 0.0, "train/action_std": 3.7219053043259516, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03488251675541202, "train/actor_opt_grad_steps": 7505.0, "train/actor_opt_loss": -10.800768846438991, "train/adv_mag": 0.9522295917073885, "train/adv_max": 0.9014723259541724, "train/adv_mean": 0.003758771614255036, "train/adv_min": -0.5600875214570098, "train/adv_std": 0.05963902656609813, "train/cont_avg": 0.9940049913194444, "train/cont_loss_mean": 0.00027784339067377713, "train/cont_loss_std": 0.008428838964985315, "train/cont_neg_acc": 0.9922453719708655, "train/cont_neg_loss": 0.029771534733097522, "train/cont_pos_acc": 0.9999863397743967, "train/cont_pos_loss": 7.092901252963518e-05, "train/cont_pred": 0.9940405115485191, "train/cont_rate": 0.9940049913194444, "train/dyn_loss_mean": 3.8138297696908317, "train/dyn_loss_std": 7.062122881412506, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.3288039225671027, "train/extr_critic_critic_opt_grad_steps": 7505.0, "train/extr_critic_critic_opt_loss": 15505.234185112848, "train/extr_critic_mag": 10.818522089057499, "train/extr_critic_max": 10.818522089057499, "train/extr_critic_mean": 2.0736326509051852, "train/extr_critic_min": -0.43029804362191093, "train/extr_critic_std": 2.0710007084740534, "train/extr_return_normed_mag": 1.9539898104137845, "train/extr_return_normed_max": 1.9539898104137845, "train/extr_return_normed_mean": 0.3655902043812805, "train/extr_return_normed_min": -0.09001598900390996, "train/extr_return_normed_std": 0.3369022239413526, "train/extr_return_rate": 0.7177942722207971, "train/extr_return_raw_mag": 12.327282541328007, "train/extr_return_raw_max": 12.327282541328007, "train/extr_return_raw_mean": 2.0977225767241583, "train/extr_return_raw_min": -0.8342993648515807, "train/extr_return_raw_std": 2.169095685084661, "train/extr_reward_mag": 1.0100369784567091, "train/extr_reward_max": 1.0100369784567091, "train/extr_reward_mean": 0.023102565112316772, "train/extr_reward_min": -0.4906321085161633, "train/extr_reward_std": 0.15132899654822218, "train/image_loss_mean": 5.943765534294976, "train/image_loss_std": 9.205776810646057, "train/model_loss_mean": 8.270855638715956, "train/model_loss_std": 12.208983110056984, "train/model_opt_grad_norm": 81.79304764005873, "train/model_opt_grad_steps": 7495.0, "train/model_opt_loss": 5169.284779866536, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 625.0, "train/policy_entropy_mag": 2.4718914098209805, "train/policy_entropy_max": 2.4718914098209805, "train/policy_entropy_mean": 0.6090749357309606, "train/policy_entropy_min": 0.0793754912705885, "train/policy_entropy_std": 0.5628701862361696, "train/policy_logprob_mag": 7.438373300764296, "train/policy_logprob_max": -0.009455899009481072, "train/policy_logprob_mean": -0.6087820563051436, "train/policy_logprob_min": -7.438373300764296, "train/policy_logprob_std": 1.1558854116333857, "train/policy_randomness_mag": 0.8724691917498907, "train/policy_randomness_max": 0.8724691917498907, "train/policy_randomness_mean": 0.21497672527200645, "train/policy_randomness_min": 0.028016065143876605, "train/policy_randomness_std": 0.19866847660806444, "train/post_ent_mag": 38.46957937876383, "train/post_ent_max": 38.46957937876383, "train/post_ent_mean": 23.83098030090332, "train/post_ent_min": 9.30031669139862, "train/post_ent_std": 4.816243797540665, "train/prior_ent_mag": 64.62425729963515, "train/prior_ent_max": 64.62425729963515, "train/prior_ent_mean": 27.909850862291123, "train/prior_ent_min": 10.798247681723701, "train/prior_ent_std": 8.331703583399454, "train/rep_loss_mean": 3.8138297696908317, "train/rep_loss_std": 7.062122881412506, "train/reward_avg": 0.013707139623066824, "train/reward_loss_mean": 0.03851441495741407, "train/reward_loss_std": 0.20290933487315974, "train/reward_max_data": 1.0055555568801031, "train/reward_max_pred": 1.005344193842676, "train/reward_neg_acc": 0.9960992493563228, "train/reward_neg_loss": 0.023729775540737644, "train/reward_pos_acc": 0.9725561853912141, "train/reward_pos_loss": 0.8133018687367439, "train/reward_pred": 0.013469336308642395, "train/reward_rate": 0.0189208984375, "stats/sum_log_reward": 3.7249999046325684, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_sapling": 1.875, "stats/max_log_achievement_collect_wood": 1.875, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_place_plant": 1.75, "stats/max_log_achievement_place_table": 0.5, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.6469205804169178, "stats/max_log_achievement_make_wood_sword": 1.0, "replay/size": 16760.0, "replay/inserts": 1436.0, "replay/samples": 11488.0, "replay/insert_wait_avg": 3.536431570239054e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3726708948778244e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1970009803772, "timer/env.step_count": 1436.0, "timer/env.step_total": 21.196258306503296, "timer/env.step_frac": 0.07060782831700847, "timer/env.step_avg": 0.014760625561631822, "timer/env.step_min": 0.0030431747436523438, "timer/env.step_max": 1.7760858535766602, "timer/replay.add_count": 1436.0, "timer/replay.add_total": 0.24808764457702637, "timer/replay.add_frac": 0.0008264161326289964, "timer/replay.add_avg": 0.00017276298368873702, "timer/replay.add_min": 6.461143493652344e-05, "timer/replay.add_max": 0.0009453296661376953, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022016048431396484, "timer/logger.write_frac": 7.333866880580727e-05, "timer/logger.write_avg": 0.022016048431396484, "timer/logger.write_min": 0.022016048431396484, "timer/logger.write_max": 0.022016048431396484, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1436.0, "timer/agent.policy_total": 10.494184970855713, "timer/agent.policy_frac": 0.03495766092460624, "timer/agent.policy_avg": 0.007307928252685037, "timer/agent.policy_min": 0.0057621002197265625, "timer/agent.policy_max": 0.015170574188232422, "timer/dataset_count": 718.0, "timer/dataset_total": 0.05782008171081543, "timer/dataset_frac": 0.0001926071263936275, "timer/dataset_avg": 8.052936171422762e-05, "timer/dataset_min": 5.53131103515625e-05, "timer/dataset_max": 0.0001685619354248047, "timer/agent.train_count": 718.0, "timer/agent.train_total": 267.4986500740051, "timer/agent.train_frac": 0.8910770234226643, "timer/agent.train_avg": 0.3725607939749375, "timer/agent.train_min": 0.3653836250305176, "timer/agent.train_max": 0.3858926296234131, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21888065338134766, "timer/agent.report_frac": 0.000729123384532596, "timer/agent.report_avg": 0.21888065338134766, "timer/agent.report_min": 0.21888065338134766, "timer/agent.report_max": 0.21888065338134766, "fps": 4.78342379209824}
{"step": 16856, "episode/length": 250.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.900000028312206, "episode/reward_rate": 0.0199203187250996}
{"step": 16885, "episode/length": 28.0, "episode/score": 1.099999986588955, "episode/sum_abs_reward": 2.900000013411045, "episode/reward_rate": 0.10344827586206896}
{"step": 17061, "episode/length": 175.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.028409090909090908}
{"step": 17276, "episode/length": 214.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.027906976744186046}
{"step": 17462, "episode/length": 185.0, "episode/score": 2.0999999716877937, "episode/sum_abs_reward": 4.1000000312924385, "episode/reward_rate": 0.021505376344086023}
{"step": 17655, "episode/length": 192.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.025906735751295335}
{"step": 17807, "episode/length": 151.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.900000028312206, "episode/reward_rate": 0.02631578947368421}
{"step": 18043, "episode/length": 235.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.3000000193715096, "episode/reward_rate": 0.025423728813559324}
{"step": 18097, "episode/length": 53.0, "episode/score": 2.1000000089406967, "episode/sum_abs_reward": 4.0999999940395355, "episode/reward_rate": 0.07407407407407407}
{"step": 18234, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.98314470563616, "train/action_min": 0.0, "train/action_std": 3.6483156749180385, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03561444543302059, "train/actor_opt_grad_steps": 8215.0, "train/actor_opt_loss": -12.476010343698519, "train/adv_mag": 0.9490687144654137, "train/adv_max": 0.8934286896671567, "train/adv_mean": 0.0021258902602962087, "train/adv_min": -0.5938219709055764, "train/adv_std": 0.05935955867171287, "train/cont_avg": 0.9940848214285715, "train/cont_loss_mean": 0.0002379106975744045, "train/cont_loss_std": 0.006954700282423281, "train/cont_neg_acc": 0.9953571430274418, "train/cont_neg_loss": 0.022495641663772402, "train/cont_pos_acc": 0.9999859060559954, "train/cont_pos_loss": 9.184412424109008e-05, "train/cont_pred": 0.994069002355848, "train/cont_rate": 0.9940848214285715, "train/dyn_loss_mean": 3.884022286960057, "train/dyn_loss_std": 7.050805956976754, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.4247907008443559, "train/extr_critic_critic_opt_grad_steps": 8215.0, "train/extr_critic_critic_opt_loss": 15602.75620814732, "train/extr_critic_mag": 10.274370929173061, "train/extr_critic_max": 10.274370929173061, "train/extr_critic_mean": 1.809530394417899, "train/extr_critic_min": -0.4265977893556867, "train/extr_critic_std": 1.9398159418787275, "train/extr_return_normed_mag": 1.8928858160972595, "train/extr_return_normed_max": 1.8928858160972595, "train/extr_return_normed_mean": 0.3406852132507733, "train/extr_return_normed_min": -0.09998149100158896, "train/extr_return_normed_std": 0.3275757480944906, "train/extr_return_rate": 0.6820312832083021, "train/extr_return_raw_mag": 11.374770518711635, "train/extr_return_raw_max": 11.374770518711635, "train/extr_return_raw_mean": 1.822733393737248, "train/extr_return_raw_min": -0.8863800551210131, "train/extr_return_raw_std": 2.0141861149242946, "train/extr_reward_mag": 1.0114425352641514, "train/extr_reward_max": 1.0114425352641514, "train/extr_reward_mean": 0.02248407757974097, "train/extr_reward_min": -0.5740516594478062, "train/extr_reward_std": 0.15071157440543176, "train/image_loss_mean": 5.818103071621486, "train/image_loss_std": 9.291153962271554, "train/model_loss_mean": 8.187567404338292, "train/model_loss_std": 12.2918625831604, "train/model_opt_grad_norm": 73.98083171844482, "train/model_opt_grad_steps": 8204.185714285713, "train/model_opt_loss": 5656.1636928013395, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 687.5, "train/policy_entropy_mag": 2.4521692276000975, "train/policy_entropy_max": 2.4521692276000975, "train/policy_entropy_mean": 0.5722546581711088, "train/policy_entropy_min": 0.07937535249761173, "train/policy_entropy_std": 0.5544348895549774, "train/policy_logprob_mag": 7.438374212809971, "train/policy_logprob_max": -0.009455892430352313, "train/policy_logprob_mean": -0.5720816727195467, "train/policy_logprob_min": -7.438374212809971, "train/policy_logprob_std": 1.1356687673500605, "train/policy_randomness_mag": 0.8655081263610295, "train/policy_randomness_max": 0.8655081263610295, "train/policy_randomness_mean": 0.20198078421609741, "train/policy_randomness_min": 0.02801601610013417, "train/policy_randomness_std": 0.19569118661539894, "train/post_ent_mag": 38.128079005650115, "train/post_ent_max": 38.128079005650115, "train/post_ent_mean": 23.921160643441336, "train/post_ent_min": 9.509759712219239, "train/post_ent_std": 4.8215939317430765, "train/prior_ent_mag": 64.98436535426549, "train/prior_ent_max": 64.98436535426549, "train/prior_ent_mean": 27.956464522225517, "train/prior_ent_min": 10.920067582811628, "train/prior_ent_std": 8.334622410365514, "train/rep_loss_mean": 3.884022286960057, "train/rep_loss_std": 7.050805956976754, "train/reward_avg": 0.014679129275360277, "train/reward_loss_mean": 0.038813043891319204, "train/reward_loss_std": 0.1931292207113334, "train/reward_max_data": 1.0028571435383389, "train/reward_max_pred": 1.0049139039857047, "train/reward_neg_acc": 0.9961391721452986, "train/reward_neg_loss": 0.024118326138705015, "train/reward_pos_acc": 0.9828938322407859, "train/reward_pos_loss": 0.7583252549171448, "train/reward_pred": 0.014541045390069484, "train/reward_rate": 0.019991629464285714, "stats/sum_log_reward": 3.4333332777023315, "stats/max_log_achievement_collect_drink": 11.11111111111111, "stats/max_log_achievement_collect_sapling": 1.4444444444444444, "stats/max_log_achievement_collect_wood": 1.4444444444444444, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.2222222222222223, "stats/max_log_achievement_place_table": 0.3333333333333333, "stats/max_log_achievement_wake_up": 1.8888888888888888, "stats/mean_log_entropy": 0.5437435060739517, "replay/size": 18171.0, "replay/inserts": 1411.0, "replay/samples": 11280.0, "replay/insert_wait_avg": 3.37131643531848e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4418405843964704e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0015935897827, "timer/env.step_count": 1411.0, "timer/env.step_total": 25.141883611679077, "timer/env.step_frac": 0.08380583353186342, "timer/env.step_avg": 0.01781848590480445, "timer/env.step_min": 0.0027472972869873047, "timer/env.step_max": 3.0017170906066895, "timer/replay.add_count": 1411.0, "timer/replay.add_total": 0.2581453323364258, "timer/replay.add_frac": 0.0008604798702816542, "timer/replay.add_avg": 0.00018295204276146405, "timer/replay.add_min": 6.222724914550781e-05, "timer/replay.add_max": 0.0038805007934570312, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025734663009643555, "timer/logger.write_frac": 8.578175436238754e-05, "timer/logger.write_avg": 0.025734663009643555, "timer/logger.write_min": 0.025734663009643555, "timer/logger.write_max": 0.025734663009643555, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003368854522705078, "timer/checkpoint.save_frac": 1.1229455425198823e-06, "timer/checkpoint.save_avg": 0.0003368854522705078, "timer/checkpoint.save_min": 0.0003368854522705078, "timer/checkpoint.save_max": 0.0003368854522705078, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4109835624694824, "timer/agent.save_frac": 0.004703253558042223, "timer/agent.save_avg": 1.4109835624694824, "timer/agent.save_min": 1.4109835624694824, "timer/agent.save_max": 1.4109835624694824, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.916854858398438e-05, "timer/replay.save_frac": 2.972269164206907e-07, "timer/replay.save_avg": 8.916854858398438e-05, "timer/replay.save_min": 8.916854858398438e-05, "timer/replay.save_max": 8.916854858398438e-05, "timer/agent.policy_count": 1411.0, "timer/agent.policy_total": 11.82442045211792, "timer/agent.policy_frac": 0.039414525471776124, "timer/agent.policy_avg": 0.008380170412556995, "timer/agent.policy_min": 0.005664825439453125, "timer/agent.policy_max": 1.4187116622924805, "timer/dataset_count": 705.0, "timer/dataset_total": 0.055960893630981445, "timer/dataset_frac": 0.00018653532123399805, "timer/dataset_avg": 7.937715408649851e-05, "timer/dataset_min": 5.984306335449219e-05, "timer/dataset_max": 0.0001423358917236328, "timer/agent.train_count": 705.0, "timer/agent.train_total": 262.0221679210663, "timer/agent.train_frac": 0.8734025869187586, "timer/agent.train_avg": 0.37166264953342737, "timer/agent.train_min": 0.3643362522125244, "timer/agent.train_max": 0.4794294834136963, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21936774253845215, "timer/agent.report_frac": 0.0007312219242355493, "timer/agent.report_avg": 0.21936774253845215, "timer/agent.report_min": 0.21936774253845215, "timer/agent.report_max": 0.21936774253845215, "fps": 4.703203019722239}
{"step": 18257, "episode/length": 159.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 4.900000013411045, "episode/reward_rate": 0.025}
{"step": 18408, "episode/length": 150.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.033112582781456956}
{"step": 18578, "episode/length": 169.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.100000016391277, "episode/reward_rate": 0.01764705882352941}
{"step": 18943, "episode/length": 364.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.01643835616438356}
{"step": 19115, "episode/length": 171.0, "episode/score": 3.0999999940395355, "episode/sum_abs_reward": 5.300000011920929, "episode/reward_rate": 0.029069767441860465}
{"step": 19158, "episode/length": 42.0, "episode/score": 0.10000000894069672, "episode/sum_abs_reward": 1.8999999910593033, "episode/reward_rate": 0.046511627906976744}
{"step": 19333, "episode/length": 174.0, "episode/score": 3.0999999940395355, "episode/sum_abs_reward": 4.9000000059604645, "episode/reward_rate": 0.02857142857142857}
{"step": 19594, "episode/length": 260.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.019157088122605363}
{"step": 19673, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.914761013454861, "train/action_min": 0.0, "train/action_std": 3.508750389019648, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03520677784561283, "train/actor_opt_grad_steps": 8925.0, "train/actor_opt_loss": -8.192827539311516, "train/adv_mag": 1.012832040588061, "train/adv_max": 0.9763128326998817, "train/adv_mean": 0.003964456465786902, "train/adv_min": -0.5431853512095081, "train/adv_std": 0.05906761013385323, "train/cont_avg": 0.9944525824652778, "train/cont_loss_mean": 0.00022895571785378857, "train/cont_loss_std": 0.006834564985638281, "train/cont_neg_acc": 0.9903588211032707, "train/cont_neg_loss": 0.03165950220019868, "train/cont_pos_acc": 0.9999999817874696, "train/cont_pos_loss": 4.139052649223787e-05, "train/cont_pred": 0.9944793391558859, "train/cont_rate": 0.9944525824652778, "train/dyn_loss_mean": 3.8470027115609913, "train/dyn_loss_std": 7.204523146152496, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.4176912953456242, "train/extr_critic_critic_opt_grad_steps": 8925.0, "train/extr_critic_critic_opt_loss": 15473.007039388021, "train/extr_critic_mag": 10.568525652090708, "train/extr_critic_max": 10.568525652090708, "train/extr_critic_mean": 1.668627042737272, "train/extr_critic_min": -0.4432133535544078, "train/extr_critic_std": 1.9389812846978505, "train/extr_return_normed_mag": 2.0188476310835943, "train/extr_return_normed_max": 2.0188476310835943, "train/extr_return_normed_mean": 0.3292174862904681, "train/extr_return_normed_min": -0.10131093192224701, "train/extr_return_normed_std": 0.3384281949450572, "train/extr_return_rate": 0.6620117541816499, "train/extr_return_raw_mag": 11.73993201388253, "train/extr_return_raw_max": 11.73993201388253, "train/extr_return_raw_mean": 1.69195184773869, "train/extr_return_raw_min": -0.8673050146963861, "train/extr_return_raw_std": 2.0160673641496234, "train/extr_reward_mag": 1.0134551193979051, "train/extr_reward_max": 1.0134551193979051, "train/extr_reward_mean": 0.02371065651014861, "train/extr_reward_min": -0.5384016036987305, "train/extr_reward_std": 0.15458657416618532, "train/image_loss_mean": 5.604791753821903, "train/image_loss_std": 9.143523487779829, "train/model_loss_mean": 7.952101773685879, "train/model_loss_std": 12.293983525700039, "train/model_opt_grad_norm": 66.1820782025655, "train/model_opt_grad_steps": 8913.847222222223, "train/model_opt_loss": 6185.970364040799, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 781.25, "train/policy_entropy_mag": 2.4212199317084417, "train/policy_entropy_max": 2.4212199317084417, "train/policy_entropy_mean": 0.540773997704188, "train/policy_entropy_min": 0.07937530759308073, "train/policy_entropy_std": 0.5350942094292905, "train/policy_logprob_mag": 7.438380287753211, "train/policy_logprob_max": -0.009455854694048563, "train/policy_logprob_mean": -0.5400973223149776, "train/policy_logprob_min": -7.438380287753211, "train/policy_logprob_std": 1.1142119864622753, "train/policy_randomness_mag": 0.8545843818121486, "train/policy_randomness_max": 0.8545843818121486, "train/policy_randomness_mean": 0.19086949175430667, "train/policy_randomness_min": 0.028016000261737242, "train/policy_randomness_std": 0.18886477479504216, "train/post_ent_mag": 38.15558597776625, "train/post_ent_max": 38.15558597776625, "train/post_ent_mean": 24.073605643378365, "train/post_ent_min": 9.824966549873352, "train/post_ent_std": 4.761092417769962, "train/prior_ent_mag": 65.71810171339247, "train/prior_ent_max": 65.71810171339247, "train/prior_ent_mean": 28.062012751897175, "train/prior_ent_min": 11.291481600867378, "train/prior_ent_std": 8.348302364349365, "train/rep_loss_mean": 3.8470027115609913, "train/rep_loss_std": 7.204523146152496, "train/reward_avg": 0.014668782422732975, "train/reward_loss_mean": 0.03887943993322551, "train/reward_loss_std": 0.19091814570128918, "train/reward_max_data": 1.0055555568801031, "train/reward_max_pred": 1.008371843232049, "train/reward_neg_acc": 0.9961665372053782, "train/reward_neg_loss": 0.024412885748056903, "train/reward_pos_acc": 0.9859136649303966, "train/reward_pos_loss": 0.7407286142309507, "train/reward_pred": 0.014488184874709178, "train/reward_rate": 0.020005967881944444, "stats/sum_log_reward": 3.0999999176710844, "stats/max_log_achievement_collect_drink": 11.625, "stats/max_log_achievement_collect_sapling": 0.75, "stats/max_log_achievement_collect_wood": 2.375, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 0.75, "stats/max_log_achievement_place_table": 0.75, "stats/max_log_achievement_wake_up": 1.125, "stats/mean_log_entropy": 0.5195811092853546, "replay/size": 19610.0, "replay/inserts": 1439.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.452347416775023e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4524079031414456e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.19932746887207, "timer/env.step_count": 1439.0, "timer/env.step_total": 20.009457111358643, "timer/env.step_frac": 0.06665390385804058, "timer/env.step_avg": 0.013905112655565422, "timer/env.step_min": 0.002682924270629883, "timer/env.step_max": 1.8092496395111084, "timer/replay.add_count": 1439.0, "timer/replay.add_total": 0.2561056613922119, "timer/replay.add_frac": 0.0008531187046672106, "timer/replay.add_avg": 0.00017797474731911877, "timer/replay.add_min": 6.175041198730469e-05, "timer/replay.add_max": 0.002239704132080078, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021799325942993164, "timer/logger.write_frac": 7.261617181755198e-05, "timer/logger.write_avg": 0.021799325942993164, "timer/logger.write_min": 0.021799325942993164, "timer/logger.write_max": 0.021799325942993164, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1439.0, "timer/agent.policy_total": 10.425879001617432, "timer/agent.policy_frac": 0.03472985462533556, "timer/agent.policy_avg": 0.007245225157482579, "timer/agent.policy_min": 0.005644083023071289, "timer/agent.policy_max": 0.016275882720947266, "timer/dataset_count": 720.0, "timer/dataset_total": 0.059366703033447266, "timer/dataset_frac": 0.00019775761502864475, "timer/dataset_avg": 8.24537542131212e-05, "timer/dataset_min": 5.7220458984375e-05, "timer/dataset_max": 0.00013494491577148438, "timer/agent.train_count": 720.0, "timer/agent.train_total": 268.7472653388977, "timer/agent.train_frac": 0.8952294050917364, "timer/agent.train_avg": 0.37326009074846905, "timer/agent.train_min": 0.36245250701904297, "timer/agent.train_max": 0.41844630241394043, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2187511920928955, "timer/agent.report_frac": 0.0007286864828688798, "timer/agent.report_avg": 0.2187511920928955, "timer/agent.report_min": 0.2187511920928955, "timer/agent.report_max": 0.2187511920928955, "fps": 4.793381586876244}
{"step": 19759, "episode/length": 164.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.500000022351742, "episode/reward_rate": 0.030303030303030304}
{"step": 19910, "episode/length": 150.0, "episode/score": 3.0999999716877937, "episode/sum_abs_reward": 4.900000028312206, "episode/reward_rate": 0.033112582781456956}
{"step": 20081, "episode/length": 170.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.700000002980232, "episode/reward_rate": 0.04678362573099415}
{"step": 20227, "episode/length": 145.0, "episode/score": 2.1000000089406967, "episode/sum_abs_reward": 4.0999999940395355, "episode/reward_rate": 0.0273972602739726}
{"step": 20420, "episode/length": 192.0, "episode/score": 4.100000001490116, "episode/sum_abs_reward": 5.700000025331974, "episode/reward_rate": 0.025906735751295335}
{"step": 20633, "episode/length": 212.0, "episode/score": 2.100000001490116, "episode/sum_abs_reward": 4.100000001490116, "episode/reward_rate": 0.018779342723004695}
{"step": 20776, "episode/length": 142.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.04195804195804196}
{"step": 20972, "episode/length": 195.0, "episode/score": 2.1000000089406967, "episode/sum_abs_reward": 4.0999999940395355, "episode/reward_rate": 0.02040816326530612}
{"step": 21107, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 5.242901272243923, "train/action_min": 0.0, "train/action_std": 3.4279890954494476, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04260854275586704, "train/actor_opt_grad_steps": 9645.0, "train/actor_opt_loss": -2.9959338630239167, "train/adv_mag": 1.246189193593131, "train/adv_max": 1.2180174696776602, "train/adv_mean": 0.0037492933051710667, "train/adv_min": -0.6474044070475631, "train/adv_std": 0.06679511507455674, "train/cont_avg": 0.9946560329861112, "train/cont_loss_mean": 0.00023979747099625272, "train/cont_loss_std": 0.006430526654038242, "train/cont_neg_acc": 0.9901620373129845, "train/cont_neg_loss": 0.028941414024675143, "train/cont_pos_acc": 0.9999179840087891, "train/cont_pos_loss": 0.00013413273382420796, "train/cont_pred": 0.9946112914217843, "train/cont_rate": 0.9946560329861112, "train/dyn_loss_mean": 3.905802028046714, "train/dyn_loss_std": 7.257005625300938, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.4270391596688166, "train/extr_critic_critic_opt_grad_steps": 9645.0, "train/extr_critic_critic_opt_loss": 15835.728230794271, "train/extr_critic_mag": 12.012582507398394, "train/extr_critic_max": 12.012582507398394, "train/extr_critic_mean": 1.6807850955261125, "train/extr_critic_min": -0.4370947811338637, "train/extr_critic_std": 2.009478790892495, "train/extr_return_normed_mag": 2.3413090656201043, "train/extr_return_normed_max": 2.3413090656201043, "train/extr_return_normed_mean": 0.341486315553387, "train/extr_return_normed_min": -0.1281540537925644, "train/extr_return_normed_std": 0.36251892439193195, "train/extr_return_rate": 0.6647850101192793, "train/extr_return_raw_mag": 13.223938471741146, "train/extr_return_raw_max": 13.223938471741146, "train/extr_return_raw_mean": 1.7024217140343454, "train/extr_return_raw_min": -1.0020643613404698, "train/extr_return_raw_std": 2.0904826803339853, "train/extr_reward_mag": 1.0127324395709567, "train/extr_reward_max": 1.0127324395709567, "train/extr_reward_mean": 0.02361775021482673, "train/extr_reward_min": -0.5721070816119512, "train/extr_reward_std": 0.15350211349626383, "train/image_loss_mean": 5.490945173634423, "train/image_loss_std": 9.514641477002037, "train/model_loss_mean": 7.871581150425805, "train/model_loss_std": 12.62895819875929, "train/model_opt_grad_norm": 70.2334304915534, "train/model_opt_grad_steps": 9633.0, "train/model_opt_loss": 4919.738220214844, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 625.0, "train/policy_entropy_mag": 2.4147607617908053, "train/policy_entropy_max": 2.4147607617908053, "train/policy_entropy_mean": 0.5525148763424821, "train/policy_entropy_min": 0.07937529010491239, "train/policy_entropy_std": 0.5304533330102762, "train/policy_logprob_mag": 7.438379161887699, "train/policy_logprob_max": -0.009455816910809113, "train/policy_logprob_mean": -0.5532550849020481, "train/policy_logprob_min": -7.438379161887699, "train/policy_logprob_std": 1.122635242011812, "train/policy_randomness_mag": 0.8523045803109804, "train/policy_randomness_max": 0.8523045803109804, "train/policy_randomness_mean": 0.1950135063380003, "train/policy_randomness_min": 0.028015994156400364, "train/policy_randomness_std": 0.18722675119837126, "train/post_ent_mag": 38.02146948708428, "train/post_ent_max": 38.02146948708428, "train/post_ent_mean": 24.161445644166733, "train/post_ent_min": 9.812940643893349, "train/post_ent_std": 4.801884505483839, "train/prior_ent_mag": 66.24587355719672, "train/prior_ent_max": 66.24587355719672, "train/prior_ent_mean": 28.15325511826409, "train/prior_ent_min": 11.1443233622445, "train/prior_ent_std": 8.378506004810333, "train/rep_loss_mean": 3.905802028046714, "train/rep_loss_std": 7.257005625300938, "train/reward_avg": 0.014816623109961964, "train/reward_loss_mean": 0.036915040161046714, "train/reward_loss_std": 0.19270811188552114, "train/reward_max_data": 1.0055555568801031, "train/reward_max_pred": 1.0076787057850096, "train/reward_neg_acc": 0.9964449720250236, "train/reward_neg_loss": 0.022375910652853135, "train/reward_pos_acc": 0.9784814202123218, "train/reward_pos_loss": 0.7658980149361823, "train/reward_pred": 0.01469933081858067, "train/reward_rate": 0.019761827256944444, "stats/sum_log_reward": 3.474999964237213, "stats/max_log_achievement_collect_drink": 6.25, "stats/max_log_achievement_collect_sapling": 1.375, "stats/max_log_achievement_collect_wood": 1.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.125, "stats/max_log_achievement_place_plant": 1.25, "stats/max_log_achievement_place_table": 0.125, "stats/max_log_achievement_wake_up": 1.75, "stats/mean_log_entropy": 0.5438364706933498, "replay/size": 21044.0, "replay/inserts": 1434.0, "replay/samples": 11472.0, "replay/insert_wait_avg": 3.5145957765885144e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4604800582098328e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.21107482910156, "timer/env.step_count": 1434.0, "timer/env.step_total": 21.332828283309937, "timer/env.step_frac": 0.07105943141988977, "timer/env.step_avg": 0.014876449291011113, "timer/env.step_min": 0.00255584716796875, "timer/env.step_max": 1.9268064498901367, "timer/replay.add_count": 1434.0, "timer/replay.add_total": 0.25116562843322754, "timer/replay.add_frac": 0.0008366301229100436, "timer/replay.add_avg": 0.00017515036850294807, "timer/replay.add_min": 6.151199340820312e-05, "timer/replay.add_max": 0.0044286251068115234, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02538609504699707, "timer/logger.write_frac": 8.45608212869841e-05, "timer/logger.write_avg": 0.02538609504699707, "timer/logger.write_min": 0.02538609504699707, "timer/logger.write_max": 0.02538609504699707, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1434.0, "timer/agent.policy_total": 10.363123416900635, "timer/agent.policy_frac": 0.03451945742774465, "timer/agent.policy_avg": 0.0072267248374481416, "timer/agent.policy_min": 0.005637168884277344, "timer/agent.policy_max": 0.01702404022216797, "timer/dataset_count": 717.0, "timer/dataset_total": 0.059641361236572266, "timer/dataset_frac": 0.00019866476035410672, "timer/dataset_avg": 8.318181483482882e-05, "timer/dataset_min": 5.7697296142578125e-05, "timer/dataset_max": 0.0001723766326904297, "timer/agent.train_count": 717.0, "timer/agent.train_total": 267.4974012374878, "timer/agent.train_frac": 0.8910310900081339, "timer/agent.train_avg": 0.3730786628137905, "timer/agent.train_min": 0.3654954433441162, "timer/agent.train_max": 0.4084928035736084, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22069740295410156, "timer/agent.report_frac": 0.000735140777467107, "timer/agent.report_avg": 0.22069740295410156, "timer/agent.report_min": 0.22069740295410156, "timer/agent.report_max": 0.22069740295410156, "fps": 4.7765351410260894}
{"step": 21203, "episode/length": 230.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.3000000193715096, "episode/reward_rate": 0.017316017316017316}
{"step": 21452, "episode/length": 248.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.020080321285140562}
{"step": 21595, "episode/length": 142.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 4.899999991059303, "episode/reward_rate": 0.03496503496503497}
{"step": 21731, "episode/length": 135.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.3000000193715096, "episode/reward_rate": 0.029411764705882353}
{"step": 21915, "episode/length": 183.0, "episode/score": 2.0999999716877937, "episode/sum_abs_reward": 4.1000000312924385, "episode/reward_rate": 0.021739130434782608}
{"step": 22175, "episode/length": 259.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.026923076923076925}
{"step": 22317, "episode/length": 141.0, "episode/score": 4.099999971687794, "episode/sum_abs_reward": 6.1000000312924385, "episode/reward_rate": 0.04225352112676056}
{"step": 22515, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 5.142592947823661, "train/action_min": 0.0, "train/action_std": 3.6915140220097133, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03733802666621549, "train/actor_opt_grad_steps": 10355.0, "train/actor_opt_loss": -13.798660709389619, "train/adv_mag": 1.0113986615623747, "train/adv_max": 0.9715033692973001, "train/adv_mean": 0.0017543672314786819, "train/adv_min": -0.621745353937149, "train/adv_std": 0.06153742420886244, "train/cont_avg": 0.9943219866071429, "train/cont_loss_mean": 0.00012751262960932763, "train/cont_loss_std": 0.0038881787851729704, "train/cont_neg_acc": 0.9951020419597626, "train/cont_neg_loss": 0.014037363274454557, "train/cont_pos_acc": 0.9999718470232827, "train/cont_pos_loss": 4.95861866519525e-05, "train/cont_pred": 0.9943175707544599, "train/cont_rate": 0.9943219866071429, "train/dyn_loss_mean": 3.7579627241407123, "train/dyn_loss_std": 7.218291650499617, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.2900627953665598, "train/extr_critic_critic_opt_grad_steps": 10355.0, "train/extr_critic_critic_opt_loss": 15622.677399553571, "train/extr_critic_mag": 10.258313185828072, "train/extr_critic_max": 10.258313185828072, "train/extr_critic_mean": 1.554629155567714, "train/extr_critic_min": -0.49956064564841135, "train/extr_critic_std": 1.8899233051708766, "train/extr_return_normed_mag": 2.0070759994643077, "train/extr_return_normed_max": 2.0070759994643077, "train/extr_return_normed_mean": 0.3285920126097543, "train/extr_return_normed_min": -0.13836758360266685, "train/extr_return_normed_std": 0.3416448182293347, "train/extr_return_rate": 0.6395517459937504, "train/extr_return_raw_mag": 11.118387494768415, "train/extr_return_raw_max": 11.118387494768415, "train/extr_return_raw_mean": 1.564753829581397, "train/extr_return_raw_min": -1.1008123397827148, "train/extr_return_raw_std": 1.9464143242154803, "train/extr_reward_mag": 1.013439348765782, "train/extr_reward_max": 1.013439348765782, "train/extr_reward_mean": 0.022906337984438453, "train/extr_reward_min": -0.6439694098063877, "train/extr_reward_std": 0.15311964473554066, "train/image_loss_mean": 4.900336374555315, "train/image_loss_std": 8.279650259017945, "train/model_loss_mean": 7.191663415091378, "train/model_loss_std": 11.49026152747018, "train/model_opt_grad_norm": 64.05380943843296, "train/model_opt_grad_steps": 10343.0, "train/model_opt_loss": 7874.156396484375, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1098.2142857142858, "train/policy_entropy_mag": 2.4294700247900827, "train/policy_entropy_max": 2.4294700247900827, "train/policy_entropy_mean": 0.5781021829162325, "train/policy_entropy_min": 0.07937528884836606, "train/policy_entropy_std": 0.552951956646783, "train/policy_logprob_mag": 7.438380220958165, "train/policy_logprob_max": -0.009455826532627856, "train/policy_logprob_mean": -0.5790660066264016, "train/policy_logprob_min": -7.438380220958165, "train/policy_logprob_std": 1.1384246468544006, "train/policy_randomness_mag": 0.8574963016169411, "train/policy_randomness_max": 0.8574963016169411, "train/policy_randomness_mean": 0.20404470009463174, "train/policy_randomness_min": 0.028015993775001594, "train/policy_randomness_std": 0.1951677760907582, "train/post_ent_mag": 38.72144072396414, "train/post_ent_max": 38.72144072396414, "train/post_ent_mean": 24.268424688066755, "train/post_ent_min": 9.992628840037755, "train/post_ent_std": 4.7011640276227675, "train/prior_ent_mag": 66.78656114850726, "train/prior_ent_max": 66.78656114850726, "train/prior_ent_mean": 28.271227291652135, "train/prior_ent_min": 11.375019386836462, "train/prior_ent_std": 8.417456674575806, "train/rep_loss_mean": 3.7579627241407123, "train/rep_loss_std": 7.218291650499617, "train/reward_avg": 0.014753068930336408, "train/reward_loss_mean": 0.03642191131200109, "train/reward_loss_std": 0.1783135507787977, "train/reward_max_data": 1.0042857153075082, "train/reward_max_pred": 1.0070446014404297, "train/reward_neg_acc": 0.9962576815060207, "train/reward_neg_loss": 0.021793642387326274, "train/reward_pos_acc": 0.9780717985970634, "train/reward_pos_loss": 0.7595265575817653, "train/reward_pred": 0.014571163869862045, "train/reward_rate": 0.019921875, "stats/sum_log_reward": 3.5285713332039967, "stats/max_log_achievement_collect_drink": 1.1428571428571428, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_wood": 2.2857142857142856, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_table": 0.7142857142857143, "stats/max_log_achievement_wake_up": 2.2857142857142856, "stats/mean_log_entropy": 0.6907751475061689, "replay/size": 22452.0, "replay/inserts": 1408.0, "replay/samples": 11264.0, "replay/insert_wait_avg": 3.7078491666100244e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.5253158794208006e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.04445481300354, "timer/env.step_count": 1408.0, "timer/env.step_total": 20.644998788833618, "timer/env.step_frac": 0.06880646670074334, "timer/env.step_avg": 0.01466264118525115, "timer/env.step_min": 0.0030667781829833984, "timer/env.step_max": 1.850963830947876, "timer/replay.add_count": 1408.0, "timer/replay.add_total": 0.261059045791626, "timer/replay.add_frac": 0.0008700678902875429, "timer/replay.add_avg": 0.00018541125411337072, "timer/replay.add_min": 6.914138793945312e-05, "timer/replay.add_max": 0.003305196762084961, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029825210571289062, "timer/logger.write_frac": 9.940263881856109e-05, "timer/logger.write_avg": 0.029825210571289062, "timer/logger.write_min": 0.029825210571289062, "timer/logger.write_max": 0.029825210571289062, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00049591064453125, "timer/checkpoint.save_frac": 1.6527905667855652e-06, "timer/checkpoint.save_avg": 0.00049591064453125, "timer/checkpoint.save_min": 0.00049591064453125, "timer/checkpoint.save_max": 0.00049591064453125, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3433763980865479, "timer/agent.save_frac": 0.004477257874749858, "timer/agent.save_avg": 1.3433763980865479, "timer/agent.save_min": 1.3433763980865479, "timer/agent.save_max": 1.3433763980865479, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.511543273925781e-05, "timer/replay.save_frac": 2.8367607324156094e-07, "timer/replay.save_avg": 8.511543273925781e-05, "timer/replay.save_min": 8.511543273925781e-05, "timer/replay.save_max": 8.511543273925781e-05, "timer/agent.policy_count": 1408.0, "timer/agent.policy_total": 15.390446901321411, "timer/agent.policy_frac": 0.05129388880362141, "timer/agent.policy_avg": 0.010930715128779411, "timer/agent.policy_min": 0.005917549133300781, "timer/agent.policy_max": 3.69120192527771, "timer/dataset_count": 704.0, "timer/dataset_total": 0.06322669982910156, "timer/dataset_frac": 0.00021072444037836422, "timer/dataset_avg": 8.981065316633745e-05, "timer/dataset_min": 6.365776062011719e-05, "timer/dataset_max": 0.0002148151397705078, "timer/agent.train_count": 704.0, "timer/agent.train_total": 262.9627740383148, "timer/agent.train_frac": 0.8764127109171236, "timer/agent.train_avg": 0.3735266676680608, "timer/agent.train_min": 0.3658328056335449, "timer/agent.train_max": 0.4401981830596924, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2208082675933838, "timer/agent.report_frac": 0.0007359185082457129, "timer/agent.report_avg": 0.2208082675933838, "timer/agent.report_min": 0.2208082675933838, "timer/agent.report_max": 0.2208082675933838, "fps": 4.692541025635718}
{"step": 22593, "episode/length": 275.0, "episode/score": 4.099999979138374, "episode/sum_abs_reward": 6.700000032782555, "episode/reward_rate": 0.018115942028985508}
{"step": 22821, "episode/length": 227.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.017543859649122806}
{"step": 23001, "episode/length": 179.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.027777777777777776}
{"step": 23194, "episode/length": 192.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.900000028312206, "episode/reward_rate": 0.031088082901554404}
{"step": 23364, "episode/length": 169.0, "episode/score": 4.1000000312924385, "episode/sum_abs_reward": 6.700000025331974, "episode/reward_rate": 0.03529411764705882}
{"step": 23425, "episode/length": 60.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.06557377049180328}
{"step": 23619, "episode/length": 193.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.030927835051546393}
{"step": 23725, "episode/length": 105.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.3000000193715096, "episode/reward_rate": 0.03773584905660377}
{"step": 23905, "episode/length": 179.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 6.0999999940395355, "episode/reward_rate": 0.03333333333333333}
{"step": 23951, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 5.482537163628472, "train/action_min": 0.0, "train/action_std": 4.065582904550764, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03839865802890725, "train/actor_opt_grad_steps": 11065.0, "train/actor_opt_loss": -12.4710699506104, "train/adv_mag": 0.932986138181554, "train/adv_max": 0.8850272479984496, "train/adv_mean": 0.001787630714438314, "train/adv_min": -0.6215102556678984, "train/adv_std": 0.059186096820566386, "train/cont_avg": 0.9936659071180556, "train/cont_loss_mean": 0.00016775798497627016, "train/cont_loss_std": 0.004860529878297055, "train/cont_neg_acc": 0.9912643308440844, "train/cont_neg_loss": 0.0177743928475896, "train/cont_pos_acc": 0.9999863488806618, "train/cont_pos_loss": 4.667970909919303e-05, "train/cont_pred": 0.9937005117535591, "train/cont_rate": 0.9936659071180556, "train/dyn_loss_mean": 3.935343474149704, "train/dyn_loss_std": 7.4641135931015015, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.3822751384642389, "train/extr_critic_critic_opt_grad_steps": 11065.0, "train/extr_critic_critic_opt_loss": 15477.50237358941, "train/extr_critic_mag": 9.817287060949537, "train/extr_critic_max": 9.817287060949537, "train/extr_critic_mean": 1.490158283876048, "train/extr_critic_min": -0.4970939126279619, "train/extr_critic_std": 1.806804241405593, "train/extr_return_normed_mag": 2.0046373307704926, "train/extr_return_normed_max": 2.0046373307704926, "train/extr_return_normed_mean": 0.33439361676573753, "train/extr_return_normed_min": -0.14363830748738515, "train/extr_return_normed_std": 0.34244157187640667, "train/extr_return_rate": 0.6096553421682782, "train/extr_return_raw_mag": 10.487955854998695, "train/extr_return_raw_max": 10.487955854998695, "train/extr_return_raw_mean": 1.4996355051795642, "train/extr_return_raw_min": -1.0734488061732717, "train/extr_return_raw_std": 1.8426043805148866, "train/extr_reward_mag": 1.0096686250633664, "train/extr_reward_max": 1.0096686250633664, "train/extr_reward_mean": 0.022328880046390824, "train/extr_reward_min": -0.6381936189201143, "train/extr_reward_std": 0.15275875841163927, "train/image_loss_mean": 5.289436909887526, "train/image_loss_std": 9.445600032806396, "train/model_loss_mean": 7.689327345954047, "train/model_loss_std": 12.782474239667257, "train/model_opt_grad_norm": 68.04844967524211, "train/model_opt_grad_steps": 11052.111111111111, "train/model_opt_loss": 5308.85791015625, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 694.4444444444445, "train/policy_entropy_mag": 2.4182662102911205, "train/policy_entropy_max": 2.4182662102911205, "train/policy_entropy_mean": 0.6319312842355834, "train/policy_entropy_min": 0.0793752558529377, "train/policy_entropy_std": 0.579324853916963, "train/policy_logprob_mag": 7.438380771213108, "train/policy_logprob_max": -0.009455803768812783, "train/policy_logprob_mean": -0.631430295192533, "train/policy_logprob_min": -7.438380771213108, "train/policy_logprob_std": 1.1582977490292654, "train/policy_randomness_mag": 0.8535418469044898, "train/policy_randomness_max": 0.8535418469044898, "train/policy_randomness_mean": 0.22304401422540346, "train/policy_randomness_min": 0.02801598184224632, "train/policy_randomness_std": 0.20447625178429815, "train/post_ent_mag": 39.2272187338935, "train/post_ent_max": 39.2272187338935, "train/post_ent_mean": 24.5249818166097, "train/post_ent_min": 11.093709376123217, "train/post_ent_std": 4.771627244022158, "train/prior_ent_mag": 67.16423850589328, "train/prior_ent_max": 67.16423850589328, "train/prior_ent_mean": 28.538798173268635, "train/prior_ent_min": 12.373896572324965, "train/prior_ent_std": 8.609438353114658, "train/rep_loss_mean": 3.935343474149704, "train/rep_loss_std": 7.4641135931015015, "train/reward_avg": 0.0146050345695888, "train/reward_loss_mean": 0.03851656359620392, "train/reward_loss_std": 0.1928586976395713, "train/reward_max_data": 1.0027777784400516, "train/reward_max_pred": 1.004238526026408, "train/reward_neg_acc": 0.9962204272548357, "train/reward_neg_loss": 0.023807298262707062, "train/reward_pos_acc": 0.9827591098017163, "train/reward_pos_loss": 0.7567630335688591, "train/reward_pred": 0.01456151450596129, "train/reward_rate": 0.020128038194444444, "stats/sum_log_reward": 3.988888793521457, "stats/max_log_achievement_collect_drink": 3.5555555555555554, "stats/max_log_achievement_collect_sapling": 2.111111111111111, "stats/max_log_achievement_collect_wood": 2.3333333333333335, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_table": 0.7777777777777778, "stats/max_log_achievement_wake_up": 2.111111111111111, "stats/mean_log_entropy": 0.6256726053025987, "replay/size": 23888.0, "replay/inserts": 1436.0, "replay/samples": 11488.0, "replay/insert_wait_avg": 3.4049360865005876e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.476999776941156e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2339289188385, "timer/env.step_count": 1436.0, "timer/env.step_total": 21.801696300506592, "timer/env.step_frac": 0.0726156979626383, "timer/env.step_avg": 0.015182239763583977, "timer/env.step_min": 0.0027008056640625, "timer/env.step_max": 1.6773762702941895, "timer/replay.add_count": 1436.0, "timer/replay.add_total": 0.26586270332336426, "timer/replay.add_frac": 0.0008855185164473342, "timer/replay.add_avg": 0.00018514115830317845, "timer/replay.add_min": 5.936622619628906e-05, "timer/replay.add_max": 0.0029256343841552734, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02877187728881836, "timer/logger.write_frac": 9.583153174069207e-05, "timer/logger.write_avg": 0.02877187728881836, "timer/logger.write_min": 0.02877187728881836, "timer/logger.write_max": 0.02877187728881836, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1436.0, "timer/agent.policy_total": 10.64479112625122, "timer/agent.policy_frac": 0.035454990595446, "timer/agent.policy_avg": 0.007412807190982744, "timer/agent.policy_min": 0.005799531936645508, "timer/agent.policy_max": 0.01792287826538086, "timer/dataset_count": 718.0, "timer/dataset_total": 0.05903935432434082, "timer/dataset_frac": 0.0001966445116211392, "timer/dataset_avg": 8.22275129865471e-05, "timer/dataset_min": 5.6743621826171875e-05, "timer/dataset_max": 0.00019097328186035156, "timer/agent.train_count": 718.0, "timer/agent.train_total": 266.75983333587646, "timer/agent.train_frac": 0.8885066198097451, "timer/agent.train_avg": 0.3715318013034491, "timer/agent.train_min": 0.3625912666320801, "timer/agent.train_max": 0.387317419052124, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2190113067626953, "timer/agent.report_frac": 0.0007294688763237685, "timer/agent.report_avg": 0.2190113067626953, "timer/agent.report_min": 0.2190113067626953, "timer/agent.report_max": 0.2190113067626953, "fps": 4.782860200964031}
{"step": 24097, "episode/length": 191.0, "episode/score": 5.099999979138374, "episode/sum_abs_reward": 6.900000020861626, "episode/reward_rate": 0.03125}
{"step": 24135, "episode/length": 37.0, "episode/score": 2.0999999716877937, "episode/sum_abs_reward": 4.1000000312924385, "episode/reward_rate": 0.10526315789473684}
{"step": 24283, "episode/length": 147.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.0472972972972973}
{"step": 24367, "episode/length": 83.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.05952380952380952}
{"step": 24403, "episode/length": 35.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 4.899999991059303, "episode/reward_rate": 0.1388888888888889}
{"step": 24597, "episode/length": 193.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.020618556701030927}
{"step": 24794, "episode/length": 196.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.500000022351742, "episode/reward_rate": 0.03553299492385787}
{"step": 24920, "episode/length": 125.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.3000000193715096, "episode/reward_rate": 0.03968253968253968}
{"step": 25076, "episode/length": 155.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 5.0999999940395355, "episode/reward_rate": 0.03205128205128205}
{"step": 25288, "episode/length": 211.0, "episode/score": 3.0999999791383743, "episode/sum_abs_reward": 4.900000020861626, "episode/reward_rate": 0.018867924528301886}
{"step": 25381, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 5.430725945366754, "train/action_min": 0.0, "train/action_std": 4.067288163635466, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03735075772015585, "train/actor_opt_grad_steps": 11785.0, "train/actor_opt_loss": -5.891204060986638, "train/adv_mag": 0.7742580208513472, "train/adv_max": 0.7456991577314006, "train/adv_mean": 0.003860578776665433, "train/adv_min": -0.5281139351427555, "train/adv_std": 0.05664723247496618, "train/cont_avg": 0.9941948784722222, "train/cont_loss_mean": 0.00021357809811680303, "train/cont_loss_std": 0.006544950033505377, "train/cont_neg_acc": 0.9972222232156329, "train/cont_neg_loss": 0.014845859543407237, "train/cont_pos_acc": 0.9999726961056391, "train/cont_pos_loss": 8.135425095328546e-05, "train/cont_pred": 0.9942023116681311, "train/cont_rate": 0.9941948784722222, "train/dyn_loss_mean": 3.735977921220991, "train/dyn_loss_std": 7.390968554549747, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.256263939042886, "train/extr_critic_critic_opt_grad_steps": 11785.0, "train/extr_critic_critic_opt_loss": 15172.011271158854, "train/extr_critic_mag": 9.04835961262385, "train/extr_critic_max": 9.04835961262385, "train/extr_critic_mean": 1.543671641084883, "train/extr_critic_min": -0.45461000005404156, "train/extr_critic_std": 1.7728384219937854, "train/extr_return_normed_mag": 1.8650892774264018, "train/extr_return_normed_max": 1.8650892774264018, "train/extr_return_normed_mean": 0.3366699222889211, "train/extr_return_normed_min": -0.13062491609404484, "train/extr_return_normed_std": 0.336934772423572, "train/extr_return_rate": 0.6229212193025483, "train/extr_return_raw_mag": 9.834800408946144, "train/extr_return_raw_max": 9.834800408946144, "train/extr_return_raw_mean": 1.5644940262039502, "train/extr_return_raw_min": -0.9598024404711194, "train/extr_return_raw_std": 1.8216615170240402, "train/extr_reward_mag": 1.0160260895888011, "train/extr_reward_max": 1.0160260895888011, "train/extr_reward_mean": 0.025837248320587806, "train/extr_reward_min": -0.6225161270962821, "train/extr_reward_std": 0.16030009556561708, "train/image_loss_mean": 4.558387537797292, "train/image_loss_std": 8.178795145617592, "train/model_loss_mean": 6.83767522043652, "train/model_loss_std": 11.513459828164843, "train/model_opt_grad_norm": 56.21029109425015, "train/model_opt_grad_steps": 11772.0, "train/model_opt_loss": 6339.609063042535, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 937.5, "train/policy_entropy_mag": 2.4269326759709253, "train/policy_entropy_max": 2.4269326759709253, "train/policy_entropy_mean": 0.6156047143869929, "train/policy_entropy_min": 0.07937523391511705, "train/policy_entropy_std": 0.5752329499357276, "train/policy_logprob_mag": 7.438382095760769, "train/policy_logprob_max": -0.009455798840564158, "train/policy_logprob_mean": -0.6154499430623319, "train/policy_logprob_min": -7.438382095760769, "train/policy_logprob_std": 1.153186046414905, "train/policy_randomness_mag": 0.856600734922621, "train/policy_randomness_max": 0.856600734922621, "train/policy_randomness_mean": 0.21728145041399533, "train/policy_randomness_min": 0.02801597413296501, "train/policy_randomness_std": 0.203031989849276, "train/post_ent_mag": 38.433641062842476, "train/post_ent_max": 38.433641062842476, "train/post_ent_mean": 24.37411136097378, "train/post_ent_min": 10.572369125154284, "train/post_ent_std": 4.642679323752721, "train/prior_ent_mag": 67.51611179775662, "train/prior_ent_max": 67.51611179775662, "train/prior_ent_mean": 28.28052650557624, "train/prior_ent_min": 12.16116882695092, "train/prior_ent_std": 8.478736639022827, "train/rep_loss_mean": 3.735977921220991, "train/rep_loss_std": 7.390968554549747, "train/reward_avg": 0.016343858481074374, "train/reward_loss_mean": 0.03748734729985396, "train/reward_loss_std": 0.18085036613047123, "train/reward_max_data": 1.0125000029802322, "train/reward_max_pred": 1.009607172674603, "train/reward_neg_acc": 0.9962698097030321, "train/reward_neg_loss": 0.021897955137925845, "train/reward_pos_acc": 0.984085640973515, "train/reward_pos_loss": 0.7476903448502222, "train/reward_pred": 0.016219882695521746, "train/reward_rate": 0.021511501736111112, "stats/sum_log_reward": 3.9, "stats/max_log_achievement_collect_drink": 2.2, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_wood": 2.4, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.1, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.1, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_table": 0.8, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.5836569041013717, "replay/size": 25318.0, "replay/inserts": 1430.0, "replay/samples": 11440.0, "replay/insert_wait_avg": 3.367037206262975e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.400188132599517e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.32892370224, "timer/env.step_count": 1430.0, "timer/env.step_total": 23.07013726234436, "timer/env.step_frac": 0.07681623527282096, "timer/env.step_avg": 0.01613296312052053, "timer/env.step_min": 0.0026445388793945312, "timer/env.step_max": 1.6239678859710693, "timer/replay.add_count": 1430.0, "timer/replay.add_total": 0.24994421005249023, "timer/replay.add_frac": 0.0008322348942331525, "timer/replay.add_avg": 0.0001747861608758673, "timer/replay.add_min": 6.0558319091796875e-05, "timer/replay.add_max": 0.0032706260681152344, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02248072624206543, "timer/logger.write_frac": 7.485368363772336e-05, "timer/logger.write_avg": 0.02248072624206543, "timer/logger.write_min": 0.02248072624206543, "timer/logger.write_max": 0.02248072624206543, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1430.0, "timer/agent.policy_total": 10.407901287078857, "timer/agent.policy_frac": 0.034655008111698665, "timer/agent.policy_avg": 0.007278252648306893, "timer/agent.policy_min": 0.0057239532470703125, "timer/agent.policy_max": 0.019373416900634766, "timer/dataset_count": 715.0, "timer/dataset_total": 0.05531668663024902, "timer/dataset_frac": 0.00018418701052281116, "timer/dataset_avg": 7.736599528706158e-05, "timer/dataset_min": 5.507469177246094e-05, "timer/dataset_max": 0.00015020370483398438, "timer/agent.train_count": 715.0, "timer/agent.train_total": 265.8610382080078, "timer/agent.train_frac": 0.8852328804387644, "timer/agent.train_avg": 0.3718336198713396, "timer/agent.train_min": 0.36455488204956055, "timer/agent.train_max": 0.38449668884277344, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22295379638671875, "timer/agent.report_frac": 0.0007423653827220634, "timer/agent.report_avg": 0.22295379638671875, "timer/agent.report_min": 0.22295379638671875, "timer/agent.report_max": 0.22295379638671875, "fps": 4.761345679029585}
{"step": 25483, "episode/length": 194.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.02564102564102564}
{"step": 25660, "episode/length": 176.0, "episode/score": 5.100000001490116, "episode/sum_abs_reward": 6.700000025331974, "episode/reward_rate": 0.03389830508474576}
{"step": 25828, "episode/length": 167.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 4.900000013411045, "episode/reward_rate": 0.023809523809523808}
{"step": 26039, "episode/length": 210.0, "episode/score": 1.099999986588955, "episode/sum_abs_reward": 3.1000000163912773, "episode/reward_rate": 0.009478672985781991}
{"step": 26239, "episode/length": 199.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.025}
{"step": 26490, "episode/length": 250.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.0999999940395355, "episode/reward_rate": 0.027888446215139442}
{"step": 26634, "episode/length": 143.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.3000000193715096, "episode/reward_rate": 0.020833333333333332}
{"step": 26774, "episode/length": 139.0, "episode/score": 3.0999999716877937, "episode/sum_abs_reward": 5.1000000312924385, "episode/reward_rate": 0.03571428571428571}
{"step": 26801, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 5.255083970620599, "train/action_min": 0.0, "train/action_std": 3.969440248650564, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03785845443186626, "train/actor_opt_grad_steps": 12500.0, "train/actor_opt_loss": -15.694746978266139, "train/adv_mag": 0.7943239648577193, "train/adv_max": 0.7420979998481105, "train/adv_mean": 0.0019141293320297363, "train/adv_min": -0.605360594853549, "train/adv_std": 0.05918775708742545, "train/cont_avg": 0.9945807658450704, "train/cont_loss_mean": 5.582508018985471e-05, "train/cont_loss_std": 0.0016066778787959125, "train/cont_neg_acc": 0.9964788732394366, "train/cont_neg_loss": 0.006990426480355459, "train/cont_pos_acc": 0.999999978172947, "train/cont_pos_loss": 2.8242891288964306e-05, "train/cont_pred": 0.9945685502508996, "train/cont_rate": 0.9945807658450704, "train/dyn_loss_mean": 3.8036781264023043, "train/dyn_loss_std": 7.391859652290882, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.294867222577753, "train/extr_critic_critic_opt_grad_steps": 12500.0, "train/extr_critic_critic_opt_loss": 15407.978749449823, "train/extr_critic_mag": 8.283315665285352, "train/extr_critic_max": 8.283315665285352, "train/extr_critic_mean": 1.4200466585830904, "train/extr_critic_min": -0.4841131022278692, "train/extr_critic_std": 1.6654160727917309, "train/extr_return_normed_mag": 1.780053222683114, "train/extr_return_normed_max": 1.780053222683114, "train/extr_return_normed_mean": 0.32338032294327107, "train/extr_return_normed_min": -0.15804999416143123, "train/extr_return_normed_std": 0.32834221506622474, "train/extr_return_rate": 0.6201447303026495, "train/extr_return_raw_mag": 8.990311904692314, "train/extr_return_raw_max": 8.990311904692314, "train/extr_return_raw_mean": 1.4300918352436012, "train/extr_return_raw_min": -1.0743740091861134, "train/extr_return_raw_std": 1.7066798142983879, "train/extr_reward_mag": 1.0138493457310636, "train/extr_reward_max": 1.0138493457310636, "train/extr_reward_mean": 0.023663497188876212, "train/extr_reward_min": -0.622665887147608, "train/extr_reward_std": 0.15725721786139715, "train/image_loss_mean": 4.503614348424992, "train/image_loss_std": 8.034765256962306, "train/model_loss_mean": 6.822391335393341, "train/model_loss_std": 11.400403801824005, "train/model_opt_grad_norm": 63.14877252578735, "train/model_opt_grad_steps": 12486.18309859155, "train/model_opt_loss": 5108.215438627861, "train/model_opt_model_opt_grad_overflow": 0.014084507042253521, "train/model_opt_model_opt_grad_scale": 739.4366197183099, "train/policy_entropy_mag": 2.425639122304782, "train/policy_entropy_max": 2.425639122304782, "train/policy_entropy_mean": 0.5945840948064562, "train/policy_entropy_min": 0.07937521970188113, "train/policy_entropy_std": 0.5687601066810984, "train/policy_logprob_mag": 7.438381987558285, "train/policy_logprob_max": -0.009455777507957439, "train/policy_logprob_mean": -0.5935193619257967, "train/policy_logprob_min": -7.438381987558285, "train/policy_logprob_std": 1.1371506889101486, "train/policy_randomness_mag": 0.8561441663285376, "train/policy_randomness_max": 0.8561441663285376, "train/policy_randomness_mean": 0.20986209620892163, "train/policy_randomness_min": 0.028015969111256197, "train/policy_randomness_std": 0.2007473608557607, "train/post_ent_mag": 39.1637248186998, "train/post_ent_max": 39.1637248186998, "train/post_ent_mean": 24.68481676343461, "train/post_ent_min": 11.055704264573649, "train/post_ent_std": 4.6006696560013465, "train/prior_ent_mag": 67.77422590658698, "train/prior_ent_max": 67.77422590658698, "train/prior_ent_mean": 28.575584572805486, "train/prior_ent_min": 12.231586026473783, "train/prior_ent_std": 8.427022779491585, "train/rep_loss_mean": 3.8036781264023043, "train/rep_loss_std": 7.391859652290882, "train/reward_avg": 0.015904214495504405, "train/reward_loss_mean": 0.03651432496246318, "train/reward_loss_std": 0.17816434926550154, "train/reward_max_data": 1.0070422552001308, "train/reward_max_pred": 1.0073507537304516, "train/reward_neg_acc": 0.9965009974761748, "train/reward_neg_loss": 0.021197071640004575, "train/reward_pos_acc": 0.9833217842478148, "train/reward_pos_loss": 0.7504310532354973, "train/reward_pred": 0.015825110494198515, "train/reward_rate": 0.021002970950704226, "stats/sum_log_reward": 3.4749999195337296, "stats/max_log_achievement_collect_drink": 9.375, "stats/max_log_achievement_collect_sapling": 1.75, "stats/max_log_achievement_collect_wood": 1.125, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.375, "stats/max_log_achievement_place_table": 0.375, "stats/max_log_achievement_wake_up": 2.375, "stats/mean_log_entropy": 0.6006256639957428, "replay/size": 26738.0, "replay/inserts": 1420.0, "replay/samples": 11360.0, "replay/insert_wait_avg": 3.2893368895624725e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3407896941816304e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.12546944618225, "timer/env.step_count": 1420.0, "timer/env.step_total": 22.56720495223999, "timer/env.step_frac": 0.07519256860766589, "timer/env.step_avg": 0.015892397853690135, "timer/env.step_min": 0.002775907516479492, "timer/env.step_max": 2.2761378288269043, "timer/replay.add_count": 1420.0, "timer/replay.add_total": 0.2519545555114746, "timer/replay.add_frac": 0.000839497414119512, "timer/replay.add_avg": 0.00017743278557146098, "timer/replay.add_min": 5.9604644775390625e-05, "timer/replay.add_max": 0.0013396739959716797, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021296262741088867, "timer/logger.write_frac": 7.095786565660886e-05, "timer/logger.write_avg": 0.021296262741088867, "timer/logger.write_min": 0.021296262741088867, "timer/logger.write_max": 0.021296262741088867, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00037407875061035156, "timer/checkpoint.save_frac": 1.2464078816790669e-06, "timer/checkpoint.save_avg": 0.00037407875061035156, "timer/checkpoint.save_min": 0.00037407875061035156, "timer/checkpoint.save_max": 0.00037407875061035156, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.378087043762207, "timer/agent.save_frac": 0.004591703084397248, "timer/agent.save_avg": 1.378087043762207, "timer/agent.save_min": 1.378087043762207, "timer/agent.save_max": 1.378087043762207, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.0001251697540283203, "timer/replay.save_frac": 4.170580866038943e-07, "timer/replay.save_avg": 0.0001251697540283203, "timer/replay.save_min": 0.0001251697540283203, "timer/replay.save_max": 0.0001251697540283203, "timer/agent.policy_count": 1420.0, "timer/agent.policy_total": 12.383206367492676, "timer/agent.policy_frac": 0.041260098286037675, "timer/agent.policy_avg": 0.008720567864431462, "timer/agent.policy_min": 0.00574493408203125, "timer/agent.policy_max": 1.3673722743988037, "timer/dataset_count": 710.0, "timer/dataset_total": 0.05416536331176758, "timer/dataset_frac": 0.00018047573040608063, "timer/dataset_avg": 7.628924410108109e-05, "timer/dataset_min": 5.412101745605469e-05, "timer/dataset_max": 0.00019621849060058594, "timer/agent.train_count": 710.0, "timer/agent.train_total": 264.21417212486267, "timer/agent.train_frac": 0.8803457187835932, "timer/agent.train_avg": 0.37213263679558123, "timer/agent.train_min": 0.3653130531311035, "timer/agent.train_max": 0.451657772064209, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2022261619567871, "timer/agent.report_frac": 0.0006738053998880952, "timer/agent.report_avg": 0.2022261619567871, "timer/agent.report_min": 0.2022261619567871, "timer/agent.report_max": 0.2022261619567871, "fps": 4.731252154396017}
{"step": 26918, "episode/length": 143.0, "episode/score": 1.099999986588955, "episode/sum_abs_reward": 3.3000000193715096, "episode/reward_rate": 0.013888888888888888}
{"step": 27143, "episode/length": 224.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.03111111111111111}
{"step": 27330, "episode/length": 186.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.500000022351742, "episode/reward_rate": 0.016042780748663103}
{"step": 27474, "episode/length": 143.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 5.299999997019768, "episode/reward_rate": 0.034722222222222224}
{"step": 27637, "episode/length": 162.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.03067484662576687}
{"step": 27814, "episode/length": 176.0, "episode/score": 2.0999999716877937, "episode/sum_abs_reward": 4.1000000312924385, "episode/reward_rate": 0.022598870056497175}
{"step": 27985, "episode/length": 170.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.04093567251461988}
{"step": 28230, "episode/length": 244.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 5.299999997019768, "episode/reward_rate": 0.02040816326530612}
{"step": 28249, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 5.434522840711805, "train/action_min": 0.0, "train/action_std": 4.086781799793243, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03559292076776425, "train/actor_opt_grad_steps": 13215.0, "train/actor_opt_loss": -13.457584629870123, "train/adv_mag": 0.8524339819947878, "train/adv_max": 0.8061601552698348, "train/adv_mean": 0.0029762932927547402, "train/adv_min": -0.5036566737625334, "train/adv_std": 0.05740117918079098, "train/cont_avg": 0.9940321180555556, "train/cont_loss_mean": 0.00024398422595971347, "train/cont_loss_std": 0.0075284987861152786, "train/cont_neg_acc": 0.9953703714741601, "train/cont_neg_loss": 0.032986178862728366, "train/cont_pos_acc": 0.9999863530198733, "train/cont_pos_loss": 5.000608942672279e-05, "train/cont_pred": 0.9940313183599048, "train/cont_rate": 0.9940321180555556, "train/dyn_loss_mean": 4.046056121587753, "train/dyn_loss_std": 7.570872068405151, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.3284650519490242, "train/extr_critic_critic_opt_grad_steps": 13215.0, "train/extr_critic_critic_opt_loss": 15359.274115668402, "train/extr_critic_mag": 8.944073213471306, "train/extr_critic_max": 8.944073213471306, "train/extr_critic_mean": 1.439031817846828, "train/extr_critic_min": -0.5090347147650189, "train/extr_critic_std": 1.8101890136798222, "train/extr_return_normed_mag": 1.8853246139155493, "train/extr_return_normed_max": 1.8853246139155493, "train/extr_return_normed_mean": 0.3244033464127117, "train/extr_return_normed_min": -0.14428082884599766, "train/extr_return_normed_std": 0.34821268129679894, "train/extr_return_rate": 0.6109746081961526, "train/extr_return_raw_mag": 9.850291523668501, "train/extr_return_raw_max": 9.850291523668501, "train/extr_return_raw_mean": 1.4552308917045593, "train/extr_return_raw_min": -1.0627136586440935, "train/extr_return_raw_std": 1.8737497346268759, "train/extr_reward_mag": 1.0162062843640645, "train/extr_reward_max": 1.0162062843640645, "train/extr_reward_mean": 0.02426357811782509, "train/extr_reward_min": -0.6547989894946417, "train/extr_reward_std": 0.15870172540760702, "train/image_loss_mean": 4.956844502025181, "train/image_loss_std": 9.332580142550999, "train/model_loss_mean": 7.422970573107402, "train/model_loss_std": 12.700561960538229, "train/model_opt_grad_norm": 60.64450738165114, "train/model_opt_grad_steps": 13200.986111111111, "train/model_opt_loss": 6483.02826944987, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 868.0555555555555, "train/policy_entropy_mag": 2.4133286012543573, "train/policy_entropy_max": 2.4133286012543573, "train/policy_entropy_mean": 0.6031911137203375, "train/policy_entropy_min": 0.0793752000770635, "train/policy_entropy_std": 0.5750227380130026, "train/policy_logprob_mag": 7.438382301065657, "train/policy_logprob_max": -0.009455774199321039, "train/policy_logprob_mean": -0.60097879005803, "train/policy_logprob_min": -7.438382301065657, "train/policy_logprob_std": 1.138861843281322, "train/policy_randomness_mag": 0.8517990907033285, "train/policy_randomness_max": 0.8517990907033285, "train/policy_randomness_mean": 0.21289999534686407, "train/policy_randomness_min": 0.02801596220686204, "train/policy_randomness_std": 0.20295779241455925, "train/post_ent_mag": 38.83200475904677, "train/post_ent_max": 38.83200475904677, "train/post_ent_mean": 24.75572607252333, "train/post_ent_min": 11.21487041314443, "train/post_ent_std": 4.643170217672984, "train/prior_ent_mag": 67.95886262257893, "train/prior_ent_max": 67.95886262257893, "train/prior_ent_mean": 28.851131227281357, "train/prior_ent_min": 12.7275986538993, "train/prior_ent_std": 8.595553775628408, "train/rep_loss_mean": 4.046056121587753, "train/rep_loss_std": 7.570872068405151, "train/reward_avg": 0.016764322719407372, "train/reward_loss_mean": 0.03824842475458152, "train/reward_loss_std": 0.1851456253271964, "train/reward_max_data": 1.0125000029802322, "train/reward_max_pred": 1.011207299100028, "train/reward_neg_acc": 0.9962005615234375, "train/reward_neg_loss": 0.022189551304715376, "train/reward_pos_acc": 0.9798907347851329, "train/reward_pos_loss": 0.750188286933634, "train/reward_pred": 0.016567407932598144, "train/reward_rate": 0.022040473090277776, "stats/sum_log_reward": 3.2249999195337296, "stats/max_log_achievement_collect_drink": 3.25, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_wood": 2.125, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_table": 0.875, "stats/max_log_achievement_wake_up": 2.125, "stats/mean_log_entropy": 0.618845921009779, "replay/size": 28186.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.3133267039093522e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4267038574534885e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1484088897705, "timer/env.step_count": 1448.0, "timer/env.step_total": 19.671764373779297, "timer/env.step_frac": 0.06554012545508363, "timer/env.step_avg": 0.013585472633825481, "timer/env.step_min": 0.002768993377685547, "timer/env.step_max": 1.6016056537628174, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.24314141273498535, "timer/replay.add_frac": 0.0008100706368371222, "timer/replay.add_avg": 0.0001679153402865921, "timer/replay.add_min": 5.793571472167969e-05, "timer/replay.add_max": 0.0040667057037353516, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021579742431640625, "timer/logger.write_frac": 7.189690763800046e-05, "timer/logger.write_avg": 0.021579742431640625, "timer/logger.write_min": 0.021579742431640625, "timer/logger.write_max": 0.021579742431640625, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 10.607250690460205, "timer/agent.policy_frac": 0.03534001972456138, "timer/agent.policy_avg": 0.007325449371864782, "timer/agent.policy_min": 0.005768299102783203, "timer/agent.policy_max": 0.016768932342529297, "timer/dataset_count": 724.0, "timer/dataset_total": 0.0564267635345459, "timer/dataset_frac": 0.0001879962107520904, "timer/dataset_avg": 7.793751869412417e-05, "timer/dataset_min": 5.435943603515625e-05, "timer/dataset_max": 0.00015735626220703125, "timer/agent.train_count": 724.0, "timer/agent.train_total": 268.883905172348, "timer/agent.train_frac": 0.8958365168981977, "timer/agent.train_avg": 0.37138660935407186, "timer/agent.train_min": 0.36276936531066895, "timer/agent.train_max": 0.3857564926147461, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21726393699645996, "timer/agent.report_frac": 0.0007238550349145783, "timer/agent.report_avg": 0.21726393699645996, "timer/agent.report_min": 0.21726393699645996, "timer/agent.report_max": 0.21726393699645996, "fps": 4.824176606579645}
{"step": 28386, "episode/length": 155.0, "episode/score": 5.0999999940395355, "episode/sum_abs_reward": 6.9000000059604645, "episode/reward_rate": 0.04487179487179487}
{"step": 28428, "episode/length": 41.0, "episode/score": 0.10000000894069672, "episode/sum_abs_reward": 1.8999999910593033, "episode/reward_rate": 0.047619047619047616}
{"step": 28605, "episode/length": 176.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03389830508474576}
{"step": 28761, "episode/length": 155.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.02564102564102564}
{"step": 28912, "episode/length": 150.0, "episode/score": 3.100000001490116, "episode/sum_abs_reward": 5.1000000312924385, "episode/reward_rate": 0.026490066225165563}
{"step": 29106, "episode/length": 193.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.030927835051546393}
{"step": 29140, "episode/length": 33.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 4.899999991059303, "episode/reward_rate": 0.14705882352941177}
{"step": 29327, "episode/length": 186.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.026737967914438502}
{"step": 29410, "episode/length": 82.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 4.899999991059303, "episode/reward_rate": 0.060240963855421686}
{"step": 29647, "episode/length": 236.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.02109704641350211}
{"step": 29677, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.989965304522447, "train/action_min": 0.0, "train/action_std": 3.8417863375704053, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.034158181477810294, "train/actor_opt_grad_steps": 13930.0, "train/actor_opt_loss": -10.412091141015711, "train/adv_mag": 0.7352086515493796, "train/adv_max": 0.6836346467615853, "train/adv_mean": 0.0033498559053659334, "train/adv_min": -0.5115402294716365, "train/adv_std": 0.05369932897074122, "train/cont_avg": 0.994690801056338, "train/cont_loss_mean": 0.0001643244823650897, "train/cont_loss_std": 0.004957590689573536, "train/cont_neg_acc": 0.9881287737631462, "train/cont_neg_loss": 0.02037899453162795, "train/cont_pos_acc": 0.9999722552971101, "train/cont_pos_loss": 8.36140012237037e-05, "train/cont_pred": 0.9946829097371706, "train/cont_rate": 0.994690801056338, "train/dyn_loss_mean": 3.7890238627581527, "train/dyn_loss_std": 7.44195177857305, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.2926732763438158, "train/extr_critic_critic_opt_grad_steps": 13930.0, "train/extr_critic_critic_opt_loss": 15774.901697293133, "train/extr_critic_mag": 8.73262250255531, "train/extr_critic_max": 8.73262250255531, "train/extr_critic_mean": 1.4187400349428956, "train/extr_critic_min": -0.5449709606842256, "train/extr_critic_std": 1.7497966356680428, "train/extr_return_normed_mag": 1.7232270475844262, "train/extr_return_normed_max": 1.7232270475844262, "train/extr_return_normed_mean": 0.30202286721954885, "train/extr_return_normed_min": -0.1453441271794514, "train/extr_return_normed_std": 0.31607461941074316, "train/extr_return_rate": 0.6069139120444446, "train/extr_return_raw_mag": 9.513038225576912, "train/extr_return_raw_max": 9.513038225576912, "train/extr_return_raw_mean": 1.437887962435333, "train/extr_return_raw_min": -1.1188471837782523, "train/extr_return_raw_std": 1.8019551576023372, "train/extr_reward_mag": 1.013729236495327, "train/extr_reward_max": 1.013729236495327, "train/extr_reward_mean": 0.024974914923520157, "train/extr_reward_min": -0.6514119531067324, "train/extr_reward_std": 0.16146162593028915, "train/image_loss_mean": 4.335907761479767, "train/image_loss_std": 8.103034560109528, "train/model_loss_mean": 6.644724953342491, "train/model_loss_std": 11.455375879583224, "train/model_opt_grad_norm": 57.88816344570106, "train/model_opt_grad_steps": 13915.0, "train/model_opt_loss": 4152.953090613996, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 625.0, "train/policy_entropy_mag": 2.4148314637197577, "train/policy_entropy_max": 2.4148314637197577, "train/policy_entropy_mean": 0.5578730857708085, "train/policy_entropy_min": 0.07937516807250573, "train/policy_entropy_std": 0.5639136517551583, "train/policy_logprob_mag": 7.438382699456014, "train/policy_logprob_max": -0.009455769178523143, "train/policy_logprob_mean": -0.5580159387957881, "train/policy_logprob_min": -7.438382699456014, "train/policy_logprob_std": 1.1218122294251347, "train/policy_randomness_mag": 0.8523295353835737, "train/policy_randomness_max": 0.8523295353835737, "train/policy_randomness_mean": 0.19690472055488908, "train/policy_randomness_min": 0.02801595100949348, "train/policy_randomness_std": 0.1990367740812436, "train/post_ent_mag": 38.550303284551056, "train/post_ent_max": 38.550303284551056, "train/post_ent_mean": 24.57153349862972, "train/post_ent_min": 11.387429237365723, "train/post_ent_std": 4.594344948379087, "train/prior_ent_mag": 68.40342271831673, "train/prior_ent_max": 68.40342271831673, "train/prior_ent_mean": 28.51290917732346, "train/prior_ent_min": 12.789025024628975, "train/prior_ent_std": 8.541380036045128, "train/rep_loss_mean": 3.7890238627581527, "train/rep_loss_std": 7.44195177857305, "train/reward_avg": 0.01706646118496715, "train/reward_loss_mean": 0.03523851364431247, "train/reward_loss_std": 0.17295372549077154, "train/reward_max_data": 1.008450706240157, "train/reward_max_pred": 1.0100510708043273, "train/reward_neg_acc": 0.9968900000545341, "train/reward_neg_loss": 0.019449047376991997, "train/reward_pos_acc": 0.9867643310990132, "train/reward_pos_loss": 0.7353698082373176, "train/reward_pred": 0.016980434777739813, "train/reward_rate": 0.021993287852112676, "stats/sum_log_reward": 3.5999999165534975, "stats/max_log_achievement_collect_drink": 2.1, "stats/max_log_achievement_collect_sapling": 2.7, "stats/max_log_achievement_collect_wood": 2.4, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.4, "stats/max_log_achievement_place_table": 0.9, "stats/max_log_achievement_wake_up": 1.2, "stats/mean_log_entropy": 0.46492581367492675, "replay/size": 29614.0, "replay/inserts": 1428.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 3.420672162908132e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4353533084986924e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.10318541526794, "timer/env.step_count": 1428.0, "timer/env.step_total": 23.328755378723145, "timer/env.step_frac": 0.07773578059973595, "timer/env.step_avg": 0.016336663430478394, "timer/env.step_min": 0.0026865005493164062, "timer/env.step_max": 1.5928974151611328, "timer/replay.add_count": 1428.0, "timer/replay.add_total": 0.24799132347106934, "timer/replay.add_frac": 0.0008263535194666835, "timer/replay.add_avg": 0.00017366339178646312, "timer/replay.add_min": 6.246566772460938e-05, "timer/replay.add_max": 0.0021207332611083984, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02151203155517578, "timer/logger.write_frac": 7.168211668732705e-05, "timer/logger.write_avg": 0.02151203155517578, "timer/logger.write_min": 0.02151203155517578, "timer/logger.write_max": 0.02151203155517578, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1428.0, "timer/agent.policy_total": 10.53087568283081, "timer/agent.policy_frac": 0.03509084939654574, "timer/agent.policy_avg": 0.0073745628031028085, "timer/agent.policy_min": 0.0058269500732421875, "timer/agent.policy_max": 0.01878046989440918, "timer/dataset_count": 714.0, "timer/dataset_total": 0.05646324157714844, "timer/dataset_frac": 0.00018814609214833024, "timer/dataset_avg": 7.908017027611826e-05, "timer/dataset_min": 5.626678466796875e-05, "timer/dataset_max": 0.00019931793212890625, "timer/agent.train_count": 714.0, "timer/agent.train_total": 265.2434196472168, "timer/agent.train_frac": 0.883840733913524, "timer/agent.train_avg": 0.3714893832594073, "timer/agent.train_min": 0.364182710647583, "timer/agent.train_max": 0.38448429107666016, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22313714027404785, "timer/agent.report_frac": 0.0007435347277813186, "timer/agent.report_avg": 0.22313714027404785, "timer/agent.report_min": 0.22313714027404785, "timer/agent.report_max": 0.22313714027404785, "fps": 4.758276597869404}
{"step": 29742, "episode/length": 94.0, "episode/score": 4.099999971687794, "episode/sum_abs_reward": 6.1000000312924385, "episode/reward_rate": 0.06315789473684211}
{"step": 29920, "episode/length": 177.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.03932584269662921}
{"step": 30090, "episode/length": 169.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.029411764705882353}
{"step": 30243, "episode/length": 152.0, "episode/score": 3.0999999940395355, "episode/sum_abs_reward": 4.9000000059604645, "episode/reward_rate": 0.032679738562091505}
{"step": 30389, "episode/length": 145.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 4.899999991059303, "episode/reward_rate": 0.03424657534246575}
{"step": 30576, "episode/length": 186.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.03208556149732621}
{"step": 30755, "episode/length": 178.0, "episode/score": 4.099999971687794, "episode/sum_abs_reward": 5.900000028312206, "episode/reward_rate": 0.0335195530726257}
{"step": 30796, "episode/length": 40.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.100000016391277, "episode/reward_rate": 0.07317073170731707}
{"step": 30933, "episode/length": 136.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.900000028312206, "episode/reward_rate": 0.021897810218978103}
{"step": 31087, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 5.214188696632923, "train/action_min": 0.0, "train/action_std": 4.001083716540269, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.037890901395552595, "train/actor_opt_grad_steps": 14640.0, "train/actor_opt_loss": -9.221056871850726, "train/adv_mag": 0.8848897159939081, "train/adv_max": 0.8387541342789019, "train/adv_mean": 0.0034133415953784977, "train/adv_min": -0.6237912434087672, "train/adv_std": 0.05977070478486343, "train/cont_avg": 0.9940580985915493, "train/cont_loss_mean": 9.347390864328466e-05, "train/cont_loss_std": 0.0026322984941611087, "train/cont_neg_acc": 0.9967075191753011, "train/cont_neg_loss": 0.007288179022079738, "train/cont_pos_acc": 0.9999861650063958, "train/cont_pos_loss": 4.085729374286158e-05, "train/cont_pred": 0.9940588843654579, "train/cont_rate": 0.9940580985915493, "train/dyn_loss_mean": 3.8770055166432553, "train/dyn_loss_std": 7.630905628204346, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.3004233006020667, "train/extr_critic_critic_opt_grad_steps": 14640.0, "train/extr_critic_critic_opt_loss": 15714.390391175177, "train/extr_critic_mag": 10.045095826538516, "train/extr_critic_max": 10.045095826538516, "train/extr_critic_mean": 1.4452233835005424, "train/extr_critic_min": -0.5600084654042419, "train/extr_critic_std": 1.938548766391378, "train/extr_return_normed_mag": 1.8718849907458668, "train/extr_return_normed_max": 1.8718849907458668, "train/extr_return_normed_mean": 0.298774176080462, "train/extr_return_normed_min": -0.14040817456765914, "train/extr_return_normed_std": 0.3411211971665772, "train/extr_return_rate": 0.5855588232967216, "train/extr_return_raw_mag": 10.71091936003994, "train/extr_return_raw_max": 10.71091936003994, "train/extr_return_raw_mean": 1.4653393223252096, "train/extr_return_raw_min": -1.1122426516573194, "train/extr_return_raw_std": 2.0031049201186275, "train/extr_reward_mag": 1.012542422388641, "train/extr_reward_max": 1.012542422388641, "train/extr_reward_mean": 0.023504868110405728, "train/extr_reward_min": -0.663724487935993, "train/extr_reward_std": 0.16060709113806065, "train/image_loss_mean": 4.775634406318127, "train/image_loss_std": 9.17624067924392, "train/model_loss_mean": 7.139339789538316, "train/model_loss_std": 12.581818258258659, "train/model_opt_grad_norm": 58.48215723709321, "train/model_opt_grad_steps": 14624.478873239437, "train/model_opt_loss": 4885.709166620819, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 677.8169014084507, "train/policy_entropy_mag": 2.441860514627376, "train/policy_entropy_max": 2.441860514627376, "train/policy_entropy_mean": 0.5924245752918889, "train/policy_entropy_min": 0.07937515401084658, "train/policy_entropy_std": 0.581339955329895, "train/policy_logprob_mag": 7.438382672591948, "train/policy_logprob_max": -0.009455764180862568, "train/policy_logprob_mean": -0.5934113486551903, "train/policy_logprob_min": -7.438382672591948, "train/policy_logprob_std": 1.14594639690829, "train/policy_randomness_mag": 0.861869602975711, "train/policy_randomness_max": 0.861869602975711, "train/policy_randomness_mean": 0.20909988103618085, "train/policy_randomness_min": 0.028015946208591193, "train/policy_randomness_std": 0.20518749217752, "train/post_ent_mag": 39.374340863295004, "train/post_ent_max": 39.374340863295004, "train/post_ent_mean": 24.84526999567596, "train/post_ent_min": 11.788216523721184, "train/post_ent_std": 4.5604822232689655, "train/prior_ent_mag": 68.42486088712451, "train/prior_ent_max": 68.42486088712451, "train/prior_ent_mean": 28.830730384504292, "train/prior_ent_min": 13.083170474415095, "train/prior_ent_std": 8.598796569125753, "train/rep_loss_mean": 3.8770055166432553, "train/rep_loss_std": 7.630905628204346, "train/reward_avg": 0.016550671066564153, "train/reward_loss_mean": 0.0374086083660663, "train/reward_loss_std": 0.18041992502313264, "train/reward_max_data": 1.0042253531200784, "train/reward_max_pred": 1.0079841479449205, "train/reward_neg_acc": 0.9965103931829963, "train/reward_neg_loss": 0.022086008215769077, "train/reward_pos_acc": 0.9889963982810437, "train/reward_pos_loss": 0.7208036335421281, "train/reward_pred": 0.01651360516265874, "train/reward_rate": 0.02189700704225352, "stats/sum_log_reward": 3.5444444020589194, "stats/max_log_achievement_collect_drink": 1.6666666666666667, "stats/max_log_achievement_collect_sapling": 1.8888888888888888, "stats/max_log_achievement_collect_wood": 1.8888888888888888, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.2222222222222223, "stats/max_log_achievement_place_table": 0.6666666666666666, "stats/max_log_achievement_wake_up": 1.5555555555555556, "stats/mean_log_entropy": 0.568755684627427, "replay/size": 31024.0, "replay/inserts": 1410.0, "replay/samples": 11280.0, "replay/insert_wait_avg": 3.4142893256870566e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.412228489598484e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2915229797363, "timer/env.step_count": 1410.0, "timer/env.step_total": 24.5465726852417, "timer/env.step_frac": 0.08174247624998093, "timer/env.step_avg": 0.01740891679804376, "timer/env.step_min": 0.0030660629272460938, "timer/env.step_max": 2.485029697418213, "timer/replay.add_count": 1410.0, "timer/replay.add_total": 0.255068302154541, "timer/replay.add_frac": 0.0008494022729098251, "timer/replay.add_avg": 0.00018089950507414257, "timer/replay.add_min": 5.984306335449219e-05, "timer/replay.add_max": 0.004779338836669922, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.020248889923095703, "timer/logger.write_frac": 6.74307743427779e-05, "timer/logger.write_avg": 0.020248889923095703, "timer/logger.write_min": 0.020248889923095703, "timer/logger.write_max": 0.020248889923095703, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003552436828613281, "timer/checkpoint.save_frac": 1.1829960411013666e-06, "timer/checkpoint.save_avg": 0.0003552436828613281, "timer/checkpoint.save_min": 0.0003552436828613281, "timer/checkpoint.save_max": 0.0003552436828613281, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.414546012878418, "timer/agent.save_frac": 0.004710575905846904, "timer/agent.save_avg": 1.414546012878418, "timer/agent.save_min": 1.414546012878418, "timer/agent.save_max": 1.414546012878418, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.62939453125e-05, "timer/replay.save_frac": 2.5406626386069617e-07, "timer/replay.save_avg": 7.62939453125e-05, "timer/replay.save_min": 7.62939453125e-05, "timer/replay.save_max": 7.62939453125e-05, "timer/agent.policy_count": 1410.0, "timer/agent.policy_total": 12.421631097793579, "timer/agent.policy_frac": 0.04136524059865583, "timer/agent.policy_avg": 0.008809667445243674, "timer/agent.policy_min": 0.005915403366088867, "timer/agent.policy_max": 1.4204175472259521, "timer/dataset_count": 705.0, "timer/dataset_total": 0.055959224700927734, "timer/dataset_frac": 0.000186349664971075, "timer/dataset_avg": 7.937478680982658e-05, "timer/dataset_min": 5.793571472167969e-05, "timer/dataset_max": 0.0001678466796875, "timer/agent.train_count": 705.0, "timer/agent.train_total": 262.3311905860901, "timer/agent.train_frac": 0.873588398310505, "timer/agent.train_avg": 0.3721009795547377, "timer/agent.train_min": 0.3650519847869873, "timer/agent.train_max": 0.48307323455810547, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21882414817810059, "timer/agent.report_frac": 0.0007287057123915777, "timer/agent.report_avg": 0.21882414817810059, "timer/agent.report_min": 0.21882414817810059, "timer/agent.report_max": 0.21882414817810059, "fps": 4.695356050304616}
{"step": 31133, "episode/length": 199.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.025}
{"step": 31162, "episode/length": 28.0, "episode/score": 1.099999986588955, "episode/sum_abs_reward": 3.1000000163912773, "episode/reward_rate": 0.06896551724137931}
{"step": 31338, "episode/length": 175.0, "episode/score": 4.099999971687794, "episode/sum_abs_reward": 6.300000034272671, "episode/reward_rate": 0.03409090909090909}
{"step": 31539, "episode/length": 200.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.029850746268656716}
{"step": 31585, "episode/length": 45.0, "episode/score": 1.1000000089406967, "episode/sum_abs_reward": 2.8999999910593033, "episode/reward_rate": 0.06521739130434782}
{"step": 31837, "episode/length": 251.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.01984126984126984}
{"step": 32005, "episode/length": 167.0, "episode/score": 3.0999999716877937, "episode/sum_abs_reward": 5.1000000312924385, "episode/reward_rate": 0.02976190476190476}
{"step": 32173, "episode/length": 167.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.500000022351742, "episode/reward_rate": 0.023809523809523808}
{"step": 32343, "episode/length": 169.0, "episode/score": 3.100000001490116, "episode/sum_abs_reward": 5.100000001490116, "episode/reward_rate": 0.029411764705882353}
{"step": 32519, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 5.067166646321614, "train/action_min": 0.0, "train/action_std": 3.9570294982857175, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.039477045026918255, "train/actor_opt_grad_steps": 15355.0, "train/actor_opt_loss": -11.761514923069626, "train/adv_mag": 0.8556340634822845, "train/adv_max": 0.7961096457309194, "train/adv_mean": 0.0033989950386765283, "train/adv_min": -0.6045715610186259, "train/adv_std": 0.060940712690353394, "train/cont_avg": 0.9940863715277778, "train/cont_loss_mean": 0.0004171257297526962, "train/cont_loss_std": 0.013073990302135345, "train/cont_neg_acc": 0.99336419834031, "train/cont_neg_loss": 0.05165867864732516, "train/cont_pos_acc": 0.999986383650038, "train/cont_pos_loss": 0.00011228371764262748, "train/cont_pred": 0.9941158220171928, "train/cont_rate": 0.9940863715277778, "train/dyn_loss_mean": 4.08777795235316, "train/dyn_loss_std": 7.649361358748542, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.3424107175734308, "train/extr_critic_critic_opt_grad_steps": 15355.0, "train/extr_critic_critic_opt_loss": 15873.044921875, "train/extr_critic_mag": 9.256983458995819, "train/extr_critic_max": 9.256983458995819, "train/extr_critic_mean": 1.4683636327584584, "train/extr_critic_min": -0.5723191400369009, "train/extr_critic_std": 1.8257208267847698, "train/extr_return_normed_mag": 1.719864805539449, "train/extr_return_normed_max": 1.719864805539449, "train/extr_return_normed_mean": 0.3080691833876901, "train/extr_return_normed_min": -0.15473912961574066, "train/extr_return_normed_std": 0.32247224388023216, "train/extr_return_rate": 0.5965350423422124, "train/extr_return_raw_mag": 9.776068574852413, "train/extr_return_raw_max": 9.776068574852413, "train/extr_return_raw_mean": 1.48814587874545, "train/extr_return_raw_min": -1.2168992915087276, "train/extr_return_raw_std": 1.8875620762507122, "train/extr_reward_mag": 1.0140626231829326, "train/extr_reward_max": 1.0140626231829326, "train/extr_reward_mean": 0.023425403503804572, "train/extr_reward_min": -0.6677508188618554, "train/extr_reward_std": 0.15847932195497882, "train/image_loss_mean": 4.591083337863286, "train/image_loss_std": 9.04293903377321, "train/model_loss_mean": 7.0824684500694275, "train/model_loss_std": 12.528792593214247, "train/model_opt_grad_norm": 61.465213696161904, "train/model_opt_grad_steps": 15338.902777777777, "train/model_opt_loss": 4545.650967068143, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 642.3611111111111, "train/policy_entropy_mag": 2.4430704381730823, "train/policy_entropy_max": 2.4430704381730823, "train/policy_entropy_mean": 0.5569717983404795, "train/policy_entropy_min": 0.07937513798889187, "train/policy_entropy_std": 0.5714898883468575, "train/policy_logprob_mag": 7.438383022944133, "train/policy_logprob_max": -0.00945576434282379, "train/policy_logprob_mean": -0.5570470239553187, "train/policy_logprob_min": -7.438383022944133, "train/policy_logprob_std": 1.1240356514851253, "train/policy_randomness_mag": 0.8622966524627473, "train/policy_randomness_max": 0.8622966524627473, "train/policy_randomness_mean": 0.1965866032987833, "train/policy_randomness_min": 0.028015940631222393, "train/policy_randomness_std": 0.20171085517439577, "train/post_ent_mag": 39.00922812355889, "train/post_ent_max": 39.00922812355889, "train/post_ent_mean": 24.76661737759908, "train/post_ent_min": 11.375516891479492, "train/post_ent_std": 4.636297252443102, "train/prior_ent_mag": 68.6208611594306, "train/prior_ent_max": 68.6208611594306, "train/prior_ent_mean": 28.799683411916096, "train/prior_ent_min": 12.74969854619768, "train/prior_ent_std": 8.699226220448812, "train/rep_loss_mean": 4.08777795235316, "train/rep_loss_std": 7.649361358748542, "train/reward_avg": 0.018522135279555287, "train/reward_loss_mean": 0.0383012845284409, "train/reward_loss_std": 0.19106157858752543, "train/reward_max_data": 1.0069444461001291, "train/reward_max_pred": 1.00854711400138, "train/reward_neg_acc": 0.9963879725999303, "train/reward_neg_loss": 0.020836371954323515, "train/reward_pos_acc": 0.9829352241423395, "train/reward_pos_loss": 0.7591033031543096, "train/reward_pred": 0.018321963673871424, "train/reward_rate": 0.023654513888888888, "stats/sum_log_reward": 3.2111110289891562, "stats/max_log_achievement_collect_drink": 2.4444444444444446, "stats/max_log_achievement_collect_sapling": 1.7777777777777777, "stats/max_log_achievement_collect_wood": 1.6666666666666667, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.5555555555555556, "stats/max_log_achievement_place_table": 0.6666666666666666, "stats/max_log_achievement_wake_up": 1.5555555555555556, "stats/mean_log_entropy": 0.5157710082001157, "replay/size": 32456.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.4252691535310374e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4223116736172297e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.27285385131836, "timer/env.step_count": 1432.0, "timer/env.step_total": 21.99835467338562, "timer/env.step_frac": 0.07326121689401273, "timer/env.step_avg": 0.015361979520520685, "timer/env.step_min": 0.002664804458618164, "timer/env.step_max": 1.614980936050415, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.2840852737426758, "timer/replay.add_frac": 0.0009460904310828646, "timer/replay.add_avg": 0.0001983835710493546, "timer/replay.add_min": 6.270408630371094e-05, "timer/replay.add_max": 0.00470423698425293, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.020830631256103516, "timer/logger.write_frac": 6.937234248427235e-05, "timer/logger.write_avg": 0.020830631256103516, "timer/logger.write_min": 0.020830631256103516, "timer/logger.write_max": 0.020830631256103516, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 10.544945240020752, "timer/agent.policy_frac": 0.03511787730649183, "timer/agent.policy_avg": 0.007363788575433486, "timer/agent.policy_min": 0.005824089050292969, "timer/agent.policy_max": 0.015031099319458008, "timer/dataset_count": 716.0, "timer/dataset_total": 0.05808448791503906, "timer/dataset_frac": 0.00019343902444075045, "timer/dataset_avg": 8.112358647351824e-05, "timer/dataset_min": 5.817413330078125e-05, "timer/dataset_max": 0.000141143798828125, "timer/agent.train_count": 716.0, "timer/agent.train_total": 266.6886341571808, "timer/agent.train_frac": 0.8881543260958016, "timer/agent.train_avg": 0.37247015943740336, "timer/agent.train_min": 0.36420154571533203, "timer/agent.train_max": 0.4045867919921875, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2202010154724121, "timer/agent.report_frac": 0.0007333364060323807, "timer/agent.report_avg": 0.2202010154724121, "timer/agent.report_min": 0.2202010154724121, "timer/agent.report_max": 0.2202010154724121, "fps": 4.768900017960541}
{"step": 32537, "episode/length": 193.0, "episode/score": 4.100000001490116, "episode/sum_abs_reward": 5.700000025331974, "episode/reward_rate": 0.02577319587628866}
{"step": 32712, "episode/length": 174.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.022857142857142857}
{"step": 32973, "episode/length": 260.0, "episode/score": 5.099999979138374, "episode/sum_abs_reward": 7.30000002682209, "episode/reward_rate": 0.022988505747126436}
{"step": 33141, "episode/length": 167.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.02976190476190476}
{"step": 33273, "episode/length": 131.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 4.899999991059303, "episode/reward_rate": 0.03787878787878788}
{"step": 33312, "episode/length": 38.0, "episode/score": 2.1000000089406967, "episode/sum_abs_reward": 3.8999999910593033, "episode/reward_rate": 0.10256410256410256}
{"step": 33509, "episode/length": 196.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.025380710659898477}
{"step": 33674, "episode/length": 164.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 3.900000013411045, "episode/reward_rate": 0.01818181818181818}
{"step": 33870, "episode/length": 195.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.030612244897959183}
{"step": 33947, "stats/sum_log_reward": 3.6555555131700306, "stats/max_log_achievement_collect_drink": 7.444444444444445, "stats/max_log_achievement_collect_sapling": 1.7777777777777777, "stats/max_log_achievement_collect_wood": 1.8888888888888888, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 0.8888888888888888, "stats/max_log_achievement_place_table": 0.4444444444444444, "stats/max_log_achievement_wake_up": 1.6666666666666667, "stats/mean_log_entropy": 0.47177142567104763, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.933603206150968, "train/action_min": 0.0, "train/action_std": 3.7540065167655405, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04276048344835429, "train/actor_opt_grad_steps": 16070.0, "train/actor_opt_loss": -14.514016243353696, "train/adv_mag": 0.8637722101010067, "train/adv_max": 0.7784013248665232, "train/adv_mean": 0.0029182305771031113, "train/adv_min": -0.6975471301817558, "train/adv_std": 0.06619271483849472, "train/cont_avg": 0.994415713028169, "train/cont_loss_mean": 0.0003268836945002938, "train/cont_loss_std": 0.010012518817993175, "train/cont_neg_acc": 0.9846076478420849, "train/cont_neg_loss": 0.06619514377567791, "train/cont_pos_acc": 0.9999861591298815, "train/cont_pos_loss": 3.124324714070701e-05, "train/cont_pred": 0.994450781546848, "train/cont_rate": 0.994415713028169, "train/dyn_loss_mean": 4.048179398120289, "train/dyn_loss_std": 7.6452790112562585, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.3528837956173319, "train/extr_critic_critic_opt_grad_steps": 16070.0, "train/extr_critic_critic_opt_loss": 15935.787054357394, "train/extr_critic_mag": 8.876434561232445, "train/extr_critic_max": 8.876434561232445, "train/extr_critic_mean": 1.43441297974385, "train/extr_critic_min": -0.5601184300973382, "train/extr_critic_std": 1.8390205611645336, "train/extr_return_normed_mag": 1.761594077231179, "train/extr_return_normed_max": 1.761594077231179, "train/extr_return_normed_mean": 0.31681897984424107, "train/extr_return_normed_min": -0.14750615885140192, "train/extr_return_normed_std": 0.33987536858504924, "train/extr_return_rate": 0.585089342275136, "train/extr_return_raw_mag": 9.468337414969861, "train/extr_return_raw_max": 9.468337414969861, "train/extr_return_raw_mean": 1.450534442780723, "train/extr_return_raw_min": -1.1225518542276303, "train/extr_return_raw_std": 1.8861997664814265, "train/extr_reward_mag": 1.0147121724948076, "train/extr_reward_max": 1.0147121724948076, "train/extr_reward_mean": 0.02403572178117826, "train/extr_reward_min": -0.6636880182884108, "train/extr_reward_std": 0.15922281765182253, "train/image_loss_mean": 4.7663158295859755, "train/image_loss_std": 9.66080341204791, "train/model_loss_mean": 7.23221840656979, "train/model_loss_std": 13.11200493825993, "train/model_opt_grad_norm": 59.649940007169484, "train/model_opt_grad_steps": 16053.0, "train/model_opt_loss": 4520.136536504181, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 625.0, "train/policy_entropy_mag": 2.444064301504216, "train/policy_entropy_max": 2.444064301504216, "train/policy_entropy_mean": 0.5446297308089028, "train/policy_entropy_min": 0.07937513249860682, "train/policy_entropy_std": 0.5536571640363881, "train/policy_logprob_mag": 7.4383830755529265, "train/policy_logprob_max": -0.009455744190220262, "train/policy_logprob_mean": -0.5453904090632855, "train/policy_logprob_min": -7.4383830755529265, "train/policy_logprob_std": 1.1153325362944266, "train/policy_randomness_mag": 0.8626474427505278, "train/policy_randomness_max": 0.8626474427505278, "train/policy_randomness_mean": 0.1922303943986624, "train/policy_randomness_min": 0.0280159386268384, "train/policy_randomness_std": 0.19541668535118373, "train/post_ent_mag": 39.439182657591054, "train/post_ent_max": 39.439182657591054, "train/post_ent_mean": 25.072618377040808, "train/post_ent_min": 11.61665133355369, "train/post_ent_std": 4.642380445775851, "train/prior_ent_mag": 68.78454170764333, "train/prior_ent_max": 68.78454170764333, "train/prior_ent_mean": 29.209205331936687, "train/prior_ent_min": 12.994430689744547, "train/prior_ent_std": 8.642776670590253, "train/rep_loss_mean": 4.048179398120289, "train/rep_loss_std": 7.6452790112562585, "train/reward_avg": 0.017893100642717222, "train/reward_loss_mean": 0.03666813986402162, "train/reward_loss_std": 0.17808862145937665, "train/reward_max_data": 1.0112676083202092, "train/reward_max_pred": 1.0120189173120848, "train/reward_neg_acc": 0.9965655493064666, "train/reward_neg_loss": 0.020175064107219517, "train/reward_pos_acc": 0.9861460202176806, "train/reward_pos_loss": 0.7400874445136164, "train/reward_pred": 0.017740955300839016, "train/reward_rate": 0.022997359154929578, "replay/size": 33884.0, "replay/inserts": 1428.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 3.938414469486525e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4098084607378108e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3257505893707, "timer/env.step_count": 1428.0, "timer/env.step_total": 22.147133588790894, "timer/env.step_frac": 0.07374370511129502, "timer/env.step_avg": 0.015509197191030038, "timer/env.step_min": 0.0030565261840820312, "timer/env.step_max": 1.689387321472168, "timer/replay.add_count": 1428.0, "timer/replay.add_total": 0.2894008159637451, "timer/replay.add_frac": 0.0009636230506235775, "timer/replay.add_avg": 0.00020266163582895316, "timer/replay.add_min": 7.915496826171875e-05, "timer/replay.add_max": 0.0029528141021728516, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026970624923706055, "timer/logger.write_frac": 8.980457010688517e-05, "timer/logger.write_avg": 0.026970624923706055, "timer/logger.write_min": 0.026970624923706055, "timer/logger.write_max": 0.026970624923706055, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1428.0, "timer/agent.policy_total": 10.840555429458618, "timer/agent.policy_frac": 0.036095990464303174, "timer/agent.policy_avg": 0.00759142537076934, "timer/agent.policy_min": 0.005801677703857422, "timer/agent.policy_max": 0.01816272735595703, "timer/dataset_count": 714.0, "timer/dataset_total": 0.06622099876403809, "timer/dataset_frac": 0.00022049723886174752, "timer/dataset_avg": 9.274649686840068e-05, "timer/dataset_min": 6.794929504394531e-05, "timer/dataset_max": 0.00020074844360351562, "timer/agent.train_count": 714.0, "timer/agent.train_total": 266.2324552536011, "timer/agent.train_frac": 0.8864789473800909, "timer/agent.train_avg": 0.37287458718991745, "timer/agent.train_min": 0.36643338203430176, "timer/agent.train_max": 0.40430116653442383, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22167515754699707, "timer/agent.report_frac": 0.000738115719720914, "timer/agent.report_avg": 0.22167515754699707, "timer/agent.report_min": 0.22167515754699707, "timer/agent.report_max": 0.22167515754699707, "fps": 4.754772796808367}
{"step": 34036, "episode/length": 165.0, "episode/score": 3.0999999716877937, "episode/sum_abs_reward": 4.900000028312206, "episode/reward_rate": 0.030120481927710843}
{"step": 34283, "episode/length": 246.0, "episode/score": 2.0999999940395355, "episode/sum_abs_reward": 3.9000000059604645, "episode/reward_rate": 0.016194331983805668}
{"step": 34451, "episode/length": 167.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.0999999940395355, "episode/reward_rate": 0.041666666666666664}
{"step": 34608, "episode/length": 156.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.100000016391277, "episode/reward_rate": 0.01910828025477707}
{"step": 34747, "episode/length": 138.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.900000028312206, "episode/reward_rate": 0.02877697841726619}
{"step": 34955, "episode/length": 207.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.02403846153846154}
{"step": 35120, "episode/length": 164.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.030303030303030304}
{"step": 35298, "episode/length": 177.0, "episode/score": 1.1000000089406967, "episode/sum_abs_reward": 3.0999999940395355, "episode/reward_rate": 0.016853932584269662}
{"step": 35335, "episode/length": 36.0, "episode/score": 2.1000000089406967, "episode/sum_abs_reward": 3.8999999910593033, "episode/reward_rate": 0.10810810810810811}
{"step": 35355, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.845533970424107, "train/action_min": 0.0, "train/action_std": 3.7718111106327603, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.037314218814883914, "train/actor_opt_grad_steps": 16775.0, "train/actor_opt_loss": -20.155438048498972, "train/adv_mag": 0.8867907847676958, "train/adv_max": 0.8471073372023447, "train/adv_mean": 0.001498056385464354, "train/adv_min": -0.6128400947366442, "train/adv_std": 0.059704177241240226, "train/cont_avg": 0.9937639508928572, "train/cont_loss_mean": 3.907611672632681e-05, "train/cont_loss_std": 0.0010794059265955573, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0012147834556214677, "train/cont_pos_acc": 0.9999859639576503, "train/cont_pos_loss": 3.117584614398895e-05, "train/cont_pred": 0.9937469516481672, "train/cont_rate": 0.9937639508928572, "train/dyn_loss_mean": 3.896977816309248, "train/dyn_loss_std": 7.626229647227696, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.2756311007908412, "train/extr_critic_critic_opt_grad_steps": 16775.0, "train/extr_critic_critic_opt_loss": 15267.933579799108, "train/extr_critic_mag": 9.317001676559448, "train/extr_critic_max": 9.317001676559448, "train/extr_critic_mean": 1.3709984506879533, "train/extr_critic_min": -0.5691995229039873, "train/extr_critic_std": 1.836062775339399, "train/extr_return_normed_mag": 1.8301361186163767, "train/extr_return_normed_max": 1.8301361186163767, "train/extr_return_normed_mean": 0.3021222450903484, "train/extr_return_normed_min": -0.14325546004942485, "train/extr_return_normed_std": 0.336999522788184, "train/extr_return_rate": 0.5344178089073726, "train/extr_return_raw_mag": 9.932902302060809, "train/extr_return_raw_max": 9.932902302060809, "train/extr_return_raw_mean": 1.3793478161096573, "train/extr_return_raw_min": -1.1153302533285958, "train/extr_return_raw_std": 1.8875579510416303, "train/extr_reward_mag": 1.0117483275277275, "train/extr_reward_max": 1.0117483275277275, "train/extr_reward_mean": 0.020452421624213457, "train/extr_reward_min": -0.6698968478611538, "train/extr_reward_std": 0.15322292106492177, "train/image_loss_mean": 4.254769645418439, "train/image_loss_std": 8.178980105263847, "train/model_loss_mean": 6.631583499908447, "train/model_loss_std": 11.630955110277448, "train/model_opt_grad_norm": 45.493583406720845, "train/model_opt_grad_steps": 16758.0, "train/model_opt_loss": 6912.023406110491, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1053.5714285714287, "train/policy_entropy_mag": 2.457817963191441, "train/policy_entropy_max": 2.457817963191441, "train/policy_entropy_mean": 0.5727678409644535, "train/policy_entropy_min": 0.07937513291835785, "train/policy_entropy_std": 0.5727552750280925, "train/policy_logprob_mag": 7.438383088793073, "train/policy_logprob_max": -0.009455752186477184, "train/policy_logprob_mean": -0.5726840645074844, "train/policy_logprob_min": -7.438383088793073, "train/policy_logprob_std": 1.1263012664658683, "train/policy_randomness_mag": 0.8675018829958779, "train/policy_randomness_max": 0.8675018829958779, "train/policy_randomness_mean": 0.20216191432305744, "train/policy_randomness_min": 0.02801593882696969, "train/policy_randomness_std": 0.20215747888599123, "train/post_ent_mag": 39.990373502458844, "train/post_ent_max": 39.990373502458844, "train/post_ent_mean": 25.211800520760672, "train/post_ent_min": 11.880689702715193, "train/post_ent_std": 4.742771318980625, "train/prior_ent_mag": 69.18490371704101, "train/prior_ent_max": 69.18490371704101, "train/prior_ent_mean": 29.268940925598145, "train/prior_ent_min": 12.925507177625384, "train/prior_ent_std": 8.808074767248971, "train/rep_loss_mean": 3.896977816309248, "train/rep_loss_std": 7.626229647227696, "train/reward_avg": 0.017730189613731843, "train/reward_loss_mean": 0.03858806799565043, "train/reward_loss_std": 0.17894202768802642, "train/reward_max_data": 1.0057142870766775, "train/reward_max_pred": 1.0071241293634687, "train/reward_neg_acc": 0.9961825915745326, "train/reward_neg_loss": 0.02202712351988469, "train/reward_pos_acc": 0.9856252976826259, "train/reward_pos_loss": 0.7284952461719513, "train/reward_pred": 0.017638871143572033, "train/reward_rate": 0.02338169642857143, "stats/sum_log_reward": 2.988888806766934, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_sapling": 2.111111111111111, "stats/max_log_achievement_collect_wood": 2.2222222222222223, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_table": 0.8888888888888888, "stats/max_log_achievement_wake_up": 1.7777777777777777, "stats/mean_log_entropy": 0.45470449659559464, "replay/size": 35292.0, "replay/inserts": 1408.0, "replay/samples": 11264.0, "replay/insert_wait_avg": 3.859570080583746e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3462267816066742e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3411226272583, "timer/env.step_count": 1408.0, "timer/env.step_total": 22.22532844543457, "timer/env.step_frac": 0.07400028424684808, "timer/env.step_avg": 0.01578503440726887, "timer/env.step_min": 0.003141164779663086, "timer/env.step_max": 1.66194486618042, "timer/replay.add_count": 1408.0, "timer/replay.add_total": 0.2725536823272705, "timer/replay.add_frac": 0.0009074804007625899, "timer/replay.add_avg": 0.0001935750584710728, "timer/replay.add_min": 7.224082946777344e-05, "timer/replay.add_max": 0.0030584335327148438, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030487060546875, "timer/logger.write_frac": 0.00010150811277585623, "timer/logger.write_avg": 0.030487060546875, "timer/logger.write_min": 0.030487060546875, "timer/logger.write_max": 0.030487060546875, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00042819976806640625, "timer/checkpoint.save_frac": 1.4257114188050378e-06, "timer/checkpoint.save_avg": 0.00042819976806640625, "timer/checkpoint.save_min": 0.00042819976806640625, "timer/checkpoint.save_max": 0.00042819976806640625, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.43851900100708, "timer/agent.save_frac": 0.004789617180702791, "timer/agent.save_avg": 1.43851900100708, "timer/agent.save_min": 1.43851900100708, "timer/agent.save_max": 1.43851900100708, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.799003601074219e-05, "timer/replay.save_frac": 3.262624683345604e-07, "timer/replay.save_avg": 9.799003601074219e-05, "timer/replay.save_min": 9.799003601074219e-05, "timer/replay.save_max": 9.799003601074219e-05, "timer/agent.policy_count": 1408.0, "timer/agent.policy_total": 14.341554880142212, "timer/agent.policy_frac": 0.04775088657420036, "timer/agent.policy_avg": 0.010185763409191912, "timer/agent.policy_min": 0.0056836605072021484, "timer/agent.policy_max": 2.417433261871338, "timer/dataset_count": 704.0, "timer/dataset_total": 0.06363654136657715, "timer/dataset_frac": 0.00021188088001373686, "timer/dataset_avg": 9.039281444116072e-05, "timer/dataset_min": 6.127357482910156e-05, "timer/dataset_max": 0.0002086162567138672, "timer/agent.train_count": 704.0, "timer/agent.train_total": 262.6912953853607, "timer/agent.train_frac": 0.8746431160922864, "timer/agent.train_avg": 0.3731410445814783, "timer/agent.train_min": 0.3664219379425049, "timer/agent.train_max": 0.4341273307800293, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22153687477111816, "timer/agent.report_frac": 0.0007376175224797937, "timer/agent.report_avg": 0.22153687477111816, "timer/agent.report_min": 0.22153687477111816, "timer/agent.report_max": 0.22153687477111816, "fps": 4.687893784935295}
{"step": 35492, "episode/length": 156.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.03184713375796178}
{"step": 35658, "episode/length": 165.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.100000016391277, "episode/reward_rate": 0.018072289156626505}
{"step": 36056, "episode/length": 397.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.01507537688442211}
{"step": 36258, "episode/length": 201.0, "episode/score": 3.100000001490116, "episode/sum_abs_reward": 5.100000001490116, "episode/reward_rate": 0.024752475247524754}
{"step": 36420, "episode/length": 161.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.037037037037037035}
{"step": 36646, "episode/length": 225.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.022123893805309734}
{"step": 36802, "episode/length": 155.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 5.1000000312924385, "episode/reward_rate": 0.019230769230769232}
{"step": 36803, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.92856796473673, "train/action_min": 0.0, "train/action_std": 3.6843964661637396, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.035917058536042906, "train/actor_opt_grad_steps": 17490.0, "train/actor_opt_loss": -14.342379164614089, "train/adv_mag": 0.8169758932231224, "train/adv_max": 0.7844592312427416, "train/adv_mean": 0.0020060628029855312, "train/adv_min": -0.5798032028626089, "train/adv_std": 0.05573076275113511, "train/cont_avg": 0.9938329409246576, "train/cont_loss_mean": 7.837474736770175e-05, "train/cont_loss_std": 0.002360673885445914, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.002294513919292662, "train/cont_pos_acc": 0.9999865424143125, "train/cont_pos_loss": 6.220436845545894e-05, "train/cont_pred": 0.9938286036661227, "train/cont_rate": 0.9938329409246576, "train/dyn_loss_mean": 3.9411632230837053, "train/dyn_loss_std": 7.751748078489957, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.2562068333364513, "train/extr_critic_critic_opt_grad_steps": 17490.0, "train/extr_critic_critic_opt_loss": 15275.829596532534, "train/extr_critic_mag": 8.76673313036357, "train/extr_critic_max": 8.76673313036357, "train/extr_critic_mean": 1.2950006543773493, "train/extr_critic_min": -0.5560268424961665, "train/extr_critic_std": 1.721811096962184, "train/extr_return_normed_mag": 1.7041617778882587, "train/extr_return_normed_max": 1.7041617778882587, "train/extr_return_normed_mean": 0.2849880299747807, "train/extr_return_normed_min": -0.1328845650774159, "train/extr_return_normed_std": 0.3092476688835719, "train/extr_return_rate": 0.5272982957428449, "train/extr_return_raw_mag": 9.432990374630444, "train/extr_return_raw_max": 9.432990374630444, "train/extr_return_raw_mean": 1.3065105047944474, "train/extr_return_raw_min": -1.0740183012126243, "train/extr_return_raw_std": 1.7669286107363766, "train/extr_reward_mag": 1.0092958554829636, "train/extr_reward_max": 1.0092958554829636, "train/extr_reward_mean": 0.02293203031159427, "train/extr_reward_min": -0.6646433170527628, "train/extr_reward_std": 0.15946898333830375, "train/image_loss_mean": 4.314119580673845, "train/image_loss_std": 9.341955198000555, "train/model_loss_mean": 6.717700278922303, "train/model_loss_std": 12.872174236872425, "train/model_opt_grad_norm": 59.64528509688704, "train/model_opt_grad_steps": 17472.739726027397, "train/model_opt_loss": 8664.71511130137, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1284.2465753424658, "train/policy_entropy_mag": 2.4684033785780817, "train/policy_entropy_max": 2.4684033785780817, "train/policy_entropy_mean": 0.5592231350402309, "train/policy_entropy_min": 0.07937512659046748, "train/policy_entropy_std": 0.5819443815375027, "train/policy_logprob_mag": 7.438383213461262, "train/policy_logprob_max": -0.009455723994194644, "train/policy_logprob_mean": -0.5596292378151253, "train/policy_logprob_min": -7.438383213461262, "train/policy_logprob_std": 1.1252248973062593, "train/policy_randomness_mag": 0.8712380683585389, "train/policy_randomness_max": 0.8712380683585389, "train/policy_randomness_mean": 0.19738122514665943, "train/policy_randomness_min": 0.028015936507958257, "train/policy_randomness_std": 0.20540083046645335, "train/post_ent_mag": 39.422220674279615, "train/post_ent_max": 39.422220674279615, "train/post_ent_mean": 25.217812185418115, "train/post_ent_min": 11.980050883881033, "train/post_ent_std": 4.595817934976865, "train/prior_ent_mag": 69.27118087141481, "train/prior_ent_max": 69.27118087141481, "train/prior_ent_mean": 29.19401417039845, "train/prior_ent_min": 12.947205634966288, "train/prior_ent_std": 8.739853989588072, "train/rep_loss_mean": 3.9411632230837053, "train/rep_loss_std": 7.751748078489957, "train/reward_avg": 0.01814800940377459, "train/reward_loss_mean": 0.03880438428014925, "train/reward_loss_std": 0.1893036322642679, "train/reward_max_data": 1.0027397266805989, "train/reward_max_pred": 1.004411318530775, "train/reward_neg_acc": 0.9961234518926437, "train/reward_neg_loss": 0.021650566898082216, "train/reward_pos_acc": 0.9840561224989695, "train/reward_pos_loss": 0.7449926660485464, "train/reward_pred": 0.018008945599096278, "train/reward_rate": 0.023598030821917807, "stats/sum_log_reward": 3.6714285101209367, "stats/max_log_achievement_collect_drink": 6.571428571428571, "stats/max_log_achievement_collect_sapling": 2.4285714285714284, "stats/max_log_achievement_collect_wood": 1.4285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_table": 0.5714285714285714, "stats/max_log_achievement_wake_up": 3.5714285714285716, "stats/mean_log_entropy": 0.6338652329785484, "replay/size": 36740.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.8420297822899585e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2875097232628923e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.6871416568756, "timer/env.step_count": 1448.0, "timer/env.step_total": 18.701531887054443, "timer/env.step_frac": 0.06219598145768202, "timer/env.step_avg": 0.012915422573932626, "timer/env.step_min": 0.0030739307403564453, "timer/env.step_max": 1.6777172088623047, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.2830212116241455, "timer/replay.add_frac": 0.0009412481360679889, "timer/replay.add_avg": 0.00019545663786197894, "timer/replay.add_min": 8.058547973632812e-05, "timer/replay.add_max": 0.0024590492248535156, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02689194679260254, "timer/logger.write_frac": 8.943497432055095e-05, "timer/logger.write_avg": 0.02689194679260254, "timer/logger.write_min": 0.02689194679260254, "timer/logger.write_max": 0.02689194679260254, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 10.687483787536621, "timer/agent.policy_frac": 0.03554353448120663, "timer/agent.policy_avg": 0.007380858969293247, "timer/agent.policy_min": 0.005562543869018555, "timer/agent.policy_max": 0.015107393264770508, "timer/dataset_count": 724.0, "timer/dataset_total": 0.0649709701538086, "timer/dataset_frac": 0.00021607498676464587, "timer/dataset_avg": 8.973890905222182e-05, "timer/dataset_min": 6.747245788574219e-05, "timer/dataset_max": 0.00016689300537109375, "timer/agent.train_count": 724.0, "timer/agent.train_total": 270.202511548996, "timer/agent.train_frac": 0.8986167817489625, "timer/agent.train_avg": 0.3732078888798287, "timer/agent.train_min": 0.3647487163543701, "timer/agent.train_max": 0.4290003776550293, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22051405906677246, "timer/agent.report_frac": 0.0007333671065934991, "timer/agent.report_avg": 0.22051405906677246, "timer/agent.report_min": 0.22051405906677246, "timer/agent.report_max": 0.22051405906677246, "fps": 4.8155670075109915}
{"step": 36955, "episode/length": 152.0, "episode/score": 4.0999999940395355, "episode/sum_abs_reward": 5.9000000059604645, "episode/reward_rate": 0.0392156862745098}
{"step": 37133, "episode/length": 177.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.700000025331974, "episode/reward_rate": 0.028089887640449437}
{"step": 37283, "episode/length": 149.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.02666666666666667}
{"step": 37384, "episode/length": 100.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.04950495049504951}
{"step": 37562, "episode/length": 177.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 6.0999999940395355, "episode/reward_rate": 0.033707865168539325}
{"step": 37882, "episode/length": 319.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.015625}
{"step": 38071, "episode/length": 188.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 6.1000000312924385, "episode/reward_rate": 0.021164021164021163}
{"step": 38099, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.9744957557091345, "train/action_min": 0.0, "train/action_std": 3.823057750555185, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03703530000952574, "train/actor_opt_grad_steps": 18180.0, "train/actor_opt_loss": -14.743850190822895, "train/adv_mag": 0.9163424505637242, "train/adv_max": 0.8897507722561177, "train/adv_mean": 0.0015957013657148659, "train/adv_min": -0.5589900805399968, "train/adv_std": 0.058863042982724996, "train/cont_avg": 0.9942007211538462, "train/cont_loss_mean": 0.00041466070259293003, "train/cont_loss_std": 0.011961564702019482, "train/cont_neg_acc": 0.9910256422483004, "train/cont_neg_loss": 0.03702513522857771, "train/cont_pos_acc": 0.9999394866136404, "train/cont_pos_loss": 0.0002077573376805748, "train/cont_pred": 0.9941993786738469, "train/cont_rate": 0.9942007211538462, "train/dyn_loss_mean": 3.8617800419147197, "train/dyn_loss_std": 7.68375009390024, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.2981530648011428, "train/extr_critic_critic_opt_grad_steps": 18180.0, "train/extr_critic_critic_opt_loss": 15252.64190204327, "train/extr_critic_mag": 9.281512062366192, "train/extr_critic_max": 9.281512062366192, "train/extr_critic_mean": 1.1749614940239832, "train/extr_critic_min": -0.5522984266281128, "train/extr_critic_std": 1.6893286787546598, "train/extr_return_normed_mag": 1.9144810034678532, "train/extr_return_normed_max": 1.9144810034678532, "train/extr_return_normed_mean": 0.28017042049994834, "train/extr_return_normed_min": -0.1447388246655464, "train/extr_return_normed_std": 0.3229960148151104, "train/extr_return_rate": 0.5028515866169563, "train/extr_return_raw_mag": 9.929072299370398, "train/extr_return_raw_max": 9.929072299370398, "train/extr_return_raw_mean": 1.1834527134895325, "train/extr_return_raw_min": -1.087461819098546, "train/extr_return_raw_std": 1.726740211706895, "train/extr_reward_mag": 1.0092276279742902, "train/extr_reward_max": 1.0092276279742902, "train/extr_reward_mean": 0.020209210079449872, "train/extr_reward_min": -0.6623682315532978, "train/extr_reward_std": 0.15193865986970756, "train/image_loss_mean": 3.9372310675107514, "train/image_loss_std": 7.817147973867563, "train/model_loss_mean": 6.292302476442777, "train/model_loss_std": 11.346957023327167, "train/model_opt_grad_norm": 50.99606857299805, "train/model_opt_grad_steps": 18161.923076923078, "train/model_opt_loss": 7561.810111177884, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1201.923076923077, "train/policy_entropy_mag": 2.482216746990497, "train/policy_entropy_max": 2.482216746990497, "train/policy_entropy_mean": 0.5727803647518158, "train/policy_entropy_min": 0.07937512867725813, "train/policy_entropy_std": 0.5937057109979483, "train/policy_logprob_mag": 7.438383153768686, "train/policy_logprob_max": -0.009455713973595545, "train/policy_logprob_mean": -0.5723119680698101, "train/policy_logprob_min": -7.438383153768686, "train/policy_logprob_std": 1.1349679396702692, "train/policy_randomness_mag": 0.8761135798234206, "train/policy_randomness_max": 0.8761135798234206, "train/policy_randomness_mean": 0.202166332419102, "train/policy_randomness_min": 0.02801593731229122, "train/policy_randomness_std": 0.2095520617870184, "train/post_ent_mag": 39.69812727708083, "train/post_ent_max": 39.69812727708083, "train/post_ent_mean": 25.408555338932917, "train/post_ent_min": 12.526559653648963, "train/post_ent_std": 4.640779880376963, "train/prior_ent_mag": 69.42719245323768, "train/prior_ent_max": 69.42719245323768, "train/prior_ent_mean": 29.338753509521485, "train/prior_ent_min": 13.806497779259315, "train/prior_ent_std": 8.681971960801345, "train/rep_loss_mean": 3.8617800419147197, "train/rep_loss_std": 7.68375009390024, "train/reward_avg": 0.016700720973312856, "train/reward_loss_mean": 0.037588707042428164, "train/reward_loss_std": 0.18373716244330773, "train/reward_max_data": 1.0030769238105186, "train/reward_max_pred": 1.0051231127518874, "train/reward_neg_acc": 0.9966058373451233, "train/reward_neg_loss": 0.021269917172881275, "train/reward_pos_acc": 0.9825186500182519, "train/reward_pos_loss": 0.7593761893419119, "train/reward_pred": 0.016585637568137968, "train/reward_rate": 0.0220703125, "stats/sum_log_reward": 3.8142856870378767, "stats/max_log_achievement_collect_drink": 5.285714285714286, "stats/max_log_achievement_collect_sapling": 2.2857142857142856, "stats/max_log_achievement_collect_wood": 2.142857142857143, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_table": 0.7142857142857143, "stats/max_log_achievement_wake_up": 2.5714285714285716, "stats/mean_log_entropy": 0.4662644054208483, "replay/size": 38036.0, "replay/inserts": 1296.0, "replay/samples": 10368.0, "replay/insert_wait_avg": 3.7825033988481684e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2710368559684282e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.4169759750366, "timer/env.step_count": 1296.0, "timer/env.step_total": 18.180108308792114, "timer/env.step_frac": 0.06051624829051872, "timer/env.step_avg": 0.014027861349376631, "timer/env.step_min": 0.003020048141479492, "timer/env.step_max": 1.7180452346801758, "timer/replay.add_count": 1296.0, "timer/replay.add_total": 0.23830866813659668, "timer/replay.add_frac": 0.0007932596597217567, "timer/replay.add_avg": 0.00018388014516712708, "timer/replay.add_min": 7.390975952148438e-05, "timer/replay.add_max": 0.0014176368713378906, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02697134017944336, "timer/logger.write_frac": 8.977968069848543e-05, "timer/logger.write_avg": 0.02697134017944336, "timer/logger.write_min": 0.02697134017944336, "timer/logger.write_max": 0.02697134017944336, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1296.0, "timer/agent.policy_total": 9.710713148117065, "timer/agent.policy_frac": 0.032324115894582416, "timer/agent.policy_avg": 0.007492834219226131, "timer/agent.policy_min": 0.00571441650390625, "timer/agent.policy_max": 0.015279054641723633, "timer/dataset_count": 648.0, "timer/dataset_total": 0.056706905364990234, "timer/dataset_frac": 0.0001887606556884533, "timer/dataset_avg": 8.751065642745407e-05, "timer/dataset_min": 5.698204040527344e-05, "timer/dataset_max": 0.00018405914306640625, "timer/agent.train_count": 648.0, "timer/agent.train_total": 271.5007395744324, "timer/agent.train_frac": 0.9037463302240049, "timer/agent.train_avg": 0.41898262280004994, "timer/agent.train_min": 0.3668551445007324, "timer/agent.train_max": 0.4558384418487549, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2607543468475342, "timer/agent.report_frac": 0.0008679747407789691, "timer/agent.report_avg": 0.2607543468475342, "timer/agent.report_min": 0.2607543468475342, "timer/agent.report_max": 0.2607543468475342, "fps": 4.313908908639543}
{"step": 38232, "episode/length": 160.0, "episode/score": 5.100000001490116, "episode/sum_abs_reward": 7.100000001490116, "episode/reward_rate": 0.043478260869565216}
{"step": 38491, "episode/length": 258.0, "episode/score": 5.099999979138374, "episode/sum_abs_reward": 7.700000032782555, "episode/reward_rate": 0.023166023166023165}
{"step": 38688, "episode/length": 196.0, "episode/score": 4.0999999940395355, "episode/sum_abs_reward": 6.700000017881393, "episode/reward_rate": 0.030456852791878174}
{"step": 38838, "episode/length": 149.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.03333333333333333}
{"step": 39076, "episode/length": 237.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.02100840336134454}
{"step": 39270, "episode/length": 193.0, "episode/score": 3.100000001490116, "episode/sum_abs_reward": 5.500000007450581, "episode/reward_rate": 0.02577319587628866}
{"step": 39341, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.79637195217994, "train/action_min": 0.0, "train/action_std": 3.6263975058832476, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03933751369796453, "train/actor_opt_grad_steps": 18815.0, "train/actor_opt_loss": -15.835891325627603, "train/adv_mag": 0.9680406547361805, "train/adv_max": 0.8803598823085907, "train/adv_mean": 0.00215913956913761, "train/adv_min": -0.6732054780567845, "train/adv_std": 0.06096147048857904, "train/cont_avg": 0.994109122983871, "train/cont_loss_mean": 8.110105713078317e-05, "train/cont_loss_std": 0.002186332010102242, "train/cont_neg_acc": 0.9959677419354839, "train/cont_neg_loss": 0.008813295791843567, "train/cont_pos_acc": 0.9999841230530893, "train/cont_pos_loss": 3.953416410423972e-05, "train/cont_pred": 0.9941065551773194, "train/cont_rate": 0.994109122983871, "train/dyn_loss_mean": 3.9389058966790476, "train/dyn_loss_std": 7.734543808044926, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.2606517422583796, "train/extr_critic_critic_opt_grad_steps": 18815.0, "train/extr_critic_critic_opt_loss": 15077.23005922379, "train/extr_critic_mag": 9.304117518086587, "train/extr_critic_max": 9.304117518086587, "train/extr_critic_mean": 1.2176267475851121, "train/extr_critic_min": -0.5250373367340334, "train/extr_critic_std": 1.8090658726230744, "train/extr_return_normed_mag": 2.0115950453665947, "train/extr_return_normed_max": 2.0115950453665947, "train/extr_return_normed_mean": 0.3006600235258379, "train/extr_return_normed_min": -0.1458186064997027, "train/extr_return_normed_std": 0.36458607763051987, "train/extr_return_rate": 0.5013882128461715, "train/extr_return_raw_mag": 9.951248445818502, "train/extr_return_raw_max": 9.951248445818502, "train/extr_return_raw_mean": 1.2284414018354108, "train/extr_return_raw_min": -1.0437739106916613, "train/extr_return_raw_std": 1.8566210981338256, "train/extr_reward_mag": 1.0116969193181684, "train/extr_reward_max": 1.0116969193181684, "train/extr_reward_mean": 0.023370958038515622, "train/extr_reward_min": -0.6580308733447906, "train/extr_reward_std": 0.1567106803338374, "train/image_loss_mean": 4.063290522944543, "train/image_loss_std": 7.861897937713131, "train/model_loss_mean": 6.464932041783487, "train/model_loss_std": 11.436884956975137, "train/model_opt_grad_norm": 55.03110368790165, "train/model_opt_grad_steps": 18796.0, "train/model_opt_loss": 4040.5825431577623, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 625.0, "train/policy_entropy_mag": 2.463310060962554, "train/policy_entropy_max": 2.463310060962554, "train/policy_entropy_mean": 0.5429940781285686, "train/policy_entropy_min": 0.07937510431774202, "train/policy_entropy_std": 0.5785628509136939, "train/policy_logprob_mag": 7.438383286999118, "train/policy_logprob_max": -0.009455701441413934, "train/policy_logprob_mean": -0.5428449852812675, "train/policy_logprob_min": -7.438383286999118, "train/policy_logprob_std": 1.114832547403151, "train/policy_randomness_mag": 0.869440350801714, "train/policy_randomness_max": 0.869440350801714, "train/policy_randomness_mean": 0.19165308172664336, "train/policy_randomness_min": 0.028015928583279733, "train/policy_randomness_std": 0.20420729921710107, "train/post_ent_mag": 40.128491986182425, "train/post_ent_max": 40.128491986182425, "train/post_ent_mean": 25.25076432381907, "train/post_ent_min": 12.399879055638467, "train/post_ent_std": 4.648907007709626, "train/prior_ent_mag": 69.68437157907793, "train/prior_ent_max": 69.68437157907793, "train/prior_ent_mean": 29.26419295034101, "train/prior_ent_min": 13.901425976907053, "train/prior_ent_std": 8.749787815155521, "train/rep_loss_mean": 3.9389058966790476, "train/rep_loss_std": 7.734543808044926, "train/reward_avg": 0.017968749852790948, "train/reward_loss_mean": 0.03821684969889541, "train/reward_loss_std": 0.18095994476349123, "train/reward_max_data": 1.0064516144414102, "train/reward_max_pred": 1.008474224998105, "train/reward_neg_acc": 0.9962775178493992, "train/reward_neg_loss": 0.021392967431775985, "train/reward_pos_acc": 0.9828480299442045, "train/reward_pos_loss": 0.7492459829776518, "train/reward_pred": 0.017778790976491668, "train/reward_rate": 0.02327998991935484, "stats/sum_log_reward": 4.266666571299235, "stats/max_log_achievement_collect_drink": 1.8333333333333333, "stats/max_log_achievement_collect_sapling": 2.1666666666666665, "stats/max_log_achievement_collect_wood": 4.166666666666667, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_table": 1.6666666666666667, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.5402481208244959, "replay/size": 39278.0, "replay/inserts": 1242.0, "replay/samples": 9936.0, "replay/insert_wait_avg": 3.854433695475261e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.280636027239371e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1120536327362, "timer/env.step_count": 1242.0, "timer/env.step_total": 16.992019653320312, "timer/env.step_frac": 0.056618917659716494, "timer/env.step_avg": 0.013681175244219253, "timer/env.step_min": 0.0029916763305664062, "timer/env.step_max": 1.7431659698486328, "timer/replay.add_count": 1242.0, "timer/replay.add_total": 0.22092127799987793, "timer/replay.add_frac": 0.0007361293067896285, "timer/replay.add_avg": 0.00017787542512067467, "timer/replay.add_min": 6.699562072753906e-05, "timer/replay.add_max": 0.0013012886047363281, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03056192398071289, "timer/logger.write_frac": 0.00010183504331389906, "timer/logger.write_avg": 0.03056192398071289, "timer/logger.write_min": 0.03056192398071289, "timer/logger.write_max": 0.03056192398071289, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00043010711669921875, "timer/checkpoint.save_frac": 1.4331550882176985e-06, "timer/checkpoint.save_avg": 0.00043010711669921875, "timer/checkpoint.save_min": 0.00043010711669921875, "timer/checkpoint.save_max": 0.00043010711669921875, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3493926525115967, "timer/agent.save_frac": 0.004496296087337177, "timer/agent.save_avg": 1.3493926525115967, "timer/agent.save_min": 1.3493926525115967, "timer/agent.save_max": 1.3493926525115967, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.00014495849609375, "timer/replay.save_frac": 4.830145751864527e-07, "timer/replay.save_avg": 0.00014495849609375, "timer/replay.save_min": 0.00014495849609375, "timer/replay.save_max": 0.00014495849609375, "timer/agent.policy_count": 1242.0, "timer/agent.policy_total": 13.418507814407349, "timer/agent.policy_frac": 0.04471165903528927, "timer/agent.policy_avg": 0.01080395154139078, "timer/agent.policy_min": 0.0056722164154052734, "timer/agent.policy_max": 2.7721636295318604, "timer/dataset_count": 621.0, "timer/dataset_total": 0.05433368682861328, "timer/dataset_frac": 0.0001810446670532748, "timer/dataset_avg": 8.749385962739659e-05, "timer/dataset_min": 6.651878356933594e-05, "timer/dataset_max": 0.000156402587890625, "timer/agent.train_count": 621.0, "timer/agent.train_total": 268.7160403728485, "timer/agent.train_frac": 0.895385697175933, "timer/agent.train_avg": 0.4327150408580491, "timer/agent.train_min": 0.3669559955596924, "timer/agent.train_max": 0.46456384658813477, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.25441575050354004, "timer/agent.report_frac": 0.0008477358620686483, "timer/agent.report_avg": 0.25441575050354004, "timer/agent.report_min": 0.25441575050354004, "timer/agent.report_max": 0.25441575050354004, "fps": 4.138382766720177}
{"step": 39438, "episode/length": 167.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.100000016391277, "episode/reward_rate": 0.017857142857142856}
{"step": 39584, "episode/length": 145.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.0273972602739726}
{"step": 39644, "episode/length": 59.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 4.899999991059303, "episode/reward_rate": 0.08333333333333333}
{"step": 39824, "episode/length": 179.0, "episode/score": 4.099999971687794, "episode/sum_abs_reward": 6.1000000312924385, "episode/reward_rate": 0.03333333333333333}
{"step": 39986, "episode/length": 161.0, "episode/score": 0.09999998658895493, "episode/sum_abs_reward": 2.700000025331974, "episode/reward_rate": 0.006172839506172839}
{"step": 40176, "episode/length": 189.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.031578947368421054}
{"step": 40343, "episode/length": 166.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.700000002980232, "episode/reward_rate": 0.041916167664670656}
{"step": 40523, "episode/length": 179.0, "episode/score": 4.100000001490116, "episode/sum_abs_reward": 6.500000037252903, "episode/reward_rate": 0.027777777777777776}
{"step": 40581, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 5.059403942477319, "train/action_min": 0.0, "train/action_std": 3.7587475853581584, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.036662709298393416, "train/actor_opt_grad_steps": 19435.0, "train/actor_opt_loss": -20.844503410400883, "train/adv_mag": 0.9606122326466345, "train/adv_max": 0.8720901983399545, "train/adv_mean": 0.000998336643416194, "train/adv_min": -0.6711587035848249, "train/adv_std": 0.06059715962938724, "train/cont_avg": 0.9942036290322581, "train/cont_loss_mean": 0.0002641615186337643, "train/cont_loss_std": 0.008137091281630473, "train/cont_neg_acc": 0.996082950984278, "train/cont_neg_loss": 0.026897830234790285, "train/cont_pos_acc": 0.9999524902912879, "train/cont_pos_loss": 6.577726568476435e-05, "train/cont_pred": 0.9942033002453465, "train/cont_rate": 0.9942036290322581, "train/dyn_loss_mean": 3.9305133088942497, "train/dyn_loss_std": 7.733077687601889, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.2106587194627332, "train/extr_critic_critic_opt_grad_steps": 19435.0, "train/extr_critic_critic_opt_loss": 14479.718954763104, "train/extr_critic_mag": 8.473847081584315, "train/extr_critic_max": 8.473847081584315, "train/extr_critic_mean": 1.0707141689715847, "train/extr_critic_min": -0.5824586499121881, "train/extr_critic_std": 1.6203681192090433, "train/extr_return_normed_mag": 1.9229629558901633, "train/extr_return_normed_max": 1.9229629558901633, "train/extr_return_normed_mean": 0.2858823191735052, "train/extr_return_normed_min": -0.186104066309429, "train/extr_return_normed_std": 0.3435247011723057, "train/extr_return_rate": 0.4772618701381068, "train/extr_return_raw_mag": 8.99285041132281, "train/extr_return_raw_max": 8.99285041132281, "train/extr_return_raw_mean": 1.0754485812879377, "train/extr_return_raw_min": -1.205923985089025, "train/extr_return_raw_std": 1.6602570741407332, "train/extr_reward_mag": 1.009172708757462, "train/extr_reward_max": 1.009172708757462, "train/extr_reward_mean": 0.02043571975082159, "train/extr_reward_min": -0.6630754759234767, "train/extr_reward_std": 0.14955734028931586, "train/image_loss_mean": 4.061195200489413, "train/image_loss_std": 7.992116451263428, "train/model_loss_mean": 6.45799453796879, "train/model_loss_std": 11.58690437962932, "train/model_opt_grad_norm": 50.01425075531006, "train/model_opt_grad_steps": 19415.532258064515, "train/model_opt_loss": 4036.246566280242, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 625.0, "train/policy_entropy_mag": 2.4844885603074105, "train/policy_entropy_max": 2.4844885603074105, "train/policy_entropy_mean": 0.5689852458815421, "train/policy_entropy_min": 0.07937509878989189, "train/policy_entropy_std": 0.5921036509736892, "train/policy_logprob_mag": 7.438383163944367, "train/policy_logprob_max": -0.009455695718286498, "train/policy_logprob_mean": -0.5711036223557687, "train/policy_logprob_min": -7.438383163944367, "train/policy_logprob_std": 1.1344807301798174, "train/policy_randomness_mag": 0.8769154356371972, "train/policy_randomness_max": 0.8769154356371972, "train/policy_randomness_mean": 0.20082682082729955, "train/policy_randomness_min": 0.02801592660046393, "train/policy_randomness_std": 0.20898660656905943, "train/post_ent_mag": 39.87222757647115, "train/post_ent_max": 39.87222757647115, "train/post_ent_mean": 25.50468700162826, "train/post_ent_min": 12.817308979649697, "train/post_ent_std": 4.623408548293575, "train/prior_ent_mag": 69.94998316611013, "train/prior_ent_max": 69.94998316611013, "train/prior_ent_mean": 29.46586202806042, "train/prior_ent_min": 13.965824757852863, "train/prior_ent_std": 8.758259780945316, "train/rep_loss_mean": 3.9305133088942497, "train/rep_loss_std": 7.733077687601889, "train/reward_avg": 0.017327683947740063, "train/reward_loss_mean": 0.0382272177826493, "train/reward_loss_std": 0.1858962591617338, "train/reward_max_data": 1.0032258072207052, "train/reward_max_pred": 1.0044309189242702, "train/reward_neg_acc": 0.9964822434609936, "train/reward_neg_loss": 0.021807344074571324, "train/reward_pos_acc": 0.9852353526699927, "train/reward_pos_loss": 0.7489368531011766, "train/reward_pred": 0.017119500305383437, "train/reward_rate": 0.022571194556451613, "stats/sum_log_reward": 3.349999912083149, "stats/max_log_achievement_collect_drink": 3.625, "stats/max_log_achievement_collect_sapling": 2.125, "stats/max_log_achievement_collect_wood": 2.375, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 0.875, "stats/max_log_achievement_place_table": 1.0, "stats/max_log_achievement_wake_up": 1.625, "stats/mean_log_entropy": 0.48021361231803894, "replay/size": 40518.0, "replay/inserts": 1240.0, "replay/samples": 9920.0, "replay/insert_wait_avg": 3.863726892778951e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2533558953192926e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.33520698547363, "timer/env.step_count": 1240.0, "timer/env.step_total": 19.290592432022095, "timer/env.step_frac": 0.06423020672682948, "timer/env.step_avg": 0.01555692938066298, "timer/env.step_min": 0.0031042098999023438, "timer/env.step_max": 1.6911511421203613, "timer/replay.add_count": 1240.0, "timer/replay.add_total": 0.2420055866241455, "timer/replay.add_frac": 0.0008057849396119937, "timer/replay.add_avg": 0.00019516579566463348, "timer/replay.add_min": 6.890296936035156e-05, "timer/replay.add_max": 0.0008938312530517578, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030200719833374023, "timer/logger.write_frac": 0.00010055670840759854, "timer/logger.write_avg": 0.030200719833374023, "timer/logger.write_min": 0.030200719833374023, "timer/logger.write_max": 0.030200719833374023, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1240.0, "timer/agent.policy_total": 9.443562269210815, "timer/agent.policy_frac": 0.031443407398013025, "timer/agent.policy_avg": 0.007615776023557109, "timer/agent.policy_min": 0.0055866241455078125, "timer/agent.policy_max": 0.018183469772338867, "timer/dataset_count": 620.0, "timer/dataset_total": 0.05600857734680176, "timer/dataset_frac": 0.00018648688546698002, "timer/dataset_avg": 9.03364150754867e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.00019407272338867188, "timer/agent.train_count": 620.0, "timer/agent.train_total": 270.5799467563629, "timer/agent.train_frac": 0.9009264996675868, "timer/agent.train_avg": 0.43641926896187566, "timer/agent.train_min": 0.3784661293029785, "timer/agent.train_max": 0.4589054584503174, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2622847557067871, "timer/agent.report_frac": 0.0008733067239748321, "timer/agent.report_avg": 0.2622847557067871, "timer/agent.report_min": 0.2622847557067871, "timer/agent.report_max": 0.2622847557067871, "fps": 4.128665031635166}
{"step": 40712, "episode/length": 188.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.3000000193715096, "episode/reward_rate": 0.031746031746031744}
{"step": 40876, "episode/length": 163.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.03048780487804878}
{"step": 41102, "episode/length": 225.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.030973451327433628}
{"step": 41269, "episode/length": 166.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 5.1000000312924385, "episode/reward_rate": 0.017964071856287425}
{"step": 41472, "episode/length": 202.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.900000028312206, "episode/reward_rate": 0.024630541871921183}
{"step": 41613, "episode/length": 140.0, "episode/score": 1.0999999940395355, "episode/sum_abs_reward": 3.7000000178813934, "episode/reward_rate": 0.02127659574468085}
{"step": 41774, "episode/length": 160.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.037267080745341616}
{"step": 41833, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.89911380890877, "train/action_min": 0.0, "train/action_std": 3.631215076292715, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03960364585321757, "train/actor_opt_grad_steps": 20055.0, "train/actor_opt_loss": -7.880174237393564, "train/adv_mag": 0.9921775061276651, "train/adv_max": 0.9438592421431695, "train/adv_mean": 0.00471215467698658, "train/adv_min": -0.6240252919735447, "train/adv_std": 0.06267873101657437, "train/cont_avg": 0.9944398941532258, "train/cont_loss_mean": 1.8851814673787943e-05, "train/cont_loss_std": 0.0004832652156228652, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00010015007490349695, "train/cont_pos_acc": 0.9999999875022519, "train/cont_pos_loss": 1.821398964715803e-05, "train/cont_pred": 0.9944249506919615, "train/cont_rate": 0.9944398941532258, "train/dyn_loss_mean": 4.01802586355517, "train/dyn_loss_std": 7.72817640150747, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.2697491886154297, "train/extr_critic_critic_opt_grad_steps": 20055.0, "train/extr_critic_critic_opt_loss": 15009.646122101814, "train/extr_critic_mag": 9.092229943121634, "train/extr_critic_max": 9.092229943121634, "train/extr_critic_mean": 1.1518914939895752, "train/extr_critic_min": -0.5665976962735576, "train/extr_critic_std": 1.8154947315492937, "train/extr_return_normed_mag": 2.124396837526752, "train/extr_return_normed_max": 2.124396837526752, "train/extr_return_normed_mean": 0.3091058288851092, "train/extr_return_normed_min": -0.1846335596374927, "train/extr_return_normed_std": 0.39249620658736073, "train/extr_return_rate": 0.4775369897965462, "train/extr_return_raw_mag": 9.833197501397901, "train/extr_return_raw_max": 9.833197501397901, "train/extr_return_raw_mean": 1.1742487097940137, "train/extr_return_raw_min": -1.1850273695684248, "train/extr_return_raw_std": 1.8766794666167228, "train/extr_reward_mag": 1.0102742333565988, "train/extr_reward_max": 1.0102742333565988, "train/extr_reward_mean": 0.02311994619066677, "train/extr_reward_min": -0.6287077453828627, "train/extr_reward_std": 0.15620150657430773, "train/image_loss_mean": 4.0787855694370885, "train/image_loss_std": 8.17758717844563, "train/model_loss_mean": 6.526883532924037, "train/model_loss_std": 11.778107135526595, "train/model_opt_grad_norm": 43.710504347278224, "train/model_opt_grad_steps": 20035.0, "train/model_opt_loss": 4079.3021673387098, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 625.0, "train/policy_entropy_mag": 2.465702441430861, "train/policy_entropy_max": 2.465702441430861, "train/policy_entropy_mean": 0.5438485828138167, "train/policy_entropy_min": 0.07937509338221242, "train/policy_entropy_std": 0.5652908106004039, "train/policy_logprob_mag": 7.438383310071884, "train/policy_logprob_max": -0.00945569190286821, "train/policy_logprob_mean": -0.5428758133803645, "train/policy_logprob_min": -7.438383310071884, "train/policy_logprob_std": 1.1094691897592237, "train/policy_randomness_mag": 0.8702847621133251, "train/policy_randomness_max": 0.8702847621133251, "train/policy_randomness_mean": 0.19195468351244926, "train/policy_randomness_min": 0.028015924647690787, "train/policy_randomness_std": 0.19952285097491357, "train/post_ent_mag": 39.9924125056113, "train/post_ent_max": 39.9924125056113, "train/post_ent_mean": 25.805489878500662, "train/post_ent_min": 12.889123209061161, "train/post_ent_std": 4.615112412360407, "train/prior_ent_mag": 70.11660877350837, "train/prior_ent_max": 70.11660877350837, "train/prior_ent_mean": 29.89414350448116, "train/prior_ent_min": 14.368989452239006, "train/prior_ent_std": 8.71146592017143, "train/rep_loss_mean": 4.01802586355517, "train/rep_loss_std": 7.72817640150747, "train/reward_avg": 0.018337323563173413, "train/reward_loss_mean": 0.03726353973991448, "train/reward_loss_std": 0.18026383641746738, "train/reward_max_data": 1.0032258072207052, "train/reward_max_pred": 1.0062543038398988, "train/reward_neg_acc": 0.9963096543665855, "train/reward_neg_loss": 0.020318386497937383, "train/reward_pos_acc": 0.9839094790720171, "train/reward_pos_loss": 0.7462300840885409, "train/reward_pred": 0.018076798938695463, "train/reward_rate": 0.02323273689516129, "stats/sum_log_reward": 3.814285635948181, "stats/max_log_achievement_collect_drink": 3.2857142857142856, "stats/max_log_achievement_collect_sapling": 4.0, "stats/max_log_achievement_collect_wood": 2.4285714285714284, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_table": 1.0, "stats/max_log_achievement_wake_up": 1.8571428571428572, "stats/mean_log_entropy": 0.46635001472064425, "replay/size": 41770.0, "replay/inserts": 1252.0, "replay/samples": 10016.0, "replay/insert_wait_avg": 3.8265039364750775e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2661464298114228e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1914041042328, "timer/env.step_count": 1252.0, "timer/env.step_total": 18.237855434417725, "timer/env.step_frac": 0.06075408950779002, "timer/env.step_avg": 0.014566977184039716, "timer/env.step_min": 0.0030913352966308594, "timer/env.step_max": 1.7566566467285156, "timer/replay.add_count": 1252.0, "timer/replay.add_total": 0.23349237442016602, "timer/replay.add_frac": 0.0007778116602535778, "timer/replay.add_avg": 0.00018649550672537223, "timer/replay.add_min": 7.390975952148438e-05, "timer/replay.add_max": 0.0044994354248046875, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02633953094482422, "timer/logger.write_frac": 8.774245559569247e-05, "timer/logger.write_avg": 0.02633953094482422, "timer/logger.write_min": 0.02633953094482422, "timer/logger.write_max": 0.02633953094482422, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1252.0, "timer/agent.policy_total": 9.447024822235107, "timer/agent.policy_frac": 0.03147000444741216, "timer/agent.policy_avg": 0.0075455469826159, "timer/agent.policy_min": 0.00562739372253418, "timer/agent.policy_max": 0.014153718948364258, "timer/dataset_count": 626.0, "timer/dataset_total": 0.055494070053100586, "timer/dataset_frac": 0.00018486228884099517, "timer/dataset_avg": 8.864867420623097e-05, "timer/dataset_min": 6.651878356933594e-05, "timer/dataset_max": 0.00014138221740722656, "timer/agent.train_count": 626.0, "timer/agent.train_total": 271.49438667297363, "timer/agent.train_frac": 0.9044042666148597, "timer/agent.train_avg": 0.4336971033114595, "timer/agent.train_min": 0.3688652515411377, "timer/agent.train_max": 0.45783352851867676, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.26944398880004883, "timer/agent.report_frac": 0.0008975739648644043, "timer/agent.report_avg": 0.26944398880004883, "timer/agent.report_min": 0.26944398880004883, "timer/agent.report_max": 0.26944398880004883, "fps": 4.170619266380818}
{"step": 41967, "episode/length": 192.0, "episode/score": 4.099999979138374, "episode/sum_abs_reward": 5.900000020861626, "episode/reward_rate": 0.025906735751295335}
{"step": 42139, "episode/length": 171.0, "episode/score": 1.099999986588955, "episode/sum_abs_reward": 3.1000000163912773, "episode/reward_rate": 0.011627906976744186}
{"step": 42318, "episode/length": 178.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.0223463687150838}
{"step": 42484, "episode/length": 165.0, "episode/score": 6.099999979138374, "episode/sum_abs_reward": 8.30000002682209, "episode/reward_rate": 0.04216867469879518}
{"step": 42637, "episode/length": 152.0, "episode/score": 5.100000001490116, "episode/sum_abs_reward": 7.100000001490116, "episode/reward_rate": 0.0457516339869281}
{"step": 42801, "episode/length": 163.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 5.9000000059604645, "episode/reward_rate": 0.03048780487804878}
{"step": 42955, "episode/length": 153.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 5.300000034272671, "episode/reward_rate": 0.01948051948051948}
{"step": 43063, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.821624755859375, "train/action_min": 0.0, "train/action_std": 3.590988343761813, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03597775486207778, "train/actor_opt_grad_steps": 20675.0, "train/actor_opt_loss": -15.043013810630768, "train/adv_mag": 0.7841182139612013, "train/adv_max": 0.70748908433222, "train/adv_mean": 0.0019511552431316476, "train/adv_min": -0.5740439435166698, "train/adv_std": 0.0544183540848955, "train/cont_avg": 0.994172127016129, "train/cont_loss_mean": 0.0002235539200842507, "train/cont_loss_std": 0.0068422341973854925, "train/cont_neg_acc": 0.9959677419354839, "train/cont_neg_loss": 0.04441553092555472, "train/cont_pos_acc": 0.9999682134197604, "train/cont_pos_loss": 4.358796280804023e-05, "train/cont_pred": 0.9941716242221094, "train/cont_rate": 0.994172127016129, "train/dyn_loss_mean": 4.0294372227884105, "train/dyn_loss_std": 7.807729259614022, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.2456320149283255, "train/extr_critic_critic_opt_grad_steps": 20675.0, "train/extr_critic_critic_opt_loss": 14952.669984879032, "train/extr_critic_mag": 8.13200447636266, "train/extr_critic_max": 8.13200447636266, "train/extr_critic_mean": 1.1142122649377393, "train/extr_critic_min": -0.5769898160811393, "train/extr_critic_std": 1.6625604735266777, "train/extr_return_normed_mag": 1.7880163634977033, "train/extr_return_normed_max": 1.7880163634977033, "train/extr_return_normed_mean": 0.2842453400934896, "train/extr_return_normed_min": -0.1623886780392739, "train/extr_return_normed_std": 0.3371884741129414, "train/extr_return_rate": 0.48605933304755916, "train/extr_return_raw_mag": 8.722185927052651, "train/extr_return_raw_max": 8.722185927052651, "train/extr_return_raw_mean": 1.1240631784162214, "train/extr_return_raw_min": -1.1338968421182325, "train/extr_return_raw_std": 1.7057565892896345, "train/extr_reward_mag": 1.0168637037277222, "train/extr_reward_max": 1.0168637037277222, "train/extr_reward_mean": 0.021639529420363325, "train/extr_reward_min": -0.6469427520228971, "train/extr_reward_std": 0.1537215215784888, "train/image_loss_mean": 4.113741101757173, "train/image_loss_std": 8.514894220136828, "train/model_loss_mean": 6.570185076805853, "train/model_loss_std": 12.107022523880005, "train/model_opt_grad_norm": 53.1255516852102, "train/model_opt_grad_steps": 20655.0, "train/model_opt_loss": 7434.739301127772, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1159.274193548387, "train/policy_entropy_mag": 2.4489047604222454, "train/policy_entropy_max": 2.4489047604222454, "train/policy_entropy_mean": 0.5306462352314303, "train/policy_entropy_min": 0.07937510335637678, "train/policy_entropy_std": 0.5455653244449247, "train/policy_logprob_mag": 7.438383233162664, "train/policy_logprob_max": -0.009455689995159064, "train/policy_logprob_mean": -0.5304807213044935, "train/policy_logprob_min": -7.438383233162664, "train/policy_logprob_std": 1.1008828686129661, "train/policy_randomness_mag": 0.8643559140543784, "train/policy_randomness_max": 0.8643559140543784, "train/policy_randomness_mean": 0.18729483192005464, "train/policy_randomness_min": 0.028015928192725106, "train/policy_randomness_std": 0.19256061796219118, "train/post_ent_mag": 40.250540948683216, "train/post_ent_max": 40.250540948683216, "train/post_ent_mean": 25.891932087559855, "train/post_ent_min": 13.009054568506055, "train/post_ent_std": 4.6058901663749445, "train/prior_ent_mag": 70.31742329751292, "train/prior_ent_max": 70.31742329751292, "train/prior_ent_mean": 30.018712443690145, "train/prior_ent_min": 14.49072221017653, "train/prior_ent_std": 8.767370423962992, "train/rep_loss_mean": 4.0294372227884105, "train/rep_loss_std": 7.807729259614022, "train/reward_avg": 0.01747574336496332, "train/reward_loss_mean": 0.03855809638456952, "train/reward_loss_std": 0.18729505435593666, "train/reward_max_data": 1.0112903252724679, "train/reward_max_pred": 1.0123160000770324, "train/reward_neg_acc": 0.9963759241565582, "train/reward_neg_loss": 0.02182797230254378, "train/reward_pos_acc": 0.9803973128718715, "train/reward_pos_loss": 0.7608507996605288, "train/reward_pred": 0.017232785294313106, "train/reward_rate": 0.022712953629032258, "stats/sum_log_reward": 3.528571401323591, "stats/max_log_achievement_collect_drink": 7.714285714285714, "stats/max_log_achievement_collect_sapling": 2.2857142857142856, "stats/max_log_achievement_collect_wood": 2.142857142857143, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.14285714285714285, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 0.8571428571428571, "stats/max_log_achievement_place_table": 0.8571428571428571, "stats/max_log_achievement_wake_up": 1.8571428571428572, "stats/mean_log_entropy": 0.44303104281425476, "replay/size": 43000.0, "replay/inserts": 1230.0, "replay/samples": 9840.0, "replay/insert_wait_avg": 3.8621871452021405e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2790284505704553e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1894600391388, "timer/env.step_count": 1230.0, "timer/env.step_total": 17.717010021209717, "timer/env.step_frac": 0.059019427327327775, "timer/env.step_avg": 0.01440407318797538, "timer/env.step_min": 0.002853870391845703, "timer/env.step_max": 1.7026166915893555, "timer/replay.add_count": 1230.0, "timer/replay.add_total": 0.23352479934692383, "timer/replay.add_frac": 0.0007779247123349261, "timer/replay.add_avg": 0.00018985756044465353, "timer/replay.add_min": 7.009506225585938e-05, "timer/replay.add_max": 0.0024712085723876953, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02749323844909668, "timer/logger.write_frac": 9.158628835773282e-05, "timer/logger.write_avg": 0.02749323844909668, "timer/logger.write_min": 0.02749323844909668, "timer/logger.write_max": 0.02749323844909668, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0005366802215576172, "timer/checkpoint.save_frac": 1.7878050131661673e-06, "timer/checkpoint.save_avg": 0.0005366802215576172, "timer/checkpoint.save_min": 0.0005366802215576172, "timer/checkpoint.save_max": 0.0005366802215576172, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4457752704620361, "timer/agent.save_frac": 0.004816209304195875, "timer/agent.save_avg": 1.4457752704620361, "timer/agent.save_min": 1.4457752704620361, "timer/agent.save_max": 1.4457752704620361, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.891654968261719e-05, "timer/replay.save_frac": 2.6288914231808147e-07, "timer/replay.save_avg": 7.891654968261719e-05, "timer/replay.save_min": 7.891654968261719e-05, "timer/replay.save_max": 7.891654968261719e-05, "timer/agent.policy_count": 1230.0, "timer/agent.policy_total": 13.860771656036377, "timer/agent.policy_frac": 0.04617341213188899, "timer/agent.policy_avg": 0.01126892004555803, "timer/agent.policy_min": 0.0056612491607666016, "timer/agent.policy_max": 3.2323460578918457, "timer/dataset_count": 615.0, "timer/dataset_total": 0.0539090633392334, "timer/dataset_frac": 0.00017958346482986018, "timer/dataset_avg": 8.765701355972911e-05, "timer/dataset_min": 6.151199340820312e-05, "timer/dataset_max": 0.00014543533325195312, "timer/agent.train_count": 615.0, "timer/agent.train_total": 267.6493515968323, "timer/agent.train_frac": 0.8916014291838763, "timer/agent.train_avg": 0.43520219771842644, "timer/agent.train_min": 0.37905097007751465, "timer/agent.train_max": 1.0980982780456543, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.23234820365905762, "timer/agent.report_frac": 0.0007740052020106369, "timer/agent.report_avg": 0.23234820365905762, "timer/agent.report_min": 0.23234820365905762, "timer/agent.report_max": 0.23234820365905762, "fps": 4.097352674205619}
{"step": 43122, "episode/length": 166.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.3000000193715096, "episode/reward_rate": 0.03592814371257485}
{"step": 43298, "episode/length": 175.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.028409090909090908}
{"step": 43446, "episode/length": 147.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.02702702702702703}
{"step": 43628, "episode/length": 181.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.0999999940395355, "episode/reward_rate": 0.038461538461538464}
{"step": 43823, "episode/length": 194.0, "episode/score": 5.0999999940395355, "episode/sum_abs_reward": 6.500000029802322, "episode/reward_rate": 0.03076923076923077}
{"step": 44080, "episode/length": 256.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.027237354085603113}
{"step": 44300, "episode/length": 219.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.02727272727272727}
{"step": 44325, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.755128890749008, "train/action_min": 0.0, "train/action_std": 3.489760981665717, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03820731245454342, "train/actor_opt_grad_steps": 21300.0, "train/actor_opt_loss": -12.01519887409513, "train/adv_mag": 0.8975201892474342, "train/adv_max": 0.8556875009385366, "train/adv_mean": 0.0031178253407161387, "train/adv_min": -0.5746167138928459, "train/adv_std": 0.05788978431669493, "train/cont_avg": 0.9940941220238095, "train/cont_loss_mean": 4.724999035221435e-05, "train/cont_loss_std": 0.0012996916367870972, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.003027081872575749, "train/cont_pos_acc": 0.9999844034512838, "train/cont_pos_loss": 3.1368835392765416e-05, "train/cont_pred": 0.9940834338702853, "train/cont_rate": 0.9940941220238095, "train/dyn_loss_mean": 4.037428000616649, "train/dyn_loss_std": 7.751468332986983, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.2648965782589383, "train/extr_critic_critic_opt_grad_steps": 21300.0, "train/extr_critic_critic_opt_loss": 15231.069676959325, "train/extr_critic_mag": 8.473244288611033, "train/extr_critic_max": 8.473244288611033, "train/extr_critic_mean": 1.1119926458313352, "train/extr_critic_min": -0.5347799176261538, "train/extr_critic_std": 1.6185636747451055, "train/extr_return_normed_mag": 1.8422067127530537, "train/extr_return_normed_max": 1.8422067127530537, "train/extr_return_normed_mean": 0.28422958439304713, "train/extr_return_normed_min": -0.14788652997877863, "train/extr_return_normed_std": 0.3307051072044978, "train/extr_return_rate": 0.48315768062122283, "train/extr_return_raw_mag": 8.981820901234945, "train/extr_return_raw_max": 8.981820901234945, "train/extr_return_raw_mean": 1.1277327140172322, "train/extr_return_raw_min": -1.0437889685706487, "train/extr_return_raw_std": 1.6648890574773152, "train/extr_reward_mag": 1.013388372602917, "train/extr_reward_max": 1.013388372602917, "train/extr_reward_mean": 0.02322482140291305, "train/extr_reward_min": -0.6506761615238492, "train/extr_reward_std": 0.155932278860183, "train/image_loss_mean": 3.959500778289068, "train/image_loss_std": 7.908429160950676, "train/model_loss_mean": 6.422223492274209, "train/model_loss_std": 11.496122738671682, "train/model_opt_grad_norm": 49.275690805344354, "train/model_opt_grad_steps": 21279.79365079365, "train/model_opt_loss": 8419.848617311507, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1309.5238095238096, "train/policy_entropy_mag": 2.457641223120311, "train/policy_entropy_max": 2.457641223120311, "train/policy_entropy_mean": 0.5144214880844903, "train/policy_entropy_min": 0.07937509010708521, "train/policy_entropy_std": 0.5410288496622964, "train/policy_logprob_mag": 7.438383215949649, "train/policy_logprob_max": -0.009455678215812124, "train/policy_logprob_mean": -0.5150826838281419, "train/policy_logprob_min": -7.438383215949649, "train/policy_logprob_std": 1.0913679126709226, "train/policy_randomness_mag": 0.8674395046536885, "train/policy_randomness_max": 0.8674395046536885, "train/policy_randomness_mean": 0.18156820748533523, "train/policy_randomness_min": 0.028015923641976855, "train/policy_randomness_std": 0.190959442229498, "train/post_ent_mag": 40.34934640309167, "train/post_ent_max": 40.34934640309167, "train/post_ent_mean": 26.015128544398717, "train/post_ent_min": 13.548023647732204, "train/post_ent_std": 4.645239035288493, "train/prior_ent_mag": 70.32217697870163, "train/prior_ent_max": 70.32217697870163, "train/prior_ent_mean": 30.12001555306571, "train/prior_ent_min": 14.703382325550866, "train/prior_ent_std": 8.831561981685578, "train/rep_loss_mean": 4.037428000616649, "train/rep_loss_std": 7.751468332986983, "train/reward_avg": 0.018906559824707018, "train/reward_loss_mean": 0.0402187497192432, "train/reward_loss_std": 0.18695781983080365, "train/reward_max_data": 1.007936509828719, "train/reward_max_pred": 1.0087339518562195, "train/reward_neg_acc": 0.9956795828683036, "train/reward_neg_loss": 0.022723390055554255, "train/reward_pos_acc": 0.9848493299787007, "train/reward_pos_loss": 0.7413435900022113, "train/reward_pred": 0.018585010357792416, "train/reward_rate": 0.024274553571428572, "stats/sum_log_reward": 4.528571401323591, "stats/max_log_achievement_collect_drink": 3.857142857142857, "stats/max_log_achievement_collect_sapling": 5.285714285714286, "stats/max_log_achievement_collect_wood": 3.4285714285714284, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.14285714285714285, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_table": 1.4285714285714286, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.4249741860798427, "replay/size": 44262.0, "replay/inserts": 1262.0, "replay/samples": 10096.0, "replay/insert_wait_avg": 3.9023567115070325e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3019505846897132e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0811984539032, "timer/env.step_count": 1262.0, "timer/env.step_total": 17.75232434272766, "timer/env.step_frac": 0.059158402573011165, "timer/env.step_avg": 0.014066818021178812, "timer/env.step_min": 0.003015279769897461, "timer/env.step_max": 1.6629400253295898, "timer/replay.add_count": 1262.0, "timer/replay.add_total": 0.2654438018798828, "timer/replay.add_frac": 0.0008845732529979176, "timer/replay.add_avg": 0.0002103358176544238, "timer/replay.add_min": 7.772445678710938e-05, "timer/replay.add_max": 0.011651277542114258, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024045705795288086, "timer/logger.write_frac": 8.013066436410494e-05, "timer/logger.write_avg": 0.024045705795288086, "timer/logger.write_min": 0.024045705795288086, "timer/logger.write_max": 0.024045705795288086, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1262.0, "timer/agent.policy_total": 9.638055562973022, "timer/agent.policy_frac": 0.032118158727140536, "timer/agent.policy_avg": 0.007637128021373235, "timer/agent.policy_min": 0.005593538284301758, "timer/agent.policy_max": 0.01580071449279785, "timer/dataset_count": 631.0, "timer/dataset_total": 0.056661367416381836, "timer/dataset_frac": 0.00018882011838234456, "timer/dataset_avg": 8.979614487540703e-05, "timer/dataset_min": 6.67572021484375e-05, "timer/dataset_max": 0.00021028518676757812, "timer/agent.train_count": 631.0, "timer/agent.train_total": 271.64828515052795, "timer/agent.train_frac": 0.9052492676986461, "timer/agent.train_avg": 0.43050441386771465, "timer/agent.train_min": 0.36948466300964355, "timer/agent.train_max": 0.5113508701324463, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2608034610748291, "timer/agent.report_frac": 0.0008691096357204541, "timer/agent.report_avg": 0.2608034610748291, "timer/agent.report_min": 0.2608034610748291, "timer/agent.report_max": 0.2608034610748291, "fps": 4.20547368478859}
{"step": 44338, "episode/length": 37.0, "episode/score": -0.8999999910593033, "episode/sum_abs_reward": 0.8999999910593033, "episode/reward_rate": 0.02631578947368421}
{"step": 44487, "episode/length": 148.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.0999999940395355, "episode/reward_rate": 0.04697986577181208}
{"step": 44593, "episode/length": 105.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.04716981132075472}
{"step": 44761, "episode/length": 167.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 5.0999999940395355, "episode/reward_rate": 0.02976190476190476}
{"step": 44917, "episode/length": 155.0, "episode/score": 4.0999999940395355, "episode/sum_abs_reward": 6.300000011920929, "episode/reward_rate": 0.038461538461538464}
{"step": 45130, "episode/length": 212.0, "episode/score": 5.099999979138374, "episode/sum_abs_reward": 8.100000038743019, "episode/reward_rate": 0.028169014084507043}
{"step": 45325, "episode/length": 194.0, "episode/score": 5.0999999940395355, "episode/sum_abs_reward": 7.300000011920929, "episode/reward_rate": 0.035897435897435895}
{"step": 45466, "episode/length": 140.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 6.5, "episode/reward_rate": 0.0425531914893617}
{"step": 45587, "stats/sum_log_reward": 3.7249999791383743, "stats/max_log_achievement_collect_drink": 4.125, "stats/max_log_achievement_collect_sapling": 1.75, "stats/max_log_achievement_collect_wood": 1.875, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_table": 0.5, "stats/max_log_achievement_wake_up": 1.875, "stats/mean_log_entropy": 0.37002516351640224, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.708477686321925, "train/action_min": 0.0, "train/action_std": 3.3784158835335383, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.037631725123713884, "train/actor_opt_grad_steps": 21930.0, "train/actor_opt_loss": -10.847318518315516, "train/adv_mag": 0.638557665877872, "train/adv_max": 0.6034898710629296, "train/adv_mean": 0.00261015361511021, "train/adv_min": -0.4663117755027044, "train/adv_std": 0.052939868872127836, "train/cont_avg": 0.9940011160714286, "train/cont_loss_mean": 0.0001246092522801663, "train/cont_loss_std": 0.003654696702676394, "train/cont_neg_acc": 0.9982363316747878, "train/cont_neg_loss": 0.008238875242756283, "train/cont_pos_acc": 0.9999843410083226, "train/cont_pos_loss": 5.466434653037198e-05, "train/cont_pred": 0.9939870805967421, "train/cont_rate": 0.9940011160714286, "train/dyn_loss_mean": 4.019141549155826, "train/dyn_loss_std": 7.815356413523356, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.193311369608319, "train/extr_critic_critic_opt_grad_steps": 21930.0, "train/extr_critic_critic_opt_loss": 15114.12417844742, "train/extr_critic_mag": 6.9167929376874655, "train/extr_critic_max": 6.9167929376874655, "train/extr_critic_mean": 1.0937861894804335, "train/extr_critic_min": -0.5539553695254855, "train/extr_critic_std": 1.5255867678021628, "train/extr_return_normed_mag": 1.6038049251314193, "train/extr_return_normed_max": 1.6038049251314193, "train/extr_return_normed_mean": 0.2821774955779787, "train/extr_return_normed_min": -0.16477016170346548, "train/extr_return_normed_std": 0.316926771922717, "train/extr_return_rate": 0.47585258029756095, "train/extr_return_raw_mag": 7.595596177237375, "train/extr_return_raw_max": 7.595596177237375, "train/extr_return_raw_mean": 1.1064698071706862, "train/extr_return_raw_min": -1.087371734399644, "train/extr_return_raw_std": 1.5564575687287345, "train/extr_reward_mag": 1.0105870526934426, "train/extr_reward_max": 1.0105870526934426, "train/extr_reward_mean": 0.02221832140570595, "train/extr_reward_min": -0.6630506534425039, "train/extr_reward_std": 0.15406397422627796, "train/image_loss_mean": 3.840391760780698, "train/image_loss_std": 8.247190202985491, "train/model_loss_mean": 6.291458523462689, "train/model_loss_std": 11.83760537041558, "train/model_opt_grad_norm": 50.5134397839743, "train/model_opt_grad_steps": 21908.619047619046, "train/model_opt_loss": 6437.064596509176, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1011.9047619047619, "train/policy_entropy_mag": 2.4564442407517206, "train/policy_entropy_max": 2.4564442407517206, "train/policy_entropy_mean": 0.5036868419912126, "train/policy_entropy_min": 0.07937509105319068, "train/policy_entropy_std": 0.5357671484114632, "train/policy_logprob_mag": 7.43838333705115, "train/policy_logprob_max": -0.009455706377232831, "train/policy_logprob_mean": -0.5039705799685584, "train/policy_logprob_min": -7.43838333705115, "train/policy_logprob_std": 1.0846767993200392, "train/policy_randomness_mag": 0.8670170165243603, "train/policy_randomness_max": 0.8670170165243603, "train/policy_randomness_mean": 0.17777935001585218, "train/policy_randomness_min": 0.028015923730674245, "train/policy_randomness_std": 0.1891022908782202, "train/post_ent_mag": 40.29743321736654, "train/post_ent_max": 40.29743321736654, "train/post_ent_mean": 26.02117144872272, "train/post_ent_min": 13.8098723850553, "train/post_ent_std": 4.534351666768392, "train/prior_ent_mag": 70.39019884381976, "train/prior_ent_max": 70.39019884381976, "train/prior_ent_mean": 30.094136858743333, "train/prior_ent_min": 15.179797914293077, "train/prior_ent_std": 8.702457912384517, "train/rep_loss_mean": 4.019141549155826, "train/rep_loss_std": 7.815356413523356, "train/reward_avg": 0.01817026287169447, "train/reward_loss_mean": 0.039457277054824526, "train/reward_loss_std": 0.1907911379895513, "train/reward_max_data": 1.0047619058972312, "train/reward_max_pred": 1.006254585962447, "train/reward_neg_acc": 0.9958570126503233, "train/reward_neg_loss": 0.021884369294321727, "train/reward_pos_acc": 0.9834679554379175, "train/reward_pos_loss": 0.7670693615126232, "train/reward_pred": 0.017909777801602134, "train/reward_rate": 0.023530505952380952, "replay/size": 45524.0, "replay/inserts": 1262.0, "replay/samples": 10096.0, "replay/insert_wait_avg": 3.849836612465642e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.338128998238009e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3551046848297, "timer/env.step_count": 1262.0, "timer/env.step_total": 19.291308403015137, "timer/env.step_frac": 0.06422833540071843, "timer/env.step_avg": 0.015286298259124514, "timer/env.step_min": 0.0028295516967773438, "timer/env.step_max": 1.6966445446014404, "timer/replay.add_count": 1262.0, "timer/replay.add_total": 0.2431962490081787, "timer/replay.add_frac": 0.0008096957408577116, "timer/replay.add_avg": 0.00019270701189237616, "timer/replay.add_min": 7.009506225585938e-05, "timer/replay.add_max": 0.0020258426666259766, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027362585067749023, "timer/logger.write_frac": 9.110078251029322e-05, "timer/logger.write_avg": 0.027362585067749023, "timer/logger.write_min": 0.027362585067749023, "timer/logger.write_max": 0.027362585067749023, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1262.0, "timer/agent.policy_total": 9.608806610107422, "timer/agent.policy_frac": 0.031991487609941534, "timer/agent.policy_avg": 0.007613951355077197, "timer/agent.policy_min": 0.0056514739990234375, "timer/agent.policy_max": 0.017109155654907227, "timer/dataset_count": 631.0, "timer/dataset_total": 0.05633878707885742, "timer/dataset_frac": 0.0001875739289930669, "timer/dataset_avg": 8.928492405524155e-05, "timer/dataset_min": 6.747245788574219e-05, "timer/dataset_max": 0.000240325927734375, "timer/agent.train_count": 631.0, "timer/agent.train_total": 270.4346127510071, "timer/agent.train_frac": 0.9003829418340702, "timer/agent.train_avg": 0.4285810027749716, "timer/agent.train_min": 0.37894153594970703, "timer/agent.train_max": 0.45676541328430176, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.26114583015441895, "timer/agent.report_frac": 0.0008694569397395324, "timer/agent.report_avg": 0.26114583015441895, "timer/agent.report_min": 0.26114583015441895, "timer/agent.report_max": 0.26114583015441895, "fps": 4.20164339539193}
{"step": 45683, "episode/length": 216.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.02304147465437788}
{"step": 46143, "episode/length": 459.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.3000000193715096, "episode/reward_rate": 0.010869565217391304}
{"step": 46312, "episode/length": 168.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.0999999940395355, "episode/reward_rate": 0.04142011834319527}
{"step": 46460, "episode/length": 147.0, "episode/score": 5.100000001490116, "episode/sum_abs_reward": 7.100000001490116, "episode/reward_rate": 0.0472972972972973}
{"step": 46600, "episode/length": 139.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 5.0999999940395355, "episode/reward_rate": 0.03571428571428571}
{"step": 46729, "episode/length": 128.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.046511627906976744}
{"step": 46869, "episode/length": 139.0, "episode/score": 4.100000061094761, "episode/sum_abs_reward": 5.9000000432133675, "episode/reward_rate": 0.04285714285714286}
{"step": 46901, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.695425322561553, "train/action_min": 0.0, "train/action_std": 3.424527717359138, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04037156334203301, "train/actor_opt_grad_steps": 22575.0, "train/actor_opt_loss": -8.27099175435124, "train/adv_mag": 0.709297291708715, "train/adv_max": 0.636922250642921, "train/adv_mean": 0.004321500411923339, "train/adv_min": -0.5492693298693859, "train/adv_std": 0.059991427161025276, "train/cont_avg": 0.9941702178030303, "train/cont_loss_mean": 0.00012150550532932371, "train/cont_loss_std": 0.003267591693074654, "train/cont_neg_acc": 0.9969696971503171, "train/cont_neg_loss": 0.011002641942606275, "train/cont_pos_acc": 0.9999850961295041, "train/cont_pos_loss": 6.523779164621405e-05, "train/cont_pred": 0.9941541444171559, "train/cont_rate": 0.9941702178030303, "train/dyn_loss_mean": 4.277489618821577, "train/dyn_loss_std": 7.7826870210243, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.2401373765685342, "train/extr_critic_critic_opt_grad_steps": 22575.0, "train/extr_critic_critic_opt_loss": 15432.478870738636, "train/extr_critic_mag": 7.829872572060787, "train/extr_critic_max": 7.829872572060787, "train/extr_critic_mean": 1.217218147985863, "train/extr_critic_min": -0.5609193859678326, "train/extr_critic_std": 1.6294979922699206, "train/extr_return_normed_mag": 1.8276304060762578, "train/extr_return_normed_max": 1.8276304060762578, "train/extr_return_normed_mean": 0.31645090674812143, "train/extr_return_normed_min": -0.1782582967796109, "train/extr_return_normed_std": 0.3534064922820438, "train/extr_return_rate": 0.5408420422763536, "train/extr_return_raw_mag": 8.393925356142448, "train/extr_return_raw_max": 8.393925356142448, "train/extr_return_raw_mean": 1.2377377902016495, "train/extr_return_raw_min": -1.102362172170119, "train/extr_return_raw_std": 1.6728808067061685, "train/extr_reward_mag": 1.009585080724774, "train/extr_reward_max": 1.009585080724774, "train/extr_reward_mean": 0.023240803176480713, "train/extr_reward_min": -0.6847596854874582, "train/extr_reward_std": 0.15755944416830034, "train/image_loss_mean": 4.1335390481081875, "train/image_loss_std": 8.435292858065981, "train/model_loss_mean": 6.738842523459232, "train/model_loss_std": 11.997054540749753, "train/model_opt_grad_norm": 51.88426925196792, "train/model_opt_grad_steps": 22553.0, "train/model_opt_loss": 4211.776574337121, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 625.0, "train/policy_entropy_mag": 2.438705390149897, "train/policy_entropy_max": 2.438705390149897, "train/policy_entropy_mean": 0.4699961150234396, "train/policy_entropy_min": 0.07937509047262596, "train/policy_entropy_std": 0.5083186572248285, "train/policy_logprob_mag": 7.438383441982848, "train/policy_logprob_max": -0.009455682653369326, "train/policy_logprob_mean": -0.46870725985729333, "train/policy_logprob_min": -7.438383441982848, "train/policy_logprob_std": 1.0574206177032355, "train/policy_randomness_mag": 0.860755980014801, "train/policy_randomness_max": 0.860755980014801, "train/policy_randomness_mean": 0.1658880040049553, "train/policy_randomness_min": 0.02801592351699417, "train/policy_randomness_std": 0.17941418222405695, "train/post_ent_mag": 41.20518615029075, "train/post_ent_max": 41.20518615029075, "train/post_ent_mean": 26.38807961435029, "train/post_ent_min": 13.81328094366825, "train/post_ent_std": 4.600008924802144, "train/prior_ent_mag": 70.45828374226888, "train/prior_ent_max": 70.45828374226888, "train/prior_ent_mean": 30.613629398923933, "train/prior_ent_min": 15.34935491735285, "train/prior_ent_std": 8.724407138246479, "train/rep_loss_mean": 4.277489618821577, "train/rep_loss_std": 7.7826870210243, "train/reward_avg": 0.018072324762628836, "train/reward_loss_mean": 0.0386882092182835, "train/reward_loss_std": 0.183889868358771, "train/reward_max_data": 1.0045454556291753, "train/reward_max_pred": 1.005657875176632, "train/reward_neg_acc": 0.9960447378230818, "train/reward_neg_loss": 0.02188972331527056, "train/reward_pos_acc": 0.9863750428864451, "train/reward_pos_loss": 0.7398194282343893, "train/reward_pred": 0.017848689398361428, "train/reward_rate": 0.023393110795454544, "stats/sum_log_reward": 4.242857047489712, "stats/max_log_achievement_collect_drink": 4.714285714285714, "stats/max_log_achievement_collect_sapling": 2.4285714285714284, "stats/max_log_achievement_collect_wood": 2.857142857142857, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.14285714285714285, "stats/max_log_achievement_place_plant": 1.7142857142857142, "stats/max_log_achievement_place_table": 1.1428571428571428, "stats/max_log_achievement_wake_up": 2.4285714285714284, "stats/mean_log_entropy": 0.4693728983402252, "replay/size": 46838.0, "replay/inserts": 1314.0, "replay/samples": 10512.0, "replay/insert_wait_avg": 3.839192325121736e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2683451084967255e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 301.62771463394165, "timer/env.step_count": 1314.0, "timer/env.step_total": 17.739896774291992, "timer/env.step_frac": 0.05881388186036321, "timer/env.step_avg": 0.013500682476630131, "timer/env.step_min": 0.002880573272705078, "timer/env.step_max": 1.7211685180664062, "timer/replay.add_count": 1314.0, "timer/replay.add_total": 0.24125170707702637, "timer/replay.add_frac": 0.0007998326923300527, "timer/replay.add_avg": 0.0001836009947313747, "timer/replay.add_min": 7.462501525878906e-05, "timer/replay.add_max": 0.0009324550628662109, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027982234954833984, "timer/logger.write_frac": 9.277076872327034e-05, "timer/logger.write_avg": 0.027982234954833984, "timer/logger.write_min": 0.027982234954833984, "timer/logger.write_max": 0.027982234954833984, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00035190582275390625, "timer/checkpoint.save_frac": 1.1666892851042638e-06, "timer/checkpoint.save_avg": 0.00035190582275390625, "timer/checkpoint.save_min": 0.00035190582275390625, "timer/checkpoint.save_max": 0.00035190582275390625, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4392204284667969, "timer/agent.save_frac": 0.004771512558829181, "timer/agent.save_avg": 1.4392204284667969, "timer/agent.save_min": 1.4392204284667969, "timer/agent.save_max": 1.4392204284667969, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.083747863769531e-05, "timer/replay.save_frac": 3.01157600016751e-07, "timer/replay.save_avg": 9.083747863769531e-05, "timer/replay.save_min": 9.083747863769531e-05, "timer/replay.save_max": 9.083747863769531e-05, "timer/agent.policy_count": 1314.0, "timer/agent.policy_total": 11.267652750015259, "timer/agent.policy_frac": 0.03735615861324213, "timer/agent.policy_avg": 0.008575078196358644, "timer/agent.policy_min": 0.00563359260559082, "timer/agent.policy_max": 1.4387176036834717, "timer/dataset_count": 657.0, "timer/dataset_total": 0.05759930610656738, "timer/dataset_frac": 0.00019096158380694714, "timer/dataset_avg": 8.767017672232478e-05, "timer/dataset_min": 6.651878356933594e-05, "timer/dataset_max": 0.000156402587890625, "timer/agent.train_count": 657.0, "timer/agent.train_total": 271.62278008461, "timer/agent.train_frac": 0.9005232838575661, "timer/agent.train_avg": 0.4134288890176712, "timer/agent.train_min": 0.366854190826416, "timer/agent.train_max": 0.45806884765625, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21910715103149414, "timer/agent.report_frac": 0.0007264158444372552, "timer/agent.report_avg": 0.21910715103149414, "timer/agent.report_min": 0.21910715103149414, "timer/agent.report_max": 0.21910715103149414, "fps": 4.35627270909651}
{"step": 47038, "episode/length": 168.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03550295857988166}
{"step": 47196, "episode/length": 157.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.3000000193715096, "episode/reward_rate": 0.03164556962025317}
{"step": 47365, "episode/length": 168.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 5.299999997019768, "episode/reward_rate": 0.029585798816568046}
{"step": 47412, "episode/length": 46.0, "episode/score": 3.100000001490116, "episode/sum_abs_reward": 4.700000025331974, "episode/reward_rate": 0.0851063829787234}
{"step": 47451, "episode/length": 38.0, "episode/score": 1.1000000089406967, "episode/sum_abs_reward": 2.8999999910593033, "episode/reward_rate": 0.07692307692307693}
{"step": 47667, "episode/length": 215.0, "episode/score": 4.099999971687794, "episode/sum_abs_reward": 6.500000037252903, "episode/reward_rate": 0.027777777777777776}
{"step": 47828, "episode/length": 160.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.031055900621118012}
{"step": 47965, "episode/length": 136.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.3000000193715096, "episode/reward_rate": 0.0364963503649635}
{"step": 48125, "episode/length": 159.0, "episode/score": 5.099999971687794, "episode/sum_abs_reward": 7.500000037252903, "episode/reward_rate": 0.04375}
{"step": 48311, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.615656389508929, "train/action_min": 0.0, "train/action_std": 3.3699809040342057, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03986769512827907, "train/actor_opt_grad_steps": 23255.0, "train/actor_opt_loss": -15.206819937910353, "train/adv_mag": 0.7453538085733141, "train/adv_max": 0.6408560463360378, "train/adv_mean": 0.0029474204146286605, "train/adv_min": -0.5628959677049092, "train/adv_std": 0.05645145390714918, "train/cont_avg": 0.9941824776785714, "train/cont_loss_mean": 0.00024562354658428374, "train/cont_loss_std": 0.007357929423926634, "train/cont_neg_acc": 0.9935374174799237, "train/cont_neg_loss": 0.03025066577508499, "train/cont_pos_acc": 0.9999859690666199, "train/cont_pos_loss": 4.5381181364843673e-05, "train/cont_pred": 0.9941960326262883, "train/cont_rate": 0.9941824776785714, "train/dyn_loss_mean": 3.712741133144924, "train/dyn_loss_std": 7.690441751480103, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.2018956746373857, "train/extr_critic_critic_opt_grad_steps": 23255.0, "train/extr_critic_critic_opt_loss": 15238.626283482143, "train/extr_critic_mag": 7.535975292750767, "train/extr_critic_max": 7.535975292750767, "train/extr_critic_mean": 1.2412981467587607, "train/extr_critic_min": -0.6098090325083051, "train/extr_critic_std": 1.5403073872838702, "train/extr_return_normed_mag": 1.761247376033238, "train/extr_return_normed_max": 1.761247376033238, "train/extr_return_normed_mean": 0.3257572182587215, "train/extr_return_normed_min": -0.1958402163216046, "train/extr_return_normed_std": 0.3282589669738497, "train/extr_return_rate": 0.5750753653900964, "train/extr_return_raw_mag": 8.197466904776437, "train/extr_return_raw_max": 8.197466904776437, "train/extr_return_raw_mean": 1.25566189629691, "train/extr_return_raw_min": -1.2666138810770853, "train/extr_return_raw_std": 1.5865984337670462, "train/extr_reward_mag": 1.0077046973364694, "train/extr_reward_max": 1.0077046973364694, "train/extr_reward_mean": 0.023593319952487944, "train/extr_reward_min": -0.680666310446603, "train/extr_reward_std": 0.15929176115563937, "train/image_loss_mean": 3.3499970844813753, "train/image_loss_std": 7.329858984266009, "train/model_loss_mean": 5.6164410080228535, "train/model_loss_std": 10.922768088749477, "train/model_opt_grad_norm": 43.49294511250087, "train/model_opt_grad_steps": 23233.0, "train/model_opt_loss": 6520.790115792411, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1160.7142857142858, "train/policy_entropy_mag": 2.4054198571613856, "train/policy_entropy_max": 2.4054198571613856, "train/policy_entropy_mean": 0.4604668110609055, "train/policy_entropy_min": 0.07937508310590471, "train/policy_entropy_std": 0.49122556533132283, "train/policy_logprob_mag": 7.438383429391044, "train/policy_logprob_max": -0.009455676150641272, "train/policy_logprob_mean": -0.4603400009019034, "train/policy_logprob_min": -7.438383429391044, "train/policy_logprob_std": 1.0466568120888302, "train/policy_randomness_mag": 0.8490076473781041, "train/policy_randomness_max": 0.8490076473781041, "train/policy_randomness_mean": 0.1625245771237782, "train/policy_randomness_min": 0.028015920998794692, "train/policy_randomness_std": 0.17338106845106396, "train/post_ent_mag": 40.49077001299177, "train/post_ent_max": 40.49077001299177, "train/post_ent_mean": 26.17089764731271, "train/post_ent_min": 13.714825044359479, "train/post_ent_std": 4.540813302993774, "train/prior_ent_mag": 70.63769956316267, "train/prior_ent_max": 70.63769956316267, "train/prior_ent_mean": 30.07938344138009, "train/prior_ent_min": 15.158186721801759, "train/prior_ent_std": 8.648508569172451, "train/rep_loss_mean": 3.712741133144924, "train/rep_loss_std": 7.690441751480103, "train/reward_avg": 0.019275948591530322, "train/reward_loss_mean": 0.03855368710522141, "train/reward_loss_std": 0.1763086013495922, "train/reward_max_data": 1.0042857153075082, "train/reward_max_pred": 1.004422163963318, "train/reward_neg_acc": 0.995685864346368, "train/reward_neg_loss": 0.0209174756093749, "train/reward_pos_acc": 0.9835595275674548, "train/reward_pos_loss": 0.7474011983190264, "train/reward_pred": 0.019003369858754532, "train/reward_rate": 0.024428013392857145, "stats/sum_log_reward": 3.766666677263048, "stats/max_log_achievement_collect_drink": 1.0, "stats/max_log_achievement_collect_sapling": 2.5555555555555554, "stats/max_log_achievement_collect_wood": 2.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.2222222222222222, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_table": 0.7777777777777778, "stats/max_log_achievement_wake_up": 1.4444444444444444, "stats/mean_log_entropy": 0.3567182719707489, "replay/size": 48248.0, "replay/inserts": 1410.0, "replay/samples": 11280.0, "replay/insert_wait_avg": 4.014055779639711e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2375784258470467e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3591637611389, "timer/env.step_count": 1410.0, "timer/env.step_total": 23.581308841705322, "timer/env.step_frac": 0.07851036920737466, "timer/env.step_avg": 0.016724332511847746, "timer/env.step_min": 0.0029299259185791016, "timer/env.step_max": 1.968437671661377, "timer/replay.add_count": 1410.0, "timer/replay.add_total": 0.3251533508300781, "timer/replay.add_frac": 0.0010825484621759596, "timer/replay.add_avg": 0.00023060521335466533, "timer/replay.add_min": 8.225440979003906e-05, "timer/replay.add_max": 0.00399470329284668, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02944636344909668, "timer/logger.write_frac": 9.803717349710677e-05, "timer/logger.write_avg": 0.02944636344909668, "timer/logger.write_min": 0.02944636344909668, "timer/logger.write_max": 0.02944636344909668, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1410.0, "timer/agent.policy_total": 11.728461027145386, "timer/agent.policy_frac": 0.0390481211902443, "timer/agent.policy_avg": 0.008318057466060557, "timer/agent.policy_min": 0.005647897720336914, "timer/agent.policy_max": 0.6603264808654785, "timer/dataset_count": 705.0, "timer/dataset_total": 0.065765380859375, "timer/dataset_frac": 0.00021895579956959468, "timer/dataset_avg": 9.328422816932624e-05, "timer/dataset_min": 6.651878356933594e-05, "timer/dataset_max": 0.0009713172912597656, "timer/agent.train_count": 705.0, "timer/agent.train_total": 263.91296315193176, "timer/agent.train_frac": 0.8786579368752303, "timer/agent.train_avg": 0.3743446285843004, "timer/agent.train_min": 0.366349458694458, "timer/agent.train_max": 1.0898914337158203, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.219085693359375, "timer/agent.report_frac": 0.0007294123828817264, "timer/agent.report_avg": 0.219085693359375, "timer/agent.report_min": 0.219085693359375, "timer/agent.report_max": 0.219085693359375, "fps": 4.694314750743817}
{"step": 48360, "episode/length": 234.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.700000025331974, "episode/reward_rate": 0.01276595744680851}
{"step": 48537, "episode/length": 176.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.022598870056497175}
{"step": 48695, "episode/length": 157.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 4.899999991059303, "episode/reward_rate": 0.03164556962025317}
{"step": 48849, "episode/length": 153.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.3000000193715096, "episode/reward_rate": 0.03896103896103896}
{"step": 49076, "episode/length": 226.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.02643171806167401}
{"step": 49250, "episode/length": 173.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.034482758620689655}
{"step": 49483, "episode/length": 232.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.900000028312206, "episode/reward_rate": 0.02575107296137339}
{"step": 49683, "episode/length": 199.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.0999999940395355, "episode/reward_rate": 0.035}
{"step": 49747, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.705613878038195, "train/action_min": 0.0, "train/action_std": 3.5587562786208258, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03840262127212352, "train/actor_opt_grad_steps": 23965.0, "train/actor_opt_loss": -10.065330407892665, "train/adv_mag": 0.8217100898424784, "train/adv_max": 0.7557941579984294, "train/adv_mean": 0.003745475980142348, "train/adv_min": -0.6067020694414774, "train/adv_std": 0.0564275824257897, "train/cont_avg": 0.9942762586805556, "train/cont_loss_mean": 0.00016658700441338523, "train/cont_loss_std": 0.005010468942297545, "train/cont_neg_acc": 0.9929232820868492, "train/cont_neg_loss": 0.015437515707219518, "train/cont_pos_acc": 0.9999726530578401, "train/cont_pos_loss": 7.75557804202107e-05, "train/cont_pred": 0.9942771188086934, "train/cont_rate": 0.9942762586805556, "train/dyn_loss_mean": 3.962734411160151, "train/dyn_loss_std": 7.803123831748962, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.2517039676507313, "train/extr_critic_critic_opt_grad_steps": 23965.0, "train/extr_critic_critic_opt_loss": 15695.1826171875, "train/extr_critic_mag": 9.045381234751808, "train/extr_critic_max": 9.045381234751808, "train/extr_critic_mean": 1.3270710988177195, "train/extr_critic_min": -0.6006424162122939, "train/extr_critic_std": 1.8394213020801544, "train/extr_return_normed_mag": 1.8920624686612024, "train/extr_return_normed_max": 1.8920624686612024, "train/extr_return_normed_mean": 0.32153187402420574, "train/extr_return_normed_min": -0.15339816537582213, "train/extr_return_normed_std": 0.36072175784243476, "train/extr_return_rate": 0.5254638931817479, "train/extr_return_raw_mag": 9.596437950929007, "train/extr_return_raw_max": 9.596437950929007, "train/extr_return_raw_mean": 1.3463359574476879, "train/extr_return_raw_min": -1.1304339832729764, "train/extr_return_raw_std": 1.8911493089463975, "train/extr_reward_mag": 1.0145256088839636, "train/extr_reward_max": 1.0145256088839636, "train/extr_reward_mean": 0.023768535970399778, "train/extr_reward_min": -0.6651666180955039, "train/extr_reward_std": 0.15867095906287432, "train/image_loss_mean": 3.585963934659958, "train/image_loss_std": 8.025124510129293, "train/model_loss_mean": 6.001769728130764, "train/model_loss_std": 11.676847616831461, "train/model_opt_grad_norm": 47.896679136488174, "train/model_opt_grad_steps": 23942.51388888889, "train/model_opt_loss": 7444.8003336588545, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1267.361111111111, "train/policy_entropy_mag": 2.3877856698301105, "train/policy_entropy_max": 2.3877856698301105, "train/policy_entropy_mean": 0.4706792388525274, "train/policy_entropy_min": 0.07937507859120767, "train/policy_entropy_std": 0.500262705816163, "train/policy_logprob_mag": 7.438383513026768, "train/policy_logprob_max": -0.009455678919847641, "train/policy_logprob_mean": -0.4702111706137657, "train/policy_logprob_min": -7.438383513026768, "train/policy_logprob_std": 1.0513222101661894, "train/policy_randomness_mag": 0.8427835586998198, "train/policy_randomness_max": 0.8427835586998198, "train/policy_randomness_mean": 0.16612911596894264, "train/policy_randomness_min": 0.028015919391893677, "train/policy_randomness_std": 0.17657078223096, "train/post_ent_mag": 40.76787625418769, "train/post_ent_max": 40.76787625418769, "train/post_ent_mean": 26.473476065529717, "train/post_ent_min": 14.218888521194458, "train/post_ent_std": 4.547653237978618, "train/prior_ent_mag": 70.79314698113336, "train/prior_ent_max": 70.79314698113336, "train/prior_ent_mean": 30.458247396681045, "train/prior_ent_min": 15.596348894966972, "train/prior_ent_std": 8.667395631472269, "train/rep_loss_mean": 3.962734411160151, "train/rep_loss_std": 7.803123831748962, "train/reward_avg": 0.018353949546710484, "train/reward_loss_mean": 0.03799853341964384, "train/reward_loss_std": 0.17664972972124815, "train/reward_max_data": 1.008333335320155, "train/reward_max_pred": 1.0071939428647358, "train/reward_neg_acc": 0.9953182877765762, "train/reward_neg_loss": 0.020897483608374994, "train/reward_pos_acc": 0.9829265773296356, "train/reward_pos_loss": 0.7479138788249757, "train/reward_pred": 0.018179160672136478, "train/reward_rate": 0.023640950520833332, "stats/sum_log_reward": 4.224999904632568, "stats/max_log_achievement_collect_drink": 7.0, "stats/max_log_achievement_collect_sapling": 2.375, "stats/max_log_achievement_collect_wood": 2.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.875, "stats/max_log_achievement_place_table": 1.0, "stats/max_log_achievement_wake_up": 2.375, "stats/mean_log_entropy": 0.44526394829154015, "replay/size": 49684.0, "replay/inserts": 1436.0, "replay/samples": 11488.0, "replay/insert_wait_avg": 3.870483228423137e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2186161322846053e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.27073669433594, "timer/env.step_count": 1436.0, "timer/env.step_total": 20.01907706260681, "timer/env.step_frac": 0.06667009007602849, "timer/env.step_avg": 0.013940861464210872, "timer/env.step_min": 0.0028710365295410156, "timer/env.step_max": 1.7053520679473877, "timer/replay.add_count": 1436.0, "timer/replay.add_total": 0.3124701976776123, "timer/replay.add_frac": 0.0010406282047913812, "timer/replay.add_avg": 0.00021759763069471608, "timer/replay.add_min": 7.748603820800781e-05, "timer/replay.add_max": 0.004434823989868164, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027209997177124023, "timer/logger.write_frac": 9.061821167349635e-05, "timer/logger.write_avg": 0.027209997177124023, "timer/logger.write_min": 0.027209997177124023, "timer/logger.write_max": 0.027209997177124023, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1436.0, "timer/agent.policy_total": 11.153664112091064, "timer/agent.policy_frac": 0.03714535833521821, "timer/agent.policy_avg": 0.007767175565523025, "timer/agent.policy_min": 0.005661725997924805, "timer/agent.policy_max": 0.019740581512451172, "timer/dataset_count": 718.0, "timer/dataset_total": 0.06486296653747559, "timer/dataset_frac": 0.00021601494455153515, "timer/dataset_avg": 9.03383935062334e-05, "timer/dataset_min": 6.4849853515625e-05, "timer/dataset_max": 0.00014162063598632812, "timer/agent.train_count": 718.0, "timer/agent.train_total": 267.9713714122772, "timer/agent.train_frac": 0.8924325239360963, "timer/agent.train_avg": 0.37321918023994044, "timer/agent.train_min": 0.3629448413848877, "timer/agent.train_max": 0.38914918899536133, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22234678268432617, "timer/agent.report_frac": 0.0007404876849876538, "timer/agent.report_avg": 0.22234678268432617, "timer/agent.report_min": 0.22234678268432617, "timer/agent.report_max": 0.22234678268432617, "fps": 4.7822476990277405}
{"step": 49869, "episode/length": 185.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03225806451612903}
{"step": 50147, "episode/length": 277.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.02158273381294964}
{"step": 50288, "episode/length": 140.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 4.899999991059303, "episode/reward_rate": 0.03546099290780142}
{"step": 50436, "episode/length": 147.0, "episode/score": 5.099999971687794, "episode/sum_abs_reward": 7.1000000312924385, "episode/reward_rate": 0.0472972972972973}
{"step": 50587, "episode/length": 150.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.039735099337748346}
{"step": 50761, "episode/length": 173.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.040229885057471264}
{"step": 50902, "episode/length": 140.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 6.0999999940395355, "episode/reward_rate": 0.0425531914893617}
{"step": 51065, "episode/length": 162.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.3000000193715096, "episode/reward_rate": 0.03680981595092025}
{"step": 51189, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.630344814724392, "train/action_min": 0.0, "train/action_std": 3.40999734070566, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04167996672913432, "train/actor_opt_grad_steps": 24685.0, "train/actor_opt_loss": -12.779398309687773, "train/adv_mag": 0.7717620639337434, "train/adv_max": 0.7359682408471903, "train/adv_mean": 0.002738160688548103, "train/adv_min": -0.597293094628387, "train/adv_std": 0.06023642643251353, "train/cont_avg": 0.9939914279513888, "train/cont_loss_mean": 4.911518101696149e-05, "train/cont_loss_std": 0.0013845520057426735, "train/cont_neg_acc": 0.9980158739619784, "train/cont_neg_loss": 0.0042763185433993085, "train/cont_pos_acc": 0.999999980131785, "train/cont_pos_loss": 2.626007551577282e-05, "train/cont_pred": 0.9939864186777009, "train/cont_rate": 0.9939914279513888, "train/dyn_loss_mean": 4.1520834267139435, "train/dyn_loss_std": 7.964350455337101, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.2351997834112909, "train/extr_critic_critic_opt_grad_steps": 24685.0, "train/extr_critic_critic_opt_loss": 15478.023342556424, "train/extr_critic_mag": 8.130385405487484, "train/extr_critic_max": 8.130385405487484, "train/extr_critic_mean": 1.270948717991511, "train/extr_critic_min": -0.598359121216668, "train/extr_critic_std": 1.6698272956742182, "train/extr_return_normed_mag": 1.7484292371405497, "train/extr_return_normed_max": 1.7484292371405497, "train/extr_return_normed_mean": 0.3151535871956084, "train/extr_return_normed_min": -0.15626382093048757, "train/extr_return_normed_std": 0.3379313906447755, "train/extr_return_rate": 0.5270761243171163, "train/extr_return_raw_mag": 8.482242902119955, "train/extr_return_raw_max": 8.482242902119955, "train/extr_return_raw_mean": 1.284770632783572, "train/extr_return_raw_min": -1.0828037667605612, "train/extr_return_raw_std": 1.6973661581675212, "train/extr_reward_mag": 1.0198954840501149, "train/extr_reward_max": 1.0198954840501149, "train/extr_reward_mean": 0.022636783425696194, "train/extr_reward_min": -0.6701670587062836, "train/extr_reward_std": 0.15493774155361784, "train/image_loss_mean": 3.914786752727297, "train/image_loss_std": 8.804231743017832, "train/model_loss_mean": 6.445402979850769, "train/model_loss_std": 12.475337074862587, "train/model_opt_grad_norm": 50.05941099590726, "train/model_opt_grad_steps": 24661.0, "train/model_opt_loss": 4028.3768683539497, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 625.0, "train/policy_entropy_mag": 2.397289792696635, "train/policy_entropy_max": 2.397289792696635, "train/policy_entropy_mean": 0.45823734253644943, "train/policy_entropy_min": 0.0793750604821576, "train/policy_entropy_std": 0.49209441989660263, "train/policy_logprob_mag": 7.438383440176646, "train/policy_logprob_max": -0.009455667420600852, "train/policy_logprob_mean": -0.4589610339866744, "train/policy_logprob_min": -7.438383440176646, "train/policy_logprob_std": 1.0487911875049274, "train/policy_randomness_mag": 0.846138097345829, "train/policy_randomness_max": 0.846138097345829, "train/policy_randomness_mean": 0.1617376735020015, "train/policy_randomness_min": 0.028015913053726155, "train/policy_randomness_std": 0.17368773536549675, "train/post_ent_mag": 41.61366860071818, "train/post_ent_max": 41.61366860071818, "train/post_ent_mean": 26.628155125512016, "train/post_ent_min": 14.380392471949259, "train/post_ent_std": 4.598641862471898, "train/prior_ent_mag": 70.97504032982721, "train/prior_ent_max": 70.97504032982721, "train/prior_ent_mean": 30.788826280170017, "train/prior_ent_min": 15.73981565899319, "train/prior_ent_std": 8.780188381671906, "train/rep_loss_mean": 4.1520834267139435, "train/rep_loss_std": 7.964350455337101, "train/reward_avg": 0.017843966825037368, "train/reward_loss_mean": 0.03931703265859849, "train/reward_loss_std": 0.19276763095209995, "train/reward_max_data": 1.0097222245401807, "train/reward_max_pred": 1.0108502440982394, "train/reward_neg_acc": 0.9959161248472002, "train/reward_neg_loss": 0.022237040994999308, "train/reward_pos_acc": 0.981795399553246, "train/reward_pos_loss": 0.7558428405059708, "train/reward_pred": 0.01773512911879354, "train/reward_rate": 0.023274739583333332, "stats/sum_log_reward": 4.599999904632568, "stats/max_log_achievement_collect_drink": 4.875, "stats/max_log_achievement_collect_sapling": 2.125, "stats/max_log_achievement_collect_wood": 3.125, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_table": 1.25, "stats/max_log_achievement_wake_up": 2.25, "stats/mean_log_entropy": 0.37413719668984413, "replay/size": 51126.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.6457209911161258e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2738116075195652e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.32861042022705, "timer/env.step_count": 1442.0, "timer/env.step_total": 20.14737892150879, "timer/env.step_frac": 0.0670844475766664, "timer/env.step_avg": 0.013971830042655193, "timer/env.step_min": 0.0031058788299560547, "timer/env.step_max": 1.7743630409240723, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.2613189220428467, "timer/replay.add_frac": 0.0008701099827858656, "timer/replay.add_avg": 0.0001812197795026676, "timer/replay.add_min": 7.486343383789062e-05, "timer/replay.add_max": 0.0024099349975585938, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028059720993041992, "timer/logger.write_frac": 9.343006300258957e-05, "timer/logger.write_avg": 0.028059720993041992, "timer/logger.write_min": 0.028059720993041992, "timer/logger.write_max": 0.028059720993041992, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 10.527647256851196, "timer/agent.policy_frac": 0.035053760752665745, "timer/agent.policy_avg": 0.007300726253017473, "timer/agent.policy_min": 0.005541086196899414, "timer/agent.policy_max": 0.017486572265625, "timer/dataset_count": 721.0, "timer/dataset_total": 0.06295108795166016, "timer/dataset_frac": 0.00020960736262714855, "timer/dataset_avg": 8.731080159730952e-05, "timer/dataset_min": 6.079673767089844e-05, "timer/dataset_max": 0.00019407272338867188, "timer/agent.train_count": 721.0, "timer/agent.train_total": 268.5978081226349, "timer/agent.train_frac": 0.8943463886001615, "timer/agent.train_avg": 0.3725351014183563, "timer/agent.train_min": 0.3650782108306885, "timer/agent.train_max": 0.38672518730163574, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21876120567321777, "timer/agent.report_frac": 0.0007284061460781969, "timer/agent.report_avg": 0.21876120567321777, "timer/agent.report_min": 0.21876120567321777, "timer/agent.report_max": 0.21876120567321777, "fps": 4.801337903657604}
{"step": 51274, "episode/length": 208.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 5.0999999940395355, "episode/reward_rate": 0.023923444976076555}
{"step": 51447, "episode/length": 172.0, "episode/score": 4.100000001490116, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.03468208092485549}
{"step": 51591, "episode/length": 143.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.041666666666666664}
{"step": 51707, "episode/length": 115.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.500000022351742, "episode/reward_rate": 0.04310344827586207}
{"step": 51877, "episode/length": 169.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.30000001937151, "episode/reward_rate": 0.041176470588235294}
{"step": 52096, "episode/length": 218.0, "episode/score": 4.100000001490116, "episode/sum_abs_reward": 5.700000025331974, "episode/reward_rate": 0.0228310502283105}
{"step": 52296, "episode/length": 199.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.02}
{"step": 52474, "episode/length": 177.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.028089887640449437}
{"step": 52605, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.760374257262324, "train/action_min": 0.0, "train/action_std": 3.5074307482007523, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04106956838407147, "train/actor_opt_grad_steps": 25400.0, "train/actor_opt_loss": -13.65962747557902, "train/adv_mag": 0.9417446154943654, "train/adv_max": 0.8430719077587128, "train/adv_mean": 0.002771130264334997, "train/adv_min": -0.6763493758691869, "train/adv_std": 0.06001586655915623, "train/cont_avg": 0.9942369058098591, "train/cont_loss_mean": 4.157440456714232e-05, "train/cont_loss_std": 0.001292727088592131, "train/cont_neg_acc": 0.9982394366197183, "train/cont_neg_loss": 0.004827309774068261, "train/cont_pos_acc": 0.9999999865679674, "train/cont_pos_loss": 4.208338669392285e-06, "train/cont_pred": 0.9942467145516839, "train/cont_rate": 0.9942369058098591, "train/dyn_loss_mean": 4.134955399472949, "train/dyn_loss_std": 8.007119890669701, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.2263224779720037, "train/extr_critic_critic_opt_grad_steps": 25400.0, "train/extr_critic_critic_opt_loss": 15088.503589898768, "train/extr_critic_mag": 9.003558420799148, "train/extr_critic_max": 9.003558420799148, "train/extr_critic_mean": 1.3078155509183105, "train/extr_critic_min": -0.5327519211970585, "train/extr_critic_std": 1.6666365593252048, "train/extr_return_normed_mag": 1.9273459474805374, "train/extr_return_normed_max": 1.9273459474805374, "train/extr_return_normed_mean": 0.3183464422612123, "train/extr_return_normed_min": -0.15617811616877436, "train/extr_return_normed_std": 0.3411747168906977, "train/extr_return_rate": 0.5309648526386476, "train/extr_return_raw_mag": 9.342185933824997, "train/extr_return_raw_max": 9.342185933824997, "train/extr_return_raw_mean": 1.3216163860240453, "train/extr_return_raw_min": -1.047350828916254, "train/extr_return_raw_std": 1.703292858432716, "train/extr_reward_mag": 1.0124096668941873, "train/extr_reward_max": 1.0124096668941873, "train/extr_reward_mean": 0.023719545361966316, "train/extr_reward_min": -0.6783348758455733, "train/extr_reward_std": 0.15716884306199114, "train/image_loss_mean": 3.8148532551778875, "train/image_loss_std": 9.049398220760722, "train/model_loss_mean": 6.3354930407564405, "train/model_loss_std": 12.698909672213272, "train/model_opt_grad_norm": 45.84288970517441, "train/model_opt_grad_steps": 25375.549295774646, "train/model_opt_loss": 5146.787824603874, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 792.2535211267606, "train/policy_entropy_mag": 2.4179250757459183, "train/policy_entropy_max": 2.4179250757459183, "train/policy_entropy_mean": 0.48721807985238624, "train/policy_entropy_min": 0.07937505274591311, "train/policy_entropy_std": 0.5175629321118476, "train/policy_logprob_mag": 7.438383444933824, "train/policy_logprob_max": -0.00945566422765104, "train/policy_logprob_mean": -0.48760146658185505, "train/policy_logprob_min": -7.438383444933824, "train/policy_logprob_std": 1.067042370917092, "train/policy_randomness_mag": 0.8534214437847406, "train/policy_randomness_max": 0.8534214437847406, "train/policy_randomness_mean": 0.17196660121561777, "train/policy_randomness_min": 0.028015910241175706, "train/policy_randomness_std": 0.1826770028597872, "train/post_ent_mag": 41.59247814769476, "train/post_ent_max": 41.59247814769476, "train/post_ent_mean": 26.76532283299406, "train/post_ent_min": 14.539622024751045, "train/post_ent_std": 4.562191274804129, "train/prior_ent_mag": 71.08348889418052, "train/prior_ent_max": 71.08348889418052, "train/prior_ent_mean": 30.90654013190471, "train/prior_ent_min": 16.038615737162846, "train/prior_ent_std": 8.820845019649452, "train/rep_loss_mean": 4.134955399472949, "train/rep_loss_std": 8.007119890669701, "train/reward_avg": 0.01899482822045684, "train/reward_loss_mean": 0.03962501206658256, "train/reward_loss_std": 0.18898430592577223, "train/reward_max_data": 1.0042253531200784, "train/reward_max_pred": 1.0051375157396558, "train/reward_neg_acc": 0.9957566076601055, "train/reward_neg_loss": 0.021746591035224184, "train/reward_pos_acc": 0.9813230893981288, "train/reward_pos_loss": 0.7614386543421678, "train/reward_pred": 0.018758161491911177, "train/reward_rate": 0.02422150088028169, "stats/sum_log_reward": 4.224999964237213, "stats/max_log_achievement_collect_drink": 3.75, "stats/max_log_achievement_collect_sapling": 1.75, "stats/max_log_achievement_collect_wood": 3.125, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.125, "stats/max_log_achievement_place_plant": 1.125, "stats/max_log_achievement_place_table": 1.25, "stats/max_log_achievement_wake_up": 2.375, "stats/mean_log_entropy": 0.38745033740997314, "replay/size": 52542.0, "replay/inserts": 1416.0, "replay/samples": 11328.0, "replay/insert_wait_avg": 3.754250747335833e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2468778144168315e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0409870147705, "timer/env.step_count": 1416.0, "timer/env.step_total": 20.334624767303467, "timer/env.step_frac": 0.0677728232053257, "timer/env.step_avg": 0.014360610711372505, "timer/env.step_min": 0.0028924942016601562, "timer/env.step_max": 1.6953341960906982, "timer/replay.add_count": 1416.0, "timer/replay.add_total": 0.2590348720550537, "timer/replay.add_frac": 0.0008633316222303384, "timer/replay.add_avg": 0.0001829342316772978, "timer/replay.add_min": 6.914138793945312e-05, "timer/replay.add_max": 0.006985664367675781, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026577234268188477, "timer/logger.write_frac": 8.857867897521656e-05, "timer/logger.write_avg": 0.026577234268188477, "timer/logger.write_min": 0.026577234268188477, "timer/logger.write_max": 0.026577234268188477, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.009807109832763672, "timer/checkpoint.save_frac": 3.268590045093034e-05, "timer/checkpoint.save_avg": 0.009807109832763672, "timer/checkpoint.save_min": 0.009807109832763672, "timer/checkpoint.save_max": 0.009807109832763672, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4629521369934082, "timer/agent.save_frac": 0.004875840969425252, "timer/agent.save_avg": 1.4629521369934082, "timer/agent.save_min": 1.4629521369934082, "timer/agent.save_max": 1.4629521369934082, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.152557373046875e-06, "timer/replay.save_frac": 2.3838600999851952e-08, "timer/replay.save_avg": 7.152557373046875e-06, "timer/replay.save_min": 7.152557373046875e-06, "timer/replay.save_max": 7.152557373046875e-06, "timer/agent.policy_count": 1416.0, "timer/agent.policy_total": 14.85914659500122, "timer/agent.policy_frac": 0.049523722551511704, "timer/agent.policy_avg": 0.010493747595339845, "timer/agent.policy_min": 0.005654335021972656, "timer/agent.policy_max": 3.160658597946167, "timer/dataset_count": 708.0, "timer/dataset_total": 0.06105637550354004, "timer/dataset_frac": 0.00020349344971503622, "timer/dataset_avg": 8.623781850782491e-05, "timer/dataset_min": 6.580352783203125e-05, "timer/dataset_max": 0.0001652240753173828, "timer/agent.train_count": 708.0, "timer/agent.train_total": 263.79209899902344, "timer/agent.train_frac": 0.8791868791780685, "timer/agent.train_avg": 0.3725877104505981, "timer/agent.train_min": 0.36678361892700195, "timer/agent.train_max": 0.4182147979736328, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22029662132263184, "timer/agent.report_frac": 0.0007342217592151402, "timer/agent.report_avg": 0.22029662132263184, "timer/agent.report_min": 0.22029662132263184, "timer/agent.report_max": 0.22029662132263184, "fps": 4.7192737150856825}
{"step": 52612, "episode/length": 137.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.900000028312206, "episode/reward_rate": 0.028985507246376812}
{"step": 53012, "episode/length": 399.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 8.500000037252903, "episode/reward_rate": 0.015}
{"step": 53164, "episode/length": 151.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.039473684210526314}
{"step": 53325, "episode/length": 160.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.700000025331974, "episode/reward_rate": 0.031055900621118012}
{"step": 53492, "episode/length": 166.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03592814371257485}
{"step": 53670, "episode/length": 177.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.03932584269662921}
{"step": 53897, "episode/length": 226.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.299999997019768, "episode/reward_rate": 0.030837004405286344}
{"step": 54055, "stats/sum_log_reward": 4.671428510120937, "stats/max_log_achievement_collect_drink": 2.2857142857142856, "stats/max_log_achievement_collect_sapling": 2.857142857142857, "stats/max_log_achievement_collect_wood": 3.142857142857143, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.42857142857142855, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 2.4285714285714284, "stats/max_log_achievement_place_table": 1.2857142857142858, "stats/max_log_achievement_wake_up": 3.142857142857143, "stats/mean_log_entropy": 0.4898527903216226, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.699890984429254, "train/action_min": 0.0, "train/action_std": 3.350625412331687, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03902039733818836, "train/actor_opt_grad_steps": 26115.0, "train/actor_opt_loss": -13.682618382904264, "train/adv_mag": 0.8948859903547499, "train/adv_max": 0.8103009975618787, "train/adv_mean": 0.0025931020025180057, "train/adv_min": -0.5897884155727096, "train/adv_std": 0.05747993854391906, "train/cont_avg": 0.9939371744791666, "train/cont_loss_mean": 2.868797950602205e-05, "train/cont_loss_std": 0.0007757340318532454, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0009983605503154852, "train/cont_pos_acc": 0.9999863803386688, "train/cont_pos_loss": 2.1407782654531753e-05, "train/cont_pred": 0.9939269150296847, "train/cont_rate": 0.9939371744791666, "train/dyn_loss_mean": 4.169657472107145, "train/dyn_loss_std": 7.995698670546214, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1564231697056029, "train/extr_critic_critic_opt_grad_steps": 26115.0, "train/extr_critic_critic_opt_loss": 14922.930840386285, "train/extr_critic_mag": 8.6938645641009, "train/extr_critic_max": 8.6938645641009, "train/extr_critic_mean": 1.2764522035916646, "train/extr_critic_min": -0.5262006488111284, "train/extr_critic_std": 1.6473735835817125, "train/extr_return_normed_mag": 1.8494724366399977, "train/extr_return_normed_max": 1.8494724366399977, "train/extr_return_normed_mean": 0.3068991764965985, "train/extr_return_normed_min": -0.14872516360547808, "train/extr_return_normed_std": 0.3361747446987364, "train/extr_return_rate": 0.5163131393492222, "train/extr_return_raw_mag": 9.033441874716017, "train/extr_return_raw_max": 9.033441874716017, "train/extr_return_raw_mean": 1.2893841067949932, "train/extr_return_raw_min": -0.9939465415146616, "train/extr_return_raw_std": 1.6875251597828336, "train/extr_reward_mag": 1.012205421924591, "train/extr_reward_max": 1.012205421924591, "train/extr_reward_mean": 0.024315130702840786, "train/extr_reward_min": -0.6681165877315733, "train/extr_reward_std": 0.15846765651885006, "train/image_loss_mean": 3.725388662682639, "train/image_loss_std": 8.161429180039299, "train/model_loss_mean": 6.267982105414073, "train/model_loss_std": 11.877085116174486, "train/model_opt_grad_norm": 54.98972196049161, "train/model_opt_grad_steps": 26090.0, "train/model_opt_loss": 4128.974782307942, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 659.7222222222222, "train/policy_entropy_mag": 2.425550126367145, "train/policy_entropy_max": 2.425550126367145, "train/policy_entropy_mean": 0.4932412351999018, "train/policy_entropy_min": 0.07937504278702869, "train/policy_entropy_std": 0.5297180749475956, "train/policy_logprob_mag": 7.438383546140459, "train/policy_logprob_max": -0.009455660849602686, "train/policy_logprob_mean": -0.49298059567809105, "train/policy_logprob_min": -7.438383546140459, "train/policy_logprob_std": 1.0725326620870166, "train/policy_randomness_mag": 0.8561127541793717, "train/policy_randomness_max": 0.8561127541793717, "train/policy_randomness_mean": 0.1740925090594424, "train/policy_randomness_min": 0.028015906741428707, "train/policy_randomness_std": 0.1869672340237432, "train/post_ent_mag": 41.43814812766181, "train/post_ent_max": 41.43814812766181, "train/post_ent_mean": 26.90090298652649, "train/post_ent_min": 14.942006164126926, "train/post_ent_std": 4.496548626157972, "train/prior_ent_mag": 71.26162401835124, "train/prior_ent_max": 71.26162401835124, "train/prior_ent_mean": 31.052150540881687, "train/prior_ent_min": 16.519419259495205, "train/prior_ent_std": 8.759898444016775, "train/rep_loss_mean": 4.169657472107145, "train/rep_loss_std": 7.995698670546214, "train/reward_avg": 0.019421386474277824, "train/reward_loss_mean": 0.04077024310309854, "train/reward_loss_std": 0.19188971569140753, "train/reward_max_data": 1.0041666676600773, "train/reward_max_pred": 1.0062181717819638, "train/reward_neg_acc": 0.995454327099853, "train/reward_neg_loss": 0.022973939737615485, "train/reward_pos_acc": 0.9843892165356212, "train/reward_pos_loss": 0.7427255602346526, "train/reward_pred": 0.019254084501881152, "train/reward_rate": 0.024888780381944444, "replay/size": 53992.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.7347859349744075e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2921464854273303e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.23246335983276, "timer/env.step_count": 1450.0, "timer/env.step_total": 18.43526005744934, "timer/env.step_frac": 0.06140328681030881, "timer/env.step_avg": 0.012713972453413339, "timer/env.step_min": 0.0027556419372558594, "timer/env.step_max": 1.7109243869781494, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.26930952072143555, "timer/replay.add_frac": 0.0008970033343751516, "timer/replay.add_avg": 0.00018573070394581762, "timer/replay.add_min": 7.43865966796875e-05, "timer/replay.add_max": 0.008097171783447266, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02208399772644043, "timer/logger.write_frac": 7.355632858386953e-05, "timer/logger.write_avg": 0.02208399772644043, "timer/logger.write_min": 0.02208399772644043, "timer/logger.write_max": 0.02208399772644043, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 10.58178448677063, "timer/agent.policy_frac": 0.03524530414983211, "timer/agent.policy_avg": 0.0072977824046694, "timer/agent.policy_min": 0.005597114562988281, "timer/agent.policy_max": 0.016936302185058594, "timer/dataset_count": 725.0, "timer/dataset_total": 0.06335616111755371, "timer/dataset_frac": 0.00021102368614156315, "timer/dataset_avg": 8.738780843800512e-05, "timer/dataset_min": 5.91278076171875e-05, "timer/dataset_max": 0.0002048015594482422, "timer/agent.train_count": 725.0, "timer/agent.train_total": 270.16187477111816, "timer/agent.train_frac": 0.8998423146777617, "timer/agent.train_avg": 0.37263706864981816, "timer/agent.train_min": 0.36531996726989746, "timer/agent.train_max": 0.38477063179016113, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21677160263061523, "timer/agent.report_frac": 0.000722012537234561, "timer/agent.report_avg": 0.21677160263061523, "timer/agent.report_min": 0.21677160263061523, "timer/agent.report_max": 0.21677160263061523, "fps": 4.8295387662439975}
{"step": 54087, "episode/length": 189.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.03684210526315789}
{"step": 54266, "episode/length": 178.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.0999999940395355, "episode/reward_rate": 0.03910614525139665}
{"step": 54698, "episode/length": 431.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.011574074074074073}
{"step": 54891, "episode/length": 192.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.025906735751295335}
{"step": 55331, "episode/length": 439.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.013636363636363636}
{"step": 55521, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.885799098659206, "train/action_min": 0.0, "train/action_std": 3.530139475255399, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04023706452367273, "train/actor_opt_grad_steps": 26845.0, "train/actor_opt_loss": -16.821828447886414, "train/adv_mag": 0.8333180341366175, "train/adv_max": 0.770560011267662, "train/adv_mean": 0.0017130802817346932, "train/adv_min": -0.5935302759344513, "train/adv_std": 0.05667166275953924, "train/cont_avg": 0.994114231418919, "train/cont_loss_mean": 0.00031000754316631027, "train/cont_loss_std": 0.009580888032823432, "train/cont_neg_acc": 0.9969969971759899, "train/cont_neg_loss": 0.023417755135762885, "train/cont_pos_acc": 0.9999866960821925, "train/cont_pos_loss": 0.00011125448834932101, "train/cont_pred": 0.9941203803629488, "train/cont_rate": 0.994114231418919, "train/dyn_loss_mean": 4.088619151630917, "train/dyn_loss_std": 7.859808464308043, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.115669332646035, "train/extr_critic_critic_opt_grad_steps": 26845.0, "train/extr_critic_critic_opt_loss": 14838.111354518582, "train/extr_critic_mag": 8.661604694418005, "train/extr_critic_max": 8.661604694418005, "train/extr_critic_mean": 1.2885559084447655, "train/extr_critic_min": -0.5696490874161592, "train/extr_critic_std": 1.7280209692748818, "train/extr_return_normed_mag": 1.821451630141284, "train/extr_return_normed_max": 1.821451630141284, "train/extr_return_normed_mean": 0.30952294110446366, "train/extr_return_normed_min": -0.14458987670573029, "train/extr_return_normed_std": 0.3489084632412807, "train/extr_return_rate": 0.4966401232255472, "train/extr_return_raw_mag": 8.905904769897461, "train/extr_return_raw_max": 8.905904769897461, "train/extr_return_raw_mean": 1.2971055974831451, "train/extr_return_raw_min": -0.9889049876380611, "train/extr_return_raw_std": 1.756492321555679, "train/extr_reward_mag": 1.0129500949704968, "train/extr_reward_max": 1.0129500949704968, "train/extr_reward_mean": 0.024594085190344502, "train/extr_reward_min": -0.6723608680673547, "train/extr_reward_std": 0.159751352023434, "train/image_loss_mean": 3.7694211392789274, "train/image_loss_std": 8.339503423587695, "train/model_loss_mean": 6.263906195357039, "train/model_loss_std": 11.986627494966662, "train/model_opt_grad_norm": 46.42696643520046, "train/model_opt_grad_steps": 26820.0, "train/model_opt_loss": 7829.88270032728, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.4344497596895374, "train/policy_entropy_max": 2.4344497596895374, "train/policy_entropy_mean": 0.5249128893420503, "train/policy_entropy_min": 0.07937505639888146, "train/policy_entropy_std": 0.5472636210757333, "train/policy_logprob_mag": 7.4383835856978955, "train/policy_logprob_max": -0.00945566235915632, "train/policy_logprob_mean": -0.5265848092936181, "train/policy_logprob_min": -7.4383835856978955, "train/policy_logprob_std": 1.0965966018470559, "train/policy_randomness_mag": 0.8592539349117795, "train/policy_randomness_max": 0.8592539349117795, "train/policy_randomness_mean": 0.1852712141903671, "train/policy_randomness_min": 0.028015911528790318, "train/policy_randomness_std": 0.19316004619405075, "train/post_ent_mag": 41.85063243556667, "train/post_ent_max": 41.85063243556667, "train/post_ent_mean": 27.161929955353607, "train/post_ent_min": 14.915611950126854, "train/post_ent_std": 4.564459829717069, "train/prior_ent_mag": 71.26417943593619, "train/prior_ent_max": 71.26417943593619, "train/prior_ent_mean": 31.282873643411172, "train/prior_ent_min": 16.420952242773932, "train/prior_ent_std": 8.766496684100177, "train/rep_loss_mean": 4.088619151630917, "train/rep_loss_std": 7.859808464308043, "train/reward_avg": 0.019995776821569715, "train/reward_loss_mean": 0.04100353278320383, "train/reward_loss_std": 0.1897553707900885, "train/reward_max_data": 1.006756758367693, "train/reward_max_pred": 1.0074696959675968, "train/reward_neg_acc": 0.9956654600194983, "train/reward_neg_loss": 0.022585126885993255, "train/reward_pos_acc": 0.9825912021301888, "train/reward_pos_loss": 0.7514281852825268, "train/reward_pred": 0.019683372902658744, "train/reward_rate": 0.02537742820945946, "stats/sum_log_reward": 4.699999904632568, "stats/max_log_achievement_collect_drink": 6.2, "stats/max_log_achievement_collect_sapling": 2.4, "stats/max_log_achievement_collect_wood": 5.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.2, "stats/max_log_achievement_place_plant": 1.8, "stats/max_log_achievement_place_table": 2.2, "stats/max_log_achievement_wake_up": 3.2, "stats/mean_log_entropy": 0.5591341316699981, "replay/size": 55458.0, "replay/inserts": 1466.0, "replay/samples": 11728.0, "replay/insert_wait_avg": 3.7849356012487476e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3127658734705405e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3039937019348, "timer/env.step_count": 1466.0, "timer/env.step_total": 15.371195793151855, "timer/env.step_frac": 0.0511854524599112, "timer/env.step_avg": 0.0104851267347557, "timer/env.step_min": 0.002946138381958008, "timer/env.step_max": 1.695652961730957, "timer/replay.add_count": 1466.0, "timer/replay.add_total": 0.2670407295227051, "timer/replay.add_frac": 0.0008892346925887206, "timer/replay.add_avg": 0.00018215602286678382, "timer/replay.add_min": 7.319450378417969e-05, "timer/replay.add_max": 0.002106189727783203, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021556854248046875, "timer/logger.write_frac": 7.17834417794757e-05, "timer/logger.write_avg": 0.021556854248046875, "timer/logger.write_min": 0.021556854248046875, "timer/logger.write_max": 0.021556854248046875, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1466.0, "timer/agent.policy_total": 10.76652455329895, "timer/agent.policy_frac": 0.03585208581669816, "timer/agent.policy_avg": 0.0073441504456336635, "timer/agent.policy_min": 0.005718231201171875, "timer/agent.policy_max": 0.0186309814453125, "timer/dataset_count": 733.0, "timer/dataset_total": 0.06531596183776855, "timer/dataset_frac": 0.00021749947788772192, "timer/dataset_avg": 8.91077241988657e-05, "timer/dataset_min": 6.699562072753906e-05, "timer/dataset_max": 0.0002465248107910156, "timer/agent.train_count": 733.0, "timer/agent.train_total": 273.10107016563416, "timer/agent.train_frac": 0.9094153787268617, "timer/agent.train_avg": 0.37257990472801383, "timer/agent.train_min": 0.3665001392364502, "timer/agent.train_max": 0.38443708419799805, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22058987617492676, "timer/agent.report_frac": 0.0007345552533472869, "timer/agent.report_avg": 0.22058987617492676, "timer/agent.report_min": 0.22058987617492676, "timer/agent.report_max": 0.22058987617492676, "fps": 4.881638698825498}
{"step": 55524, "episode/length": 192.0, "episode/score": 4.099999964237213, "episode/sum_abs_reward": 5.699999988079071, "episode/reward_rate": 0.025906735751295335}
{"step": 55773, "episode/length": 248.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.028112449799196786}
{"step": 56030, "episode/length": 256.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.900000028312206, "episode/reward_rate": 0.023346303501945526}
{"step": 56243, "episode/length": 212.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.028169014084507043}
{"step": 56452, "episode/length": 208.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.03349282296650718}
{"step": 56643, "episode/length": 190.0, "episode/score": 1.1000000089406967, "episode/sum_abs_reward": 2.8999999910593033, "episode/reward_rate": 0.015706806282722512}
{"step": 56795, "episode/length": 151.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.500000022351742, "episode/reward_rate": 0.03289473684210526}
{"step": 56945, "stats/sum_log_reward": 4.099999921662467, "stats/max_log_achievement_collect_drink": 2.857142857142857, "stats/max_log_achievement_collect_sapling": 2.857142857142857, "stats/max_log_achievement_collect_wood": 3.5714285714285716, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 2.5714285714285716, "stats/max_log_achievement_place_table": 1.5714285714285714, "stats/max_log_achievement_wake_up": 2.0, "stats/mean_log_entropy": 0.5535978249141148, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.781496719575264, "train/action_min": 0.0, "train/action_std": 3.487125339642377, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04097882566422644, "train/actor_opt_grad_steps": 27570.0, "train/actor_opt_loss": -14.006913720931806, "train/adv_mag": 0.776502248686804, "train/adv_max": 0.7296098294392438, "train/adv_mean": 0.0024134453820986146, "train/adv_min": -0.5901315707555959, "train/adv_std": 0.05874994224016095, "train/cont_avg": 0.9941818882042254, "train/cont_loss_mean": 2.9818466980662982e-05, "train/cont_loss_std": 0.0008210449992102248, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.001908035915169291, "train/cont_pos_acc": 0.9999999832099592, "train/cont_pos_loss": 1.4921771514684197e-05, "train/cont_pred": 0.9941815658354424, "train/cont_rate": 0.9941818882042254, "train/dyn_loss_mean": 4.176966411966673, "train/dyn_loss_std": 7.935670725056823, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.15130451783328, "train/extr_critic_critic_opt_grad_steps": 27570.0, "train/extr_critic_critic_opt_loss": 15068.454871808979, "train/extr_critic_mag": 7.991827796882307, "train/extr_critic_max": 7.991827796882307, "train/extr_critic_mean": 1.2684088357737366, "train/extr_critic_min": -0.5744181787463981, "train/extr_critic_std": 1.6751020374432417, "train/extr_return_normed_mag": 1.745632312667202, "train/extr_return_normed_max": 1.745632312667202, "train/extr_return_normed_mean": 0.30310888966204413, "train/extr_return_normed_min": -0.15961564206321474, "train/extr_return_normed_std": 0.33981569552085766, "train/extr_return_rate": 0.4930219599898432, "train/extr_return_raw_mag": 8.506900182912048, "train/extr_return_raw_max": 8.506900182912048, "train/extr_return_raw_mean": 1.2805612397865511, "train/extr_return_raw_min": -1.0426644968314909, "train/extr_return_raw_std": 1.7050626999895337, "train/extr_reward_mag": 1.0220140940706495, "train/extr_reward_max": 1.0220140940706495, "train/extr_reward_mean": 0.02473389110724691, "train/extr_reward_min": -0.6712911817389475, "train/extr_reward_std": 0.16024150552464203, "train/image_loss_mean": 3.668018505606853, "train/image_loss_std": 8.13535878356074, "train/model_loss_mean": 6.21279879019294, "train/model_loss_std": 11.811951026110583, "train/model_opt_grad_norm": 47.02331091652454, "train/model_opt_grad_steps": 27544.450704225354, "train/model_opt_loss": 8904.637722821302, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1426.056338028169, "train/policy_entropy_mag": 2.4203561460468133, "train/policy_entropy_max": 2.4203561460468133, "train/policy_entropy_mean": 0.518098922262729, "train/policy_entropy_min": 0.07937504529533251, "train/policy_entropy_std": 0.536454008498662, "train/policy_logprob_mag": 7.438383491945938, "train/policy_logprob_max": -0.00945566422765104, "train/policy_logprob_mean": -0.5168993603175794, "train/policy_logprob_min": -7.438383491945938, "train/policy_logprob_std": 1.084767548131271, "train/policy_randomness_mag": 0.8542795063744129, "train/policy_randomness_max": 0.8542795063744129, "train/policy_randomness_mean": 0.1828661840146696, "train/policy_randomness_min": 0.028015907591497396, "train/policy_randomness_std": 0.1893447266078331, "train/post_ent_mag": 42.132293754900005, "train/post_ent_max": 42.132293754900005, "train/post_ent_mean": 27.163739298430965, "train/post_ent_min": 14.966864344099877, "train/post_ent_std": 4.660248333299664, "train/prior_ent_mag": 71.42354820144008, "train/prior_ent_max": 71.42354820144008, "train/prior_ent_mean": 31.35616270253356, "train/prior_ent_min": 16.430991320542887, "train/prior_ent_std": 8.792477332370382, "train/rep_loss_mean": 4.176966411966673, "train/rep_loss_std": 7.935670725056823, "train/reward_avg": 0.019169509004224355, "train/reward_loss_mean": 0.03857064721974689, "train/reward_loss_std": 0.1851506277289189, "train/reward_max_data": 1.008450706240157, "train/reward_max_pred": 1.0083406592758608, "train/reward_neg_acc": 0.9963360134984406, "train/reward_neg_loss": 0.020804591883551066, "train/reward_pos_acc": 0.9815021694546014, "train/reward_pos_loss": 0.756345615420543, "train/reward_pred": 0.018937445750696138, "train/reward_rate": 0.0244140625, "replay/size": 56882.0, "replay/inserts": 1424.0, "replay/samples": 11392.0, "replay/insert_wait_avg": 3.680419386102912e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2977404540844177e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.11106991767883, "timer/env.step_count": 1424.0, "timer/env.step_total": 18.545114755630493, "timer/env.step_frac": 0.061794170940503663, "timer/env.step_avg": 0.013023254744122538, "timer/env.step_min": 0.00286102294921875, "timer/env.step_max": 1.7605857849121094, "timer/replay.add_count": 1424.0, "timer/replay.add_total": 0.273179292678833, "timer/replay.add_frac": 0.0009102606336839448, "timer/replay.add_avg": 0.00019183939092614678, "timer/replay.add_min": 6.699562072753906e-05, "timer/replay.add_max": 0.0009529590606689453, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02668166160583496, "timer/logger.write_frac": 8.890595609536763e-05, "timer/logger.write_avg": 0.02668166160583496, "timer/logger.write_min": 0.02668166160583496, "timer/logger.write_max": 0.02668166160583496, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00023484230041503906, "timer/checkpoint.save_frac": 7.825179540343409e-07, "timer/checkpoint.save_avg": 0.00023484230041503906, "timer/checkpoint.save_min": 0.00023484230041503906, "timer/checkpoint.save_max": 0.00023484230041503906, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3442811965942383, "timer/agent.save_frac": 0.00447927894483525, "timer/agent.save_avg": 1.3442811965942383, "timer/agent.save_min": 1.3442811965942383, "timer/agent.save_max": 1.3442811965942383, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.249282836914062e-05, "timer/replay.save_frac": 2.7487432700089537e-07, "timer/replay.save_avg": 8.249282836914062e-05, "timer/replay.save_min": 8.249282836914062e-05, "timer/replay.save_max": 8.249282836914062e-05, "timer/agent.policy_count": 1424.0, "timer/agent.policy_total": 15.176546335220337, "timer/agent.policy_frac": 0.05056976518521392, "timer/agent.policy_avg": 0.010657687033160348, "timer/agent.policy_min": 0.0056192874908447266, "timer/agent.policy_max": 3.424830675125122, "timer/dataset_count": 712.0, "timer/dataset_total": 0.06248760223388672, "timer/dataset_frac": 0.00020821491939976495, "timer/dataset_avg": 8.776348628354877e-05, "timer/dataset_min": 6.127357482910156e-05, "timer/dataset_max": 0.00017404556274414062, "timer/agent.train_count": 712.0, "timer/agent.train_total": 265.3239686489105, "timer/agent.train_frac": 0.8840859109985163, "timer/agent.train_avg": 0.3726460233833013, "timer/agent.train_min": 0.3630373477935791, "timer/agent.train_max": 0.3852386474609375, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22088336944580078, "timer/agent.report_frac": 0.0007360054046203281, "timer/agent.report_avg": 0.22088336944580078, "timer/agent.report_min": 0.22088336944580078, "timer/agent.report_max": 0.22088336944580078, "fps": 4.744841223019494}
{"step": 57000, "episode/length": 204.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.024390243902439025}
{"step": 57152, "episode/length": 151.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.500000022351742, "episode/reward_rate": 0.02631578947368421}
{"step": 57201, "episode/length": 48.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 4.500000014901161, "episode/reward_rate": 0.10204081632653061}
{"step": 57419, "episode/length": 217.0, "episode/score": 5.099999971687794, "episode/sum_abs_reward": 7.1000000312924385, "episode/reward_rate": 0.03211009174311927}
{"step": 57774, "episode/length": 354.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.016901408450704224}
{"step": 57944, "episode/length": 169.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.023529411764705882}
{"step": 58117, "episode/length": 172.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.04046242774566474}
{"step": 58265, "episode/length": 147.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 6.700000002980232, "episode/reward_rate": 0.04054054054054054}
{"step": 58387, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.778483072916667, "train/action_min": 0.0, "train/action_std": 3.4626749654610953, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038909583637076944, "train/actor_opt_grad_steps": 28285.0, "train/actor_opt_loss": -17.171301126480103, "train/adv_mag": 0.6447755719224612, "train/adv_max": 0.5771619776884714, "train/adv_mean": 0.0014044928580005944, "train/adv_min": -0.5369101613759995, "train/adv_std": 0.054349398913068905, "train/cont_avg": 0.9941677517361112, "train/cont_loss_mean": 0.00014037045116705512, "train/cont_loss_std": 0.004408114958494814, "train/cont_neg_acc": 0.9976851857370801, "train/cont_neg_loss": 0.007194526602158173, "train/cont_pos_acc": 0.9999726000759337, "train/cont_pos_loss": 9.797465329776224e-05, "train/cont_pred": 0.9941494539380074, "train/cont_rate": 0.9941677517361112, "train/dyn_loss_mean": 4.17061424586508, "train/dyn_loss_std": 7.980592641565535, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1352487098839548, "train/extr_critic_critic_opt_grad_steps": 28285.0, "train/extr_critic_critic_opt_loss": 14970.237033420139, "train/extr_critic_mag": 7.572121428118812, "train/extr_critic_max": 7.572121428118812, "train/extr_critic_mean": 1.311110998193423, "train/extr_critic_min": -0.5943335145711899, "train/extr_critic_std": 1.7170729670259688, "train/extr_return_normed_mag": 1.6438223587142096, "train/extr_return_normed_max": 1.6438223587142096, "train/extr_return_normed_mean": 0.3154011946171522, "train/extr_return_normed_min": -0.16977602760824892, "train/extr_return_normed_std": 0.3471626494493749, "train/extr_return_rate": 0.5000253443916639, "train/extr_return_raw_mag": 7.983698394563463, "train/extr_return_raw_max": 7.983698394563463, "train/extr_return_raw_mean": 1.318172877861394, "train/extr_return_raw_min": -1.1163344904780388, "train/extr_return_raw_std": 1.742218895090951, "train/extr_reward_mag": 1.0200145377053156, "train/extr_reward_max": 1.0200145377053156, "train/extr_reward_mean": 0.025925404676753614, "train/extr_reward_min": -0.6693932712078094, "train/extr_reward_std": 0.16246369170645872, "train/image_loss_mean": 3.732308785120646, "train/image_loss_std": 8.282925334241655, "train/model_loss_mean": 6.27488589949078, "train/model_loss_std": 12.025719477070702, "train/model_opt_grad_norm": 47.6725434727139, "train/model_opt_grad_steps": 28258.88888888889, "train/model_opt_loss": 8256.578016493055, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1302.0833333333333, "train/policy_entropy_mag": 2.4204558398988514, "train/policy_entropy_max": 2.4204558398988514, "train/policy_entropy_mean": 0.5192630452414354, "train/policy_entropy_min": 0.07937505116893186, "train/policy_entropy_std": 0.5481555730932288, "train/policy_logprob_mag": 7.4383835262722435, "train/policy_logprob_max": -0.009455660849602686, "train/policy_logprob_mean": -0.5185052735937966, "train/policy_logprob_min": -7.4383835262722435, "train/policy_logprob_std": 1.0869534918003612, "train/policy_randomness_mag": 0.8543146923184395, "train/policy_randomness_max": 0.8543146923184395, "train/policy_randomness_mean": 0.1832770692805449, "train/policy_randomness_min": 0.02801590971648693, "train/policy_randomness_std": 0.19347486624287236, "train/post_ent_mag": 42.20912419425117, "train/post_ent_max": 42.20912419425117, "train/post_ent_mean": 27.249812629487778, "train/post_ent_min": 14.894216418266296, "train/post_ent_std": 4.576065735684501, "train/prior_ent_mag": 71.55760362413194, "train/prior_ent_max": 71.55760362413194, "train/prior_ent_mean": 31.40268890062968, "train/prior_ent_min": 16.141956912146675, "train/prior_ent_std": 8.824684076839024, "train/rep_loss_mean": 4.17061424586508, "train/rep_loss_std": 7.980592641565535, "train/reward_avg": 0.020168728065780468, "train/reward_loss_mean": 0.040068193054240614, "train/reward_loss_std": 0.1883034168018235, "train/reward_max_data": 1.0069444461001291, "train/reward_max_pred": 1.008319581548373, "train/reward_neg_acc": 0.9959492236375809, "train/reward_neg_loss": 0.022137879503942613, "train/reward_pos_acc": 0.9875521916482184, "train/reward_pos_loss": 0.7343103248212073, "train/reward_pred": 0.020020233454286225, "train/reward_rate": 0.025200737847222224, "stats/sum_log_reward": 4.099999904632568, "stats/max_log_achievement_collect_drink": 1.5, "stats/max_log_achievement_collect_sapling": 2.375, "stats/max_log_achievement_collect_wood": 4.125, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_table": 1.75, "stats/max_log_achievement_wake_up": 2.375, "stats/mean_log_entropy": 0.4357483647763729, "replay/size": 58324.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.6814341763352225e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2572570581211296e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.20866560935974, "timer/env.step_count": 1442.0, "timer/env.step_total": 20.00205707550049, "timer/env.step_frac": 0.06662718091398383, "timer/env.step_avg": 0.013871052063453876, "timer/env.step_min": 0.002912282943725586, "timer/env.step_max": 1.687328577041626, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.2533888816833496, "timer/replay.add_frac": 0.0008440425301149255, "timer/replay.add_avg": 0.0001757204449953881, "timer/replay.add_min": 7.510185241699219e-05, "timer/replay.add_max": 0.0013301372528076172, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02769303321838379, "timer/logger.write_frac": 9.224594887083897e-05, "timer/logger.write_avg": 0.02769303321838379, "timer/logger.write_min": 0.02769303321838379, "timer/logger.write_max": 0.02769303321838379, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 10.483874797821045, "timer/agent.policy_frac": 0.034921959286355074, "timer/agent.policy_avg": 0.007270370872275343, "timer/agent.policy_min": 0.005673408508300781, "timer/agent.policy_max": 0.014445781707763672, "timer/dataset_count": 721.0, "timer/dataset_total": 0.06420063972473145, "timer/dataset_frac": 0.00021385338625858053, "timer/dataset_avg": 8.904388311335845e-05, "timer/dataset_min": 6.723403930664062e-05, "timer/dataset_max": 0.00031113624572753906, "timer/agent.train_count": 721.0, "timer/agent.train_total": 268.6800842285156, "timer/agent.train_frac": 0.8949777771509433, "timer/agent.train_avg": 0.3726492152961382, "timer/agent.train_min": 0.3663065433502197, "timer/agent.train_max": 0.3840019702911377, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21656417846679688, "timer/agent.report_frac": 0.0007213788383730285, "timer/agent.report_avg": 0.21656417846679688, "timer/agent.report_min": 0.21656417846679688, "timer/agent.report_max": 0.21656417846679688, "fps": 4.803249437891006}
{"step": 58433, "episode/length": 167.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 6.100000038743019, "episode/reward_rate": 0.02976190476190476}
{"step": 58658, "episode/length": 224.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.900000028312206, "episode/reward_rate": 0.02666666666666667}
{"step": 58861, "episode/length": 202.0, "episode/score": 2.1000000089406967, "episode/sum_abs_reward": 3.8999999910593033, "episode/reward_rate": 0.019704433497536946}
{"step": 59050, "episode/length": 188.0, "episode/score": 1.099999986588955, "episode/sum_abs_reward": 3.500000022351742, "episode/reward_rate": 0.010582010582010581}
{"step": 59228, "episode/length": 177.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.100000016391277, "episode/reward_rate": 0.016853932584269662}
{"step": 59389, "episode/length": 160.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.037267080745341616}
{"step": 59541, "episode/length": 151.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.299999997019768, "episode/reward_rate": 0.05263157894736842}
{"step": 59708, "episode/length": 166.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.023952095808383235}
{"step": 59827, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.8715930514865455, "train/action_min": 0.0, "train/action_std": 3.6511413289441004, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03986363995095922, "train/actor_opt_grad_steps": 29005.0, "train/actor_opt_loss": -16.343806541628307, "train/adv_mag": 0.6586254739926921, "train/adv_max": 0.6026627061267694, "train/adv_mean": 0.002086400816147539, "train/adv_min": -0.5043269954621792, "train/adv_std": 0.05592203109214703, "train/cont_avg": 0.9942626953125, "train/cont_loss_mean": 0.00011718720680183499, "train/cont_loss_std": 0.003475107056562226, "train/cont_neg_acc": 0.9982638888888888, "train/cont_neg_loss": 0.004935571861248415, "train/cont_pos_acc": 0.9999863050050206, "train/cont_pos_loss": 8.602427428883175e-05, "train/cont_pred": 0.9942426292432679, "train/cont_rate": 0.9942626953125, "train/dyn_loss_mean": 4.151144057512283, "train/dyn_loss_std": 7.9942788283030195, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1687901458806462, "train/extr_critic_critic_opt_grad_steps": 29005.0, "train/extr_critic_critic_opt_loss": 14998.39293077257, "train/extr_critic_mag": 7.281337969832951, "train/extr_critic_max": 7.281337969832951, "train/extr_critic_mean": 1.2368736631340451, "train/extr_critic_min": -0.6043586432933807, "train/extr_critic_std": 1.6457899146609836, "train/extr_return_normed_mag": 1.6488163934813604, "train/extr_return_normed_max": 1.6488163934813604, "train/extr_return_normed_mean": 0.3078010574811035, "train/extr_return_normed_min": -0.15493100767748225, "train/extr_return_normed_std": 0.33963002843989265, "train/extr_return_rate": 0.48766640366779435, "train/extr_return_raw_mag": 7.8597421116299095, "train/extr_return_raw_max": 7.8597421116299095, "train/extr_return_raw_mean": 1.247162975370884, "train/extr_return_raw_min": -1.0367424984773, "train/extr_return_raw_std": 1.6761050919691722, "train/extr_reward_mag": 1.0198895004060533, "train/extr_reward_max": 1.0198895004060533, "train/extr_reward_mean": 0.025066617423565023, "train/extr_reward_min": -0.6706757313675351, "train/extr_reward_std": 0.16112091568195158, "train/image_loss_mean": 3.646690626939138, "train/image_loss_std": 8.460868530803257, "train/model_loss_mean": 6.176173018084632, "train/model_loss_std": 12.16979870531294, "train/model_opt_grad_norm": 42.842109468248154, "train/model_opt_grad_steps": 28978.0, "train/model_opt_loss": 7720.21630859375, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.4274473985036216, "train/policy_entropy_max": 2.4274473985036216, "train/policy_entropy_mean": 0.5348760146233771, "train/policy_entropy_min": 0.07937503957913981, "train/policy_entropy_std": 0.5682244992090596, "train/policy_logprob_mag": 7.438383566008674, "train/policy_logprob_max": -0.009455659206853144, "train/policy_logprob_mean": -0.5350567611555258, "train/policy_logprob_min": -7.438383566008674, "train/policy_logprob_std": 1.1024774586160977, "train/policy_randomness_mag": 0.8567824065685272, "train/policy_randomness_max": 0.8567824065685272, "train/policy_randomness_mean": 0.18878775855733287, "train/policy_randomness_min": 0.028015905654885702, "train/policy_randomness_std": 0.20055831472078958, "train/post_ent_mag": 42.261815812852646, "train/post_ent_max": 42.261815812852646, "train/post_ent_mean": 27.43878830803765, "train/post_ent_min": 15.1999608013365, "train/post_ent_std": 4.5977967911296425, "train/prior_ent_mag": 71.74485079447429, "train/prior_ent_max": 71.74485079447429, "train/prior_ent_mean": 31.642038451300728, "train/prior_ent_min": 16.723166002167595, "train/prior_ent_std": 8.779284569952223, "train/rep_loss_mean": 4.151144057512283, "train/rep_loss_std": 7.9942788283030195, "train/reward_avg": 0.019881184691459768, "train/reward_loss_mean": 0.038678766771530114, "train/reward_loss_std": 0.17649010154936048, "train/reward_max_data": 1.0055555568801031, "train/reward_max_pred": 1.0078465110725827, "train/reward_neg_acc": 0.9959549473391639, "train/reward_neg_loss": 0.0211771149511656, "train/reward_pos_acc": 0.9893721805678474, "train/reward_pos_loss": 0.7216326942046484, "train/reward_pred": 0.0197710571034501, "train/reward_rate": 0.024997287326388888, "stats/sum_log_reward": 3.5999999195337296, "stats/max_log_achievement_collect_drink": 4.875, "stats/max_log_achievement_collect_sapling": 1.125, "stats/max_log_achievement_collect_wood": 2.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_table": 1.125, "stats/max_log_achievement_wake_up": 2.0, "stats/mean_log_entropy": 0.48932162299752235, "replay/size": 59764.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.7079056104024253e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2972495622105068e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.16051626205444, "timer/env.step_count": 1440.0, "timer/env.step_total": 20.283518075942993, "timer/env.step_frac": 0.06757557032662655, "timer/env.step_avg": 0.014085776441627078, "timer/env.step_min": 0.0030832290649414062, "timer/env.step_max": 1.738457441329956, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.25821685791015625, "timer/replay.add_frac": 0.0008602625725920614, "timer/replay.add_avg": 0.0001793172624376085, "timer/replay.add_min": 6.222724914550781e-05, "timer/replay.add_max": 0.0019502639770507812, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02157759666442871, "timer/logger.write_frac": 7.188685884851837e-05, "timer/logger.write_avg": 0.02157759666442871, "timer/logger.write_min": 0.02157759666442871, "timer/logger.write_max": 0.02157759666442871, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 10.551478862762451, "timer/agent.policy_frac": 0.0351527875623405, "timer/agent.policy_avg": 0.007327415876918369, "timer/agent.policy_min": 0.00565791130065918, "timer/agent.policy_max": 0.01679825782775879, "timer/dataset_count": 720.0, "timer/dataset_total": 0.0636894702911377, "timer/dataset_frac": 0.00021218470398529616, "timer/dataset_avg": 8.845759762658014e-05, "timer/dataset_min": 5.888938903808594e-05, "timer/dataset_max": 0.00021719932556152344, "timer/agent.train_count": 720.0, "timer/agent.train_total": 268.27993535995483, "timer/agent.train_frac": 0.8937882260494704, "timer/agent.train_avg": 0.3726110213332706, "timer/agent.train_min": 0.3664379119873047, "timer/agent.train_max": 0.3910205364227295, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22284793853759766, "timer/agent.report_frac": 0.0007424292219135204, "timer/agent.report_avg": 0.22284793853759766, "timer/agent.report_min": 0.22284793853759766, "timer/agent.report_max": 0.22284793853759766, "fps": 4.7973681354458275}
{"step": 59855, "episode/length": 146.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.047619047619047616}
{"step": 59920, "episode/length": 64.0, "episode/score": 0.10000000894069672, "episode/sum_abs_reward": 2.3000000417232513, "episode/reward_rate": 0.015384615384615385}
{"step": 59960, "episode/length": 39.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 5.100000038743019, "episode/reward_rate": 0.1}
{"step": 60042, "episode/length": 81.0, "episode/score": 5.100000023841858, "episode/sum_abs_reward": 6.899999976158142, "episode/reward_rate": 0.08536585365853659}
{"step": 60193, "episode/length": 150.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.033112582781456956}
{"step": 60240, "episode/length": 46.0, "episode/score": 2.0999999940395355, "episode/sum_abs_reward": 3.9000000059604645, "episode/reward_rate": 0.0851063829787234}
{"step": 60418, "episode/length": 177.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.033707865168539325}
{"step": 60605, "episode/length": 186.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.900000028312206, "episode/reward_rate": 0.026737967914438502}
{"step": 60837, "episode/length": 231.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.02586206896551724}
{"step": 60980, "episode/length": 142.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.04895104895104895}
{"step": 61163, "episode/length": 182.0, "episode/score": 6.099999979138374, "episode/sum_abs_reward": 8.30000002682209, "episode/reward_rate": 0.03825136612021858}
{"step": 61221, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.7076180594308035, "train/action_min": 0.0, "train/action_std": 3.5133291823523387, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04208756012043783, "train/actor_opt_grad_steps": 29715.0, "train/actor_opt_loss": -16.139667833702905, "train/adv_mag": 0.6982903957366944, "train/adv_max": 0.6350861000163215, "train/adv_mean": 0.0018292506933253857, "train/adv_min": -0.5632221366677965, "train/adv_std": 0.05771506136017186, "train/cont_avg": 0.9945172991071428, "train/cont_loss_mean": 0.00013641581661707797, "train/cont_loss_std": 0.004242785091860567, "train/cont_neg_acc": 0.9979591846466065, "train/cont_neg_loss": 0.01635486457006924, "train/cont_pos_acc": 0.9999859452247619, "train/cont_pos_loss": 2.4617826714136623e-05, "train/cont_pred": 0.9945215199674878, "train/cont_rate": 0.9945172991071428, "train/dyn_loss_mean": 4.076983530180795, "train/dyn_loss_std": 7.891173669270107, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.12286576628685, "train/extr_critic_critic_opt_grad_steps": 29715.0, "train/extr_critic_critic_opt_loss": 14898.743917410715, "train/extr_critic_mag": 7.2954074519021175, "train/extr_critic_max": 7.2954074519021175, "train/extr_critic_mean": 1.216469133751733, "train/extr_critic_min": -0.6417477284158979, "train/extr_critic_std": 1.6659136278288704, "train/extr_return_normed_mag": 1.6413805740220206, "train/extr_return_normed_max": 1.6413805740220206, "train/extr_return_normed_mean": 0.30388944979224886, "train/extr_return_normed_min": -0.15452472546270915, "train/extr_return_normed_std": 0.342695725602763, "train/extr_return_rate": 0.47942617748464855, "train/extr_return_raw_mag": 7.831664058140346, "train/extr_return_raw_max": 7.831664058140346, "train/extr_return_raw_mean": 1.2255100735596247, "train/extr_return_raw_min": -1.0381272724696569, "train/extr_return_raw_std": 1.692735391003745, "train/extr_reward_mag": 1.0178643873759678, "train/extr_reward_max": 1.0178643873759678, "train/extr_reward_mean": 0.02527441523436989, "train/extr_reward_min": -0.6817393915993827, "train/extr_reward_std": 0.1623672949416297, "train/image_loss_mean": 3.4894241946084157, "train/image_loss_std": 8.366396147864206, "train/model_loss_mean": 5.975286293029785, "train/model_loss_std": 12.026066977637155, "train/model_opt_grad_norm": 42.97071990966797, "train/model_opt_grad_steps": 29687.32857142857, "train/model_opt_loss": 7747.304115513393, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1303.5714285714287, "train/policy_entropy_mag": 2.440193782533918, "train/policy_entropy_max": 2.440193782533918, "train/policy_entropy_mean": 0.5237832831484931, "train/policy_entropy_min": 0.07937502882310322, "train/policy_entropy_std": 0.5600132231201445, "train/policy_logprob_mag": 7.438383613313947, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.5238560280629567, "train/policy_logprob_min": -7.438383613313947, "train/policy_logprob_std": 1.0943042261259897, "train/policy_randomness_mag": 0.8612813200269427, "train/policy_randomness_max": 0.8612813200269427, "train/policy_randomness_mean": 0.18487251475453376, "train/policy_randomness_min": 0.02801590178694044, "train/policy_randomness_std": 0.19766009471246174, "train/post_ent_mag": 42.98254378182548, "train/post_ent_max": 42.98254378182548, "train/post_ent_mean": 27.647993659973146, "train/post_ent_min": 15.332669694083078, "train/post_ent_std": 4.553370189666748, "train/prior_ent_mag": 71.73250350952148, "train/prior_ent_max": 71.73250350952148, "train/prior_ent_mean": 31.752976090567454, "train/prior_ent_min": 17.024189935411727, "train/prior_ent_std": 8.649645239966256, "train/rep_loss_mean": 4.076983530180795, "train/rep_loss_std": 7.891173669270107, "train/reward_avg": 0.019669363727527006, "train/reward_loss_mean": 0.039535583422652315, "train/reward_loss_std": 0.18652191747512137, "train/reward_max_data": 1.0085714306150164, "train/reward_max_pred": 1.008294313294547, "train/reward_neg_acc": 0.9961804492133004, "train/reward_neg_loss": 0.021515829448721237, "train/reward_pos_acc": 0.9809953102043697, "train/reward_pos_loss": 0.7522714308329991, "train/reward_pred": 0.019395020012078542, "train/reward_rate": 0.024790736607142858, "stats/sum_log_reward": 4.099999917501753, "stats/max_log_achievement_collect_drink": 4.7272727272727275, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_wood": 2.727272727272727, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.09090909090909091, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.4545454545454546, "stats/max_log_achievement_place_table": 1.1818181818181819, "stats/max_log_achievement_wake_up": 1.6363636363636365, "stats/mean_log_entropy": 0.33657062460075726, "replay/size": 61158.0, "replay/inserts": 1394.0, "replay/samples": 11152.0, "replay/insert_wait_avg": 3.726957860259791e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2640546007854182e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1255877017975, "timer/env.step_count": 1394.0, "timer/env.step_total": 26.758951425552368, "timer/env.step_frac": 0.08915918042996007, "timer/env.step_avg": 0.019195804465962963, "timer/env.step_min": 0.003168821334838867, "timer/env.step_max": 1.9743447303771973, "timer/replay.add_count": 1394.0, "timer/replay.add_total": 0.26956677436828613, "timer/replay.add_frac": 0.0008981799133905425, "timer/replay.add_avg": 0.0001933764522010661, "timer/replay.add_min": 7.104873657226562e-05, "timer/replay.add_max": 0.003980159759521484, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02690744400024414, "timer/logger.write_frac": 8.965394855629295e-05, "timer/logger.write_avg": 0.02690744400024414, "timer/logger.write_min": 0.02690744400024414, "timer/logger.write_max": 0.02690744400024414, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002231597900390625, "timer/checkpoint.save_frac": 7.435546957122242e-07, "timer/checkpoint.save_avg": 0.0002231597900390625, "timer/checkpoint.save_min": 0.0002231597900390625, "timer/checkpoint.save_max": 0.0002231597900390625, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3618409633636475, "timer/agent.save_frac": 0.004537570334445334, "timer/agent.save_avg": 1.3618409633636475, "timer/agent.save_min": 1.3618409633636475, "timer/agent.save_max": 1.3618409633636475, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.43865966796875e-05, "timer/replay.save_frac": 2.478515652374081e-07, "timer/replay.save_avg": 7.43865966796875e-05, "timer/replay.save_min": 7.43865966796875e-05, "timer/replay.save_max": 7.43865966796875e-05, "timer/agent.policy_count": 1394.0, "timer/agent.policy_total": 12.331256866455078, "timer/agent.policy_frac": 0.04108698948623908, "timer/agent.policy_avg": 0.00884595184107251, "timer/agent.policy_min": 0.005713939666748047, "timer/agent.policy_max": 1.3574063777923584, "timer/dataset_count": 697.0, "timer/dataset_total": 0.061994075775146484, "timer/dataset_frac": 0.00020656044774410682, "timer/dataset_avg": 8.89441546271829e-05, "timer/dataset_min": 6.747245788574219e-05, "timer/dataset_max": 0.00030422210693359375, "timer/agent.train_count": 697.0, "timer/agent.train_total": 259.9836151599884, "timer/agent.train_frac": 0.866249416288711, "timer/agent.train_avg": 0.3730037520229389, "timer/agent.train_min": 0.362774133682251, "timer/agent.train_max": 0.6731607913970947, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21992993354797363, "timer/agent.report_frac": 0.0007327930125254577, "timer/agent.report_avg": 0.21992993354797363, "timer/agent.report_min": 0.21992993354797363, "timer/agent.report_max": 0.21992993354797363, "fps": 4.644627290796914}
{"step": 61351, "episode/length": 187.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 4.900000013411045, "episode/reward_rate": 0.02127659574468085}
{"step": 61531, "episode/length": 179.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.03333333333333333}
{"step": 61690, "episode/length": 158.0, "episode/score": 4.0999999940395355, "episode/sum_abs_reward": 5.9000000059604645, "episode/reward_rate": 0.03773584905660377}
{"step": 61840, "episode/length": 149.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.04}
{"step": 61995, "episode/length": 154.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.04516129032258064}
{"step": 62134, "episode/length": 138.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 5.0999999940395355, "episode/reward_rate": 0.03597122302158273}
{"step": 62295, "episode/length": 160.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 6.9000000059604645, "episode/reward_rate": 0.037267080745341616}
{"step": 62464, "episode/length": 168.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.0999999940395355, "episode/reward_rate": 0.04142011834319527}
{"step": 62609, "episode/length": 144.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.041379310344827586}
{"step": 62651, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.816797390790053, "train/action_min": 0.0, "train/action_std": 3.5496275324217033, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04055291443118747, "train/actor_opt_grad_steps": 30420.0, "train/actor_opt_loss": -12.620691077180311, "train/adv_mag": 0.6301205326134051, "train/adv_max": 0.5859725005190137, "train/adv_mean": 0.002198994054965688, "train/adv_min": -0.4900391853191483, "train/adv_std": 0.05590594832746076, "train/cont_avg": 0.9940718529929577, "train/cont_loss_mean": 7.781886703514188e-05, "train/cont_loss_std": 0.0022842694400946077, "train/cont_neg_acc": 0.9976525827192925, "train/cont_neg_loss": 0.007402785586902968, "train/cont_pos_acc": 0.9999861373028285, "train/cont_pos_loss": 3.731493759388081e-05, "train/cont_pred": 0.9940734807874115, "train/cont_rate": 0.9940718529929577, "train/dyn_loss_mean": 4.107761305822453, "train/dyn_loss_std": 8.012238589810654, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1513958111615248, "train/extr_critic_critic_opt_grad_steps": 30420.0, "train/extr_critic_critic_opt_loss": 15011.657996808979, "train/extr_critic_mag": 6.920561756886227, "train/extr_critic_max": 6.920561756886227, "train/extr_critic_mean": 1.2038702519846634, "train/extr_critic_min": -0.5681238157648436, "train/extr_critic_std": 1.5594560008653453, "train/extr_return_normed_mag": 1.6315154189794836, "train/extr_return_normed_max": 1.6315154189794836, "train/extr_return_normed_mean": 0.3102942921326194, "train/extr_return_normed_min": -0.15228980066071093, "train/extr_return_normed_std": 0.33583446665548944, "train/extr_return_rate": 0.4971235222379926, "train/extr_return_raw_mag": 7.4459395139989715, "train/extr_return_raw_max": 7.4459395139989715, "train/extr_return_raw_mean": 1.214308160291591, "train/extr_return_raw_min": -0.9666351499691815, "train/extr_return_raw_std": 1.5839689432735173, "train/extr_reward_mag": 1.0294280387985875, "train/extr_reward_max": 1.0294280387985875, "train/extr_reward_mean": 0.025772130615274672, "train/extr_reward_min": -0.676350796726388, "train/extr_reward_std": 0.1628722102499344, "train/image_loss_mean": 3.3778098771269893, "train/image_loss_std": 7.774422145225633, "train/model_loss_mean": 5.8824288005560215, "train/model_loss_std": 11.523157072738863, "train/model_opt_grad_norm": 44.906088202340264, "train/model_opt_grad_steps": 30391.845070422536, "train/model_opt_loss": 8073.176255776849, "train/model_opt_model_opt_grad_overflow": 0.014084507042253521, "train/model_opt_model_opt_grad_scale": 1373.2394366197184, "train/policy_entropy_mag": 2.456956816391206, "train/policy_entropy_max": 2.456956816391206, "train/policy_entropy_mean": 0.5272927019797581, "train/policy_entropy_min": 0.07937502819047847, "train/policy_entropy_std": 0.5741494994767955, "train/policy_logprob_mag": 7.438383585970167, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.5274079668689782, "train/policy_logprob_min": -7.438383585970167, "train/policy_logprob_std": 1.099947561680431, "train/policy_randomness_mag": 0.867197938368354, "train/policy_randomness_max": 0.867197938368354, "train/policy_randomness_mean": 0.18611118470279264, "train/policy_randomness_min": 0.02801590153134205, "train/policy_randomness_std": 0.20264957593360416, "train/post_ent_mag": 43.15404730783382, "train/post_ent_max": 43.15404730783382, "train/post_ent_mean": 27.752446349238006, "train/post_ent_min": 15.37988399451887, "train/post_ent_std": 4.601733368887028, "train/prior_ent_mag": 71.80459111173388, "train/prior_ent_max": 71.80459111173388, "train/prior_ent_mean": 31.876537860279353, "train/prior_ent_min": 17.04256247130918, "train/prior_ent_std": 8.762043382080508, "train/rep_loss_mean": 4.107761305822453, "train/rep_loss_std": 8.012238589810654, "train/reward_avg": 0.01999614854067774, "train/reward_loss_mean": 0.03988435735899798, "train/reward_loss_std": 0.1813429368423744, "train/reward_max_data": 1.016901412480314, "train/reward_max_pred": 1.0167576141760384, "train/reward_neg_acc": 0.9952496298601929, "train/reward_neg_loss": 0.021673373491044194, "train/reward_pos_acc": 0.9824975804543831, "train/reward_pos_loss": 0.7435570376020082, "train/reward_pred": 0.019661164816311548, "train/reward_rate": 0.02522557218309859, "stats/sum_log_reward": 4.322222179836697, "stats/max_log_achievement_collect_drink": 2.5555555555555554, "stats/max_log_achievement_collect_sapling": 3.111111111111111, "stats/max_log_achievement_collect_wood": 2.888888888888889, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 2.111111111111111, "stats/max_log_achievement_place_table": 1.1111111111111112, "stats/max_log_achievement_wake_up": 2.0, "stats/mean_log_entropy": 0.3962032000223796, "replay/size": 62588.0, "replay/inserts": 1430.0, "replay/samples": 11440.0, "replay/insert_wait_avg": 3.744005323289991e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2705376098205993e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.16463017463684, "timer/env.step_count": 1430.0, "timer/env.step_total": 22.1538405418396, "timer/env.step_frac": 0.07380563302528488, "timer/env.step_avg": 0.015492196183104615, "timer/env.step_min": 0.0029714107513427734, "timer/env.step_max": 1.6925997734069824, "timer/replay.add_count": 1430.0, "timer/replay.add_total": 0.2614595890045166, "timer/replay.add_frac": 0.0008710539574646037, "timer/replay.add_avg": 0.0001828388734297319, "timer/replay.add_min": 7.939338684082031e-05, "timer/replay.add_max": 0.0020837783813476562, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030515193939208984, "timer/logger.write_frac": 0.00010166152461552561, "timer/logger.write_avg": 0.030515193939208984, "timer/logger.write_min": 0.030515193939208984, "timer/logger.write_max": 0.030515193939208984, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1430.0, "timer/agent.policy_total": 10.534804821014404, "timer/agent.policy_frac": 0.035096756119750744, "timer/agent.policy_avg": 0.007366996378331751, "timer/agent.policy_min": 0.005685567855834961, "timer/agent.policy_max": 0.017633914947509766, "timer/dataset_count": 715.0, "timer/dataset_total": 0.06440353393554688, "timer/dataset_frac": 0.0002145607025653778, "timer/dataset_avg": 9.00748726371285e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.00021076202392578125, "timer/agent.train_count": 715.0, "timer/agent.train_total": 266.4088921546936, "timer/agent.train_frac": 0.8875425862124261, "timer/agent.train_avg": 0.37259984916740363, "timer/agent.train_min": 0.3656883239746094, "timer/agent.train_max": 0.38514256477355957, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21986031532287598, "timer/agent.report_frac": 0.0007324657645204916, "timer/agent.report_avg": 0.21986031532287598, "timer/agent.report_min": 0.21986031532287598, "timer/agent.report_max": 0.21986031532287598, "fps": 4.76398892875849}
{"step": 62803, "episode/length": 193.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.500000022351742, "episode/reward_rate": 0.03608247422680412}
{"step": 63073, "episode/length": 269.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.025925925925925925}
{"step": 63243, "episode/length": 169.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 6.299999997019768, "episode/reward_rate": 0.03529411764705882}
{"step": 63385, "episode/length": 141.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.04929577464788732}
{"step": 63554, "episode/length": 168.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 7.300000034272671, "episode/reward_rate": 0.029585798816568046}
{"step": 63798, "episode/length": 243.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.299999997019768, "episode/reward_rate": 0.028688524590163935}
{"step": 63954, "episode/length": 155.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.038461538461538464}
{"step": 64099, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.996121341235017, "train/action_min": 0.0, "train/action_std": 3.7124980181863863, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04399796218088228, "train/actor_opt_grad_steps": 31140.0, "train/actor_opt_loss": -13.05207022248882, "train/adv_mag": 0.6877489008315621, "train/adv_max": 0.6284010977777716, "train/adv_mean": 0.0028311323764919757, "train/adv_min": -0.5810864980090155, "train/adv_std": 0.059127498520155475, "train/cont_avg": 0.9940068493150684, "train/cont_loss_mean": 0.00016617279419194834, "train/cont_loss_std": 0.0052023627394914475, "train/cont_neg_acc": 0.9982876712328768, "train/cont_neg_loss": 0.004846212188767075, "train/cont_pos_acc": 0.9999865260842729, "train/cont_pos_loss": 0.00012883273803033124, "train/cont_pred": 0.9940076356064783, "train/cont_rate": 0.9940068493150684, "train/dyn_loss_mean": 4.224803052536429, "train/dyn_loss_std": 8.079440463079164, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1382608544336605, "train/extr_critic_critic_opt_grad_steps": 31140.0, "train/extr_critic_critic_opt_loss": 15110.317008240581, "train/extr_critic_mag": 7.435541459958848, "train/extr_critic_max": 7.435541459958848, "train/extr_critic_mean": 1.231964445277436, "train/extr_critic_min": -0.6082466710103701, "train/extr_critic_std": 1.6281098633596343, "train/extr_return_normed_mag": 1.7120352379263264, "train/extr_return_normed_max": 1.7120352379263264, "train/extr_return_normed_mean": 0.31323250189219437, "train/extr_return_normed_min": -0.18405295015402037, "train/extr_return_normed_std": 0.34293962708891257, "train/extr_return_rate": 0.5006466087413161, "train/extr_return_raw_mag": 8.01626644395802, "train/extr_return_raw_max": 8.01626644395802, "train/extr_return_raw_mean": 1.2456481979317862, "train/extr_return_raw_min": -1.1626541320591757, "train/extr_return_raw_std": 1.660157855242899, "train/extr_reward_mag": 1.023398556121408, "train/extr_reward_max": 1.023398556121408, "train/extr_reward_mean": 0.0260707210647325, "train/extr_reward_min": -0.6896816459420609, "train/extr_reward_std": 0.16582607365634344, "train/image_loss_mean": 3.473559882542858, "train/image_loss_std": 8.282820747323232, "train/model_loss_mean": 6.049639368710452, "train/model_loss_std": 12.047387306004355, "train/model_opt_grad_norm": 42.989243598833475, "train/model_opt_grad_steps": 31111.0, "train/model_opt_loss": 7562.04922276327, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.467164353148578, "train/policy_entropy_max": 2.467164353148578, "train/policy_entropy_mean": 0.5911751434411088, "train/policy_entropy_min": 0.07937502993704522, "train/policy_entropy_std": 0.6281684036940745, "train/policy_logprob_mag": 7.438383585786166, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.5927964093750471, "train/policy_logprob_min": -7.438383585786166, "train/policy_logprob_std": 1.1424942441182593, "train/policy_randomness_mag": 0.8708007482633199, "train/policy_randomness_max": 0.8708007482633199, "train/policy_randomness_mean": 0.20865888199577592, "train/policy_randomness_min": 0.028015902240390647, "train/policy_randomness_std": 0.2217158807875359, "train/post_ent_mag": 43.310236003300915, "train/post_ent_max": 43.310236003300915, "train/post_ent_mean": 27.94074317200543, "train/post_ent_min": 15.206621496644738, "train/post_ent_std": 4.681192747534138, "train/prior_ent_mag": 71.99845280059397, "train/prior_ent_max": 71.99845280059397, "train/prior_ent_mean": 32.1778200489201, "train/prior_ent_min": 16.90823502736549, "train/prior_ent_std": 8.795317388560674, "train/rep_loss_mean": 4.224803052536429, "train/rep_loss_std": 8.079440463079164, "train/reward_avg": 0.019254334136996776, "train/reward_loss_mean": 0.04103147904452396, "train/reward_loss_std": 0.19317627157250497, "train/reward_max_data": 1.0082191800417966, "train/reward_max_pred": 1.0095168678727868, "train/reward_neg_acc": 0.9960503439380698, "train/reward_neg_loss": 0.023009436000903993, "train/reward_pos_acc": 0.9842311470475915, "train/reward_pos_loss": 0.7485935900309314, "train/reward_pred": 0.01907342872008273, "train/reward_rate": 0.024748501712328768, "stats/sum_log_reward": 4.957142761775425, "stats/max_log_achievement_collect_drink": 1.2857142857142858, "stats/max_log_achievement_collect_sapling": 2.142857142857143, "stats/max_log_achievement_collect_wood": 3.857142857142857, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 0.14285714285714285, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_table": 1.7142857142857142, "stats/max_log_achievement_wake_up": 2.142857142857143, "stats/mean_log_entropy": 0.637690578188215, "replay/size": 64036.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.7374746733607506e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2633056271800678e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.17927145957947, "timer/env.step_count": 1448.0, "timer/env.step_total": 18.861417531967163, "timer/env.step_frac": 0.06283384405677372, "timer/env.step_avg": 0.013025840836993896, "timer/env.step_min": 0.003111124038696289, "timer/env.step_max": 1.7188081741333008, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.26763439178466797, "timer/replay.add_frac": 0.0008915818553470844, "timer/replay.add_avg": 0.00018483038106675964, "timer/replay.add_min": 7.271766662597656e-05, "timer/replay.add_max": 0.004190683364868164, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03002452850341797, "timer/logger.write_frac": 0.00010002199138344205, "timer/logger.write_avg": 0.03002452850341797, "timer/logger.write_min": 0.03002452850341797, "timer/logger.write_max": 0.03002452850341797, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 10.596180438995361, "timer/agent.policy_frac": 0.035299507482555094, "timer/agent.policy_avg": 0.007317804170576907, "timer/agent.policy_min": 0.005674600601196289, "timer/agent.policy_max": 0.017248153686523438, "timer/dataset_count": 724.0, "timer/dataset_total": 0.06419610977172852, "timer/dataset_frac": 0.00021385923638092652, "timer/dataset_avg": 8.866865990570237e-05, "timer/dataset_min": 6.794929504394531e-05, "timer/dataset_max": 0.0001747608184814453, "timer/agent.train_count": 724.0, "timer/agent.train_total": 269.6415042877197, "timer/agent.train_frac": 0.8982682347672638, "timer/agent.train_avg": 0.37243301697198855, "timer/agent.train_min": 0.3667013645172119, "timer/agent.train_max": 0.38472652435302734, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22195744514465332, "timer/agent.report_frac": 0.0007394162963532308, "timer/agent.report_avg": 0.22195744514465332, "timer/agent.report_min": 0.22195744514465332, "timer/agent.report_max": 0.22195744514465332, "fps": 4.823707175303035}
{"step": 64143, "episode/length": 188.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 5.0999999940395355, "episode/reward_rate": 0.026455026455026454}
{"step": 64290, "episode/length": 146.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.04081632653061224}
{"step": 64477, "episode/length": 186.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.0374331550802139}
{"step": 64522, "episode/length": 44.0, "episode/score": 1.1000000089406967, "episode/sum_abs_reward": 2.8999999910593033, "episode/reward_rate": 0.06666666666666667}
{"step": 64726, "episode/length": 203.0, "episode/score": 5.099999979138374, "episode/sum_abs_reward": 7.100000023841858, "episode/reward_rate": 0.029411764705882353}
{"step": 64921, "episode/length": 194.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03076923076923077}
{"step": 65093, "episode/length": 171.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03488372093023256}
{"step": 65280, "episode/length": 186.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03208556149732621}
{"step": 65445, "episode/length": 164.0, "episode/score": 4.0999999940395355, "episode/sum_abs_reward": 5.9000000059604645, "episode/reward_rate": 0.03636363636363636}
{"step": 65507, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.962601143973214, "train/action_min": 0.0, "train/action_std": 3.6287107161113195, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0418455055515681, "train/actor_opt_grad_steps": 31855.0, "train/actor_opt_loss": -14.420360000644411, "train/adv_mag": 0.5860511307205473, "train/adv_max": 0.5557519504002162, "train/adv_mean": 0.003420177274217297, "train/adv_min": -0.4689666360616684, "train/adv_std": 0.05690605310457093, "train/cont_avg": 0.9945452008928571, "train/cont_loss_mean": 0.00035173893273687486, "train/cont_loss_std": 0.00826651658632857, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.001165711732859823, "train/cont_pos_acc": 0.9999300130775997, "train/cont_pos_loss": 0.0003455784106604044, "train/cont_pred": 0.9944854063647134, "train/cont_rate": 0.9945452008928571, "train/dyn_loss_mean": 4.128305738312857, "train/dyn_loss_std": 7.96249532699585, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1204456618853977, "train/extr_critic_critic_opt_grad_steps": 31855.0, "train/extr_critic_critic_opt_loss": 15291.98818359375, "train/extr_critic_mag": 6.915208428246634, "train/extr_critic_max": 6.915208428246634, "train/extr_critic_mean": 1.2984235772064754, "train/extr_critic_min": -0.5867171491895403, "train/extr_critic_std": 1.6158563716070993, "train/extr_return_normed_mag": 1.613991630077362, "train/extr_return_normed_max": 1.613991630077362, "train/extr_return_normed_mean": 0.32941767147609163, "train/extr_return_normed_min": -0.1571026074034827, "train/extr_return_normed_std": 0.34448588064738683, "train/extr_return_rate": 0.5295880104814257, "train/extr_return_raw_mag": 7.464114223207746, "train/extr_return_raw_max": 7.464114223207746, "train/extr_return_raw_mean": 1.3148036403315408, "train/extr_return_raw_min": -1.0149475276470183, "train/extr_return_raw_std": 1.6489768317767552, "train/extr_reward_mag": 1.0225419351032803, "train/extr_reward_max": 1.0225419351032803, "train/extr_reward_mean": 0.027381165272423198, "train/extr_reward_min": -0.6627570271492005, "train/extr_reward_std": 0.166263675902571, "train/image_loss_mean": 3.42187990461077, "train/image_loss_std": 8.030446222850255, "train/model_loss_mean": 5.938810130528041, "train/model_loss_std": 11.74038314819336, "train/model_opt_grad_norm": 44.35112143925258, "train/model_opt_grad_steps": 31825.3, "train/model_opt_loss": 7853.914571707589, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1321.4285714285713, "train/policy_entropy_mag": 2.4315910475594658, "train/policy_entropy_max": 2.4315910475594658, "train/policy_entropy_mean": 0.5699230274983815, "train/policy_entropy_min": 0.07937503286770412, "train/policy_entropy_std": 0.6159462170941489, "train/policy_logprob_mag": 7.438383660997663, "train/policy_logprob_max": -0.009455660943474088, "train/policy_logprob_mean": -0.5698550054005214, "train/policy_logprob_min": -7.438383660997663, "train/policy_logprob_std": 1.1233975274222239, "train/policy_randomness_mag": 0.8582449282918657, "train/policy_randomness_max": 0.8582449282918657, "train/policy_randomness_mean": 0.20115782065050944, "train/policy_randomness_min": 0.02801590333027499, "train/policy_randomness_std": 0.21740198454686574, "train/post_ent_mag": 43.752083260672435, "train/post_ent_max": 43.752083260672435, "train/post_ent_mean": 28.040900884355818, "train/post_ent_min": 15.91154101235526, "train/post_ent_std": 4.6075742653438025, "train/prior_ent_mag": 71.96055232456752, "train/prior_ent_max": 71.96055232456752, "train/prior_ent_mean": 32.167979512895855, "train/prior_ent_min": 17.777692999158585, "train/prior_ent_std": 8.658736494609288, "train/rep_loss_mean": 4.128305738312857, "train/rep_loss_std": 7.96249532699585, "train/reward_avg": 0.02169224319181272, "train/reward_loss_mean": 0.039595060609281064, "train/reward_loss_std": 0.17776682983551706, "train/reward_max_data": 1.0042857153075082, "train/reward_max_pred": 1.0073891060692923, "train/reward_neg_acc": 0.9955594820635659, "train/reward_neg_loss": 0.020658118490661893, "train/reward_pos_acc": 0.9884557170527322, "train/reward_pos_loss": 0.7362728519099099, "train/reward_pred": 0.02147206153188433, "train/reward_rate": 0.026576450892857144, "stats/sum_log_reward": 4.322222126854791, "stats/max_log_achievement_collect_drink": 4.555555555555555, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_wood": 3.111111111111111, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.1111111111111111, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_table": 1.4444444444444444, "stats/max_log_achievement_wake_up": 2.2222222222222223, "stats/mean_log_entropy": 0.44892654650741154, "replay/size": 65444.0, "replay/inserts": 1408.0, "replay/samples": 11264.0, "replay/insert_wait_avg": 3.7193637002598154e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3234517113728956e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2276608943939, "timer/env.step_count": 1408.0, "timer/env.step_total": 23.669390201568604, "timer/env.step_frac": 0.078838139467417, "timer/env.step_avg": 0.016810646449977703, "timer/env.step_min": 0.002902984619140625, "timer/env.step_max": 2.0139594078063965, "timer/replay.add_count": 1408.0, "timer/replay.add_total": 0.26340818405151367, "timer/replay.add_frac": 0.0008773614771763764, "timer/replay.add_avg": 0.00018707967617295006, "timer/replay.add_min": 6.0558319091796875e-05, "timer/replay.add_max": 0.0011911392211914062, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022128820419311523, "timer/logger.write_frac": 7.370680087700317e-05, "timer/logger.write_avg": 0.022128820419311523, "timer/logger.write_min": 0.022128820419311523, "timer/logger.write_max": 0.022128820419311523, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00038743019104003906, "timer/checkpoint.save_frac": 1.2904546832422578e-06, "timer/checkpoint.save_avg": 0.00038743019104003906, "timer/checkpoint.save_min": 0.00038743019104003906, "timer/checkpoint.save_max": 0.00038743019104003906, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.50545072555542, "timer/agent.save_frac": 0.005014363836665161, "timer/agent.save_avg": 1.50545072555542, "timer/agent.save_min": 1.50545072555542, "timer/agent.save_max": 1.50545072555542, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.559226989746094e-05, "timer/replay.save_frac": 2.850912192516742e-07, "timer/replay.save_avg": 8.559226989746094e-05, "timer/replay.save_min": 8.559226989746094e-05, "timer/replay.save_max": 8.559226989746094e-05, "timer/agent.policy_count": 1408.0, "timer/agent.policy_total": 12.552477598190308, "timer/agent.policy_frac": 0.04180986375737605, "timer/agent.policy_avg": 0.008915111930532888, "timer/agent.policy_min": 0.005671977996826172, "timer/agent.policy_max": 1.5027940273284912, "timer/dataset_count": 704.0, "timer/dataset_total": 0.06404256820678711, "timer/dataset_frac": 0.00021331335032888357, "timer/dataset_avg": 9.09695571119135e-05, "timer/dataset_min": 5.817413330078125e-05, "timer/dataset_max": 0.0002219676971435547, "timer/agent.train_count": 704.0, "timer/agent.train_total": 262.9493684768677, "timer/agent.train_frac": 0.8758332516515225, "timer/agent.train_avg": 0.37350762567736884, "timer/agent.train_min": 0.3644249439239502, "timer/agent.train_max": 0.8862700462341309, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22184514999389648, "timer/agent.report_frac": 0.0007389230870100649, "timer/agent.report_avg": 0.22184514999389648, "timer/agent.report_min": 0.22184514999389648, "timer/agent.report_max": 0.22184514999389648, "fps": 4.689684607963534}
{"step": 65600, "episode/length": 154.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.03225806451612903}
{"step": 65772, "episode/length": 171.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.040697674418604654}
{"step": 65957, "episode/length": 184.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.032432432432432434}
{"step": 66114, "episode/length": 156.0, "episode/score": 4.0999999940395355, "episode/sum_abs_reward": 5.9000000059604645, "episode/reward_rate": 0.03821656050955414}
{"step": 66151, "episode/length": 36.0, "episode/score": 2.0999999716877937, "episode/sum_abs_reward": 4.1000000312924385, "episode/reward_rate": 0.10810810810810811}
{"step": 66327, "episode/length": 175.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.03977272727272727}
{"step": 66504, "episode/length": 176.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.03954802259887006}
{"step": 66663, "episode/length": 158.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.03773584905660377}
{"step": 66828, "episode/length": 164.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.030303030303030304}
{"step": 66941, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.9813283284505205, "train/action_min": 0.0, "train/action_std": 3.6082754698064594, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.039195375284180045, "train/actor_opt_grad_steps": 32565.0, "train/actor_opt_loss": -17.552192161480587, "train/adv_mag": 0.5814837047623264, "train/adv_max": 0.5379952188167307, "train/adv_mean": 0.0012519905794255869, "train/adv_min": -0.4570419502755006, "train/adv_std": 0.05297071367709173, "train/cont_avg": 0.9943576388888888, "train/cont_loss_mean": 7.370023208687194e-05, "train/cont_loss_std": 0.0021133975273781086, "train/cont_neg_acc": 0.9959490746259689, "train/cont_neg_loss": 0.007384076388007088, "train/cont_pos_acc": 0.9999999759925736, "train/cont_pos_loss": 2.2302216480301557e-05, "train/cont_pred": 0.9943649255567126, "train/cont_rate": 0.9943576388888888, "train/dyn_loss_mean": 4.068495260344611, "train/dyn_loss_std": 7.971175458696154, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0957745330201254, "train/extr_critic_critic_opt_grad_steps": 32565.0, "train/extr_critic_critic_opt_loss": 14879.32379828559, "train/extr_critic_mag": 7.034989502694872, "train/extr_critic_max": 7.034989502694872, "train/extr_critic_mean": 1.3313085337479909, "train/extr_critic_min": -0.6221008367008634, "train/extr_critic_std": 1.6512669490443335, "train/extr_return_normed_mag": 1.6022009899218876, "train/extr_return_normed_max": 1.6022009899218876, "train/extr_return_normed_mean": 0.3283994576583306, "train/extr_return_normed_min": -0.16574212267167038, "train/extr_return_normed_std": 0.3411604468193319, "train/extr_return_rate": 0.5554832456012567, "train/extr_return_raw_mag": 7.582556804021199, "train/extr_return_raw_max": 7.582556804021199, "train/extr_return_raw_mean": 1.337434674302737, "train/extr_return_raw_min": -1.0853111437625356, "train/extr_return_raw_std": 1.672728654411104, "train/extr_reward_mag": 1.0209584269258711, "train/extr_reward_max": 1.0209584269258711, "train/extr_reward_mean": 0.026103262970637944, "train/extr_reward_min": -0.6909808135694928, "train/extr_reward_std": 0.16366909061455065, "train/image_loss_mean": 3.2180338038338556, "train/image_loss_std": 7.800164361794789, "train/model_loss_mean": 5.698441346486409, "train/model_loss_std": 11.563028905126783, "train/model_opt_grad_norm": 41.07322234577603, "train/model_opt_grad_steps": 32534.958333333332, "train/model_opt_loss": 8945.624464246961, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1562.5, "train/policy_entropy_mag": 2.4300144380993314, "train/policy_entropy_max": 2.4300144380993314, "train/policy_entropy_mean": 0.5431899258659946, "train/policy_entropy_min": 0.07937502943807179, "train/policy_entropy_std": 0.5911013790302806, "train/policy_logprob_mag": 7.438383638858795, "train/policy_logprob_max": -0.009455659206853144, "train/policy_logprob_mean": -0.5441547508041064, "train/policy_logprob_min": -7.438383638858795, "train/policy_logprob_std": 1.1101440116763115, "train/policy_randomness_mag": 0.8576884592572848, "train/policy_randomness_max": 0.8576884592572848, "train/policy_randomness_mean": 0.19172220842705834, "train/policy_randomness_min": 0.028015902136555977, "train/policy_randomness_std": 0.20863284977773824, "train/post_ent_mag": 43.70671855078803, "train/post_ent_max": 43.70671855078803, "train/post_ent_mean": 28.334777302212185, "train/post_ent_min": 15.862235797776115, "train/post_ent_std": 4.63256213400099, "train/prior_ent_mag": 72.11452113257513, "train/prior_ent_max": 72.11452113257513, "train/prior_ent_mean": 32.386939234203766, "train/prior_ent_min": 17.480738308694626, "train/prior_ent_std": 8.666032022900051, "train/rep_loss_mean": 4.068495260344611, "train/rep_loss_std": 7.971175458696154, "train/reward_avg": 0.021209038561210036, "train/reward_loss_mean": 0.03923674103700452, "train/reward_loss_std": 0.18473603679902023, "train/reward_max_data": 1.008333335320155, "train/reward_max_pred": 1.0099194331301584, "train/reward_neg_acc": 0.996089110771815, "train/reward_neg_loss": 0.020260343108222716, "train/reward_pos_acc": 0.9839924466278818, "train/reward_pos_loss": 0.7421396540270911, "train/reward_pred": 0.020921967652005453, "train/reward_rate": 0.026204427083333332, "stats/sum_log_reward": 4.544444349077013, "stats/max_log_achievement_collect_drink": 2.4444444444444446, "stats/max_log_achievement_collect_sapling": 2.2222222222222223, "stats/max_log_achievement_collect_wood": 5.333333333333333, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.1111111111111111, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_table": 1.8888888888888888, "stats/max_log_achievement_wake_up": 1.5555555555555556, "stats/mean_log_entropy": 0.3657142089472877, "replay/size": 66878.0, "replay/inserts": 1434.0, "replay/samples": 11472.0, "replay/insert_wait_avg": 3.708622611882464e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2661414831419537e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.29683208465576, "timer/env.step_count": 1434.0, "timer/env.step_total": 21.533503532409668, "timer/env.step_frac": 0.07170739492296484, "timer/env.step_avg": 0.0150163901899649, "timer/env.step_min": 0.002913951873779297, "timer/env.step_max": 1.693335771560669, "timer/replay.add_count": 1434.0, "timer/replay.add_total": 0.26895761489868164, "timer/replay.add_frac": 0.0008956392014913451, "timer/replay.add_avg": 0.0001875576115053568, "timer/replay.add_min": 7.05718994140625e-05, "timer/replay.add_max": 0.0019428730010986328, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023965835571289062, "timer/logger.write_frac": 7.980715415783316e-05, "timer/logger.write_avg": 0.023965835571289062, "timer/logger.write_min": 0.023965835571289062, "timer/logger.write_max": 0.023965835571289062, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1434.0, "timer/agent.policy_total": 10.547886371612549, "timer/agent.policy_frac": 0.035124867280115116, "timer/agent.policy_avg": 0.007355569296800941, "timer/agent.policy_min": 0.005702495574951172, "timer/agent.policy_max": 0.020197629928588867, "timer/dataset_count": 717.0, "timer/dataset_total": 0.06432151794433594, "timer/dataset_frac": 0.0002141931285049429, "timer/dataset_avg": 8.970923004788834e-05, "timer/dataset_min": 6.318092346191406e-05, "timer/dataset_max": 0.0001862049102783203, "timer/agent.train_count": 717.0, "timer/agent.train_total": 267.1518979072571, "timer/agent.train_frac": 0.8896260944635777, "timer/agent.train_avg": 0.3725967892709304, "timer/agent.train_min": 0.36708736419677734, "timer/agent.train_max": 0.38723301887512207, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21811151504516602, "timer/agent.report_frac": 0.0007263197334818333, "timer/agent.report_avg": 0.21811151504516602, "timer/agent.report_min": 0.21811151504516602, "timer/agent.report_max": 0.21811151504516602, "fps": 4.775198082177069}
{"step": 66996, "episode/length": 167.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.900000028312206, "episode/reward_rate": 0.03571428571428571}
{"step": 67183, "episode/length": 186.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.0374331550802139}
{"step": 67354, "episode/length": 170.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03508771929824561}
{"step": 67536, "episode/length": 181.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.3000000193715096, "episode/reward_rate": 0.027472527472527472}
{"step": 67693, "episode/length": 156.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03821656050955414}
{"step": 67876, "episode/length": 182.0, "episode/score": 5.0999999940395355, "episode/sum_abs_reward": 6.9000000059604645, "episode/reward_rate": 0.03825136612021858}
{"step": 68008, "episode/length": 131.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.3000000193715096, "episode/reward_rate": 0.03787878787878788}
{"step": 68174, "episode/length": 165.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 5.299999997019768, "episode/reward_rate": 0.030120481927710843}
{"step": 68336, "episode/length": 161.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 5.5, "episode/reward_rate": 0.030864197530864196}
{"step": 68375, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.934324452574824, "train/action_min": 0.0, "train/action_std": 3.6182360380468235, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.040512889938455234, "train/actor_opt_grad_steps": 33280.0, "train/actor_opt_loss": -16.141366970790944, "train/adv_mag": 0.6068724616312645, "train/adv_max": 0.546066444104826, "train/adv_mean": 0.0015465658421228102, "train/adv_min": -0.4629073399053493, "train/adv_std": 0.05328498665295856, "train/cont_avg": 0.994690801056338, "train/cont_loss_mean": 5.9641505710177124e-05, "train/cont_loss_std": 0.0016473794200567388, "train/cont_neg_acc": 0.9976190481867109, "train/cont_neg_loss": 0.0046485037840674134, "train/cont_pos_acc": 0.9999999806914531, "train/cont_pos_loss": 3.307917287517586e-05, "train/cont_pred": 0.9946777392441118, "train/cont_rate": 0.994690801056338, "train/dyn_loss_mean": 4.285002627842863, "train/dyn_loss_std": 8.01735261460425, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0924755628679839, "train/extr_critic_critic_opt_grad_steps": 33280.0, "train/extr_critic_critic_opt_loss": 15030.760577134683, "train/extr_critic_mag": 6.910452963600696, "train/extr_critic_max": 6.910452963600696, "train/extr_critic_mean": 1.2342866726324593, "train/extr_critic_min": -0.6311089455241888, "train/extr_critic_std": 1.5547439153765288, "train/extr_return_normed_mag": 1.5981246871008, "train/extr_return_normed_max": 1.5981246871008, "train/extr_return_normed_mean": 0.3150349658139994, "train/extr_return_normed_min": -0.1734141965567226, "train/extr_return_normed_std": 0.3271285356350348, "train/extr_return_rate": 0.5250321253084801, "train/extr_return_raw_mag": 7.443298118215211, "train/extr_return_raw_max": 7.443298118215211, "train/extr_return_raw_mean": 1.2418050153154723, "train/extr_return_raw_min": -1.1187713683491023, "train/extr_return_raw_std": 1.5811213322088753, "train/extr_reward_mag": 1.0194997283774363, "train/extr_reward_max": 1.0194997283774363, "train/extr_reward_mean": 0.025852331432553246, "train/extr_reward_min": -0.686716464203848, "train/extr_reward_std": 0.16259241272026384, "train/image_loss_mean": 3.2758006881660138, "train/image_loss_std": 7.8312012779880575, "train/model_loss_mean": 5.885445567923532, "train/model_loss_std": 11.630973567425364, "train/model_opt_grad_norm": 43.999458447308605, "train/model_opt_grad_steps": 33248.633802816905, "train/model_opt_loss": 5977.068380006602, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1021.1267605633802, "train/policy_entropy_mag": 2.4375091774362914, "train/policy_entropy_max": 2.4375091774362914, "train/policy_entropy_mean": 0.5387107692134212, "train/policy_entropy_min": 0.07937502472753256, "train/policy_entropy_std": 0.5833225204071528, "train/policy_logprob_mag": 7.438383659846346, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.5384699362264552, "train/policy_logprob_min": -7.438383659846346, "train/policy_logprob_std": 1.103058637028009, "train/policy_randomness_mag": 0.8603337709332856, "train/policy_randomness_max": 0.8603337709332856, "train/policy_randomness_mean": 0.19014126062393188, "train/policy_randomness_min": 0.028015900350792308, "train/policy_randomness_std": 0.20588725364544022, "train/post_ent_mag": 43.898111316519724, "train/post_ent_max": 43.898111316519724, "train/post_ent_mean": 28.410304808280838, "train/post_ent_min": 15.659815855429207, "train/post_ent_std": 4.726716494896043, "train/prior_ent_mag": 72.17104995082802, "train/prior_ent_max": 72.17104995082802, "train/prior_ent_mean": 32.673215436263824, "train/prior_ent_min": 17.72414821302387, "train/prior_ent_std": 8.757080232593376, "train/rep_loss_mean": 4.285002627842863, "train/rep_loss_std": 8.01735261460425, "train/reward_avg": 0.019411586710369924, "train/reward_loss_mean": 0.038583670755926995, "train/reward_loss_std": 0.18617484172884846, "train/reward_max_data": 1.008450706240157, "train/reward_max_pred": 1.0093433672273662, "train/reward_neg_acc": 0.9957826339023214, "train/reward_neg_loss": 0.02105286061553888, "train/reward_pos_acc": 0.9856831590894243, "train/reward_pos_loss": 0.7456990371287708, "train/reward_pred": 0.019241709839290296, "train/reward_rate": 0.024276518485915492, "stats/sum_log_reward": 4.544444428549872, "stats/max_log_achievement_collect_drink": 2.7777777777777777, "stats/max_log_achievement_collect_sapling": 2.2222222222222223, "stats/max_log_achievement_collect_wood": 2.888888888888889, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.2222222222222222, "stats/max_log_achievement_eat_cow": 0.1111111111111111, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.7777777777777777, "stats/max_log_achievement_place_table": 1.2222222222222223, "stats/max_log_achievement_wake_up": 1.8888888888888888, "stats/mean_log_entropy": 0.47998471392525566, "replay/size": 68312.0, "replay/inserts": 1434.0, "replay/samples": 11472.0, "replay/insert_wait_avg": 3.6697174880960164e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.281853167748019e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2930471897125, "timer/env.step_count": 1434.0, "timer/env.step_total": 21.708505868911743, "timer/env.step_frac": 0.07229107057945708, "timer/env.step_avg": 0.015138428081528411, "timer/env.step_min": 0.003065347671508789, "timer/env.step_max": 1.7446837425231934, "timer/replay.add_count": 1434.0, "timer/replay.add_total": 0.2642226219177246, "timer/replay.add_frac": 0.0008798825826653251, "timer/replay.add_avg": 0.00018425566381989164, "timer/replay.add_min": 7.104873657226562e-05, "timer/replay.add_max": 0.003071308135986328, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03232693672180176, "timer/logger.write_frac": 0.00010765129937017476, "timer/logger.write_avg": 0.03232693672180176, "timer/logger.write_min": 0.03232693672180176, "timer/logger.write_max": 0.03232693672180176, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1434.0, "timer/agent.policy_total": 10.449861288070679, "timer/agent.policy_frac": 0.034798878581657255, "timer/agent.policy_avg": 0.007287211497957238, "timer/agent.policy_min": 0.00570225715637207, "timer/agent.policy_max": 0.017107486724853516, "timer/dataset_count": 717.0, "timer/dataset_total": 0.0637209415435791, "timer/dataset_frac": 0.00021219586047665928, "timer/dataset_avg": 8.887160605799038e-05, "timer/dataset_min": 6.222724914550781e-05, "timer/dataset_max": 0.00020265579223632812, "timer/agent.train_count": 717.0, "timer/agent.train_total": 267.0654203891754, "timer/agent.train_frac": 0.8893493302242682, "timer/agent.train_avg": 0.37247617906440084, "timer/agent.train_min": 0.36397528648376465, "timer/agent.train_max": 0.3871643543243408, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22198200225830078, "timer/agent.report_frac": 0.0007392179217458268, "timer/agent.report_avg": 0.22198200225830078, "timer/agent.report_min": 0.22198200225830078, "timer/agent.report_max": 0.22198200225830078, "fps": 4.775267522331375}
{"step": 68521, "episode/length": 184.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.299999997019768, "episode/reward_rate": 0.03783783783783784}
{"step": 68609, "episode/length": 87.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.056818181818181816}
{"step": 68875, "episode/length": 265.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.03007518796992481}
{"step": 68924, "episode/length": 48.0, "episode/score": 3.0999999940395355, "episode/sum_abs_reward": 4.9000000059604645, "episode/reward_rate": 0.10204081632653061}
{"step": 69120, "episode/length": 195.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.030612244897959183}
{"step": 69320, "episode/length": 199.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.3000000193715096, "episode/reward_rate": 0.03}
{"step": 69463, "episode/length": 142.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.04195804195804196}
{"step": 69614, "episode/length": 150.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.039735099337748346}
{"step": 69785, "episode/length": 170.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.04093567251461988}
{"step": 69786, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.929951412577025, "train/action_min": 0.0, "train/action_std": 3.683258657724085, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0427964301648694, "train/actor_opt_grad_steps": 33990.0, "train/actor_opt_loss": -14.395130499987536, "train/adv_mag": 0.6790703778535547, "train/adv_max": 0.6272878693023198, "train/adv_mean": 0.0032465227201792517, "train/adv_min": -0.5257236613354213, "train/adv_std": 0.05869188101988443, "train/cont_avg": 0.9944432218309859, "train/cont_loss_mean": 0.00023139561538118228, "train/cont_loss_std": 0.007210667782210678, "train/cont_neg_acc": 0.9979879285248232, "train/cont_neg_loss": 0.0076070947679781195, "train/cont_pos_acc": 0.9999723258152814, "train/cont_pos_loss": 0.00018145324899536153, "train/cont_pred": 0.9944233029661044, "train/cont_rate": 0.9944432218309859, "train/dyn_loss_mean": 4.324456241768851, "train/dyn_loss_std": 8.157230471221494, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.087255276424784, "train/extr_critic_critic_opt_grad_steps": 33990.0, "train/extr_critic_critic_opt_loss": 15252.245653609154, "train/extr_critic_mag": 7.200510374257262, "train/extr_critic_max": 7.200510374257262, "train/extr_critic_mean": 1.2292461286128407, "train/extr_critic_min": -0.643697438105731, "train/extr_critic_std": 1.5847110127059507, "train/extr_return_normed_mag": 1.722265794243611, "train/extr_return_normed_max": 1.722265794243611, "train/extr_return_normed_mean": 0.3243422716016501, "train/extr_return_normed_min": -0.17943884568734908, "train/extr_return_normed_std": 0.3470792598287824, "train/extr_return_rate": 0.5140175962112319, "train/extr_return_raw_mag": 7.778993398370877, "train/extr_return_raw_max": 7.778993398370877, "train/extr_return_raw_mean": 1.2443410451983061, "train/extr_return_raw_min": -1.112874685878485, "train/extr_return_raw_std": 1.6236300904985885, "train/extr_reward_mag": 1.0222928188216518, "train/extr_reward_max": 1.0222928188216518, "train/extr_reward_mean": 0.026232169409820313, "train/extr_reward_min": -0.6857562199444838, "train/extr_reward_std": 0.1638566253470703, "train/image_loss_mean": 3.3816535808670687, "train/image_loss_std": 8.444171072731555, "train/model_loss_mean": 6.015470712957248, "train/model_loss_std": 12.297754992901439, "train/model_opt_grad_norm": 42.42574557452134, "train/model_opt_grad_steps": 33958.0, "train/model_opt_loss": 3759.669189453125, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 625.0, "train/policy_entropy_mag": 2.4532793978570213, "train/policy_entropy_max": 2.4532793978570213, "train/policy_entropy_mean": 0.5300180236218681, "train/policy_entropy_min": 0.07937502126458665, "train/policy_entropy_std": 0.5795663586804565, "train/policy_logprob_mag": 7.438383733722525, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.5306876759294054, "train/policy_logprob_min": -7.438383733722525, "train/policy_logprob_std": 1.0997243011501474, "train/policy_randomness_mag": 0.8658999674756762, "train/policy_randomness_max": 0.8658999674756762, "train/policy_randomness_mean": 0.1870731060773554, "train/policy_randomness_min": 0.028015899301414758, "train/policy_randomness_std": 0.2045614929266379, "train/post_ent_mag": 43.74848782176703, "train/post_ent_max": 43.74848782176703, "train/post_ent_mean": 28.59096903196523, "train/post_ent_min": 15.750011591844157, "train/post_ent_std": 4.592296939500621, "train/prior_ent_mag": 72.26641609299351, "train/prior_ent_max": 72.26641609299351, "train/prior_ent_mean": 32.91062258330869, "train/prior_ent_min": 17.688947019442708, "train/prior_ent_std": 8.716615844780291, "train/rep_loss_mean": 4.324456241768851, "train/rep_loss_std": 8.157230471221494, "train/reward_avg": 0.020792528632765924, "train/reward_loss_mean": 0.038911974529775094, "train/reward_loss_std": 0.18648003293594845, "train/reward_max_data": 1.0112676083202092, "train/reward_max_pred": 1.0124670367845348, "train/reward_neg_acc": 0.9957905344560113, "train/reward_neg_loss": 0.019802244301413148, "train/reward_pos_acc": 0.9823898992068331, "train/reward_pos_loss": 0.7602477082064454, "train/reward_pred": 0.020548849189522822, "train/reward_rate": 0.02577574823943662, "stats/sum_log_reward": 4.988888793521458, "stats/max_log_achievement_collect_drink": 2.3333333333333335, "stats/max_log_achievement_collect_sapling": 2.111111111111111, "stats/max_log_achievement_collect_wood": 4.444444444444445, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.1111111111111111, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.2222222222222222, "stats/max_log_achievement_place_plant": 1.5555555555555556, "stats/max_log_achievement_place_table": 1.8888888888888888, "stats/max_log_achievement_wake_up": 1.2222222222222223, "stats/mean_log_entropy": 0.3903668489721086, "replay/size": 69723.0, "replay/inserts": 1411.0, "replay/samples": 11280.0, "replay/insert_wait_avg": 3.857447017937329e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3284649409300891e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.4969856739044, "timer/env.step_count": 1411.0, "timer/env.step_total": 21.70485806465149, "timer/env.step_frac": 0.07222986951424974, "timer/env.step_avg": 0.01538260670776151, "timer/env.step_min": 0.0031423568725585938, "timer/env.step_max": 1.702087640762329, "timer/replay.add_count": 1411.0, "timer/replay.add_total": 0.27462339401245117, "timer/replay.add_frac": 0.0009138973337671648, "timer/replay.add_avg": 0.0001946303288536153, "timer/replay.add_min": 6.580352783203125e-05, "timer/replay.add_max": 0.0018908977508544922, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021494150161743164, "timer/logger.write_frac": 7.152867145585397e-05, "timer/logger.write_avg": 0.021494150161743164, "timer/logger.write_min": 0.021494150161743164, "timer/logger.write_max": 0.021494150161743164, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0005407333374023438, "timer/checkpoint.save_frac": 1.799463432851672e-06, "timer/checkpoint.save_avg": 0.0005407333374023438, "timer/checkpoint.save_min": 0.0005407333374023438, "timer/checkpoint.save_max": 0.0005407333374023438, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4162352085113525, "timer/agent.save_frac": 0.00471297642249308, "timer/agent.save_avg": 1.4162352085113525, "timer/agent.save_min": 1.4162352085113525, "timer/agent.save_max": 1.4162352085113525, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.417533874511719e-05, "timer/replay.save_frac": 3.133986137462127e-07, "timer/replay.save_avg": 9.417533874511719e-05, "timer/replay.save_min": 9.417533874511719e-05, "timer/replay.save_max": 9.417533874511719e-05, "timer/agent.policy_count": 1411.0, "timer/agent.policy_total": 11.841512680053711, "timer/agent.policy_frac": 0.03940642750042083, "timer/agent.policy_avg": 0.008392283968854507, "timer/agent.policy_min": 0.0055735111236572266, "timer/agent.policy_max": 1.4154431819915771, "timer/dataset_count": 705.0, "timer/dataset_total": 0.0644841194152832, "timer/dataset_frac": 0.000214591568267046, "timer/dataset_avg": 9.14668360500471e-05, "timer/dataset_min": 5.841255187988281e-05, "timer/dataset_max": 0.000240325927734375, "timer/agent.train_count": 705.0, "timer/agent.train_total": 265.2010929584503, "timer/agent.train_frac": 0.8825416080753743, "timer/agent.train_avg": 0.37617176306163164, "timer/agent.train_min": 0.36632299423217773, "timer/agent.train_max": 2.775062322616577, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.1994311809539795, "timer/agent.report_frac": 0.0006636711529958564, "timer/agent.report_avg": 0.1994311809539795, "timer/agent.report_min": 0.1994311809539795, "timer/agent.report_max": 0.1994311809539795, "fps": 4.695457675124108}
{"step": 69954, "episode/length": 168.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.03550295857988166}
{"step": 70143, "episode/length": 188.0, "episode/score": 4.099999971687794, "episode/sum_abs_reward": 6.1000000312924385, "episode/reward_rate": 0.031746031746031744}
{"step": 70306, "episode/length": 162.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03680981595092025}
{"step": 70562, "episode/length": 255.0, "episode/score": 5.0999999940395355, "episode/sum_abs_reward": 8.500000029802322, "episode/reward_rate": 0.02734375}
{"step": 70726, "episode/length": 163.0, "episode/score": 3.0999999791383743, "episode/sum_abs_reward": 5.30000002682209, "episode/reward_rate": 0.024390243902439025}
{"step": 70886, "episode/length": 159.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.0375}
{"step": 71049, "episode/length": 162.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.03067484662576687}
{"step": 71207, "episode/length": 157.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.0379746835443038}
{"step": 71225, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.797171698676215, "train/action_min": 0.0, "train/action_std": 3.656130231089062, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04305420293369227, "train/actor_opt_grad_steps": 34705.0, "train/actor_opt_loss": -8.956653019620312, "train/adv_mag": 0.5981395186649429, "train/adv_max": 0.5625814025600752, "train/adv_mean": 0.004941046087777876, "train/adv_min": -0.47744687522451085, "train/adv_std": 0.057794112556924425, "train/cont_avg": 0.9944254557291666, "train/cont_loss_mean": 2.4070598771667544e-05, "train/cont_loss_std": 0.0005770730167695445, "train/cont_neg_acc": 0.9965277777777778, "train/cont_neg_loss": 0.0035837677198489676, "train/cont_pos_acc": 0.9999999784761004, "train/cont_pos_loss": 9.640716318889039e-06, "train/cont_pred": 0.994426454934809, "train/cont_rate": 0.9944254557291666, "train/dyn_loss_mean": 4.277159319983588, "train/dyn_loss_std": 8.156152354346382, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.2111761280232005, "train/extr_critic_critic_opt_grad_steps": 34705.0, "train/extr_critic_critic_opt_loss": 15498.940158420139, "train/extr_critic_mag": 7.116013791826036, "train/extr_critic_max": 7.116013791826036, "train/extr_critic_mean": 1.302863294051753, "train/extr_critic_min": -0.6159553279479345, "train/extr_critic_std": 1.6229222748014662, "train/extr_return_normed_mag": 1.6520964486731424, "train/extr_return_normed_max": 1.6520964486731424, "train/extr_return_normed_mean": 0.330357963219285, "train/extr_return_normed_min": -0.15499833195159832, "train/extr_return_normed_std": 0.3432565964758396, "train/extr_return_rate": 0.5251311394903395, "train/extr_return_raw_mag": 7.73682357205285, "train/extr_return_raw_max": 7.73682357205285, "train/extr_return_raw_mean": 1.326919964618153, "train/extr_return_raw_min": -1.029030981163184, "train/extr_return_raw_std": 1.6666525536113315, "train/extr_reward_mag": 1.0228936208619013, "train/extr_reward_max": 1.0228936208619013, "train/extr_reward_mean": 0.027308549783709977, "train/extr_reward_min": -0.6775067796309789, "train/extr_reward_std": 0.16746230775283444, "train/image_loss_mean": 3.347043419877688, "train/image_loss_std": 7.95402028825548, "train/model_loss_mean": 5.9527049329545765, "train/model_loss_std": 11.806518051359388, "train/model_opt_grad_norm": 47.33217904302809, "train/model_opt_grad_steps": 34673.0, "train/model_opt_loss": 7297.291568332248, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1223.9583333333333, "train/policy_entropy_mag": 2.4012283749050565, "train/policy_entropy_max": 2.4012283749050565, "train/policy_entropy_mean": 0.48387797963288093, "train/policy_entropy_min": 0.07937502478145891, "train/policy_entropy_std": 0.5354769606557157, "train/policy_logprob_mag": 7.438383724954393, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.48476280147830647, "train/policy_logprob_min": -7.438383724954393, "train/policy_logprob_std": 1.0696701862745814, "train/policy_randomness_mag": 0.8475282390912374, "train/policy_randomness_max": 0.8475282390912374, "train/policy_randomness_mean": 0.17078769103520447, "train/policy_randomness_min": 0.028015900455001328, "train/policy_randomness_std": 0.1889998691363467, "train/post_ent_mag": 43.827884356180824, "train/post_ent_max": 43.827884356180824, "train/post_ent_mean": 28.681684997346665, "train/post_ent_min": 15.949763589435154, "train/post_ent_std": 4.6388085881869, "train/prior_ent_mag": 72.40931744045682, "train/prior_ent_max": 72.40931744045682, "train/prior_ent_mean": 32.91017519103156, "train/prior_ent_min": 17.87100127008226, "train/prior_ent_std": 8.761146326859793, "train/rep_loss_mean": 4.277159319983588, "train/rep_loss_std": 8.156152354346382, "train/reward_avg": 0.02038302923190511, "train/reward_loss_mean": 0.039341870747092694, "train/reward_loss_std": 0.18360159535788828, "train/reward_max_data": 1.008333335320155, "train/reward_max_pred": 1.0104350397984188, "train/reward_neg_acc": 0.9957227384050688, "train/reward_neg_loss": 0.02105483950840102, "train/reward_pos_acc": 0.9858465865254402, "train/reward_pos_loss": 0.741416321032577, "train/reward_pred": 0.02027014337687029, "train/reward_rate": 0.025499131944444444, "stats/sum_log_reward": 4.599999904632568, "stats/max_log_achievement_collect_drink": 1.75, "stats/max_log_achievement_collect_sapling": 3.0, "stats/max_log_achievement_collect_wood": 5.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 2.125, "stats/max_log_achievement_place_table": 2.125, "stats/max_log_achievement_wake_up": 1.125, "stats/mean_log_entropy": 0.3459756150841713, "replay/size": 71162.0, "replay/inserts": 1439.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.749417960436664e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2558367517259385e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2203299999237, "timer/env.step_count": 1439.0, "timer/env.step_total": 20.278982162475586, "timer/env.step_frac": 0.06754699844104742, "timer/env.step_avg": 0.014092412899566078, "timer/env.step_min": 0.0030181407928466797, "timer/env.step_max": 1.7115492820739746, "timer/replay.add_count": 1439.0, "timer/replay.add_total": 0.25362348556518555, "timer/replay.add_frac": 0.0008447911757516554, "timer/replay.add_avg": 0.00017624981623709906, "timer/replay.add_min": 6.508827209472656e-05, "timer/replay.add_max": 0.001180410385131836, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027701854705810547, "timer/logger.write_frac": 9.227174823842738e-05, "timer/logger.write_avg": 0.027701854705810547, "timer/logger.write_min": 0.027701854705810547, "timer/logger.write_max": 0.027701854705810547, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1439.0, "timer/agent.policy_total": 10.56738567352295, "timer/agent.policy_frac": 0.03519876776341441, "timer/agent.policy_avg": 0.007343561969091695, "timer/agent.policy_min": 0.005721092224121094, "timer/agent.policy_max": 0.019036293029785156, "timer/dataset_count": 720.0, "timer/dataset_total": 0.06473493576049805, "timer/dataset_frac": 0.00021562475719254088, "timer/dataset_avg": 8.990963300069174e-05, "timer/dataset_min": 6.747245788574219e-05, "timer/dataset_max": 0.00018858909606933594, "timer/agent.train_count": 720.0, "timer/agent.train_total": 268.34584164619446, "timer/agent.train_frac": 0.8938296805091869, "timer/agent.train_avg": 0.37270255784193673, "timer/agent.train_min": 0.36670660972595215, "timer/agent.train_max": 0.3847637176513672, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20157313346862793, "timer/agent.report_frac": 0.000671417333625205, "timer/agent.report_avg": 0.20157313346862793, "timer/agent.report_min": 0.20157313346862793, "timer/agent.report_max": 0.20157313346862793, "fps": 4.7930702123426405}
{"step": 71479, "episode/length": 271.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.022058823529411766}
{"step": 71641, "episode/length": 161.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.030864197530864196}
{"step": 71818, "episode/length": 176.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.700000025331974, "episode/reward_rate": 0.03389830508474576}
{"step": 72032, "episode/length": 213.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.700000002980232, "episode/reward_rate": 0.03271028037383177}
{"step": 72206, "episode/length": 173.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.040229885057471264}
{"step": 72392, "episode/length": 185.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.299999997019768, "episode/reward_rate": 0.03763440860215054}
{"step": 72549, "episode/length": 156.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.044585987261146494}
{"step": 72675, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 5.073272705078125, "train/action_min": 0.0, "train/action_std": 4.085943834649192, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04245065411345826, "train/actor_opt_grad_steps": 35425.0, "train/actor_opt_loss": -11.07665403942681, "train/adv_mag": 0.6858975340922674, "train/adv_max": 0.6501432938708199, "train/adv_mean": 0.0033989729919186276, "train/adv_min": -0.5361083452072408, "train/adv_std": 0.05741478150917424, "train/cont_avg": 0.9943169487847222, "train/cont_loss_mean": 4.36584203495411e-05, "train/cont_loss_std": 0.0012168675480034431, "train/cont_neg_acc": 0.9972222223877907, "train/cont_neg_loss": 0.003108027779995205, "train/cont_pos_acc": 0.999986369576719, "train/cont_pos_loss": 2.8791367778779886e-05, "train/cont_pred": 0.9943085337678591, "train/cont_rate": 0.9943169487847222, "train/dyn_loss_mean": 4.21215741833051, "train/dyn_loss_std": 8.063631547821892, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1652918954690297, "train/extr_critic_critic_opt_grad_steps": 35425.0, "train/extr_critic_critic_opt_loss": 15394.451999240451, "train/extr_critic_mag": 8.193704320324791, "train/extr_critic_max": 8.193704320324791, "train/extr_critic_mean": 1.4553987334171932, "train/extr_critic_min": -0.6340485529767143, "train/extr_critic_std": 1.8148694584767024, "train/extr_return_normed_mag": 1.7508336553970973, "train/extr_return_normed_max": 1.7508336553970973, "train/extr_return_normed_mean": 0.3380085892147488, "train/extr_return_normed_min": -0.1551137204385466, "train/extr_return_normed_std": 0.35632804532845813, "train/extr_return_rate": 0.5425446981357204, "train/extr_return_raw_mag": 8.834918121496836, "train/extr_return_raw_max": 8.834918121496836, "train/extr_return_raw_mean": 1.4730985363324482, "train/extr_return_raw_min": -1.09467989537451, "train/extr_return_raw_std": 1.8561497843927808, "train/extr_reward_mag": 1.018389536274804, "train/extr_reward_max": 1.018389536274804, "train/extr_reward_mean": 0.028278856124314997, "train/extr_reward_min": -0.689395449227757, "train/extr_reward_std": 0.1692693622575866, "train/image_loss_mean": 3.1895214551024966, "train/image_loss_std": 7.927356441815694, "train/model_loss_mean": 5.756809625360701, "train/model_loss_std": 11.712235967318216, "train/model_opt_grad_norm": 39.02696204185486, "train/model_opt_grad_steps": 35392.791666666664, "train/model_opt_loss": 9740.318311903211, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1701.388888888889, "train/policy_entropy_mag": 2.401181740893258, "train/policy_entropy_max": 2.401181740893258, "train/policy_entropy_mean": 0.49112530011269784, "train/policy_entropy_min": 0.07937501722739802, "train/policy_entropy_std": 0.5312801156606939, "train/policy_logprob_mag": 7.438383758068085, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4911343798869186, "train/policy_logprob_min": -7.438383758068085, "train/policy_logprob_std": 1.0758620624740918, "train/policy_randomness_mag": 0.8475117824143834, "train/policy_randomness_max": 0.8475117824143834, "train/policy_randomness_mean": 0.17334567858941025, "train/policy_randomness_min": 0.028015897816254035, "train/policy_randomness_std": 0.18751856912341383, "train/post_ent_mag": 43.8747952249315, "train/post_ent_max": 43.8747952249315, "train/post_ent_mean": 28.924968904919094, "train/post_ent_min": 15.933988213539124, "train/post_ent_std": 4.63535573747423, "train/prior_ent_mag": 72.27369912465413, "train/prior_ent_max": 72.27369912465413, "train/prior_ent_mean": 33.143494023217094, "train/prior_ent_min": 17.72828694184621, "train/prior_ent_std": 8.698829458819496, "train/rep_loss_mean": 4.21215741833051, "train/rep_loss_std": 8.063631547821892, "train/reward_avg": 0.021081542764376435, "train/reward_loss_mean": 0.03995012486767438, "train/reward_loss_std": 0.17969961143616173, "train/reward_max_data": 1.0027777784400516, "train/reward_max_pred": 1.0060814453495874, "train/reward_neg_acc": 0.9956980894009272, "train/reward_neg_loss": 0.02137975216222306, "train/reward_pos_acc": 0.9870318844914436, "train/reward_pos_loss": 0.7281307553251585, "train/reward_pred": 0.021030471918897495, "train/reward_rate": 0.026285807291666668, "stats/sum_log_reward": 5.099999972752163, "stats/max_log_achievement_collect_drink": 2.4285714285714284, "stats/max_log_achievement_collect_sapling": 3.0, "stats/max_log_achievement_collect_wood": 3.142857142857143, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 2.4285714285714284, "stats/max_log_achievement_place_table": 1.4285714285714286, "stats/max_log_achievement_wake_up": 1.5714285714285714, "stats/mean_log_entropy": 0.4321776671069009, "replay/size": 72612.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.6326770124764277e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.284377328280745e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0105311870575, "timer/env.step_count": 1450.0, "timer/env.step_total": 18.42561411857605, "timer/env.step_frac": 0.061416557764392685, "timer/env.step_avg": 0.012707320081776587, "timer/env.step_min": 0.002936124801635742, "timer/env.step_max": 1.6565203666687012, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.2481980323791504, "timer/replay.add_frac": 0.0008272977331732337, "timer/replay.add_avg": 0.00017117105681320718, "timer/replay.add_min": 6.985664367675781e-05, "timer/replay.add_max": 0.0014829635620117188, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02238154411315918, "timer/logger.write_frac": 7.460252819993248e-05, "timer/logger.write_avg": 0.02238154411315918, "timer/logger.write_min": 0.02238154411315918, "timer/logger.write_max": 0.02238154411315918, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 10.538278818130493, "timer/agent.policy_frac": 0.03512636298610412, "timer/agent.policy_avg": 0.007267778495262409, "timer/agent.policy_min": 0.0057179927825927734, "timer/agent.policy_max": 0.014038562774658203, "timer/dataset_count": 725.0, "timer/dataset_total": 0.06369662284851074, "timer/dataset_frac": 0.00021231462307833354, "timer/dataset_avg": 8.785741082553206e-05, "timer/dataset_min": 5.793571472167969e-05, "timer/dataset_max": 0.00022983551025390625, "timer/agent.train_count": 725.0, "timer/agent.train_total": 270.0309262275696, "timer/agent.train_frac": 0.90007149135443, "timer/agent.train_avg": 0.37245644996906146, "timer/agent.train_min": 0.36223387718200684, "timer/agent.train_max": 0.39307308197021484, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20542621612548828, "timer/agent.report_frac": 0.0006847300170186506, "timer/agent.report_avg": 0.20542621612548828, "timer/agent.report_min": 0.20542621612548828, "timer/agent.report_max": 0.20542621612548828, "fps": 4.833066454630375}
{"step": 72717, "episode/length": 167.0, "episode/score": 1.099999986588955, "episode/sum_abs_reward": 3.3000000193715096, "episode/reward_rate": 0.011904761904761904}
{"step": 72883, "episode/length": 165.0, "episode/score": 4.099999979138374, "episode/sum_abs_reward": 6.900000035762787, "episode/reward_rate": 0.030120481927710843}
{"step": 73135, "episode/length": 251.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.027777777777777776}
{"step": 73303, "episode/length": 167.0, "episode/score": 4.100000001490116, "episode/sum_abs_reward": 6.100000001490116, "episode/reward_rate": 0.03571428571428571}
{"step": 73517, "episode/length": 213.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.03271028037383177}
{"step": 73674, "episode/length": 156.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.500000022351742, "episode/reward_rate": 0.03184713375796178}
{"step": 73833, "episode/length": 158.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.03773584905660377}
{"step": 74026, "episode/length": 192.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.031088082901554404}
{"step": 74091, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 5.232680629676496, "train/action_min": 0.0, "train/action_std": 4.206911204566418, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.042111162778357386, "train/actor_opt_grad_steps": 36140.0, "train/actor_opt_loss": -17.048970774025985, "train/adv_mag": 0.7212351375902203, "train/adv_max": 0.651318715072014, "train/adv_mean": 0.0016036554148119559, "train/adv_min": -0.5980017982738118, "train/adv_std": 0.0565558871857717, "train/cont_avg": 0.994415713028169, "train/cont_loss_mean": 4.1762175629615666e-05, "train/cont_loss_std": 0.0011189019239144355, "train/cont_neg_acc": 0.9979879285248232, "train/cont_neg_loss": 0.004259312953494578, "train/cont_pos_acc": 0.9999999823704572, "train/cont_pos_loss": 1.9149927032833123e-05, "train/cont_pred": 0.9944156937196221, "train/cont_rate": 0.994415713028169, "train/dyn_loss_mean": 4.218725419380296, "train/dyn_loss_std": 8.093932749519885, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1222137431023826, "train/extr_critic_critic_opt_grad_steps": 36140.0, "train/extr_critic_critic_opt_loss": 15427.853749449823, "train/extr_critic_mag": 8.116406400438766, "train/extr_critic_max": 8.116406400438766, "train/extr_critic_mean": 1.4156454289463205, "train/extr_critic_min": -0.6205222892089629, "train/extr_critic_std": 1.7546617464280465, "train/extr_return_normed_mag": 1.7219290162476015, "train/extr_return_normed_max": 1.7219290162476015, "train/extr_return_normed_mean": 0.3276612853080454, "train/extr_return_normed_min": -0.14545173712179693, "train/extr_return_normed_std": 0.34711945245803244, "train/extr_return_rate": 0.5226012594263318, "train/extr_return_raw_mag": 8.597255928415647, "train/extr_return_raw_max": 8.597255928415647, "train/extr_return_raw_mean": 1.4239559417039576, "train/extr_return_raw_min": -1.0094635587343028, "train/extr_return_raw_std": 1.7856925641986685, "train/extr_reward_mag": 1.0215977782934484, "train/extr_reward_max": 1.0215977782934484, "train/extr_reward_mean": 0.027392957582545112, "train/extr_reward_min": -0.6841961296511369, "train/extr_reward_std": 0.16703676610765322, "train/image_loss_mean": 3.1884706876647306, "train/image_loss_std": 8.160344788725947, "train/model_loss_mean": 5.760956367976229, "train/model_loss_std": 11.993922206717478, "train/model_opt_grad_norm": 42.25001969135983, "train/model_opt_grad_steps": 36107.0, "train/model_opt_loss": 7201.195456921215, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.4029001215813865, "train/policy_entropy_max": 2.4029001215813865, "train/policy_entropy_mean": 0.4913179248991147, "train/policy_entropy_min": 0.07937501622757441, "train/policy_entropy_std": 0.5297483730484063, "train/policy_logprob_mag": 7.43838378073464, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4923960931704078, "train/policy_logprob_min": -7.43838378073464, "train/policy_logprob_std": 1.0752712286693948, "train/policy_randomness_mag": 0.8481182942927723, "train/policy_randomness_max": 0.8481182942927723, "train/policy_randomness_mean": 0.17341366662106045, "train/policy_randomness_min": 0.028015897491238485, "train/policy_randomness_std": 0.1869779281633001, "train/post_ent_mag": 44.30142228032501, "train/post_ent_max": 44.30142228032501, "train/post_ent_mean": 29.15053464325381, "train/post_ent_min": 16.20615515910404, "train/post_ent_std": 4.570867269811496, "train/prior_ent_mag": 72.4053836876238, "train/prior_ent_max": 72.4053836876238, "train/prior_ent_mean": 33.348983093046805, "train/prior_ent_min": 18.26463492487518, "train/prior_ent_std": 8.581175058660373, "train/rep_loss_mean": 4.218725419380296, "train/rep_loss_std": 8.093932749519885, "train/reward_avg": 0.02124092196652167, "train/reward_loss_mean": 0.041208699345588684, "train/reward_loss_std": 0.19400692049046636, "train/reward_max_data": 1.0042253531200784, "train/reward_max_pred": 1.0066079724002892, "train/reward_neg_acc": 0.9953648741816131, "train/reward_neg_loss": 0.022252120890877615, "train/reward_pos_acc": 0.9853011193409772, "train/reward_pos_loss": 0.7394881903285712, "train/reward_pred": 0.02112783255501532, "train/reward_rate": 0.026284661091549297, "stats/sum_log_reward": 4.2249999195337296, "stats/max_log_achievement_collect_drink": 2.5, "stats/max_log_achievement_collect_sapling": 2.875, "stats/max_log_achievement_collect_wood": 4.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.125, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 2.375, "stats/max_log_achievement_place_table": 1.625, "stats/max_log_achievement_wake_up": 1.375, "stats/mean_log_entropy": 0.41500986367464066, "replay/size": 74028.0, "replay/inserts": 1416.0, "replay/samples": 11328.0, "replay/insert_wait_avg": 3.75542937025512e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2605161653400142e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1907274723053, "timer/env.step_count": 1416.0, "timer/env.step_total": 22.32816243171692, "timer/env.step_frac": 0.07437992045832545, "timer/env.step_avg": 0.015768476293585396, "timer/env.step_min": 0.0029840469360351562, "timer/env.step_max": 1.974560022354126, "timer/replay.add_count": 1416.0, "timer/replay.add_total": 0.8861265182495117, "timer/replay.add_frac": 0.00295187837982525, "timer/replay.add_avg": 0.0006257955637355309, "timer/replay.add_min": 6.961822509765625e-05, "timer/replay.add_max": 0.6499474048614502, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02790093421936035, "timer/logger.write_frac": 9.294402413523718e-05, "timer/logger.write_avg": 0.02790093421936035, "timer/logger.write_min": 0.02790093421936035, "timer/logger.write_max": 0.02790093421936035, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00036454200744628906, "timer/checkpoint.save_frac": 1.2143679803698155e-06, "timer/checkpoint.save_avg": 0.00036454200744628906, "timer/checkpoint.save_min": 0.00036454200744628906, "timer/checkpoint.save_max": 0.00036454200744628906, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.184624433517456, "timer/agent.save_frac": 0.00394623925759581, "timer/agent.save_avg": 1.184624433517456, "timer/agent.save_min": 1.184624433517456, "timer/agent.save_max": 1.184624433517456, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.893013000488281e-05, "timer/replay.save_frac": 2.9624542621186475e-07, "timer/replay.save_avg": 8.893013000488281e-05, "timer/replay.save_min": 8.893013000488281e-05, "timer/replay.save_max": 8.893013000488281e-05, "timer/agent.policy_count": 1416.0, "timer/agent.policy_total": 12.407649517059326, "timer/agent.policy_frac": 0.04133255421156877, "timer/agent.policy_avg": 0.00876246434820574, "timer/agent.policy_min": 0.005614280700683594, "timer/agent.policy_max": 1.1828668117523193, "timer/dataset_count": 708.0, "timer/dataset_total": 0.06306815147399902, "timer/dataset_frac": 0.00021009360284060573, "timer/dataset_avg": 8.907930999152405e-05, "timer/dataset_min": 6.937980651855469e-05, "timer/dataset_max": 0.0002205371856689453, "timer/agent.train_count": 708.0, "timer/agent.train_total": 263.79987120628357, "timer/agent.train_frac": 0.8787742160710842, "timer/agent.train_avg": 0.37259868814446834, "timer/agent.train_min": 0.3663513660430908, "timer/agent.train_max": 0.38614797592163086, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2022535800933838, "timer/agent.report_frac": 0.0006737502580323474, "timer/agent.report_avg": 0.2022535800933838, "timer/agent.report_min": 0.2022535800933838, "timer/agent.report_max": 0.2022535800933838, "fps": 4.716899438821838}
{"step": 74164, "episode/length": 137.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.036231884057971016}
{"step": 74337, "episode/length": 172.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 5.0999999940395355, "episode/reward_rate": 0.028901734104046242}
{"step": 74570, "episode/length": 232.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.030042918454935622}
{"step": 74732, "episode/length": 161.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.037037037037037035}
{"step": 74902, "episode/length": 169.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.041176470588235294}
{"step": 75095, "episode/length": 192.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.031088082901554404}
{"step": 75288, "episode/length": 192.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.025906735751295335}
{"step": 75447, "episode/length": 158.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.03773584905660377}
{"step": 75531, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 5.110999213324653, "train/action_min": 0.0, "train/action_std": 4.092404991388321, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.039857018609634705, "train/actor_opt_grad_steps": 36855.0, "train/actor_opt_loss": -22.29821139656835, "train/adv_mag": 0.6489530238840315, "train/adv_max": 0.5900315257410208, "train/adv_mean": 0.000468746282775909, "train/adv_min": -0.5196782292591201, "train/adv_std": 0.054546260430167116, "train/cont_avg": 0.9943712022569444, "train/cont_loss_mean": 0.0001270285967712602, "train/cont_loss_std": 0.002998251355211639, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00048340525664672087, "train/cont_pos_acc": 0.999959001938502, "train/cont_pos_loss": 0.00012508417758757182, "train/cont_pred": 0.9943199083209038, "train/cont_rate": 0.9943712022569444, "train/dyn_loss_mean": 4.259768684705098, "train/dyn_loss_std": 8.171512669987148, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.118207797408104, "train/extr_critic_critic_opt_grad_steps": 36855.0, "train/extr_critic_critic_opt_loss": 15198.827094184027, "train/extr_critic_mag": 7.662907984521654, "train/extr_critic_max": 7.662907984521654, "train/extr_critic_mean": 1.3254144936800003, "train/extr_critic_min": -0.6575833343797259, "train/extr_critic_std": 1.6507798930009205, "train/extr_return_normed_mag": 1.7088623808489904, "train/extr_return_normed_max": 1.7088623808489904, "train/extr_return_normed_mean": 0.32279888892339337, "train/extr_return_normed_min": -0.17595520108524296, "train/extr_return_normed_std": 0.3388007850282722, "train/extr_return_rate": 0.5167643481658565, "train/extr_return_raw_mag": 8.186052613788181, "train/extr_return_raw_max": 8.186052613788181, "train/extr_return_raw_mean": 1.3276939632164106, "train/extr_return_raw_min": -1.1402283443344965, "train/extr_return_raw_std": 1.6762984643379848, "train/extr_reward_mag": 1.0186480747328863, "train/extr_reward_max": 1.0186480747328863, "train/extr_reward_mean": 0.025659265488179192, "train/extr_reward_min": -0.6920062121417787, "train/extr_reward_std": 0.16299450707932314, "train/image_loss_mean": 3.2688834369182587, "train/image_loss_std": 8.132367660601934, "train/model_loss_mean": 5.8644900520642596, "train/model_loss_std": 11.990807705455357, "train/model_opt_grad_norm": 45.62640807363722, "train/model_opt_grad_steps": 36821.90277777778, "train/model_opt_loss": 12782.234422471789, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2135.4166666666665, "train/policy_entropy_mag": 2.404029263390435, "train/policy_entropy_max": 2.404029263390435, "train/policy_entropy_mean": 0.5072091540528668, "train/policy_entropy_min": 0.07937501764131917, "train/policy_entropy_std": 0.5475615577565299, "train/policy_logprob_mag": 7.43838369846344, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.5064820324381193, "train/policy_logprob_min": -7.43838369846344, "train/policy_logprob_std": 1.080953681634532, "train/policy_randomness_mag": 0.8485168326232169, "train/policy_randomness_max": 0.8485168326232169, "train/policy_randomness_mean": 0.17902257417639098, "train/policy_randomness_min": 0.02801589794560439, "train/policy_randomness_std": 0.19326520214478174, "train/post_ent_mag": 44.716654459635414, "train/post_ent_max": 44.716654459635414, "train/post_ent_mean": 29.411423656675552, "train/post_ent_min": 16.016199496057297, "train/post_ent_std": 4.64910180038876, "train/prior_ent_mag": 72.5633602142334, "train/prior_ent_max": 72.5633602142334, "train/prior_ent_mean": 33.61217731899686, "train/prior_ent_min": 18.075811584790547, "train/prior_ent_std": 8.62587198946211, "train/rep_loss_mean": 4.259768684705098, "train/rep_loss_std": 8.171512669987148, "train/reward_avg": 0.020831976913743548, "train/reward_loss_mean": 0.039618445094674826, "train/reward_loss_std": 0.185301773250103, "train/reward_max_data": 1.008333335320155, "train/reward_max_pred": 1.011088255378935, "train/reward_neg_acc": 0.9958122844497362, "train/reward_neg_loss": 0.021330704692647688, "train/reward_pos_acc": 0.9877075428764025, "train/reward_pos_loss": 0.7339815025528272, "train/reward_pred": 0.020687955936106544, "train/reward_rate": 0.025783962673611112, "stats/sum_log_reward": 4.599999904632568, "stats/max_log_achievement_collect_drink": 4.5, "stats/max_log_achievement_collect_sapling": 2.25, "stats/max_log_achievement_collect_wood": 4.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.125, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.625, "stats/max_log_achievement_place_table": 1.625, "stats/max_log_achievement_wake_up": 1.625, "stats/mean_log_entropy": 0.3884662836790085, "replay/size": 75468.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.7135349379645453e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2703032957182991e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1091032028198, "timer/env.step_count": 1440.0, "timer/env.step_total": 20.227188110351562, "timer/env.step_frac": 0.06739944871542806, "timer/env.step_avg": 0.014046658409966363, "timer/env.step_min": 0.003095388412475586, "timer/env.step_max": 1.7200148105621338, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.25653576850891113, "timer/replay.add_frac": 0.0008548083539323333, "timer/replay.add_avg": 0.00017814983924229939, "timer/replay.add_min": 7.05718994140625e-05, "timer/replay.add_max": 0.003200054168701172, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028827428817749023, "timer/logger.write_frac": 9.605649582134422e-05, "timer/logger.write_avg": 0.028827428817749023, "timer/logger.write_min": 0.028827428817749023, "timer/logger.write_max": 0.028827428817749023, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 10.580425024032593, "timer/agent.policy_frac": 0.03525526187348648, "timer/agent.policy_avg": 0.007347517377800412, "timer/agent.policy_min": 0.005624532699584961, "timer/agent.policy_max": 0.01943492889404297, "timer/dataset_count": 720.0, "timer/dataset_total": 0.06572341918945312, "timer/dataset_frac": 0.00021899841920168582, "timer/dataset_avg": 9.128252665201823e-05, "timer/dataset_min": 6.151199340820312e-05, "timer/dataset_max": 0.00023126602172851562, "timer/agent.train_count": 720.0, "timer/agent.train_total": 268.2697730064392, "timer/agent.train_frac": 0.8939074827901407, "timer/agent.train_avg": 0.37259690695338776, "timer/agent.train_min": 0.365816593170166, "timer/agent.train_max": 0.3856239318847656, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20197176933288574, "timer/agent.report_frac": 0.0006729944782660895, "timer/agent.report_avg": 0.20197176933288574, "timer/agent.report_min": 0.20197176933288574, "timer/agent.report_max": 0.20197176933288574, "fps": 4.798156599633131}
{"step": 75635, "episode/length": 187.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.026595744680851064}
{"step": 76010, "episode/length": 374.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.016}
{"step": 76224, "episode/length": 213.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.037383177570093455}
{"step": 76397, "episode/length": 172.0, "episode/score": 4.099999971687794, "episode/sum_abs_reward": 6.1000000312924385, "episode/reward_rate": 0.03468208092485549}
{"step": 76552, "episode/length": 154.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.025806451612903226}
{"step": 76739, "episode/length": 186.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.0374331550802139}
{"step": 76908, "episode/length": 168.0, "episode/score": 5.099999979138374, "episode/sum_abs_reward": 6.900000020861626, "episode/reward_rate": 0.03550295857988166}
{"step": 76981, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.876927205961045, "train/action_min": 0.0, "train/action_std": 3.700487195628963, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04227822386238673, "train/actor_opt_grad_steps": 37580.0, "train/actor_opt_loss": -21.680233719618354, "train/adv_mag": 0.5748482113831663, "train/adv_max": 0.5354091696543236, "train/adv_mean": 0.0008192754635461351, "train/adv_min": -0.4641615536114941, "train/adv_std": 0.05607830350325532, "train/cont_avg": 0.9943279109589042, "train/cont_loss_mean": 3.162400847340033e-05, "train/cont_loss_std": 0.0007714647983202169, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0010673205888700951, "train/cont_pos_acc": 0.9999999787709485, "train/cont_pos_loss": 2.4929168603972507e-05, "train/cont_pred": 0.9943132253542338, "train/cont_rate": 0.9943279109589042, "train/dyn_loss_mean": 4.4264123929690005, "train/dyn_loss_std": 7.9160168530189825, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1534122914484102, "train/extr_critic_critic_opt_grad_steps": 37580.0, "train/extr_critic_critic_opt_loss": 15369.73429473459, "train/extr_critic_mag": 6.968653757278234, "train/extr_critic_max": 6.968653757278234, "train/extr_critic_mean": 1.2100976036019522, "train/extr_critic_min": -0.6418093067325957, "train/extr_critic_std": 1.5623434422767326, "train/extr_return_normed_mag": 1.5778619508220726, "train/extr_return_normed_max": 1.5778619508220726, "train/extr_return_normed_mean": 0.3111242149790672, "train/extr_return_normed_min": -0.16901728541475453, "train/extr_return_normed_std": 0.32516152544380866, "train/extr_return_rate": 0.5114244716624691, "train/extr_return_raw_mag": 7.4144485552017, "train/extr_return_raw_max": 7.4144485552017, "train/extr_return_raw_mean": 1.2141085683482966, "train/extr_return_raw_min": -1.1365629842836562, "train/extr_return_raw_std": 1.5920297168705562, "train/extr_reward_mag": 1.0143496696263143, "train/extr_reward_max": 1.0143496696263143, "train/extr_reward_mean": 0.025983409892308386, "train/extr_reward_min": -0.6817963319282009, "train/extr_reward_std": 0.16331689151590817, "train/image_loss_mean": 3.2449338109525914, "train/image_loss_std": 7.246187961264832, "train/model_loss_mean": 5.940537825022658, "train/model_loss_std": 10.977856022037871, "train/model_opt_grad_norm": 50.511788433545256, "train/model_opt_grad_steps": 37546.0, "train/model_opt_loss": 7425.672289704623, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.418760786317799, "train/policy_entropy_max": 2.418760786317799, "train/policy_entropy_mean": 0.4872078324017459, "train/policy_entropy_min": 0.07937501697507623, "train/policy_entropy_std": 0.5412453417092153, "train/policy_logprob_mag": 7.4383837817466425, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.48718175373665273, "train/policy_logprob_min": -7.4383837817466425, "train/policy_logprob_std": 1.069392059763817, "train/policy_randomness_mag": 0.8537164150852047, "train/policy_randomness_max": 0.8537164150852047, "train/policy_randomness_mean": 0.17196298645783778, "train/policy_randomness_min": 0.02801589772411405, "train/policy_randomness_std": 0.19103585367333398, "train/post_ent_mag": 45.28471991134016, "train/post_ent_max": 45.28471991134016, "train/post_ent_mean": 29.576773133996415, "train/post_ent_min": 16.362538912524915, "train/post_ent_std": 4.697147885414019, "train/prior_ent_mag": 72.37826475378586, "train/prior_ent_max": 72.37826475378586, "train/prior_ent_mean": 34.05298760819109, "train/prior_ent_min": 18.950799785248222, "train/prior_ent_std": 8.507597217821095, "train/rep_loss_mean": 4.4264123929690005, "train/rep_loss_std": 7.9160168530189825, "train/reward_avg": 0.02167567414269872, "train/reward_loss_mean": 0.039725003866096065, "train/reward_loss_std": 0.17969055984118212, "train/reward_max_data": 1.0054794533611977, "train/reward_max_pred": 1.0060344215941757, "train/reward_neg_acc": 0.9958768201200929, "train/reward_neg_loss": 0.02046053055418681, "train/reward_pos_acc": 0.9833255998075825, "train/reward_pos_loss": 0.7403336028530173, "train/reward_pred": 0.021352518528495748, "train/reward_rate": 0.02678189212328767, "stats/sum_log_reward": 4.814285618918283, "stats/max_log_achievement_collect_drink": 6.714285714285714, "stats/max_log_achievement_collect_sapling": 2.4285714285714284, "stats/max_log_achievement_collect_wood": 5.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 2.142857142857143, "stats/max_log_achievement_place_table": 2.5714285714285716, "stats/max_log_achievement_wake_up": 2.0, "stats/mean_log_entropy": 0.45838102272578646, "replay/size": 76918.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.6522437786233838e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2597955506423425e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.25533866882324, "timer/env.step_count": 1450.0, "timer/env.step_total": 18.448200464248657, "timer/env.step_frac": 0.06144170673546865, "timer/env.step_avg": 0.012722896871895626, "timer/env.step_min": 0.002765655517578125, "timer/env.step_max": 1.6836936473846436, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.2704653739929199, "timer/replay.add_frac": 0.0009007845628724652, "timer/replay.add_avg": 0.0001865278441330482, "timer/replay.add_min": 7.200241088867188e-05, "timer/replay.add_max": 0.004618644714355469, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03385138511657715, "timer/logger.write_frac": 0.0001127419924210396, "timer/logger.write_avg": 0.03385138511657715, "timer/logger.write_min": 0.03385138511657715, "timer/logger.write_max": 0.03385138511657715, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 10.644556283950806, "timer/agent.policy_frac": 0.035451680330292404, "timer/agent.policy_avg": 0.007341073299276418, "timer/agent.policy_min": 0.005743503570556641, "timer/agent.policy_max": 0.0183103084564209, "timer/dataset_count": 725.0, "timer/dataset_total": 0.06513690948486328, "timer/dataset_frac": 0.00021693838908459255, "timer/dataset_avg": 8.984401308257004e-05, "timer/dataset_min": 6.699562072753906e-05, "timer/dataset_max": 0.00019621849060058594, "timer/agent.train_count": 725.0, "timer/agent.train_total": 270.1128432750702, "timer/agent.train_frac": 0.8996104597926908, "timer/agent.train_avg": 0.3725694390000968, "timer/agent.train_min": 0.366497278213501, "timer/agent.train_max": 0.3848886489868164, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20004796981811523, "timer/agent.report_frac": 0.0006662594933533051, "timer/agent.report_avg": 0.20004796981811523, "timer/agent.report_min": 0.20004796981811523, "timer/agent.report_max": 0.20004796981811523, "fps": 4.82915369709958}
{"step": 77070, "episode/length": 161.0, "episode/score": 5.099999971687794, "episode/sum_abs_reward": 7.1000000312924385, "episode/reward_rate": 0.043209876543209874}
{"step": 77245, "episode/length": 174.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 4.899999991059303, "episode/reward_rate": 0.02857142857142857}
{"step": 77282, "episode/length": 36.0, "episode/score": -0.9000000283122063, "episode/sum_abs_reward": 1.1000000312924385, "episode/reward_rate": 0.02702702702702703}
{"step": 77334, "episode/length": 51.0, "episode/score": 2.0999999716877937, "episode/sum_abs_reward": 4.1000000312924385, "episode/reward_rate": 0.07692307692307693}
{"step": 77516, "episode/length": 181.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.03296703296703297}
{"step": 77654, "episode/length": 137.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.3000000193715096, "episode/reward_rate": 0.036231884057971016}
{"step": 77824, "episode/length": 169.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.900000028312206, "episode/reward_rate": 0.047058823529411764}
{"step": 77990, "episode/length": 165.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 6.9000000059604645, "episode/reward_rate": 0.03614457831325301}
{"step": 78221, "episode/length": 230.0, "episode/score": 6.099999979138374, "episode/sum_abs_reward": 8.30000002682209, "episode/reward_rate": 0.030303030303030304}
{"step": 78303, "episode/length": 81.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 6.299999997019768, "episode/reward_rate": 0.07317073170731707}
{"step": 78383, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.673170689174107, "train/action_min": 0.0, "train/action_std": 3.4296448196683613, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04462073849780219, "train/actor_opt_grad_steps": 38295.0, "train/actor_opt_loss": -16.91682163306645, "train/adv_mag": 0.5751842268875667, "train/adv_max": 0.5492167609078543, "train/adv_mean": 0.0019257127704414806, "train/adv_min": -0.4624012572424752, "train/adv_std": 0.05780880296868937, "train/cont_avg": 0.994140625, "train/cont_loss_mean": 3.720470503846432e-05, "train/cont_loss_std": 0.0010854817525374268, "train/cont_neg_acc": 0.9982142857142857, "train/cont_neg_loss": 0.005993201568916058, "train/cont_pos_acc": 0.9999999804156167, "train/cont_pos_loss": 8.285144309232757e-06, "train/cont_pred": 0.994154702765601, "train/cont_rate": 0.994140625, "train/dyn_loss_mean": 4.377918468202863, "train/dyn_loss_std": 8.250294324329921, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1731298284871237, "train/extr_critic_critic_opt_grad_steps": 38295.0, "train/extr_critic_critic_opt_loss": 15501.272698102679, "train/extr_critic_mag": 6.993536070414952, "train/extr_critic_max": 6.993536070414952, "train/extr_critic_mean": 1.1944133009229387, "train/extr_critic_min": -0.6973670261246817, "train/extr_critic_std": 1.571002619607108, "train/extr_return_normed_mag": 1.6713980317115784, "train/extr_return_normed_max": 1.6713980317115784, "train/extr_return_normed_mean": 0.32104588619300295, "train/extr_return_normed_min": -0.16478228207145418, "train/extr_return_normed_std": 0.33740028398377553, "train/extr_return_rate": 0.5056547922747475, "train/extr_return_raw_mag": 7.613393906184605, "train/extr_return_raw_max": 7.613393906184605, "train/extr_return_raw_mean": 1.2035767665931156, "train/extr_return_raw_min": -1.102143394947052, "train/extr_return_raw_std": 1.6015597105026245, "train/extr_reward_mag": 1.0116147450038364, "train/extr_reward_max": 1.0116147450038364, "train/extr_reward_mean": 0.02585639642285449, "train/extr_reward_min": -0.6881469590323311, "train/extr_reward_std": 0.16393562821405275, "train/image_loss_mean": 3.412532619067601, "train/image_loss_std": 8.429764284406389, "train/model_loss_mean": 6.079972219467163, "train/model_loss_std": 12.319648742675781, "train/model_opt_grad_norm": 43.538056182861325, "train/model_opt_grad_steps": 38260.385714285716, "train/model_opt_loss": 8275.812451171874, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1375.0, "train/policy_entropy_mag": 2.4172405174800327, "train/policy_entropy_max": 2.4172405174800327, "train/policy_entropy_mean": 0.4838789586509977, "train/policy_entropy_min": 0.07937501594424248, "train/policy_entropy_std": 0.5381887133632387, "train/policy_logprob_mag": 7.438383742741176, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.48480369448661803, "train/policy_logprob_min": -7.438383742741176, "train/policy_logprob_std": 1.0670832131590162, "train/policy_randomness_mag": 0.8531798235007695, "train/policy_randomness_max": 0.8531798235007695, "train/policy_randomness_mean": 0.17078803947993687, "train/policy_randomness_min": 0.028015897343201295, "train/policy_randomness_std": 0.1899569998894419, "train/post_ent_mag": 44.945999254499164, "train/post_ent_max": 44.945999254499164, "train/post_ent_mean": 29.565288216727122, "train/post_ent_min": 16.342440618787492, "train/post_ent_std": 4.645208903721401, "train/prior_ent_mag": 72.5313848223005, "train/prior_ent_max": 72.5313848223005, "train/prior_ent_mean": 33.91240937369211, "train/prior_ent_min": 18.65144909449986, "train/prior_ent_std": 8.609772293908255, "train/rep_loss_mean": 4.377918468202863, "train/rep_loss_std": 8.250294324329921, "train/reward_avg": 0.021533202818994013, "train/reward_loss_mean": 0.04065133540758065, "train/reward_loss_std": 0.19854736509067672, "train/reward_max_data": 1.0, "train/reward_max_pred": 1.0027544328144617, "train/reward_neg_acc": 0.9962138039725167, "train/reward_neg_loss": 0.021186492605400935, "train/reward_pos_acc": 0.9833620778151921, "train/reward_pos_loss": 0.7496034605162484, "train/reward_pred": 0.021374714693852832, "train/reward_rate": 0.026688058035714286, "stats/sum_log_reward": 3.899999958276749, "stats/max_log_achievement_collect_drink": 2.6, "stats/max_log_achievement_collect_sapling": 2.1, "stats/max_log_achievement_collect_wood": 2.8, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.1, "stats/max_log_achievement_place_plant": 1.4, "stats/max_log_achievement_place_table": 1.1, "stats/max_log_achievement_wake_up": 1.2, "stats/mean_log_entropy": 0.3658719673752785, "replay/size": 78320.0, "replay/inserts": 1402.0, "replay/samples": 11216.0, "replay/insert_wait_avg": 3.6965083123613868e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2856662358435007e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2847936153412, "timer/env.step_count": 1402.0, "timer/env.step_total": 24.05037522315979, "timer/env.step_frac": 0.08009188521869622, "timer/env.step_avg": 0.017154333254750208, "timer/env.step_min": 0.0030121803283691406, "timer/env.step_max": 1.6981539726257324, "timer/replay.add_count": 1402.0, "timer/replay.add_total": 0.3724219799041748, "timer/replay.add_frac": 0.001240229235121509, "timer/replay.add_avg": 0.0002656362196178137, "timer/replay.add_min": 7.224082946777344e-05, "timer/replay.add_max": 0.11079072952270508, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03144073486328125, "timer/logger.write_frac": 0.00010470305367362758, "timer/logger.write_avg": 0.03144073486328125, "timer/logger.write_min": 0.03144073486328125, "timer/logger.write_max": 0.03144073486328125, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004477500915527344, "timer/checkpoint.save_frac": 1.4910848004054888e-06, "timer/checkpoint.save_avg": 0.0004477500915527344, "timer/checkpoint.save_min": 0.0004477500915527344, "timer/checkpoint.save_max": 0.0004477500915527344, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4048831462860107, "timer/agent.save_frac": 0.004678502462184742, "timer/agent.save_avg": 1.4048831462860107, "timer/agent.save_min": 1.4048831462860107, "timer/agent.save_max": 1.4048831462860107, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.2479248046875e-05, "timer/replay.save_frac": 2.413683595970546e-07, "timer/replay.save_avg": 7.2479248046875e-05, "timer/replay.save_min": 7.2479248046875e-05, "timer/replay.save_max": 7.2479248046875e-05, "timer/agent.policy_count": 1402.0, "timer/agent.policy_total": 11.79590368270874, "timer/agent.policy_frac": 0.039282387698323006, "timer/agent.policy_avg": 0.008413626021903525, "timer/agent.policy_min": 0.005665779113769531, "timer/agent.policy_max": 1.3926467895507812, "timer/dataset_count": 701.0, "timer/dataset_total": 0.062349796295166016, "timer/dataset_frac": 0.00020763554339363203, "timer/dataset_avg": 8.894407460080745e-05, "timer/dataset_min": 6.413459777832031e-05, "timer/dataset_max": 0.00019407272338867188, "timer/agent.train_count": 701.0, "timer/agent.train_total": 263.2875671386719, "timer/agent.train_frac": 0.8767928737541668, "timer/agent.train_avg": 0.3755885408540255, "timer/agent.train_min": 0.36606359481811523, "timer/agent.train_max": 2.570941925048828, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20123672485351562, "timer/agent.report_frac": 0.0006701528986222853, "timer/agent.report_avg": 0.20123672485351562, "timer/agent.report_min": 0.20123672485351562, "timer/agent.report_max": 0.20123672485351562, "fps": 4.668799842438152}
{"step": 78460, "episode/length": 156.0, "episode/score": 5.0999999940395355, "episode/sum_abs_reward": 7.300000011920929, "episode/reward_rate": 0.044585987261146494}
{"step": 78595, "episode/length": 134.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.05185185185185185}
{"step": 78703, "episode/length": 107.0, "episode/score": 2.100000001490116, "episode/sum_abs_reward": 4.300000034272671, "episode/reward_rate": 0.027777777777777776}
{"step": 78895, "episode/length": 191.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.020833333333333332}
{"step": 79063, "episode/length": 167.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 4.900000013411045, "episode/reward_rate": 0.023809523809523808}
{"step": 79102, "episode/length": 38.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 4.900000013411045, "episode/reward_rate": 0.10256410256410256}
{"step": 79346, "episode/length": 243.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.028688524590163935}
{"step": 79569, "episode/length": 222.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.026905829596412557}
{"step": 79776, "episode/length": 206.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.028985507246376812}
{"step": 79815, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.691028863611356, "train/action_min": 0.0, "train/action_std": 3.524203317266115, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0452220318183093, "train/actor_opt_grad_steps": 39000.0, "train/actor_opt_loss": -17.98116952768514, "train/adv_mag": 0.5866782585499992, "train/adv_max": 0.5523608003703642, "train/adv_mean": 0.0032872066245596522, "train/adv_min": -0.48502590202949414, "train/adv_std": 0.06115464472644765, "train/cont_avg": 0.9940305897887324, "train/cont_loss_mean": 1.4172128973214826e-05, "train/cont_loss_std": 0.000378021047712101, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0009016832975735461, "train/cont_pos_acc": 0.9999999806914531, "train/cont_pos_loss": 9.148713417262179e-06, "train/cont_pred": 0.9940272074350169, "train/cont_rate": 0.9940305897887324, "train/dyn_loss_mean": 4.242776501346642, "train/dyn_loss_std": 8.103873266300685, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1589690430063597, "train/extr_critic_critic_opt_grad_steps": 39000.0, "train/extr_critic_critic_opt_loss": 15784.594451474471, "train/extr_critic_mag": 6.657772433589882, "train/extr_critic_max": 6.657772433589882, "train/extr_critic_mean": 1.19120811324724, "train/extr_critic_min": -0.6394615811361394, "train/extr_critic_std": 1.5427453031002636, "train/extr_return_normed_mag": 1.6572626359026197, "train/extr_return_normed_max": 1.6572626359026197, "train/extr_return_normed_mean": 0.3284635692834854, "train/extr_return_normed_min": -0.16281033548670756, "train/extr_return_normed_std": 0.33981628296240957, "train/extr_return_rate": 0.5085580155883037, "train/extr_return_raw_mag": 7.386382049238178, "train/extr_return_raw_max": 7.386382049238178, "train/extr_return_raw_mean": 1.2065450230114896, "train/extr_return_raw_min": -1.0772060844260203, "train/extr_return_raw_std": 1.5800890452425245, "train/extr_reward_mag": 1.0237096799931056, "train/extr_reward_max": 1.0237096799931056, "train/extr_reward_mean": 0.028170482517862822, "train/extr_reward_min": -0.6706945342077336, "train/extr_reward_std": 0.1692894376079801, "train/image_loss_mean": 3.0454305863716233, "train/image_loss_std": 7.775240380999068, "train/model_loss_mean": 5.63323677761454, "train/model_loss_std": 11.597186323622582, "train/model_opt_grad_norm": 41.62093914730448, "train/model_opt_grad_steps": 38965.0, "train/model_opt_loss": 8459.43760315801, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1496.4788732394366, "train/policy_entropy_mag": 2.435750232615941, "train/policy_entropy_max": 2.435750232615941, "train/policy_entropy_mean": 0.466901657447009, "train/policy_entropy_min": 0.07937501622757441, "train/policy_entropy_std": 0.5235740706114702, "train/policy_logprob_mag": 7.438383807598705, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4672201649403908, "train/policy_logprob_min": -7.438383807598705, "train/policy_logprob_std": 1.053437592278064, "train/policy_randomness_mag": 0.8597129432248397, "train/policy_randomness_max": 0.8597129432248397, "train/policy_randomness_mean": 0.1647957976855023, "train/policy_randomness_min": 0.028015897465004047, "train/policy_randomness_std": 0.18479867069654063, "train/post_ent_mag": 45.49376194913622, "train/post_ent_max": 45.49376194913622, "train/post_ent_mean": 30.016363117056834, "train/post_ent_min": 16.486845244824046, "train/post_ent_std": 4.616026999245228, "train/prior_ent_mag": 72.69669986778581, "train/prior_ent_max": 72.69669986778581, "train/prior_ent_mean": 34.26752044785191, "train/prior_ent_min": 18.81726238089548, "train/prior_ent_std": 8.511237124322166, "train/rep_loss_mean": 4.242776501346642, "train/rep_loss_std": 8.103873266300685, "train/reward_avg": 0.02212395442938301, "train/reward_loss_mean": 0.04212611858588709, "train/reward_loss_std": 0.18497474145301632, "train/reward_max_data": 1.0112676083202092, "train/reward_max_pred": 1.013191730203763, "train/reward_neg_acc": 0.9955293544581238, "train/reward_neg_loss": 0.022701992705779175, "train/reward_pos_acc": 0.9877138490408239, "train/reward_pos_loss": 0.7290752219482207, "train/reward_pred": 0.022012072772732084, "train/reward_rate": 0.027481294014084508, "stats/sum_log_reward": 4.099999931123522, "stats/max_log_achievement_collect_drink": 4.777777777777778, "stats/max_log_achievement_collect_sapling": 1.5555555555555556, "stats/max_log_achievement_collect_wood": 3.5555555555555554, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.2222222222222223, "stats/max_log_achievement_place_table": 1.2222222222222223, "stats/max_log_achievement_wake_up": 1.5555555555555556, "stats/mean_log_entropy": 0.43864111436737907, "replay/size": 79752.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.7887242919239918e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2549025386405392e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0098407268524, "timer/env.step_count": 1432.0, "timer/env.step_total": 21.51389718055725, "timer/env.step_frac": 0.07171063831917714, "timer/env.step_avg": 0.01502367121547294, "timer/env.step_min": 0.002987384796142578, "timer/env.step_max": 1.6622090339660645, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.26179075241088867, "timer/replay.add_frac": 0.0008726072177386982, "timer/replay.add_avg": 0.0001828147712366541, "timer/replay.add_min": 7.557868957519531e-05, "timer/replay.add_max": 0.0065152645111083984, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03216052055358887, "timer/logger.write_frac": 0.00010719821881732807, "timer/logger.write_avg": 0.03216052055358887, "timer/logger.write_min": 0.03216052055358887, "timer/logger.write_max": 0.03216052055358887, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 10.524895906448364, "timer/agent.policy_frac": 0.03508183558562295, "timer/agent.policy_avg": 0.007349787644167852, "timer/agent.policy_min": 0.005647897720336914, "timer/agent.policy_max": 0.01698899269104004, "timer/dataset_count": 716.0, "timer/dataset_total": 0.06425786018371582, "timer/dataset_frac": 0.00021418584146451437, "timer/dataset_avg": 8.9745614781726e-05, "timer/dataset_min": 6.866455078125e-05, "timer/dataset_max": 0.00017595291137695312, "timer/agent.train_count": 716.0, "timer/agent.train_total": 266.9318549633026, "timer/agent.train_frac": 0.8897436641297841, "timer/agent.train_avg": 0.372809853300702, "timer/agent.train_min": 0.363783597946167, "timer/agent.train_max": 0.3863344192504883, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2023928165435791, "timer/agent.report_frac": 0.0006746205926219936, "timer/agent.report_avg": 0.2023928165435791, "timer/agent.report_min": 0.2023928165435791, "timer/agent.report_max": 0.2023928165435791, "fps": 4.773121748618369}
{"step": 79943, "episode/length": 166.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.100000016391277, "episode/reward_rate": 0.017964071856287425}
{"step": 80115, "episode/length": 171.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.0999999940395355, "episode/reward_rate": 0.040697674418604654}
{"step": 80270, "episode/length": 154.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.03225806451612903}
{"step": 80411, "episode/length": 140.0, "episode/score": 5.099999979138374, "episode/sum_abs_reward": 7.30000002682209, "episode/reward_rate": 0.0425531914893617}
{"step": 80624, "episode/length": 212.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.028169014084507043}
{"step": 80801, "episode/length": 176.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.022598870056497175}
{"step": 80872, "episode/length": 70.0, "episode/score": 4.100000001490116, "episode/sum_abs_reward": 6.1000000312924385, "episode/reward_rate": 0.07042253521126761}
{"step": 81017, "episode/length": 144.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.04827586206896552}
{"step": 81209, "episode/length": 191.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.026041666666666668}
{"step": 81249, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.645932515462239, "train/action_min": 0.0, "train/action_std": 3.5102365149392023, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.045247182353503175, "train/actor_opt_grad_steps": 39715.0, "train/actor_opt_loss": -17.69249107854234, "train/adv_mag": 0.5431908215913508, "train/adv_max": 0.5073938576711549, "train/adv_mean": 0.0027249018825791105, "train/adv_min": -0.4649551026523113, "train/adv_std": 0.0586099569271836, "train/cont_avg": 0.994384765625, "train/cont_loss_mean": 0.00018222459525200443, "train/cont_loss_std": 0.005633346994550771, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0027297765573671817, "train/cont_pos_acc": 0.9999590135282941, "train/cont_pos_loss": 0.00016829036980049573, "train/cont_pred": 0.9943531602621078, "train/cont_rate": 0.994384765625, "train/dyn_loss_mean": 4.22827226916949, "train/dyn_loss_std": 8.075187901655832, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1455506632725398, "train/extr_critic_critic_opt_grad_steps": 39715.0, "train/extr_critic_critic_opt_loss": 15623.178263346354, "train/extr_critic_mag": 6.827250083287557, "train/extr_critic_max": 6.827250083287557, "train/extr_critic_mean": 1.1910798789726362, "train/extr_critic_min": -0.6700158516565958, "train/extr_critic_std": 1.554349238673846, "train/extr_return_normed_mag": 1.6357528749439452, "train/extr_return_normed_max": 1.6357528749439452, "train/extr_return_normed_mean": 0.3175656491269668, "train/extr_return_normed_min": -0.1726604669044415, "train/extr_return_normed_std": 0.3374089685579141, "train/extr_return_rate": 0.5017144344747066, "train/extr_return_raw_mag": 7.415790922111935, "train/extr_return_raw_max": 7.415790922111935, "train/extr_return_raw_mean": 1.2039174884557724, "train/extr_return_raw_min": -1.1059011278880968, "train/extr_return_raw_std": 1.5899312521020572, "train/extr_reward_mag": 1.0266976720756955, "train/extr_reward_max": 1.0266976720756955, "train/extr_reward_mean": 0.0280679347148786, "train/extr_reward_min": -0.6933369189500809, "train/extr_reward_std": 0.1690298802115851, "train/image_loss_mean": 3.182880840367741, "train/image_loss_std": 8.015959660212198, "train/model_loss_mean": 5.760986222161187, "train/model_loss_std": 11.835070590178171, "train/model_opt_grad_norm": 45.747580475277374, "train/model_opt_grad_steps": 39679.0, "train/model_opt_loss": 7201.232794867621, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.4463427563508353, "train/policy_entropy_max": 2.4463427563508353, "train/policy_entropy_mean": 0.47583793310655487, "train/policy_entropy_min": 0.07937501577867402, "train/policy_entropy_std": 0.5386147747437159, "train/policy_logprob_mag": 7.438383877277374, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4747350422872437, "train/policy_logprob_min": -7.438383877277374, "train/policy_logprob_std": 1.057447649538517, "train/policy_randomness_mag": 0.8634516398111979, "train/policy_randomness_max": 0.8634516398111979, "train/policy_randomness_mean": 0.1679499102756381, "train/policy_randomness_min": 0.028015897324722674, "train/policy_randomness_std": 0.19010737972954908, "train/post_ent_mag": 45.959794998168945, "train/post_ent_max": 45.959794998168945, "train/post_ent_mean": 30.253968477249146, "train/post_ent_min": 16.727450953589546, "train/post_ent_std": 4.688935028182136, "train/prior_ent_mag": 72.79272662268744, "train/prior_ent_max": 72.79272662268744, "train/prior_ent_mean": 34.45795350604587, "train/prior_ent_min": 19.008740663528442, "train/prior_ent_std": 8.447265413072374, "train/rep_loss_mean": 4.22827226916949, "train/rep_loss_std": 8.075187901655832, "train/reward_avg": 0.02197672512071828, "train/reward_loss_mean": 0.0409598076560845, "train/reward_loss_std": 0.1922958710541328, "train/reward_max_data": 1.0125000029802322, "train/reward_max_pred": 1.0112276722987492, "train/reward_neg_acc": 0.9955928110414081, "train/reward_neg_loss": 0.02119121864800238, "train/reward_pos_acc": 0.9817162868049409, "train/reward_pos_loss": 0.7528097695774503, "train/reward_pred": 0.021767995979947347, "train/reward_rate": 0.027153862847222224, "stats/sum_log_reward": 4.2111110422346325, "stats/max_log_achievement_collect_drink": 3.5555555555555554, "stats/max_log_achievement_collect_sapling": 1.8888888888888888, "stats/max_log_achievement_collect_wood": 4.222222222222222, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_table": 1.5555555555555556, "stats/max_log_achievement_wake_up": 1.5555555555555556, "stats/mean_log_entropy": 0.3884034752845764, "replay/size": 81186.0, "replay/inserts": 1434.0, "replay/samples": 11472.0, "replay/insert_wait_avg": 3.6848472584574126e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.292618581274397e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.31275701522827, "timer/env.step_count": 1434.0, "timer/env.step_total": 21.7954363822937, "timer/env.step_frac": 0.07257579264669232, "timer/env.step_avg": 0.015199049081097421, "timer/env.step_min": 0.0029969215393066406, "timer/env.step_max": 1.6548354625701904, "timer/replay.add_count": 1434.0, "timer/replay.add_total": 0.2555551528930664, "timer/replay.add_frac": 0.0008509633604412872, "timer/replay.add_avg": 0.00017821140369112022, "timer/replay.add_min": 6.961822509765625e-05, "timer/replay.add_max": 0.002455472946166992, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02446460723876953, "timer/logger.write_frac": 8.146376291810001e-05, "timer/logger.write_avg": 0.02446460723876953, "timer/logger.write_min": 0.02446460723876953, "timer/logger.write_max": 0.02446460723876953, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1434.0, "timer/agent.policy_total": 10.488088369369507, "timer/agent.policy_frac": 0.03492388559716655, "timer/agent.policy_avg": 0.007313869155766741, "timer/agent.policy_min": 0.005681514739990234, "timer/agent.policy_max": 0.017303943634033203, "timer/dataset_count": 717.0, "timer/dataset_total": 0.06472253799438477, "timer/dataset_frac": 0.00021551711168601076, "timer/dataset_avg": 9.026853276762171e-05, "timer/dataset_min": 6.318092346191406e-05, "timer/dataset_max": 0.0001595020294189453, "timer/agent.train_count": 717.0, "timer/agent.train_total": 267.00410985946655, "timer/agent.train_frac": 0.8890868057460752, "timer/agent.train_avg": 0.3723906692600649, "timer/agent.train_min": 0.36396026611328125, "timer/agent.train_max": 0.38853955268859863, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20168733596801758, "timer/agent.report_frac": 0.0006715909706019928, "timer/agent.report_avg": 0.20168733596801758, "timer/agent.report_min": 0.20168733596801758, "timer/agent.report_max": 0.20168733596801758, "fps": 4.774954962770407}
{"step": 81379, "episode/length": 169.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03529411764705882}
{"step": 81564, "episode/length": 184.0, "episode/score": 5.100000001490116, "episode/sum_abs_reward": 6.700000025331974, "episode/reward_rate": 0.032432432432432434}
{"step": 81717, "episode/length": 152.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.0457516339869281}
{"step": 81762, "episode/length": 44.0, "episode/score": 1.0999999940395355, "episode/sum_abs_reward": 2.9000000059604645, "episode/reward_rate": 0.06666666666666667}
{"step": 81943, "episode/length": 180.0, "episode/score": 3.0999999791383743, "episode/sum_abs_reward": 4.900000020861626, "episode/reward_rate": 0.022099447513812154}
{"step": 82130, "episode/length": 186.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 7.1000000312924385, "episode/reward_rate": 0.026737967914438502}
{"step": 82389, "episode/length": 258.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.02702702702702703}
{"step": 82572, "episode/length": 182.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.03278688524590164}
{"step": 82665, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.558133837202905, "train/action_min": 0.0, "train/action_std": 3.4114317759661605, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04469166774774941, "train/actor_opt_grad_steps": 40430.0, "train/actor_opt_loss": -15.385013912765073, "train/adv_mag": 0.5390573794573126, "train/adv_max": 0.5071082283073748, "train/adv_mean": 0.003118984454822182, "train/adv_min": -0.4437926932119987, "train/adv_std": 0.058088323180104644, "train/cont_avg": 0.9944019586267606, "train/cont_loss_mean": 0.00011603767866834998, "train/cont_loss_std": 0.0032852950619496665, "train/cont_neg_acc": 0.9948356814787421, "train/cont_neg_loss": 0.015695198597339338, "train/cont_pos_acc": 0.9999999798519511, "train/cont_pos_loss": 2.9212459508753328e-05, "train/cont_pred": 0.9944199474764542, "train/cont_rate": 0.9944019586267606, "train/dyn_loss_mean": 4.366397313668695, "train/dyn_loss_std": 8.080699128164373, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1815400820382884, "train/extr_critic_critic_opt_grad_steps": 40430.0, "train/extr_critic_critic_opt_loss": 15956.321729203346, "train/extr_critic_mag": 6.721277216790428, "train/extr_critic_max": 6.721277216790428, "train/extr_critic_mean": 1.1745651053710722, "train/extr_critic_min": -0.689419922694354, "train/extr_critic_std": 1.5690903294254357, "train/extr_return_normed_mag": 1.6098312240251353, "train/extr_return_normed_max": 1.6098312240251353, "train/extr_return_normed_mean": 0.3122425469714151, "train/extr_return_normed_min": -0.16095091150680058, "train/extr_return_normed_std": 0.33313801066136695, "train/extr_return_rate": 0.5039612961487031, "train/extr_return_raw_mag": 7.437439589433267, "train/extr_return_raw_max": 7.437439589433267, "train/extr_return_raw_mean": 1.18959736152434, "train/extr_return_raw_min": -1.0892293663092063, "train/extr_return_raw_std": 1.6039475387250874, "train/extr_reward_mag": 1.0247072065380258, "train/extr_reward_max": 1.0247072065380258, "train/extr_reward_mean": 0.027831474660148084, "train/extr_reward_min": -0.7041851785820974, "train/extr_reward_std": 0.1678718733535686, "train/image_loss_mean": 3.126189288958697, "train/image_loss_std": 7.711563567040672, "train/model_loss_mean": 5.786256293175926, "train/model_loss_std": 11.551926357645383, "train/model_opt_grad_norm": 44.12487618582589, "train/model_opt_grad_steps": 40393.90140845071, "train/model_opt_loss": 11133.375605193662, "train/model_opt_model_opt_grad_overflow": 0.014084507042253521, "train/model_opt_model_opt_grad_scale": 1883.8028169014085, "train/policy_entropy_mag": 2.4490167523773625, "train/policy_entropy_max": 2.4490167523773625, "train/policy_entropy_mean": 0.452710445917828, "train/policy_entropy_min": 0.07937501423375708, "train/policy_entropy_std": 0.5177645758843757, "train/policy_logprob_mag": 7.438383915054966, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.45444388666623076, "train/policy_logprob_min": -7.438383915054966, "train/policy_logprob_std": 1.0502438024735787, "train/policy_randomness_mag": 0.8643954404642884, "train/policy_randomness_max": 0.8643954404642884, "train/policy_randomness_mean": 0.15978692157167784, "train/policy_randomness_min": 0.02801589683537752, "train/policy_randomness_std": 0.18274817353403064, "train/post_ent_mag": 46.058977046483, "train/post_ent_max": 46.058977046483, "train/post_ent_mean": 30.4869473685681, "train/post_ent_min": 16.290393587569117, "train/post_ent_std": 4.758232549882271, "train/prior_ent_mag": 72.8046621403224, "train/prior_ent_max": 72.8046621403224, "train/prior_ent_mean": 34.82658676362374, "train/prior_ent_min": 19.049277359331157, "train/prior_ent_std": 8.459097640615115, "train/rep_loss_mean": 4.366397313668695, "train/rep_loss_std": 8.080699128164373, "train/reward_avg": 0.021945147276659246, "train/reward_loss_mean": 0.040112542985400686, "train/reward_loss_std": 0.181327814577331, "train/reward_max_data": 1.0112676083202092, "train/reward_max_pred": 1.012191997447484, "train/reward_neg_acc": 0.9963075392682788, "train/reward_neg_loss": 0.020841036044375996, "train/reward_pos_acc": 0.9858898142693748, "train/reward_pos_loss": 0.7307253748598234, "train/reward_pred": 0.021731499897342334, "train/reward_rate": 0.027192451584507043, "stats/sum_log_reward": 4.474999845027924, "stats/max_log_achievement_collect_drink": 4.125, "stats/max_log_achievement_collect_sapling": 2.5, "stats/max_log_achievement_collect_wood": 3.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.25, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_table": 1.625, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.36516093648970127, "replay/size": 82602.0, "replay/inserts": 1416.0, "replay/samples": 11328.0, "replay/insert_wait_avg": 3.865041301748847e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2577169359067066e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1998782157898, "timer/env.step_count": 1416.0, "timer/env.step_total": 23.009087562561035, "timer/env.step_frac": 0.07664589239447203, "timer/env.step_avg": 0.01624935562327757, "timer/env.step_min": 0.003045320510864258, "timer/env.step_max": 2.606175422668457, "timer/replay.add_count": 1416.0, "timer/replay.add_total": 0.25896167755126953, "timer/replay.add_frac": 0.0008626308547837671, "timer/replay.add_avg": 0.00018288254064355194, "timer/replay.add_min": 6.914138793945312e-05, "timer/replay.add_max": 0.007800102233886719, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02329254150390625, "timer/logger.write_frac": 7.75901097706745e-05, "timer/logger.write_avg": 0.02329254150390625, "timer/logger.write_min": 0.02329254150390625, "timer/logger.write_max": 0.02329254150390625, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003688335418701172, "timer/checkpoint.save_frac": 1.2286265539554687e-06, "timer/checkpoint.save_avg": 0.0003688335418701172, "timer/checkpoint.save_min": 0.0003688335418701172, "timer/checkpoint.save_max": 0.0003688335418701172, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2517573833465576, "timer/agent.save_frac": 0.0041697464728708816, "timer/agent.save_avg": 1.2517573833465576, "timer/agent.save_min": 1.2517573833465576, "timer/agent.save_max": 1.2517573833465576, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.320808410644531e-05, "timer/replay.save_frac": 2.771756091341038e-07, "timer/replay.save_avg": 8.320808410644531e-05, "timer/replay.save_min": 8.320808410644531e-05, "timer/replay.save_max": 8.320808410644531e-05, "timer/agent.policy_count": 1416.0, "timer/agent.policy_total": 11.840715885162354, "timer/agent.policy_frac": 0.039442773779711546, "timer/agent.policy_avg": 0.008362087489521436, "timer/agent.policy_min": 0.005741119384765625, "timer/agent.policy_max": 1.2405383586883545, "timer/dataset_count": 708.0, "timer/dataset_total": 0.06598591804504395, "timer/dataset_frac": 0.00021980661163896917, "timer/dataset_avg": 9.320044921616377e-05, "timer/dataset_min": 6.723403930664062e-05, "timer/dataset_max": 0.0003495216369628906, "timer/agent.train_count": 708.0, "timer/agent.train_total": 264.31323051452637, "timer/agent.train_frac": 0.8804574874761696, "timer/agent.train_avg": 0.37332377191317284, "timer/agent.train_min": 0.3661618232727051, "timer/agent.train_max": 0.8537647724151611, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.19979357719421387, "timer/agent.report_frac": 0.0006655351707058261, "timer/agent.report_avg": 0.19979357719421387, "timer/agent.report_min": 0.19979357719421387, "timer/agent.report_max": 0.19979357719421387, "fps": 4.716777214969954}
{"step": 82758, "episode/length": 185.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.026881720430107527}
{"step": 82962, "episode/length": 203.0, "episode/score": 5.099999979138374, "episode/sum_abs_reward": 8.100000038743019, "episode/reward_rate": 0.029411764705882353}
{"step": 83149, "episode/length": 186.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03208556149732621}
{"step": 83182, "episode/length": 32.0, "episode/score": 0.09999997168779373, "episode/sum_abs_reward": 1.9000000283122063, "episode/reward_rate": 0.06060606060606061}
{"step": 83476, "episode/length": 293.0, "episode/score": 5.099999971687794, "episode/sum_abs_reward": 6.900000028312206, "episode/reward_rate": 0.023809523809523808}
{"step": 83649, "episode/length": 172.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.03468208092485549}
{"step": 83829, "episode/length": 179.0, "episode/score": 4.0999999940395355, "episode/sum_abs_reward": 6.300000011920929, "episode/reward_rate": 0.03333333333333333}
{"step": 84076, "episode/length": 246.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.016194331983805668}
{"step": 84105, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.85743882921007, "train/action_min": 0.0, "train/action_std": 3.748962309625414, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04391916639481982, "train/actor_opt_grad_steps": 41145.0, "train/actor_opt_loss": -16.107362645367783, "train/adv_mag": 0.5709084152347512, "train/adv_max": 0.5289943955010838, "train/adv_mean": 0.0020985173622547234, "train/adv_min": -0.4821926951408386, "train/adv_std": 0.057141361551152334, "train/cont_avg": 0.9939236111111112, "train/cont_loss_mean": 0.0002075434551013839, "train/cont_loss_std": 0.00645985726005607, "train/cont_neg_acc": 0.9961419759525193, "train/cont_neg_loss": 0.02779153380228965, "train/cont_pos_acc": 0.999999982615312, "train/cont_pos_loss": 8.422918233700708e-06, "train/cont_pred": 0.9939504514137903, "train/cont_rate": 0.9939236111111112, "train/dyn_loss_mean": 4.279782437615925, "train/dyn_loss_std": 8.202697787019941, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0966546792123053, "train/extr_critic_critic_opt_grad_steps": 41145.0, "train/extr_critic_critic_opt_loss": 15316.388658311633, "train/extr_critic_mag": 6.682813015249041, "train/extr_critic_max": 6.682813015249041, "train/extr_critic_mean": 1.1844901459084616, "train/extr_critic_min": -0.6438393791516622, "train/extr_critic_std": 1.5571611954106226, "train/extr_return_normed_mag": 1.606798865728908, "train/extr_return_normed_max": 1.606798865728908, "train/extr_return_normed_mean": 0.3164259603040086, "train/extr_return_normed_min": -0.15662646604080996, "train/extr_return_normed_std": 0.3381150230351422, "train/extr_return_rate": 0.49543821397754884, "train/extr_return_raw_mag": 7.239718702104357, "train/extr_return_raw_max": 7.239718702104357, "train/extr_return_raw_mean": 1.1943478244874213, "train/extr_return_raw_min": -1.02227064801587, "train/extr_return_raw_std": 1.584582092033492, "train/extr_reward_mag": 1.0246904790401459, "train/extr_reward_max": 1.0246904790401459, "train/extr_reward_mean": 0.025819672426829737, "train/extr_reward_min": -0.674266893002722, "train/extr_reward_std": 0.1641012355685234, "train/image_loss_mean": 3.3849077588982053, "train/image_loss_std": 8.154325392511156, "train/model_loss_mean": 5.992727471722497, "train/model_loss_std": 12.029683086607191, "train/model_opt_grad_norm": 44.35081701808505, "train/model_opt_grad_steps": 41108.0, "train/model_opt_loss": 7490.909342447917, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.454564909140269, "train/policy_entropy_max": 2.454564909140269, "train/policy_entropy_mean": 0.49805836255351704, "train/policy_entropy_min": 0.07937501474387115, "train/policy_entropy_std": 0.5590047211282783, "train/policy_logprob_mag": 7.438383791181776, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.498379360884428, "train/policy_logprob_min": -7.438383791181776, "train/policy_logprob_std": 1.0800807202855747, "train/policy_randomness_mag": 0.8663536997305022, "train/policy_randomness_max": 0.8663536997305022, "train/policy_randomness_mean": 0.17579274272753131, "train/policy_randomness_min": 0.028015896988411743, "train/policy_randomness_std": 0.1973041376719872, "train/post_ent_mag": 45.94146203994751, "train/post_ent_max": 45.94146203994751, "train/post_ent_mean": 30.700940476523506, "train/post_ent_min": 16.814946558740402, "train/post_ent_std": 4.767267796728346, "train/prior_ent_mag": 72.7666441599528, "train/prior_ent_max": 72.7666441599528, "train/prior_ent_mean": 34.913832134670685, "train/prior_ent_min": 19.4483599530326, "train/prior_ent_std": 8.48805719614029, "train/rep_loss_mean": 4.279782437615925, "train/rep_loss_std": 8.202697787019941, "train/reward_avg": 0.020956759897267654, "train/reward_loss_mean": 0.03974270365304417, "train/reward_loss_std": 0.17819513318439326, "train/reward_max_data": 1.008333335320155, "train/reward_max_pred": 1.0095693717400234, "train/reward_neg_acc": 0.9958122761713134, "train/reward_neg_loss": 0.021029994150416717, "train/reward_pos_acc": 0.9901312407520082, "train/reward_pos_loss": 0.7281810633010335, "train/reward_pred": 0.02081355628454023, "train/reward_rate": 0.026462131076388888, "stats/sum_log_reward": 3.974999912083149, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_sapling": 1.875, "stats/max_log_achievement_collect_wood": 5.125, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.25, "stats/max_log_achievement_place_table": 2.375, "stats/max_log_achievement_wake_up": 1.625, "stats/mean_log_entropy": 0.4326272998005152, "replay/size": 84042.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.7488010194566516e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2690822283426921e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0247664451599, "timer/env.step_count": 1440.0, "timer/env.step_total": 20.224732637405396, "timer/env.step_frac": 0.06741021042041934, "timer/env.step_avg": 0.014044953220420413, "timer/env.step_min": 0.002994537353515625, "timer/env.step_max": 1.666642427444458, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.24521422386169434, "timer/replay.add_frac": 0.0008173132730577956, "timer/replay.add_avg": 0.00017028765545950994, "timer/replay.add_min": 7.462501525878906e-05, "timer/replay.add_max": 0.0016019344329833984, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0287320613861084, "timer/logger.write_frac": 9.576563203944764e-05, "timer/logger.write_avg": 0.0287320613861084, "timer/logger.write_min": 0.0287320613861084, "timer/logger.write_max": 0.0287320613861084, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 10.471017360687256, "timer/agent.policy_frac": 0.03490050999706787, "timer/agent.policy_avg": 0.007271539833810594, "timer/agent.policy_min": 0.005661725997924805, "timer/agent.policy_max": 0.016889572143554688, "timer/dataset_count": 720.0, "timer/dataset_total": 0.06438970565795898, "timer/dataset_frac": 0.00021461463472125883, "timer/dataset_avg": 8.943014674716526e-05, "timer/dataset_min": 6.0558319091796875e-05, "timer/dataset_max": 0.0001800060272216797, "timer/agent.train_count": 720.0, "timer/agent.train_total": 268.3146505355835, "timer/agent.train_frac": 0.8943083389904994, "timer/agent.train_avg": 0.3726592368549771, "timer/agent.train_min": 0.3664815425872803, "timer/agent.train_max": 0.38530492782592773, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20121169090270996, "timer/agent.report_frac": 0.0006706502709318448, "timer/agent.report_avg": 0.20121169090270996, "timer/agent.report_min": 0.20121169090270996, "timer/agent.report_max": 0.20121169090270996, "fps": 4.799536730660103}
{"step": 84236, "episode/length": 159.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.03125}
{"step": 84412, "episode/length": 175.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.028409090909090908}
{"step": 84584, "episode/length": 171.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03488372093023256}
{"step": 84751, "episode/length": 166.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.0999999940395355, "episode/reward_rate": 0.041916167664670656}
{"step": 84908, "episode/length": 156.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.03184713375796178}
{"step": 85144, "episode/length": 235.0, "episode/score": 4.099999971687794, "episode/sum_abs_reward": 7.300000049173832, "episode/reward_rate": 0.025423728813559324}
{"step": 85317, "episode/length": 172.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.700000025331974, "episode/reward_rate": 0.03468208092485549}
{"step": 85513, "episode/length": 195.0, "episode/score": 4.100000001490116, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.030612244897959183}
{"step": 85549, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.900664435492621, "train/action_min": 0.0, "train/action_std": 3.7665148774782815, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04632270677636067, "train/actor_opt_grad_steps": 41865.0, "train/actor_opt_loss": -19.3676368581752, "train/adv_mag": 0.5889783112539185, "train/adv_max": 0.5525666889217165, "train/adv_mean": 0.0025296830556019107, "train/adv_min": -0.4869932362602817, "train/adv_std": 0.060846187795201935, "train/cont_avg": 0.9938422309027778, "train/cont_loss_mean": 9.538006419518297e-05, "train/cont_loss_std": 0.002750330084566599, "train/cont_neg_acc": 0.998435054866361, "train/cont_neg_loss": 0.007212769906813341, "train/cont_pos_acc": 0.9999863670931922, "train/cont_pos_loss": 3.435496761067864e-05, "train/cont_pred": 0.9938348407546679, "train/cont_rate": 0.9938422309027778, "train/dyn_loss_mean": 4.520998438199361, "train/dyn_loss_std": 8.24348278840383, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1842674513657887, "train/extr_critic_critic_opt_grad_steps": 41865.0, "train/extr_critic_critic_opt_loss": 15539.816677517361, "train/extr_critic_mag": 6.703474925624, "train/extr_critic_max": 6.703474925624, "train/extr_critic_mean": 1.1545340232551098, "train/extr_critic_min": -0.6631206058793597, "train/extr_critic_std": 1.5554722895224888, "train/extr_return_normed_mag": 1.6531279004282422, "train/extr_return_normed_max": 1.6531279004282422, "train/extr_return_normed_mean": 0.3163193000687493, "train/extr_return_normed_min": -0.15518786473613647, "train/extr_return_normed_std": 0.3431977530320485, "train/extr_return_rate": 0.47800928354263306, "train/extr_return_raw_mag": 7.365088330374824, "train/extr_return_raw_max": 7.365088330374824, "train/extr_return_raw_mean": 1.1662530166407425, "train/extr_return_raw_min": -1.0197361773914762, "train/extr_return_raw_std": 1.5912467059161928, "train/extr_reward_mag": 1.0146847433514066, "train/extr_reward_max": 1.0146847433514066, "train/extr_reward_mean": 0.025818544569321804, "train/extr_reward_min": -0.6789087023999956, "train/extr_reward_std": 0.16436003665957186, "train/image_loss_mean": 3.4445098406738706, "train/image_loss_std": 8.342288593451181, "train/model_loss_mean": 6.1976281603177386, "train/model_loss_std": 12.209595123926798, "train/model_opt_grad_norm": 42.027882708443535, "train/model_opt_grad_steps": 41827.36111111111, "train/model_opt_loss": 8198.358995225695, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1319.4444444444443, "train/policy_entropy_mag": 2.4312585492928824, "train/policy_entropy_max": 2.4312585492928824, "train/policy_entropy_mean": 0.49483636145790416, "train/policy_entropy_min": 0.0793750151577923, "train/policy_entropy_std": 0.5504247169527743, "train/policy_logprob_mag": 7.438383791181776, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4938834413058228, "train/policy_logprob_min": -7.438383791181776, "train/policy_logprob_std": 1.072658730049928, "train/policy_randomness_mag": 0.8581275757816103, "train/policy_randomness_max": 0.8581275757816103, "train/policy_randomness_mean": 0.17465551818410555, "train/policy_randomness_min": 0.028015897143632174, "train/policy_randomness_std": 0.19427577157815298, "train/post_ent_mag": 47.099844455718994, "train/post_ent_max": 47.099844455718994, "train/post_ent_mean": 31.035795821083916, "train/post_ent_min": 16.974528763029312, "train/post_ent_std": 4.842503395345476, "train/prior_ent_mag": 72.86483414967854, "train/prior_ent_max": 72.86483414967854, "train/prior_ent_mean": 35.47362126244439, "train/prior_ent_min": 19.420582453409832, "train/prior_ent_std": 8.560192154513466, "train/rep_loss_mean": 4.520998438199361, "train/rep_loss_std": 8.24348278840383, "train/reward_avg": 0.020795355770840414, "train/reward_loss_mean": 0.04042384809710913, "train/reward_loss_std": 0.1816874806665712, "train/reward_max_data": 1.0041666676600773, "train/reward_max_pred": 1.007145396537251, "train/reward_neg_acc": 0.9961835982071029, "train/reward_neg_loss": 0.02167546258877135, "train/reward_pos_acc": 0.9878357400496801, "train/reward_pos_loss": 0.735222339630127, "train/reward_pred": 0.020586615117887657, "train/reward_rate": 0.0263671875, "stats/sum_log_reward": 4.474999964237213, "stats/max_log_achievement_collect_drink": 5.875, "stats/max_log_achievement_collect_sapling": 2.625, "stats/max_log_achievement_collect_wood": 3.875, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_table": 1.625, "stats/max_log_achievement_wake_up": 1.75, "stats/mean_log_entropy": 0.4023790545761585, "replay/size": 85486.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.7334632345183733e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2622026525375915e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.38254857063293, "timer/env.step_count": 1444.0, "timer/env.step_total": 19.86166214942932, "timer/env.step_frac": 0.06612122523076265, "timer/env.step_avg": 0.013754613676890112, "timer/env.step_min": 0.0029807090759277344, "timer/env.step_max": 1.6818702220916748, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.2526514530181885, "timer/replay.add_frac": 0.0008410989726947443, "timer/replay.add_avg": 0.0001749663802065017, "timer/replay.add_min": 7.510185241699219e-05, "timer/replay.add_max": 0.0017905235290527344, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027079105377197266, "timer/logger.write_frac": 9.014873036417359e-05, "timer/logger.write_avg": 0.027079105377197266, "timer/logger.write_min": 0.027079105377197266, "timer/logger.write_max": 0.027079105377197266, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.521721601486206, "timer/agent.policy_frac": 0.03502773929961545, "timer/agent.policy_avg": 0.007286510804353328, "timer/agent.policy_min": 0.0057332515716552734, "timer/agent.policy_max": 0.017104625701904297, "timer/dataset_count": 722.0, "timer/dataset_total": 0.06401228904724121, "timer/dataset_frac": 0.00021310255656276634, "timer/dataset_avg": 8.86596801208327e-05, "timer/dataset_min": 6.937980651855469e-05, "timer/dataset_max": 0.0001938343048095703, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.9768228530884, "timer/agent.train_frac": 0.8954475688851155, "timer/agent.train_avg": 0.3725440759738066, "timer/agent.train_min": 0.36673450469970703, "timer/agent.train_max": 0.3859221935272217, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20113158226013184, "timer/agent.report_frac": 0.0006695847785339536, "timer/agent.report_avg": 0.20113158226013184, "timer/agent.report_min": 0.20113158226013184, "timer/agent.report_max": 0.20113158226013184, "fps": 4.80710527096707}
{"step": 85714, "episode/length": 200.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.03980099502487562}
{"step": 85927, "episode/length": 212.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.03755868544600939}
{"step": 86091, "episode/length": 163.0, "episode/score": 5.099999971687794, "episode/sum_abs_reward": 7.1000000312924385, "episode/reward_rate": 0.042682926829268296}
{"step": 86294, "episode/length": 202.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.029556650246305417}
{"step": 86442, "episode/length": 147.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.100000016391277, "episode/reward_rate": 0.02027027027027027}
{"step": 86628, "episode/length": 185.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.500000022351742, "episode/reward_rate": 0.026881720430107527}
{"step": 86790, "episode/length": 161.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.3000000193715096, "episode/reward_rate": 0.030864197530864196}
{"step": 86946, "episode/length": 155.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.0999999940395355, "episode/reward_rate": 0.04487179487179487}
{"step": 86965, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.848709321357835, "train/action_min": 0.0, "train/action_std": 3.662182844860453, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04612425085104687, "train/actor_opt_grad_steps": 42580.0, "train/actor_opt_loss": -15.04850918978033, "train/adv_mag": 0.5535866231985496, "train/adv_max": 0.5311982971681676, "train/adv_mean": 0.003311626146300319, "train/adv_min": -0.4427490515608183, "train/adv_std": 0.05963771113417518, "train/cont_avg": 0.9940856073943662, "train/cont_loss_mean": 3.4432855974161395e-05, "train/cont_loss_std": 0.001016215692022621, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.001206896481107833, "train/cont_pos_acc": 0.9999861364633265, "train/cont_pos_loss": 2.62155077510689e-05, "train/cont_pred": 0.9940768631411271, "train/cont_rate": 0.9940856073943662, "train/dyn_loss_mean": 4.396998318148331, "train/dyn_loss_std": 8.242690449029627, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1403645428133682, "train/extr_critic_critic_opt_grad_steps": 42580.0, "train/extr_critic_critic_opt_loss": 15571.86454665493, "train/extr_critic_mag": 6.490066555184378, "train/extr_critic_max": 6.490066555184378, "train/extr_critic_mean": 1.2046390175819397, "train/extr_critic_min": -0.6275176582202106, "train/extr_critic_std": 1.530599830855786, "train/extr_return_normed_mag": 1.564574292008306, "train/extr_return_normed_max": 1.564574292008306, "train/extr_return_normed_mean": 0.32345383372944847, "train/extr_return_normed_min": -0.15254084786898653, "train/extr_return_normed_std": 0.33534093536961246, "train/extr_return_rate": 0.5085066682855848, "train/extr_return_raw_mag": 7.015912123129401, "train/extr_return_raw_max": 7.015912123129401, "train/extr_return_raw_mean": 1.2201117973932079, "train/extr_return_raw_min": -1.003124066641633, "train/extr_return_raw_std": 1.5662746731664094, "train/extr_reward_mag": 1.0150790617499552, "train/extr_reward_max": 1.0150790617499552, "train/extr_reward_mean": 0.02789463849187317, "train/extr_reward_min": -0.6711665425502079, "train/extr_reward_std": 0.1691012869418507, "train/image_loss_mean": 3.2383434957181905, "train/image_loss_std": 8.309670112502406, "train/model_loss_mean": 5.917326033954889, "train/model_loss_std": 12.233829115478086, "train/model_opt_grad_norm": 42.4607661072637, "train/model_opt_grad_steps": 42542.0, "train/model_opt_loss": 8994.291710222271, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1549.2957746478874, "train/policy_entropy_mag": 2.4443901626157087, "train/policy_entropy_max": 2.4443901626157087, "train/policy_entropy_mean": 0.46588614792890953, "train/policy_entropy_min": 0.07937501412881932, "train/policy_entropy_std": 0.5355637614995661, "train/policy_logprob_mag": 7.438383847894803, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.46670131322363734, "train/policy_logprob_min": -7.438383847894803, "train/policy_logprob_std": 1.058770780831995, "train/policy_randomness_mag": 0.8627624595668953, "train/policy_randomness_max": 0.8627624595668953, "train/policy_randomness_mean": 0.16443736420970567, "train/policy_randomness_min": 0.02801589680914308, "train/policy_randomness_std": 0.18903050456248538, "train/post_ent_mag": 46.73007551381286, "train/post_ent_max": 46.73007551381286, "train/post_ent_mean": 30.762739315838882, "train/post_ent_min": 16.700416820150025, "train/post_ent_std": 4.719129673192199, "train/prior_ent_mag": 72.89882154867682, "train/prior_ent_max": 72.89882154867682, "train/prior_ent_mean": 35.10661826335208, "train/prior_ent_min": 19.426228832191146, "train/prior_ent_std": 8.486796520125697, "train/rep_loss_mean": 4.396998318148331, "train/rep_loss_std": 8.242690449029627, "train/reward_avg": 0.02206343497661218, "train/reward_loss_mean": 0.04074908142358485, "train/reward_loss_std": 0.18488647862219473, "train/reward_max_data": 1.001408451040026, "train/reward_max_pred": 1.0033320188522339, "train/reward_neg_acc": 0.9959539485649324, "train/reward_neg_loss": 0.021497989007809633, "train/reward_pos_acc": 0.9869501909739534, "train/reward_pos_loss": 0.729053622400257, "train/reward_pred": 0.02198794843550299, "train/reward_rate": 0.027219960387323945, "stats/sum_log_reward": 4.724999904632568, "stats/max_log_achievement_collect_drink": 4.5, "stats/max_log_achievement_collect_sapling": 1.875, "stats/max_log_achievement_collect_wood": 5.875, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.25, "stats/max_log_achievement_place_plant": 1.125, "stats/max_log_achievement_place_table": 2.625, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.3736213408410549, "replay/size": 86902.0, "replay/inserts": 1416.0, "replay/samples": 11328.0, "replay/insert_wait_avg": 3.701549465373411e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.256327844608975e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2853798866272, "timer/env.step_count": 1416.0, "timer/env.step_total": 21.950491428375244, "timer/env.step_frac": 0.07309876836715345, "timer/env.step_avg": 0.01550175948331585, "timer/env.step_min": 0.0030181407928466797, "timer/env.step_max": 1.7215497493743896, "timer/replay.add_count": 1416.0, "timer/replay.add_total": 0.24963593482971191, "timer/replay.add_frac": 0.0008313289675440143, "timer/replay.add_avg": 0.00017629656414527677, "timer/replay.add_min": 7.176399230957031e-05, "timer/replay.add_max": 0.0019855499267578125, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029756784439086914, "timer/logger.write_frac": 9.909501571578874e-05, "timer/logger.write_avg": 0.029756784439086914, "timer/logger.write_min": 0.029756784439086914, "timer/logger.write_max": 0.029756784439086914, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002562999725341797, "timer/checkpoint.save_frac": 8.535213157262128e-07, "timer/checkpoint.save_avg": 0.0002562999725341797, "timer/checkpoint.save_min": 0.0002562999725341797, "timer/checkpoint.save_max": 0.0002562999725341797, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2566273212432861, "timer/agent.save_frac": 0.004184776900286407, "timer/agent.save_avg": 1.2566273212432861, "timer/agent.save_min": 1.2566273212432861, "timer/agent.save_max": 1.2566273212432861, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.82012939453125e-05, "timer/replay.save_frac": 2.6042324796111423e-07, "timer/replay.save_avg": 7.82012939453125e-05, "timer/replay.save_min": 7.82012939453125e-05, "timer/replay.save_max": 7.82012939453125e-05, "timer/agent.policy_count": 1416.0, "timer/agent.policy_total": 11.548994779586792, "timer/agent.policy_frac": 0.03846006350341504, "timer/agent.policy_avg": 0.008156069759595192, "timer/agent.policy_min": 0.00574946403503418, "timer/agent.policy_max": 1.2546052932739258, "timer/dataset_count": 708.0, "timer/dataset_total": 0.06302237510681152, "timer/dataset_frac": 0.00020987493673719858, "timer/dataset_avg": 8.901465410566599e-05, "timer/dataset_min": 6.246566772460938e-05, "timer/dataset_max": 0.0002052783966064453, "timer/agent.train_count": 708.0, "timer/agent.train_total": 265.7694044113159, "timer/agent.train_frac": 0.8850560906816616, "timer/agent.train_avg": 0.37538051470524847, "timer/agent.train_min": 0.3662838935852051, "timer/agent.train_max": 1.97617506980896, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20524978637695312, "timer/agent.report_frac": 0.0006835157490998903, "timer/agent.report_avg": 0.20524978637695312, "timer/agent.report_min": 0.20524978637695312, "timer/agent.report_max": 0.20524978637695312, "fps": 4.715439587522216}
{"step": 87093, "episode/length": 146.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.034013605442176874}
{"step": 87259, "episode/length": 165.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.030120481927710843}
{"step": 87308, "episode/length": 48.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.100000016391277, "episode/reward_rate": 0.061224489795918366}
{"step": 87472, "episode/length": 163.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.042682926829268296}
{"step": 87728, "episode/length": 255.0, "episode/score": 5.099999979138374, "episode/sum_abs_reward": 7.30000002682209, "episode/reward_rate": 0.0234375}
{"step": 87918, "episode/length": 189.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.02631578947368421}
{"step": 88078, "episode/length": 159.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 4.899999991059303, "episode/reward_rate": 0.03125}
{"step": 88251, "episode/length": 172.0, "episode/score": 5.099999971687794, "episode/sum_abs_reward": 7.1000000312924385, "episode/reward_rate": 0.04046242774566474}
{"step": 88407, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.94764879014757, "train/action_min": 0.0, "train/action_std": 3.805847419632806, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.046483821546037994, "train/actor_opt_grad_steps": 43295.0, "train/actor_opt_loss": -19.424935087147688, "train/adv_mag": 0.6040981780323718, "train/adv_max": 0.5722661891745197, "train/adv_mean": 0.0015812127780666036, "train/adv_min": -0.49539690092206, "train/adv_std": 0.05896264863097005, "train/cont_avg": 0.9942762586805556, "train/cont_loss_mean": 9.26715814713535e-06, "train/cont_loss_std": 0.0002468517212109352, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00018241898065854103, "train/cont_pos_acc": 0.9999999842709966, "train/cont_pos_loss": 7.888023962898671e-06, "train/cont_pred": 0.9942709133028984, "train/cont_rate": 0.9942762586805556, "train/dyn_loss_mean": 4.482828150192897, "train/dyn_loss_std": 8.27766239643097, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0990799566109974, "train/extr_critic_critic_opt_grad_steps": 43295.0, "train/extr_critic_critic_opt_loss": 15380.12653266059, "train/extr_critic_mag": 6.865587492783864, "train/extr_critic_max": 6.865587492783864, "train/extr_critic_mean": 1.192901944120725, "train/extr_critic_min": -0.6118621312909656, "train/extr_critic_std": 1.5693188044759963, "train/extr_return_normed_mag": 1.6350169893768098, "train/extr_return_normed_max": 1.6350169893768098, "train/extr_return_normed_mean": 0.3120533977117803, "train/extr_return_normed_min": -0.1530992387690478, "train/extr_return_normed_std": 0.33836328403817284, "train/extr_return_rate": 0.49206274044182563, "train/extr_return_raw_mag": 7.455108821392059, "train/extr_return_raw_max": 7.455108821392059, "train/extr_return_raw_mean": 1.200334235197968, "train/extr_return_raw_min": -0.9998047103484472, "train/extr_return_raw_std": 1.6000924309094746, "train/extr_reward_mag": 1.0145018729898665, "train/extr_reward_max": 1.0145018729898665, "train/extr_reward_mean": 0.026147040008153353, "train/extr_reward_min": -0.6600413984722562, "train/extr_reward_std": 0.16590860310114092, "train/image_loss_mean": 3.3841829548279443, "train/image_loss_std": 8.678111745251549, "train/model_loss_mean": 6.113527370823754, "train/model_loss_std": 12.551808807584974, "train/model_opt_grad_norm": 42.55967231591543, "train/model_opt_grad_steps": 43256.25, "train/model_opt_loss": 9460.373460557727, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1562.5, "train/policy_entropy_mag": 2.414727876583735, "train/policy_entropy_max": 2.414727876583735, "train/policy_entropy_mean": 0.4891224971248044, "train/policy_entropy_min": 0.07937501391602887, "train/policy_entropy_std": 0.5475074681970808, "train/policy_logprob_mag": 7.438383830918206, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4888915407160918, "train/policy_logprob_min": -7.438383830918206, "train/policy_logprob_std": 1.0689901519152853, "train/policy_randomness_mag": 0.8522929723064104, "train/policy_randomness_max": 0.8522929723064104, "train/policy_randomness_mean": 0.17263877702256045, "train/policy_randomness_min": 0.02801589672971103, "train/policy_randomness_std": 0.19324611127376556, "train/post_ent_mag": 47.55010774400499, "train/post_ent_max": 47.55010774400499, "train/post_ent_mean": 31.161147938834297, "train/post_ent_min": 17.023914323912727, "train/post_ent_std": 4.926787561840481, "train/prior_ent_mag": 73.039139535692, "train/prior_ent_max": 73.039139535692, "train/prior_ent_mean": 35.55410703023275, "train/prior_ent_min": 19.65189223819309, "train/prior_ent_std": 8.526747332678902, "train/rep_loss_mean": 4.482828150192897, "train/rep_loss_std": 8.27766239643097, "train/reward_avg": 0.02179090694213907, "train/reward_loss_mean": 0.03963823476806283, "train/reward_loss_std": 0.17947577498853207, "train/reward_max_data": 1.0055555568801031, "train/reward_max_pred": 1.0068459543916914, "train/reward_neg_acc": 0.9961288140879737, "train/reward_neg_loss": 0.02041340990561164, "train/reward_pos_acc": 0.986644503970941, "train/reward_pos_loss": 0.7377846100264125, "train/reward_pred": 0.021607310039043013, "train/reward_rate": 0.026869032118055556, "stats/sum_log_reward": 4.224999904632568, "stats/max_log_achievement_collect_drink": 4.5, "stats/max_log_achievement_collect_sapling": 2.25, "stats/max_log_achievement_collect_wood": 4.375, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.375, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3896206095814705, "replay/size": 88344.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.7409561517003837e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2756923366022837e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1829333305359, "timer/env.step_count": 1442.0, "timer/env.step_total": 20.056178092956543, "timer/env.step_frac": 0.06681318578119293, "timer/env.step_avg": 0.01390858397569802, "timer/env.step_min": 0.002908945083618164, "timer/env.step_max": 1.6749286651611328, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.2571728229522705, "timer/replay.add_frac": 0.0008567203341606822, "timer/replay.add_avg": 0.0001783445374148894, "timer/replay.add_min": 7.176399230957031e-05, "timer/replay.add_max": 0.005554676055908203, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03120279312133789, "timer/logger.write_frac": 0.00010394592648936518, "timer/logger.write_avg": 0.03120279312133789, "timer/logger.write_min": 0.03120279312133789, "timer/logger.write_max": 0.03120279312133789, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 10.596893787384033, "timer/agent.policy_frac": 0.03530145324989424, "timer/agent.policy_avg": 0.007348747425370342, "timer/agent.policy_min": 0.0056743621826171875, "timer/agent.policy_max": 0.016998291015625, "timer/dataset_count": 721.0, "timer/dataset_total": 0.06550788879394531, "timer/dataset_frac": 0.00021822655960861573, "timer/dataset_avg": 9.085698861850944e-05, "timer/dataset_min": 6.723403930664062e-05, "timer/dataset_max": 0.00019931793212890625, "timer/agent.train_count": 721.0, "timer/agent.train_total": 268.49816370010376, "timer/agent.train_frac": 0.8944484642118425, "timer/agent.train_avg": 0.3723968983357889, "timer/agent.train_min": 0.3655412197113037, "timer/agent.train_max": 0.38536524772644043, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.19959735870361328, "timer/agent.report_frac": 0.0006649190761415928, "timer/agent.report_avg": 0.19959735870361328, "timer/agent.report_min": 0.19959735870361328, "timer/agent.report_max": 0.19959735870361328, "fps": 4.803670724974078}
{"step": 88414, "episode/length": 162.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.03067484662576687}
{"step": 88573, "episode/length": 158.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.0440251572327044}
{"step": 88731, "episode/length": 157.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.0379746835443038}
{"step": 88968, "episode/length": 236.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.029535864978902954}
{"step": 89176, "episode/length": 207.0, "episode/score": 5.100000023841858, "episode/sum_abs_reward": 6.5, "episode/reward_rate": 0.03365384615384615}
{"step": 89352, "episode/length": 175.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 5.0999999940395355, "episode/reward_rate": 0.028409090909090908}
{"step": 89525, "episode/length": 172.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03468208092485549}
{"step": 89710, "episode/length": 184.0, "episode/score": 3.100000001490116, "episode/sum_abs_reward": 5.100000001490116, "episode/reward_rate": 0.02702702702702703}
{"step": 89848, "stats/sum_log_reward": 4.724999904632568, "stats/max_log_achievement_collect_drink": 7.5, "stats/max_log_achievement_collect_sapling": 2.125, "stats/max_log_achievement_collect_wood": 3.875, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.25, "stats/max_log_achievement_place_plant": 1.75, "stats/max_log_achievement_place_table": 1.625, "stats/max_log_achievement_wake_up": 2.0, "stats/mean_log_entropy": 0.4518112689256668, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.873525831434462, "train/action_min": 0.0, "train/action_std": 3.7306775053342185, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04637805030991634, "train/actor_opt_grad_steps": 44015.0, "train/actor_opt_loss": -16.545682082573574, "train/adv_mag": 0.5863912134534783, "train/adv_max": 0.5415869446264373, "train/adv_mean": 0.002572647914399163, "train/adv_min": -0.46972172252006, "train/adv_std": 0.06064570519245333, "train/cont_avg": 0.9940321180555556, "train/cont_loss_mean": 3.235370020604478e-05, "train/cont_loss_std": 0.0008064404725066273, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0005714516014450055, "train/cont_pos_acc": 0.9999863389465544, "train/cont_pos_loss": 2.949776222788753e-05, "train/cont_pred": 0.9940127597914802, "train/cont_rate": 0.9940321180555556, "train/dyn_loss_mean": 4.304548783434762, "train/dyn_loss_std": 8.159733633200327, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1090565009249582, "train/extr_critic_critic_opt_grad_steps": 44015.0, "train/extr_critic_critic_opt_loss": 15534.916680230035, "train/extr_critic_mag": 6.591653300656213, "train/extr_critic_max": 6.591653300656213, "train/extr_critic_mean": 1.2252565440204408, "train/extr_critic_min": -0.6712213257948557, "train/extr_critic_std": 1.5523772355582979, "train/extr_return_normed_mag": 1.639041781425476, "train/extr_return_normed_max": 1.639041781425476, "train/extr_return_normed_mean": 0.33366891410615707, "train/extr_return_normed_min": -0.171522105526593, "train/extr_return_normed_std": 0.34388400386605, "train/extr_return_rate": 0.5158176281385951, "train/extr_return_raw_mag": 7.2527881198459205, "train/extr_return_raw_max": 7.2527881198459205, "train/extr_return_raw_mean": 1.2370555467075772, "train/extr_return_raw_min": -1.091661111348205, "train/extr_return_raw_std": 1.5848271350065868, "train/extr_reward_mag": 1.0154279867808025, "train/extr_reward_max": 1.0154279867808025, "train/extr_reward_mean": 0.027782422930209175, "train/extr_reward_min": -0.6816656738519669, "train/extr_reward_std": 0.1691348852796687, "train/image_loss_mean": 2.986302337712712, "train/image_loss_std": 7.4447596536742315, "train/model_loss_mean": 5.610145376788245, "train/model_loss_std": 11.302197575569153, "train/model_opt_grad_norm": 43.37336484591166, "train/model_opt_grad_steps": 43975.875, "train/model_opt_loss": 8703.765028211805, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1545.138888888889, "train/policy_entropy_mag": 2.4409412841002145, "train/policy_entropy_max": 2.4409412841002145, "train/policy_entropy_mean": 0.4567928695016437, "train/policy_entropy_min": 0.07937501381254858, "train/policy_entropy_std": 0.5178984622988436, "train/policy_logprob_mag": 7.438383897145589, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.45615807217028403, "train/policy_logprob_min": -7.438383897145589, "train/policy_logprob_std": 1.0480335040224924, "train/policy_randomness_mag": 0.8615451554457346, "train/policy_randomness_max": 0.8615451554457346, "train/policy_randomness_mean": 0.1612278361701303, "train/policy_randomness_min": 0.028015896703840956, "train/policy_randomness_std": 0.18279543187883165, "train/post_ent_mag": 47.263653914133705, "train/post_ent_max": 47.263653914133705, "train/post_ent_mean": 31.338529295391506, "train/post_ent_min": 16.824587146441143, "train/post_ent_std": 4.861792309416665, "train/prior_ent_mag": 72.97366534339056, "train/prior_ent_max": 72.97366534339056, "train/prior_ent_mean": 35.649315410190155, "train/prior_ent_min": 19.621132797665066, "train/prior_ent_std": 8.407792839739058, "train/rep_loss_mean": 4.304548783434762, "train/rep_loss_std": 8.159733633200327, "train/reward_avg": 0.022604709019004885, "train/reward_loss_mean": 0.04108141365254091, "train/reward_loss_std": 0.1864693525971638, "train/reward_max_data": 1.0069444461001291, "train/reward_max_pred": 1.0084037648306952, "train/reward_neg_acc": 0.9961337049802145, "train/reward_neg_loss": 0.021338064986695018, "train/reward_pos_acc": 0.9878348029322095, "train/reward_pos_loss": 0.7305017585555712, "train/reward_pred": 0.022490508414597973, "train/reward_rate": 0.027723524305555556, "replay/size": 89785.0, "replay/inserts": 1441.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.7344522893139257e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2695168455441794e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0059332847595, "timer/env.step_count": 1441.0, "timer/env.step_total": 20.216197967529297, "timer/env.step_frac": 0.06738599382413045, "timer/env.step_avg": 0.014029283808139692, "timer/env.step_min": 0.0029566287994384766, "timer/env.step_max": 1.6818640232086182, "timer/replay.add_count": 1441.0, "timer/replay.add_total": 0.2438061237335205, "timer/replay.add_frac": 0.0008126710064167454, "timer/replay.add_avg": 0.00016919231348613498, "timer/replay.add_min": 7.152557373046875e-05, "timer/replay.add_max": 0.008267879486083984, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030392885208129883, "timer/logger.write_frac": 0.00010130761373736423, "timer/logger.write_avg": 0.030392885208129883, "timer/logger.write_min": 0.030392885208129883, "timer/logger.write_max": 0.030392885208129883, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1441.0, "timer/agent.policy_total": 10.586891174316406, "timer/agent.policy_frac": 0.035288939316635265, "timer/agent.policy_avg": 0.007346905742065514, "timer/agent.policy_min": 0.00553584098815918, "timer/agent.policy_max": 0.01538705825805664, "timer/dataset_count": 720.0, "timer/dataset_total": 0.0646519660949707, "timer/dataset_frac": 0.00021550229152836244, "timer/dataset_avg": 8.979439735412598e-05, "timer/dataset_min": 6.318092346191406e-05, "timer/dataset_max": 0.00015735626220703125, "timer/agent.train_count": 720.0, "timer/agent.train_total": 268.1856405735016, "timer/agent.train_frac": 0.8939344553527387, "timer/agent.train_avg": 0.37248005635208553, "timer/agent.train_min": 0.3649425506591797, "timer/agent.train_max": 0.38575077056884766, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2007429599761963, "timer/agent.report_frac": 0.0006691299661252205, "timer/agent.report_avg": 0.2007429599761963, "timer/agent.report_min": 0.2007429599761963, "timer/agent.report_max": 0.2007429599761963, "fps": 4.80315221852993}
{"step": 89948, "episode/length": 237.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.025210084033613446}
{"step": 90123, "episode/length": 174.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 8.100000031292439, "episode/reward_rate": 0.03428571428571429}
{"step": 90288, "episode/length": 164.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.04242424242424243}
{"step": 90440, "episode/length": 151.0, "episode/score": 5.099999979138374, "episode/sum_abs_reward": 7.30000002682209, "episode/reward_rate": 0.039473684210526314}
{"step": 90599, "episode/length": 158.0, "episode/score": 4.100000001490116, "episode/sum_abs_reward": 6.100000001490116, "episode/reward_rate": 0.03773584905660377}
{"step": 90800, "episode/length": 200.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.024875621890547265}
{"step": 90985, "episode/length": 184.0, "episode/score": 5.100000001490116, "episode/sum_abs_reward": 7.100000001490116, "episode/reward_rate": 0.03783783783783784}
{"step": 91150, "episode/length": 164.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.03636363636363636}
{"step": 91213, "episode/length": 62.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.3000000193715096, "episode/reward_rate": 0.07936507936507936}
{"step": 91259, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.746808119223151, "train/action_min": 0.0, "train/action_std": 3.5825403475425612, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04600260422473222, "train/actor_opt_grad_steps": 44730.0, "train/actor_opt_loss": -17.20681551308699, "train/adv_mag": 0.5991437544285412, "train/adv_max": 0.5615497945060193, "train/adv_mean": 0.002452161393872738, "train/adv_min": -0.4896713197231293, "train/adv_std": 0.059305399813702406, "train/cont_avg": 0.9940443441901409, "train/cont_loss_mean": 0.00016060048304451888, "train/cont_loss_std": 0.004284469325689699, "train/cont_neg_acc": 0.9952380955219269, "train/cont_neg_loss": 0.023888744038751093, "train/cont_pos_acc": 0.9999999806914531, "train/cont_pos_loss": 2.1023550315020765e-05, "train/cont_pred": 0.9940609453429639, "train/cont_rate": 0.9940443441901409, "train/dyn_loss_mean": 4.364999996104711, "train/dyn_loss_std": 8.268203198070257, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1190734715528892, "train/extr_critic_critic_opt_grad_steps": 44730.0, "train/extr_critic_critic_opt_loss": 15389.612566021127, "train/extr_critic_mag": 6.468051917116407, "train/extr_critic_max": 6.468051917116407, "train/extr_critic_mean": 1.1254497993160302, "train/extr_critic_min": -0.6918709815387994, "train/extr_critic_std": 1.5238634675321445, "train/extr_return_normed_mag": 1.6236199795360295, "train/extr_return_normed_max": 1.6236199795360295, "train/extr_return_normed_mean": 0.3140497022951153, "train/extr_return_normed_min": -0.18097585481657108, "train/extr_return_normed_std": 0.34098515775002225, "train/extr_return_rate": 0.46973116800818643, "train/extr_return_raw_mag": 7.122556666253319, "train/extr_return_raw_max": 7.122556666253319, "train/extr_return_raw_mean": 1.1366470775134128, "train/extr_return_raw_min": -1.1265748798007695, "train/extr_return_raw_std": 1.5590338748945316, "train/extr_reward_mag": 1.0147890104374415, "train/extr_reward_max": 1.0147890104374415, "train/extr_reward_mean": 0.025979124285070827, "train/extr_reward_min": -0.70204105679418, "train/extr_reward_std": 0.16484057619957856, "train/image_loss_mean": 3.106383827370657, "train/image_loss_std": 7.9605606441766446, "train/model_loss_mean": 5.76593795292814, "train/model_loss_std": 11.910570205097468, "train/model_opt_grad_norm": 42.23467974595621, "train/model_opt_grad_steps": 44690.0, "train/model_opt_loss": 7207.422438930458, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.4254452678519236, "train/policy_entropy_max": 2.4254452678519236, "train/policy_entropy_mean": 0.4532266985362684, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5136143506412775, "train/policy_logprob_mag": 7.438383800882689, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.45366340455874593, "train/policy_logprob_min": -7.438383800882689, "train/policy_logprob_std": 1.0451145247674325, "train/policy_randomness_mag": 0.8560757393568335, "train/policy_randomness_max": 0.8560757393568335, "train/policy_randomness_mean": 0.15996913685345313, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18128332726552454, "train/post_ent_mag": 48.12796455705669, "train/post_ent_max": 48.12796455705669, "train/post_ent_mean": 31.527559334123637, "train/post_ent_min": 16.82379437836123, "train/post_ent_std": 4.902038910019566, "train/prior_ent_mag": 73.11303485279352, "train/prior_ent_max": 73.11303485279352, "train/prior_ent_mean": 35.812584890446196, "train/prior_ent_min": 19.52004393725328, "train/prior_ent_std": 8.450055417880206, "train/rep_loss_mean": 4.364999996104711, "train/rep_loss_std": 8.268203198070257, "train/reward_avg": 0.021355083527069697, "train/reward_loss_mean": 0.04039357744262252, "train/reward_loss_std": 0.18598413530369878, "train/reward_max_data": 1.0028169020800524, "train/reward_max_pred": 1.0043835069092226, "train/reward_neg_acc": 0.9957707473929499, "train/reward_neg_loss": 0.02135688804326133, "train/reward_pos_acc": 0.9884986121889571, "train/reward_pos_loss": 0.7328885155664363, "train/reward_pred": 0.021098235648282816, "train/reward_rate": 0.026669784330985914, "stats/sum_log_reward": 4.7666665183173285, "stats/max_log_achievement_collect_drink": 4.0, "stats/max_log_achievement_collect_sapling": 3.5555555555555554, "stats/max_log_achievement_collect_wood": 4.666666666666667, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.1111111111111111, "stats/max_log_achievement_eat_cow": 0.1111111111111111, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.7777777777777777, "stats/max_log_achievement_place_table": 1.7777777777777777, "stats/max_log_achievement_wake_up": 1.5555555555555556, "stats/mean_log_entropy": 0.3499416692389382, "replay/size": 91196.0, "replay/inserts": 1411.0, "replay/samples": 11296.0, "replay/insert_wait_avg": 3.712469597052041e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2555389161150449e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3457350730896, "timer/env.step_count": 1411.0, "timer/env.step_total": 24.266200304031372, "timer/env.step_frac": 0.0807942230247623, "timer/env.step_avg": 0.017197874063806785, "timer/env.step_min": 0.0029420852661132812, "timer/env.step_max": 2.633226156234741, "timer/replay.add_count": 1411.0, "timer/replay.add_total": 0.24448275566101074, "timer/replay.add_frac": 0.0008140044192787205, "timer/replay.add_avg": 0.00017326913937704518, "timer/replay.add_min": 6.389617919921875e-05, "timer/replay.add_max": 0.0044443607330322266, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02249312400817871, "timer/logger.write_frac": 7.489077213866538e-05, "timer/logger.write_avg": 0.02249312400817871, "timer/logger.write_min": 0.02249312400817871, "timer/logger.write_max": 0.02249312400817871, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003046989440917969, "timer/checkpoint.save_frac": 1.0144939931231183e-06, "timer/checkpoint.save_avg": 0.0003046989440917969, "timer/checkpoint.save_min": 0.0003046989440917969, "timer/checkpoint.save_max": 0.0003046989440917969, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4183342456817627, "timer/agent.save_frac": 0.0047223385587167035, "timer/agent.save_avg": 1.4183342456817627, "timer/agent.save_min": 1.4183342456817627, "timer/agent.save_max": 1.4183342456817627, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.082389831542969e-05, "timer/replay.save_frac": 2.6910286672045156e-07, "timer/replay.save_avg": 8.082389831542969e-05, "timer/replay.save_min": 8.082389831542969e-05, "timer/replay.save_max": 8.082389831542969e-05, "timer/agent.policy_count": 1411.0, "timer/agent.policy_total": 11.644512414932251, "timer/agent.policy_frac": 0.038770360471736154, "timer/agent.policy_avg": 0.008252666488258151, "timer/agent.policy_min": 0.005702018737792969, "timer/agent.policy_max": 1.4057221412658691, "timer/dataset_count": 706.0, "timer/dataset_total": 0.06349301338195801, "timer/dataset_frac": 0.00021139975024618506, "timer/dataset_avg": 8.99334467166544e-05, "timer/dataset_min": 6.890296936035156e-05, "timer/dataset_max": 0.00017261505126953125, "timer/agent.train_count": 706.0, "timer/agent.train_total": 263.4353392124176, "timer/agent.train_frac": 0.8771069752274332, "timer/agent.train_avg": 0.3731378742385518, "timer/agent.train_min": 0.3668222427368164, "timer/agent.train_max": 0.8516068458557129, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.1995680332183838, "timer/agent.report_frac": 0.0006644610191312309, "timer/agent.report_avg": 0.1995680332183838, "timer/agent.report_min": 0.1995680332183838, "timer/agent.report_max": 0.1995680332183838, "fps": 4.697845149266978}
{"step": 91410, "episode/length": 196.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.700000002980232, "episode/reward_rate": 0.03553299492385787}
{"step": 91573, "episode/length": 162.0, "episode/score": 6.099999971687794, "episode/sum_abs_reward": 8.100000031292439, "episode/reward_rate": 0.049079754601226995}
{"step": 91723, "episode/length": 149.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.04}
{"step": 91908, "episode/length": 184.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.032432432432432434}
{"step": 92062, "episode/length": 153.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.500000022351742, "episode/reward_rate": 0.032467532467532464}
{"step": 92229, "episode/length": 166.0, "episode/score": 3.0999999940395355, "episode/sum_abs_reward": 5.300000011920929, "episode/reward_rate": 0.029940119760479042}
{"step": 92381, "episode/length": 151.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.039473684210526314}
{"step": 92539, "episode/length": 157.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.03164556962025317}
{"step": 92627, "episode/length": 87.0, "episode/score": 2.0999999791383743, "episode/sum_abs_reward": 4.700000032782555, "episode/reward_rate": 0.03409090909090909}
{"step": 92693, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.868911958076585, "train/action_min": 0.0, "train/action_std": 3.7146462453922755, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04575991221296955, "train/actor_opt_grad_steps": 45440.0, "train/actor_opt_loss": -14.602946050360169, "train/adv_mag": 0.607634745013546, "train/adv_max": 0.5555134025258077, "train/adv_mean": 0.0029531087597763576, "train/adv_min": -0.5145060835589825, "train/adv_std": 0.05950152480476339, "train/cont_avg": 0.9941681338028169, "train/cont_loss_mean": 2.0325934822011104e-05, "train/cont_loss_std": 0.000504028480764633, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0014182574801888106, "train/cont_pos_acc": 0.9999999832099592, "train/cont_pos_loss": 1.0191084969315392e-05, "train/cont_pred": 0.9941682034814862, "train/cont_rate": 0.9941681338028169, "train/dyn_loss_mean": 4.331290459968675, "train/dyn_loss_std": 8.213678991290886, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.09256868463167, "train/extr_critic_critic_opt_grad_steps": 45440.0, "train/extr_critic_critic_opt_loss": 15482.414887764084, "train/extr_critic_mag": 6.854258557440529, "train/extr_critic_max": 6.854258557440529, "train/extr_critic_mean": 1.2079240234804824, "train/extr_critic_min": -0.6674396236177901, "train/extr_critic_std": 1.587552978958882, "train/extr_return_normed_mag": 1.668023599705226, "train/extr_return_normed_max": 1.668023599705226, "train/extr_return_normed_mean": 0.3203993565599683, "train/extr_return_normed_min": -0.15102535045482743, "train/extr_return_normed_std": 0.3464129478998587, "train/extr_return_rate": 0.49045263797464506, "train/extr_return_raw_mag": 7.533428514507455, "train/extr_return_raw_max": 7.533428514507455, "train/extr_return_raw_mean": 1.2217437549376151, "train/extr_return_raw_min": -0.9865470688107988, "train/extr_return_raw_std": 1.6225038464640227, "train/extr_reward_mag": 1.013631051694843, "train/extr_reward_max": 1.013631051694843, "train/extr_reward_mean": 0.028556271220072055, "train/extr_reward_min": -0.6874868852991454, "train/extr_reward_std": 0.1715046002621382, "train/image_loss_mean": 3.055432274308003, "train/image_loss_std": 7.701685062596495, "train/model_loss_mean": 5.696578250804418, "train/model_loss_std": 11.614629476842746, "train/model_opt_grad_norm": 42.772996629987446, "train/model_opt_grad_steps": 45399.45070422535, "train/model_opt_loss": 8463.146463743398, "train/model_opt_model_opt_grad_overflow": 0.014084507042253521, "train/model_opt_model_opt_grad_scale": 1461.2676056338028, "train/policy_entropy_mag": 2.4222107470875054, "train/policy_entropy_max": 2.4222107470875054, "train/policy_entropy_mean": 0.4577048962384882, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.513094577151285, "train/policy_logprob_mag": 7.4383838881909, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4572582467341087, "train/policy_logprob_min": -7.4383838881909, "train/policy_logprob_std": 1.0474559454850747, "train/policy_randomness_mag": 0.8549340963363647, "train/policy_randomness_max": 0.8549340963363647, "train/policy_randomness_mean": 0.16154974216306714, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1810998685762916, "train/post_ent_mag": 47.66228721511196, "train/post_ent_max": 47.66228721511196, "train/post_ent_mean": 31.71256145960848, "train/post_ent_min": 16.754241432942134, "train/post_ent_std": 4.978217077926851, "train/prior_ent_mag": 73.20072313765405, "train/prior_ent_max": 73.20072313765405, "train/prior_ent_mean": 36.00278215005364, "train/prior_ent_min": 19.20627192376365, "train/prior_ent_std": 8.463422835712702, "train/rep_loss_mean": 4.331290459968675, "train/rep_loss_std": 8.213678991290886, "train/reward_avg": 0.022499449629808814, "train/reward_loss_mean": 0.042351425822142144, "train/reward_loss_std": 0.19668993322362363, "train/reward_max_data": 1.0028169020800524, "train/reward_max_pred": 1.0047501426347545, "train/reward_neg_acc": 0.9951205421501482, "train/reward_neg_loss": 0.021792750858085255, "train/reward_pos_acc": 0.9807183725733153, "train/reward_pos_loss": 0.7609509070154646, "train/reward_pred": 0.0221106633412796, "train/reward_rate": 0.027715118838028168, "stats/sum_log_reward": 4.433333237965901, "stats/max_log_achievement_collect_drink": 4.333333333333333, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_wood": 3.111111111111111, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.1111111111111111, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_table": 1.2222222222222223, "stats/max_log_achievement_wake_up": 1.7777777777777777, "stats/mean_log_entropy": 0.3986654927333196, "replay/size": 92630.0, "replay/inserts": 1434.0, "replay/samples": 11472.0, "replay/insert_wait_avg": 3.6993119839677583e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.275701502875803e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.10698914527893, "timer/env.step_count": 1434.0, "timer/env.step_total": 21.558297157287598, "timer/env.step_frac": 0.07183537184084517, "timer/env.step_avg": 0.015033680026002508, "timer/env.step_min": 0.0029172897338867188, "timer/env.step_max": 1.7139501571655273, "timer/replay.add_count": 1434.0, "timer/replay.add_total": 0.237213134765625, "timer/replay.add_frac": 0.0007904285582992284, "timer/replay.add_avg": 0.0001654205960708682, "timer/replay.add_min": 7.367134094238281e-05, "timer/replay.add_max": 0.0010426044464111328, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03086233139038086, "timer/logger.write_frac": 0.00010283776288675737, "timer/logger.write_avg": 0.03086233139038086, "timer/logger.write_min": 0.03086233139038086, "timer/logger.write_max": 0.03086233139038086, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1434.0, "timer/agent.policy_total": 10.479705810546875, "timer/agent.policy_frac": 0.03491989920126035, "timer/agent.policy_avg": 0.007308023577787221, "timer/agent.policy_min": 0.005722999572753906, "timer/agent.policy_max": 0.015529632568359375, "timer/dataset_count": 717.0, "timer/dataset_total": 0.06843209266662598, "timer/dataset_frac": 0.00022802565465577563, "timer/dataset_avg": 9.544224918636817e-05, "timer/dataset_min": 6.031990051269531e-05, "timer/dataset_max": 0.002284526824951172, "timer/agent.train_count": 717.0, "timer/agent.train_total": 267.05602979660034, "timer/agent.train_frac": 0.8898694114295388, "timer/agent.train_avg": 0.3724630820036267, "timer/agent.train_min": 0.3666553497314453, "timer/agent.train_max": 0.3874375820159912, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20373916625976562, "timer/agent.report_frac": 0.0006788884418854285, "timer/agent.report_avg": 0.20373916625976562, "timer/agent.report_min": 0.20373916625976562, "timer/agent.report_max": 0.20373916625976562, "fps": 4.778232129088058}
{"step": 92835, "episode/length": 207.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.0999999940395355, "episode/reward_rate": 0.03365384615384615}
{"step": 92967, "episode/length": 131.0, "episode/score": 5.100000001490116, "episode/sum_abs_reward": 6.700000025331974, "episode/reward_rate": 0.045454545454545456}
{"step": 93072, "episode/length": 104.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.047619047619047616}
{"step": 93233, "episode/length": 160.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.037267080745341616}
{"step": 93417, "episode/length": 183.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.03804347826086957}
{"step": 93605, "episode/length": 187.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.047872340425531915}
{"step": 93777, "episode/length": 171.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.040697674418604654}
{"step": 93826, "episode/length": 48.0, "episode/score": 2.0999999716877937, "episode/sum_abs_reward": 4.1000000312924385, "episode/reward_rate": 0.08163265306122448}
{"step": 93934, "episode/length": 107.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.05555555555555555}
{"step": 94118, "episode/length": 183.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 6.299999997019768, "episode/reward_rate": 0.03260869565217391}
{"step": 94119, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.797376844618055, "train/action_min": 0.0, "train/action_std": 3.6964705520206027, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04602618743148115, "train/actor_opt_grad_steps": 46155.0, "train/actor_opt_loss": -17.031499430537224, "train/adv_mag": 0.6111443365613619, "train/adv_max": 0.5661816919843355, "train/adv_mean": 0.002607903991929561, "train/adv_min": -0.4872003292871846, "train/adv_std": 0.05974983920653661, "train/cont_avg": 0.9940321180555556, "train/cont_loss_mean": 8.83541276748032e-05, "train/cont_loss_std": 0.002703174292169782, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0016339116927055228, "train/cont_pos_acc": 0.9999863372908698, "train/cont_pos_loss": 7.698245514396894e-05, "train/cont_pred": 0.9940208453271124, "train/cont_rate": 0.9940321180555556, "train/dyn_loss_mean": 4.329836931493547, "train/dyn_loss_std": 8.230013569196066, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1143142183621724, "train/extr_critic_critic_opt_grad_steps": 46155.0, "train/extr_critic_critic_opt_loss": 15395.065280490451, "train/extr_critic_mag": 6.792750928137037, "train/extr_critic_max": 6.792750928137037, "train/extr_critic_mean": 1.195760538180669, "train/extr_critic_min": -0.6529044823514091, "train/extr_critic_std": 1.5665218515528574, "train/extr_return_normed_mag": 1.6690796928273306, "train/extr_return_normed_max": 1.6690796928273306, "train/extr_return_normed_mean": 0.3169846853448285, "train/extr_return_normed_min": -0.14953697700467375, "train/extr_return_normed_std": 0.34160852059721947, "train/extr_return_rate": 0.490756137503518, "train/extr_return_raw_mag": 7.5305167767736645, "train/extr_return_raw_max": 7.5305167767736645, "train/extr_return_raw_mean": 1.2079413640830252, "train/extr_return_raw_min": -0.9731651635633575, "train/extr_return_raw_std": 1.5973072118229337, "train/extr_reward_mag": 1.0106845166948106, "train/extr_reward_max": 1.0106845166948106, "train/extr_reward_mean": 0.028425864422590368, "train/extr_reward_min": -0.677520344654719, "train/extr_reward_std": 0.17166370981269413, "train/image_loss_mean": 2.9499993208381863, "train/image_loss_std": 7.913443227608998, "train/model_loss_mean": 5.589045332537757, "train/model_loss_std": 11.862416704495748, "train/model_opt_grad_norm": 43.19040457407633, "train/model_opt_grad_steps": 46114.0, "train/model_opt_loss": 7948.252414279514, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1423.611111111111, "train/policy_entropy_mag": 2.437401854329639, "train/policy_entropy_max": 2.437401854329639, "train/policy_entropy_mean": 0.4604920032951567, "train/policy_entropy_min": 0.07937501381254858, "train/policy_entropy_std": 0.5216731184886562, "train/policy_logprob_mag": 7.438383811049992, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4612576100561354, "train/policy_logprob_min": -7.438383811049992, "train/policy_logprob_std": 1.0515507368577852, "train/policy_randomness_mag": 0.860295892589622, "train/policy_randomness_max": 0.860295892589622, "train/policy_randomness_mean": 0.16253346960163778, "train/policy_randomness_min": 0.028015896703840956, "train/policy_randomness_std": 0.18412771965894434, "train/post_ent_mag": 47.392708672417534, "train/post_ent_max": 47.392708672417534, "train/post_ent_mean": 31.92857641643948, "train/post_ent_min": 16.933429704772102, "train/post_ent_std": 4.934530162149006, "train/prior_ent_mag": 73.14954227871365, "train/prior_ent_max": 73.14954227871365, "train/prior_ent_mean": 36.17008304595947, "train/prior_ent_min": 19.596782167752583, "train/prior_ent_std": 8.370163963900673, "train/rep_loss_mean": 4.329836931493547, "train/rep_loss_std": 8.230013569196066, "train/reward_avg": 0.021525064987751346, "train/reward_loss_mean": 0.04105544677521619, "train/reward_loss_std": 0.190865826068653, "train/reward_max_data": 1.0055555568801031, "train/reward_max_pred": 1.0070306261380513, "train/reward_neg_acc": 0.996179392768277, "train/reward_neg_loss": 0.022195815554975223, "train/reward_pos_acc": 0.9891189543737305, "train/reward_pos_loss": 0.7246982273128297, "train/reward_pred": 0.021453759904640417, "train/reward_rate": 0.02685546875, "stats/sum_log_reward": 5.100000047683716, "stats/max_log_achievement_collect_drink": 3.9, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_wood": 5.1, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.1, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.4, "stats/max_log_achievement_place_plant": 1.2, "stats/max_log_achievement_place_table": 2.1, "stats/max_log_achievement_wake_up": 1.1, "stats/mean_log_entropy": 0.37600924223661425, "replay/size": 94056.0, "replay/inserts": 1426.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 3.7080275226609068e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2507361750448904e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.7135097980499, "timer/env.step_count": 1426.0, "timer/env.step_total": 23.78824496269226, "timer/env.step_frac": 0.0791060068390932, "timer/env.step_avg": 0.0166817987115654, "timer/env.step_min": 0.0029931068420410156, "timer/env.step_max": 1.7889318466186523, "timer/replay.add_count": 1426.0, "timer/replay.add_total": 0.25058627128601074, "timer/replay.add_frac": 0.000833305665097311, "timer/replay.add_avg": 0.00017572669795652926, "timer/replay.add_min": 7.2479248046875e-05, "timer/replay.add_max": 0.0025637149810791016, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022634029388427734, "timer/logger.write_frac": 7.526775037020473e-05, "timer/logger.write_avg": 0.022634029388427734, "timer/logger.write_min": 0.022634029388427734, "timer/logger.write_max": 0.022634029388427734, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1426.0, "timer/agent.policy_total": 10.350099802017212, "timer/agent.policy_frac": 0.03441847294778351, "timer/agent.policy_avg": 0.007258134503518382, "timer/agent.policy_min": 0.005569934844970703, "timer/agent.policy_max": 0.01624155044555664, "timer/dataset_count": 713.0, "timer/dataset_total": 0.06366086006164551, "timer/dataset_frac": 0.00021169936829375645, "timer/dataset_avg": 8.928591874003577e-05, "timer/dataset_min": 6.580352783203125e-05, "timer/dataset_max": 0.0001652240753173828, "timer/agent.train_count": 713.0, "timer/agent.train_total": 265.56133103370667, "timer/agent.train_frac": 0.883104092037799, "timer/agent.train_avg": 0.3724562847597569, "timer/agent.train_min": 0.3658320903778076, "timer/agent.train_max": 0.38572025299072266, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20161199569702148, "timer/agent.report_frac": 0.0006704454210667754, "timer/agent.report_avg": 0.20161199569702148, "timer/agent.report_min": 0.20161199569702148, "timer/agent.report_max": 0.20161199569702148, "fps": 4.741977655137848}
{"step": 94296, "episode/length": 177.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.033707865168539325}
{"step": 94468, "episode/length": 171.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.023255813953488372}
{"step": 94678, "episode/length": 209.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 9.30000003427267, "episode/reward_rate": 0.03333333333333333}
{"step": 94818, "episode/length": 139.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.04285714285714286}
{"step": 95012, "episode/length": 193.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.03608247422680412}
{"step": 95194, "episode/length": 181.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03296703296703297}
{"step": 95488, "episode/length": 293.0, "episode/score": 3.0999999791383743, "episode/sum_abs_reward": 5.100000023841858, "episode/reward_rate": 0.013605442176870748}
{"step": 95545, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.653449260013204, "train/action_min": 0.0, "train/action_std": 3.496034669204497, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04674883601321301, "train/actor_opt_grad_steps": 46870.0, "train/actor_opt_loss": -17.217886157019038, "train/adv_mag": 0.5702318977302229, "train/adv_max": 0.5279956875552594, "train/adv_mean": 0.0015415452610501284, "train/adv_min": -0.4833213283982075, "train/adv_std": 0.05974769230249902, "train/cont_avg": 0.9939755721830986, "train/cont_loss_mean": 0.000173637949988198, "train/cont_loss_std": 0.005465850823949476, "train/cont_neg_acc": 0.9976525827192925, "train/cont_neg_loss": 0.008506690523037678, "train/cont_pos_acc": 0.9999861331053184, "train/cont_pos_loss": 0.00012453037780426736, "train/cont_pred": 0.9939732014293402, "train/cont_rate": 0.9939755721830986, "train/dyn_loss_mean": 4.433417991853096, "train/dyn_loss_std": 8.198908778983103, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.2058387784890725, "train/extr_critic_critic_opt_grad_steps": 46870.0, "train/extr_critic_critic_opt_loss": 15519.838798415492, "train/extr_critic_mag": 6.5889751743262925, "train/extr_critic_max": 6.5889751743262925, "train/extr_critic_mean": 1.2169108172537575, "train/extr_critic_min": -0.633490864659699, "train/extr_critic_std": 1.5083518397640174, "train/extr_return_normed_mag": 1.633350348808396, "train/extr_return_normed_max": 1.633350348808396, "train/extr_return_normed_mean": 0.32288059718172313, "train/extr_return_normed_min": -0.15176500978184418, "train/extr_return_normed_std": 0.33377957931706603, "train/extr_return_rate": 0.5232477141937739, "train/extr_return_raw_mag": 7.240978529755498, "train/extr_return_raw_max": 7.240978529755498, "train/extr_return_raw_mean": 1.223991976657384, "train/extr_return_raw_min": -0.9550293558080432, "train/extr_return_raw_std": 1.5324082391362794, "train/extr_reward_mag": 1.0149854102604825, "train/extr_reward_max": 1.0149854102604825, "train/extr_reward_mean": 0.02807892879969637, "train/extr_reward_min": -0.6799626837314015, "train/extr_reward_std": 0.17146388766631274, "train/image_loss_mean": 3.1071382912111956, "train/image_loss_std": 8.059392828336904, "train/model_loss_mean": 5.8096657135117225, "train/model_loss_std": 11.91072347130574, "train/model_opt_grad_norm": 45.38619385302906, "train/model_opt_grad_steps": 46828.45070422535, "train/model_opt_loss": 10440.488913952464, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1813.380281690141, "train/policy_entropy_mag": 2.411046666158757, "train/policy_entropy_max": 2.411046666158757, "train/policy_entropy_mean": 0.42099340406941693, "train/policy_entropy_min": 0.07937501381400605, "train/policy_entropy_std": 0.48561343298831455, "train/policy_logprob_mag": 7.438383821030738, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.42109656879599666, "train/policy_logprob_min": -7.438383821030738, "train/policy_logprob_std": 1.0222796487136625, "train/policy_randomness_mag": 0.8509936660108431, "train/policy_randomness_max": 0.8509936660108431, "train/policy_randomness_mean": 0.14859219430617884, "train/policy_randomness_min": 0.028015896704205324, "train/policy_randomness_std": 0.17140022990569262, "train/post_ent_mag": 47.963522145445914, "train/post_ent_max": 47.963522145445914, "train/post_ent_mean": 32.07246060438559, "train/post_ent_min": 17.064448504380778, "train/post_ent_std": 4.929313800704311, "train/prior_ent_mag": 73.20806304501815, "train/prior_ent_max": 73.20806304501815, "train/prior_ent_mean": 36.45718319315306, "train/prior_ent_min": 19.719144834599025, "train/prior_ent_std": 8.33727868845765, "train/rep_loss_mean": 4.433417991853096, "train/rep_loss_std": 8.198908778983103, "train/reward_avg": 0.022579225121249616, "train/reward_loss_mean": 0.042302996549807806, "train/reward_loss_std": 0.1919724120640419, "train/reward_max_data": 1.008450706240157, "train/reward_max_pred": 1.0093668900745016, "train/reward_neg_acc": 0.9959095598946155, "train/reward_neg_loss": 0.021980171170557887, "train/reward_pos_acc": 0.9830941154923237, "train/reward_pos_loss": 0.7471149949960305, "train/reward_pred": 0.02227925822715944, "train/reward_rate": 0.028031470070422535, "stats/sum_log_reward": 4.671428339821952, "stats/max_log_achievement_collect_drink": 6.0, "stats/max_log_achievement_collect_sapling": 2.857142857142857, "stats/max_log_achievement_collect_wood": 3.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.42857142857142855, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 2.142857142857143, "stats/max_log_achievement_place_table": 1.1428571428571428, "stats/max_log_achievement_wake_up": 2.4285714285714284, "stats/mean_log_entropy": 0.3898147557462965, "replay/size": 95482.0, "replay/inserts": 1426.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 3.7623655578698885e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.268918517595588e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2642922401428, "timer/env.step_count": 1426.0, "timer/env.step_total": 18.775851249694824, "timer/env.step_frac": 0.06253108256601632, "timer/env.step_avg": 0.013166796107780382, "timer/env.step_min": 0.0031232833862304688, "timer/env.step_max": 1.814446210861206, "timer/replay.add_count": 1426.0, "timer/replay.add_total": 0.2446751594543457, "timer/replay.add_frac": 0.0008148659889889987, "timer/replay.add_avg": 0.00017158145824287918, "timer/replay.add_min": 7.390975952148438e-05, "timer/replay.add_max": 0.0027239322662353516, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026378154754638672, "timer/logger.write_frac": 8.784978912358376e-05, "timer/logger.write_avg": 0.026378154754638672, "timer/logger.write_min": 0.026378154754638672, "timer/logger.write_max": 0.026378154754638672, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00034356117248535156, "timer/checkpoint.save_frac": 1.1441959012914567e-06, "timer/checkpoint.save_avg": 0.00034356117248535156, "timer/checkpoint.save_min": 0.00034356117248535156, "timer/checkpoint.save_max": 0.00034356117248535156, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.307662010192871, "timer/agent.save_frac": 0.004355036692631571, "timer/agent.save_avg": 1.307662010192871, "timer/agent.save_min": 1.307662010192871, "timer/agent.save_max": 1.307662010192871, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.012222290039062e-05, "timer/replay.save_frac": 3.001429914560518e-07, "timer/replay.save_avg": 9.012222290039062e-05, "timer/replay.save_min": 9.012222290039062e-05, "timer/replay.save_max": 9.012222290039062e-05, "timer/agent.policy_count": 1426.0, "timer/agent.policy_total": 11.736080169677734, "timer/agent.policy_frac": 0.039085833623838134, "timer/agent.policy_avg": 0.008230070245215803, "timer/agent.policy_min": 0.00564885139465332, "timer/agent.policy_max": 1.298813819885254, "timer/dataset_count": 713.0, "timer/dataset_total": 0.06494617462158203, "timer/dataset_frac": 0.00021629669694337125, "timer/dataset_avg": 9.108860395733806e-05, "timer/dataset_min": 6.222724914550781e-05, "timer/dataset_max": 0.0002391338348388672, "timer/agent.train_count": 713.0, "timer/agent.train_total": 268.7346794605255, "timer/agent.train_frac": 0.8949937984820359, "timer/agent.train_avg": 0.3769069838156038, "timer/agent.train_min": 0.36475563049316406, "timer/agent.train_max": 3.5405569076538086, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20273971557617188, "timer/agent.report_frac": 0.0006752042144725835, "timer/agent.report_avg": 0.20273971557617188, "timer/agent.report_min": 0.20273971557617188, "timer/agent.report_max": 0.20273971557617188, "fps": 4.749072310402394}
{"step": 95665, "episode/length": 176.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.299999997019768, "episode/reward_rate": 0.03954802259887006}
{"step": 95832, "episode/length": 166.0, "episode/score": 5.099999971687794, "episode/sum_abs_reward": 7.1000000312924385, "episode/reward_rate": 0.041916167664670656}
{"step": 95961, "episode/length": 128.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.3000000193715096, "episode/reward_rate": 0.046511627906976744}
{"step": 96116, "episode/length": 154.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.025806451612903226}
{"step": 96290, "episode/length": 173.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.040229885057471264}
{"step": 96487, "episode/length": 196.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.030456852791878174}
{"step": 96647, "episode/length": 159.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.0375}
{"step": 96799, "episode/length": 151.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.039473684210526314}
{"step": 96907, "episode/length": 107.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.500000022351742, "episode/reward_rate": 0.037037037037037035}
{"step": 96979, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.755834791395399, "train/action_min": 0.0, "train/action_std": 3.6526630024115243, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04641477235903343, "train/actor_opt_grad_steps": 47585.0, "train/actor_opt_loss": -19.19897808631261, "train/adv_mag": 0.6197935587002171, "train/adv_max": 0.5749264024198055, "train/adv_mean": 0.0018153881099149454, "train/adv_min": -0.4959048645363914, "train/adv_std": 0.05915015066663424, "train/cont_avg": 0.994140625, "train/cont_loss_mean": 0.00011196823878181463, "train/cont_loss_std": 0.0033488832387354884, "train/cont_neg_acc": 0.9982638888888888, "train/cont_neg_loss": 0.012535667696435363, "train/cont_pos_acc": 0.9999999817874696, "train/cont_pos_loss": 1.4912053183577553e-05, "train/cont_pred": 0.9941501427027915, "train/cont_rate": 0.994140625, "train/dyn_loss_mean": 4.412752230962117, "train/dyn_loss_std": 8.204606420463985, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.127009724577268, "train/extr_critic_critic_opt_grad_steps": 47585.0, "train/extr_critic_critic_opt_loss": 15231.979885525174, "train/extr_critic_mag": 6.758915404478709, "train/extr_critic_max": 6.758915404478709, "train/extr_critic_mean": 1.1831092892421617, "train/extr_critic_min": -0.6422634124755859, "train/extr_critic_std": 1.5023963517612882, "train/extr_return_normed_mag": 1.6723977939950094, "train/extr_return_normed_max": 1.6723977939950094, "train/extr_return_normed_mean": 0.3181026921504074, "train/extr_return_normed_min": -0.16901392344799307, "train/extr_return_normed_std": 0.3392059240076277, "train/extr_return_rate": 0.5054832423726717, "train/extr_return_raw_mag": 7.309189935525258, "train/extr_return_raw_max": 7.309189935525258, "train/extr_return_raw_mean": 1.1912948745820258, "train/extr_return_raw_min": -1.0097579037149746, "train/extr_return_raw_std": 1.532588518328137, "train/extr_reward_mag": 1.0141693486107721, "train/extr_reward_max": 1.0141693486107721, "train/extr_reward_mean": 0.028252288725020155, "train/extr_reward_min": -0.6767318513658311, "train/extr_reward_std": 0.17009185482230452, "train/image_loss_mean": 2.9924918992651834, "train/image_loss_std": 7.6503243082099495, "train/model_loss_mean": 5.6808292335934105, "train/model_loss_std": 11.53959713379542, "train/model_opt_grad_norm": 40.52140053113302, "train/model_opt_grad_steps": 47543.0, "train/model_opt_loss": 8130.257900661893, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1440.9722222222222, "train/policy_entropy_mag": 2.414556917217043, "train/policy_entropy_max": 2.414556917217043, "train/policy_entropy_mean": 0.4399509049124188, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5001167307297388, "train/policy_logprob_mag": 7.438383844163683, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.44081810903218055, "train/policy_logprob_min": -7.438383844163683, "train/policy_logprob_std": 1.037449423637655, "train/policy_randomness_mag": 0.8522326308819983, "train/policy_randomness_max": 0.8522326308819983, "train/policy_randomness_mean": 0.15528335981070995, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1765192598104477, "train/post_ent_mag": 47.864669958750405, "train/post_ent_max": 47.864669958750405, "train/post_ent_mean": 32.41756410068936, "train/post_ent_min": 16.57164312733544, "train/post_ent_std": 4.99692686398824, "train/prior_ent_mag": 73.29700883229573, "train/prior_ent_max": 73.29700883229573, "train/prior_ent_mean": 36.76824532614814, "train/prior_ent_min": 19.335269199477302, "train/prior_ent_std": 8.305232014920977, "train/rep_loss_mean": 4.412752230962117, "train/rep_loss_std": 8.204606420463985, "train/reward_avg": 0.022466362699762814, "train/reward_loss_mean": 0.04057396803465155, "train/reward_loss_std": 0.18037341814488173, "train/reward_max_data": 1.0055555568801031, "train/reward_max_pred": 1.005299973818991, "train/reward_neg_acc": 0.9956874574224154, "train/reward_neg_loss": 0.02118946712774535, "train/reward_pos_acc": 0.9892127422822846, "train/reward_pos_loss": 0.7201826042599149, "train/reward_pred": 0.022343063157879643, "train/reward_rate": 0.027655707465277776, "stats/sum_log_reward": 4.655555486679077, "stats/max_log_achievement_collect_drink": 4.444444444444445, "stats/max_log_achievement_collect_sapling": 2.7777777777777777, "stats/max_log_achievement_collect_wood": 4.444444444444445, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.1111111111111111, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_table": 1.5555555555555556, "stats/max_log_achievement_wake_up": 1.5555555555555556, "stats/mean_log_entropy": 0.3893860893117057, "replay/size": 96916.0, "replay/inserts": 1434.0, "replay/samples": 11472.0, "replay/insert_wait_avg": 3.7548432290304653e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.247520227312543e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.17216300964355, "timer/env.step_count": 1434.0, "timer/env.step_total": 21.412166595458984, "timer/env.step_frac": 0.07133295233232897, "timer/env.step_avg": 0.01493177586852091, "timer/env.step_min": 0.003083944320678711, "timer/env.step_max": 1.702491044998169, "timer/replay.add_count": 1434.0, "timer/replay.add_total": 0.25165605545043945, "timer/replay.add_frac": 0.0008383723957852633, "timer/replay.add_avg": 0.00017549236781760072, "timer/replay.add_min": 6.699562072753906e-05, "timer/replay.add_max": 0.0026557445526123047, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028116464614868164, "timer/logger.write_frac": 9.366779495127559e-05, "timer/logger.write_avg": 0.028116464614868164, "timer/logger.write_min": 0.028116464614868164, "timer/logger.write_max": 0.028116464614868164, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1434.0, "timer/agent.policy_total": 10.564242124557495, "timer/agent.policy_frac": 0.03519394343111723, "timer/agent.policy_avg": 0.007366974982257668, "timer/agent.policy_min": 0.005728006362915039, "timer/agent.policy_max": 0.021240711212158203, "timer/dataset_count": 717.0, "timer/dataset_total": 0.06450247764587402, "timer/dataset_frac": 0.0002148849413588087, "timer/dataset_avg": 8.996161456886196e-05, "timer/dataset_min": 6.794929504394531e-05, "timer/dataset_max": 0.0002677440643310547, "timer/agent.train_count": 717.0, "timer/agent.train_total": 267.16588258743286, "timer/agent.train_frac": 0.8900421674972229, "timer/agent.train_avg": 0.372616293706322, "timer/agent.train_min": 0.3663930892944336, "timer/agent.train_max": 0.38489675521850586, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20276761054992676, "timer/agent.report_frac": 0.0006755043789434016, "timer/agent.report_avg": 0.20276761054992676, "timer/agent.report_min": 0.20276761054992676, "timer/agent.report_max": 0.20276761054992676, "fps": 4.7771925871924354}
{"step": 97076, "episode/length": 168.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 6.9000000059604645, "episode/reward_rate": 0.03550295857988166}
{"step": 97248, "episode/length": 171.0, "episode/score": 3.1000000312924385, "episode/sum_abs_reward": 6.1000000312924385, "episode/reward_rate": 0.029069767441860465}
{"step": 97412, "episode/length": 163.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.0999999940395355, "episode/reward_rate": 0.042682926829268296}
{"step": 97565, "episode/length": 152.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.032679738562091505}
{"step": 97726, "episode/length": 160.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 6.0999999940395355, "episode/reward_rate": 0.037267080745341616}
{"step": 97925, "episode/length": 198.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.500000022351742, "episode/reward_rate": 0.035175879396984924}
{"step": 98098, "episode/length": 172.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03468208092485549}
{"step": 98261, "episode/length": 162.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03680981595092025}
{"step": 98419, "episode/length": 157.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.0379746835443038}
{"step": 98420, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.57448493109809, "train/action_min": 0.0, "train/action_std": 3.504415419366625, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04729205426863498, "train/actor_opt_grad_steps": 48305.0, "train/actor_opt_loss": -19.093895425399143, "train/adv_mag": 0.5986823058790631, "train/adv_max": 0.5700725598467721, "train/adv_mean": 0.0015905859538381468, "train/adv_min": -0.47417017362183994, "train/adv_std": 0.05925250565633178, "train/cont_avg": 0.9941541883680556, "train/cont_loss_mean": 0.00015558761423337429, "train/cont_loss_std": 0.004830513760316377, "train/cont_neg_acc": 0.9914351859026485, "train/cont_neg_loss": 0.022329867572996893, "train/cont_pos_acc": 0.9999999834431542, "train/cont_pos_loss": 2.5039727830399193e-05, "train/cont_pred": 0.9941822803682752, "train/cont_rate": 0.9941541883680556, "train/dyn_loss_mean": 4.392907400925954, "train/dyn_loss_std": 8.265909916824764, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1070205494761467, "train/extr_critic_critic_opt_grad_steps": 48305.0, "train/extr_critic_critic_opt_loss": 15263.810763888889, "train/extr_critic_mag": 6.516148024135166, "train/extr_critic_max": 6.516148024135166, "train/extr_critic_mean": 1.1368843168020248, "train/extr_critic_min": -0.627470400598314, "train/extr_critic_std": 1.4761929727262921, "train/extr_return_normed_mag": 1.665839445259836, "train/extr_return_normed_max": 1.665839445259836, "train/extr_return_normed_mean": 0.3138543979989158, "train/extr_return_normed_min": -0.1719993864082628, "train/extr_return_normed_std": 0.3373505591104428, "train/extr_return_rate": 0.4863787864645322, "train/extr_return_raw_mag": 7.168202340602875, "train/extr_return_raw_max": 7.168202340602875, "train/extr_return_raw_mean": 1.1439409752686818, "train/extr_return_raw_min": -1.0209652624196477, "train/extr_return_raw_std": 1.5031652516788907, "train/extr_reward_mag": 1.0174572401576572, "train/extr_reward_max": 1.0174572401576572, "train/extr_reward_mean": 0.027595139651869733, "train/extr_reward_min": -0.6839851157532798, "train/extr_reward_std": 0.1685842118329472, "train/image_loss_mean": 3.0494570483764014, "train/image_loss_std": 7.842526104715136, "train/model_loss_mean": 5.726835121711095, "train/model_loss_std": 11.76503645711475, "train/model_opt_grad_norm": 43.46887877252367, "train/model_opt_grad_steps": 48262.27777777778, "train/model_opt_loss": 9148.698330349393, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1597.2222222222222, "train/policy_entropy_mag": 2.4015180832809873, "train/policy_entropy_max": 2.4015180832809873, "train/policy_entropy_mean": 0.4231465578907066, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4880116668840249, "train/policy_logprob_mag": 7.438383890522851, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4226715908282333, "train/policy_logprob_min": -7.438383890522851, "train/policy_logprob_std": 1.0226097744372156, "train/policy_randomness_mag": 0.8476304983099302, "train/policy_randomness_max": 0.8476304983099302, "train/policy_randomness_mean": 0.14935216587036848, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.17224670325716337, "train/post_ent_mag": 47.9370690451728, "train/post_ent_max": 47.9370690451728, "train/post_ent_mean": 32.541757106781006, "train/post_ent_min": 17.11833239926232, "train/post_ent_std": 4.8867684205373125, "train/prior_ent_mag": 73.31734042697482, "train/prior_ent_max": 73.31734042697482, "train/prior_ent_mean": 36.89061689376831, "train/prior_ent_min": 19.66606840822432, "train/prior_ent_std": 8.211845152907902, "train/rep_loss_mean": 4.392907400925954, "train/rep_loss_std": 8.265909916824764, "train/reward_avg": 0.022262912185397, "train/reward_loss_mean": 0.041478106389857, "train/reward_loss_std": 0.1885913587692711, "train/reward_max_data": 1.008333335320155, "train/reward_max_pred": 1.0088360574510362, "train/reward_neg_acc": 0.9956487309601572, "train/reward_neg_loss": 0.021777996340663068, "train/reward_pos_acc": 0.985962433119615, "train/reward_pos_loss": 0.7372258926431338, "train/reward_pred": 0.0220247907564044, "train/reward_rate": 0.027615017361111112, "stats/sum_log_reward": 4.65555543369717, "stats/max_log_achievement_collect_drink": 9.333333333333334, "stats/max_log_achievement_collect_sapling": 2.7777777777777777, "stats/max_log_achievement_collect_wood": 5.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.1111111111111111, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.4444444444444444, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.7777777777777777, "stats/mean_log_entropy": 0.3333721458911896, "replay/size": 98357.0, "replay/inserts": 1441.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.7101306160814972e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2761188877953423e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 301.4269971847534, "timer/env.step_count": 1441.0, "timer/env.step_total": 21.591418027877808, "timer/env.step_frac": 0.0716306708739954, "timer/env.step_avg": 0.014983634995057466, "timer/env.step_min": 0.0030922889709472656, "timer/env.step_max": 1.6487252712249756, "timer/replay.add_count": 1441.0, "timer/replay.add_total": 0.24831891059875488, "timer/replay.add_frac": 0.0008238111148569515, "timer/replay.add_avg": 0.00017232401845853913, "timer/replay.add_min": 7.176399230957031e-05, "timer/replay.add_max": 0.0031766891479492188, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021915912628173828, "timer/logger.write_frac": 7.270719886693137e-05, "timer/logger.write_avg": 0.021915912628173828, "timer/logger.write_min": 0.021915912628173828, "timer/logger.write_max": 0.021915912628173828, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1441.0, "timer/agent.policy_total": 10.524615287780762, "timer/agent.policy_frac": 0.03491596766738819, "timer/agent.policy_avg": 0.00730368861053488, "timer/agent.policy_min": 0.005624055862426758, "timer/agent.policy_max": 0.016488313674926758, "timer/dataset_count": 720.0, "timer/dataset_total": 0.06366991996765137, "timer/dataset_frac": 0.00021122832580462662, "timer/dataset_avg": 8.843044439951578e-05, "timer/dataset_min": 5.888938903808594e-05, "timer/dataset_max": 0.00018906593322753906, "timer/agent.train_count": 720.0, "timer/agent.train_total": 268.2741184234619, "timer/agent.train_frac": 0.8900135718733544, "timer/agent.train_avg": 0.3726029422548082, "timer/agent.train_min": 0.36463141441345215, "timer/agent.train_max": 0.39128613471984863, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2223973274230957, "timer/agent.report_frac": 0.0007378148921636966, "timer/agent.report_avg": 0.2223973274230957, "timer/agent.report_min": 0.2223973274230957, "timer/agent.report_max": 0.2223973274230957, "fps": 4.780527047060041}
{"step": 98693, "episode/length": 273.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.021897810218978103}
{"step": 98924, "episode/length": 230.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.30000001937151, "episode/reward_rate": 0.030303030303030304}
{"step": 99105, "episode/length": 180.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.03867403314917127}
{"step": 99264, "episode/length": 158.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03773584905660377}
{"step": 99444, "episode/length": 179.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.044444444444444446}
{"step": 99625, "episode/length": 180.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.3000000193715096, "episode/reward_rate": 0.022099447513812154}
{"step": 99766, "episode/length": 140.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.04964539007092199}
{"step": 99843, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.653714891890405, "train/action_min": 0.0, "train/action_std": 3.5055257568896656, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.048115111362766215, "train/actor_opt_grad_steps": 49020.0, "train/actor_opt_loss": -14.5731136230096, "train/adv_mag": 0.6430554704766878, "train/adv_max": 0.6101056291183955, "train/adv_mean": 0.002905695320908013, "train/adv_min": -0.4748757620092849, "train/adv_std": 0.060566293679072826, "train/cont_avg": 0.9939755721830986, "train/cont_loss_mean": 0.0001338671894601107, "train/cont_loss_std": 0.003490142965048703, "train/cont_neg_acc": 0.9912810199697253, "train/cont_neg_loss": 0.009102390978011793, "train/cont_pos_acc": 0.9999861196732857, "train/cont_pos_loss": 8.794039883917683e-05, "train/cont_pred": 0.99397061996057, "train/cont_rate": 0.9939755721830986, "train/dyn_loss_mean": 4.3951446271278485, "train/dyn_loss_std": 8.249998576204542, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0887370982640225, "train/extr_critic_critic_opt_grad_steps": 49020.0, "train/extr_critic_critic_opt_loss": 15261.810574383802, "train/extr_critic_mag": 6.482381471445863, "train/extr_critic_max": 6.482381471445863, "train/extr_critic_mean": 1.1388073001109378, "train/extr_critic_min": -0.6207025319757596, "train/extr_critic_std": 1.4802468091669216, "train/extr_return_normed_mag": 1.6907552715758203, "train/extr_return_normed_max": 1.6907552715758203, "train/extr_return_normed_mean": 0.3161213158721655, "train/extr_return_normed_min": -0.15595150476610156, "train/extr_return_normed_std": 0.3411291247942078, "train/extr_return_rate": 0.48499397240893943, "train/extr_return_raw_mag": 7.258806812931114, "train/extr_return_raw_max": 7.258806812931114, "train/extr_return_raw_mean": 1.15172706649337, "train/extr_return_raw_min": -0.9458327469691424, "train/extr_return_raw_std": 1.5156614730055904, "train/extr_reward_mag": 1.0135729447217054, "train/extr_reward_max": 1.0135729447217054, "train/extr_reward_mean": 0.028568086384887427, "train/extr_reward_min": -0.666858627762593, "train/extr_reward_std": 0.17001498742422588, "train/image_loss_mean": 3.0920840434625116, "train/image_loss_std": 8.049926032482738, "train/model_loss_mean": 5.769614951711305, "train/model_loss_std": 11.96562507790579, "train/model_opt_grad_norm": 42.685749752420776, "train/model_opt_grad_steps": 48976.788732394365, "train/model_opt_loss": 7958.8808043573945, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1390.8450704225352, "train/policy_entropy_mag": 2.4244629295778948, "train/policy_entropy_max": 2.4244629295778948, "train/policy_entropy_mean": 0.4258073324888525, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.49883031929042976, "train/policy_logprob_mag": 7.438383841178786, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.42418845732447125, "train/policy_logprob_min": -7.438383841178786, "train/policy_logprob_std": 1.023462823579009, "train/policy_randomness_mag": 0.855729019977677, "train/policy_randomness_max": 0.855729019977677, "train/policy_randomness_mean": 0.1502913034088175, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1760652136634773, "train/post_ent_mag": 48.73441046056613, "train/post_ent_max": 48.73441046056613, "train/post_ent_mean": 32.652347967658244, "train/post_ent_min": 16.897899399340993, "train/post_ent_std": 4.991325848539111, "train/prior_ent_mag": 73.42827885587451, "train/prior_ent_max": 73.42827885587451, "train/prior_ent_mean": 36.981333719172945, "train/prior_ent_min": 19.47763170322902, "train/prior_ent_std": 8.270252932964915, "train/rep_loss_mean": 4.3951446271278485, "train/rep_loss_std": 8.249998576204542, "train/reward_avg": 0.02174708394753471, "train/reward_loss_mean": 0.04031032273991847, "train/reward_loss_std": 0.18011340666824663, "train/reward_max_data": 1.0056338041601047, "train/reward_max_pred": 1.0077941988555479, "train/reward_neg_acc": 0.9957027452092775, "train/reward_neg_loss": 0.021047408968000343, "train/reward_pos_acc": 0.9872914099357497, "train/reward_pos_loss": 0.7341109824852204, "train/reward_pred": 0.02158653242251193, "train/reward_rate": 0.027054907570422535, "stats/sum_log_reward": 5.528571333203997, "stats/max_log_achievement_collect_drink": 7.285714285714286, "stats/max_log_achievement_collect_sapling": 3.2857142857142856, "stats/max_log_achievement_collect_wood": 4.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.7142857142857143, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.14285714285714285, "stats/max_log_achievement_place_plant": 1.8571428571428572, "stats/max_log_achievement_place_table": 1.5714285714285714, "stats/max_log_achievement_wake_up": 2.142857142857143, "stats/mean_log_entropy": 0.35603407663958414, "replay/size": 99780.0, "replay/inserts": 1423.0, "replay/samples": 11392.0, "replay/insert_wait_avg": 3.7699623670866183e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2728982092289442e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.09449219703674, "timer/env.step_count": 1423.0, "timer/env.step_total": 18.651761770248413, "timer/env.step_frac": 0.06215296266751206, "timer/env.step_avg": 0.013107351911629244, "timer/env.step_min": 0.002986907958984375, "timer/env.step_max": 1.6965830326080322, "timer/replay.add_count": 1423.0, "timer/replay.add_total": 0.24062824249267578, "timer/replay.add_frac": 0.0008018415823995981, "timer/replay.add_avg": 0.0001690992568465747, "timer/replay.add_min": 7.62939453125e-05, "timer/replay.add_max": 0.0031359195709228516, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02947378158569336, "timer/logger.write_frac": 9.821500344745213e-05, "timer/logger.write_avg": 0.02947378158569336, "timer/logger.write_min": 0.02947378158569336, "timer/logger.write_max": 0.02947378158569336, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004277229309082031, "timer/checkpoint.save_frac": 1.4252941724347536e-06, "timer/checkpoint.save_avg": 0.0004277229309082031, "timer/checkpoint.save_min": 0.0004277229309082031, "timer/checkpoint.save_max": 0.0004277229309082031, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3173675537109375, "timer/agent.save_frac": 0.004389842492830483, "timer/agent.save_avg": 1.3173675537109375, "timer/agent.save_min": 1.3173675537109375, "timer/agent.save_max": 1.3173675537109375, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.106231689453125e-05, "timer/replay.save_frac": 2.7012264137559435e-07, "timer/replay.save_avg": 8.106231689453125e-05, "timer/replay.save_min": 8.106231689453125e-05, "timer/replay.save_max": 8.106231689453125e-05, "timer/agent.policy_count": 1423.0, "timer/agent.policy_total": 15.017849683761597, "timer/agent.policy_frac": 0.050043736470515236, "timer/agent.policy_avg": 0.010553654029347574, "timer/agent.policy_min": 0.0056765079498291016, "timer/agent.policy_max": 3.2636945247650146, "timer/dataset_count": 712.0, "timer/dataset_total": 0.06488728523254395, "timer/dataset_frac": 0.00021622284620252243, "timer/dataset_avg": 9.113382757379768e-05, "timer/dataset_min": 6.937980651855469e-05, "timer/dataset_max": 0.00024247169494628906, "timer/agent.train_count": 712.0, "timer/agent.train_total": 265.3866400718689, "timer/agent.train_frac": 0.8843435883442363, "timer/agent.train_avg": 0.3727340450447597, "timer/agent.train_min": 0.36551809310913086, "timer/agent.train_max": 0.458850622177124, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22412443161010742, "timer/agent.report_frac": 0.000746846201572241, "timer/agent.report_avg": 0.22412443161010742, "timer/agent.report_min": 0.22412443161010742, "timer/agent.report_max": 0.22412443161010742, "fps": 4.741785125705477}
{"step": 99973, "episode/length": 206.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.028985507246376812}
{"step": 100142, "episode/length": 168.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.04142011834319527}
{"step": 100298, "episode/length": 155.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.03205128205128205}
{"step": 100698, "episode/length": 399.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.3000000193715096, "episode/reward_rate": 0.015}
{"step": 100842, "episode/length": 143.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.034722222222222224}
{"step": 101033, "episode/length": 190.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.02617801047120419}
{"step": 101169, "episode/length": 135.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.04411764705882353}
{"step": 101291, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.80307854546441, "train/action_min": 0.0, "train/action_std": 3.74315591984325, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.048457129237552486, "train/actor_opt_grad_steps": 49735.0, "train/actor_opt_loss": -18.14909563296371, "train/adv_mag": 0.6223997510969639, "train/adv_max": 0.5884578683310084, "train/adv_mean": 0.0017436648886359762, "train/adv_min": -0.4909386912153827, "train/adv_std": 0.060399312474247485, "train/cont_avg": 0.9943440755208334, "train/cont_loss_mean": 9.298643199330393e-05, "train/cont_loss_std": 0.002496062629884616, "train/cont_neg_acc": 0.9962962973448966, "train/cont_neg_loss": 0.010490102966299573, "train/cont_pos_acc": 0.9999999834431542, "train/cont_pos_loss": 2.4868101351099232e-05, "train/cont_pred": 0.994354038602776, "train/cont_rate": 0.9943440755208334, "train/dyn_loss_mean": 4.560176412264506, "train/dyn_loss_std": 8.296493954128689, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1174264152844746, "train/extr_critic_critic_opt_grad_steps": 49735.0, "train/extr_critic_critic_opt_loss": 15327.915256076389, "train/extr_critic_mag": 6.687276052104102, "train/extr_critic_max": 6.687276052104102, "train/extr_critic_mean": 1.1202817749645975, "train/extr_critic_min": -0.6092668506834242, "train/extr_critic_std": 1.4741855065027873, "train/extr_return_normed_mag": 1.7345719320906534, "train/extr_return_normed_max": 1.7345719320906534, "train/extr_return_normed_mean": 0.31229094767736065, "train/extr_return_normed_min": -0.15621566518934238, "train/extr_return_normed_std": 0.3411427616245217, "train/extr_return_rate": 0.47709692021210987, "train/extr_return_raw_mag": 7.391248577170902, "train/extr_return_raw_max": 7.391248577170902, "train/extr_return_raw_mean": 1.127898045712047, "train/extr_return_raw_min": -0.9349412578675482, "train/extr_return_raw_std": 1.5021998054451413, "train/extr_reward_mag": 1.0092825028631423, "train/extr_reward_max": 1.0092825028631423, "train/extr_reward_mean": 0.028268782266726095, "train/extr_reward_min": -0.6633677317036523, "train/extr_reward_std": 0.16871170182194975, "train/image_loss_mean": 3.199861687090662, "train/image_loss_std": 8.487503892845577, "train/model_loss_mean": 5.977023277017805, "train/model_loss_std": 12.41472872098287, "train/model_opt_grad_norm": 47.571781635284424, "train/model_opt_grad_steps": 49691.0, "train/model_opt_loss": 7471.279100206163, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.4362723330656686, "train/policy_entropy_max": 2.4362723330656686, "train/policy_entropy_mean": 0.4453589150475131, "train/policy_entropy_min": 0.07937501381254858, "train/policy_entropy_std": 0.5157751478254795, "train/policy_logprob_mag": 7.438383870654636, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4459409883452786, "train/policy_logprob_min": -7.438383870654636, "train/policy_logprob_std": 1.0431088970767126, "train/policy_randomness_mag": 0.8598972194724612, "train/policy_randomness_max": 0.8598972194724612, "train/policy_randomness_mean": 0.15719215147611168, "train/policy_randomness_min": 0.028015896703840956, "train/policy_randomness_std": 0.18204599432647228, "train/post_ent_mag": 48.47919114430746, "train/post_ent_max": 48.47919114430746, "train/post_ent_mean": 32.815174447165596, "train/post_ent_min": 17.076814042197334, "train/post_ent_std": 4.9288310872183905, "train/prior_ent_mag": 73.44273577796088, "train/prior_ent_max": 73.44273577796088, "train/prior_ent_mean": 37.276598082648384, "train/prior_ent_min": 20.236283752653335, "train/prior_ent_std": 8.174623012542725, "train/rep_loss_mean": 4.560176412264506, "train/rep_loss_std": 8.296493954128689, "train/reward_avg": 0.022745768203296594, "train/reward_loss_mean": 0.04096280108205974, "train/reward_loss_std": 0.18446947851528725, "train/reward_max_data": 1.0041666676600773, "train/reward_max_pred": 1.0054433014657762, "train/reward_neg_acc": 0.9951292930377854, "train/reward_neg_loss": 0.02104025513916794, "train/reward_pos_acc": 0.9865949799617132, "train/reward_pos_loss": 0.7365423697564337, "train/reward_pred": 0.022614486386171646, "train/reward_rate": 0.027804904513888888, "stats/sum_log_reward": 4.814285618918283, "stats/max_log_achievement_collect_drink": 8.428571428571429, "stats/max_log_achievement_collect_sapling": 2.4285714285714284, "stats/max_log_achievement_collect_wood": 3.5714285714285716, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.14285714285714285, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_table": 1.2857142857142858, "stats/max_log_achievement_wake_up": 2.2857142857142856, "stats/mean_log_entropy": 0.39606480087552753, "replay/size": 101228.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.6948293612148222e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2569047140153073e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.27537059783936, "timer/env.step_count": 1448.0, "timer/env.step_total": 19.09247088432312, "timer/env.step_frac": 0.06358320646249001, "timer/env.step_avg": 0.013185408069283923, "timer/env.step_min": 0.0030078887939453125, "timer/env.step_max": 1.7560069561004639, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.2503983974456787, "timer/replay.add_frac": 0.0008338958901196023, "timer/replay.add_avg": 0.00017292707005917037, "timer/replay.add_min": 6.079673767089844e-05, "timer/replay.add_max": 0.00879669189453125, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022057056427001953, "timer/logger.write_frac": 7.345609592650575e-05, "timer/logger.write_avg": 0.022057056427001953, "timer/logger.write_min": 0.022057056427001953, "timer/logger.write_max": 0.022057056427001953, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 10.510466814041138, "timer/agent.policy_frac": 0.03500276027672569, "timer/agent.policy_avg": 0.007258609678205206, "timer/agent.policy_min": 0.005585908889770508, "timer/agent.policy_max": 0.016831159591674805, "timer/dataset_count": 724.0, "timer/dataset_total": 0.0645151138305664, "timer/dataset_frac": 0.00021485316528664582, "timer/dataset_avg": 8.910927324663868e-05, "timer/dataset_min": 6.151199340820312e-05, "timer/dataset_max": 0.00020313262939453125, "timer/agent.train_count": 724.0, "timer/agent.train_total": 269.63978600502014, "timer/agent.train_frac": 0.8979750336105666, "timer/agent.train_avg": 0.3724306436533427, "timer/agent.train_min": 0.36614060401916504, "timer/agent.train_max": 0.38408899307250977, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21976733207702637, "timer/agent.report_frac": 0.0007318859739960562, "timer/agent.report_avg": 0.21976733207702637, "timer/agent.report_min": 0.21976733207702637, "timer/agent.report_max": 0.21976733207702637, "fps": 4.822134633191319}
{"step": 101331, "episode/length": 161.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.043209876543209874}
{"step": 101511, "episode/length": 179.0, "episode/score": 4.100000001490116, "episode/sum_abs_reward": 5.700000025331974, "episode/reward_rate": 0.027777777777777776}
{"step": 101679, "episode/length": 167.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.3000000193715096, "episode/reward_rate": 0.03571428571428571}
{"step": 101891, "episode/length": 211.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.500000022351742, "episode/reward_rate": 0.0330188679245283}
{"step": 102067, "episode/length": 175.0, "episode/score": 5.099999971687794, "episode/sum_abs_reward": 7.1000000312924385, "episode/reward_rate": 0.03977272727272727}
{"step": 102206, "episode/length": 138.0, "episode/score": 5.099999971687794, "episode/sum_abs_reward": 7.1000000312924385, "episode/reward_rate": 0.050359712230215826}
{"step": 102268, "episode/length": 61.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.06451612903225806}
{"step": 102436, "episode/length": 167.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03571428571428571}
{"step": 102643, "episode/length": 206.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.033816425120772944}
{"step": 102721, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.605757819281684, "train/action_min": 0.0, "train/action_std": 3.547398885091146, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0489980626023478, "train/actor_opt_grad_steps": 50455.0, "train/actor_opt_loss": -12.39470608615213, "train/adv_mag": 0.6052945570813285, "train/adv_max": 0.5724487014942699, "train/adv_mean": 0.00410868133700938, "train/adv_min": -0.4847850596739186, "train/adv_std": 0.061202196300857596, "train/cont_avg": 0.9940592447916666, "train/cont_loss_mean": 8.96011060720841e-05, "train/cont_loss_std": 0.0026552765545078375, "train/cont_neg_acc": 0.9976851857370801, "train/cont_neg_loss": 0.008446295936942584, "train/cont_pos_acc": 0.9999863273567624, "train/cont_pos_loss": 3.9687221186252624e-05, "train/cont_pred": 0.9940639568699731, "train/cont_rate": 0.9940592447916666, "train/dyn_loss_mean": 4.456791314813826, "train/dyn_loss_std": 8.262102623780569, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.103275747762786, "train/extr_critic_critic_opt_grad_steps": 50455.0, "train/extr_critic_critic_opt_loss": 15606.211385091146, "train/extr_critic_mag": 6.725236468844944, "train/extr_critic_max": 6.725236468844944, "train/extr_critic_mean": 1.1729280327757199, "train/extr_critic_min": -0.6167716003126569, "train/extr_critic_std": 1.4941417972246807, "train/extr_return_normed_mag": 1.7124901016553242, "train/extr_return_normed_max": 1.7124901016553242, "train/extr_return_normed_mean": 0.3144217383944326, "train/extr_return_normed_min": -0.1614632492678033, "train/extr_return_normed_std": 0.34027375653386116, "train/extr_return_rate": 0.4956534190310372, "train/extr_return_raw_mag": 7.477767831749386, "train/extr_return_raw_max": 7.477767831749386, "train/extr_return_raw_mean": 1.1913713705208566, "train/extr_return_raw_min": -0.9482489079236984, "train/extr_return_raw_std": 1.5299537132183711, "train/extr_reward_mag": 1.0145805213186476, "train/extr_reward_max": 1.0145805213186476, "train/extr_reward_mean": 0.029830947052687407, "train/extr_reward_min": -0.6611958709028032, "train/extr_reward_std": 0.1723883758402533, "train/image_loss_mean": 3.0626556459400387, "train/image_loss_std": 8.44133566485511, "train/model_loss_mean": 5.7792730993694725, "train/model_loss_std": 12.343033830324808, "train/model_opt_grad_norm": 40.552928156322906, "train/model_opt_grad_steps": 50410.291666666664, "train/model_opt_loss": 8002.355122884114, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1388.888888888889, "train/policy_entropy_mag": 2.4241619441244335, "train/policy_entropy_max": 2.4241619441244335, "train/policy_entropy_mean": 0.4227803179787265, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.49149848851892686, "train/policy_logprob_mag": 7.438383950127496, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4229997562037574, "train/policy_logprob_min": -7.438383950127496, "train/policy_logprob_std": 1.0251976036363177, "train/policy_randomness_mag": 0.8556227816475762, "train/policy_randomness_max": 0.8556227816475762, "train/policy_randomness_mean": 0.1492228985039724, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.17347739678290156, "train/post_ent_mag": 49.15497864617242, "train/post_ent_max": 49.15497864617242, "train/post_ent_mean": 33.13549595408969, "train/post_ent_min": 17.25450560781691, "train/post_ent_std": 5.097836527559492, "train/prior_ent_mag": 73.4521001180013, "train/prior_ent_max": 73.4521001180013, "train/prior_ent_mean": 37.59051873948839, "train/prior_ent_min": 19.68026273780399, "train/prior_ent_std": 8.285249445173475, "train/rep_loss_mean": 4.456791314813826, "train/rep_loss_std": 8.262102623780569, "train/reward_avg": 0.023151312825373478, "train/reward_loss_mean": 0.042453098162594766, "train/reward_loss_std": 0.19049078577922451, "train/reward_max_data": 1.0069444461001291, "train/reward_max_pred": 1.0074548125267029, "train/reward_neg_acc": 0.9953167140483856, "train/reward_neg_loss": 0.021944786202059023, "train/reward_pos_acc": 0.9867020199696223, "train/reward_pos_loss": 0.743546219335662, "train/reward_pred": 0.022964678070921864, "train/reward_rate": 0.0284423828125, "stats/sum_log_reward": 5.099999904632568, "stats/max_log_achievement_collect_drink": 4.222222222222222, "stats/max_log_achievement_collect_sapling": 2.7777777777777777, "stats/max_log_achievement_collect_wood": 6.111111111111111, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.2222222222222222, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.3333333333333333, "stats/max_log_achievement_place_plant": 1.8888888888888888, "stats/max_log_achievement_place_table": 2.2222222222222223, "stats/max_log_achievement_wake_up": 1.2222222222222223, "stats/mean_log_entropy": 0.319135672516293, "replay/size": 102658.0, "replay/inserts": 1430.0, "replay/samples": 11440.0, "replay/insert_wait_avg": 3.803693331204928e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3256614858453925e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1581656932831, "timer/env.step_count": 1430.0, "timer/env.step_total": 21.931585788726807, "timer/env.step_frac": 0.0730667637779264, "timer/env.step_avg": 0.015336773278829935, "timer/env.step_min": 0.002977609634399414, "timer/env.step_max": 1.662135124206543, "timer/replay.add_count": 1430.0, "timer/replay.add_total": 0.2652125358581543, "timer/replay.add_frac": 0.0008835759481858041, "timer/replay.add_avg": 0.0001854633117889191, "timer/replay.add_min": 6.127357482910156e-05, "timer/replay.add_max": 0.0021202564239501953, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02707386016845703, "timer/logger.write_frac": 9.019864612353236e-05, "timer/logger.write_avg": 0.02707386016845703, "timer/logger.write_min": 0.02707386016845703, "timer/logger.write_max": 0.02707386016845703, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1430.0, "timer/agent.policy_total": 10.620159149169922, "timer/agent.policy_frac": 0.03538187650047856, "timer/agent.policy_avg": 0.007426684719699246, "timer/agent.policy_min": 0.005737781524658203, "timer/agent.policy_max": 0.01896834373474121, "timer/dataset_count": 715.0, "timer/dataset_total": 0.06641364097595215, "timer/dataset_frac": 0.0002212621496488521, "timer/dataset_avg": 9.288621115517783e-05, "timer/dataset_min": 5.5789947509765625e-05, "timer/dataset_max": 0.0001621246337890625, "timer/agent.train_count": 715.0, "timer/agent.train_total": 266.53297901153564, "timer/agent.train_frac": 0.8879751060442335, "timer/agent.train_avg": 0.372773397218931, "timer/agent.train_min": 0.3662381172180176, "timer/agent.train_max": 0.38431310653686523, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22476744651794434, "timer/agent.report_frac": 0.0007488300243266517, "timer/agent.report_avg": 0.22476744651794434, "timer/agent.report_min": 0.22476744651794434, "timer/agent.report_max": 0.22476744651794434, "fps": 4.76408162223447}
{"step": 102792, "episode/length": 148.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.900000028312206, "episode/reward_rate": 0.03355704697986577}
{"step": 103024, "episode/length": 231.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.03017241379310345}
{"step": 103199, "episode/length": 174.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.022857142857142857}
{"step": 103457, "episode/length": 257.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.900000028312206, "episode/reward_rate": 0.027131782945736434}
{"step": 103638, "episode/length": 180.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.03867403314917127}
{"step": 103733, "episode/length": 94.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.0999999940395355, "episode/reward_rate": 0.07368421052631578}
{"step": 103937, "episode/length": 203.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.0392156862745098}
{"step": 104107, "episode/length": 169.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.029411764705882353}
{"step": 104137, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.674558803013393, "train/action_min": 0.0, "train/action_std": 3.6234438896179197, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.048115131525056705, "train/actor_opt_grad_steps": 51165.0, "train/actor_opt_loss": -15.216792936410222, "train/adv_mag": 0.5940444482224329, "train/adv_max": 0.5722875884601049, "train/adv_mean": 0.0031922553372818845, "train/adv_min": -0.4823742138487952, "train/adv_std": 0.061012930901987214, "train/cont_avg": 0.9941127232142857, "train/cont_loss_mean": 5.8157146927685844e-05, "train/cont_loss_std": 0.0016743851441414596, "train/cont_neg_acc": 0.998412698507309, "train/cont_neg_loss": 0.0042527186822813486, "train/cont_pos_acc": 0.9999859767300742, "train/cont_pos_loss": 2.151810187253237e-05, "train/cont_pred": 0.9941116605486189, "train/cont_rate": 0.9941127232142857, "train/dyn_loss_mean": 4.437549645560129, "train/dyn_loss_std": 8.329364960534232, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1306069919041224, "train/extr_critic_critic_opt_grad_steps": 51165.0, "train/extr_critic_critic_opt_loss": 15512.802427455357, "train/extr_critic_mag": 6.815599897929601, "train/extr_critic_max": 6.815599897929601, "train/extr_critic_mean": 1.1861459033829824, "train/extr_critic_min": -0.6302853090422494, "train/extr_critic_std": 1.4975450686046055, "train/extr_return_normed_mag": 1.7177460534232003, "train/extr_return_normed_max": 1.7177460534232003, "train/extr_return_normed_mean": 0.306564909858363, "train/extr_return_normed_min": -0.16754249930381776, "train/extr_return_normed_std": 0.3394056117960385, "train/extr_return_rate": 0.49684061195169177, "train/extr_return_raw_mag": 7.555702488762992, "train/extr_return_raw_max": 7.555702488762992, "train/extr_return_raw_mean": 1.2005244553089143, "train/extr_return_raw_min": -0.9345044314861297, "train/extr_return_raw_std": 1.5287783162934439, "train/extr_reward_mag": 1.0086277621132986, "train/extr_reward_max": 1.0086277621132986, "train/extr_reward_mean": 0.02939755722348179, "train/extr_reward_min": -0.6796245455741883, "train/extr_reward_std": 0.1712565622159413, "train/image_loss_mean": 3.0045801486287798, "train/image_loss_std": 8.078558485848562, "train/model_loss_mean": 5.709318774087088, "train/model_loss_std": 12.050398594992501, "train/model_opt_grad_norm": 38.86120115007673, "train/model_opt_grad_steps": 51120.0, "train/model_opt_loss": 9190.555964006697, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1625.0, "train/policy_entropy_mag": 2.4312457527433122, "train/policy_entropy_max": 2.4312457527433122, "train/policy_entropy_mean": 0.44377397809709823, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5192953765392303, "train/policy_logprob_mag": 7.438383892604283, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.44255613301481517, "train/policy_logprob_min": -7.438383892604283, "train/policy_logprob_std": 1.0364092656544277, "train/policy_randomness_mag": 0.858123060635158, "train/policy_randomness_max": 0.858123060635158, "train/policy_randomness_mean": 0.15663273877331188, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1832884826830455, "train/post_ent_mag": 49.10407660348075, "train/post_ent_max": 49.10407660348075, "train/post_ent_mean": 33.353436660766604, "train/post_ent_min": 16.914763927459717, "train/post_ent_std": 5.120697089603969, "train/prior_ent_mag": 73.43389522007533, "train/prior_ent_max": 73.43389522007533, "train/prior_ent_mean": 37.741751480102536, "train/prior_ent_min": 19.761239188058035, "train/prior_ent_std": 8.22307402065822, "train/rep_loss_mean": 4.437549645560129, "train/rep_loss_std": 8.329364960534232, "train/reward_avg": 0.02243861577340535, "train/reward_loss_mean": 0.042150716643248286, "train/reward_loss_std": 0.1932628991348403, "train/reward_max_data": 1.0014285717691693, "train/reward_max_pred": 1.0021558965955462, "train/reward_neg_acc": 0.9951615418706622, "train/reward_neg_loss": 0.022126187490565438, "train/reward_pos_acc": 0.9855760071958815, "train/reward_pos_loss": 0.7449450944151197, "train/reward_pred": 0.022268919620130743, "train/reward_rate": 0.027804129464285714, "stats/sum_log_reward": 5.22500005364418, "stats/max_log_achievement_collect_drink": 4.0, "stats/max_log_achievement_collect_sapling": 3.125, "stats/max_log_achievement_collect_wood": 4.375, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.375, "stats/max_log_achievement_place_plant": 1.375, "stats/max_log_achievement_place_table": 1.5, "stats/max_log_achievement_wake_up": 1.75, "stats/mean_log_entropy": 0.3738710358738899, "replay/size": 104074.0, "replay/inserts": 1416.0, "replay/samples": 11328.0, "replay/insert_wait_avg": 3.7535772485248114e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2794372725621456e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.27959060668945, "timer/env.step_count": 1416.0, "timer/env.step_total": 20.6708025932312, "timer/env.step_frac": 0.06883851996556808, "timer/env.step_avg": 0.014598024430248024, "timer/env.step_min": 0.002932310104370117, "timer/env.step_max": 1.7079923152923584, "timer/replay.add_count": 1416.0, "timer/replay.add_total": 0.28592419624328613, "timer/replay.add_frac": 0.0009521932398588946, "timer/replay.add_avg": 0.00020192386740345065, "timer/replay.add_min": 6.556510925292969e-05, "timer/replay.add_max": 0.01838970184326172, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02798604965209961, "timer/logger.write_frac": 9.319997271728048e-05, "timer/logger.write_avg": 0.02798604965209961, "timer/logger.write_min": 0.02798604965209961, "timer/logger.write_max": 0.02798604965209961, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0005519390106201172, "timer/checkpoint.save_frac": 1.8380836656429803e-06, "timer/checkpoint.save_avg": 0.0005519390106201172, "timer/checkpoint.save_min": 0.0005519390106201172, "timer/checkpoint.save_max": 0.0005519390106201172, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.487623691558838, "timer/agent.save_frac": 0.004954128545843627, "timer/agent.save_avg": 1.487623691558838, "timer/agent.save_min": 1.487623691558838, "timer/agent.save_max": 1.487623691558838, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.916854858398438e-05, "timer/replay.save_frac": 2.9695174555096094e-07, "timer/replay.save_avg": 8.916854858398438e-05, "timer/replay.save_min": 8.916854858398438e-05, "timer/replay.save_max": 8.916854858398438e-05, "timer/agent.policy_count": 1416.0, "timer/agent.policy_total": 11.941540241241455, "timer/agent.policy_frac": 0.03976807153997575, "timer/agent.policy_avg": 0.008433291130820237, "timer/agent.policy_min": 0.00558924674987793, "timer/agent.policy_max": 1.4852724075317383, "timer/dataset_count": 708.0, "timer/dataset_total": 0.06496119499206543, "timer/dataset_frac": 0.0002163356985428708, "timer/dataset_avg": 9.175310027127886e-05, "timer/dataset_min": 6.937980651855469e-05, "timer/dataset_max": 0.00017642974853515625, "timer/agent.train_count": 708.0, "timer/agent.train_total": 266.587126493454, "timer/agent.train_frac": 0.8877963565716781, "timer/agent.train_avg": 0.3765354893975339, "timer/agent.train_min": 0.365772008895874, "timer/agent.train_max": 2.826211929321289, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22020602226257324, "timer/agent.report_frac": 0.0007333366274333385, "timer/agent.report_avg": 0.22020602226257324, "timer/agent.report_min": 0.22020602226257324, "timer/agent.report_max": 0.22020602226257324, "fps": 4.71552702357451}
{"step": 104297, "episode/length": 189.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.031578947368421054}
{"step": 104462, "episode/length": 164.0, "episode/score": 5.1000000312924385, "episode/sum_abs_reward": 8.100000031292439, "episode/reward_rate": 0.04242424242424243}
{"step": 104609, "episode/length": 146.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.047619047619047616}
{"step": 104788, "episode/length": 178.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.0335195530726257}
{"step": 104968, "episode/length": 179.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.03888888888888889}
{"step": 105163, "episode/length": 194.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.500000044703484, "episode/reward_rate": 0.035897435897435895}
{"step": 105346, "episode/length": 182.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.03278688524590164}
{"step": 105509, "episode/length": 162.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03680981595092025}
{"step": 105579, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.655774260220462, "train/action_min": 0.0, "train/action_std": 3.5379644811969913, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0495203470632638, "train/actor_opt_grad_steps": 51880.0, "train/actor_opt_loss": -12.54398923704069, "train/adv_mag": 0.6165349663120426, "train/adv_max": 0.5719159400626405, "train/adv_mean": 0.003862356431193192, "train/adv_min": -0.4998587961882761, "train/adv_std": 0.0617426909914572, "train/cont_avg": 0.9943814212328768, "train/cont_loss_mean": 3.30074400258267e-05, "train/cont_loss_std": 0.0010117521516028556, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0005693573962349073, "train/cont_pos_acc": 0.9999865146532451, "train/cont_pos_loss": 2.976814413569808e-05, "train/cont_pred": 0.9943675970377988, "train/cont_rate": 0.9943814212328768, "train/dyn_loss_mean": 4.34488769100137, "train/dyn_loss_std": 8.174106826520946, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0832563099795824, "train/extr_critic_critic_opt_grad_steps": 51880.0, "train/extr_critic_critic_opt_loss": 15590.08781035959, "train/extr_critic_mag": 6.685825700629247, "train/extr_critic_max": 6.685825700629247, "train/extr_critic_mean": 1.2545012333621717, "train/extr_critic_min": -0.5928555073803419, "train/extr_critic_std": 1.443724125215452, "train/extr_return_normed_mag": 1.7000391368996608, "train/extr_return_normed_max": 1.7000391368996608, "train/extr_return_normed_mean": 0.3225141079866723, "train/extr_return_normed_min": -0.17749590406270876, "train/extr_return_normed_std": 0.3334397977753861, "train/extr_return_rate": 0.5348325379907268, "train/extr_return_raw_mag": 7.374893717569847, "train/extr_return_raw_max": 7.374893717569847, "train/extr_return_raw_mean": 1.2716444755253726, "train/extr_return_raw_min": -0.9435683309215389, "train/extr_return_raw_std": 1.4773538774006987, "train/extr_reward_mag": 1.0235757533818075, "train/extr_reward_max": 1.0235757533818075, "train/extr_reward_mean": 0.02978770344275726, "train/extr_reward_min": -0.6576964593913457, "train/extr_reward_std": 0.17130825188878465, "train/image_loss_mean": 2.898548529572683, "train/image_loss_std": 7.635073900222778, "train/model_loss_mean": 5.546617400156308, "train/model_loss_std": 11.541421792278552, "train/model_opt_grad_norm": 44.38980165246415, "train/model_opt_grad_steps": 51834.28767123288, "train/model_opt_loss": 9005.784948897688, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1609.5890410958905, "train/policy_entropy_mag": 2.419273164174328, "train/policy_entropy_max": 2.419273164174328, "train/policy_entropy_mean": 0.4196122276456389, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4896817101191168, "train/policy_logprob_mag": 7.438383899322928, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4194081629792305, "train/policy_logprob_min": -7.438383899322928, "train/policy_logprob_std": 1.0207972673520649, "train/policy_randomness_mag": 0.8538972604764651, "train/policy_randomness_max": 0.8538972604764651, "train/policy_randomness_mean": 0.14810470277315949, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.17283615592407853, "train/post_ent_mag": 48.74025559098753, "train/post_ent_max": 48.74025559098753, "train/post_ent_mean": 33.58872207223553, "train/post_ent_min": 17.14020108523434, "train/post_ent_std": 4.98478210135682, "train/prior_ent_mag": 73.5566173187674, "train/prior_ent_max": 73.5566173187674, "train/prior_ent_mean": 37.871305335057926, "train/prior_ent_min": 20.159357475907836, "train/prior_ent_std": 8.058770689245772, "train/rep_loss_mean": 4.34488769100137, "train/rep_loss_std": 8.174106826520946, "train/reward_avg": 0.022794038618672383, "train/reward_loss_mean": 0.041103289628477944, "train/reward_loss_std": 0.18858894226077486, "train/reward_max_data": 1.0123287700626948, "train/reward_max_pred": 1.0120417173594645, "train/reward_neg_acc": 0.9958986476676105, "train/reward_neg_loss": 0.021288710187048945, "train/reward_pos_acc": 0.984675015488716, "train/reward_pos_loss": 0.7328679626935148, "train/reward_pred": 0.02267493853626186, "train/reward_rate": 0.02793236301369863, "stats/sum_log_reward": 5.349999964237213, "stats/max_log_achievement_collect_drink": 8.25, "stats/max_log_achievement_collect_sapling": 3.0, "stats/max_log_achievement_collect_wood": 4.125, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 0.125, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_table": 1.625, "stats/max_log_achievement_wake_up": 1.875, "stats/mean_log_entropy": 0.38295184075832367, "replay/size": 105516.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.74955377036424e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2699881472964558e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0749878883362, "timer/env.step_count": 1442.0, "timer/env.step_total": 20.212648630142212, "timer/env.step_frac": 0.06735865848860331, "timer/env.step_avg": 0.01401709336348281, "timer/env.step_min": 0.0028846263885498047, "timer/env.step_max": 1.6943953037261963, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.2623581886291504, "timer/replay.add_frac": 0.0008743087535398953, "timer/replay.add_avg": 0.00018194049142104742, "timer/replay.add_min": 6.890296936035156e-05, "timer/replay.add_max": 0.0015833377838134766, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.035772085189819336, "timer/logger.write_frac": 0.00011921048615731623, "timer/logger.write_avg": 0.035772085189819336, "timer/logger.write_min": 0.035772085189819336, "timer/logger.write_max": 0.035772085189819336, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 10.528239250183105, "timer/agent.policy_frac": 0.035085360910189795, "timer/agent.policy_avg": 0.007301136789308672, "timer/agent.policy_min": 0.00569462776184082, "timer/agent.policy_max": 0.022684335708618164, "timer/dataset_count": 721.0, "timer/dataset_total": 0.06643795967102051, "timer/dataset_frac": 0.00022140452337781442, "timer/dataset_avg": 9.214696209572886e-05, "timer/dataset_min": 6.794929504394531e-05, "timer/dataset_max": 0.0005743503570556641, "timer/agent.train_count": 721.0, "timer/agent.train_total": 268.27344489097595, "timer/agent.train_frac": 0.8940213470601082, "timer/agent.train_avg": 0.37208522176279607, "timer/agent.train_min": 0.3611717224121094, "timer/agent.train_max": 0.3843879699707031, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21767163276672363, "timer/agent.report_frac": 0.0007253907908103408, "timer/agent.report_avg": 0.21767163276672363, "timer/agent.report_min": 0.21767163276672363, "timer/agent.report_max": 0.21767163276672363, "fps": 4.805388148749321}
{"step": 105707, "episode/length": 197.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.3000000193715096, "episode/reward_rate": 0.025252525252525252}
{"step": 105871, "episode/length": 163.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.036585365853658534}
{"step": 106037, "episode/length": 165.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.030120481927710843}
{"step": 106207, "episode/length": 169.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.500000022351742, "episode/reward_rate": 0.029411764705882353}
{"step": 106249, "episode/length": 41.0, "episode/score": 0.10000000894069672, "episode/sum_abs_reward": 1.8999999910593033, "episode/reward_rate": 0.047619047619047616}
{"step": 106405, "episode/length": 155.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.03205128205128205}
{"step": 106569, "episode/length": 163.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 8.900000028312206, "episode/reward_rate": 0.04878048780487805}
{"step": 106752, "episode/length": 182.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.3000000193715096, "episode/reward_rate": 0.03278688524590164}
{"step": 106932, "episode/length": 179.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.027777777777777776}
{"step": 107013, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.731818400638204, "train/action_min": 0.0, "train/action_std": 3.532872602973186, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.047738539605913025, "train/actor_opt_grad_steps": 52600.0, "train/actor_opt_loss": -16.368611176249008, "train/adv_mag": 0.5814609737463401, "train/adv_max": 0.5396818035924938, "train/adv_mean": 0.002824109208337228, "train/adv_min": -0.4941185994047514, "train/adv_std": 0.06034302984324979, "train/cont_avg": 0.9936042033450704, "train/cont_loss_mean": 4.393338408518298e-05, "train/cont_loss_std": 0.0012462204540093314, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0023130394232614726, "train/cont_pos_acc": 0.9999860768586817, "train/cont_pos_loss": 2.672833559763587e-05, "train/cont_pred": 0.9935972337991419, "train/cont_rate": 0.9936042033450704, "train/dyn_loss_mean": 4.432530443433305, "train/dyn_loss_std": 8.367725788707464, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1063727417462308, "train/extr_critic_critic_opt_grad_steps": 52600.0, "train/extr_critic_critic_opt_loss": 15215.744869608274, "train/extr_critic_mag": 6.724103000802054, "train/extr_critic_max": 6.724103000802054, "train/extr_critic_mean": 1.31324161526183, "train/extr_critic_min": -0.6088209454442414, "train/extr_critic_std": 1.5405409033869353, "train/extr_return_normed_mag": 1.6583293340575527, "train/extr_return_normed_max": 1.6583293340575527, "train/extr_return_normed_mean": 0.3286704576351273, "train/extr_return_normed_min": -0.17253214739997622, "train/extr_return_normed_std": 0.3462867799779059, "train/extr_return_rate": 0.5144329801411696, "train/extr_return_raw_mag": 7.373961609853825, "train/extr_return_raw_max": 7.373961609853825, "train/extr_return_raw_mean": 1.3260658551269853, "train/extr_return_raw_min": -0.9538457511176526, "train/extr_return_raw_std": 1.575311007634015, "train/extr_reward_mag": 1.0127406019560048, "train/extr_reward_max": 1.0127406019560048, "train/extr_reward_mean": 0.028712361316445847, "train/extr_reward_min": -0.6805128849728007, "train/extr_reward_std": 0.17048085197596483, "train/image_loss_mean": 3.0225471845814877, "train/image_loss_std": 7.778078650085019, "train/model_loss_mean": 5.725518562424351, "train/model_loss_std": 11.722395393210398, "train/model_opt_grad_norm": 41.35603256225586, "train/model_opt_grad_steps": 52553.81690140845, "train/model_opt_loss": 8317.86738693882, "train/model_opt_model_opt_grad_overflow": 0.014084507042253521, "train/model_opt_model_opt_grad_scale": 1426.056338028169, "train/policy_entropy_mag": 2.418750114843879, "train/policy_entropy_max": 2.418750114843879, "train/policy_entropy_mean": 0.42361311425625436, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4918361176067675, "train/policy_logprob_mag": 7.438383901622934, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4230100541887149, "train/policy_logprob_min": -7.438383901622934, "train/policy_logprob_std": 1.0211031495685308, "train/policy_randomness_mag": 0.853712647733554, "train/policy_randomness_max": 0.853712647733554, "train/policy_randomness_mean": 0.14951683916676212, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.17359656662168638, "train/post_ent_mag": 49.754449333943114, "train/post_ent_max": 49.754449333943114, "train/post_ent_mean": 33.66725276893293, "train/post_ent_min": 16.74815196722326, "train/post_ent_std": 5.148173325498339, "train/prior_ent_mag": 73.63649244711432, "train/prior_ent_max": 73.63649244711432, "train/prior_ent_mean": 38.066272090858135, "train/prior_ent_min": 19.160638473403285, "train/prior_ent_std": 8.27358326441805, "train/rep_loss_mean": 4.432530443433305, "train/rep_loss_std": 8.367725788707464, "train/reward_avg": 0.02242380030400736, "train/reward_loss_mean": 0.04340919188525475, "train/reward_loss_std": 0.1951822321599638, "train/reward_max_data": 1.0042253531200784, "train/reward_max_pred": 1.005930934153812, "train/reward_neg_acc": 0.9956538912276147, "train/reward_neg_loss": 0.023330781556351085, "train/reward_pos_acc": 0.9888573095832073, "train/reward_pos_loss": 0.7333332669567054, "train/reward_pred": 0.022392172759897272, "train/reward_rate": 0.028182768485915492, "stats/sum_log_reward": 4.211111027333471, "stats/max_log_achievement_collect_drink": 2.888888888888889, "stats/max_log_achievement_collect_sapling": 2.2222222222222223, "stats/max_log_achievement_collect_wood": 3.111111111111111, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.1111111111111111, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.1111111111111111, "stats/max_log_achievement_place_plant": 1.4444444444444444, "stats/max_log_achievement_place_table": 1.1111111111111112, "stats/max_log_achievement_wake_up": 1.4444444444444444, "stats/mean_log_entropy": 0.3905472175942527, "replay/size": 106950.0, "replay/inserts": 1434.0, "replay/samples": 11472.0, "replay/insert_wait_avg": 3.688338743925427e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2440910897993143e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2806088924408, "timer/env.step_count": 1434.0, "timer/env.step_total": 21.75154399871826, "timer/env.step_frac": 0.07243739140847942, "timer/env.step_avg": 0.015168440724350252, "timer/env.step_min": 0.002792835235595703, "timer/env.step_max": 1.6998815536499023, "timer/replay.add_count": 1434.0, "timer/replay.add_total": 0.2553219795227051, "timer/replay.add_frac": 0.0008502779465661744, "timer/replay.add_avg": 0.0001780488002250384, "timer/replay.add_min": 7.081031799316406e-05, "timer/replay.add_max": 0.004123210906982422, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.020608901977539062, "timer/logger.write_frac": 6.863214395878982e-05, "timer/logger.write_avg": 0.020608901977539062, "timer/logger.write_min": 0.020608901977539062, "timer/logger.write_max": 0.020608901977539062, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1434.0, "timer/agent.policy_total": 10.525215148925781, "timer/agent.policy_frac": 0.03505126484106694, "timer/agent.policy_avg": 0.0073397595180793454, "timer/agent.policy_min": 0.00564122200012207, "timer/agent.policy_max": 0.017145156860351562, "timer/dataset_count": 717.0, "timer/dataset_total": 0.06462502479553223, "timer/dataset_frac": 0.00021521544475980675, "timer/dataset_avg": 9.013253109558191e-05, "timer/dataset_min": 6.771087646484375e-05, "timer/dataset_max": 0.0001952648162841797, "timer/agent.train_count": 717.0, "timer/agent.train_total": 266.9674713611603, "timer/agent.train_frac": 0.8890599774186113, "timer/agent.train_avg": 0.3723395695413672, "timer/agent.train_min": 0.36583685874938965, "timer/agent.train_max": 0.3866555690765381, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.221693754196167, "timer/agent.report_frac": 0.0007382886128207391, "timer/agent.report_avg": 0.221693754196167, "timer/agent.report_min": 0.221693754196167, "timer/agent.report_max": 0.221693754196167, "fps": 4.775434139926655}
{"step": 107160, "episode/length": 227.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.03508771929824561}
{"step": 107341, "episode/length": 180.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.500000022351742, "episode/reward_rate": 0.03867403314917127}
{"step": 107506, "episode/length": 164.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.03636363636363636}
{"step": 107549, "episode/length": 42.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.13953488372093023}
{"step": 107717, "episode/length": 167.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.3000000193715096, "episode/reward_rate": 0.02976190476190476}
{"step": 107764, "episode/length": 46.0, "episode/score": 2.1000000089406967, "episode/sum_abs_reward": 3.8999999910593033, "episode/reward_rate": 0.0851063829787234}
{"step": 107920, "episode/length": 155.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.03205128205128205}
{"step": 108112, "episode/length": 191.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.026041666666666668}
{"step": 108303, "episode/length": 190.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.031413612565445025}
{"step": 108427, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.730984540052817, "train/action_min": 0.0, "train/action_std": 3.5233369578777904, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05023823636518398, "train/actor_opt_grad_steps": 53310.0, "train/actor_opt_loss": -14.6303501586679, "train/adv_mag": 0.6010076391025329, "train/adv_max": 0.561312671278564, "train/adv_mean": 0.00267345641869199, "train/adv_min": -0.49846340904773123, "train/adv_std": 0.06191022458000922, "train/cont_avg": 0.9943056778169014, "train/cont_loss_mean": 1.4348938095800278e-05, "train/cont_loss_std": 0.0003417163884157969, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0004907514887979142, "train/cont_pos_acc": 0.9999999756544409, "train/cont_pos_loss": 1.1006657714328643e-05, "train/cont_pred": 0.9942985966172017, "train/cont_rate": 0.9943056778169014, "train/dyn_loss_mean": 4.4896424085321565, "train/dyn_loss_std": 8.359543518281319, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1103757183316727, "train/extr_critic_critic_opt_grad_steps": 53310.0, "train/extr_critic_critic_opt_loss": 15471.892839458627, "train/extr_critic_mag": 6.6085129858742295, "train/extr_critic_max": 6.6085129858742295, "train/extr_critic_mean": 1.2617231322006441, "train/extr_critic_min": -0.5632024801952739, "train/extr_critic_std": 1.4794393307726148, "train/extr_return_normed_mag": 1.627295324500178, "train/extr_return_normed_max": 1.627295324500178, "train/extr_return_normed_mean": 0.31965139508247375, "train/extr_return_normed_min": -0.16663621880219015, "train/extr_return_normed_std": 0.33362186332823524, "train/extr_return_rate": 0.5079445692015366, "train/extr_return_raw_mag": 7.188172300096968, "train/extr_return_raw_max": 7.188172300096968, "train/extr_return_raw_mean": 1.2737842605147562, "train/extr_return_raw_min": -0.9262460948715747, "train/extr_return_raw_std": 1.5091941356658936, "train/extr_reward_mag": 1.0083472627989003, "train/extr_reward_max": 1.0083472627989003, "train/extr_reward_mean": 0.02921204463067189, "train/extr_reward_min": -0.670481178122507, "train/extr_reward_std": 0.17018716037273407, "train/image_loss_mean": 3.150149023029166, "train/image_loss_std": 8.41872381156599, "train/model_loss_mean": 5.885248029735727, "train/model_loss_std": 12.39447338480345, "train/model_opt_grad_norm": 48.29596968100105, "train/model_opt_grad_steps": 53262.464788732395, "train/model_opt_loss": 5438.549288897447, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 915.4929577464789, "train/policy_entropy_mag": 2.4111045615773805, "train/policy_entropy_max": 2.4111045615773805, "train/policy_entropy_mean": 0.4047854660262524, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.46854446765402674, "train/policy_logprob_mag": 7.438383894906917, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.405948969260068, "train/policy_logprob_min": -7.438383894906917, "train/policy_logprob_std": 1.0092974338732974, "train/policy_randomness_mag": 0.8510140969719685, "train/policy_randomness_max": 0.8510140969719685, "train/policy_randomness_mean": 0.14287150556772527, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16537563733651606, "train/post_ent_mag": 49.872752176204195, "train/post_ent_max": 49.872752176204195, "train/post_ent_mean": 33.97555928834727, "train/post_ent_min": 17.373274628545197, "train/post_ent_std": 5.087307459871534, "train/prior_ent_mag": 73.6575015430719, "train/prior_ent_max": 73.6575015430719, "train/prior_ent_mean": 38.34411975699411, "train/prior_ent_min": 20.82856683328118, "train/prior_ent_std": 8.057426828733632, "train/rep_loss_mean": 4.4896424085321565, "train/rep_loss_std": 8.359543518281319, "train/reward_avg": 0.022328895057590916, "train/reward_loss_mean": 0.04129926453698689, "train/reward_loss_std": 0.19523475927786088, "train/reward_max_data": 1.0, "train/reward_max_pred": 1.0017443022257846, "train/reward_neg_acc": 0.9959112288246692, "train/reward_neg_loss": 0.021624427105129605, "train/reward_pos_acc": 0.9845403583956437, "train/reward_pos_loss": 0.7410630138827042, "train/reward_pred": 0.022200223465095942, "train/reward_rate": 0.027412522007042254, "stats/sum_log_reward": 4.655555513170031, "stats/max_log_achievement_collect_drink": 3.5555555555555554, "stats/max_log_achievement_collect_sapling": 2.6666666666666665, "stats/max_log_achievement_collect_wood": 4.222222222222222, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.2222222222222222, "stats/max_log_achievement_eat_cow": 0.1111111111111111, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.4444444444444444, "stats/max_log_achievement_place_plant": 1.2222222222222223, "stats/max_log_achievement_place_table": 1.4444444444444444, "stats/max_log_achievement_wake_up": 1.4444444444444444, "stats/mean_log_entropy": 0.3373892605304718, "replay/size": 108364.0, "replay/inserts": 1414.0, "replay/samples": 11312.0, "replay/insert_wait_avg": 3.7022324903345177e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2644910407707075e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0978593826294, "timer/env.step_count": 1414.0, "timer/env.step_total": 23.310121774673462, "timer/env.step_frac": 0.0776750684680916, "timer/env.step_avg": 0.016485234635554076, "timer/env.step_min": 0.002911806106567383, "timer/env.step_max": 3.2198550701141357, "timer/replay.add_count": 1414.0, "timer/replay.add_total": 0.2816805839538574, "timer/replay.add_frac": 0.0009386291009650633, "timer/replay.add_avg": 0.00019920833377217638, "timer/replay.add_min": 7.271766662597656e-05, "timer/replay.add_max": 0.00867462158203125, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02646017074584961, "timer/logger.write_frac": 8.817180769061229e-05, "timer/logger.write_avg": 0.02646017074584961, "timer/logger.write_min": 0.02646017074584961, "timer/logger.write_max": 0.02646017074584961, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0005140304565429688, "timer/checkpoint.save_frac": 1.7128761184783129e-06, "timer/checkpoint.save_avg": 0.0005140304565429688, "timer/checkpoint.save_min": 0.0005140304565429688, "timer/checkpoint.save_max": 0.0005140304565429688, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3537263870239258, "timer/agent.save_frac": 0.004510949827529105, "timer/agent.save_avg": 1.3537263870239258, "timer/agent.save_min": 1.3537263870239258, "timer/agent.save_max": 1.3537263870239258, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.748603820800781e-05, "timer/replay.save_frac": 2.582025688800796e-07, "timer/replay.save_avg": 7.748603820800781e-05, "timer/replay.save_min": 7.748603820800781e-05, "timer/replay.save_max": 7.748603820800781e-05, "timer/agent.policy_count": 1414.0, "timer/agent.policy_total": 12.372119188308716, "timer/agent.policy_frac": 0.0412269491483912, "timer/agent.policy_avg": 0.008749730684801072, "timer/agent.policy_min": 0.005588054656982422, "timer/agent.policy_max": 1.3441526889801025, "timer/dataset_count": 707.0, "timer/dataset_total": 0.06435227394104004, "timer/dataset_frac": 0.00021443763068962747, "timer/dataset_avg": 9.102160387700147e-05, "timer/dataset_min": 6.0558319091796875e-05, "timer/dataset_max": 0.00019073486328125, "timer/agent.train_count": 707.0, "timer/agent.train_total": 263.3688073158264, "timer/agent.train_frac": 0.8776097498917083, "timer/agent.train_avg": 0.3725159933745777, "timer/agent.train_min": 0.36548614501953125, "timer/agent.train_max": 0.3867325782775879, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20052289962768555, "timer/agent.report_frac": 0.0006681917026672815, "timer/agent.report_avg": 0.20052289962768555, "timer/agent.report_min": 0.20052289962768555, "timer/agent.report_max": 0.20052289962768555, "fps": 4.711718692470809}
{"step": 108485, "episode/length": 181.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03296703296703297}
{"step": 108651, "episode/length": 165.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.3000000193715096, "episode/reward_rate": 0.018072289156626505}
{"step": 108842, "episode/length": 190.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.500000022351742, "episode/reward_rate": 0.041884816753926704}
{"step": 109023, "episode/length": 180.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.100000038743019, "episode/reward_rate": 0.03314917127071823}
{"step": 109061, "episode/length": 37.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.100000016391277, "episode/reward_rate": 0.07894736842105263}
{"step": 109239, "episode/length": 177.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.0449438202247191}
{"step": 109399, "episode/length": 159.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.025}
{"step": 109577, "episode/length": 177.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.700000025331974, "episode/reward_rate": 0.028089887640449437}
{"step": 109750, "episode/length": 172.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.500000022351742, "episode/reward_rate": 0.028901734104046242}
{"step": 109861, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.667376200358073, "train/action_min": 0.0, "train/action_std": 3.487140304512448, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04793296578443713, "train/actor_opt_grad_steps": 54025.0, "train/actor_opt_loss": -12.795514158904552, "train/adv_mag": 0.557700686984592, "train/adv_max": 0.5177420274251037, "train/adv_mean": 0.003259800744444874, "train/adv_min": -0.4605241393049558, "train/adv_std": 0.060181312159531646, "train/cont_avg": 0.9942220052083334, "train/cont_loss_mean": 0.00011366818398232208, "train/cont_loss_std": 0.003576999302579351, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0009795774635803253, "train/cont_pos_acc": 0.9999863107999166, "train/cont_pos_loss": 0.0001089808543757916, "train/cont_pred": 0.9942063225640191, "train/cont_rate": 0.9942220052083334, "train/dyn_loss_mean": 4.327174921830495, "train/dyn_loss_std": 8.246933135721418, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0877811685204506, "train/extr_critic_critic_opt_grad_steps": 54025.0, "train/extr_critic_critic_opt_loss": 15228.155558268229, "train/extr_critic_mag": 6.6866303947236805, "train/extr_critic_max": 6.6866303947236805, "train/extr_critic_mean": 1.3012108239862654, "train/extr_critic_min": -0.5884248581197526, "train/extr_critic_std": 1.496910239259402, "train/extr_return_normed_mag": 1.6391286667850282, "train/extr_return_normed_max": 1.6391286667850282, "train/extr_return_normed_mean": 0.3309631773995029, "train/extr_return_normed_min": -0.16623256189955604, "train/extr_return_normed_std": 0.33802048592931694, "train/extr_return_rate": 0.5214717446102036, "train/extr_return_raw_mag": 7.230795098675622, "train/extr_return_raw_max": 7.230795098675622, "train/extr_return_raw_mean": 1.3159517447153728, "train/extr_return_raw_min": -0.9323651894099183, "train/extr_return_raw_std": 1.528558976120419, "train/extr_reward_mag": 1.0129578808943431, "train/extr_reward_max": 1.0129578808943431, "train/extr_reward_mean": 0.029534901544037793, "train/extr_reward_min": -0.6586485124296613, "train/extr_reward_std": 0.17232593624956077, "train/image_loss_mean": 2.8209496570958033, "train/image_loss_std": 7.60623828570048, "train/model_loss_mean": 5.4595819976594715, "train/model_loss_std": 11.524920887417263, "train/model_opt_grad_norm": 44.527192989985146, "train/model_opt_grad_steps": 53977.0, "train/model_opt_loss": 3888.6058349609375, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 711.8055555555555, "train/policy_entropy_mag": 2.4282892280154758, "train/policy_entropy_max": 2.4282892280154758, "train/policy_entropy_mean": 0.4011441419521968, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4745819928745429, "train/policy_logprob_mag": 7.438383903768328, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40156812055243385, "train/policy_logprob_min": -7.438383903768328, "train/policy_logprob_std": 1.0059520204861958, "train/policy_randomness_mag": 0.8570795373784171, "train/policy_randomness_max": 0.8570795373784171, "train/policy_randomness_mean": 0.14158627721998426, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16750661676956546, "train/post_ent_mag": 49.654452641805015, "train/post_ent_max": 49.654452641805015, "train/post_ent_mean": 33.87624634636773, "train/post_ent_min": 17.422587818569607, "train/post_ent_std": 5.0936841236220465, "train/prior_ent_mag": 73.69202878740099, "train/prior_ent_max": 73.69202878740099, "train/prior_ent_mean": 38.186906496683754, "train/prior_ent_min": 20.24430869685279, "train/prior_ent_std": 8.047103669908312, "train/rep_loss_mean": 4.327174921830495, "train/rep_loss_std": 8.246933135721418, "train/reward_avg": 0.023034667790246505, "train/reward_loss_mean": 0.04221375483191676, "train/reward_loss_std": 0.18728494995998013, "train/reward_max_data": 1.0055555568801031, "train/reward_max_pred": 1.0062017722262278, "train/reward_neg_acc": 0.9956986879309019, "train/reward_neg_loss": 0.022209868947457936, "train/reward_pos_acc": 0.9867941530214416, "train/reward_pos_loss": 0.7333651789360576, "train/reward_pred": 0.022833225239689153, "train/reward_rate": 0.028252495659722224, "stats/sum_log_reward": 4.433333317438762, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_sapling": 2.6666666666666665, "stats/max_log_achievement_collect_wood": 4.333333333333333, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.4444444444444444, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.3333333333333333, "stats/max_log_achievement_place_plant": 1.5555555555555556, "stats/max_log_achievement_place_table": 1.2222222222222223, "stats/max_log_achievement_wake_up": 1.4444444444444444, "stats/mean_log_entropy": 0.2977162003517151, "replay/size": 109798.0, "replay/inserts": 1434.0, "replay/samples": 11472.0, "replay/insert_wait_avg": 3.733229271371328e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2486632731502857e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.18803238868713, "timer/env.step_count": 1434.0, "timer/env.step_total": 21.58852481842041, "timer/env.step_frac": 0.07191667384816769, "timer/env.step_avg": 0.015054759287601402, "timer/env.step_min": 0.002790212631225586, "timer/env.step_max": 1.6983463764190674, "timer/replay.add_count": 1434.0, "timer/replay.add_total": 0.25985121726989746, "timer/replay.add_frac": 0.0008656281704576381, "timer/replay.add_avg": 0.00018120726448388945, "timer/replay.add_min": 7.271766662597656e-05, "timer/replay.add_max": 0.009975910186767578, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027140140533447266, "timer/logger.write_frac": 9.04104681238787e-05, "timer/logger.write_avg": 0.027140140533447266, "timer/logger.write_min": 0.027140140533447266, "timer/logger.write_max": 0.027140140533447266, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1434.0, "timer/agent.policy_total": 10.478303909301758, "timer/agent.policy_frac": 0.03490580162680943, "timer/agent.policy_avg": 0.007307045961856177, "timer/agent.policy_min": 0.00558781623840332, "timer/agent.policy_max": 0.018629074096679688, "timer/dataset_count": 717.0, "timer/dataset_total": 0.06402897834777832, "timer/dataset_frac": 0.00021329623915477357, "timer/dataset_avg": 8.930122503176893e-05, "timer/dataset_min": 6.818771362304688e-05, "timer/dataset_max": 0.000232696533203125, "timer/agent.train_count": 717.0, "timer/agent.train_total": 267.0651469230652, "timer/agent.train_frac": 0.8896595403818963, "timer/agent.train_avg": 0.3724757976611788, "timer/agent.train_min": 0.3656926155090332, "timer/agent.train_max": 0.3847320079803467, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2214813232421875, "timer/agent.report_frac": 0.0007378086377387982, "timer/agent.report_avg": 0.2214813232421875, "timer/agent.report_min": 0.2214813232421875, "timer/agent.report_max": 0.2214813232421875, "fps": 4.776934870433517}
{"step": 109913, "episode/length": 162.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.3000000193715096, "episode/reward_rate": 0.03680981595092025}
{"step": 110104, "episode/length": 190.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.3000000193715096, "episode/reward_rate": 0.020942408376963352}
{"step": 110142, "episode/length": 37.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 4.700000040233135, "episode/reward_rate": 0.13157894736842105}
{"step": 110276, "episode/length": 133.0, "episode/score": 4.0999999940395355, "episode/sum_abs_reward": 6.700000017881393, "episode/reward_rate": 0.04477611940298507}
{"step": 110476, "episode/length": 199.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.025}
{"step": 110614, "episode/length": 137.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 4.899999991059303, "episode/reward_rate": 0.036231884057971016}
{"step": 110767, "episode/length": 152.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.032679738562091505}
{"step": 110917, "episode/length": 149.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.04}
{"step": 111091, "episode/length": 173.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.900000028312206, "episode/reward_rate": 0.034482758620689655}
{"step": 111282, "episode/length": 190.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.03664921465968586}
{"step": 111285, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.444351411201585, "train/action_min": 0.0, "train/action_std": 3.3830061193922876, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.049937454537606576, "train/actor_opt_grad_steps": 54740.0, "train/actor_opt_loss": -16.532390806036936, "train/adv_mag": 0.6097641952440772, "train/adv_max": 0.573701839631712, "train/adv_mean": 0.002951379548442635, "train/adv_min": -0.4951192984278773, "train/adv_std": 0.06154914819438693, "train/cont_avg": 0.9943744498239436, "train/cont_loss_mean": 0.0003074157383796511, "train/cont_loss_std": 0.009753595307212353, "train/cont_neg_acc": 0.9956405112441157, "train/cont_neg_loss": 0.03972253787698821, "train/cont_pos_acc": 0.9999861070807551, "train/cont_pos_loss": 6.356999040896182e-05, "train/cont_pred": 0.9943767584545512, "train/cont_rate": 0.9943744498239436, "train/dyn_loss_mean": 4.3874299727695085, "train/dyn_loss_std": 8.186269464627118, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1003042299982528, "train/extr_critic_critic_opt_grad_steps": 54740.0, "train/extr_critic_critic_opt_loss": 15341.770672865317, "train/extr_critic_mag": 6.8684846918347855, "train/extr_critic_max": 6.8684846918347855, "train/extr_critic_mean": 1.3741111805741215, "train/extr_critic_min": -0.5741583662973323, "train/extr_critic_std": 1.5388975932564535, "train/extr_return_normed_mag": 1.6922581296571544, "train/extr_return_normed_max": 1.6922581296571544, "train/extr_return_normed_mean": 0.34588306113867695, "train/extr_return_normed_min": -0.1647419691295691, "train/extr_return_normed_std": 0.3439687599598522, "train/extr_return_rate": 0.5507115897998004, "train/extr_return_raw_mag": 7.559557189404125, "train/extr_return_raw_max": 7.559557189404125, "train/extr_return_raw_mean": 1.3875852185235897, "train/extr_return_raw_min": -0.9542252891500231, "train/extr_return_raw_std": 1.5778501806124834, "train/extr_reward_mag": 1.014893159060411, "train/extr_reward_max": 1.014893159060411, "train/extr_reward_mean": 0.03030589531162675, "train/extr_reward_min": -0.6618630348796576, "train/extr_reward_std": 0.17430234312171666, "train/image_loss_mean": 2.8636111944494114, "train/image_loss_std": 7.625438858085955, "train/model_loss_mean": 5.53868851191561, "train/model_loss_std": 11.52401415730866, "train/model_opt_grad_norm": 39.83927192150707, "train/model_opt_grad_steps": 54692.0, "train/model_opt_loss": 6923.360599141725, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.423404344370667, "train/policy_entropy_max": 2.423404344370667, "train/policy_entropy_mean": 0.3951658673689399, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4724819601421625, "train/policy_logprob_mag": 7.438383968783096, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39627002578386117, "train/policy_logprob_min": -7.438383968783096, "train/policy_logprob_std": 1.0037627186573728, "train/policy_randomness_mag": 0.8553553861631474, "train/policy_randomness_max": 0.8553553861631474, "train/policy_randomness_mean": 0.13947620882954395, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16676539759820616, "train/post_ent_mag": 49.72837458865743, "train/post_ent_max": 49.72837458865743, "train/post_ent_mean": 34.22617571118852, "train/post_ent_min": 17.321697342563684, "train/post_ent_std": 5.114029347057074, "train/prior_ent_mag": 73.8347264679385, "train/prior_ent_max": 73.8347264679385, "train/prior_ent_mean": 38.57979239880199, "train/prior_ent_min": 20.57725240143252, "train/prior_ent_std": 7.983485812872228, "train/rep_loss_mean": 4.3874299727695085, "train/rep_loss_std": 8.186269464627118, "train/reward_avg": 0.0239079003419045, "train/reward_loss_mean": 0.042311948658504954, "train/reward_loss_std": 0.188917757130005, "train/reward_max_data": 1.0070422552001308, "train/reward_max_pred": 1.0074364853576876, "train/reward_neg_acc": 0.995891919438268, "train/reward_neg_loss": 0.021750682046715642, "train/reward_pos_acc": 0.9887207503050146, "train/reward_pos_loss": 0.731544555073053, "train/reward_pred": 0.023640910648858884, "train/reward_rate": 0.028994278169014086, "stats/sum_log_reward": 4.099999928474427, "stats/max_log_achievement_collect_drink": 3.5, "stats/max_log_achievement_collect_sapling": 2.3, "stats/max_log_achievement_collect_wood": 4.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.1, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.2, "stats/max_log_achievement_place_table": 1.4, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.3102911949157715, "replay/size": 111222.0, "replay/inserts": 1424.0, "replay/samples": 11392.0, "replay/insert_wait_avg": 3.711895996265197e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.249437251787507e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1100127696991, "timer/env.step_count": 1424.0, "timer/env.step_total": 23.517844915390015, "timer/env.step_frac": 0.07836407955317816, "timer/env.step_avg": 0.016515340530470515, "timer/env.step_min": 0.0029642581939697266, "timer/env.step_max": 1.6886630058288574, "timer/replay.add_count": 1424.0, "timer/replay.add_total": 0.2532334327697754, "timer/replay.add_frac": 0.0008438020125776469, "timer/replay.add_avg": 0.00017783246683270745, "timer/replay.add_min": 6.961822509765625e-05, "timer/replay.add_max": 0.0021631717681884766, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026434898376464844, "timer/logger.write_frac": 8.808402669573932e-05, "timer/logger.write_avg": 0.026434898376464844, "timer/logger.write_min": 0.026434898376464844, "timer/logger.write_max": 0.026434898376464844, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1424.0, "timer/agent.policy_total": 10.367382764816284, "timer/agent.policy_frac": 0.03454527447830304, "timer/agent.policy_avg": 0.007280465424730537, "timer/agent.policy_min": 0.005690097808837891, "timer/agent.policy_max": 0.016295909881591797, "timer/dataset_count": 712.0, "timer/dataset_total": 0.06347441673278809, "timer/dataset_frac": 0.00021150382870263514, "timer/dataset_avg": 8.914946170335405e-05, "timer/dataset_min": 5.841255187988281e-05, "timer/dataset_max": 0.00019025802612304688, "timer/agent.train_count": 712.0, "timer/agent.train_total": 265.1837992668152, "timer/agent.train_frac": 0.8836219652235133, "timer/agent.train_avg": 0.37244915627361685, "timer/agent.train_min": 0.36557912826538086, "timer/agent.train_max": 0.38529014587402344, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21862101554870605, "timer/agent.report_frac": 0.000728469581974505, "timer/agent.report_avg": 0.21862101554870605, "timer/agent.report_min": 0.21862101554870605, "timer/agent.report_max": 0.21862101554870605, "fps": 4.74482760794663}
{"step": 111455, "episode/length": 172.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03468208092485549}
{"step": 111647, "episode/length": 191.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.03125}
{"step": 111819, "episode/length": 171.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.040697674418604654}
{"step": 112011, "episode/length": 191.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03125}
{"step": 112171, "episode/length": 159.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.04375}
{"step": 112318, "episode/length": 146.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.047619047619047616}
{"step": 112461, "episode/length": 142.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.04195804195804196}
{"step": 112503, "episode/length": 41.0, "episode/score": 2.0999999940395355, "episode/sum_abs_reward": 3.9000000059604645, "episode/reward_rate": 0.09523809523809523}
{"step": 112656, "episode/length": 152.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.0392156862745098}
{"step": 112691, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.640897914341518, "train/action_min": 0.0, "train/action_std": 3.5577086346490043, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.048392750322818756, "train/actor_opt_grad_steps": 55445.0, "train/actor_opt_loss": -14.497782515627998, "train/adv_mag": 0.5709603599139622, "train/adv_max": 0.5471785579408918, "train/adv_mean": 0.002480488466400337, "train/adv_min": -0.4398325000490461, "train/adv_std": 0.05899686068296432, "train/cont_avg": 0.9941964285714285, "train/cont_loss_mean": 3.780120539391061e-05, "train/cont_loss_std": 0.0011416504689074308, "train/cont_neg_acc": 0.9952380955219269, "train/cont_neg_loss": 0.008537128532043425, "train/cont_pos_acc": 0.9999999804156167, "train/cont_pos_loss": 1.1394562830042381e-05, "train/cont_pred": 0.9942008231367384, "train/cont_rate": 0.9941964285714285, "train/dyn_loss_mean": 4.506120177677699, "train/dyn_loss_std": 8.382908589499337, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1264065103871481, "train/extr_critic_critic_opt_grad_steps": 55445.0, "train/extr_critic_critic_opt_loss": 15298.789718191963, "train/extr_critic_mag": 6.785273170471191, "train/extr_critic_max": 6.785273170471191, "train/extr_critic_mean": 1.3566428916794913, "train/extr_critic_min": -0.6158236145973206, "train/extr_critic_std": 1.5841025829315185, "train/extr_return_normed_mag": 1.5929757016045707, "train/extr_return_normed_max": 1.5929757016045707, "train/extr_return_normed_mean": 0.3302436909505299, "train/extr_return_normed_min": -0.14792600188936506, "train/extr_return_normed_std": 0.33775106838771274, "train/extr_return_rate": 0.528661675964083, "train/extr_return_raw_mag": 7.4223186424800325, "train/extr_return_raw_max": 7.4223186424800325, "train/extr_return_raw_mean": 1.36853209904262, "train/extr_return_raw_min": -0.9240049379212516, "train/extr_return_raw_std": 1.619402347292219, "train/extr_reward_mag": 1.016404802458627, "train/extr_reward_max": 1.016404802458627, "train/extr_reward_mean": 0.03151073003453868, "train/extr_reward_min": -0.6740045598575047, "train/extr_reward_std": 0.17770363731043679, "train/image_loss_mean": 3.0917536054338726, "train/image_loss_std": 8.080208138057165, "train/model_loss_mean": 5.836878531319755, "train/model_loss_std": 12.094124167306083, "train/model_opt_grad_norm": 41.07816047668457, "train/model_opt_grad_steps": 55397.0, "train/model_opt_loss": 12556.949295479912, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2160.714285714286, "train/policy_entropy_mag": 2.4049528803144185, "train/policy_entropy_max": 2.4049528803144185, "train/policy_entropy_mean": 0.39845702818461826, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.47127633605684555, "train/policy_logprob_mag": 7.438383947099958, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39830026498862675, "train/policy_logprob_min": -7.438383947099958, "train/policy_logprob_std": 1.0047183564731053, "train/policy_randomness_mag": 0.8488428269113814, "train/policy_randomness_max": 0.8488428269113814, "train/policy_randomness_mean": 0.14063784639750207, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16633986553975513, "train/post_ent_mag": 50.0457457951137, "train/post_ent_max": 50.0457457951137, "train/post_ent_mean": 34.4282701764788, "train/post_ent_min": 17.406164945874895, "train/post_ent_std": 5.200085524150303, "train/prior_ent_mag": 73.80200565883092, "train/prior_ent_max": 73.80200565883092, "train/prior_ent_mean": 38.847372436523436, "train/prior_ent_min": 20.561764662606375, "train/prior_ent_std": 8.063831840242658, "train/rep_loss_mean": 4.506120177677699, "train/rep_loss_std": 8.382908589499337, "train/reward_avg": 0.023417968728712626, "train/reward_loss_mean": 0.04141502281916993, "train/reward_loss_std": 0.1816106366259711, "train/reward_max_data": 1.0028571435383389, "train/reward_max_pred": 1.0061083963939121, "train/reward_neg_acc": 0.9959060941423689, "train/reward_neg_loss": 0.021287917931165013, "train/reward_pos_acc": 0.9890452265739441, "train/reward_pos_loss": 0.7278910909380232, "train/reward_pred": 0.023256658270422902, "train/reward_rate": 0.028529575892857144, "stats/sum_log_reward": 4.766666571299235, "stats/max_log_achievement_collect_drink": 3.7777777777777777, "stats/max_log_achievement_collect_sapling": 3.4444444444444446, "stats/max_log_achievement_collect_wood": 4.777777777777778, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.2222222222222222, "stats/max_log_achievement_place_plant": 1.7777777777777777, "stats/max_log_achievement_place_table": 1.5555555555555556, "stats/max_log_achievement_wake_up": 1.5555555555555556, "stats/mean_log_entropy": 0.3254091441631317, "replay/size": 112628.0, "replay/inserts": 1406.0, "replay/samples": 11248.0, "replay/insert_wait_avg": 3.769082331216522e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2558520603315588e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0035951137543, "timer/env.step_count": 1406.0, "timer/env.step_total": 21.86707377433777, "timer/env.step_frac": 0.07288937242917469, "timer/env.step_avg": 0.015552684050026862, "timer/env.step_min": 0.0029866695404052734, "timer/env.step_max": 1.7519886493682861, "timer/replay.add_count": 1406.0, "timer/replay.add_total": 0.28847265243530273, "timer/replay.add_frac": 0.0009615639850113154, "timer/replay.add_avg": 0.0002051725835243974, "timer/replay.add_min": 8.249282836914062e-05, "timer/replay.add_max": 0.008170604705810547, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027693986892700195, "timer/logger.write_frac": 9.231218339966657e-05, "timer/logger.write_avg": 0.027693986892700195, "timer/logger.write_min": 0.027693986892700195, "timer/logger.write_max": 0.027693986892700195, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003719329833984375, "timer/checkpoint.save_frac": 1.2397617543796744e-06, "timer/checkpoint.save_avg": 0.0003719329833984375, "timer/checkpoint.save_min": 0.0003719329833984375, "timer/checkpoint.save_max": 0.0003719329833984375, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3596103191375732, "timer/agent.save_frac": 0.004531980087178759, "timer/agent.save_avg": 1.3596103191375732, "timer/agent.save_min": 1.3596103191375732, "timer/agent.save_max": 1.3596103191375732, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.440017700195312e-05, "timer/replay.save_frac": 2.8133055195538766e-07, "timer/replay.save_avg": 8.440017700195312e-05, "timer/replay.save_min": 8.440017700195312e-05, "timer/replay.save_max": 8.440017700195312e-05, "timer/agent.policy_count": 1406.0, "timer/agent.policy_total": 14.954587697982788, "timer/agent.policy_frac": 0.04984802829550213, "timer/agent.policy_avg": 0.01063626436556386, "timer/agent.policy_min": 0.00564265251159668, "timer/agent.policy_max": 3.300391435623169, "timer/dataset_count": 703.0, "timer/dataset_total": 0.06345629692077637, "timer/dataset_frac": 0.00021151845495956552, "timer/dataset_avg": 9.026500273225656e-05, "timer/dataset_min": 6.890296936035156e-05, "timer/dataset_max": 0.00024127960205078125, "timer/agent.train_count": 703.0, "timer/agent.train_total": 262.1080553531647, "timer/agent.train_frac": 0.8736830478774079, "timer/agent.train_avg": 0.3728421840016567, "timer/agent.train_min": 0.36689305305480957, "timer/agent.train_max": 0.42193174362182617, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2204139232635498, "timer/agent.report_frac": 0.0007347042730603746, "timer/agent.report_avg": 0.2204139232635498, "timer/agent.report_min": 0.2204139232635498, "timer/agent.report_max": 0.2204139232635498, "fps": 4.686527544765966}
{"step": 112710, "episode/length": 53.0, "episode/score": 0.09999998658895493, "episode/sum_abs_reward": 2.1000000163912773, "episode/reward_rate": 0.018518518518518517}
{"step": 112913, "episode/length": 202.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.03940886699507389}
{"step": 113069, "episode/length": 155.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.038461538461538464}
{"step": 113363, "episode/length": 293.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.500000022351742, "episode/reward_rate": 0.023809523809523808}
{"step": 113540, "episode/length": 176.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03389830508474576}
{"step": 113728, "episode/length": 187.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.03723404255319149}
{"step": 113831, "episode/length": 102.0, "episode/score": 1.099999986588955, "episode/sum_abs_reward": 3.1000000163912773, "episode/reward_rate": 0.019417475728155338}
{"step": 114027, "episode/length": 195.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.0999999940395355, "episode/reward_rate": 0.03571428571428571}
{"step": 114131, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.538092719184028, "train/action_min": 0.0, "train/action_std": 3.48289582795567, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04929205635562539, "train/actor_opt_grad_steps": 56155.0, "train/actor_opt_loss": -20.203913850916756, "train/adv_mag": 0.6580522350139089, "train/adv_max": 0.6326482751303248, "train/adv_mean": 0.0011261425412764463, "train/adv_min": -0.46811211067769265, "train/adv_std": 0.0613701539631519, "train/cont_avg": 0.9938286675347222, "train/cont_loss_mean": 0.0004274590042664765, "train/cont_loss_std": 0.013423868805931407, "train/cont_neg_acc": 0.9925595257017348, "train/cont_neg_loss": 0.04903394789996835, "train/cont_pos_acc": 0.9999726803766357, "train/cont_pos_loss": 0.00012830233449613438, "train/cont_pred": 0.9938424792554643, "train/cont_rate": 0.9938286675347222, "train/dyn_loss_mean": 4.421929375992881, "train/dyn_loss_std": 8.330844124158224, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.122675774825944, "train/extr_critic_critic_opt_grad_steps": 56155.0, "train/extr_critic_critic_opt_loss": 15371.536702473959, "train/extr_critic_mag": 6.966588662730323, "train/extr_critic_max": 6.966588662730323, "train/extr_critic_mean": 1.2928354400727484, "train/extr_critic_min": -0.6025094754166074, "train/extr_critic_std": 1.5298816992176905, "train/extr_return_normed_mag": 1.7007675336466894, "train/extr_return_normed_max": 1.7007675336466894, "train/extr_return_normed_mean": 0.326616236112184, "train/extr_return_normed_min": -0.15797436909957063, "train/extr_return_normed_std": 0.3385596213241418, "train/extr_return_rate": 0.5240948990815215, "train/extr_return_raw_mag": 7.608274486329821, "train/extr_return_raw_max": 7.608274486329821, "train/extr_return_raw_mean": 1.2978805891341634, "train/extr_return_raw_min": -0.9271707692080073, "train/extr_return_raw_std": 1.5553941594229803, "train/extr_reward_mag": 1.0185318456755743, "train/extr_reward_max": 1.0185318456755743, "train/extr_reward_mean": 0.03060532160775943, "train/extr_reward_min": -0.6860565659072664, "train/extr_reward_std": 0.17607290960020489, "train/image_loss_mean": 2.9258890913592444, "train/image_loss_std": 7.982865922980839, "train/model_loss_mean": 5.622595124774509, "train/model_loss_std": 12.01084009806315, "train/model_opt_grad_norm": 45.62471262613932, "train/model_opt_grad_steps": 56106.5, "train/model_opt_loss": 10516.49755859375, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1875.0, "train/policy_entropy_mag": 2.424968716171053, "train/policy_entropy_max": 2.424968716171053, "train/policy_entropy_mean": 0.41054871885312927, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4903276703423924, "train/policy_logprob_mag": 7.438383923636542, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41182364606195027, "train/policy_logprob_min": -7.438383923636542, "train/policy_logprob_std": 1.0183604773547914, "train/policy_randomness_mag": 0.8559075403544638, "train/policy_randomness_max": 0.8559075403544638, "train/policy_randomness_mean": 0.14490567841049698, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.17306414846744803, "train/post_ent_mag": 50.53342570198907, "train/post_ent_max": 50.53342570198907, "train/post_ent_mean": 34.61181587643094, "train/post_ent_min": 17.461535837915207, "train/post_ent_std": 5.173616939120823, "train/prior_ent_mag": 73.75131713019476, "train/prior_ent_max": 73.75131713019476, "train/prior_ent_mean": 38.967120541466606, "train/prior_ent_min": 20.764557666248745, "train/prior_ent_std": 7.975856959819794, "train/rep_loss_mean": 4.421929375992881, "train/rep_loss_std": 8.330844124158224, "train/reward_avg": 0.024873860464948747, "train/reward_loss_mean": 0.04312099449129568, "train/reward_loss_std": 0.18596843060933882, "train/reward_max_data": 1.0111111137602065, "train/reward_max_pred": 1.0092204825745688, "train/reward_neg_acc": 0.9958012443449762, "train/reward_neg_loss": 0.021963987745241158, "train/reward_pos_acc": 0.9914305135607719, "train/reward_pos_loss": 0.7228335332539346, "train/reward_pred": 0.024721061332254775, "train/reward_rate": 0.030232747395833332, "stats/sum_log_reward": 4.349999973550439, "stats/max_log_achievement_collect_drink": 5.75, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_wood": 3.25, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.25, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.125, "stats/max_log_achievement_place_table": 1.375, "stats/max_log_achievement_wake_up": 2.0, "stats/mean_log_entropy": 0.36001574248075485, "replay/size": 114068.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.7021107143825957e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2657294670740763e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0004301071167, "timer/env.step_count": 1440.0, "timer/env.step_total": 20.23222041130066, "timer/env.step_frac": 0.06744063801534098, "timer/env.step_avg": 0.014050153063403235, "timer/env.step_min": 0.003023862838745117, "timer/env.step_max": 1.7358272075653076, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.2578768730163574, "timer/replay.add_frac": 0.0008595883443376437, "timer/replay.add_avg": 0.00017908116181691486, "timer/replay.add_min": 6.699562072753906e-05, "timer/replay.add_max": 0.0018854141235351562, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030102014541625977, "timer/logger.write_frac": 0.00010033990461572971, "timer/logger.write_avg": 0.030102014541625977, "timer/logger.write_min": 0.030102014541625977, "timer/logger.write_max": 0.030102014541625977, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 10.561035394668579, "timer/agent.policy_frac": 0.03520340084478448, "timer/agent.policy_avg": 0.007334052357408735, "timer/agent.policy_min": 0.005678653717041016, "timer/agent.policy_max": 0.01710367202758789, "timer/dataset_count": 720.0, "timer/dataset_total": 0.06512665748596191, "timer/dataset_frac": 0.00021708854704877625, "timer/dataset_avg": 9.045369095272488e-05, "timer/dataset_min": 6.0558319091796875e-05, "timer/dataset_max": 0.00023508071899414062, "timer/agent.train_count": 720.0, "timer/agent.train_total": 268.15089893341064, "timer/agent.train_frac": 0.8938350482953173, "timer/agent.train_avg": 0.37243180407418147, "timer/agent.train_min": 0.3662724494934082, "timer/agent.train_max": 0.3832530975341797, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21986699104309082, "timer/agent.report_frac": 0.0007328889194078361, "timer/agent.report_avg": 0.21986699104309082, "timer/agent.report_min": 0.21986699104309082, "timer/agent.report_max": 0.21986699104309082, "fps": 4.799918546151546}
{"step": 114189, "episode/length": 161.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.3000000193715096, "episode/reward_rate": 0.037037037037037035}
{"step": 114372, "episode/length": 182.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.03825136612021858}
{"step": 114516, "episode/length": 143.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.04861111111111111}
{"step": 114724, "episode/length": 207.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.038461538461538464}
{"step": 114879, "episode/length": 154.0, "episode/score": 5.100000001490116, "episode/sum_abs_reward": 7.100000001490116, "episode/reward_rate": 0.04516129032258064}
{"step": 115091, "episode/length": 211.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.02830188679245283}
{"step": 115133, "episode/length": 41.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 4.899999991059303, "episode/reward_rate": 0.11904761904761904}
{"step": 115357, "episode/length": 223.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.022321428571428572}
{"step": 115413, "episode/length": 55.0, "episode/score": 2.1000000089406967, "episode/sum_abs_reward": 3.8999999910593033, "episode/reward_rate": 0.07142857142857142}
{"step": 115565, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.439319186740452, "train/action_min": 0.0, "train/action_std": 3.3184912535879345, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0479333503689203, "train/actor_opt_grad_steps": 56875.0, "train/actor_opt_loss": -16.345102783292532, "train/adv_mag": 0.6011482232974635, "train/adv_max": 0.5508917739821805, "train/adv_mean": 0.0023566653846071655, "train/adv_min": -0.4943031420310338, "train/adv_std": 0.0610336205508146, "train/cont_avg": 0.9946967230902778, "train/cont_loss_mean": 1.6666613789813784e-05, "train/cont_loss_std": 0.0004961539293933331, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.000335422717853362, "train/cont_pos_acc": 0.9999999817874696, "train/cont_pos_loss": 1.5286044709720652e-05, "train/cont_pred": 0.9946844735079341, "train/cont_rate": 0.9946967230902778, "train/dyn_loss_mean": 4.369704445203145, "train/dyn_loss_std": 8.171776798036364, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.151106639040841, "train/extr_critic_critic_opt_grad_steps": 56875.0, "train/extr_critic_critic_opt_loss": 15422.002875434027, "train/extr_critic_mag": 6.648131370544434, "train/extr_critic_max": 6.648131370544434, "train/extr_critic_mean": 1.2198776909046702, "train/extr_critic_min": -0.5954493367009692, "train/extr_critic_std": 1.4409773697455723, "train/extr_return_normed_mag": 1.676696519056956, "train/extr_return_normed_max": 1.676696519056956, "train/extr_return_normed_mean": 0.3198073235236936, "train/extr_return_normed_min": -0.16842262829757398, "train/extr_return_normed_std": 0.3303371872752905, "train/extr_return_rate": 0.5261167432698939, "train/extr_return_raw_mag": 7.269994232389662, "train/extr_return_raw_max": 7.269994232389662, "train/extr_return_raw_mean": 1.230333952440156, "train/extr_return_raw_min": -0.943399684296714, "train/extr_return_raw_std": 1.4705563725696669, "train/extr_reward_mag": 1.013309508562088, "train/extr_reward_max": 1.013309508562088, "train/extr_reward_mean": 0.029432271451999743, "train/extr_reward_min": -0.6672587460941739, "train/extr_reward_std": 0.17117986579736075, "train/image_loss_mean": 2.7023029923439026, "train/image_loss_std": 7.216675208674537, "train/model_loss_mean": 5.362854599952698, "train/model_loss_std": 11.151331901550293, "train/model_opt_grad_norm": 40.13355824682448, "train/model_opt_grad_steps": 56826.0, "train/model_opt_loss": 7426.206570095486, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1388.888888888889, "train/policy_entropy_mag": 2.4017894168694816, "train/policy_entropy_max": 2.4017894168694816, "train/policy_entropy_mean": 0.387796051800251, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.46593184603585136, "train/policy_logprob_mag": 7.438383943504757, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3872494060132239, "train/policy_logprob_min": -7.438383943504757, "train/policy_logprob_std": 0.9966460325651698, "train/policy_randomness_mag": 0.8477262639337115, "train/policy_randomness_max": 0.8477262639337115, "train/policy_randomness_mean": 0.13687498826119635, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16445349487993452, "train/post_ent_mag": 50.56564548280504, "train/post_ent_max": 50.56564548280504, "train/post_ent_mean": 34.6263952255249, "train/post_ent_min": 17.45731752448612, "train/post_ent_std": 5.258523868189918, "train/prior_ent_mag": 73.76384417215984, "train/prior_ent_max": 73.76384417215984, "train/prior_ent_mean": 38.984836631351044, "train/prior_ent_min": 21.108930892414516, "train/prior_ent_std": 7.891418642467922, "train/rep_loss_mean": 4.369704445203145, "train/rep_loss_std": 8.171776798036364, "train/reward_avg": 0.02281629758524812, "train/reward_loss_mean": 0.03871229813537664, "train/reward_loss_std": 0.16959086143308216, "train/reward_max_data": 1.0041666676600773, "train/reward_max_pred": 1.0047232227192984, "train/reward_neg_acc": 0.9953533593151305, "train/reward_neg_loss": 0.019301428278494213, "train/reward_pos_acc": 0.9882980891399913, "train/reward_pos_loss": 0.7267014938924048, "train/reward_pred": 0.022698770923953917, "train/reward_rate": 0.027533637152777776, "stats/sum_log_reward": 4.655555460188124, "stats/max_log_achievement_collect_drink": 5.333333333333333, "stats/max_log_achievement_collect_sapling": 2.6666666666666665, "stats/max_log_achievement_collect_wood": 3.888888888888889, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.4444444444444444, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.1111111111111111, "stats/max_log_achievement_place_plant": 1.1111111111111112, "stats/max_log_achievement_place_table": 1.6666666666666667, "stats/max_log_achievement_wake_up": 1.7777777777777777, "stats/mean_log_entropy": 0.3020187301768197, "replay/size": 115502.0, "replay/inserts": 1434.0, "replay/samples": 11472.0, "replay/insert_wait_avg": 3.7119478361377156e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.270256448157828e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1186754703522, "timer/env.step_count": 1434.0, "timer/env.step_total": 21.61103367805481, "timer/env.step_frac": 0.07200829353316834, "timer/env.step_avg": 0.015070455842437106, "timer/env.step_min": 0.003017425537109375, "timer/env.step_max": 1.7282886505126953, "timer/replay.add_count": 1434.0, "timer/replay.add_total": 0.2520253658294678, "timer/replay.add_frac": 0.0008397523594107845, "timer/replay.add_avg": 0.00017574990643617, "timer/replay.add_min": 7.081031799316406e-05, "timer/replay.add_max": 0.0011668205261230469, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02665424346923828, "timer/logger.write_frac": 8.881234540791306e-05, "timer/logger.write_avg": 0.02665424346923828, "timer/logger.write_min": 0.02665424346923828, "timer/logger.write_max": 0.02665424346923828, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1434.0, "timer/agent.policy_total": 10.423452854156494, "timer/agent.policy_frac": 0.034731103746944915, "timer/agent.policy_avg": 0.007268795574725589, "timer/agent.policy_min": 0.005648612976074219, "timer/agent.policy_max": 0.01539158821105957, "timer/dataset_count": 717.0, "timer/dataset_total": 0.06442904472351074, "timer/dataset_frac": 0.00021467855881522938, "timer/dataset_avg": 8.98591976618002e-05, "timer/dataset_min": 6.914138793945312e-05, "timer/dataset_max": 0.0002086162567138672, "timer/agent.train_count": 717.0, "timer/agent.train_total": 267.0451867580414, "timer/agent.train_frac": 0.8897986316230493, "timer/agent.train_avg": 0.37244795921623625, "timer/agent.train_min": 0.36638450622558594, "timer/agent.train_max": 0.3824198246002197, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21734976768493652, "timer/agent.report_frac": 0.0007242127379920676, "timer/agent.report_avg": 0.21734976768493652, "timer/agent.report_min": 0.21734976768493652, "timer/agent.report_max": 0.21734976768493652, "fps": 4.778031337074772}
{"step": 115568, "episode/length": 154.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.025806451612903226}
{"step": 115656, "episode/length": 87.0, "episode/score": 5.0999999940395355, "episode/sum_abs_reward": 6.9000000059604645, "episode/reward_rate": 0.07954545454545454}
{"step": 115834, "episode/length": 177.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.033707865168539325}
{"step": 115890, "episode/length": 55.0, "episode/score": 0.10000002384185791, "episode/sum_abs_reward": 2.2999999821186066, "episode/reward_rate": 0.03571428571428571}
{"step": 116096, "episode/length": 205.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.02912621359223301}
{"step": 116323, "episode/length": 226.0, "episode/score": 5.099999971687794, "episode/sum_abs_reward": 7.300000034272671, "episode/reward_rate": 0.030837004405286344}
{"step": 116502, "episode/length": 178.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.03910614525139665}
{"step": 116655, "episode/length": 152.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 7.700000025331974, "episode/reward_rate": 0.0457516339869281}
{"step": 116834, "episode/length": 178.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.0446927374301676}
{"step": 116973, "stats/sum_log_reward": 4.544444388813442, "stats/max_log_achievement_collect_drink": 2.6666666666666665, "stats/max_log_achievement_collect_sapling": 2.111111111111111, "stats/max_log_achievement_collect_wood": 6.333333333333333, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.1111111111111111, "stats/max_log_achievement_eat_cow": 0.1111111111111111, "stats/max_log_achievement_make_wood_pickaxe": 0.1111111111111111, "stats/max_log_achievement_make_wood_sword": 0.2222222222222222, "stats/max_log_achievement_place_plant": 1.1111111111111112, "stats/max_log_achievement_place_table": 1.8888888888888888, "stats/max_log_achievement_wake_up": 1.5555555555555556, "stats/mean_log_entropy": 0.2999591711494658, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.419428362165179, "train/action_min": 0.0, "train/action_std": 3.265652629307338, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04722218971167292, "train/actor_opt_grad_steps": 57585.0, "train/actor_opt_loss": -16.868840158730745, "train/adv_mag": 0.5669633580105645, "train/adv_max": 0.5382836358887809, "train/adv_mean": 0.002513763339707761, "train/adv_min": -0.46002035524163926, "train/adv_std": 0.060254317628485814, "train/cont_avg": 0.9940987723214286, "train/cont_loss_mean": 1.4633871374160533e-05, "train/cont_loss_std": 0.0003699687165489455, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0008264281728770584, "train/cont_pos_acc": 0.9999999846730914, "train/cont_pos_loss": 8.619923032426869e-06, "train/cont_pred": 0.9940966538020543, "train/cont_rate": 0.9940987723214286, "train/dyn_loss_mean": 4.457635045051575, "train/dyn_loss_std": 8.315908425194877, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1150827561106, "train/extr_critic_critic_opt_grad_steps": 57585.0, "train/extr_critic_critic_opt_loss": 15362.930329241071, "train/extr_critic_mag": 6.608938360214234, "train/extr_critic_max": 6.608938360214234, "train/extr_critic_mean": 1.2647506552083152, "train/extr_critic_min": -0.5795787147113255, "train/extr_critic_std": 1.4749536275863648, "train/extr_return_normed_mag": 1.6486939430236816, "train/extr_return_normed_max": 1.6486939430236816, "train/extr_return_normed_mean": 0.32569778178419384, "train/extr_return_normed_min": -0.16760252980249268, "train/extr_return_normed_std": 0.3333055853843689, "train/extr_return_rate": 0.5296289329017911, "train/extr_return_raw_mag": 7.264138003758021, "train/extr_return_raw_max": 7.264138003758021, "train/extr_return_raw_mean": 1.2761573553085328, "train/extr_return_raw_min": -0.9582551726273127, "train/extr_return_raw_std": 1.5095181397029331, "train/extr_reward_mag": 1.0176898513521466, "train/extr_reward_max": 1.0176898513521466, "train/extr_reward_mean": 0.030415934696793556, "train/extr_reward_min": -0.6797328386987959, "train/extr_reward_std": 0.17468380672591075, "train/image_loss_mean": 3.0657669033323014, "train/image_loss_std": 7.809748002461025, "train/model_loss_mean": 5.782608665738787, "train/model_loss_std": 11.703601087842669, "train/model_opt_grad_norm": 39.66024000985282, "train/model_opt_grad_steps": 57535.142857142855, "train/model_opt_loss": 8167.505970982143, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1428.5714285714287, "train/policy_entropy_mag": 2.4073633636747087, "train/policy_entropy_max": 2.4073633636747087, "train/policy_entropy_mean": 0.3832590975931713, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4629281141928264, "train/policy_logprob_mag": 7.438383960723877, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3839434700352805, "train/policy_logprob_min": -7.438383960723877, "train/policy_logprob_std": 0.9993263176509313, "train/policy_randomness_mag": 0.8496936244624002, "train/policy_randomness_max": 0.8496936244624002, "train/policy_randomness_mean": 0.13527364219938007, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16339330822229386, "train/post_ent_mag": 50.69737347194127, "train/post_ent_max": 50.69737347194127, "train/post_ent_mean": 34.900814710344584, "train/post_ent_min": 17.556338473728726, "train/post_ent_std": 5.295165429796492, "train/prior_ent_mag": 73.8927241734096, "train/prior_ent_max": 73.8927241734096, "train/prior_ent_mean": 39.29401201520648, "train/prior_ent_min": 20.988213498251778, "train/prior_ent_std": 8.023969670704433, "train/rep_loss_mean": 4.457635045051575, "train/rep_loss_std": 8.315908425194877, "train/reward_avg": 0.023166852497628756, "train/reward_loss_mean": 0.04224611568663802, "train/reward_loss_std": 0.18770907925707953, "train/reward_max_data": 1.0057142870766775, "train/reward_max_pred": 1.0078454392296927, "train/reward_neg_acc": 0.9958217075892857, "train/reward_neg_loss": 0.021703043812885882, "train/reward_pos_acc": 0.9867411255836487, "train/reward_pos_loss": 0.7461794751031058, "train/reward_pred": 0.022949075273105076, "train/reward_rate": 0.028445870535714287, "replay/size": 116910.0, "replay/inserts": 1408.0, "replay/samples": 11264.0, "replay/insert_wait_avg": 3.7794763391668145e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2668950313871556e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2852017879486, "timer/env.step_count": 1408.0, "timer/env.step_total": 21.578507661819458, "timer/env.step_frac": 0.07186004349644069, "timer/env.step_avg": 0.015325644646178593, "timer/env.step_min": 0.0029773712158203125, "timer/env.step_max": 1.7054247856140137, "timer/replay.add_count": 1408.0, "timer/replay.add_total": 0.2838582992553711, "timer/replay.add_frac": 0.0009452956641393949, "timer/replay.add_avg": 0.00020160390572114423, "timer/replay.add_min": 7.367134094238281e-05, "timer/replay.add_max": 0.0052089691162109375, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02600574493408203, "timer/logger.write_frac": 8.660348488450131e-05, "timer/logger.write_avg": 0.02600574493408203, "timer/logger.write_min": 0.02600574493408203, "timer/logger.write_max": 0.02600574493408203, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003790855407714844, "timer/checkpoint.save_frac": 1.2624183226957083e-06, "timer/checkpoint.save_avg": 0.0003790855407714844, "timer/checkpoint.save_min": 0.0003790855407714844, "timer/checkpoint.save_max": 0.0003790855407714844, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4379687309265137, "timer/agent.save_frac": 0.004788676639290268, "timer/agent.save_avg": 1.4379687309265137, "timer/agent.save_min": 1.4379687309265137, "timer/agent.save_max": 1.4379687309265137, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.0001366138458251953, "timer/replay.save_frac": 4.549469804431703e-07, "timer/replay.save_avg": 0.0001366138458251953, "timer/replay.save_min": 0.0001366138458251953, "timer/replay.save_max": 0.0001366138458251953, "timer/agent.policy_count": 1408.0, "timer/agent.policy_total": 15.236665487289429, "timer/agent.policy_frac": 0.05074064721327511, "timer/agent.policy_avg": 0.010821495374495333, "timer/agent.policy_min": 0.0057373046875, "timer/agent.policy_max": 3.4887139797210693, "timer/dataset_count": 704.0, "timer/dataset_total": 0.06425881385803223, "timer/dataset_frac": 0.00021399260927752828, "timer/dataset_avg": 9.127672423015942e-05, "timer/dataset_min": 6.628036499023438e-05, "timer/dataset_max": 0.0004055500030517578, "timer/agent.train_count": 704.0, "timer/agent.train_total": 262.4048137664795, "timer/agent.train_frac": 0.8738519654118054, "timer/agent.train_avg": 0.37273411046374927, "timer/agent.train_min": 0.3639097213745117, "timer/agent.train_max": 0.38758325576782227, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21820306777954102, "timer/agent.report_frac": 0.0007266527503863768, "timer/agent.report_avg": 0.21820306777954102, "timer/agent.report_min": 0.21820306777954102, "timer/agent.report_max": 0.21820306777954102, "fps": 4.688773877809186}
{"step": 117044, "episode/length": 209.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.03333333333333333}
{"step": 117230, "episode/length": 185.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.03225806451612903}
{"step": 117408, "episode/length": 177.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.03932584269662921}
{"step": 117452, "episode/length": 43.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.100000016391277, "episode/reward_rate": 0.06818181818181818}
{"step": 117660, "episode/length": 207.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.0999999940395355, "episode/reward_rate": 0.03365384615384615}
{"step": 117812, "episode/length": 151.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 4.899999991059303, "episode/reward_rate": 0.03289473684210526}
{"step": 117986, "episode/length": 173.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.028735632183908046}
{"step": 118129, "episode/length": 142.0, "episode/score": 5.0999999940395355, "episode/sum_abs_reward": 6.9000000059604645, "episode/reward_rate": 0.04895104895104895}
{"step": 118297, "episode/length": 167.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03571428571428571}
{"step": 118407, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.389786614312066, "train/action_min": 0.0, "train/action_std": 3.3574088414510093, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04751462949853805, "train/actor_opt_grad_steps": 58295.0, "train/actor_opt_loss": -17.92383075174358, "train/adv_mag": 0.5628841432432333, "train/adv_max": 0.5279061877065234, "train/adv_mean": 0.0021567938686833563, "train/adv_min": -0.45139892109566265, "train/adv_std": 0.05927013010821409, "train/cont_avg": 0.9940185546875, "train/cont_loss_mean": 1.869700263531134e-05, "train/cont_loss_std": 0.0005311756434530758, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.003321278639102982, "train/cont_pos_acc": 0.9999999793039428, "train/cont_pos_loss": 1.1254702962975532e-05, "train/cont_pred": 0.9940147888329294, "train/cont_rate": 0.9940185546875, "train/dyn_loss_mean": 4.4804754422770605, "train/dyn_loss_std": 8.387348744604322, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0544765864809353, "train/extr_critic_critic_opt_grad_steps": 58295.0, "train/extr_critic_critic_opt_loss": 15279.427910698785, "train/extr_critic_mag": 6.795018672943115, "train/extr_critic_max": 6.795018672943115, "train/extr_critic_mean": 1.2167928963899612, "train/extr_critic_min": -0.6090336028072569, "train/extr_critic_std": 1.4839977191554174, "train/extr_return_normed_mag": 1.6584846675395966, "train/extr_return_normed_max": 1.6584846675395966, "train/extr_return_normed_mean": 0.31679530089928043, "train/extr_return_normed_min": -0.17434075692047676, "train/extr_return_normed_std": 0.3339416746877962, "train/extr_return_rate": 0.5135046218832334, "train/extr_return_raw_mag": 7.329139629999797, "train/extr_return_raw_max": 7.329139629999797, "train/extr_return_raw_mean": 1.2266199539105098, "train/extr_return_raw_min": -1.0070232368177838, "train/extr_return_raw_std": 1.5188335436913702, "train/extr_reward_mag": 1.0173625747362773, "train/extr_reward_max": 1.0173625747362773, "train/extr_reward_mean": 0.0296573368832469, "train/extr_reward_min": -0.699808711806933, "train/extr_reward_std": 0.1736273310250706, "train/image_loss_mean": 2.967107892036438, "train/image_loss_std": 7.903682735231188, "train/model_loss_mean": 5.696958541870117, "train/model_loss_std": 11.890509300761753, "train/model_opt_grad_norm": 43.5976809112119, "train/model_opt_grad_steps": 58244.625, "train/model_opt_loss": 7726.992133246527, "train/model_opt_model_opt_grad_overflow": 0.013888888888888888, "train/model_opt_model_opt_grad_scale": 1336.8055555555557, "train/policy_entropy_mag": 2.4036294321219125, "train/policy_entropy_max": 2.4036294321219125, "train/policy_entropy_mean": 0.3941929866042402, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.47135118395090103, "train/policy_logprob_mag": 7.4383840163548784, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39290834425224197, "train/policy_logprob_min": -7.4383840163548784, "train/policy_logprob_std": 0.9998640707797475, "train/policy_randomness_mag": 0.8483757086926036, "train/policy_randomness_max": 0.8483757086926036, "train/policy_randomness_mean": 0.13913282700296906, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16636628285050392, "train/post_ent_mag": 51.2114839553833, "train/post_ent_max": 51.2114839553833, "train/post_ent_mean": 35.19354761971368, "train/post_ent_min": 17.4125653107961, "train/post_ent_std": 5.25039894051022, "train/prior_ent_mag": 73.90322981940375, "train/prior_ent_max": 73.90322981940375, "train/prior_ent_mean": 39.6093962987264, "train/prior_ent_min": 21.44334677855174, "train/prior_ent_std": 7.918167206976149, "train/rep_loss_mean": 4.4804754422770605, "train/rep_loss_std": 8.387348744604322, "train/reward_avg": 0.02245958097692993, "train/reward_loss_mean": 0.04154674501882659, "train/reward_loss_std": 0.18060825309819645, "train/reward_max_data": 1.0027777784400516, "train/reward_max_pred": 1.0047789878315396, "train/reward_neg_acc": 0.9955481762687365, "train/reward_neg_loss": 0.022211520492823586, "train/reward_pos_acc": 0.9897295749849744, "train/reward_pos_loss": 0.7211779173877504, "train/reward_pred": 0.022345047573455505, "train/reward_rate": 0.027737087673611112, "stats/sum_log_reward": 4.433333237965901, "stats/max_log_achievement_collect_drink": 2.5555555555555554, "stats/max_log_achievement_collect_sapling": 3.3333333333333335, "stats/max_log_achievement_collect_wood": 3.888888888888889, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.1111111111111111, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.1111111111111111, "stats/max_log_achievement_place_plant": 1.7777777777777777, "stats/max_log_achievement_place_table": 0.8888888888888888, "stats/max_log_achievement_wake_up": 1.6666666666666667, "stats/mean_log_entropy": 0.3417905552519692, "replay/size": 118344.0, "replay/inserts": 1434.0, "replay/samples": 11472.0, "replay/insert_wait_avg": 3.813865959561187e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.247852749738068e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2417628765106, "timer/env.step_count": 1434.0, "timer/env.step_total": 21.581416130065918, "timer/env.step_frac": 0.07188012727910324, "timer/env.step_avg": 0.015049802043281673, "timer/env.step_min": 0.0029573440551757812, "timer/env.step_max": 1.6820313930511475, "timer/replay.add_count": 1434.0, "timer/replay.add_total": 0.25601625442504883, "timer/replay.add_frac": 0.0008527003437904415, "timer/replay.add_avg": 0.00017853295287660308, "timer/replay.add_min": 7.43865966796875e-05, "timer/replay.add_max": 0.002270221710205078, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028240680694580078, "timer/logger.write_frac": 9.405980175447965e-05, "timer/logger.write_avg": 0.028240680694580078, "timer/logger.write_min": 0.028240680694580078, "timer/logger.write_max": 0.028240680694580078, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1434.0, "timer/agent.policy_total": 10.463219404220581, "timer/agent.policy_frac": 0.03484931377958935, "timer/agent.policy_avg": 0.0072965267811859, "timer/agent.policy_min": 0.0056307315826416016, "timer/agent.policy_max": 0.016835689544677734, "timer/dataset_count": 717.0, "timer/dataset_total": 0.06526970863342285, "timer/dataset_frac": 0.0002173905055982111, "timer/dataset_avg": 9.103167173420202e-05, "timer/dataset_min": 6.794929504394531e-05, "timer/dataset_max": 0.0002307891845703125, "timer/agent.train_count": 717.0, "timer/agent.train_total": 267.1389093399048, "timer/agent.train_frac": 0.8897460059538052, "timer/agent.train_avg": 0.3725786741142326, "timer/agent.train_min": 0.3662989139556885, "timer/agent.train_max": 0.3845369815826416, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2209489345550537, "timer/agent.report_frac": 0.0007359034014396257, "timer/agent.report_avg": 0.2209489345550537, "timer/agent.report_min": 0.2209489345550537, "timer/agent.report_max": 0.2209489345550537, "fps": 4.77605659622267}
{"step": 118546, "episode/length": 248.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.500000022351742, "episode/reward_rate": 0.028112449799196786}
{"step": 118714, "episode/length": 167.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.0999999940395355, "episode/reward_rate": 0.041666666666666664}
{"step": 118872, "episode/length": 157.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.500000022351742, "episode/reward_rate": 0.0189873417721519}
{"step": 119012, "episode/length": 139.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.05}
{"step": 119187, "episode/length": 174.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.3000000193715096, "episode/reward_rate": 0.03428571428571429}
{"step": 119397, "episode/length": 209.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.02857142857142857}
{"step": 119564, "episode/length": 166.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03592814371257485}
{"step": 119740, "episode/length": 175.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.03977272727272727}
{"step": 119847, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4254099527994795, "train/action_min": 0.0, "train/action_std": 3.348726514312956, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04924796516489652, "train/actor_opt_grad_steps": 59015.0, "train/actor_opt_loss": -17.85481916202439, "train/adv_mag": 0.6004234796596898, "train/adv_max": 0.5416626176900334, "train/adv_mean": 0.0023995221677574185, "train/adv_min": -0.5248176385131147, "train/adv_std": 0.060167954199843936, "train/cont_avg": 0.9943712022569444, "train/cont_loss_mean": 0.00016302336558007526, "train/cont_loss_std": 0.005166725184578367, "train/cont_neg_acc": 0.9953703714741601, "train/cont_neg_loss": 0.020596464382328525, "train/cont_pos_acc": 0.9999863339795007, "train/cont_pos_loss": 4.341409860699999e-05, "train/cont_pred": 0.9943851215971841, "train/cont_rate": 0.9943712022569444, "train/dyn_loss_mean": 4.5264780885643425, "train/dyn_loss_std": 8.40518089135488, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1053072131342359, "train/extr_critic_critic_opt_grad_steps": 59015.0, "train/extr_critic_critic_opt_loss": 15480.999538845486, "train/extr_critic_mag": 7.049361017015245, "train/extr_critic_max": 7.049361017015245, "train/extr_critic_mean": 1.2989319587747257, "train/extr_critic_min": -0.618834838271141, "train/extr_critic_std": 1.5835101339552138, "train/extr_return_normed_mag": 1.6845876723527908, "train/extr_return_normed_max": 1.6845876723527908, "train/extr_return_normed_mean": 0.3266620147559378, "train/extr_return_normed_min": -0.16505866890980136, "train/extr_return_normed_std": 0.3430104067342149, "train/extr_return_rate": 0.5298448610636923, "train/extr_return_raw_mag": 7.742167678144243, "train/extr_return_raw_max": 7.742167678144243, "train/extr_return_raw_mean": 1.310195318526692, "train/extr_return_raw_min": -1.0169315992130175, "train/extr_return_raw_std": 1.6241499450471666, "train/extr_reward_mag": 1.0151119828224182, "train/extr_reward_max": 1.0151119828224182, "train/extr_reward_mean": 0.03140038583013746, "train/extr_reward_min": -0.6928070386250814, "train/extr_reward_std": 0.17751504480838776, "train/image_loss_mean": 3.1158990561962128, "train/image_loss_std": 8.490286409854889, "train/model_loss_mean": 5.874474638038212, "train/model_loss_std": 12.461167196432749, "train/model_opt_grad_norm": 39.81912366549174, "train/model_opt_grad_steps": 58964.0, "train/model_opt_loss": 7343.093309190538, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.416593690713247, "train/policy_entropy_max": 2.416593690713247, "train/policy_entropy_mean": 0.39269136471880806, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4783259621924824, "train/policy_logprob_mag": 7.4383840163548784, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3923471065031158, "train/policy_logprob_min": -7.4383840163548784, "train/policy_logprob_std": 1.0038372079531352, "train/policy_randomness_mag": 0.8529515233304765, "train/policy_randomness_max": 0.8529515233304765, "train/policy_randomness_mean": 0.13860281743109226, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1688280732681354, "train/post_ent_mag": 50.64510594473945, "train/post_ent_max": 50.64510594473945, "train/post_ent_mean": 35.18666829003228, "train/post_ent_min": 17.4157657623291, "train/post_ent_std": 5.301073677010006, "train/prior_ent_mag": 73.85197152031793, "train/prior_ent_max": 73.85197152031793, "train/prior_ent_mean": 39.63487286037869, "train/prior_ent_min": 21.286864399909973, "train/prior_ent_std": 7.895113242997064, "train/rep_loss_mean": 4.5264780885643425, "train/rep_loss_std": 8.40518089135488, "train/reward_avg": 0.023756238968215056, "train/reward_loss_mean": 0.0425257263187733, "train/reward_loss_std": 0.1941184060027202, "train/reward_max_data": 1.0055555568801031, "train/reward_max_pred": 1.006174311041832, "train/reward_neg_acc": 0.99564212312301, "train/reward_neg_loss": 0.022430169033921428, "train/reward_pos_acc": 0.9904982265498903, "train/reward_pos_loss": 0.7231070722142855, "train/reward_pred": 0.02371533610858023, "train/reward_rate": 0.028767903645833332, "stats/sum_log_reward": 4.974999904632568, "stats/max_log_achievement_collect_drink": 7.625, "stats/max_log_achievement_collect_sapling": 2.875, "stats/max_log_achievement_collect_wood": 3.875, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.125, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.375, "stats/max_log_achievement_place_plant": 2.125, "stats/max_log_achievement_place_table": 1.375, "stats/max_log_achievement_wake_up": 1.875, "stats/mean_log_entropy": 0.3758701700717211, "replay/size": 119784.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.721316655476888e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2578235732184516e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0128164291382, "timer/env.step_count": 1440.0, "timer/env.step_total": 20.3151912689209, "timer/env.step_frac": 0.06771441137321967, "timer/env.step_avg": 0.014107771714528402, "timer/env.step_min": 0.003053426742553711, "timer/env.step_max": 1.7079877853393555, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.26598405838012695, "timer/replay.add_frac": 0.0008865756521536849, "timer/replay.add_avg": 0.00018471115165286594, "timer/replay.add_min": 6.914138793945312e-05, "timer/replay.add_max": 0.005400657653808594, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0282137393951416, "timer/logger.write_frac": 9.404178038442425e-05, "timer/logger.write_avg": 0.0282137393951416, "timer/logger.write_min": 0.0282137393951416, "timer/logger.write_max": 0.0282137393951416, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 10.536129713058472, "timer/agent.policy_frac": 0.035118932045848324, "timer/agent.policy_avg": 0.007316756745179494, "timer/agent.policy_min": 0.005761623382568359, "timer/agent.policy_max": 0.018800020217895508, "timer/dataset_count": 720.0, "timer/dataset_total": 0.06448984146118164, "timer/dataset_frac": 0.00021495695493533651, "timer/dataset_avg": 8.956922425164116e-05, "timer/dataset_min": 6.270408630371094e-05, "timer/dataset_max": 0.00026798248291015625, "timer/agent.train_count": 720.0, "timer/agent.train_total": 268.0983350276947, "timer/agent.train_frac": 0.893622939908697, "timer/agent.train_avg": 0.372358798649576, "timer/agent.train_min": 0.3659477233886719, "timer/agent.train_max": 0.3853325843811035, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2216043472290039, "timer/agent.report_frac": 0.0007386496012624379, "timer/agent.report_avg": 0.2216043472290039, "timer/agent.report_min": 0.2216043472290039, "timer/agent.report_max": 0.2216043472290039, "fps": 4.799700458147067}
{"step": 119962, "episode/length": 221.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.30000001937151, "episode/reward_rate": 0.03153153153153153}
{"step": 120288, "episode/length": 325.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.02147239263803681}
{"step": 120450, "episode/length": 161.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.700000032782555, "episode/reward_rate": 0.043209876543209874}
{"step": 120651, "episode/length": 200.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.029850746268656716}
{"step": 120875, "episode/length": 223.0, "episode/score": 6.0999999940395355, "episode/sum_abs_reward": 7.900000035762787, "episode/reward_rate": 0.03125}
{"step": 121069, "episode/length": 193.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.030927835051546393}
{"step": 121280, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.531365288628472, "train/action_min": 0.0, "train/action_std": 3.4374835623635187, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.046147573480589524, "train/actor_opt_grad_steps": 59735.0, "train/actor_opt_loss": -17.860438315404785, "train/adv_mag": 0.5539071390198337, "train/adv_max": 0.5205292200876607, "train/adv_mean": 0.0015341149319788706, "train/adv_min": -0.46220746594998574, "train/adv_std": 0.0575494231759674, "train/cont_avg": 0.9940456814236112, "train/cont_loss_mean": 0.00016165975849238536, "train/cont_loss_std": 0.005113245613229999, "train/cont_neg_acc": 0.9970679018232558, "train/cont_neg_loss": 0.016863071018639805, "train/cont_pos_acc": 0.999999988410208, "train/cont_pos_loss": 1.3826796057362738e-06, "train/cont_pred": 0.9940703610579172, "train/cont_rate": 0.9940456814236112, "train/dyn_loss_mean": 4.578274839454227, "train/dyn_loss_std": 8.329818427562714, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0730911220113437, "train/extr_critic_critic_opt_grad_steps": 59735.0, "train/extr_critic_critic_opt_loss": 15387.383531358508, "train/extr_critic_mag": 6.722590804100037, "train/extr_critic_max": 6.722590804100037, "train/extr_critic_mean": 1.1855111320813496, "train/extr_critic_min": -0.6088247845570246, "train/extr_critic_std": 1.5087762624025345, "train/extr_return_normed_mag": 1.6119323803318872, "train/extr_return_normed_max": 1.6119323803318872, "train/extr_return_normed_mean": 0.3092603064659569, "train/extr_return_normed_min": -0.17527421625951925, "train/extr_return_normed_std": 0.33071519020530915, "train/extr_return_rate": 0.5032651813493835, "train/extr_return_raw_mag": 7.240504523118337, "train/extr_return_raw_max": 7.240504523118337, "train/extr_return_raw_mean": 1.1926294283734427, "train/extr_return_raw_min": -1.0573142088121839, "train/extr_return_raw_std": 1.535536019338502, "train/extr_reward_mag": 1.0260040726926591, "train/extr_reward_max": 1.0260040726926591, "train/extr_reward_mean": 0.02890519958196415, "train/extr_reward_min": -0.6894078999757767, "train/extr_reward_std": 0.17165112909343508, "train/image_loss_mean": 3.052253392007616, "train/image_loss_std": 7.992940207322438, "train/model_loss_mean": 5.8421093755298195, "train/model_loss_std": 11.957390983899435, "train/model_opt_grad_norm": 43.806372218661835, "train/model_opt_grad_steps": 59683.055555555555, "train/model_opt_loss": 7465.33251953125, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1284.7222222222222, "train/policy_entropy_mag": 2.414024419254727, "train/policy_entropy_max": 2.414024419254727, "train/policy_entropy_mean": 0.3986342065036297, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.48041827314429814, "train/policy_logprob_mag": 7.438384003109402, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.397983144554827, "train/policy_logprob_min": -7.438384003109402, "train/policy_logprob_std": 1.0076123707824283, "train/policy_randomness_mag": 0.8520446841915449, "train/policy_randomness_max": 0.8520446841915449, "train/policy_randomness_mean": 0.14070038166311052, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16956656840112475, "train/post_ent_mag": 51.174435456593834, "train/post_ent_max": 51.174435456593834, "train/post_ent_mean": 35.52666812472873, "train/post_ent_min": 17.718952775001526, "train/post_ent_std": 5.271505918767717, "train/prior_ent_mag": 73.86651462978787, "train/prior_ent_max": 73.86651462978787, "train/prior_ent_mean": 40.01484510633681, "train/prior_ent_min": 21.491885503133137, "train/prior_ent_std": 7.8183264003859625, "train/rep_loss_mean": 4.578274839454227, "train/rep_loss_std": 8.329818427562714, "train/reward_avg": 0.023098415423495073, "train/reward_loss_mean": 0.04272936227627926, "train/reward_loss_std": 0.19581801268375582, "train/reward_max_data": 1.0055555568801031, "train/reward_max_pred": 1.006467663579517, "train/reward_neg_acc": 0.9954578396346834, "train/reward_neg_loss": 0.022314068770760462, "train/reward_pos_acc": 0.9856048656834496, "train/reward_pos_loss": 0.744648300939136, "train/reward_pred": 0.02294060604698542, "train/reward_rate": 0.028401692708333332, "stats/sum_log_reward": 5.599999904632568, "stats/max_log_achievement_collect_drink": 6.333333333333333, "stats/max_log_achievement_collect_sapling": 2.5, "stats/max_log_achievement_collect_wood": 6.666666666666667, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.16666666666666666, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.3333333333333333, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_table": 2.6666666666666665, "stats/max_log_achievement_wake_up": 3.0, "stats/mean_log_entropy": 0.45149161914984387, "replay/size": 121217.0, "replay/inserts": 1433.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.705720176084509e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2788984029652687e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0012381076813, "timer/env.step_count": 1433.0, "timer/env.step_total": 19.905460596084595, "timer/env.step_frac": 0.06635126148692695, "timer/env.step_avg": 0.01389076105797948, "timer/env.step_min": 0.0032677650451660156, "timer/env.step_max": 2.6681418418884277, "timer/replay.add_count": 1433.0, "timer/replay.add_total": 0.25709009170532227, "timer/replay.add_frac": 0.0008569634356410334, "timer/replay.add_avg": 0.0001794069027950609, "timer/replay.add_min": 6.580352783203125e-05, "timer/replay.add_max": 0.002421855926513672, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0296170711517334, "timer/logger.write_frac": 9.872316307275626e-05, "timer/logger.write_avg": 0.0296170711517334, "timer/logger.write_min": 0.0296170711517334, "timer/logger.write_max": 0.0296170711517334, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004451274871826172, "timer/checkpoint.save_frac": 1.48375216712554e-06, "timer/checkpoint.save_avg": 0.0004451274871826172, "timer/checkpoint.save_min": 0.0004451274871826172, "timer/checkpoint.save_max": 0.0004451274871826172, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3518967628479004, "timer/agent.save_frac": 0.0045063039451945725, "timer/agent.save_avg": 1.3518967628479004, "timer/agent.save_min": 1.3518967628479004, "timer/agent.save_max": 1.3518967628479004, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.034706115722656e-05, "timer/replay.save_frac": 2.6782243188072146e-07, "timer/replay.save_avg": 8.034706115722656e-05, "timer/replay.save_min": 8.034706115722656e-05, "timer/replay.save_max": 8.034706115722656e-05, "timer/agent.policy_count": 1433.0, "timer/agent.policy_total": 11.811359167098999, "timer/agent.policy_frac": 0.0393710347383949, "timer/agent.policy_avg": 0.008242399977040474, "timer/agent.policy_min": 0.005598306655883789, "timer/agent.policy_max": 1.3525631427764893, "timer/dataset_count": 716.0, "timer/dataset_total": 0.06523609161376953, "timer/dataset_frac": 0.00021745274127953412, "timer/dataset_avg": 9.11118597957675e-05, "timer/dataset_min": 6.747245788574219e-05, "timer/dataset_max": 0.00019216537475585938, "timer/agent.train_count": 716.0, "timer/agent.train_total": 267.2421703338623, "timer/agent.train_frac": 0.8908035580771151, "timer/agent.train_avg": 0.37324325465623226, "timer/agent.train_min": 0.3622620105743408, "timer/agent.train_max": 0.85154128074646, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2170724868774414, "timer/agent.report_frac": 0.000723571970058091, "timer/agent.report_avg": 0.2170724868774414, "timer/agent.report_min": 0.2170724868774414, "timer/agent.report_max": 0.2170724868774414, "fps": 4.776567050081469}
{"step": 121283, "episode/length": 213.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 8.100000008940697, "episode/reward_rate": 0.03271028037383177}
{"step": 121480, "episode/length": 196.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.500000022351742, "episode/reward_rate": 0.03553299492385787}
{"step": 121617, "episode/length": 136.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.500000022351742, "episode/reward_rate": 0.029197080291970802}
{"step": 121825, "episode/length": 207.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.500000022351742, "episode/reward_rate": 0.03365384615384615}
{"step": 121874, "episode/length": 48.0, "episode/score": 1.1000000014901161, "episode/sum_abs_reward": 3.100000001490116, "episode/reward_rate": 0.061224489795918366}
{"step": 122044, "episode/length": 169.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03529411764705882}
{"step": 122208, "episode/length": 163.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.500000022351742, "episode/reward_rate": 0.03048780487804878}
{"step": 122370, "episode/length": 161.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.037037037037037035}
{"step": 122546, "episode/length": 175.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.028409090909090908}
{"step": 122706, "episode/length": 159.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 4.900000013411045, "episode/reward_rate": 0.025}
{"step": 122707, "stats/sum_log_reward": 4.29999988079071, "stats/max_log_achievement_collect_drink": 4.9, "stats/max_log_achievement_collect_sapling": 2.8, "stats/max_log_achievement_collect_wood": 3.2, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.4, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 2.2, "stats/max_log_achievement_place_table": 0.9, "stats/max_log_achievement_wake_up": 1.3, "stats/mean_log_entropy": 0.33194016069173815, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.437095104808539, "train/action_min": 0.0, "train/action_std": 3.3508833663564332, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04668175701943921, "train/actor_opt_grad_steps": 60450.0, "train/actor_opt_loss": -16.510944418504206, "train/adv_mag": 0.5576796451924553, "train/adv_max": 0.5224145210125077, "train/adv_mean": 0.0019673610259418072, "train/adv_min": -0.4715335180222149, "train/adv_std": 0.05811652614617012, "train/cont_avg": 0.994016835387324, "train/cont_loss_mean": 0.0001156723835239819, "train/cont_loss_std": 0.003619861594274944, "train/cont_neg_acc": 0.9956405112441157, "train/cont_neg_loss": 0.013327000685024706, "train/cont_pos_acc": 0.9999861624878896, "train/cont_pos_loss": 3.6468864743990794e-05, "train/cont_pred": 0.9940308886514583, "train/cont_rate": 0.994016835387324, "train/dyn_loss_mean": 4.429143267618099, "train/dyn_loss_std": 8.321221768016546, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0199325815053053, "train/extr_critic_critic_opt_grad_steps": 60450.0, "train/extr_critic_critic_opt_loss": 15299.536985585388, "train/extr_critic_mag": 6.775630608410903, "train/extr_critic_max": 6.775630608410903, "train/extr_critic_mean": 1.2421607131689367, "train/extr_critic_min": -0.6250331049234095, "train/extr_critic_std": 1.5253921596097275, "train/extr_return_normed_mag": 1.6227530459283104, "train/extr_return_normed_max": 1.6227530459283104, "train/extr_return_normed_mean": 0.3180713951587677, "train/extr_return_normed_min": -0.1664064040696117, "train/extr_return_normed_std": 0.3344837645409812, "train/extr_return_rate": 0.5153426024275767, "train/extr_return_raw_mag": 7.319062924720872, "train/extr_return_raw_max": 7.319062924720872, "train/extr_return_raw_mean": 1.25129827647142, "train/extr_return_raw_min": -1.0022670080963993, "train/extr_return_raw_std": 1.5557590823777965, "train/extr_reward_mag": 1.022369149705054, "train/extr_reward_max": 1.022369149705054, "train/extr_reward_mean": 0.031408459761402975, "train/extr_reward_min": -0.6782255961861409, "train/extr_reward_std": 0.17767722568881344, "train/image_loss_mean": 2.8596967693785547, "train/image_loss_std": 7.834306273661869, "train/model_loss_mean": 5.560010443271046, "train/model_loss_std": 11.778281379753436, "train/model_opt_grad_norm": 40.56132117795273, "train/model_opt_grad_steps": 60397.66197183099, "train/model_opt_loss": 8257.202588578346, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1514.0845070422536, "train/policy_entropy_mag": 2.389280315855859, "train/policy_entropy_max": 2.389280315855859, "train/policy_entropy_mean": 0.38544592597115207, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4709752088701221, "train/policy_logprob_mag": 7.438383968783096, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3848596538456393, "train/policy_logprob_min": -7.438383968783096, "train/policy_logprob_std": 0.9977521778832019, "train/policy_randomness_mag": 0.8433110982599393, "train/policy_randomness_max": 0.8433110982599393, "train/policy_randomness_mean": 0.13604549738303037, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16623357840826813, "train/post_ent_mag": 51.41366544911559, "train/post_ent_max": 51.41366544911559, "train/post_ent_mean": 35.61154905507262, "train/post_ent_min": 17.4223651751666, "train/post_ent_std": 5.369304656982422, "train/prior_ent_mag": 74.00806330291319, "train/prior_ent_max": 74.00806330291319, "train/prior_ent_mean": 40.02280103656608, "train/prior_ent_min": 21.371112944374623, "train/prior_ent_std": 7.847251623449191, "train/rep_loss_mean": 4.429143267618099, "train/rep_loss_std": 8.321221768016546, "train/reward_avg": 0.02443606937697656, "train/reward_loss_mean": 0.042712070861122976, "train/reward_loss_std": 0.1876096388613674, "train/reward_max_data": 1.008450706240157, "train/reward_max_pred": 1.0098702319910828, "train/reward_neg_acc": 0.9957064759563392, "train/reward_neg_loss": 0.02176988865970306, "train/reward_pos_acc": 0.9855318245753436, "train/reward_pos_loss": 0.7292392186715569, "train/reward_pred": 0.024298121437797665, "train/reward_rate": 0.02969575264084507, "replay/size": 122644.0, "replay/inserts": 1427.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 3.7286527188574423e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2803311441458908e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.9054036140442, "timer/env.step_count": 1427.0, "timer/env.step_total": 23.352482080459595, "timer/env.step_frac": 0.07760738690626047, "timer/env.step_avg": 0.01636473866885746, "timer/env.step_min": 0.003049612045288086, "timer/env.step_max": 1.7363216876983643, "timer/replay.add_count": 1427.0, "timer/replay.add_total": 0.2569398880004883, "timer/replay.add_frac": 0.0008538892453059826, "timer/replay.add_avg": 0.00018005598318184183, "timer/replay.add_min": 7.486343383789062e-05, "timer/replay.add_max": 0.0030117034912109375, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02850031852722168, "timer/logger.write_frac": 9.471521011227025e-05, "timer/logger.write_avg": 0.02850031852722168, "timer/logger.write_min": 0.02850031852722168, "timer/logger.write_max": 0.02850031852722168, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1427.0, "timer/agent.policy_total": 10.508564949035645, "timer/agent.policy_frac": 0.03492315133866601, "timer/agent.policy_avg": 0.007364095969891832, "timer/agent.policy_min": 0.00563359260559082, "timer/agent.policy_max": 0.0176239013671875, "timer/dataset_count": 714.0, "timer/dataset_total": 0.06595373153686523, "timer/dataset_frac": 0.00021918427101914287, "timer/dataset_avg": 9.237217302081965e-05, "timer/dataset_min": 6.890296936035156e-05, "timer/dataset_max": 0.00021028518676757812, "timer/agent.train_count": 714.0, "timer/agent.train_total": 265.9846489429474, "timer/agent.train_frac": 0.8839477315738475, "timer/agent.train_avg": 0.3725275195279375, "timer/agent.train_min": 0.3657801151275635, "timer/agent.train_max": 0.3860187530517578, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22063899040222168, "timer/agent.report_frac": 0.000733250342972318, "timer/agent.report_avg": 0.22063899040222168, "timer/agent.report_min": 0.22063899040222168, "timer/agent.report_max": 0.22063899040222168, "fps": 4.742285076861898}
{"step": 122873, "episode/length": 166.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03592814371257485}
{"step": 123055, "episode/length": 181.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.027472527472527472}
{"step": 123208, "episode/length": 152.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.0392156862745098}
{"step": 123255, "episode/length": 46.0, "episode/score": 2.1000000089406967, "episode/sum_abs_reward": 3.8999999910593033, "episode/reward_rate": 0.0851063829787234}
{"step": 123461, "episode/length": 205.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 6.0999999940395355, "episode/reward_rate": 0.02912621359223301}
{"step": 123626, "episode/length": 164.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.024242424242424242}
{"step": 123797, "episode/length": 170.0, "episode/score": 3.0999999791383743, "episode/sum_abs_reward": 4.900000020861626, "episode/reward_rate": 0.023391812865497075}
{"step": 123936, "episode/length": 138.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.02877697841726619}
{"step": 124135, "episode/length": 198.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.04020100502512563}
{"step": 124137, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.557164151903609, "train/action_min": 0.0, "train/action_std": 3.447897128655877, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04702386333489082, "train/actor_opt_grad_steps": 61160.0, "train/actor_opt_loss": -16.828142947084466, "train/adv_mag": 0.5794145695760217, "train/adv_max": 0.5527547874920805, "train/adv_mean": 0.0021576859091997184, "train/adv_min": -0.4538938512264843, "train/adv_std": 0.058765849754424164, "train/cont_avg": 0.9943882042253521, "train/cont_loss_mean": 0.00014492122861242996, "train/cont_loss_std": 0.004440620212208992, "train/cont_neg_acc": 0.995171027284273, "train/cont_neg_loss": 0.007466166614417296, "train/cont_pos_acc": 0.9999723526793467, "train/cont_pos_loss": 0.0001040018293973793, "train/cont_pred": 0.9943737673087859, "train/cont_rate": 0.9943882042253521, "train/dyn_loss_mean": 4.420520654866393, "train/dyn_loss_std": 8.352584200845637, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0480234102464059, "train/extr_critic_critic_opt_grad_steps": 61160.0, "train/extr_critic_critic_opt_loss": 15302.262764084508, "train/extr_critic_mag": 6.7660851277096175, "train/extr_critic_max": 6.7660851277096175, "train/extr_critic_mean": 1.218764325262795, "train/extr_critic_min": -0.607877942877756, "train/extr_critic_std": 1.506124629101283, "train/extr_return_normed_mag": 1.6370133698826106, "train/extr_return_normed_max": 1.6370133698826106, "train/extr_return_normed_mean": 0.3085350774123635, "train/extr_return_normed_min": -0.18121088799876225, "train/extr_return_normed_std": 0.33211619396444775, "train/extr_return_rate": 0.5021567138987528, "train/extr_return_raw_mag": 7.374528320742325, "train/extr_return_raw_max": 7.374528320742325, "train/extr_return_raw_mean": 1.228727208896422, "train/extr_return_raw_min": -1.0377014606771335, "train/extr_return_raw_std": 1.5367744069703868, "train/extr_reward_mag": 1.0270165456852443, "train/extr_reward_max": 1.0270165456852443, "train/extr_reward_mean": 0.030796646520915166, "train/extr_reward_min": -0.6845947671943987, "train/extr_reward_std": 0.1768256684004421, "train/image_loss_mean": 2.8445444577176806, "train/image_loss_std": 7.769469261169434, "train/model_loss_mean": 5.537648933034547, "train/model_loss_std": 11.778723837624133, "train/model_opt_grad_norm": 39.88729039044448, "train/model_opt_grad_steps": 61107.0, "train/model_opt_loss": 6922.061124559859, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.4272713224652787, "train/policy_entropy_max": 2.4272713224652787, "train/policy_entropy_mean": 0.40554234301540215, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4926316633190907, "train/policy_logprob_mag": 7.438383881474884, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40525862028901005, "train/policy_logprob_min": -7.438383881474884, "train/policy_logprob_std": 1.015720224716294, "train/policy_randomness_mag": 0.8567202578128224, "train/policy_randomness_max": 0.8567202578128224, "train/policy_randomness_mean": 0.14313864917822286, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.17387735927608652, "train/post_ent_mag": 51.435196406404735, "train/post_ent_max": 51.435196406404735, "train/post_ent_mean": 35.85754437513754, "train/post_ent_min": 17.552454357415858, "train/post_ent_std": 5.458842129774497, "train/prior_ent_mag": 74.02527586171325, "train/prior_ent_max": 74.02527586171325, "train/prior_ent_mean": 40.224107822901765, "train/prior_ent_min": 21.08552750063614, "train/prior_ent_std": 7.864453302302831, "train/rep_loss_mean": 4.420520654866393, "train/rep_loss_std": 8.352584200845637, "train/reward_avg": 0.023755226559727123, "train/reward_loss_mean": 0.0406472048866497, "train/reward_loss_std": 0.17994130528728727, "train/reward_max_data": 1.0112676083202092, "train/reward_max_pred": 1.0126805842762263, "train/reward_neg_acc": 0.995938411900695, "train/reward_neg_loss": 0.020185785381202127, "train/reward_pos_acc": 0.9869093659897925, "train/reward_pos_loss": 0.7325031908465104, "train/reward_pred": 0.023556417129723957, "train/reward_rate": 0.02871919014084507, "stats/sum_log_reward": 4.099999904632568, "stats/max_log_achievement_collect_drink": 4.111111111111111, "stats/max_log_achievement_collect_sapling": 2.3333333333333335, "stats/max_log_achievement_collect_wood": 4.222222222222222, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.1111111111111111, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.1111111111111111, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_table": 1.5555555555555556, "stats/max_log_achievement_wake_up": 1.6666666666666667, "stats/mean_log_entropy": 0.3569720387458801, "replay/size": 124074.0, "replay/inserts": 1430.0, "replay/samples": 11440.0, "replay/insert_wait_avg": 3.7768504002711156e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2465498664162376e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0702567100525, "timer/env.step_count": 1430.0, "timer/env.step_total": 21.84812092781067, "timer/env.step_frac": 0.07281001845151801, "timer/env.step_avg": 0.015278406243224244, "timer/env.step_min": 0.0029630661010742188, "timer/env.step_max": 1.7133214473724365, "timer/replay.add_count": 1430.0, "timer/replay.add_total": 0.2653384208679199, "timer/replay.add_frac": 0.0008842543202284365, "timer/replay.add_avg": 0.00018555134326427966, "timer/replay.add_min": 7.557868957519531e-05, "timer/replay.add_max": 0.0025153160095214844, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02789616584777832, "timer/logger.write_frac": 9.296544800417663e-05, "timer/logger.write_avg": 0.02789616584777832, "timer/logger.write_min": 0.02789616584777832, "timer/logger.write_max": 0.02789616584777832, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1430.0, "timer/agent.policy_total": 10.533854246139526, "timer/agent.policy_frac": 0.03510462636861082, "timer/agent.policy_avg": 0.007366331640657011, "timer/agent.policy_min": 0.005670309066772461, "timer/agent.policy_max": 0.021191120147705078, "timer/dataset_count": 715.0, "timer/dataset_total": 0.0652775764465332, "timer/dataset_frac": 0.0002175409757775782, "timer/dataset_avg": 9.129730971543105e-05, "timer/dataset_min": 6.937980651855469e-05, "timer/dataset_max": 0.0002989768981933594, "timer/agent.train_count": 715.0, "timer/agent.train_total": 266.62808299064636, "timer/agent.train_frac": 0.8885521874574855, "timer/agent.train_avg": 0.3729064097771278, "timer/agent.train_min": 0.36669492721557617, "timer/agent.train_max": 0.3867778778076172, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2200634479522705, "timer/agent.report_frac": 0.0007333730785750958, "timer/agent.report_avg": 0.2200634479522705, "timer/agent.report_min": 0.2200634479522705, "timer/agent.report_max": 0.2200634479522705, "fps": 4.765487788164001}
{"step": 124286, "episode/length": 150.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.039735099337748346}
{"step": 124486, "episode/length": 199.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.035}
{"step": 124689, "episode/length": 202.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.029556650246305417}
{"step": 124868, "episode/length": 178.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.03910614525139665}
{"step": 125141, "episode/length": 272.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.02197802197802198}
{"step": 125287, "episode/length": 145.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.0273972602739726}
{"step": 125387, "episode/length": 99.0, "episode/score": 3.100000001490116, "episode/sum_abs_reward": 4.700000025331974, "episode/reward_rate": 0.04}
{"step": 125555, "episode/length": 167.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.0999999940395355, "episode/reward_rate": 0.041666666666666664}
{"step": 125556, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.56299687775088, "train/action_min": 0.0, "train/action_std": 3.433889603950608, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04925648889071505, "train/actor_opt_grad_steps": 61870.0, "train/actor_opt_loss": -14.200045090326121, "train/adv_mag": 0.5817258630839872, "train/adv_max": 0.567161244405827, "train/adv_mean": 0.00260253251459725, "train/adv_min": -0.476896755292382, "train/adv_std": 0.060588557850307145, "train/cont_avg": 0.9937555017605634, "train/cont_loss_mean": 4.1963589030152614e-05, "train/cont_loss_std": 0.0011581059215785272, "train/cont_neg_acc": 0.9982394366197183, "train/cont_neg_loss": 0.003610168211887124, "train/cont_pos_acc": 0.9999999832099592, "train/cont_pos_loss": 1.4851793380698773e-05, "train/cont_pred": 0.9937626140218385, "train/cont_rate": 0.9937555017605634, "train/dyn_loss_mean": 4.449571011771618, "train/dyn_loss_std": 8.322739419802813, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0504386567733657, "train/extr_critic_critic_opt_grad_steps": 61870.0, "train/extr_critic_critic_opt_loss": 15502.711845290492, "train/extr_critic_mag": 6.685837329273492, "train/extr_critic_max": 6.685837329273492, "train/extr_critic_mean": 1.2005796172249485, "train/extr_critic_min": -0.6332106707801282, "train/extr_critic_std": 1.5000535451190573, "train/extr_return_normed_mag": 1.6500596395680602, "train/extr_return_normed_max": 1.6500596395680602, "train/extr_return_normed_mean": 0.3107517659664154, "train/extr_return_normed_min": -0.16396298479865973, "train/extr_return_normed_std": 0.3339451016254828, "train/extr_return_rate": 0.5013772987983596, "train/extr_return_raw_mag": 7.351752099856524, "train/extr_return_raw_max": 7.351752099856524, "train/extr_return_raw_mean": 1.2124937294234692, "train/extr_return_raw_min": -0.9635017690524249, "train/extr_return_raw_std": 1.5308344061945525, "train/extr_reward_mag": 1.0236381040492528, "train/extr_reward_max": 1.0236381040492528, "train/extr_reward_mean": 0.03057786163834619, "train/extr_reward_min": -0.6923299927107045, "train/extr_reward_std": 0.17832712850100557, "train/image_loss_mean": 2.880798561472288, "train/image_loss_std": 7.454724305112597, "train/model_loss_mean": 5.593054999767895, "train/model_loss_std": 11.44050505463506, "train/model_opt_grad_norm": 40.788236752362316, "train/model_opt_grad_steps": 61816.32394366197, "train/model_opt_loss": 8721.432355853873, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1566.9014084507041, "train/policy_entropy_mag": 2.4059908793006146, "train/policy_entropy_max": 2.4059908793006146, "train/policy_entropy_mean": 0.3985635990827856, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4833351188982037, "train/policy_logprob_mag": 7.438383955351064, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.397415923820415, "train/policy_logprob_min": -7.438383955351064, "train/policy_logprob_std": 1.006725553895386, "train/policy_randomness_mag": 0.8492091952914923, "train/policy_randomness_max": 0.8492091952914923, "train/policy_randomness_mean": 0.14067546099844114, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.170596085593734, "train/post_ent_mag": 51.71557735389387, "train/post_ent_max": 51.71557735389387, "train/post_ent_mean": 35.904639176919424, "train/post_ent_min": 17.666620818661972, "train/post_ent_std": 5.455711599806665, "train/prior_ent_mag": 74.10614712137571, "train/prior_ent_max": 74.10614712137571, "train/prior_ent_mean": 40.323156061306804, "train/prior_ent_min": 21.5284411470655, "train/prior_ent_std": 7.902711082512225, "train/rep_loss_mean": 4.449571011771618, "train/rep_loss_std": 8.322739419802813, "train/reward_avg": 0.02399180211703962, "train/reward_loss_mean": 0.04247185768900623, "train/reward_loss_std": 0.18292383251475616, "train/reward_max_data": 1.0098591572801832, "train/reward_max_pred": 1.011407821950778, "train/reward_neg_acc": 0.9954525207130003, "train/reward_neg_loss": 0.021659909642603194, "train/reward_pos_acc": 0.9895894116079303, "train/reward_pos_loss": 0.7266306541335414, "train/reward_pred": 0.02382512576878071, "train/reward_rate": 0.029558208626760563, "stats/sum_log_reward": 4.849999934434891, "stats/max_log_achievement_collect_drink": 7.125, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_wood": 4.75, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.125, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.375, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_table": 1.375, "stats/max_log_achievement_wake_up": 1.75, "stats/mean_log_entropy": 0.40795154869556427, "replay/size": 125493.0, "replay/inserts": 1419.0, "replay/samples": 11344.0, "replay/insert_wait_avg": 3.7125418772573115e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2615545848528992e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.48602843284607, "timer/env.step_count": 1419.0, "timer/env.step_total": 20.405996322631836, "timer/env.step_frac": 0.06790996715906296, "timer/env.step_avg": 0.014380547091354359, "timer/env.step_min": 0.002819538116455078, "timer/env.step_max": 1.7287392616271973, "timer/replay.add_count": 1419.0, "timer/replay.add_total": 0.2462301254272461, "timer/replay.add_frac": 0.0008194395150797325, "timer/replay.add_avg": 0.0001735236965660649, "timer/replay.add_min": 6.246566772460938e-05, "timer/replay.add_max": 0.0013885498046875, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027685165405273438, "timer/logger.write_frac": 9.213461787112888e-05, "timer/logger.write_avg": 0.027685165405273438, "timer/logger.write_min": 0.027685165405273438, "timer/logger.write_max": 0.027685165405273438, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0005598068237304688, "timer/checkpoint.save_frac": 1.8630045019067396e-06, "timer/checkpoint.save_avg": 0.0005598068237304688, "timer/checkpoint.save_min": 0.0005598068237304688, "timer/checkpoint.save_max": 0.0005598068237304688, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3517677783966064, "timer/agent.save_frac": 0.004498604429119757, "timer/agent.save_avg": 1.3517677783966064, "timer/agent.save_min": 1.3517677783966064, "timer/agent.save_max": 1.3517677783966064, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.96453857421875e-05, "timer/replay.save_frac": 2.9833462211113034e-07, "timer/replay.save_avg": 8.96453857421875e-05, "timer/replay.save_min": 8.96453857421875e-05, "timer/replay.save_max": 8.96453857421875e-05, "timer/agent.policy_count": 1419.0, "timer/agent.policy_total": 14.913532257080078, "timer/agent.policy_frac": 0.04963136667238763, "timer/agent.policy_avg": 0.01050988883515157, "timer/agent.policy_min": 0.005769014358520508, "timer/agent.policy_max": 3.1823506355285645, "timer/dataset_count": 709.0, "timer/dataset_total": 0.06413102149963379, "timer/dataset_frac": 0.00021342430406532553, "timer/dataset_avg": 9.045278067649336e-05, "timer/dataset_min": 6.175041198730469e-05, "timer/dataset_max": 0.000179290771484375, "timer/agent.train_count": 709.0, "timer/agent.train_total": 264.1350507736206, "timer/agent.train_frac": 0.8790260637114802, "timer/agent.train_avg": 0.37254591082316024, "timer/agent.train_min": 0.3618001937866211, "timer/agent.train_max": 0.383685827255249, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22107338905334473, "timer/agent.report_frac": 0.0007357193617497966, "timer/agent.report_avg": 0.22107338905334473, "timer/agent.report_min": 0.22107338905334473, "timer/agent.report_max": 0.22107338905334473, "fps": 4.722260366414867}
{"step": 125765, "episode/length": 209.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 9.100000031292439, "episode/reward_rate": 0.0380952380952381}
{"step": 125918, "episode/length": 152.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.0392156862745098}
{"step": 126192, "episode/length": 273.0, "episode/score": 5.100000001490116, "episode/sum_abs_reward": 8.1000000461936, "episode/reward_rate": 0.021897810218978103}
{"step": 126347, "episode/length": 154.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03870967741935484}
{"step": 126557, "episode/length": 209.0, "episode/score": 4.100000001490116, "episode/sum_abs_reward": 6.500000007450581, "episode/reward_rate": 0.02857142857142857}
{"step": 126741, "episode/length": 183.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.100000038743019, "episode/reward_rate": 0.03260869565217391}
{"step": 126896, "episode/length": 154.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.025806451612903226}
{"step": 127003, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.632014026380565, "train/action_min": 0.0, "train/action_std": 3.47521621886998, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04836472572937404, "train/actor_opt_grad_steps": 62590.0, "train/actor_opt_loss": -15.00313917088182, "train/adv_mag": 0.5963246981575064, "train/adv_max": 0.5627278273236261, "train/adv_mean": 0.0029320244021332595, "train/adv_min": -0.47908865670635276, "train/adv_std": 0.05992043084681851, "train/cont_avg": 0.9940336044520548, "train/cont_loss_mean": 1.4683785151372495e-05, "train/cont_loss_std": 0.00036437462334835226, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0010585408502215802, "train/cont_pos_acc": 0.9999999828534584, "train/cont_pos_loss": 7.3809855861831964e-06, "train/cont_pred": 0.9940333284743844, "train/cont_rate": 0.9940336044520548, "train/dyn_loss_mean": 4.576010815084797, "train/dyn_loss_std": 8.368074711054971, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0744042159759835, "train/extr_critic_critic_opt_grad_steps": 62590.0, "train/extr_critic_critic_opt_loss": 15459.679312928081, "train/extr_critic_mag": 6.796250140830262, "train/extr_critic_max": 6.796250140830262, "train/extr_critic_mean": 1.2289307958459201, "train/extr_critic_min": -0.6178650594737432, "train/extr_critic_std": 1.524836872538475, "train/extr_return_normed_mag": 1.6796759726250008, "train/extr_return_normed_max": 1.6796759726250008, "train/extr_return_normed_mean": 0.3170714108911279, "train/extr_return_normed_min": -0.1545293132123882, "train/extr_return_normed_std": 0.340386177374892, "train/extr_return_rate": 0.5015125838044572, "train/extr_return_raw_mag": 7.493889064004977, "train/extr_return_raw_max": 7.493889064004977, "train/extr_return_raw_mean": 1.2423781393325493, "train/extr_return_raw_min": -0.9208054403736167, "train/extr_return_raw_std": 1.5617574763624635, "train/extr_reward_mag": 1.01833625362344, "train/extr_reward_max": 1.01833625362344, "train/extr_reward_mean": 0.03125365546662105, "train/extr_reward_min": -0.6766780108621676, "train/extr_reward_std": 0.17748542160612263, "train/image_loss_mean": 2.943843557410044, "train/image_loss_std": 7.993889612694309, "train/model_loss_mean": 5.734190751428473, "train/model_loss_std": 12.021925847824306, "train/model_opt_grad_norm": 43.56257302793738, "train/model_opt_grad_steps": 62535.849315068495, "train/model_opt_loss": 8118.644986087329, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1421.2328767123288, "train/policy_entropy_mag": 2.4094869371962875, "train/policy_entropy_max": 2.4094869371962875, "train/policy_entropy_mean": 0.39205274802364715, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4824343433935348, "train/policy_logprob_mag": 7.438383938515023, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39188840454571866, "train/policy_logprob_min": -7.438383938515023, "train/policy_logprob_std": 1.0051884855309579, "train/policy_randomness_mag": 0.8504431533486876, "train/policy_randomness_max": 0.8504431533486876, "train/policy_randomness_mean": 0.13837741458252684, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1702781515578701, "train/post_ent_mag": 51.88381764660143, "train/post_ent_max": 51.88381764660143, "train/post_ent_mean": 35.942403976231404, "train/post_ent_min": 18.236933995599617, "train/post_ent_std": 5.3635231958676695, "train/prior_ent_mag": 74.21124267578125, "train/prior_ent_max": 74.21124267578125, "train/prior_ent_mean": 40.442723261166925, "train/prior_ent_min": 22.27283318402016, "train/prior_ent_std": 7.845802718645905, "train/rep_loss_mean": 4.576010815084797, "train/rep_loss_std": 8.368074711054971, "train/reward_avg": 0.02423614065787972, "train/reward_loss_mean": 0.04472600428821289, "train/reward_loss_std": 0.2033293994322215, "train/reward_max_data": 1.0068493167014971, "train/reward_max_pred": 1.0074127275649816, "train/reward_neg_acc": 0.9952595307402414, "train/reward_neg_loss": 0.02322336091111376, "train/reward_pos_acc": 0.9809384590958896, "train/reward_pos_loss": 0.755814113029062, "train/reward_pred": 0.023959240429613688, "train/reward_rate": 0.029457405821917807, "stats/sum_log_reward": 4.9571428298950195, "stats/max_log_achievement_collect_drink": 4.714285714285714, "stats/max_log_achievement_collect_sapling": 2.2857142857142856, "stats/max_log_achievement_collect_wood": 5.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5714285714285714, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.14285714285714285, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_table": 1.5714285714285714, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.3021093202488763, "replay/size": 126940.0, "replay/inserts": 1447.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.72572281316139e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2582013620197443e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.16506576538086, "timer/env.step_count": 1447.0, "timer/env.step_total": 18.885843992233276, "timer/env.step_frac": 0.06291819450766829, "timer/env.step_avg": 0.013051723560631152, "timer/env.step_min": 0.002991914749145508, "timer/env.step_max": 1.7780375480651855, "timer/replay.add_count": 1447.0, "timer/replay.add_total": 0.25838804244995117, "timer/replay.add_frac": 0.0008608198352166537, "timer/replay.add_avg": 0.00017856810120936501, "timer/replay.add_min": 7.534027099609375e-05, "timer/replay.add_max": 0.003346681594848633, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028710365295410156, "timer/logger.write_frac": 9.564858995900324e-05, "timer/logger.write_avg": 0.028710365295410156, "timer/logger.write_min": 0.028710365295410156, "timer/logger.write_max": 0.028710365295410156, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1447.0, "timer/agent.policy_total": 10.542052745819092, "timer/agent.policy_frac": 0.03512085165186783, "timer/agent.policy_avg": 0.00728545455827166, "timer/agent.policy_min": 0.005612373352050781, "timer/agent.policy_max": 0.020468473434448242, "timer/dataset_count": 724.0, "timer/dataset_total": 0.06513547897338867, "timer/dataset_frac": 0.0002169988662981213, "timer/dataset_avg": 8.996613117871363e-05, "timer/dataset_min": 7.128715515136719e-05, "timer/dataset_max": 0.00016498565673828125, "timer/agent.train_count": 724.0, "timer/agent.train_total": 269.6882004737854, "timer/agent.train_frac": 0.898466314812873, "timer/agent.train_avg": 0.37249751446655444, "timer/agent.train_min": 0.36377716064453125, "timer/agent.train_max": 0.38587331771850586, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2167527675628662, "timer/agent.report_frac": 0.0007221119053617235, "timer/agent.report_avg": 0.2167527675628662, "timer/agent.report_min": 0.2167527675628662, "timer/agent.report_max": 0.2167527675628662, "fps": 4.820604096845331}
{"step": 127053, "episode/length": 156.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.025477707006369428}
{"step": 127246, "episode/length": 192.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.500000022351742, "episode/reward_rate": 0.03626943005181347}
{"step": 127414, "episode/length": 167.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.03571428571428571}
{"step": 127575, "episode/length": 160.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.043478260869565216}
{"step": 127738, "episode/length": 162.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 9.10000005364418, "episode/reward_rate": 0.04294478527607362}
{"step": 127951, "episode/length": 212.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.03755868544600939}
{"step": 128129, "episode/length": 177.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.900000028312206, "episode/reward_rate": 0.028089887640449437}
{"step": 128182, "episode/length": 52.0, "episode/score": 2.1000000089406967, "episode/sum_abs_reward": 3.8999999910593033, "episode/reward_rate": 0.07547169811320754}
{"step": 128397, "episode/length": 214.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 8.900000043213367, "episode/reward_rate": 0.03255813953488372}
{"step": 128435, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.626626457966549, "train/action_min": 0.0, "train/action_std": 3.5075808108692437, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.048251719332077135, "train/actor_opt_grad_steps": 63310.0, "train/actor_opt_loss": -13.515486174486053, "train/adv_mag": 0.5540951570154915, "train/adv_max": 0.5218180480977179, "train/adv_mean": 0.0030849569102685283, "train/adv_min": -0.45675817803597785, "train/adv_std": 0.058774039936317524, "train/cont_avg": 0.9942781690140845, "train/cont_loss_mean": 1.7226612280576863e-05, "train/cont_loss_std": 0.00048514603673125545, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0008550924070809294, "train/cont_pos_acc": 0.999999979012449, "train/cont_pos_loss": 1.1592760452051895e-05, "train/cont_pred": 0.9942731697794417, "train/cont_rate": 0.9942781690140845, "train/dyn_loss_mean": 4.537697832349321, "train/dyn_loss_std": 8.396613671746053, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0587161577923196, "train/extr_critic_critic_opt_grad_steps": 63310.0, "train/extr_critic_critic_opt_loss": 15576.744415713029, "train/extr_critic_mag": 6.960511906046263, "train/extr_critic_max": 6.960511906046263, "train/extr_critic_mean": 1.2014215445854295, "train/extr_critic_min": -0.6126947436534184, "train/extr_critic_std": 1.5210484434181535, "train/extr_return_normed_mag": 1.6593858490527515, "train/extr_return_normed_max": 1.6593858490527515, "train/extr_return_normed_mean": 0.3118720037836424, "train/extr_return_normed_min": -0.16427063228378833, "train/extr_return_normed_std": 0.33570045610548743, "train/extr_return_rate": 0.5035660837737608, "train/extr_return_raw_mag": 7.462240232548243, "train/extr_return_raw_max": 7.462240232548243, "train/extr_return_raw_mean": 1.215714460527393, "train/extr_return_raw_min": -0.990460475565682, "train/extr_return_raw_std": 1.5562043341112808, "train/extr_reward_mag": 1.015630087382357, "train/extr_reward_max": 1.015630087382357, "train/extr_reward_mean": 0.030092936179692477, "train/extr_reward_min": -0.6813908043042035, "train/extr_reward_std": 0.17528150597928274, "train/image_loss_mean": 3.0062208948001055, "train/image_loss_std": 7.819556840708558, "train/model_loss_mean": 5.771559977195632, "train/model_loss_std": 11.826386203228587, "train/model_opt_grad_norm": 42.20877145041882, "train/model_opt_grad_steps": 63255.0, "train/model_opt_loss": 7214.44999587368, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.4033446983552316, "train/policy_entropy_max": 2.4033446983552316, "train/policy_entropy_mean": 0.40399529774424053, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.494873004060396, "train/policy_logprob_mag": 7.438384069523341, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40473037580369225, "train/policy_logprob_min": -7.438384069523341, "train/policy_logprob_std": 1.0134670902305924, "train/policy_randomness_mag": 0.8482752089769068, "train/policy_randomness_max": 0.8482752089769068, "train/policy_randomness_mean": 0.14259260976818247, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.17466845478810056, "train/post_ent_mag": 51.82374400823888, "train/post_ent_max": 51.82374400823888, "train/post_ent_mean": 36.14491868354905, "train/post_ent_min": 17.83403528240365, "train/post_ent_std": 5.3776106632931135, "train/prior_ent_mag": 74.15698403371891, "train/prior_ent_max": 74.15698403371891, "train/prior_ent_mean": 40.61845671962684, "train/prior_ent_min": 21.888196622821646, "train/prior_ent_std": 7.745304033789836, "train/rep_loss_mean": 4.537697832349321, "train/rep_loss_std": 8.396613671746053, "train/reward_avg": 0.023136278443877965, "train/reward_loss_mean": 0.042703152830961724, "train/reward_loss_std": 0.19404979029171904, "train/reward_max_data": 1.0056338041601047, "train/reward_max_pred": 1.0072768574029627, "train/reward_neg_acc": 0.9953020802685912, "train/reward_neg_loss": 0.02198238721983114, "train/reward_pos_acc": 0.9824708767340217, "train/reward_pos_loss": 0.7526129652077044, "train/reward_pred": 0.022864568230866546, "train/reward_rate": 0.02849911971830986, "stats/sum_log_reward": 5.099999957614475, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_sapling": 2.5555555555555554, "stats/max_log_achievement_collect_wood": 6.555555555555555, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.2222222222222222, "stats/max_log_achievement_eat_cow": 0.1111111111111111, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.5555555555555556, "stats/max_log_achievement_place_plant": 1.5555555555555556, "stats/max_log_achievement_place_table": 2.2222222222222223, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.28293607301182216, "replay/size": 128372.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.6823349958025543e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2763801899702189e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2563271522522, "timer/env.step_count": 1432.0, "timer/env.step_total": 22.013906717300415, "timer/env.step_frac": 0.07331704522628672, "timer/env.step_avg": 0.015372839886382971, "timer/env.step_min": 0.0032148361206054688, "timer/env.step_max": 1.7287464141845703, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.25326085090637207, "timer/replay.add_frac": 0.0008434821451004763, "timer/replay.add_avg": 0.0001768581361078017, "timer/replay.add_min": 6.890296936035156e-05, "timer/replay.add_max": 0.0023145675659179688, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029720306396484375, "timer/logger.write_frac": 9.898311445544985e-05, "timer/logger.write_avg": 0.029720306396484375, "timer/logger.write_min": 0.029720306396484375, "timer/logger.write_max": 0.029720306396484375, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 10.499017238616943, "timer/agent.policy_frac": 0.034966847620477165, "timer/agent.policy_avg": 0.007331715948754849, "timer/agent.policy_min": 0.005654573440551758, "timer/agent.policy_max": 0.016590595245361328, "timer/dataset_count": 716.0, "timer/dataset_total": 0.06466889381408691, "timer/dataset_frac": 0.00021537895446677798, "timer/dataset_avg": 9.031968409788675e-05, "timer/dataset_min": 6.413459777832031e-05, "timer/dataset_max": 0.00019884109497070312, "timer/agent.train_count": 716.0, "timer/agent.train_total": 266.6966552734375, "timer/agent.train_frac": 0.8882299260864619, "timer/agent.train_avg": 0.3724813621137395, "timer/agent.train_min": 0.36560893058776855, "timer/agent.train_max": 0.38683438301086426, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21859431266784668, "timer/agent.report_frac": 0.0007280256664067004, "timer/agent.report_avg": 0.21859431266784668, "timer/agent.report_min": 0.21859431266784668, "timer/agent.report_max": 0.21859431266784668, "fps": 4.769180463555486}
{"step": 128574, "episode/length": 176.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.02824858757062147}
{"step": 128727, "episode/length": 152.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.032679738562091505}
{"step": 128881, "episode/length": 153.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.500000022351742, "episode/reward_rate": 0.032467532467532464}
{"step": 129118, "episode/length": 236.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.03375527426160337}
{"step": 129369, "episode/length": 250.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.02390438247011952}
{"step": 129562, "episode/length": 192.0, "episode/score": 2.1000000089406967, "episode/sum_abs_reward": 3.8999999910593033, "episode/reward_rate": 0.02072538860103627}
{"step": 129797, "episode/length": 234.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 7.500000059604645, "episode/reward_rate": 0.02127659574468085}
{"step": 129861, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.708617316351996, "train/action_min": 0.0, "train/action_std": 3.628466741906272, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04749644728791383, "train/actor_opt_grad_steps": 64025.0, "train/actor_opt_loss": -14.881168963594568, "train/adv_mag": 0.5421467311680317, "train/adv_max": 0.5144058023062017, "train/adv_mean": 0.002217463093630714, "train/adv_min": -0.43851741237772834, "train/adv_std": 0.05660910909581515, "train/cont_avg": 0.9946967230902778, "train/cont_loss_mean": 2.0509145340636475e-05, "train/cont_loss_std": 0.0005462534572113024, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0010125353243337384, "train/cont_pos_acc": 0.999999988410208, "train/cont_pos_loss": 1.5902188839807725e-05, "train/cont_pred": 0.9946872169772784, "train/cont_rate": 0.9946967230902778, "train/dyn_loss_mean": 4.369761702087191, "train/dyn_loss_std": 8.263380646705627, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0249710861179564, "train/extr_critic_critic_opt_grad_steps": 64025.0, "train/extr_critic_critic_opt_loss": 15352.290052625867, "train/extr_critic_mag": 6.911141051186456, "train/extr_critic_max": 6.911141051186456, "train/extr_critic_mean": 1.2146046782533328, "train/extr_critic_min": -0.5868057062228521, "train/extr_critic_std": 1.5473898963795767, "train/extr_return_normed_mag": 1.616596104370223, "train/extr_return_normed_max": 1.616596104370223, "train/extr_return_normed_mean": 0.3077866697890891, "train/extr_return_normed_min": -0.14494481144679916, "train/extr_return_normed_std": 0.3307824652228091, "train/extr_return_rate": 0.5029921072224776, "train/extr_return_raw_mag": 7.4615824818611145, "train/extr_return_raw_max": 7.4615824818611145, "train/extr_return_raw_mean": 1.2251766348878543, "train/extr_return_raw_min": -0.9317965441279941, "train/extr_return_raw_std": 1.5764083299371932, "train/extr_reward_mag": 1.0156933301024966, "train/extr_reward_max": 1.0156933301024966, "train/extr_reward_mean": 0.029899797725698188, "train/extr_reward_min": -0.6599815338850021, "train/extr_reward_std": 0.17319499380472633, "train/image_loss_mean": 2.7112766669856176, "train/image_loss_std": 7.36502484149403, "train/model_loss_mean": 5.374484671486749, "train/model_loss_std": 11.322963025834826, "train/model_opt_grad_norm": 40.19221482012007, "train/model_opt_grad_steps": 63969.541666666664, "train/model_opt_loss": 8690.750678168402, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1614.5833333333333, "train/policy_entropy_mag": 2.4149951371881695, "train/policy_entropy_max": 2.4149951371881695, "train/policy_entropy_mean": 0.4312574176324738, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5195291605260637, "train/policy_logprob_mag": 7.438383950127496, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.43037426844239235, "train/policy_logprob_min": -7.438383950127496, "train/policy_logprob_std": 1.0295405007070966, "train/policy_randomness_mag": 0.8523873032795058, "train/policy_randomness_max": 0.8523873032795058, "train/policy_randomness_mean": 0.1522149427069558, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18337099647356403, "train/post_ent_mag": 52.01428884930081, "train/post_ent_max": 52.01428884930081, "train/post_ent_mean": 36.34792847103543, "train/post_ent_min": 17.46251736746894, "train/post_ent_std": 5.4512136114968195, "train/prior_ent_mag": 74.16634856330023, "train/prior_ent_max": 74.16634856330023, "train/prior_ent_mean": 40.6437267197503, "train/prior_ent_min": 22.40428180164761, "train/prior_ent_std": 7.712160302533044, "train/rep_loss_mean": 4.369761702087191, "train/rep_loss_std": 8.263380646705627, "train/reward_avg": 0.022820366772874776, "train/reward_loss_mean": 0.04133045137859881, "train/reward_loss_std": 0.1850661225616932, "train/reward_max_data": 1.0041666676600773, "train/reward_max_pred": 1.0055459174844954, "train/reward_neg_acc": 0.994698746336831, "train/reward_neg_loss": 0.02125473940072374, "train/reward_pos_acc": 0.985706110795339, "train/reward_pos_loss": 0.7453385293483734, "train/reward_pred": 0.02261604582114766, "train/reward_rate": 0.027750651041666668, "stats/sum_log_reward": 4.242857047489712, "stats/max_log_achievement_collect_drink": 16.142857142857142, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_wood": 4.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.14285714285714285, "stats/max_log_achievement_make_wood_sword": 0.14285714285714285, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_table": 1.5714285714285714, "stats/max_log_achievement_wake_up": 2.0, "stats/mean_log_entropy": 0.3586610427924565, "replay/size": 129798.0, "replay/inserts": 1426.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 3.7289267669720536e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2676645629369192e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.29942059516907, "timer/env.step_count": 1426.0, "timer/env.step_total": 18.580111503601074, "timer/env.step_frac": 0.06187195255580847, "timer/env.step_avg": 0.013029531208696406, "timer/env.step_min": 0.0027587413787841797, "timer/env.step_max": 1.6453056335449219, "timer/replay.add_count": 1426.0, "timer/replay.add_total": 0.2974085807800293, "timer/replay.add_frac": 0.0009903734752154687, "timer/replay.add_avg": 0.00020856141709679475, "timer/replay.add_min": 8.20159912109375e-05, "timer/replay.add_max": 0.007220268249511719, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028150558471679688, "timer/logger.write_frac": 9.374163431913244e-05, "timer/logger.write_avg": 0.028150558471679688, "timer/logger.write_min": 0.028150558471679688, "timer/logger.write_max": 0.028150558471679688, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00034737586975097656, "timer/checkpoint.save_frac": 1.1567650349191676e-06, "timer/checkpoint.save_avg": 0.00034737586975097656, "timer/checkpoint.save_min": 0.00034737586975097656, "timer/checkpoint.save_max": 0.00034737586975097656, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.427253246307373, "timer/agent.save_frac": 0.004752767233045848, "timer/agent.save_avg": 1.427253246307373, "timer/agent.save_min": 1.427253246307373, "timer/agent.save_max": 1.427253246307373, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.437301635742188e-05, "timer/replay.save_frac": 2.1436277242839757e-07, "timer/replay.save_avg": 6.437301635742188e-05, "timer/replay.save_min": 6.437301635742188e-05, "timer/replay.save_max": 6.437301635742188e-05, "timer/agent.policy_count": 1426.0, "timer/agent.policy_total": 15.036933183670044, "timer/agent.policy_frac": 0.050073134186766205, "timer/agent.policy_avg": 0.010544833929642387, "timer/agent.policy_min": 0.005756855010986328, "timer/agent.policy_max": 3.263246536254883, "timer/dataset_count": 713.0, "timer/dataset_total": 0.06586432456970215, "timer/dataset_frac": 0.00021932884332298878, "timer/dataset_avg": 9.237633179481367e-05, "timer/dataset_min": 7.152557373046875e-05, "timer/dataset_max": 0.0003001689910888672, "timer/agent.train_count": 713.0, "timer/agent.train_total": 265.58804535865784, "timer/agent.train_frac": 0.8844107818532713, "timer/agent.train_avg": 0.3724937522561821, "timer/agent.train_min": 0.3663334846496582, "timer/agent.train_max": 0.3865644931793213, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21958208084106445, "timer/agent.report_frac": 0.0007312104712219245, "timer/agent.report_avg": 0.21958208084106445, "timer/agent.report_min": 0.21958208084106445, "timer/agent.report_max": 0.21958208084106445, "fps": 4.748502420064216}
{"step": 129966, "episode/length": 168.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.04142011834319527}
{"step": 130152, "episode/length": 185.0, "episode/score": 3.0999999940395355, "episode/sum_abs_reward": 5.300000011920929, "episode/reward_rate": 0.026881720430107527}
{"step": 130328, "episode/length": 175.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03409090909090909}
{"step": 130498, "episode/length": 169.0, "episode/score": 6.100000016391277, "episode/sum_abs_reward": 7.300000034272671, "episode/reward_rate": 0.041176470588235294}
{"step": 130672, "episode/length": 173.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.040229885057471264}
{"step": 130853, "episode/length": 180.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03314917127071823}
{"step": 131061, "episode/length": 207.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 8.700000040233135, "episode/reward_rate": 0.028846153846153848}
{"step": 131226, "episode/length": 164.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.030303030303030304}
{"step": 131301, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.579027811686198, "train/action_min": 0.0, "train/action_std": 3.584817389647166, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.048932965327468186, "train/actor_opt_grad_steps": 64745.0, "train/actor_opt_loss": -15.264385742445787, "train/adv_mag": 0.5768900257017877, "train/adv_max": 0.5451118416256375, "train/adv_mean": 0.0022230018515306447, "train/adv_min": -0.4489418545530902, "train/adv_std": 0.058166508459382586, "train/cont_avg": 0.994384765625, "train/cont_loss_mean": 4.976531624360329e-05, "train/cont_loss_std": 0.001479273625032344, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0021794608324954526, "train/cont_pos_acc": 0.9999863646096654, "train/cont_pos_loss": 3.4359749582632856e-05, "train/cont_pred": 0.9943813358743986, "train/cont_rate": 0.994384765625, "train/dyn_loss_mean": 4.47797014315923, "train/dyn_loss_std": 8.391899718178642, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0356228599945705, "train/extr_critic_critic_opt_grad_steps": 64745.0, "train/extr_critic_critic_opt_loss": 15312.71400282118, "train/extr_critic_mag": 6.851336724228329, "train/extr_critic_max": 6.851336724228329, "train/extr_critic_mean": 1.2246374537547429, "train/extr_critic_min": -0.6218998316261504, "train/extr_critic_std": 1.5378125591410532, "train/extr_return_normed_mag": 1.6573150422837999, "train/extr_return_normed_max": 1.6573150422837999, "train/extr_return_normed_mean": 0.3150056132839786, "train/extr_return_normed_min": -0.15652682497683498, "train/extr_return_normed_std": 0.3363439122007953, "train/extr_return_rate": 0.5234655582656463, "train/extr_return_raw_mag": 7.493767937024434, "train/extr_return_raw_max": 7.493767937024434, "train/extr_return_raw_mean": 1.2349921522869005, "train/extr_return_raw_min": -0.9631277794639269, "train/extr_return_raw_std": 1.5680657459629908, "train/extr_reward_mag": 1.0305016305711534, "train/extr_reward_max": 1.0305016305711534, "train/extr_reward_mean": 0.029708604108438723, "train/extr_reward_min": -0.6849540885951784, "train/extr_reward_std": 0.17329355681108105, "train/image_loss_mean": 2.982831238044633, "train/image_loss_std": 8.162042273415459, "train/model_loss_mean": 5.711618079079522, "train/model_loss_std": 12.103951043552822, "train/model_opt_grad_norm": 40.39114054044088, "train/model_opt_grad_steps": 64689.0, "train/model_opt_loss": 7571.52385796441, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1336.8055555555557, "train/policy_entropy_mag": 2.4222043653329215, "train/policy_entropy_max": 2.4222043653329215, "train/policy_entropy_mean": 0.4279052048093743, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5080588385462761, "train/policy_logprob_mag": 7.4383839633729725, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.42763881509502727, "train/policy_logprob_min": -7.4383839633729725, "train/policy_logprob_std": 1.0271727103326056, "train/policy_randomness_mag": 0.8549318470888667, "train/policy_randomness_max": 0.8549318470888667, "train/policy_randomness_mean": 0.1510317615336842, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.17932247639530235, "train/post_ent_mag": 51.91545979181925, "train/post_ent_max": 51.91545979181925, "train/post_ent_mean": 36.248799059126114, "train/post_ent_min": 18.093174748950535, "train/post_ent_std": 5.471186313364241, "train/prior_ent_mag": 74.24211883544922, "train/prior_ent_max": 74.24211883544922, "train/prior_ent_mean": 40.6731423801846, "train/prior_ent_min": 21.595822917090523, "train/prior_ent_std": 7.715512156486511, "train/rep_loss_mean": 4.47797014315923, "train/rep_loss_std": 8.391899718178642, "train/reward_avg": 0.022637261123034276, "train/reward_loss_mean": 0.04195498059400254, "train/reward_loss_std": 0.19380237286289534, "train/reward_max_data": 1.013888892200258, "train/reward_max_pred": 1.0151216983795166, "train/reward_neg_acc": 0.9951829231447644, "train/reward_neg_loss": 0.02198294340632856, "train/reward_pos_acc": 0.9852383467886183, "train/reward_pos_loss": 0.7407252920998467, "train/reward_pred": 0.02248035341552976, "train/reward_rate": 0.027804904513888888, "stats/sum_log_reward": 5.099999964237213, "stats/max_log_achievement_collect_drink": 4.375, "stats/max_log_achievement_collect_sapling": 3.75, "stats/max_log_achievement_collect_wood": 3.875, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.25, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.125, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.875, "stats/max_log_achievement_place_table": 1.5, "stats/max_log_achievement_wake_up": 1.75, "stats/mean_log_entropy": 0.3875861279666424, "replay/size": 131238.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.7226412031385634e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2984085414144728e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0438892841339, "timer/env.step_count": 1440.0, "timer/env.step_total": 20.37777352333069, "timer/env.step_frac": 0.06791597579923868, "timer/env.step_avg": 0.01415123161342409, "timer/env.step_min": 0.002917766571044922, "timer/env.step_max": 1.6903977394104004, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.2653970718383789, "timer/replay.add_frac": 0.0008845275018650843, "timer/replay.add_avg": 0.00018430352210998535, "timer/replay.add_min": 7.343292236328125e-05, "timer/replay.add_max": 0.0010759830474853516, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02913498878479004, "timer/logger.write_frac": 9.710242342979346e-05, "timer/logger.write_avg": 0.02913498878479004, "timer/logger.write_min": 0.02913498878479004, "timer/logger.write_max": 0.02913498878479004, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 10.51183533668518, "timer/agent.policy_frac": 0.03503432568403598, "timer/agent.policy_avg": 0.00729988565047582, "timer/agent.policy_min": 0.005616426467895508, "timer/agent.policy_max": 0.019033193588256836, "timer/dataset_count": 720.0, "timer/dataset_total": 0.06428837776184082, "timer/dataset_frac": 0.0002142632463378095, "timer/dataset_avg": 8.928941355811225e-05, "timer/dataset_min": 6.198883056640625e-05, "timer/dataset_max": 0.00032019615173339844, "timer/agent.train_count": 720.0, "timer/agent.train_total": 268.1018695831299, "timer/agent.train_frac": 0.8935421755223425, "timer/agent.train_avg": 0.3723637077543471, "timer/agent.train_min": 0.36586880683898926, "timer/agent.train_max": 0.38446497917175293, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2199242115020752, "timer/agent.report_frac": 0.0007329734727368921, "timer/agent.report_avg": 0.2199242115020752, "timer/agent.report_min": 0.2199242115020752, "timer/agent.report_max": 0.2199242115020752, "fps": 4.799218659768912}
{"step": 131388, "episode/length": 161.0, "episode/score": 5.100000023841858, "episode/sum_abs_reward": 7.700000017881393, "episode/reward_rate": 0.043209876543209874}
{"step": 131549, "episode/length": 160.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.037267080745341616}
{"step": 131745, "episode/length": 195.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.030612244897959183}
{"step": 131934, "episode/length": 188.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.037037037037037035}
{"step": 132097, "episode/length": 162.0, "episode/score": 5.1000000312924385, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.04294478527607362}
{"step": 132282, "episode/length": 184.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.700000025331974, "episode/reward_rate": 0.043243243243243246}
{"step": 132483, "episode/length": 200.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.03980099502487562}
{"step": 132660, "episode/length": 176.0, "episode/score": 2.0999999716877937, "episode/sum_abs_reward": 4.500000037252903, "episode/reward_rate": 0.022598870056497175}
{"step": 132743, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.595579359266493, "train/action_min": 0.0, "train/action_std": 3.581324580642912, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.048156122418327466, "train/actor_opt_grad_steps": 65465.0, "train/actor_opt_loss": -15.25287755495972, "train/adv_mag": 0.5677804458472464, "train/adv_max": 0.5137311716874441, "train/adv_mean": 0.00292512912427709, "train/adv_min": -0.4812737844056553, "train/adv_std": 0.057985352714442544, "train/cont_avg": 0.9939643012152778, "train/cont_loss_mean": 2.085455336479451e-05, "train/cont_loss_std": 0.0005568512974605255, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0015414895661681133, "train/cont_pos_acc": 0.9999863356351852, "train/cont_pos_loss": 1.6272154727658972e-05, "train/cont_pred": 0.9939563473065695, "train/cont_rate": 0.9939643012152778, "train/dyn_loss_mean": 4.530817502074772, "train/dyn_loss_std": 8.398842778470781, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0735585946175787, "train/extr_critic_critic_opt_grad_steps": 65465.0, "train/extr_critic_critic_opt_loss": 15481.687255859375, "train/extr_critic_mag": 6.857315805223253, "train/extr_critic_max": 6.857315805223253, "train/extr_critic_mean": 1.197433275481065, "train/extr_critic_min": -0.6271903432077832, "train/extr_critic_std": 1.5219364364941914, "train/extr_return_normed_mag": 1.6474078314171896, "train/extr_return_normed_max": 1.6474078314171896, "train/extr_return_normed_mean": 0.3046666280263, "train/extr_return_normed_min": -0.14839147662536967, "train/extr_return_normed_std": 0.33182375215821797, "train/extr_return_rate": 0.507966243972381, "train/extr_return_raw_mag": 7.502758185068767, "train/extr_return_raw_max": 7.502758185068767, "train/extr_return_raw_mean": 1.2111597549584177, "train/extr_return_raw_min": -0.9135474868946605, "train/extr_return_raw_std": 1.5555070986350377, "train/extr_reward_mag": 1.024413721428977, "train/extr_reward_max": 1.024413721428977, "train/extr_reward_mean": 0.030577803289310798, "train/extr_reward_min": -0.6698771847618951, "train/extr_reward_std": 0.17514871598945725, "train/image_loss_mean": 2.929516535666254, "train/image_loss_std": 7.495158559746212, "train/model_loss_mean": 5.691871186097463, "train/model_loss_std": 11.521117011706034, "train/model_opt_grad_norm": 41.066584242714775, "train/model_opt_grad_steps": 65408.11111111111, "train/model_opt_loss": 7894.81106906467, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1388.888888888889, "train/policy_entropy_mag": 2.411937541431851, "train/policy_entropy_max": 2.411937541431851, "train/policy_entropy_mean": 0.42231101418534917, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.498568261663119, "train/policy_logprob_mag": 7.438383923636542, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.422773407979144, "train/policy_logprob_min": -7.438383923636542, "train/policy_logprob_std": 1.024890213376946, "train/policy_randomness_mag": 0.8513081032368872, "train/policy_randomness_max": 0.8513081032368872, "train/policy_randomness_mean": 0.14905725409173304, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1759727168828249, "train/post_ent_mag": 52.29373762342665, "train/post_ent_max": 52.29373762342665, "train/post_ent_mean": 36.575611167483856, "train/post_ent_min": 17.67919905980428, "train/post_ent_std": 5.533862696753608, "train/prior_ent_mag": 74.19337473975287, "train/prior_ent_max": 74.19337473975287, "train/prior_ent_mean": 41.0738009346856, "train/prior_ent_min": 21.47065022256639, "train/prior_ent_std": 7.7933782074186535, "train/rep_loss_mean": 4.530817502074772, "train/rep_loss_std": 8.398842778470781, "train/reward_avg": 0.023086208500899374, "train/reward_loss_mean": 0.04384324510788752, "train/reward_loss_std": 0.1939839827310708, "train/reward_max_data": 1.0125000029802322, "train/reward_max_pred": 1.0129266166024737, "train/reward_neg_acc": 0.9952688531743156, "train/reward_neg_loss": 0.02338972729113367, "train/reward_pos_acc": 0.9830810767081049, "train/reward_pos_loss": 0.7383480055464638, "train/reward_pred": 0.022845323132868443, "train/reward_rate": 0.028754340277777776, "stats/sum_log_reward": 5.099999964237213, "stats/max_log_achievement_collect_drink": 4.5, "stats/max_log_achievement_collect_sapling": 2.75, "stats/max_log_achievement_collect_wood": 6.25, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.375, "stats/max_log_achievement_place_plant": 1.75, "stats/max_log_achievement_place_table": 2.125, "stats/max_log_achievement_wake_up": 1.75, "stats/mean_log_entropy": 0.3912566155195236, "replay/size": 132680.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.7386414082139605e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.246820045079669e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2100236415863, "timer/env.step_count": 1442.0, "timer/env.step_total": 20.237282752990723, "timer/env.step_frac": 0.06741041657273755, "timer/env.step_avg": 0.014034176666429072, "timer/env.step_min": 0.0029554367065429688, "timer/env.step_max": 1.721132755279541, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.25003910064697266, "timer/replay.add_frac": 0.0008328805867771039, "timer/replay.add_avg": 0.0001733974345679422, "timer/replay.add_min": 6.914138793945312e-05, "timer/replay.add_max": 0.0029892921447753906, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028237581253051758, "timer/logger.write_frac": 9.405942183584097e-05, "timer/logger.write_avg": 0.028237581253051758, "timer/logger.write_min": 0.028237581253051758, "timer/logger.write_max": 0.028237581253051758, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 10.54603385925293, "timer/agent.policy_frac": 0.03512885323190804, "timer/agent.policy_avg": 0.007313477017512434, "timer/agent.policy_min": 0.005652427673339844, "timer/agent.policy_max": 0.017178773880004883, "timer/dataset_count": 721.0, "timer/dataset_total": 0.06557631492614746, "timer/dataset_frac": 0.0002184347948502795, "timer/dataset_avg": 9.09518931014528e-05, "timer/dataset_min": 6.961822509765625e-05, "timer/dataset_max": 0.000240325927734375, "timer/agent.train_count": 721.0, "timer/agent.train_total": 268.3857831954956, "timer/agent.train_frac": 0.8939934114788755, "timer/agent.train_avg": 0.37224103078432125, "timer/agent.train_min": 0.36522340774536133, "timer/agent.train_max": 0.3859407901763916, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21787095069885254, "timer/agent.report_frac": 0.0007257284352336068, "timer/agent.report_avg": 0.21787095069885254, "timer/agent.report_min": 0.21787095069885254, "timer/agent.report_max": 0.21787095069885254, "fps": 4.803242415285547}
{"step": 132844, "episode/length": 183.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.043478260869565216}
{"step": 133046, "episode/length": 201.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 7.300000034272671, "episode/reward_rate": 0.024752475247524754}
{"step": 133309, "episode/length": 262.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.03802281368821293}
{"step": 133503, "episode/length": 193.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.8999999687075615, "episode/reward_rate": 0.03608247422680412}
{"step": 133686, "episode/length": 182.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.0273224043715847}
{"step": 133886, "episode/length": 199.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 9.100000061094761, "episode/reward_rate": 0.035}
{"step": 134133, "episode/length": 246.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.099999994039536, "episode/reward_rate": 0.032388663967611336}
{"step": 134169, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.625986878301056, "train/action_min": 0.0, "train/action_std": 3.622718800961132, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05002131580676831, "train/actor_opt_grad_steps": 66180.0, "train/actor_opt_loss": -13.456622620703468, "train/adv_mag": 0.5676138505969249, "train/adv_max": 0.5353315203962191, "train/adv_mean": 0.0036827800857947655, "train/adv_min": -0.4838000792013088, "train/adv_std": 0.059467412269031496, "train/cont_avg": 0.994415713028169, "train/cont_loss_mean": 0.00018434429339754708, "train/cont_loss_std": 0.005652136287381727, "train/cont_neg_acc": 0.9912810216487293, "train/cont_neg_loss": 0.03915699999992233, "train/cont_pos_acc": 0.9999861305868122, "train/cont_pos_loss": 3.11093222380901e-05, "train/cont_pred": 0.9944321487990904, "train/cont_rate": 0.994415713028169, "train/dyn_loss_mean": 4.560311794281006, "train/dyn_loss_std": 8.406588245445574, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0843858609736805, "train/extr_critic_critic_opt_grad_steps": 66180.0, "train/extr_critic_critic_opt_loss": 15675.59980193662, "train/extr_critic_mag": 6.957013150336037, "train/extr_critic_max": 6.957013150336037, "train/extr_critic_mean": 1.2686983481259413, "train/extr_critic_min": -0.6107095144164394, "train/extr_critic_std": 1.557911992073059, "train/extr_return_normed_mag": 1.6721178662609046, "train/extr_return_normed_max": 1.6721178662609046, "train/extr_return_normed_mean": 0.3164867624430589, "train/extr_return_normed_min": -0.16296726129424405, "train/extr_return_normed_std": 0.3386190118084491, "train/extr_return_rate": 0.5240078761544026, "train/extr_return_raw_mag": 7.683790213625196, "train/extr_return_raw_max": 7.683790213625196, "train/extr_return_raw_mean": 1.2860382938049209, "train/extr_return_raw_min": -0.9748061500804525, "train/extr_return_raw_std": 1.5974766083166634, "train/extr_reward_mag": 1.0197476534776284, "train/extr_reward_max": 1.0197476534776284, "train/extr_reward_mean": 0.031664194591658215, "train/extr_reward_min": -0.6511358828611777, "train/extr_reward_std": 0.17732891482366642, "train/image_loss_mean": 2.926390743591416, "train/image_loss_std": 7.904235215254233, "train/model_loss_mean": 5.705488607917033, "train/model_loss_std": 11.92224110348124, "train/model_opt_grad_norm": 39.957238318214955, "train/model_opt_grad_steps": 66123.0, "train/model_opt_loss": 10657.14794921875, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1866.1971830985915, "train/policy_entropy_mag": 2.4384355377143536, "train/policy_entropy_max": 2.4384355377143536, "train/policy_entropy_mean": 0.4165937048448643, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5023152836611573, "train/policy_logprob_mag": 7.438383955351064, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41670960061986684, "train/policy_logprob_min": -7.438383955351064, "train/policy_logprob_std": 1.0207927613191201, "train/policy_randomness_mag": 0.8606607393479683, "train/policy_randomness_max": 0.8606607393479683, "train/policy_randomness_mean": 0.14703929718111602, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.17729525100177443, "train/post_ent_mag": 52.07848256070849, "train/post_ent_max": 52.07848256070849, "train/post_ent_mean": 36.64642140563105, "train/post_ent_min": 17.7704249771548, "train/post_ent_std": 5.505121412411542, "train/prior_ent_mag": 74.33483005577409, "train/prior_ent_max": 74.33483005577409, "train/prior_ent_mean": 41.10575630295445, "train/prior_ent_min": 22.12351817816076, "train/prior_ent_std": 7.751941251083159, "train/rep_loss_mean": 4.560311794281006, "train/rep_loss_std": 8.406588245445574, "train/reward_avg": 0.023337092880212084, "train/reward_loss_mean": 0.042726439673086286, "train/reward_loss_std": 0.19265509260372377, "train/reward_max_data": 1.0112676083202092, "train/reward_max_pred": 1.01034066878574, "train/reward_neg_acc": 0.9950756371860773, "train/reward_neg_loss": 0.022367524192996428, "train/reward_pos_acc": 0.9861291890412989, "train/reward_pos_loss": 0.7381904905950519, "train/reward_pred": 0.02320495112733522, "train/reward_rate": 0.028416593309859156, "stats/sum_log_reward": 5.9571428298950195, "stats/max_log_achievement_collect_drink": 6.428571428571429, "stats/max_log_achievement_collect_sapling": 2.7142857142857144, "stats/max_log_achievement_collect_wood": 6.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5714285714285714, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.2857142857142857, "stats/max_log_achievement_make_wood_sword": 0.42857142857142855, "stats/max_log_achievement_place_plant": 2.2857142857142856, "stats/max_log_achievement_place_table": 1.5714285714285714, "stats/max_log_achievement_wake_up": 2.0, "stats/mean_log_entropy": 0.4290911299841745, "stats/max_log_achievement_collect_stone": 0.2, "replay/size": 134106.0, "replay/inserts": 1426.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 3.784936741725927e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2761078576386226e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0685522556305, "timer/env.step_count": 1426.0, "timer/env.step_total": 18.795634746551514, "timer/env.step_frac": 0.06263780261298219, "timer/env.step_avg": 0.013180669527735984, "timer/env.step_min": 0.002936840057373047, "timer/env.step_max": 1.7125301361083984, "timer/replay.add_count": 1426.0, "timer/replay.add_total": 0.279388427734375, "timer/replay.add_frac": 0.0009310819998770216, "timer/replay.add_avg": 0.00019592456362859398, "timer/replay.add_min": 6.222724914550781e-05, "timer/replay.add_max": 0.0024764537811279297, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02628016471862793, "timer/logger.write_frac": 8.758053625106197e-05, "timer/logger.write_avg": 0.02628016471862793, "timer/logger.write_min": 0.02628016471862793, "timer/logger.write_max": 0.02628016471862793, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004153251647949219, "timer/checkpoint.save_frac": 1.3841009385118887e-06, "timer/checkpoint.save_avg": 0.0004153251647949219, "timer/checkpoint.save_min": 0.0004153251647949219, "timer/checkpoint.save_max": 0.0004153251647949219, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.343158483505249, "timer/agent.save_frac": 0.004476172106035967, "timer/agent.save_avg": 1.343158483505249, "timer/agent.save_min": 1.343158483505249, "timer/agent.save_max": 1.343158483505249, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.72747802734375e-05, "timer/replay.save_frac": 3.241751911095583e-07, "timer/replay.save_avg": 9.72747802734375e-05, "timer/replay.save_min": 9.72747802734375e-05, "timer/replay.save_max": 9.72747802734375e-05, "timer/agent.policy_count": 1426.0, "timer/agent.policy_total": 14.43782901763916, "timer/agent.policy_frac": 0.0481151020628762, "timer/agent.policy_avg": 0.010124704780953129, "timer/agent.policy_min": 0.005646944046020508, "timer/agent.policy_max": 2.5845203399658203, "timer/dataset_count": 713.0, "timer/dataset_total": 0.0660238265991211, "timer/dataset_frac": 0.0002200291436833905, "timer/dataset_avg": 9.260003730592018e-05, "timer/dataset_min": 7.176399230957031e-05, "timer/dataset_max": 0.0002269744873046875, "timer/agent.train_count": 713.0, "timer/agent.train_total": 265.76609659194946, "timer/agent.train_frac": 0.8856846030487776, "timer/agent.train_avg": 0.372743473480995, "timer/agent.train_min": 0.3660261631011963, "timer/agent.train_max": 0.41948604583740234, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21906614303588867, "timer/agent.report_frac": 0.0007300536540372438, "timer/agent.report_avg": 0.21906614303588867, "timer/agent.report_min": 0.21906614303588867, "timer/agent.report_max": 0.21906614303588867, "fps": 4.752164590270838}
{"step": 134342, "episode/length": 208.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 6.0999999940395355, "episode/reward_rate": 0.028708133971291867}
{"step": 134526, "episode/length": 183.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.03804347826086957}
{"step": 134693, "episode/length": 166.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03592814371257485}
{"step": 134866, "episode/length": 172.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.028901734104046242}
{"step": 135029, "episode/length": 162.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.04294478527607362}
{"step": 135240, "episode/length": 210.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.037914691943127965}
{"step": 135404, "episode/length": 163.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 7.100000008940697, "episode/reward_rate": 0.036585365853658534}
{"step": 135560, "episode/length": 155.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.03205128205128205}
{"step": 135605, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.714419047037761, "train/action_min": 0.0, "train/action_std": 3.680527071158091, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.048568852038847074, "train/actor_opt_grad_steps": 66895.0, "train/actor_opt_loss": -15.77237179544237, "train/adv_mag": 0.6274225633177493, "train/adv_max": 0.5688295985261599, "train/adv_mean": 0.0021851957843021827, "train/adv_min": -0.509291909635067, "train/adv_std": 0.05884884189193448, "train/cont_avg": 0.9946560329861112, "train/cont_loss_mean": 0.00013325323107279038, "train/cont_loss_std": 0.004147624298587023, "train/cont_neg_acc": 0.9984567902154393, "train/cont_neg_loss": 0.015089451482329727, "train/cont_pos_acc": 0.999999980131785, "train/cont_pos_loss": 1.2136316156979237e-05, "train/cont_pred": 0.9946716634763612, "train/cont_rate": 0.9946560329861112, "train/dyn_loss_mean": 4.463964972231123, "train/dyn_loss_std": 8.262395011054146, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1012491650051541, "train/extr_critic_critic_opt_grad_steps": 66895.0, "train/extr_critic_critic_opt_loss": 15529.012776692709, "train/extr_critic_mag": 7.5777029395103455, "train/extr_critic_max": 7.5777029395103455, "train/extr_critic_mean": 1.3263357886009746, "train/extr_critic_min": -0.6138202928834491, "train/extr_critic_std": 1.6383932315640979, "train/extr_return_normed_mag": 1.742023476296001, "train/extr_return_normed_max": 1.742023476296001, "train/extr_return_normed_mean": 0.32718027838402325, "train/extr_return_normed_min": -0.15381698093066612, "train/extr_return_normed_std": 0.3499662863711516, "train/extr_return_rate": 0.5491835164527098, "train/extr_return_raw_mag": 8.114018287923601, "train/extr_return_raw_max": 8.114018287923601, "train/extr_return_raw_mean": 1.3368050538831286, "train/extr_return_raw_min": -0.9636632212334209, "train/extr_return_raw_std": 1.6749595238102808, "train/extr_reward_mag": 1.019065969520145, "train/extr_reward_max": 1.019065969520145, "train/extr_reward_mean": 0.03227848450963696, "train/extr_reward_min": -0.6601056555906931, "train/extr_reward_std": 0.17892027811871636, "train/image_loss_mean": 2.791828971770075, "train/image_loss_std": 7.562645607524448, "train/model_loss_mean": 5.512507249911626, "train/model_loss_std": 11.501380383968353, "train/model_opt_grad_norm": 37.918785572052, "train/model_opt_grad_steps": 66837.93055555556, "train/model_opt_loss": 14182.337443033854, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2569.4444444444443, "train/policy_entropy_mag": 2.398111585113737, "train/policy_entropy_max": 2.398111585113737, "train/policy_entropy_mean": 0.42058372870087624, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5023782799641291, "train/policy_logprob_mag": 7.4383840097321405, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4208885845210817, "train/policy_logprob_min": -7.4383840097321405, "train/policy_logprob_std": 1.0230074839459524, "train/policy_randomness_mag": 0.8464281501041518, "train/policy_randomness_max": 0.8464281501041518, "train/policy_randomness_mean": 0.14844759967592028, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.17731748635156286, "train/post_ent_mag": 53.35677093929715, "train/post_ent_max": 53.35677093929715, "train/post_ent_mean": 36.86251221762763, "train/post_ent_min": 18.25559153821733, "train/post_ent_std": 5.6274742351637945, "train/prior_ent_mag": 74.39522955152724, "train/prior_ent_max": 74.39522955152724, "train/prior_ent_mean": 41.29908010694716, "train/prior_ent_min": 22.702441904279922, "train/prior_ent_std": 7.763638748062982, "train/rep_loss_mean": 4.463964972231123, "train/rep_loss_std": 8.262395011054146, "train/reward_avg": 0.02480875628276004, "train/reward_loss_mean": 0.042166074789646596, "train/reward_loss_std": 0.18448498244914743, "train/reward_max_data": 1.0097222245401807, "train/reward_max_pred": 1.008427037133111, "train/reward_neg_acc": 0.9951514510644807, "train/reward_neg_loss": 0.021149076424383868, "train/reward_pos_acc": 0.9864493235945702, "train/reward_pos_loss": 0.7311204133762254, "train/reward_pred": 0.024805082034112677, "train/reward_rate": 0.029758029513888888, "stats/sum_log_reward": 4.974999904632568, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_sapling": 2.875, "stats/max_log_achievement_collect_stone": 0.125, "stats/max_log_achievement_collect_wood": 5.375, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.125, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.125, "stats/max_log_achievement_make_wood_sword": 0.125, "stats/max_log_achievement_place_plant": 2.5, "stats/max_log_achievement_place_table": 1.5, "stats/max_log_achievement_wake_up": 1.75, "stats/mean_log_entropy": 0.3651514984667301, "replay/size": 135542.0, "replay/inserts": 1436.0, "replay/samples": 11488.0, "replay/insert_wait_avg": 3.758081154570938e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2613272600519291e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.26067066192627, "timer/env.step_count": 1436.0, "timer/env.step_total": 20.239514589309692, "timer/env.step_frac": 0.06740647899270848, "timer/env.step_avg": 0.014094369491162738, "timer/env.step_min": 0.0030035972595214844, "timer/env.step_max": 1.6804800033569336, "timer/replay.add_count": 1436.0, "timer/replay.add_total": 0.27457475662231445, "timer/replay.add_frac": 0.0009144546171065725, "timer/replay.add_avg": 0.00019120804778712707, "timer/replay.add_min": 7.867813110351562e-05, "timer/replay.add_max": 0.007965326309204102, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027736425399780273, "timer/logger.write_frac": 9.237448693708428e-05, "timer/logger.write_avg": 0.027736425399780273, "timer/logger.write_min": 0.027736425399780273, "timer/logger.write_max": 0.027736425399780273, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1436.0, "timer/agent.policy_total": 10.607003927230835, "timer/agent.policy_frac": 0.03532598493118542, "timer/agent.policy_avg": 0.007386492985536793, "timer/agent.policy_min": 0.0056133270263671875, "timer/agent.policy_max": 0.019420146942138672, "timer/dataset_count": 718.0, "timer/dataset_total": 0.06703972816467285, "timer/dataset_frac": 0.0002232717592246877, "timer/dataset_avg": 9.337009493687026e-05, "timer/dataset_min": 6.890296936035156e-05, "timer/dataset_max": 0.00019073486328125, "timer/agent.train_count": 718.0, "timer/agent.train_total": 268.3343229293823, "timer/agent.train_frac": 0.8936712301942105, "timer/agent.train_avg": 0.3737246837456578, "timer/agent.train_min": 0.36617231369018555, "timer/agent.train_max": 1.0025572776794434, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2196359634399414, "timer/agent.report_frac": 0.0007314842898197514, "timer/agent.report_avg": 0.2196359634399414, "timer/agent.report_min": 0.2196359634399414, "timer/agent.report_max": 0.2196359634399414, "fps": 4.782399807310996}
{"step": 135752, "episode/length": 191.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.03125}
{"step": 135919, "episode/length": 166.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.03592814371257485}
{"step": 136040, "episode/length": 120.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.049586776859504134}
{"step": 136204, "episode/length": 163.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.036585365853658534}
{"step": 136438, "episode/length": 233.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.30000001937151, "episode/reward_rate": 0.029914529914529916}
{"step": 136626, "episode/length": 187.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.031914893617021274}
{"step": 136886, "episode/length": 259.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.023076923076923078}
{"step": 137055, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.664401584201389, "train/action_min": 0.0, "train/action_std": 3.6115113066302404, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04711323060716192, "train/actor_opt_grad_steps": 67615.0, "train/actor_opt_loss": -18.94579399459892, "train/adv_mag": 0.5691296739710702, "train/adv_max": 0.5448923462794887, "train/adv_mean": 0.0012049328947291037, "train/adv_min": -0.46985527086589074, "train/adv_std": 0.05721067911427882, "train/cont_avg": 0.9941948784722222, "train/cont_loss_mean": 2.182508874258736e-05, "train/cont_loss_std": 0.0005071780463639344, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0010332312810482512, "train/cont_pos_acc": 0.999999985926681, "train/cont_pos_loss": 1.3128180456018552e-05, "train/cont_pred": 0.9941889966527621, "train/cont_rate": 0.9941948784722222, "train/dyn_loss_mean": 4.4079695211516485, "train/dyn_loss_std": 8.252711342440712, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.135583184659481, "train/extr_critic_critic_opt_grad_steps": 67615.0, "train/extr_critic_critic_opt_loss": 15433.671061197916, "train/extr_critic_mag": 7.2663109170065985, "train/extr_critic_max": 7.2663109170065985, "train/extr_critic_mean": 1.2211634044845898, "train/extr_critic_min": -0.6325694637166129, "train/extr_critic_std": 1.5590747363037534, "train/extr_return_normed_mag": 1.7144485529926088, "train/extr_return_normed_max": 1.7144485529926088, "train/extr_return_normed_mean": 0.3111570881058772, "train/extr_return_normed_min": -0.1571410455637508, "train/extr_return_normed_std": 0.3351506781246927, "train/extr_return_rate": 0.5303575574523873, "train/extr_return_raw_mag": 7.8797460661994085, "train/extr_return_raw_max": 7.8797460661994085, "train/extr_return_raw_mean": 1.2268651980492804, "train/extr_return_raw_min": -0.9940042793750763, "train/extr_return_raw_std": 1.589537834127744, "train/extr_reward_mag": 1.024552086989085, "train/extr_reward_max": 1.024552086989085, "train/extr_reward_mean": 0.031153823249042034, "train/extr_reward_min": -0.6864938139915466, "train/extr_reward_std": 0.17767376783821318, "train/image_loss_mean": 2.7198993812004724, "train/image_loss_std": 7.11251535680559, "train/model_loss_mean": 5.406667845116721, "train/model_loss_std": 11.046077887217203, "train/model_opt_grad_norm": 42.875298738479614, "train/model_opt_grad_steps": 67556.375, "train/model_opt_loss": 9287.076110839844, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1718.75, "train/policy_entropy_mag": 2.4073930316501193, "train/policy_entropy_max": 2.4073930316501193, "train/policy_entropy_mean": 0.42643166954318684, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5123393601841397, "train/policy_logprob_mag": 7.4383840097321405, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.42594084185030723, "train/policy_logprob_min": -7.4383840097321405, "train/policy_logprob_std": 1.0279315263032913, "train/policy_randomness_mag": 0.8497040958868133, "train/policy_randomness_max": 0.8497040958868133, "train/policy_randomness_mean": 0.15051166568365362, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18083331175148487, "train/post_ent_mag": 52.86804040273031, "train/post_ent_max": 52.86804040273031, "train/post_ent_mean": 36.9152561823527, "train/post_ent_min": 17.868265403641594, "train/post_ent_std": 5.616895404126909, "train/prior_ent_mag": 74.29580476548936, "train/prior_ent_max": 74.29580476548936, "train/prior_ent_mean": 41.252964443630646, "train/prior_ent_min": 22.235494057337444, "train/prior_ent_std": 7.777630872196621, "train/rep_loss_mean": 4.4079695211516485, "train/rep_loss_std": 8.252711342440712, "train/reward_avg": 0.02388644734552751, "train/reward_loss_mean": 0.041964878172924124, "train/reward_loss_std": 0.17667458982517323, "train/reward_max_data": 1.013888892200258, "train/reward_max_pred": 1.0135186264912288, "train/reward_neg_acc": 0.9953032036622366, "train/reward_neg_loss": 0.02181304742892583, "train/reward_pos_acc": 0.9923559642500348, "train/reward_pos_loss": 0.7118967448671659, "train/reward_pred": 0.02382652830177297, "train/reward_rate": 0.0291748046875, "stats/sum_log_reward": 5.242857047489712, "stats/max_log_achievement_collect_drink": 4.571428571428571, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 6.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.14285714285714285, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.14285714285714285, "stats/max_log_achievement_place_plant": 1.8571428571428572, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.8571428571428572, "stats/mean_log_entropy": 0.4046056398323604, "replay/size": 136992.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.7017361871127424e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2628374428584659e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2770323753357, "timer/env.step_count": 1450.0, "timer/env.step_total": 18.387958765029907, "timer/env.step_frac": 0.06123664743710937, "timer/env.step_avg": 0.012681350872434419, "timer/env.step_min": 0.0028791427612304688, "timer/env.step_max": 1.6535160541534424, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.26009035110473633, "timer/replay.add_frac": 0.0008661679817710219, "timer/replay.add_avg": 0.00017937265593430092, "timer/replay.add_min": 7.295608520507812e-05, "timer/replay.add_max": 0.003292083740234375, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02275395393371582, "timer/logger.write_frac": 7.577653793139324e-05, "timer/logger.write_avg": 0.02275395393371582, "timer/logger.write_min": 0.02275395393371582, "timer/logger.write_max": 0.02275395393371582, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 10.635933876037598, "timer/agent.policy_frac": 0.03542040425770245, "timer/agent.policy_avg": 0.007335126811060412, "timer/agent.policy_min": 0.005703449249267578, "timer/agent.policy_max": 0.01627326011657715, "timer/dataset_count": 725.0, "timer/dataset_total": 0.06526541709899902, "timer/dataset_frac": 0.00021735067974636022, "timer/dataset_avg": 9.002126496413658e-05, "timer/dataset_min": 6.29425048828125e-05, "timer/dataset_max": 0.00023508071899414062, "timer/agent.train_count": 725.0, "timer/agent.train_total": 270.2073917388916, "timer/agent.train_frac": 0.8998603376402825, "timer/agent.train_avg": 0.37269985067433326, "timer/agent.train_min": 0.36607909202575684, "timer/agent.train_max": 0.3868899345397949, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21997666358947754, "timer/agent.report_frac": 0.0007325790515823218, "timer/agent.report_avg": 0.21997666358947754, "timer/agent.report_min": 0.21997666358947754, "timer/agent.report_max": 0.21997666358947754, "fps": 4.828801005820663}
{"step": 137147, "episode/length": 260.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.02681992337164751}
{"step": 137331, "episode/length": 183.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.02717391304347826}
{"step": 137533, "episode/length": 201.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.039603960396039604}
{"step": 137705, "episode/length": 171.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03488372093023256}
{"step": 137877, "episode/length": 171.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 8.500000037252903, "episode/reward_rate": 0.040697674418604654}
{"step": 137926, "episode/length": 48.0, "episode/score": 1.099999986588955, "episode/sum_abs_reward": 3.1000000163912773, "episode/reward_rate": 0.04081632653061224}
{"step": 138111, "episode/length": 184.0, "episode/score": 4.100000023841858, "episode/sum_abs_reward": 6.900000020861626, "episode/reward_rate": 0.032432432432432434}
{"step": 138381, "episode/length": 269.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.30000001937151, "episode/reward_rate": 0.025925925925925925}
{"step": 138473, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.667170135068222, "train/action_min": 0.0, "train/action_std": 3.5777562705563826, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04998817384033136, "train/actor_opt_grad_steps": 68330.0, "train/actor_opt_loss": -13.6961566064979, "train/adv_mag": 0.6376248963282142, "train/adv_max": 0.5755092568800483, "train/adv_mean": 0.003086412155140915, "train/adv_min": -0.5239867278387849, "train/adv_std": 0.05987050541689698, "train/cont_avg": 0.9944019586267606, "train/cont_loss_mean": 3.236046056642895e-05, "train/cont_loss_std": 0.0008615108079404411, "train/cont_neg_acc": 0.9953051645990828, "train/cont_neg_loss": 0.0043869280458930515, "train/cont_pos_acc": 0.9999861456978489, "train/cont_pos_loss": 1.805519245959325e-05, "train/cont_pred": 0.9943978828443608, "train/cont_rate": 0.9944019586267606, "train/dyn_loss_mean": 4.712519887467505, "train/dyn_loss_std": 8.37850486728507, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1332246451310708, "train/extr_critic_critic_opt_grad_steps": 68330.0, "train/extr_critic_critic_opt_loss": 15572.140088578346, "train/extr_critic_mag": 7.165436751405958, "train/extr_critic_max": 7.165436751405958, "train/extr_critic_mean": 1.1643079342976423, "train/extr_critic_min": -0.622619565104095, "train/extr_critic_std": 1.5241976204052778, "train/extr_return_normed_mag": 1.7092485830817423, "train/extr_return_normed_max": 1.7092485830817423, "train/extr_return_normed_mean": 0.30478315999810124, "train/extr_return_normed_min": -0.1490151320754642, "train/extr_return_normed_std": 0.3313968846915473, "train/extr_return_rate": 0.5107018657973115, "train/extr_return_raw_mag": 7.8050129380024655, "train/extr_return_raw_max": 7.8050129380024655, "train/extr_return_raw_mean": 1.1788865856721367, "train/extr_return_raw_min": -0.9627312925499929, "train/extr_return_raw_std": 1.5638196082182334, "train/extr_reward_mag": 1.026704190482556, "train/extr_reward_max": 1.026704190482556, "train/extr_reward_mean": 0.03166649285966242, "train/extr_reward_min": -0.6654934967067879, "train/extr_reward_std": 0.17734469998050745, "train/image_loss_mean": 3.0197840945821413, "train/image_loss_std": 8.052277316509837, "train/model_loss_mean": 5.889698948658688, "train/model_loss_std": 12.096174172952141, "train/model_opt_grad_norm": 42.741686135950225, "train/model_opt_grad_steps": 68270.77464788733, "train/model_opt_loss": 6479.506468007262, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1109.1549295774648, "train/policy_entropy_mag": 2.3837203408630803, "train/policy_entropy_max": 2.3837203408630803, "train/policy_entropy_mean": 0.4355019209250598, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5176405520506309, "train/policy_logprob_mag": 7.438384029227243, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.43525415868826317, "train/policy_logprob_min": -7.438384029227243, "train/policy_logprob_std": 1.033838883252211, "train/policy_randomness_mag": 0.8413486724168482, "train/policy_randomness_max": 0.8413486724168482, "train/policy_randomness_mean": 0.1537130655537189, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18270439937920638, "train/post_ent_mag": 52.80174121050767, "train/post_ent_max": 52.80174121050767, "train/post_ent_mean": 36.60976028442383, "train/post_ent_min": 17.71714609441623, "train/post_ent_std": 5.560694251261967, "train/prior_ent_mag": 74.32657730747276, "train/prior_ent_max": 74.32657730747276, "train/prior_ent_mean": 41.25834338765749, "train/prior_ent_min": 22.004646381861726, "train/prior_ent_std": 7.78038246530882, "train/rep_loss_mean": 4.712519887467505, "train/rep_loss_std": 8.37850486728507, "train/reward_avg": 0.023898272342245345, "train/reward_loss_mean": 0.042370568409981865, "train/reward_loss_std": 0.189077905156243, "train/reward_max_data": 1.0098591572801832, "train/reward_max_pred": 1.0098576763985863, "train/reward_neg_acc": 0.9954249246019713, "train/reward_neg_loss": 0.02161980492495735, "train/reward_pos_acc": 0.9834527809854964, "train/reward_pos_loss": 0.7447577756895146, "train/reward_pred": 0.0237392410504776, "train/reward_rate": 0.028925506161971832, "stats/sum_log_reward": 4.9749999195337296, "stats/max_log_achievement_collect_drink": 5.375, "stats/max_log_achievement_collect_sapling": 2.625, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 5.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.125, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.25, "stats/max_log_achievement_place_plant": 2.125, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.625, "stats/mean_log_entropy": 0.4245617501437664, "replay/size": 138410.0, "replay/inserts": 1418.0, "replay/samples": 11344.0, "replay/insert_wait_avg": 3.801246287960596e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.269036691178724e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.03488063812256, "timer/env.step_count": 1418.0, "timer/env.step_total": 22.621516227722168, "timer/env.step_frac": 0.07539628785696548, "timer/env.step_avg": 0.01595311440600999, "timer/env.step_min": 0.002916574478149414, "timer/env.step_max": 2.608335256576538, "timer/replay.add_count": 1418.0, "timer/replay.add_total": 0.26914215087890625, "timer/replay.add_frac": 0.0008970362056121182, "timer/replay.add_avg": 0.00018980405562687324, "timer/replay.add_min": 6.4849853515625e-05, "timer/replay.add_max": 0.0016863346099853516, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0282442569732666, "timer/logger.write_frac": 9.413657809783959e-05, "timer/logger.write_avg": 0.0282442569732666, "timer/logger.write_min": 0.0282442569732666, "timer/logger.write_max": 0.0282442569732666, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0007700920104980469, "timer/checkpoint.save_frac": 2.566674944127142e-06, "timer/checkpoint.save_avg": 0.0007700920104980469, "timer/checkpoint.save_min": 0.0007700920104980469, "timer/checkpoint.save_max": 0.0007700920104980469, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3521535396575928, "timer/agent.save_frac": 0.004506654482244847, "timer/agent.save_avg": 1.3521535396575928, "timer/agent.save_min": 1.3521535396575928, "timer/agent.save_max": 1.3521535396575928, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.130073547363281e-05, "timer/replay.save_frac": 2.709709461137323e-07, "timer/replay.save_avg": 8.130073547363281e-05, "timer/replay.save_min": 8.130073547363281e-05, "timer/replay.save_max": 8.130073547363281e-05, "timer/agent.policy_count": 1418.0, "timer/agent.policy_total": 11.746942043304443, "timer/agent.policy_frac": 0.039151921331015645, "timer/agent.policy_avg": 0.008284162230821188, "timer/agent.policy_min": 0.005708456039428711, "timer/agent.policy_max": 1.3424842357635498, "timer/dataset_count": 709.0, "timer/dataset_total": 0.06408190727233887, "timer/dataset_frac": 0.00021358152470821951, "timer/dataset_avg": 9.038350814152168e-05, "timer/dataset_min": 6.031990051269531e-05, "timer/dataset_max": 0.00024700164794921875, "timer/agent.train_count": 709.0, "timer/agent.train_total": 264.60335397720337, "timer/agent.train_frac": 0.881908641470077, "timer/agent.train_avg": 0.37320642309901747, "timer/agent.train_min": 0.36331772804260254, "timer/agent.train_max": 0.8921241760253906, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21975445747375488, "timer/agent.report_frac": 0.0007324296995281848, "timer/agent.report_avg": 0.21975445747375488, "timer/agent.report_min": 0.21975445747375488, "timer/agent.report_max": 0.21975445747375488, "fps": 4.7260470630281395}
{"step": 138543, "episode/length": 161.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.04938271604938271}
{"step": 138689, "episode/length": 145.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.100000016391277, "episode/reward_rate": 0.02054794520547945}
{"step": 138874, "episode/length": 184.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.043243243243243246}
{"step": 139098, "episode/length": 223.0, "episode/score": 4.100000001490116, "episode/sum_abs_reward": 7.1000000461936, "episode/reward_rate": 0.022321428571428572}
{"step": 139138, "episode/length": 39.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 4.900000013411045, "episode/reward_rate": 0.1}
{"step": 139329, "episode/length": 190.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.031413612565445025}
{"step": 139513, "episode/length": 183.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.900000028312206, "episode/reward_rate": 0.04891304347826087}
{"step": 139690, "episode/length": 176.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.03954802259887006}
{"step": 139873, "episode/length": 182.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 8.100000031292439, "episode/reward_rate": 0.03825136612021858}
{"step": 139905, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.858901129828559, "train/action_min": 0.0, "train/action_std": 3.8082802163230047, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.049095047586080104, "train/actor_opt_grad_steps": 69045.0, "train/actor_opt_loss": -19.168124462167423, "train/adv_mag": 0.6856167916622427, "train/adv_max": 0.6330584440794256, "train/adv_mean": 0.0016022722757043084, "train/adv_min": -0.4990825785530938, "train/adv_std": 0.05868789776124888, "train/cont_avg": 0.9943576388888888, "train/cont_loss_mean": 3.1049109761285524e-05, "train/cont_loss_std": 0.0009557016796072225, "train/cont_neg_acc": 0.9984567902154393, "train/cont_neg_loss": 0.00304529064851522, "train/cont_pos_acc": 0.9999999776482582, "train/cont_pos_loss": 5.3419529173481806e-06, "train/cont_pred": 0.9943650563557943, "train/cont_rate": 0.9943576388888888, "train/dyn_loss_mean": 4.5729317764441175, "train/dyn_loss_std": 8.390600827005175, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0009677550858922, "train/extr_critic_critic_opt_grad_steps": 69045.0, "train/extr_critic_critic_opt_loss": 15451.798611111111, "train/extr_critic_mag": 7.4186155862278405, "train/extr_critic_max": 7.4186155862278405, "train/extr_critic_mean": 1.1022192562619846, "train/extr_critic_min": -0.6155573427677155, "train/extr_critic_std": 1.5233551445934508, "train/extr_return_normed_mag": 1.8006147510475583, "train/extr_return_normed_max": 1.8006147510475583, "train/extr_return_normed_mean": 0.2977520821409093, "train/extr_return_normed_min": -0.1693050425706638, "train/extr_return_normed_std": 0.3368683167629772, "train/extr_return_rate": 0.4837212703294224, "train/extr_return_raw_mag": 8.053013775083754, "train/extr_return_raw_max": 8.053013775083754, "train/extr_return_raw_mean": 1.1096152522497706, "train/extr_return_raw_min": -1.0467735023962126, "train/extr_return_raw_std": 1.5558373199568853, "train/extr_reward_mag": 1.025324867831336, "train/extr_reward_max": 1.025324867831336, "train/extr_reward_mean": 0.029815003715662494, "train/extr_reward_min": -0.6768934097554948, "train/extr_reward_std": 0.17434483311242527, "train/image_loss_mean": 2.957511333955659, "train/image_loss_std": 7.789267718791962, "train/model_loss_mean": 5.742505331834157, "train/model_loss_std": 11.780446761184269, "train/model_opt_grad_norm": 38.10448225339254, "train/model_opt_grad_steps": 68985.0, "train/model_opt_loss": 3589.0658196343315, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 625.0, "train/policy_entropy_mag": 2.356049958202574, "train/policy_entropy_max": 2.356049958202574, "train/policy_entropy_mean": 0.4421653751697805, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5156259731286101, "train/policy_logprob_mag": 7.438383950127496, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.441218258606063, "train/policy_logprob_min": -7.438383950127496, "train/policy_logprob_std": 1.0328289618094761, "train/policy_randomness_mag": 0.8315822415881686, "train/policy_randomness_max": 0.8315822415881686, "train/policy_randomness_mean": 0.15606497259189686, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18199334003859097, "train/post_ent_mag": 53.05249336030748, "train/post_ent_max": 53.05249336030748, "train/post_ent_mean": 37.033828841315376, "train/post_ent_min": 17.619642363654243, "train/post_ent_std": 5.671558108594683, "train/prior_ent_mag": 74.47828759087457, "train/prior_ent_max": 74.47828759087457, "train/prior_ent_mean": 41.57862091064453, "train/prior_ent_min": 21.724246912532383, "train/prior_ent_std": 7.730414344204797, "train/rep_loss_mean": 4.5729317764441175, "train/rep_loss_std": 8.390600827005175, "train/reward_avg": 0.023358832352742966, "train/reward_loss_mean": 0.04120389372110367, "train/reward_loss_std": 0.18139956591443884, "train/reward_max_data": 1.0125000029802322, "train/reward_max_pred": 1.0130953970882628, "train/reward_neg_acc": 0.995716504752636, "train/reward_neg_loss": 0.020881348224874172, "train/reward_pos_acc": 0.987205439971553, "train/reward_pos_loss": 0.737349747783608, "train/reward_pred": 0.02308696708900647, "train/reward_rate": 0.028455946180555556, "stats/sum_log_reward": 5.211111174689399, "stats/max_log_achievement_collect_drink": 5.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 5.666666666666667, "stats/max_log_achievement_defeat_skeleton": 0.1111111111111111, "stats/max_log_achievement_defeat_zombie": 0.2222222222222222, "stats/max_log_achievement_eat_cow": 0.2222222222222222, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.3333333333333333, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_table": 2.2222222222222223, "stats/max_log_achievement_wake_up": 1.1111111111111112, "stats/mean_log_entropy": 0.3544061995214886, "replay/size": 139842.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.7271217260946776e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2525508190666497e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.08664774894714, "timer/env.step_count": 1432.0, "timer/env.step_total": 21.9559485912323, "timer/env.step_frac": 0.0731653632573505, "timer/env.step_avg": 0.015332366334659427, "timer/env.step_min": 0.0029497146606445312, "timer/env.step_max": 1.680647611618042, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.25489377975463867, "timer/replay.add_frac": 0.0008494006036812512, "timer/replay.add_avg": 0.00017799844954932868, "timer/replay.add_min": 7.2479248046875e-05, "timer/replay.add_max": 0.0013985633850097656, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028987407684326172, "timer/logger.write_frac": 9.65967926322969e-05, "timer/logger.write_avg": 0.028987407684326172, "timer/logger.write_min": 0.028987407684326172, "timer/logger.write_max": 0.028987407684326172, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 10.461152791976929, "timer/agent.policy_frac": 0.03486044071087342, "timer/agent.policy_avg": 0.007305274296073274, "timer/agent.policy_min": 0.0056989192962646484, "timer/agent.policy_max": 0.016681432723999023, "timer/dataset_count": 716.0, "timer/dataset_total": 0.06497836112976074, "timer/dataset_frac": 0.00021653199706546663, "timer/dataset_avg": 9.075190101921891e-05, "timer/dataset_min": 6.747245788574219e-05, "timer/dataset_max": 0.00020885467529296875, "timer/agent.train_count": 716.0, "timer/agent.train_total": 266.61868047714233, "timer/agent.train_frac": 0.8884723211683708, "timer/agent.train_avg": 0.37237245876695857, "timer/agent.train_min": 0.36653566360473633, "timer/agent.train_max": 0.3891904354095459, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2189033031463623, "timer/agent.report_frac": 0.0007294669882463317, "timer/agent.report_avg": 0.2189033031463623, "timer/agent.report_min": 0.2189033031463623, "timer/agent.report_max": 0.2189033031463623, "fps": 4.771855382719351}
{"step": 140065, "episode/length": 191.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.036458333333333336}
{"step": 140250, "episode/length": 184.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.02702702702702703}
{"step": 140442, "episode/length": 191.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.900000028312206, "episode/reward_rate": 0.026041666666666668}
{"step": 140620, "episode/length": 177.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.033707865168539325}
{"step": 140771, "episode/length": 150.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.039735099337748346}
{"step": 140916, "episode/length": 144.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 6.0999999940395355, "episode/reward_rate": 0.041379310344827586}
{"step": 141080, "episode/length": 163.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.03048780487804878}
{"step": 141243, "episode/length": 162.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03680981595092025}
{"step": 141347, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.819747077094184, "train/action_min": 0.0, "train/action_std": 3.8473345041275024, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05034254915598366, "train/actor_opt_grad_steps": 69765.0, "train/actor_opt_loss": -16.763485347231228, "train/adv_mag": 0.7526408355269167, "train/adv_max": 0.6670807806981934, "train/adv_mean": 0.0021255853941713415, "train/adv_min": -0.6203072567780813, "train/adv_std": 0.06154924936385618, "train/cont_avg": 0.9939371744791666, "train/cont_loss_mean": 2.3880223416088915e-05, "train/cont_loss_std": 0.0006425875020726027, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.002076090959709139, "train/cont_pos_acc": 0.9999999784761004, "train/cont_pos_loss": 1.1068573073795088e-05, "train/cont_pred": 0.9939382962054677, "train/cont_rate": 0.9939371744791666, "train/dyn_loss_mean": 4.3799592985047235, "train/dyn_loss_std": 8.377911686897278, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0433044723338551, "train/extr_critic_critic_opt_grad_steps": 69765.0, "train/extr_critic_critic_opt_loss": 15424.811848958334, "train/extr_critic_mag": 7.5559156272146435, "train/extr_critic_max": 7.5559156272146435, "train/extr_critic_mean": 1.1211521948377292, "train/extr_critic_min": -0.6290570100148519, "train/extr_critic_std": 1.5297419362597995, "train/extr_return_normed_mag": 1.8517234772443771, "train/extr_return_normed_max": 1.8517234772443771, "train/extr_return_normed_mean": 0.30595689246224034, "train/extr_return_normed_min": -0.16017280612140894, "train/extr_return_normed_std": 0.3448101549098889, "train/extr_return_rate": 0.485769340975417, "train/extr_return_raw_mag": 8.130684369140202, "train/extr_return_raw_max": 8.130684369140202, "train/extr_return_raw_mean": 1.1307739516099293, "train/extr_return_raw_min": -0.9806236111455493, "train/extr_return_raw_std": 1.5616968505912356, "train/extr_reward_mag": 1.0255950887997944, "train/extr_reward_max": 1.0255950887997944, "train/extr_reward_mean": 0.03159150152674152, "train/extr_reward_min": -0.6918611774841944, "train/extr_reward_std": 0.178506496672829, "train/image_loss_mean": 2.8221238089932337, "train/image_loss_std": 7.802030815018548, "train/model_loss_mean": 5.492585827906926, "train/model_loss_std": 11.797668615976969, "train/model_opt_grad_norm": 39.2288105752733, "train/model_opt_grad_steps": 69705.0, "train/model_opt_loss": 6306.735877143012, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1145.8333333333333, "train/policy_entropy_mag": 2.3884242143895893, "train/policy_entropy_max": 2.3884242143895893, "train/policy_entropy_mean": 0.44792260229587555, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5288341293732325, "train/policy_logprob_mag": 7.438384029600355, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.44700022745463586, "train/policy_logprob_min": -7.438384029600355, "train/policy_logprob_std": 1.0405441133512392, "train/policy_randomness_mag": 0.843008933795823, "train/policy_randomness_max": 0.843008933795823, "train/policy_randomness_mean": 0.15809702252348265, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18665523971948358, "train/post_ent_mag": 53.11475854449802, "train/post_ent_max": 53.11475854449802, "train/post_ent_mean": 37.16464180416531, "train/post_ent_min": 17.869039681222702, "train/post_ent_std": 5.686061196857029, "train/prior_ent_mag": 74.49404907226562, "train/prior_ent_max": 74.49404907226562, "train/prior_ent_mean": 41.507271713680694, "train/prior_ent_min": 21.860363086064655, "train/prior_ent_std": 7.779621713691288, "train/rep_loss_mean": 4.3799592985047235, "train/rep_loss_std": 8.377911686897278, "train/reward_avg": 0.023673502340291936, "train/reward_loss_mean": 0.04246251396317449, "train/reward_loss_std": 0.18802819856339031, "train/reward_max_data": 1.0125000029802322, "train/reward_max_pred": 1.0095001707474391, "train/reward_neg_acc": 0.9958949420187209, "train/reward_neg_loss": 0.02204102182036473, "train/reward_pos_acc": 0.9888160137666596, "train/reward_pos_loss": 0.7289740219712257, "train/reward_pred": 0.023510969476774335, "train/reward_rate": 0.029025607638888888, "stats/sum_log_reward": 4.599999904632568, "stats/max_log_achievement_collect_drink": 6.25, "stats/max_log_achievement_collect_sapling": 2.375, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 5.625, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.625, "stats/max_log_achievement_place_table": 2.25, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.37842895835638046, "replay/size": 141284.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.663577583725674e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2572570581211296e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2932028770447, "timer/env.step_count": 1442.0, "timer/env.step_total": 20.363238096237183, "timer/env.step_frac": 0.06781118553847164, "timer/env.step_avg": 0.014121524338583344, "timer/env.step_min": 0.0028150081634521484, "timer/env.step_max": 1.7666492462158203, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.2721896171569824, "timer/replay.add_frac": 0.0009064128476741803, "timer/replay.add_avg": 0.00018875840302148573, "timer/replay.add_min": 6.079673767089844e-05, "timer/replay.add_max": 0.008983135223388672, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02669811248779297, "timer/logger.write_frac": 8.890681584532746e-05, "timer/logger.write_avg": 0.02669811248779297, "timer/logger.write_min": 0.02669811248779297, "timer/logger.write_max": 0.02669811248779297, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 10.43278455734253, "timer/agent.policy_frac": 0.03474199368280154, "timer/agent.policy_avg": 0.007234940747116872, "timer/agent.policy_min": 0.005735158920288086, "timer/agent.policy_max": 0.025760650634765625, "timer/dataset_count": 721.0, "timer/dataset_total": 0.06466507911682129, "timer/dataset_frac": 0.0002153398028902388, "timer/dataset_avg": 8.968804315786587e-05, "timer/dataset_min": 5.7697296142578125e-05, "timer/dataset_max": 0.00019884109497070312, "timer/agent.train_count": 721.0, "timer/agent.train_total": 268.4365465641022, "timer/agent.train_frac": 0.8939148272164315, "timer/agent.train_avg": 0.3723114376755925, "timer/agent.train_min": 0.36609411239624023, "timer/agent.train_max": 0.38530778884887695, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2195422649383545, "timer/agent.report_frac": 0.0007310930212038342, "timer/agent.report_avg": 0.2195422649383545, "timer/agent.report_min": 0.2195422649383545, "timer/agent.report_max": 0.2195422649383545, "fps": 4.801893734854087}
{"step": 141398, "episode/length": 154.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.04516129032258064}
{"step": 141586, "episode/length": 187.0, "episode/score": 5.099999971687794, "episode/sum_abs_reward": 7.1000000312924385, "episode/reward_rate": 0.03723404255319149}
{"step": 141766, "episode/length": 179.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.30000001937151, "episode/reward_rate": 0.03888888888888889}
{"step": 141977, "episode/length": 210.0, "episode/score": 6.099999971687794, "episode/sum_abs_reward": 8.100000031292439, "episode/reward_rate": 0.037914691943127965}
{"step": 142143, "episode/length": 165.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.04216867469879518}
{"step": 142304, "episode/length": 160.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.043478260869565216}
{"step": 142487, "episode/length": 182.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.0273224043715847}
{"step": 142694, "episode/length": 206.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.900000028312206, "episode/reward_rate": 0.024154589371980676}
{"step": 142764, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.625801193882042, "train/action_min": 0.0, "train/action_std": 3.6628885840026424, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04922564096853767, "train/actor_opt_grad_steps": 70480.0, "train/actor_opt_loss": -16.689045814980922, "train/adv_mag": 0.6071502801398156, "train/adv_max": 0.5488658312340857, "train/adv_mean": 0.0023366071587255467, "train/adv_min": -0.5140889862053831, "train/adv_std": 0.05993627069491736, "train/cont_avg": 0.9941818882042254, "train/cont_loss_mean": 8.298390319293797e-06, "train/cont_loss_std": 0.00018153760214945707, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0001914774031038306, "train/cont_pos_acc": 0.9999999882469714, "train/cont_pos_loss": 7.048796508908234e-06, "train/cont_pred": 0.9941765095146609, "train/cont_rate": 0.9941818882042254, "train/dyn_loss_mean": 4.416933130210554, "train/dyn_loss_std": 8.338360786437988, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0657227408718055, "train/extr_critic_critic_opt_grad_steps": 70480.0, "train/extr_critic_critic_opt_loss": 15557.68633087588, "train/extr_critic_mag": 6.970136917812724, "train/extr_critic_max": 6.970136917812724, "train/extr_critic_mean": 1.0553022413186623, "train/extr_critic_min": -0.6449936947352449, "train/extr_critic_std": 1.4645288158470475, "train/extr_return_normed_mag": 1.7204111629808452, "train/extr_return_normed_max": 1.7204111629808452, "train/extr_return_normed_mean": 0.2932606037233917, "train/extr_return_normed_min": -0.15827986986284526, "train/extr_return_normed_std": 0.3329342861830349, "train/extr_return_rate": 0.47031619095466504, "train/extr_return_raw_mag": 7.477386488041407, "train/extr_return_raw_max": 7.477386488041407, "train/extr_return_raw_mean": 1.0657791083967183, "train/extr_return_raw_min": -0.9630094665876576, "train/extr_return_raw_std": 1.4957141859430663, "train/extr_reward_mag": 1.0221110397661235, "train/extr_reward_max": 1.0221110397661235, "train/extr_reward_mean": 0.030693639515781065, "train/extr_reward_min": -0.6896681684843251, "train/extr_reward_std": 0.1778588055724829, "train/image_loss_mean": 2.792415244478575, "train/image_loss_std": 7.482773230109416, "train/model_loss_mean": 5.485154111620406, "train/model_loss_std": 11.470592230138644, "train/model_opt_grad_norm": 41.598818013365836, "train/model_opt_grad_steps": 70419.84507042254, "train/model_opt_loss": 8753.196763589349, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1602.112676056338, "train/policy_entropy_mag": 2.378771251356098, "train/policy_entropy_max": 2.378771251356098, "train/policy_entropy_mean": 0.4334592042674481, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5224552259478771, "train/policy_logprob_mag": 7.438383982215129, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4327794636639071, "train/policy_logprob_min": -7.438383982215129, "train/policy_logprob_std": 1.0305350666314783, "train/policy_randomness_mag": 0.8396018634379749, "train/policy_randomness_max": 0.8396018634379749, "train/policy_randomness_mean": 0.15299207496810968, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1844037672583486, "train/post_ent_mag": 53.65876420786683, "train/post_ent_max": 53.65876420786683, "train/post_ent_mean": 37.56484668355593, "train/post_ent_min": 17.831188175040232, "train/post_ent_std": 5.7452256041513365, "train/prior_ent_mag": 74.4860390676579, "train/prior_ent_max": 74.4860390676579, "train/prior_ent_mean": 41.95883662264112, "train/prior_ent_min": 22.162316980496257, "train/prior_ent_std": 7.679992904125805, "train/rep_loss_mean": 4.416933130210554, "train/rep_loss_std": 8.338360786437988, "train/reward_avg": 0.023181667800625444, "train/reward_loss_mean": 0.04257072581791542, "train/reward_loss_std": 0.1844016668242468, "train/reward_max_data": 1.0056338041601047, "train/reward_max_pred": 1.0063619529697256, "train/reward_neg_acc": 0.9952000555857806, "train/reward_neg_loss": 0.02216084165052629, "train/reward_pos_acc": 0.985856357594611, "train/reward_pos_loss": 0.737712992748744, "train/reward_pred": 0.02288605682027172, "train/reward_rate": 0.02854038292253521, "stats/sum_log_reward": 5.349999904632568, "stats/max_log_achievement_collect_drink": 2.375, "stats/max_log_achievement_collect_sapling": 2.5, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 6.75, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.375, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.625, "stats/max_log_achievement_place_plant": 2.125, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 2.125, "stats/mean_log_entropy": 0.4320325702428818, "replay/size": 142701.0, "replay/inserts": 1417.0, "replay/samples": 11328.0, "replay/insert_wait_avg": 3.7460488674080362e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2474250322007863e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.01177859306335, "timer/env.step_count": 1417.0, "timer/env.step_total": 20.117674827575684, "timer/env.step_frac": 0.06705628332967334, "timer/env.step_avg": 0.014197371085092225, "timer/env.step_min": 0.0028960704803466797, "timer/env.step_max": 1.7087242603302002, "timer/replay.add_count": 1417.0, "timer/replay.add_total": 0.25965261459350586, "timer/replay.add_frac": 0.0008654747350626498, "timer/replay.add_avg": 0.0001832410829876541, "timer/replay.add_min": 6.866455078125e-05, "timer/replay.add_max": 0.001875162124633789, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026139020919799805, "timer/logger.write_frac": 8.712664896818878e-05, "timer/logger.write_avg": 0.026139020919799805, "timer/logger.write_min": 0.026139020919799805, "timer/logger.write_max": 0.026139020919799805, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0005490779876708984, "timer/checkpoint.save_frac": 1.830188102100048e-06, "timer/checkpoint.save_avg": 0.0005490779876708984, "timer/checkpoint.save_min": 0.0005490779876708984, "timer/checkpoint.save_max": 0.0005490779876708984, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.450047492980957, "timer/agent.save_frac": 0.004833301878283268, "timer/agent.save_avg": 1.450047492980957, "timer/agent.save_min": 1.450047492980957, "timer/agent.save_max": 1.450047492980957, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.606910705566406e-05, "timer/replay.save_frac": 2.868857598168117e-07, "timer/replay.save_avg": 8.606910705566406e-05, "timer/replay.save_min": 8.606910705566406e-05, "timer/replay.save_max": 8.606910705566406e-05, "timer/agent.policy_count": 1417.0, "timer/agent.policy_total": 15.214063882827759, "timer/agent.policy_frac": 0.05071155524018325, "timer/agent.policy_avg": 0.010736812902489597, "timer/agent.policy_min": 0.005675554275512695, "timer/agent.policy_max": 3.4750943183898926, "timer/dataset_count": 708.0, "timer/dataset_total": 0.06341886520385742, "timer/dataset_frac": 0.00021138791783864897, "timer/dataset_avg": 8.957466836703025e-05, "timer/dataset_min": 6.961822509765625e-05, "timer/dataset_max": 0.0001862049102783203, "timer/agent.train_count": 708.0, "timer/agent.train_total": 263.6338348388672, "timer/agent.train_frac": 0.8787449481990529, "timer/agent.train_avg": 0.37236417350122486, "timer/agent.train_min": 0.3661158084869385, "timer/agent.train_max": 0.3923501968383789, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21755266189575195, "timer/agent.report_frac": 0.0007251470689450526, "timer/agent.report_avg": 0.21755266189575195, "timer/agent.report_min": 0.21755266189575195, "timer/agent.report_max": 0.21755266189575195, "fps": 4.72307104584736}
{"step": 142866, "episode/length": 171.0, "episode/score": 4.100000001490116, "episode/sum_abs_reward": 5.500000022351742, "episode/reward_rate": 0.029069767441860465}
{"step": 143004, "episode/length": 137.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.900000028312206, "episode/reward_rate": 0.043478260869565216}
{"step": 143220, "episode/length": 215.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.037037037037037035}
{"step": 143382, "episode/length": 161.0, "episode/score": 4.099999979138374, "episode/sum_abs_reward": 5.900000020861626, "episode/reward_rate": 0.030864197530864196}
{"step": 143603, "episode/length": 220.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.01809954751131222}
{"step": 143757, "episode/length": 153.0, "episode/score": 4.099999971687794, "episode/sum_abs_reward": 6.1000000312924385, "episode/reward_rate": 0.03896103896103896}
{"step": 143924, "episode/length": 166.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.041916167664670656}
{"step": 144142, "episode/length": 217.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.022935779816513763}
{"step": 144187, "episode/length": 44.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 5.0999999940395355, "episode/reward_rate": 0.1111111111111111}
{"step": 144195, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.621484031139965, "train/action_min": 0.0, "train/action_std": 3.6567411724950225, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04989463521141402, "train/actor_opt_grad_steps": 71190.0, "train/actor_opt_loss": -15.66891063713062, "train/adv_mag": 0.6528212356735283, "train/adv_max": 0.6004715675199536, "train/adv_mean": 0.0028846332182433476, "train/adv_min": -0.5257685910648023, "train/adv_std": 0.061734819548650524, "train/cont_avg": 0.9941681338028169, "train/cont_loss_mean": 1.0536606579211698e-05, "train/cont_loss_std": 0.00015654152397614717, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.000284505915350193, "train/cont_pos_acc": 0.9999999857284654, "train/cont_pos_loss": 8.71030871322341e-06, "train/cont_pred": 0.9941614370950511, "train/cont_rate": 0.9941681338028169, "train/dyn_loss_mean": 4.492182466345773, "train/dyn_loss_std": 8.343166015517543, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0735945928264672, "train/extr_critic_critic_opt_grad_steps": 71190.0, "train/extr_critic_critic_opt_loss": 15501.924777178698, "train/extr_critic_mag": 7.172732789751509, "train/extr_critic_max": 7.172732789751509, "train/extr_critic_mean": 1.0724754358681154, "train/extr_critic_min": -0.6407015290058834, "train/extr_critic_std": 1.4668128641558364, "train/extr_return_normed_mag": 1.7825594871816501, "train/extr_return_normed_max": 1.7825594871816501, "train/extr_return_normed_mean": 0.3029563758574741, "train/extr_return_normed_min": -0.17141575848972293, "train/extr_return_normed_std": 0.3373675581435083, "train/extr_return_rate": 0.4766230436278061, "train/extr_return_raw_mag": 7.6783096958214125, "train/extr_return_raw_max": 7.6783096958214125, "train/extr_return_raw_mean": 1.0853252595579121, "train/extr_return_raw_min": -1.0286215661277234, "train/extr_return_raw_std": 1.5037120647833382, "train/extr_reward_mag": 1.020075047519845, "train/extr_reward_max": 1.020075047519845, "train/extr_reward_mean": 0.03118093364255529, "train/extr_reward_min": -0.6787098495053573, "train/extr_reward_std": 0.17860690346905883, "train/image_loss_mean": 2.8288936648570315, "train/image_loss_std": 7.734069253357363, "train/model_loss_mean": 5.566493988037109, "train/model_loss_std": 11.695230873537735, "train/model_opt_grad_norm": 36.73507634015151, "train/model_opt_grad_steps": 71129.0, "train/model_opt_loss": 6958.117490096831, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.3736553427199243, "train/policy_entropy_max": 2.3736553427199243, "train/policy_entropy_mean": 0.4405565849492248, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5313749078293921, "train/policy_logprob_mag": 7.43838403594326, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4408976439858826, "train/policy_logprob_min": -7.43838403594326, "train/policy_logprob_std": 1.037694493649711, "train/policy_randomness_mag": 0.8377961675885698, "train/policy_randomness_max": 0.8377961675885698, "train/policy_randomness_mean": 0.1554971403429206, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18755202457098893, "train/post_ent_mag": 53.547426841628386, "train/post_ent_max": 53.547426841628386, "train/post_ent_mean": 37.37215369855854, "train/post_ent_min": 17.970765557087642, "train/post_ent_std": 5.733369471321644, "train/prior_ent_mag": 74.48395398636939, "train/prior_ent_max": 74.48395398636939, "train/prior_ent_mean": 41.8302084694446, "train/prior_ent_min": 22.230773549684336, "train/prior_ent_std": 7.716302676939629, "train/rep_loss_mean": 4.492182466345773, "train/rep_loss_std": 8.343166015517543, "train/reward_avg": 0.023614931851625443, "train/reward_loss_mean": 0.04228031818925495, "train/reward_loss_std": 0.192108433431303, "train/reward_max_data": 1.0070422552001308, "train/reward_max_pred": 1.0078063279810086, "train/reward_neg_acc": 0.9954733554746064, "train/reward_neg_loss": 0.021640084421550725, "train/reward_pos_acc": 0.9840212195691928, "train/reward_pos_loss": 0.7439957017629919, "train/reward_pred": 0.023400563786042407, "train/reward_rate": 0.028609154929577465, "stats/sum_log_reward": 4.544444296095106, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_sapling": 2.4444444444444446, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 4.333333333333333, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.2222222222222222, "stats/max_log_achievement_eat_cow": 0.1111111111111111, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.1111111111111111, "stats/max_log_achievement_place_plant": 1.8888888888888888, "stats/max_log_achievement_place_table": 1.6666666666666667, "stats/max_log_achievement_wake_up": 1.5555555555555556, "stats/mean_log_entropy": 0.38110097580485874, "replay/size": 144132.0, "replay/inserts": 1431.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.713565135985134e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2557974407792758e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1186330318451, "timer/env.step_count": 1431.0, "timer/env.step_total": 21.78190302848816, "timer/env.step_frac": 0.07257764307548648, "timer/env.step_avg": 0.015221455645344625, "timer/env.step_min": 0.0027256011962890625, "timer/env.step_max": 1.7999300956726074, "timer/replay.add_count": 1431.0, "timer/replay.add_total": 0.26264166831970215, "timer/replay.add_frac": 0.0008751261648317373, "timer/replay.add_avg": 0.00018353715466086802, "timer/replay.add_min": 6.222724914550781e-05, "timer/replay.add_max": 0.008450984954833984, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03233504295349121, "timer/logger.write_frac": 0.00010774087109100018, "timer/logger.write_avg": 0.03233504295349121, "timer/logger.write_min": 0.03233504295349121, "timer/logger.write_max": 0.03233504295349121, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1431.0, "timer/agent.policy_total": 10.53078556060791, "timer/agent.policy_frac": 0.0350887429221714, "timer/agent.policy_avg": 0.007359039525232642, "timer/agent.policy_min": 0.00582122802734375, "timer/agent.policy_max": 0.0197296142578125, "timer/dataset_count": 716.0, "timer/dataset_total": 0.06401300430297852, "timer/dataset_frac": 0.00021329233595498284, "timer/dataset_avg": 8.940363729466273e-05, "timer/dataset_min": 5.984306335449219e-05, "timer/dataset_max": 0.00021147727966308594, "timer/agent.train_count": 716.0, "timer/agent.train_total": 266.7494878768921, "timer/agent.train_frac": 0.8888134841284171, "timer/agent.train_avg": 0.3725551506660504, "timer/agent.train_min": 0.3655099868774414, "timer/agent.train_max": 0.3851022720336914, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2183551788330078, "timer/agent.report_frac": 0.0007275628861398903, "timer/agent.report_avg": 0.2183551788330078, "timer/agent.report_min": 0.2183551788330078, "timer/agent.report_max": 0.2183551788330078, "fps": 4.768043106850387}
{"step": 144378, "episode/length": 190.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.031413612565445025}
{"step": 144534, "episode/length": 155.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.05128205128205128}
{"step": 144681, "episode/length": 146.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.047619047619047616}
{"step": 144924, "episode/length": 242.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.500000022351742, "episode/reward_rate": 0.03292181069958848}
{"step": 145114, "episode/length": 189.0, "episode/score": 5.0999999940395355, "episode/sum_abs_reward": 6.9000000059604645, "episode/reward_rate": 0.03684210526315789}
{"step": 145258, "episode/length": 143.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.04861111111111111}
{"step": 145435, "episode/length": 176.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03389830508474576}
{"step": 145585, "episode/length": 149.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.04666666666666667}
{"step": 145635, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.688220553927952, "train/action_min": 0.0, "train/action_std": 3.668488062090344, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05001428878555695, "train/actor_opt_grad_steps": 71905.0, "train/actor_opt_loss": -14.601801248474253, "train/adv_mag": 0.6624400661223464, "train/adv_max": 0.6160862143668864, "train/adv_mean": 0.0032763923501180317, "train/adv_min": -0.5154951024386618, "train/adv_std": 0.06073829433363345, "train/cont_avg": 0.9941270616319444, "train/cont_loss_mean": 4.467066254281665e-05, "train/cont_loss_std": 0.0013480075279154056, "train/cont_neg_acc": 0.9984567902154393, "train/cont_neg_loss": 0.0019237664477789924, "train/cont_pos_acc": 0.9999862685799599, "train/cont_pos_loss": 3.074880078873182e-05, "train/cont_pred": 0.9941211698783768, "train/cont_rate": 0.9941270616319444, "train/dyn_loss_mean": 4.396854807933171, "train/dyn_loss_std": 8.346328490310245, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0371486246585846, "train/extr_critic_critic_opt_grad_steps": 71905.0, "train/extr_critic_critic_opt_loss": 15590.708726671008, "train/extr_critic_mag": 7.295770737859938, "train/extr_critic_max": 7.295770737859938, "train/extr_critic_mean": 1.122344298909108, "train/extr_critic_min": -0.6541753013928732, "train/extr_critic_std": 1.470845518840684, "train/extr_return_normed_mag": 1.7981021106243134, "train/extr_return_normed_max": 1.7981021106243134, "train/extr_return_normed_mean": 0.30647361402710277, "train/extr_return_normed_min": -0.1723694612996446, "train/extr_return_normed_std": 0.3315604366362095, "train/extr_return_rate": 0.4832049599952168, "train/extr_return_raw_mag": 7.916434937053257, "train/extr_return_raw_max": 7.916434937053257, "train/extr_return_raw_mean": 1.1372591948343649, "train/extr_return_raw_min": -1.0393582955002785, "train/extr_return_raw_std": 1.5073186407486598, "train/extr_reward_mag": 1.0244640575514898, "train/extr_reward_max": 1.0244640575514898, "train/extr_reward_mean": 0.03262844950788551, "train/extr_reward_min": -0.6874443540970484, "train/extr_reward_std": 0.18208098949657547, "train/image_loss_mean": 2.7360112567742667, "train/image_loss_std": 7.401269836558236, "train/model_loss_mean": 5.416713721222347, "train/model_loss_std": 11.395256214671665, "train/model_opt_grad_norm": 40.6371955341763, "train/model_opt_grad_steps": 71844.0, "train/model_opt_loss": 11835.850470648871, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2187.5, "train/policy_entropy_mag": 2.3463506996631622, "train/policy_entropy_max": 2.3463506996631622, "train/policy_entropy_mean": 0.43694155539075535, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5214181931482421, "train/policy_logprob_mag": 7.438384102450477, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4369121918247806, "train/policy_logprob_min": -7.438384102450477, "train/policy_logprob_std": 1.0320839178231027, "train/policy_randomness_mag": 0.8281588306029638, "train/policy_randomness_max": 0.8281588306029638, "train/policy_randomness_mean": 0.15422119210577673, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18403774003187814, "train/post_ent_mag": 53.5343009630839, "train/post_ent_max": 53.5343009630839, "train/post_ent_mean": 37.60191843244765, "train/post_ent_min": 18.062347438600327, "train/post_ent_std": 5.681229293346405, "train/prior_ent_mag": 74.43223804897733, "train/prior_ent_max": 74.43223804897733, "train/prior_ent_mean": 41.93929227193197, "train/prior_ent_min": 21.913547303941513, "train/prior_ent_std": 7.636290437645382, "train/rep_loss_mean": 4.396854807933171, "train/rep_loss_std": 8.346328490310245, "train/reward_avg": 0.024145507564147312, "train/reward_loss_mean": 0.04254495549119181, "train/reward_loss_std": 0.18901874725189474, "train/reward_max_data": 1.0069444461001291, "train/reward_max_pred": 1.0049008015129302, "train/reward_neg_acc": 0.995540150337749, "train/reward_neg_loss": 0.021414514307657048, "train/reward_pos_acc": 0.985425611337026, "train/reward_pos_loss": 0.7414024621248245, "train/reward_pred": 0.02390303085040715, "train/reward_rate": 0.029364691840277776, "stats/sum_log_reward": 5.599999904632568, "stats/max_log_achievement_collect_drink": 5.125, "stats/max_log_achievement_collect_sapling": 2.125, "stats/max_log_achievement_collect_stone": 0.25, "stats/max_log_achievement_collect_wood": 5.625, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.125, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 0.25, "stats/max_log_achievement_make_wood_sword": 0.0, "stats/max_log_achievement_place_plant": 1.625, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 2.0, "stats/mean_log_entropy": 0.38811701722443104, "replay/size": 145572.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.7757886780632866e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2469374471240574e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.10243225097656, "timer/env.step_count": 1440.0, "timer/env.step_total": 20.19905114173889, "timer/env.step_frac": 0.06730718904952548, "timer/env.step_avg": 0.014027118848429786, "timer/env.step_min": 0.0027327537536621094, "timer/env.step_max": 1.6936559677124023, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.25420451164245605, "timer/replay.add_frac": 0.0008470591515561728, "timer/replay.add_avg": 0.0001765309108628167, "timer/replay.add_min": 8.0108642578125e-05, "timer/replay.add_max": 0.002123594284057617, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02747821807861328, "timer/logger.write_frac": 9.156279698404166e-05, "timer/logger.write_avg": 0.02747821807861328, "timer/logger.write_min": 0.02747821807861328, "timer/logger.write_max": 0.02747821807861328, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 10.567148447036743, "timer/agent.policy_frac": 0.035211805408492676, "timer/agent.policy_avg": 0.007338297532664405, "timer/agent.policy_min": 0.005710124969482422, "timer/agent.policy_max": 0.01831674575805664, "timer/dataset_count": 720.0, "timer/dataset_total": 0.06587982177734375, "timer/dataset_frac": 0.0002195244513121715, "timer/dataset_avg": 9.149975246853298e-05, "timer/dataset_min": 7.009506225585938e-05, "timer/dataset_max": 0.0002624988555908203, "timer/agent.train_count": 720.0, "timer/agent.train_total": 268.2772982120514, "timer/agent.train_frac": 0.8939524288416639, "timer/agent.train_avg": 0.37260735862784916, "timer/agent.train_min": 0.36655402183532715, "timer/agent.train_max": 0.3848271369934082, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22152161598205566, "timer/agent.report_frac": 0.0007381533509091872, "timer/agent.report_avg": 0.22152161598205566, "timer/agent.report_min": 0.22152161598205566, "timer/agent.report_max": 0.22152161598205566, "fps": 4.798292161362095}
{"step": 145771, "episode/length": 185.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.03763440860215054}
{"step": 146222, "episode/length": 450.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.30000001937151, "episode/reward_rate": 0.015521064301552107}
{"step": 146406, "episode/length": 183.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 8.700000040233135, "episode/reward_rate": 0.03804347826086957}
{"step": 146557, "episode/length": 150.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.100000016391277, "episode/reward_rate": 0.019867549668874173}
{"step": 146706, "episode/length": 148.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.500000044703484, "episode/reward_rate": 0.040268456375838924}
{"step": 146890, "episode/length": 183.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.03804347826086957}
{"step": 147053, "episode/length": 162.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 7.700000025331974, "episode/reward_rate": 0.04294478527607362}
{"step": 147063, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.591277228461371, "train/action_min": 0.0, "train/action_std": 3.537717478142844, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04865283208588759, "train/actor_opt_grad_steps": 72625.0, "train/actor_opt_loss": -14.691596969690485, "train/adv_mag": 0.6497036971979671, "train/adv_max": 0.6077817529439926, "train/adv_mean": 0.0030098674944585785, "train/adv_min": -0.5056782253086567, "train/adv_std": 0.05990720147060023, "train/cont_avg": 0.9939371744791666, "train/cont_loss_mean": 6.031924913606367e-05, "train/cont_loss_std": 0.0014690520202091445, "train/cont_neg_acc": 0.9965277777777778, "train/cont_neg_loss": 0.008283922976766512, "train/cont_pos_acc": 0.999999982615312, "train/cont_pos_loss": 1.8077382993395316e-05, "train/cont_pred": 0.9939527966909938, "train/cont_rate": 0.9939371744791666, "train/dyn_loss_mean": 4.51503798365593, "train/dyn_loss_std": 8.433610876401266, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0438110397921667, "train/extr_critic_critic_opt_grad_steps": 72625.0, "train/extr_critic_critic_opt_loss": 15742.131144205729, "train/extr_critic_mag": 7.5193087458610535, "train/extr_critic_max": 7.5193087458610535, "train/extr_critic_mean": 1.14188870953189, "train/extr_critic_min": -0.6229867471588982, "train/extr_critic_std": 1.5473784125513501, "train/extr_return_normed_mag": 1.781862121489313, "train/extr_return_normed_max": 1.781862121489313, "train/extr_return_normed_mean": 0.2996195656143957, "train/extr_return_normed_min": -0.16255791971666944, "train/extr_return_normed_std": 0.33627393779655296, "train/extr_return_rate": 0.4695195183157921, "train/extr_return_raw_mag": 8.141281624635061, "train/extr_return_raw_max": 8.141281624635061, "train/extr_return_raw_mean": 1.15604889475637, "train/extr_return_raw_min": -1.0203584167692397, "train/extr_return_raw_std": 1.5837397740946875, "train/extr_reward_mag": 1.02075614200698, "train/extr_reward_max": 1.02075614200698, "train/extr_reward_mean": 0.03183997166343033, "train/extr_reward_min": -0.6796343161000146, "train/extr_reward_std": 0.1794517365180784, "train/image_loss_mean": 2.850448633233706, "train/image_loss_std": 7.498920778433482, "train/model_loss_mean": 5.60215715236134, "train/model_loss_std": 11.54179138607449, "train/model_opt_grad_norm": 43.63394149144491, "train/model_opt_grad_steps": 72563.01388888889, "train/model_opt_loss": 7077.818203396268, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1267.361111111111, "train/policy_entropy_mag": 2.367947432729933, "train/policy_entropy_max": 2.367947432729933, "train/policy_entropy_mean": 0.43288049722711247, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5195757908125719, "train/policy_logprob_mag": 7.438384082582262, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.43249274003836846, "train/policy_logprob_min": -7.438384082582262, "train/policy_logprob_std": 1.0288514362441168, "train/policy_randomness_mag": 0.8357815287179418, "train/policy_randomness_max": 0.8357815287179418, "train/policy_randomness_mean": 0.15278781836645472, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18338745397826037, "train/post_ent_mag": 53.872643099890816, "train/post_ent_max": 53.872643099890816, "train/post_ent_mean": 37.662998888227676, "train/post_ent_min": 18.164598292774624, "train/post_ent_std": 5.809256725841099, "train/prior_ent_mag": 74.48695680830214, "train/prior_ent_max": 74.48695680830214, "train/prior_ent_mean": 42.134007612864174, "train/prior_ent_min": 23.253363132476807, "train/prior_ent_std": 7.787171317471398, "train/rep_loss_mean": 4.51503798365593, "train/rep_loss_std": 8.433610876401266, "train/reward_avg": 0.023777940291135263, "train/reward_loss_mean": 0.04262540626546575, "train/reward_loss_std": 0.1862759929564264, "train/reward_max_data": 1.0069444461001291, "train/reward_max_pred": 1.0071964694394007, "train/reward_neg_acc": 0.9951525926589966, "train/reward_neg_loss": 0.02225716608679957, "train/reward_pos_acc": 0.990152114795314, "train/reward_pos_loss": 0.7220434430572722, "train/reward_pred": 0.023705588485528197, "train/reward_rate": 0.028984917534722224, "stats/sum_log_reward": 5.242857115609305, "stats/max_log_achievement_collect_drink": 6.142857142857143, "stats/max_log_achievement_collect_sapling": 1.8571428571428572, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 5.857142857142857, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.42857142857142855, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.5714285714285714, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_table": 2.142857142857143, "stats/max_log_achievement_wake_up": 1.8571428571428572, "stats/mean_log_entropy": 0.41642976232937406, "replay/size": 147000.0, "replay/inserts": 1428.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 3.6464017980238972e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2497983726800657e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3402810096741, "timer/env.step_count": 1428.0, "timer/env.step_total": 19.24392294883728, "timer/env.step_frac": 0.06407373291435865, "timer/env.step_avg": 0.013476136518793614, "timer/env.step_min": 0.002853870391845703, "timer/env.step_max": 1.7509613037109375, "timer/replay.add_count": 1428.0, "timer/replay.add_total": 0.2522697448730469, "timer/replay.add_frac": 0.0008399464235199313, "timer/replay.add_avg": 0.0001766594852052149, "timer/replay.add_min": 6.604194641113281e-05, "timer/replay.add_max": 0.0025675296783447266, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02730274200439453, "timer/logger.write_frac": 9.090602803130193e-05, "timer/logger.write_avg": 0.02730274200439453, "timer/logger.write_min": 0.02730274200439453, "timer/logger.write_max": 0.02730274200439453, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003037452697753906, "timer/checkpoint.save_frac": 1.0113371032159582e-06, "timer/checkpoint.save_avg": 0.0003037452697753906, "timer/checkpoint.save_min": 0.0003037452697753906, "timer/checkpoint.save_max": 0.0003037452697753906, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3789596557617188, "timer/agent.save_frac": 0.004591324384215056, "timer/agent.save_avg": 1.3789596557617188, "timer/agent.save_min": 1.3789596557617188, "timer/agent.save_max": 1.3789596557617188, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.130073547363281e-05, "timer/replay.save_frac": 2.706954098874739e-07, "timer/replay.save_avg": 8.130073547363281e-05, "timer/replay.save_min": 8.130073547363281e-05, "timer/replay.save_max": 8.130073547363281e-05, "timer/agent.policy_count": 1428.0, "timer/agent.policy_total": 11.746213912963867, "timer/agent.policy_frac": 0.039109685432389664, "timer/agent.policy_avg": 0.008225639995072736, "timer/agent.policy_min": 0.00565648078918457, "timer/agent.policy_max": 1.3736653327941895, "timer/dataset_count": 714.0, "timer/dataset_total": 0.06341099739074707, "timer/dataset_frac": 0.0002111305122895073, "timer/dataset_avg": 8.881092071533203e-05, "timer/dataset_min": 6.031990051269531e-05, "timer/dataset_max": 0.0003974437713623047, "timer/agent.train_count": 714.0, "timer/agent.train_total": 268.315847158432, "timer/agent.train_frac": 0.8933728311647596, "timer/agent.train_avg": 0.37579250302301404, "timer/agent.train_min": 0.36597609519958496, "timer/agent.train_max": 2.8367795944213867, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21755456924438477, "timer/agent.report_frac": 0.0007243602773261614, "timer/agent.report_avg": 0.21755456924438477, "timer/agent.report_min": 0.21755456924438477, "timer/agent.report_max": 0.21755456924438477, "fps": 4.754524387981648}
{"step": 147246, "episode/length": 192.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 8.100000008940697, "episode/reward_rate": 0.03626943005181347}
{"step": 147425, "episode/length": 178.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.500000044703484, "episode/reward_rate": 0.03910614525139665}
{"step": 147603, "episode/length": 177.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.3000000193715096, "episode/reward_rate": 0.033707865168539325}
{"step": 147816, "episode/length": 212.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.0999999940395355, "episode/reward_rate": 0.03286384976525822}
{"step": 147998, "episode/length": 181.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 4.900000013411045, "episode/reward_rate": 0.02197802197802198}
{"step": 148288, "episode/length": 289.0, "episode/score": 5.099999979138374, "episode/sum_abs_reward": 6.900000020861626, "episode/reward_rate": 0.020689655172413793}
{"step": 148468, "episode/length": 179.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.027777777777777776}
{"step": 148511, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.5494842529296875, "train/action_min": 0.0, "train/action_std": 3.553004559543398, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04947858153738909, "train/actor_opt_grad_steps": 73345.0, "train/actor_opt_loss": -14.114919789963299, "train/adv_mag": 0.6603266195290618, "train/adv_max": 0.6156508016089598, "train/adv_mean": 0.0027381768591617905, "train/adv_min": -0.501185087280141, "train/adv_std": 0.05941768249289857, "train/cont_avg": 0.9943576388888888, "train/cont_loss_mean": 0.0002414091011660149, "train/cont_loss_std": 0.007594131388006847, "train/cont_neg_acc": 0.9939649485879474, "train/cont_neg_loss": 0.02477578609412174, "train/cont_pos_acc": 0.9999863381187121, "train/cont_pos_loss": 7.680002617524749e-05, "train/cont_pred": 0.9943723181883494, "train/cont_rate": 0.9943576388888888, "train/dyn_loss_mean": 4.539548506339391, "train/dyn_loss_std": 8.423365725411308, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0705868071979947, "train/extr_critic_critic_opt_grad_steps": 73345.0, "train/extr_critic_critic_opt_loss": 15639.00788031684, "train/extr_critic_mag": 7.638748288154602, "train/extr_critic_max": 7.638748288154602, "train/extr_critic_mean": 1.2233941190772586, "train/extr_critic_min": -0.603733069366879, "train/extr_critic_std": 1.5660077548689313, "train/extr_return_normed_mag": 1.7807477398051157, "train/extr_return_normed_max": 1.7807477398051157, "train/extr_return_normed_mean": 0.3061082777049806, "train/extr_return_normed_min": -0.15104075169397724, "train/extr_return_normed_std": 0.33601379663579994, "train/extr_return_rate": 0.49354205487502945, "train/extr_return_raw_mag": 8.25906236966451, "train/extr_return_raw_max": 8.25906236966451, "train/extr_return_raw_mean": 1.2364224427276187, "train/extr_return_raw_min": -0.9405100933379598, "train/extr_return_raw_std": 1.6004643953508801, "train/extr_reward_mag": 1.0260302556885614, "train/extr_reward_max": 1.0260302556885614, "train/extr_reward_mean": 0.03229831394532488, "train/extr_reward_min": -0.6563152356280221, "train/extr_reward_std": 0.179526931916674, "train/image_loss_mean": 2.795143981774648, "train/image_loss_std": 7.603202253580093, "train/model_loss_mean": 5.561800443463856, "train/model_loss_std": 11.654044681125217, "train/model_opt_grad_norm": 39.775896628697716, "train/model_opt_grad_steps": 73283.0, "train/model_opt_loss": 11052.22014702691, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1996.5277777777778, "train/policy_entropy_mag": 2.3811644547515445, "train/policy_entropy_max": 2.3811644547515445, "train/policy_entropy_mean": 0.42040549508399433, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5186163307064109, "train/policy_logprob_mag": 7.438384069336785, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.42028703168034554, "train/policy_logprob_min": -7.438384069336785, "train/policy_logprob_std": 1.024478394124243, "train/policy_randomness_mag": 0.8404465566078821, "train/policy_randomness_max": 0.8404465566078821, "train/policy_randomness_mean": 0.14838469038820928, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18304880832632384, "train/post_ent_mag": 54.17930343416002, "train/post_ent_max": 54.17930343416002, "train/post_ent_mean": 37.79127264022827, "train/post_ent_min": 18.221570478545296, "train/post_ent_std": 5.702835573090447, "train/prior_ent_mag": 74.57123576270209, "train/prior_ent_max": 74.57123576270209, "train/prior_ent_mean": 42.24446540408664, "train/prior_ent_min": 22.965781079398262, "train/prior_ent_std": 7.619030409389072, "train/rep_loss_mean": 4.539548506339391, "train/rep_loss_std": 8.423365725411308, "train/reward_avg": 0.02444525808095932, "train/reward_loss_mean": 0.04268598305578861, "train/reward_loss_std": 0.18821650474435753, "train/reward_max_data": 1.0097222245401807, "train/reward_max_pred": 1.0111121932665508, "train/reward_neg_acc": 0.9954194260968102, "train/reward_neg_loss": 0.021447799672993522, "train/reward_pos_acc": 0.9855539004007975, "train/reward_pos_loss": 0.740731899936994, "train/reward_pred": 0.024261087593105104, "train/reward_rate": 0.029568142361111112, "stats/sum_log_reward": 4.814285687037876, "stats/max_log_achievement_collect_drink": 3.5714285714285716, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 6.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.14285714285714285, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_table": 2.142857142857143, "stats/max_log_achievement_wake_up": 1.5714285714285714, "stats/mean_log_entropy": 0.44819306475775583, "replay/size": 148448.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.7610201545841784e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2543731631495017e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0154480934143, "timer/env.step_count": 1448.0, "timer/env.step_total": 18.734932899475098, "timer/env.step_frac": 0.06244656073057177, "timer/env.step_avg": 0.012938489571460703, "timer/env.step_min": 0.002936124801635742, "timer/env.step_max": 1.7320585250854492, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.2756636142730713, "timer/replay.add_frac": 0.0009188314002658933, "timer/replay.add_avg": 0.00019037542422173433, "timer/replay.add_min": 7.152557373046875e-05, "timer/replay.add_max": 0.004351377487182617, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023543119430541992, "timer/logger.write_frac": 7.847302390646061e-05, "timer/logger.write_avg": 0.023543119430541992, "timer/logger.write_min": 0.023543119430541992, "timer/logger.write_max": 0.023543119430541992, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 10.57718300819397, "timer/agent.policy_frac": 0.035255461261783444, "timer/agent.policy_avg": 0.007304684397924012, "timer/agent.policy_min": 0.005656719207763672, "timer/agent.policy_max": 0.015616893768310547, "timer/dataset_count": 724.0, "timer/dataset_total": 0.06544685363769531, "timer/dataset_frac": 0.0002181449457139869, "timer/dataset_avg": 9.03962066818996e-05, "timer/dataset_min": 6.890296936035156e-05, "timer/dataset_max": 0.00019931793212890625, "timer/agent.train_count": 724.0, "timer/agent.train_total": 269.6334807872772, "timer/agent.train_frac": 0.8987319903051219, "timer/agent.train_avg": 0.37242193478905694, "timer/agent.train_min": 0.36637449264526367, "timer/agent.train_max": 0.38841915130615234, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22002673149108887, "timer/agent.report_frac": 0.0007333846736538055, "timer/agent.report_avg": 0.22002673149108887, "timer/agent.report_min": 0.22002673149108887, "timer/agent.report_max": 0.22002673149108887, "fps": 4.826332940459132}
{"step": 148660, "episode/length": 191.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 9.100000031292439, "episode/reward_rate": 0.036458333333333336}
{"step": 148823, "episode/length": 162.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.049079754601226995}
{"step": 149060, "episode/length": 236.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.02531645569620253}
{"step": 149224, "episode/length": 163.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.036585365853658534}
{"step": 149419, "episode/length": 194.0, "episode/score": 5.100000001490116, "episode/sum_abs_reward": 7.100000001490116, "episode/reward_rate": 0.035897435897435895}
{"step": 149596, "episode/length": 176.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.3000000193715096, "episode/reward_rate": 0.02824858757062147}
{"step": 149746, "episode/length": 149.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.04666666666666667}
{"step": 149885, "episode/length": 138.0, "episode/score": 5.099999971687794, "episode/sum_abs_reward": 7.9000000432133675, "episode/reward_rate": 0.050359712230215826}
{"step": 149955, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.518467373318142, "train/action_min": 0.0, "train/action_std": 3.4859145449267492, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04945040840862526, "train/actor_opt_grad_steps": 74065.0, "train/actor_opt_loss": -14.380132137901253, "train/adv_mag": 0.823880480395423, "train/adv_max": 0.7614356825749079, "train/adv_mean": 0.002766536912531592, "train/adv_min": -0.6070402007963922, "train/adv_std": 0.061485602986067533, "train/cont_avg": 0.9944525824652778, "train/cont_loss_mean": 4.939996263273214e-05, "train/cont_loss_std": 0.0014364016954383867, "train/cont_neg_acc": 0.9984567902154393, "train/cont_neg_loss": 0.0074928169585998855, "train/cont_pos_acc": 0.9999999842709966, "train/cont_pos_loss": 8.285179920106441e-06, "train/cont_pred": 0.994468554854393, "train/cont_rate": 0.9944525824652778, "train/dyn_loss_mean": 4.462627808252971, "train/dyn_loss_std": 8.442742049694061, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0718485299083922, "train/extr_critic_critic_opt_grad_steps": 74065.0, "train/extr_critic_critic_opt_loss": 15588.89195421007, "train/extr_critic_mag": 8.463881995942858, "train/extr_critic_max": 8.463881995942858, "train/extr_critic_mean": 1.1565818844570055, "train/extr_critic_min": -0.629638844066196, "train/extr_critic_std": 1.5752073559496138, "train/extr_return_normed_mag": 1.968137683139907, "train/extr_return_normed_max": 1.968137683139907, "train/extr_return_normed_mean": 0.29443322204881245, "train/extr_return_normed_min": -0.172019487246871, "train/extr_return_normed_std": 0.34532565664913917, "train/extr_return_rate": 0.46882236210836303, "train/extr_return_raw_mag": 8.997137685616812, "train/extr_return_raw_max": 8.997137685616812, "train/extr_return_raw_mean": 1.1695137355062697, "train/extr_return_raw_min": -1.0111354630854394, "train/extr_return_raw_std": 1.6149618443515565, "train/extr_reward_mag": 1.0230800873703427, "train/extr_reward_max": 1.0230800873703427, "train/extr_reward_mean": 0.031520739301211305, "train/extr_reward_min": -0.6750567621654935, "train/extr_reward_std": 0.17746266826159424, "train/image_loss_mean": 2.8948776341146893, "train/image_loss_std": 7.632745875252618, "train/model_loss_mean": 5.614950971470939, "train/model_loss_std": 11.688681344191233, "train/model_opt_grad_norm": 42.09813581572639, "train/model_opt_grad_steps": 74002.09722222222, "train/model_opt_loss": 7751.172668457031, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1371.5277777777778, "train/policy_entropy_mag": 2.3735935389995575, "train/policy_entropy_max": 2.3735935389995575, "train/policy_entropy_mean": 0.42402397592862445, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5161579151948293, "train/policy_logprob_mag": 7.438384102450477, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.42387064256601864, "train/policy_logprob_min": -7.438384102450477, "train/policy_logprob_std": 1.0254951491951942, "train/policy_randomness_mag": 0.837774352894889, "train/policy_randomness_max": 0.837774352894889, "train/policy_randomness_mean": 0.14966185484081507, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18218109156522486, "train/post_ent_mag": 54.47844537099203, "train/post_ent_max": 54.47844537099203, "train/post_ent_mean": 38.09368276596069, "train/post_ent_min": 18.213466935687595, "train/post_ent_std": 5.812139418390062, "train/prior_ent_mag": 74.73425642649333, "train/prior_ent_max": 74.73425642649333, "train/prior_ent_mean": 42.46120145585802, "train/prior_ent_min": 22.780144532521565, "train/prior_ent_std": 7.658847027354771, "train/rep_loss_mean": 4.462627808252971, "train/rep_loss_std": 8.442742049694061, "train/reward_avg": 0.023532443524648745, "train/reward_loss_mean": 0.04244723326216141, "train/reward_loss_std": 0.18984961323440075, "train/reward_max_data": 1.0069444461001291, "train/reward_max_pred": 1.007439661357138, "train/reward_neg_acc": 0.9958673235442903, "train/reward_neg_loss": 0.021928893046505336, "train/reward_pos_acc": 0.9887351393699646, "train/reward_pos_loss": 0.7379684630367491, "train/reward_pred": 0.02328961408541848, "train/reward_rate": 0.028645833333333332, "stats/sum_log_reward": 5.224999964237213, "stats/max_log_achievement_collect_drink": 5.875, "stats/max_log_achievement_collect_sapling": 3.0, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 8.25, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.25, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_table": 2.75, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.3879186324775219, "replay/size": 149892.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.703743467040339e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2613977421683948e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2947962284088, "timer/env.step_count": 1444.0, "timer/env.step_total": 19.761901140213013, "timer/env.step_frac": 0.0658083369689224, "timer/env.step_avg": 0.013685527105410674, "timer/env.step_min": 0.002610921859741211, "timer/env.step_max": 1.6759464740753174, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.26752805709838867, "timer/replay.add_frac": 0.0008908847587718527, "timer/replay.add_avg": 0.00018526873760276225, "timer/replay.add_min": 6.67572021484375e-05, "timer/replay.add_max": 0.0028057098388671875, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02246880531311035, "timer/logger.write_frac": 7.482249308116627e-05, "timer/logger.write_avg": 0.02246880531311035, "timer/logger.write_min": 0.02246880531311035, "timer/logger.write_max": 0.02246880531311035, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.547786235809326, "timer/agent.policy_frac": 0.03512477195171414, "timer/agent.policy_avg": 0.007304561105131112, "timer/agent.policy_min": 0.005721330642700195, "timer/agent.policy_max": 0.017526865005493164, "timer/dataset_count": 722.0, "timer/dataset_total": 0.06454634666442871, "timer/dataset_frac": 0.00021494327399311234, "timer/dataset_avg": 8.93993721113971e-05, "timer/dataset_min": 6.961822509765625e-05, "timer/dataset_max": 0.00019216537475585938, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.92036151885986, "timer/agent.train_frac": 0.8955212174716305, "timer/agent.train_avg": 0.3724658746798613, "timer/agent.train_min": 0.3663461208343506, "timer/agent.train_max": 0.3840153217315674, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21878790855407715, "timer/agent.report_frac": 0.0007285770892535338, "timer/agent.report_avg": 0.21878790855407715, "timer/agent.report_min": 0.21878790855407715, "timer/agent.report_max": 0.21878790855407715, "fps": 4.8085137915626355}
{"step": 150042, "episode/length": 156.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.500000044703484, "episode/reward_rate": 0.03821656050955414}
{"step": 150200, "episode/length": 157.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.05063291139240506}
{"step": 150389, "episode/length": 188.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.037037037037037035}
{"step": 150558, "episode/length": 168.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.04142011834319527}
{"step": 150624, "episode/length": 65.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.07575757575757576}
{"step": 150806, "episode/length": 181.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.099999994039536, "episode/reward_rate": 0.04945054945054945}
{"step": 150981, "episode/length": 174.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.04}
{"step": 151168, "episode/length": 186.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.3000000193715096, "episode/reward_rate": 0.03208556149732621}
{"step": 151373, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.579940580985915, "train/action_min": 0.0, "train/action_std": 3.5750022102409686, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.050129981055645874, "train/actor_opt_grad_steps": 74780.0, "train/actor_opt_loss": -12.559779168434545, "train/adv_mag": 0.6997050815065142, "train/adv_max": 0.6492223328268024, "train/adv_mean": 0.00317875710883732, "train/adv_min": -0.5188204562160331, "train/adv_std": 0.061021747146274, "train/cont_avg": 0.9944294674295775, "train/cont_loss_mean": 0.00017812044194763177, "train/cont_loss_std": 0.005499978219330855, "train/cont_neg_acc": 0.9928236100035654, "train/cont_neg_loss": 0.03236993817751079, "train/cont_pos_acc": 0.9999999832099592, "train/cont_pos_loss": 1.4927897591181609e-05, "train/cont_pred": 0.9944564817656933, "train/cont_rate": 0.9944294674295775, "train/dyn_loss_mean": 4.614520788192749, "train/dyn_loss_std": 8.471419307547556, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.047152881051453, "train/extr_critic_critic_opt_grad_steps": 74780.0, "train/extr_critic_critic_opt_loss": 15520.757289832747, "train/extr_critic_mag": 7.66641081554789, "train/extr_critic_max": 7.66641081554789, "train/extr_critic_mean": 1.1622958896865307, "train/extr_critic_min": -0.5998143024847541, "train/extr_critic_std": 1.5194954334850042, "train/extr_return_normed_mag": 1.7815709231604993, "train/extr_return_normed_max": 1.7815709231604993, "train/extr_return_normed_mean": 0.2978007644414902, "train/extr_return_normed_min": -0.15799820475595097, "train/extr_return_normed_std": 0.3365302476244913, "train/extr_return_rate": 0.4605579027827357, "train/extr_return_raw_mag": 8.029880691582049, "train/extr_return_raw_max": 8.029880691582049, "train/extr_return_raw_mean": 1.1769808027106272, "train/extr_return_raw_min": -0.9289343676096956, "train/extr_return_raw_std": 1.5552964630261275, "train/extr_reward_mag": 1.0187510957180614, "train/extr_reward_max": 1.0187510957180614, "train/extr_reward_mean": 0.03186049865899791, "train/extr_reward_min": -0.6651332294437248, "train/extr_reward_std": 0.177267763396384, "train/image_loss_mean": 2.9034745021605155, "train/image_loss_std": 7.821893765892781, "train/model_loss_mean": 5.714324974677932, "train/model_loss_std": 11.880733530286332, "train/model_opt_grad_norm": 37.31189123341735, "train/model_opt_grad_steps": 74716.71830985915, "train/model_opt_loss": 8752.364244058099, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1531.6901408450703, "train/policy_entropy_mag": 2.3835260129310716, "train/policy_entropy_max": 2.3835260129310716, "train/policy_entropy_mean": 0.4323155695283917, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.525719121728145, "train/policy_logprob_mag": 7.438384076239357, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4313866076335101, "train/policy_logprob_min": -7.438384076239357, "train/policy_logprob_std": 1.02651804013991, "train/policy_randomness_mag": 0.8412800851002545, "train/policy_randomness_max": 0.8412800851002545, "train/policy_randomness_mean": 0.1525884240236081, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18555578190675923, "train/post_ent_mag": 53.784869664151906, "train/post_ent_max": 53.784869664151906, "train/post_ent_mean": 38.08817156939439, "train/post_ent_min": 18.158449495342417, "train/post_ent_std": 5.77894419683537, "train/prior_ent_mag": 74.78535418443276, "train/prior_ent_max": 74.78535418443276, "train/prior_ent_mean": 42.639652198469136, "train/prior_ent_min": 23.367115799809845, "train/prior_ent_std": 7.591602137390996, "train/rep_loss_mean": 4.614520788192749, "train/rep_loss_std": 8.471419307547556, "train/reward_avg": 0.023686454513333212, "train/reward_loss_mean": 0.04195989676239625, "train/reward_loss_std": 0.19158706142449042, "train/reward_max_data": 1.0070422552001308, "train/reward_max_pred": 1.006030324479224, "train/reward_neg_acc": 0.995930939493045, "train/reward_neg_loss": 0.021081694244394, "train/reward_pos_acc": 0.9851718838785736, "train/reward_pos_loss": 0.7449695283258465, "train/reward_pred": 0.023374968221489812, "train/reward_rate": 0.028760453345070422, "stats/sum_log_reward": 5.849999904632568, "stats/max_log_achievement_collect_drink": 3.75, "stats/max_log_achievement_collect_sapling": 2.25, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 5.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.25, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 0.125, "stats/max_log_achievement_make_wood_sword": 0.5, "stats/max_log_achievement_place_plant": 1.125, "stats/max_log_achievement_place_table": 1.875, "stats/max_log_achievement_wake_up": 1.375, "stats/mean_log_entropy": 0.3203839473426342, "replay/size": 151310.0, "replay/inserts": 1418.0, "replay/samples": 11344.0, "replay/insert_wait_avg": 3.7161688542332402e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2548921474784991e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1435327529907, "timer/env.step_count": 1418.0, "timer/env.step_total": 22.852766752243042, "timer/env.step_frac": 0.07613946081940134, "timer/env.step_avg": 0.016116196581271537, "timer/env.step_min": 0.002905130386352539, "timer/env.step_max": 2.6117122173309326, "timer/replay.add_count": 1418.0, "timer/replay.add_total": 0.2864494323730469, "timer/replay.add_frac": 0.000954374827755447, "timer/replay.add_avg": 0.00020200947275955352, "timer/replay.add_min": 6.961822509765625e-05, "timer/replay.add_max": 0.007714748382568359, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0222170352935791, "timer/logger.write_frac": 7.40213693421909e-05, "timer/logger.write_avg": 0.0222170352935791, "timer/logger.write_min": 0.0222170352935791, "timer/logger.write_max": 0.0222170352935791, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0006017684936523438, "timer/checkpoint.save_frac": 2.0049357323570304e-06, "timer/checkpoint.save_avg": 0.0006017684936523438, "timer/checkpoint.save_min": 0.0006017684936523438, "timer/checkpoint.save_max": 0.0006017684936523438, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3288915157318115, "timer/agent.save_frac": 0.00442752007195654, "timer/agent.save_avg": 1.3288915157318115, "timer/agent.save_min": 1.3288915157318115, "timer/agent.save_max": 1.3288915157318115, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.295608520507812e-05, "timer/replay.save_frac": 2.430706553491487e-07, "timer/replay.save_avg": 7.295608520507812e-05, "timer/replay.save_min": 7.295608520507812e-05, "timer/replay.save_max": 7.295608520507812e-05, "timer/agent.policy_count": 1418.0, "timer/agent.policy_total": 11.661845922470093, "timer/agent.policy_frac": 0.03885423022613467, "timer/agent.policy_avg": 0.008224150862108669, "timer/agent.policy_min": 0.005669116973876953, "timer/agent.policy_max": 1.319117546081543, "timer/dataset_count": 709.0, "timer/dataset_total": 0.06507515907287598, "timer/dataset_frac": 0.00021681346413161237, "timer/dataset_avg": 9.178442746526936e-05, "timer/dataset_min": 6.985664367675781e-05, "timer/dataset_max": 0.0002841949462890625, "timer/agent.train_count": 709.0, "timer/agent.train_total": 264.56145453453064, "timer/agent.train_frac": 0.8814497920641752, "timer/agent.train_avg": 0.37314732656492333, "timer/agent.train_min": 0.36629271507263184, "timer/agent.train_max": 0.863875150680542, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21832013130187988, "timer/agent.report_frac": 0.0007273857587381398, "timer/agent.report_avg": 0.21832013130187988, "timer/agent.report_min": 0.21832013130187988, "timer/agent.report_max": 0.21832013130187988, "fps": 4.724322942311054}
{"step": 151400, "episode/length": 231.0, "episode/score": 2.1000000089406967, "episode/sum_abs_reward": 5.500000014901161, "episode/reward_rate": 0.017241379310344827}
{"step": 151572, "episode/length": 171.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.040697674418604654}
{"step": 151765, "episode/length": 192.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.04145077720207254}
{"step": 151995, "episode/length": 229.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.0999999940395355, "episode/reward_rate": 0.030434782608695653}
{"step": 152179, "episode/length": 183.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.02717391304347826}
{"step": 152471, "episode/length": 291.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 8.30000003427267, "episode/reward_rate": 0.023972602739726026}
{"step": 152716, "episode/length": 244.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.700000025331974, "episode/reward_rate": 0.0163265306122449}
{"step": 152823, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.5383233893407535, "train/action_min": 0.0, "train/action_std": 3.547602565321204, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05177262001862264, "train/actor_opt_grad_steps": 75500.0, "train/actor_opt_loss": -15.806681818953932, "train/adv_mag": 0.6598750577397543, "train/adv_max": 0.6208563871579628, "train/adv_mean": 0.003101031678889827, "train/adv_min": -0.523786919165964, "train/adv_std": 0.061897523803253696, "train/cont_avg": 0.994140625, "train/cont_loss_mean": 0.00010582266084272043, "train/cont_loss_std": 0.0029451920180229674, "train/cont_neg_acc": 0.9908675804530105, "train/cont_neg_loss": 0.013782245077492592, "train/cont_pos_acc": 0.9999999861194663, "train/cont_pos_loss": 2.385147044453508e-05, "train/cont_pred": 0.9941659986156307, "train/cont_rate": 0.994140625, "train/dyn_loss_mean": 4.503133140198172, "train/dyn_loss_std": 8.385790955530455, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0691886380927202, "train/extr_critic_critic_opt_grad_steps": 75500.0, "train/extr_critic_critic_opt_loss": 15594.063596960616, "train/extr_critic_mag": 7.4442792722623645, "train/extr_critic_max": 7.4442792722623645, "train/extr_critic_mean": 1.206971772729534, "train/extr_critic_min": -0.6330776492210284, "train/extr_critic_std": 1.5052165952447343, "train/extr_return_normed_mag": 1.7573437086523396, "train/extr_return_normed_max": 1.7573437086523396, "train/extr_return_normed_mean": 0.30659268347367846, "train/extr_return_normed_min": -0.16668119740812745, "train/extr_return_normed_std": 0.33344357715894096, "train/extr_return_rate": 0.4921741493760723, "train/extr_return_raw_mag": 7.9254462294382595, "train/extr_return_raw_max": 7.9254462294382595, "train/extr_return_raw_mean": 1.2213478839560732, "train/extr_return_raw_min": -0.9658676830873097, "train/extr_return_raw_std": 1.5413375782640013, "train/extr_reward_mag": 1.0265930123525122, "train/extr_reward_max": 1.0265930123525122, "train/extr_reward_mean": 0.033657456148568896, "train/extr_reward_min": -0.6758333983486646, "train/extr_reward_std": 0.18184851314107034, "train/image_loss_mean": 2.777239544750893, "train/image_loss_std": 7.582882005874425, "train/model_loss_mean": 5.5239968234545564, "train/model_loss_std": 11.609980733427284, "train/model_opt_grad_norm": 38.098956878871135, "train/model_opt_grad_steps": 75436.0, "train/model_opt_loss": 6904.996020173373, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.374194275842954, "train/policy_entropy_max": 2.374194275842954, "train/policy_entropy_mean": 0.4199332096805311, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5102494836670078, "train/policy_logprob_mag": 7.438384075687356, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4194772272077325, "train/policy_logprob_min": -7.438384075687356, "train/policy_logprob_std": 1.0214957284600767, "train/policy_randomness_mag": 0.8379863908846085, "train/policy_randomness_max": 0.8379863908846085, "train/policy_randomness_mean": 0.14821799599552807, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1800956760775553, "train/post_ent_mag": 54.2987875742455, "train/post_ent_max": 54.2987875742455, "train/post_ent_mean": 38.018567490251094, "train/post_ent_min": 18.115209200610852, "train/post_ent_std": 5.780554209669975, "train/prior_ent_mag": 74.59087444984749, "train/prior_ent_max": 74.59087444984749, "train/prior_ent_mean": 42.47383614108987, "train/prior_ent_min": 23.10672922003759, "train/prior_ent_std": 7.621036509944968, "train/rep_loss_mean": 4.503133140198172, "train/rep_loss_std": 8.385790955530455, "train/reward_avg": 0.025709010800984623, "train/reward_loss_mean": 0.04477154164996049, "train/reward_loss_std": 0.19646722670287303, "train/reward_max_data": 1.009589043382096, "train/reward_max_pred": 1.0088401657261261, "train/reward_neg_acc": 0.994890131362497, "train/reward_neg_loss": 0.02288495356293574, "train/reward_pos_acc": 0.9876047911709303, "train/reward_pos_loss": 0.733523963248893, "train/reward_pred": 0.025543995125040617, "train/reward_rate": 0.03087542808219178, "stats/sum_log_reward": 4.814285618918283, "stats/max_log_achievement_collect_drink": 4.428571428571429, "stats/max_log_achievement_collect_sapling": 3.5714285714285716, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 2.857142857142857, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5714285714285714, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.5714285714285714, "stats/max_log_achievement_place_plant": 1.8571428571428572, "stats/max_log_achievement_place_table": 1.1428571428571428, "stats/max_log_achievement_wake_up": 3.142857142857143, "stats/mean_log_entropy": 0.5175726967198508, "replay/size": 152760.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.7864158893453665e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.27336074566019e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2537684440613, "timer/env.step_count": 1450.0, "timer/env.step_total": 18.57120370864868, "timer/env.step_frac": 0.06185169233640638, "timer/env.step_avg": 0.01280772669561978, "timer/env.step_min": 0.0030405521392822266, "timer/env.step_max": 1.6707096099853516, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.27634596824645996, "timer/replay.add_frac": 0.00092037468731369, "timer/replay.add_avg": 0.00019058342637686893, "timer/replay.add_min": 7.43865966796875e-05, "timer/replay.add_max": 0.0038061141967773438, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030393362045288086, "timer/logger.write_frac": 0.0001012255806239798, "timer/logger.write_avg": 0.030393362045288086, "timer/logger.write_min": 0.030393362045288086, "timer/logger.write_max": 0.030393362045288086, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 10.70837926864624, "timer/agent.policy_frac": 0.03566442920646061, "timer/agent.policy_avg": 0.00738508915079051, "timer/agent.policy_min": 0.005742311477661133, "timer/agent.policy_max": 0.016683101654052734, "timer/dataset_count": 725.0, "timer/dataset_total": 0.06670546531677246, "timer/dataset_frac": 0.00022216362399861105, "timer/dataset_avg": 9.200753836796202e-05, "timer/dataset_min": 6.151199340820312e-05, "timer/dataset_max": 0.0002682209014892578, "timer/agent.train_count": 725.0, "timer/agent.train_total": 269.8975875377655, "timer/agent.train_frac": 0.8988982517568259, "timer/agent.train_avg": 0.372272534534849, "timer/agent.train_min": 0.36594271659851074, "timer/agent.train_max": 0.3841211795806885, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21918845176696777, "timer/agent.report_frac": 0.000730010660325163, "timer/agent.report_avg": 0.21918845176696777, "timer/agent.report_min": 0.21918845176696777, "timer/agent.report_max": 0.21918845176696777, "fps": 4.829149291208248}
{"step": 152905, "episode/length": 188.0, "episode/score": 5.100000001490116, "episode/sum_abs_reward": 7.500000037252903, "episode/reward_rate": 0.031746031746031744}
{"step": 153085, "episode/length": 179.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03333333333333333}
{"step": 153282, "episode/length": 196.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.030456852791878174}
{"step": 153504, "episode/length": 221.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.02702702702702703}
{"step": 153672, "episode/length": 167.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.02976190476190476}
{"step": 153889, "episode/length": 216.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.03225806451612903}
{"step": 154078, "episode/length": 188.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.037037037037037035}
{"step": 154240, "episode/length": 161.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.043209876543209874}
{"step": 154265, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.7298329671223955, "train/action_min": 0.0, "train/action_std": 3.661718769205941, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05047020217817691, "train/actor_opt_grad_steps": 76225.0, "train/actor_opt_loss": -16.043286601702373, "train/adv_mag": 0.6221300843689177, "train/adv_max": 0.5727568910353713, "train/adv_mean": 0.002660022960400157, "train/adv_min": -0.5050649353199534, "train/adv_std": 0.06099812857185801, "train/cont_avg": 0.9941813151041666, "train/cont_loss_mean": 3.1757060127467364e-05, "train/cont_loss_std": 0.0008470475909424143, "train/cont_neg_acc": 0.9976851857370801, "train/cont_neg_loss": 0.002636778590486857, "train/cont_pos_acc": 0.9999999776482582, "train/cont_pos_loss": 1.6268612140398393e-05, "train/cont_pred": 0.9941770715845956, "train/cont_rate": 0.9941813151041666, "train/dyn_loss_mean": 4.464472144842148, "train/dyn_loss_std": 8.376818590694004, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.10419400036335, "train/extr_critic_critic_opt_grad_steps": 76225.0, "train/extr_critic_critic_opt_loss": 15517.367933485242, "train/extr_critic_mag": 7.08116708861457, "train/extr_critic_max": 7.08116708861457, "train/extr_critic_mean": 1.192317032151752, "train/extr_critic_min": -0.6281568805376688, "train/extr_critic_std": 1.5232870827118556, "train/extr_return_normed_mag": 1.687168088224199, "train/extr_return_normed_max": 1.687168088224199, "train/extr_return_normed_mean": 0.30591984941727585, "train/extr_return_normed_min": -0.15862121888332897, "train/extr_return_normed_std": 0.33533464889559483, "train/extr_return_rate": 0.4828134288804399, "train/extr_return_raw_mag": 7.622565064165327, "train/extr_return_raw_max": 7.622565064165327, "train/extr_return_raw_mean": 1.2046781008442242, "train/extr_return_raw_min": -0.9538651986254586, "train/extr_return_raw_std": 1.5576857576767604, "train/extr_reward_mag": 1.0256014929877386, "train/extr_reward_max": 1.0256014929877386, "train/extr_reward_mean": 0.03148313675127509, "train/extr_reward_min": -0.6768928385443158, "train/extr_reward_std": 0.17830510147743756, "train/image_loss_mean": 2.7169083224402533, "train/image_loss_std": 7.1926168004671736, "train/model_loss_mean": 5.437587983078426, "train/model_loss_std": 11.23531593879064, "train/model_opt_grad_norm": 39.48601150512695, "train/model_opt_grad_steps": 76161.0, "train/model_opt_loss": 12931.817023383246, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2378.472222222222, "train/policy_entropy_mag": 2.352037502659692, "train/policy_entropy_max": 2.352037502659692, "train/policy_entropy_mean": 0.42274395210875404, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5006820501552688, "train/policy_logprob_mag": 7.438384029600355, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.42205855747063953, "train/policy_logprob_min": -7.438384029600355, "train/policy_logprob_std": 1.0180828149120014, "train/policy_randomness_mag": 0.8301660219828287, "train/policy_randomness_max": 0.8301660219828287, "train/policy_randomness_mean": 0.14921006394757164, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.17671879215372932, "train/post_ent_mag": 54.53904681735568, "train/post_ent_max": 54.53904681735568, "train/post_ent_mean": 38.31917799843682, "train/post_ent_min": 18.4947815073861, "train/post_ent_std": 5.86335770951377, "train/prior_ent_mag": 74.79982821146648, "train/prior_ent_max": 74.79982821146648, "train/prior_ent_mean": 42.72250493367513, "train/prior_ent_min": 23.30152792400784, "train/prior_ent_std": 7.667184842957391, "train/rep_loss_mean": 4.464472144842148, "train/rep_loss_std": 8.376818590694004, "train/reward_avg": 0.022482638583622046, "train/reward_loss_mean": 0.04196461010724306, "train/reward_loss_std": 0.1863713258256515, "train/reward_max_data": 1.0097222245401807, "train/reward_max_pred": 1.0126081473297543, "train/reward_neg_acc": 0.9953406842218505, "train/reward_neg_loss": 0.02206127102383309, "train/reward_pos_acc": 0.9855174736844169, "train/reward_pos_loss": 0.7409059074189928, "train/reward_pred": 0.02227242944192969, "train/reward_rate": 0.027872721354166668, "stats/sum_log_reward": 5.349999845027924, "stats/max_log_achievement_collect_drink": 5.5, "stats/max_log_achievement_collect_sapling": 3.75, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 4.75, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.625, "stats/max_log_achievement_place_plant": 2.125, "stats/max_log_achievement_place_table": 1.5, "stats/max_log_achievement_wake_up": 1.75, "stats/mean_log_entropy": 0.4119974561035633, "replay/size": 154202.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.7765039980990216e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2856746678874827e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3432834148407, "timer/env.step_count": 1442.0, "timer/env.step_total": 20.20088791847229, "timer/env.step_frac": 0.06725932968699148, "timer/env.step_avg": 0.014008937530147219, "timer/env.step_min": 0.0029571056365966797, "timer/env.step_max": 1.7317392826080322, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.26535701751708984, "timer/replay.add_frac": 0.000883512407868875, "timer/replay.add_avg": 0.000184020123104778, "timer/replay.add_min": 7.271766662597656e-05, "timer/replay.add_max": 0.0025882720947265625, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021617650985717773, "timer/logger.write_frac": 7.19764755180458e-05, "timer/logger.write_avg": 0.021617650985717773, "timer/logger.write_min": 0.021617650985717773, "timer/logger.write_max": 0.021617650985717773, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 10.570229053497314, "timer/agent.policy_frac": 0.03519382532319687, "timer/agent.policy_avg": 0.007330255931690232, "timer/agent.policy_min": 0.005723714828491211, "timer/agent.policy_max": 0.01584172248840332, "timer/dataset_count": 721.0, "timer/dataset_total": 0.0671834945678711, "timer/dataset_frac": 0.00022368901945803057, "timer/dataset_avg": 9.318099107887808e-05, "timer/dataset_min": 7.104873657226562e-05, "timer/dataset_max": 0.00020122528076171875, "timer/agent.train_count": 721.0, "timer/agent.train_total": 268.5124294757843, "timer/agent.train_frac": 0.8940184259253405, "timer/agent.train_avg": 0.37241668443243314, "timer/agent.train_min": 0.3664863109588623, "timer/agent.train_max": 0.3886878490447998, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21825194358825684, "timer/agent.report_frac": 0.0007266749604212141, "timer/agent.report_avg": 0.21825194358825684, "timer/agent.report_min": 0.21825194358825684, "timer/agent.report_max": 0.21825194358825684, "fps": 4.801081550005389}
{"step": 154406, "episode/length": 165.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 8.899999991059303, "episode/reward_rate": 0.05421686746987952}
{"step": 154566, "episode/length": 159.0, "episode/score": 5.099999964237213, "episode/sum_abs_reward": 6.699999988079071, "episode/reward_rate": 0.0375}
{"step": 154609, "episode/length": 42.0, "episode/score": 3.0999999940395355, "episode/sum_abs_reward": 4.9000000059604645, "episode/reward_rate": 0.11627906976744186}
{"step": 154808, "episode/length": 198.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.300000041723251, "episode/reward_rate": 0.03015075376884422}
{"step": 154843, "episode/length": 34.0, "episode/score": 2.0999999716877937, "episode/sum_abs_reward": 3.9000000283122063, "episode/reward_rate": 0.11428571428571428}
{"step": 155020, "episode/length": 176.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 7.900000028312206, "episode/reward_rate": 0.03954802259887006}
{"step": 155185, "episode/length": 164.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.04242424242424243}
{"step": 155373, "episode/length": 187.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.031914893617021274}
{"step": 155473, "episode/length": 99.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.04}
{"step": 155621, "episode/length": 147.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.04054054054054054}
{"step": 155665, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.5732953752790175, "train/action_min": 0.0, "train/action_std": 3.556388078417097, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05214240955454963, "train/actor_opt_grad_steps": 76935.0, "train/actor_opt_loss": -15.875672604356494, "train/adv_mag": 0.5898026726075581, "train/adv_max": 0.5561499731881278, "train/adv_mean": 0.0028825618212002676, "train/adv_min": -0.5029164991208486, "train/adv_std": 0.06195058886493955, "train/cont_avg": 0.9940987723214286, "train/cont_loss_mean": 3.5740495889058366e-05, "train/cont_loss_std": 0.0010082518906301629, "train/cont_neg_acc": 0.9961734703608922, "train/cont_neg_loss": 0.003332260494270096, "train/cont_pos_acc": 0.9999999821186065, "train/cont_pos_loss": 1.1486640345635481e-05, "train/cont_pred": 0.994104220185961, "train/cont_rate": 0.9940987723214286, "train/dyn_loss_mean": 4.671381456511361, "train/dyn_loss_std": 8.47633387701852, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0900149949959346, "train/extr_critic_critic_opt_grad_steps": 76935.0, "train/extr_critic_critic_opt_loss": 15583.233733258929, "train/extr_critic_mag": 6.974435867582049, "train/extr_critic_max": 6.974435867582049, "train/extr_critic_mean": 1.2382203595978873, "train/extr_critic_min": -0.6170898471559797, "train/extr_critic_std": 1.5475614615849087, "train/extr_return_normed_mag": 1.6810476439339774, "train/extr_return_normed_max": 1.6810476439339774, "train/extr_return_normed_mean": 0.3164712103349822, "train/extr_return_normed_min": -0.14875921766672814, "train/extr_return_normed_std": 0.3383702163185392, "train/extr_return_rate": 0.49612911641597746, "train/extr_return_raw_mag": 7.6347688266209195, "train/extr_return_raw_max": 7.6347688266209195, "train/extr_return_raw_mean": 1.2516648156302317, "train/extr_return_raw_min": -0.9242357552051544, "train/extr_return_raw_std": 1.5828234570366995, "train/extr_reward_mag": 1.0273377554757255, "train/extr_reward_max": 1.0273377554757255, "train/extr_reward_mean": 0.033297987468540666, "train/extr_reward_min": -0.6744834644453866, "train/extr_reward_std": 0.1822726764849254, "train/image_loss_mean": 2.9369039348193575, "train/image_loss_std": 7.774368231637137, "train/model_loss_mean": 5.78413872718811, "train/model_loss_std": 11.808524308885847, "train/model_opt_grad_norm": 41.7776440606601, "train/model_opt_grad_steps": 76870.34285714285, "train/model_opt_loss": 9648.843178013392, "train/model_opt_model_opt_grad_overflow": 0.014285714285714285, "train/model_opt_model_opt_grad_scale": 1678.5714285714287, "train/policy_entropy_mag": 2.3356993913650514, "train/policy_entropy_max": 2.3356993913650514, "train/policy_entropy_mean": 0.4083464486258371, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.49344326385429926, "train/policy_logprob_mag": 7.438384035655431, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40899511320250376, "train/policy_logprob_min": -7.438384035655431, "train/policy_logprob_std": 1.0126748527799334, "train/policy_randomness_mag": 0.8243993869849614, "train/policy_randomness_max": 0.8243993869849614, "train/policy_randomness_mean": 0.1441283764583724, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.17416381857224872, "train/post_ent_mag": 54.578602818080356, "train/post_ent_max": 54.578602818080356, "train/post_ent_mean": 38.168330437796456, "train/post_ent_min": 18.475532381875173, "train/post_ent_std": 5.88080085345677, "train/prior_ent_mag": 74.77512784685408, "train/prior_ent_max": 74.77512784685408, "train/prior_ent_mean": 42.78471957615444, "train/prior_ent_min": 23.915568270002094, "train/prior_ent_std": 7.646103089196341, "train/rep_loss_mean": 4.671381456511361, "train/rep_loss_std": 8.47633387701852, "train/reward_avg": 0.02476981013481106, "train/reward_loss_mean": 0.044370150832193235, "train/reward_loss_std": 0.1958747088909149, "train/reward_max_data": 1.014285717691694, "train/reward_max_pred": 1.0095248682158333, "train/reward_neg_acc": 0.9950689417975289, "train/reward_neg_loss": 0.022676487479891094, "train/reward_pos_acc": 0.984186715739114, "train/reward_pos_loss": 0.7479813882282802, "train/reward_pred": 0.024458034136997802, "train/reward_rate": 0.029994419642857144, "stats/sum_log_reward": 4.6999999523162845, "stats/max_log_achievement_collect_drink": 3.4, "stats/max_log_achievement_collect_sapling": 2.1, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 4.3, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.3, "stats/max_log_achievement_eat_cow": 0.1, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.3, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_table": 1.5, "stats/max_log_achievement_wake_up": 1.1, "stats/mean_log_entropy": 0.3426980048418045, "replay/size": 155602.0, "replay/inserts": 1400.0, "replay/samples": 11200.0, "replay/insert_wait_avg": 3.684077944074358e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.263554607118879e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.163067817688, "timer/env.step_count": 1400.0, "timer/env.step_total": 24.37724995613098, "timer/env.step_frac": 0.08121335557156936, "timer/env.step_avg": 0.017412321397236415, "timer/env.step_min": 0.0027937889099121094, "timer/env.step_max": 1.805290937423706, "timer/replay.add_count": 1400.0, "timer/replay.add_total": 0.2576746940612793, "timer/replay.add_frac": 0.0008584490288385008, "timer/replay.add_avg": 0.00018405335290091378, "timer/replay.add_min": 6.198883056640625e-05, "timer/replay.add_max": 0.0013206005096435547, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023778438568115234, "timer/logger.write_frac": 7.921840198727479e-05, "timer/logger.write_avg": 0.023778438568115234, "timer/logger.write_min": 0.023778438568115234, "timer/logger.write_max": 0.023778438568115234, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003631114959716797, "timer/checkpoint.save_frac": 1.2097141017769218e-06, "timer/checkpoint.save_avg": 0.0003631114959716797, "timer/checkpoint.save_min": 0.0003631114959716797, "timer/checkpoint.save_max": 0.0003631114959716797, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4699623584747314, "timer/agent.save_frac": 0.004897212602343044, "timer/agent.save_avg": 1.4699623584747314, "timer/agent.save_min": 1.4699623584747314, "timer/agent.save_max": 1.4699623584747314, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.512901306152344e-05, "timer/replay.save_frac": 3.1692444294746673e-07, "timer/replay.save_avg": 9.512901306152344e-05, "timer/replay.save_min": 9.512901306152344e-05, "timer/replay.save_max": 9.512901306152344e-05, "timer/agent.policy_count": 1400.0, "timer/agent.policy_total": 11.654787540435791, "timer/agent.policy_frac": 0.03882818637606222, "timer/agent.policy_avg": 0.008324848243168422, "timer/agent.policy_min": 0.005654811859130859, "timer/agent.policy_max": 1.4707202911376953, "timer/dataset_count": 700.0, "timer/dataset_total": 0.06331110000610352, "timer/dataset_frac": 0.00021092235119530827, "timer/dataset_avg": 9.044442858014788e-05, "timer/dataset_min": 6.580352783203125e-05, "timer/dataset_max": 0.00023245811462402344, "timer/agent.train_count": 700.0, "timer/agent.train_total": 263.0936019420624, "timer/agent.train_frac": 0.8765022421141406, "timer/agent.train_avg": 0.3758480027743748, "timer/agent.train_min": 0.3656737804412842, "timer/agent.train_max": 2.7989614009857178, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2212672233581543, "timer/agent.report_frac": 0.0007371567227336136, "timer/agent.report_avg": 0.2212672233581543, "timer/agent.report_min": 0.2212672233581543, "timer/agent.report_max": 0.2212672233581543, "fps": 4.664034958289213}
{"step": 155780, "episode/length": 158.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.900000028312206, "episode/reward_rate": 0.03773584905660377}
{"step": 155984, "episode/length": 203.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.299999997019768, "episode/reward_rate": 0.03431372549019608}
{"step": 156155, "episode/length": 170.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.3000000193715096, "episode/reward_rate": 0.03508771929824561}
{"step": 156369, "episode/length": 213.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.03271028037383177}
{"step": 156533, "episode/length": 163.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.036585365853658534}
{"step": 156706, "episode/length": 172.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.046242774566473986}
{"step": 156852, "episode/length": 145.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.0410958904109589}
{"step": 157066, "episode/length": 213.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.03271028037383177}
{"step": 157107, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.506649441189236, "train/action_min": 0.0, "train/action_std": 3.3847811255190106, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05198538194720944, "train/actor_opt_grad_steps": 77645.0, "train/actor_opt_loss": -14.627231400460005, "train/adv_mag": 0.581050011018912, "train/adv_max": 0.5288138658636146, "train/adv_mean": 0.0035129555174838365, "train/adv_min": -0.4796483628451824, "train/adv_std": 0.061344432127144605, "train/cont_avg": 0.9941134982638888, "train/cont_loss_mean": 1.788321791135811e-05, "train/cont_loss_std": 0.0004447471245106903, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0010296126116473817, "train/cont_pos_acc": 0.9999999809596274, "train/cont_pos_loss": 1.0775998376881072e-05, "train/cont_pred": 0.994110494852066, "train/cont_rate": 0.9941134982638888, "train/dyn_loss_mean": 4.541252046823502, "train/dyn_loss_std": 8.430417544311947, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.054798809190591, "train/extr_critic_critic_opt_grad_steps": 77645.0, "train/extr_critic_critic_opt_loss": 15824.01422797309, "train/extr_critic_mag": 7.095289488633473, "train/extr_critic_max": 7.095289488633473, "train/extr_critic_mean": 1.241865569518672, "train/extr_critic_min": -0.6366299721929762, "train/extr_critic_std": 1.5368941227595012, "train/extr_return_normed_mag": 1.6388926340474024, "train/extr_return_normed_max": 1.6388926340474024, "train/extr_return_normed_mean": 0.3138495311141014, "train/extr_return_normed_min": -0.1633669308697184, "train/extr_return_normed_std": 0.3333962770799796, "train/extr_return_rate": 0.5022958533631431, "train/extr_return_raw_mag": 7.514898247188992, "train/extr_return_raw_max": 7.514898247188992, "train/extr_return_raw_mean": 1.2584300753143098, "train/extr_return_raw_min": -0.9944511436753802, "train/extr_return_raw_std": 1.5742199487156339, "train/extr_reward_mag": 1.0201831724908617, "train/extr_reward_max": 1.0201831724908617, "train/extr_reward_mean": 0.03391803345746464, "train/extr_reward_min": -0.678214548362626, "train/extr_reward_std": 0.1833744365721941, "train/image_loss_mean": 2.786322640048133, "train/image_loss_std": 7.591806398497687, "train/model_loss_mean": 5.555135918988122, "train/model_loss_std": 11.617352830039131, "train/model_opt_grad_norm": 38.3489916589525, "train/model_opt_grad_steps": 77580.0, "train/model_opt_loss": 8570.778835720486, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1545.138888888889, "train/policy_entropy_mag": 2.3633564114570618, "train/policy_entropy_max": 2.3633564114570618, "train/policy_entropy_mean": 0.3929435966743363, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.47449128536714447, "train/policy_logprob_mag": 7.438384082582262, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.392745482424895, "train/policy_logprob_min": -7.438384082582262, "train/policy_logprob_std": 0.9978689071204927, "train/policy_randomness_mag": 0.8341611002882322, "train/policy_randomness_max": 0.8341611002882322, "train/policy_randomness_mean": 0.1386918458673689, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16747460203866163, "train/post_ent_mag": 54.44209994210137, "train/post_ent_max": 54.44209994210137, "train/post_ent_mean": 38.41365072462294, "train/post_ent_min": 18.527263191011215, "train/post_ent_std": 5.8399642374780445, "train/prior_ent_mag": 74.8438196182251, "train/prior_ent_max": 74.8438196182251, "train/prior_ent_mean": 42.918071799808075, "train/prior_ent_min": 23.98863132794698, "train/prior_ent_std": 7.560703939861721, "train/rep_loss_mean": 4.541252046823502, "train/rep_loss_std": 8.430417544311947, "train/reward_avg": 0.025223795647939876, "train/reward_loss_mean": 0.044044187706377774, "train/reward_loss_std": 0.19643516248712936, "train/reward_max_data": 1.0069444461001291, "train/reward_max_pred": 1.0071671886576548, "train/reward_neg_acc": 0.9956071964568562, "train/reward_neg_loss": 0.02215698290254093, "train/reward_pos_acc": 0.9859525321258439, "train/reward_pos_loss": 0.7403621209992303, "train/reward_pred": 0.024934227267901104, "train/reward_rate": 0.030490451388888888, "stats/sum_log_reward": 5.474999904632568, "stats/max_log_achievement_collect_drink": 4.625, "stats/max_log_achievement_collect_sapling": 2.375, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 5.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.375, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.5, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_table": 2.375, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.33399517834186554, "replay/size": 157044.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.7766693369194804e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2736049339939917e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.19442796707153, "timer/env.step_count": 1442.0, "timer/env.step_total": 20.15348172187805, "timer/env.step_frac": 0.06713476282140952, "timer/env.step_avg": 0.013976062220442478, "timer/env.step_min": 0.002995014190673828, "timer/env.step_max": 1.6785354614257812, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.26842188835144043, "timer/replay.add_frac": 0.0008941601287179246, "timer/replay.add_avg": 0.0001861455536417756, "timer/replay.add_min": 7.319450378417969e-05, "timer/replay.add_max": 0.003468036651611328, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02832937240600586, "timer/logger.write_frac": 9.437008074351507e-05, "timer/logger.write_avg": 0.02832937240600586, "timer/logger.write_min": 0.02832937240600586, "timer/logger.write_max": 0.02832937240600586, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 10.603579044342041, "timer/agent.policy_frac": 0.03532237129166552, "timer/agent.policy_avg": 0.007353383525896006, "timer/agent.policy_min": 0.00577998161315918, "timer/agent.policy_max": 0.0187985897064209, "timer/dataset_count": 721.0, "timer/dataset_total": 0.06682968139648438, "timer/dataset_frac": 0.00022262132528260968, "timer/dataset_avg": 9.269026545975641e-05, "timer/dataset_min": 7.128715515136719e-05, "timer/dataset_max": 0.00019598007202148438, "timer/agent.train_count": 721.0, "timer/agent.train_total": 268.363032579422, "timer/agent.train_frac": 0.8939640698756036, "timer/agent.train_avg": 0.3722094765317919, "timer/agent.train_min": 0.3658292293548584, "timer/agent.train_max": 0.3866078853607178, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22020220756530762, "timer/agent.report_frac": 0.0007335319614575315, "timer/agent.report_avg": 0.22020220756530762, "timer/agent.report_min": 0.22020220756530762, "timer/agent.report_max": 0.22020220756530762, "fps": 4.803488802382144}
{"step": 157273, "episode/length": 206.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.028985507246376812}
{"step": 157427, "episode/length": 153.0, "episode/score": 5.0999999940395355, "episode/sum_abs_reward": 6.9000000059604645, "episode/reward_rate": 0.045454545454545456}
{"step": 157587, "episode/length": 159.0, "episode/score": 6.0999999940395355, "episode/sum_abs_reward": 7.9000000059604645, "episode/reward_rate": 0.05}
{"step": 157755, "episode/length": 167.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 9.100000031292439, "episode/reward_rate": 0.041666666666666664}
{"step": 157943, "episode/length": 187.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.031914893617021274}
{"step": 158156, "episode/length": 212.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.03286384976525822}
{"step": 158304, "episode/length": 147.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.05405405405405406}
{"step": 158486, "episode/length": 181.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.04395604395604396}
{"step": 158547, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.490610758463542, "train/action_min": 0.0, "train/action_std": 3.3934490415785046, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05155411378170053, "train/actor_opt_grad_steps": 78365.0, "train/actor_opt_loss": -17.758274603221153, "train/adv_mag": 0.6166595535145866, "train/adv_max": 0.5452611479494307, "train/adv_mean": 0.002449412455462152, "train/adv_min": -0.49175750836730003, "train/adv_std": 0.06030990736972955, "train/cont_avg": 0.9946695963541666, "train/cont_loss_mean": 8.833939170354515e-05, "train/cont_loss_std": 0.0027036844309438696, "train/cont_neg_acc": 0.9980158739619784, "train/cont_neg_loss": 0.008989096169165755, "train/cont_pos_acc": 0.9999863240453932, "train/cont_pos_loss": 2.8457826699283355e-05, "train/cont_pred": 0.9946713381343417, "train/cont_rate": 0.9946695963541666, "train/dyn_loss_mean": 4.471505767769283, "train/dyn_loss_std": 8.35795400540034, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1112078287535243, "train/extr_critic_critic_opt_grad_steps": 78365.0, "train/extr_critic_critic_opt_loss": 15917.593085394965, "train/extr_critic_mag": 7.192941731876797, "train/extr_critic_max": 7.192941731876797, "train/extr_critic_mean": 1.2370472542113728, "train/extr_critic_min": -0.6174437503019968, "train/extr_critic_std": 1.5304505262109969, "train/extr_return_normed_mag": 1.6416896647877164, "train/extr_return_normed_max": 1.6416896647877164, "train/extr_return_normed_mean": 0.3073206390771601, "train/extr_return_normed_min": -0.14814145014517838, "train/extr_return_normed_std": 0.3271521122919189, "train/extr_return_rate": 0.5108263078663084, "train/extr_return_raw_mag": 7.598633143636915, "train/extr_return_raw_max": 7.598633143636915, "train/extr_return_raw_mean": 1.248701615466012, "train/extr_return_raw_min": -0.918105896976259, "train/extr_return_raw_std": 1.5567996386024687, "train/extr_reward_mag": 1.0188422666655645, "train/extr_reward_max": 1.0188422666655645, "train/extr_reward_mean": 0.03211007109429273, "train/extr_reward_min": -0.6708993862072626, "train/extr_reward_std": 0.17756417352292272, "train/image_loss_mean": 2.7542335126135082, "train/image_loss_std": 7.406076580286026, "train/model_loss_mean": 5.477536012729009, "train/model_loss_std": 11.413161840703753, "train/model_opt_grad_norm": 36.956702099906074, "train/model_opt_grad_steps": 78299.34722222222, "train/model_opt_loss": 9303.710883246527, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1684.0277777777778, "train/policy_entropy_mag": 2.357792016532686, "train/policy_entropy_max": 2.357792016532686, "train/policy_entropy_mean": 0.39937836138738525, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.48346752259466386, "train/policy_logprob_mag": 7.438384042845832, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3988978469537364, "train/policy_logprob_min": -7.438384042845832, "train/policy_logprob_std": 1.0007692592011557, "train/policy_randomness_mag": 0.8321971139974065, "train/policy_randomness_max": 0.8321971139974065, "train/policy_randomness_mean": 0.1409630354286896, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.17064281842774814, "train/post_ent_mag": 53.97162199020386, "train/post_ent_max": 53.97162199020386, "train/post_ent_mean": 38.428853352864586, "train/post_ent_min": 18.067413873142666, "train/post_ent_std": 5.760995792018043, "train/prior_ent_mag": 74.80526394314236, "train/prior_ent_max": 74.80526394314236, "train/prior_ent_mean": 42.84880394405789, "train/prior_ent_min": 23.295714219411213, "train/prior_ent_std": 7.468338787555695, "train/rep_loss_mean": 4.471505767769283, "train/rep_loss_std": 8.35795400540034, "train/reward_avg": 0.023730468625823658, "train/reward_loss_mean": 0.040310636809509665, "train/reward_loss_std": 0.18542654367370737, "train/reward_max_data": 1.008333335320155, "train/reward_max_pred": 1.0082481139236026, "train/reward_neg_acc": 0.9959383846984969, "train/reward_neg_loss": 0.02007063372164137, "train/reward_pos_acc": 0.9890914021266831, "train/reward_pos_loss": 0.7285575154754851, "train/reward_pred": 0.023571563341344397, "train/reward_rate": 0.028415256076388888, "stats/sum_log_reward": 5.850000023841858, "stats/max_log_achievement_collect_drink": 4.625, "stats/max_log_achievement_collect_sapling": 3.0, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 5.625, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.125, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.625, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 2.0, "stats/mean_log_entropy": 0.3658748231828213, "replay/size": 158484.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.721316655476888e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3066869642999437e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1357727050781, "timer/env.step_count": 1440.0, "timer/env.step_total": 20.379942417144775, "timer/env.step_frac": 0.06790241041067331, "timer/env.step_avg": 0.014152737789683872, "timer/env.step_min": 0.0030469894409179688, "timer/env.step_max": 1.7832837104797363, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.27249908447265625, "timer/replay.add_frac": 0.0009079193793417672, "timer/replay.add_avg": 0.0001892354753282335, "timer/replay.add_min": 7.796287536621094e-05, "timer/replay.add_max": 0.006158590316772461, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.031336307525634766, "timer/logger.write_frac": 0.0001044071063012762, "timer/logger.write_avg": 0.031336307525634766, "timer/logger.write_min": 0.031336307525634766, "timer/logger.write_max": 0.031336307525634766, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 10.632732391357422, "timer/agent.policy_frac": 0.03542640817362829, "timer/agent.policy_avg": 0.007383841938442654, "timer/agent.policy_min": 0.005716800689697266, "timer/agent.policy_max": 0.018827199935913086, "timer/dataset_count": 720.0, "timer/dataset_total": 0.06558465957641602, "timer/dataset_frac": 0.00021851663660519852, "timer/dataset_avg": 9.108980496724447e-05, "timer/dataset_min": 6.151199340820312e-05, "timer/dataset_max": 0.0001800060272216797, "timer/agent.train_count": 720.0, "timer/agent.train_total": 268.0480697154999, "timer/agent.train_frac": 0.8930893751838488, "timer/agent.train_avg": 0.3722889857159721, "timer/agent.train_min": 0.36500096321105957, "timer/agent.train_max": 0.3857598304748535, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22145462036132812, "timer/agent.report_frac": 0.0007378481357466698, "timer/agent.report_avg": 0.22145462036132812, "timer/agent.report_min": 0.22145462036132812, "timer/agent.report_max": 0.22145462036132812, "fps": 4.797764107326848}
{"step": 158646, "episode/length": 159.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.04375}
{"step": 158844, "episode/length": 197.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 8.500000014901161, "episode/reward_rate": 0.03535353535353535}
{"step": 159086, "episode/length": 241.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 9.30000003427267, "episode/reward_rate": 0.028925619834710745}
{"step": 159266, "episode/length": 179.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 8.100000001490116, "episode/reward_rate": 0.044444444444444446}
{"step": 159439, "episode/length": 172.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.04046242774566474}
{"step": 159674, "episode/length": 234.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.3000000193715096, "episode/reward_rate": 0.02553191489361702}
{"step": 159841, "episode/length": 166.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03592814371257485}
{"step": 159971, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.487821337202905, "train/action_min": 0.0, "train/action_std": 3.4122801196407266, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.053358125015043875, "train/actor_opt_grad_steps": 79080.0, "train/actor_opt_loss": -15.836430757398336, "train/adv_mag": 0.5680701006466234, "train/adv_max": 0.5410818004272353, "train/adv_mean": 0.0036821361989009156, "train/adv_min": -0.47536670783875695, "train/adv_std": 0.06394560430461252, "train/cont_avg": 0.9944982394366197, "train/cont_loss_mean": 1.8742096321609134e-05, "train/cont_loss_std": 0.00038506848989392997, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00021508787332851157, "train/cont_pos_acc": 0.9999999832099592, "train/cont_pos_loss": 1.765373730102472e-05, "train/cont_pred": 0.9944826171431743, "train/cont_rate": 0.9944982394366197, "train/dyn_loss_mean": 4.499832223838483, "train/dyn_loss_std": 8.447700963893407, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.077661180160415, "train/extr_critic_critic_opt_grad_steps": 79080.0, "train/extr_critic_critic_opt_loss": 16291.867531360036, "train/extr_critic_mag": 6.858929909450907, "train/extr_critic_max": 6.858929909450907, "train/extr_critic_mean": 1.2767030336487462, "train/extr_critic_min": -0.6091989010152682, "train/extr_critic_std": 1.4885949786280241, "train/extr_return_normed_mag": 1.6769357970063115, "train/extr_return_normed_max": 1.6769357970063115, "train/extr_return_normed_mean": 0.3247164179321746, "train/extr_return_normed_min": -0.15857840896072523, "train/extr_return_normed_std": 0.32862194868880257, "train/extr_return_rate": 0.5527454089950508, "train/extr_return_raw_mag": 7.576998891964765, "train/extr_return_raw_max": 7.576998891964765, "train/extr_return_raw_mean": 1.2938215161713076, "train/extr_return_raw_min": -0.9521606640076973, "train/extr_return_raw_std": 1.5275469867276474, "train/extr_reward_mag": 1.023783673702831, "train/extr_reward_max": 1.023783673702831, "train/extr_reward_mean": 0.03439781334723385, "train/extr_reward_min": -0.6606685544403506, "train/extr_reward_std": 0.18355989624077165, "train/image_loss_mean": 2.763145520653523, "train/image_loss_std": 7.875022404630419, "train/model_loss_mean": 5.505044372988419, "train/model_loss_std": 11.91300448565416, "train/model_opt_grad_norm": 40.423588981091136, "train/model_opt_grad_steps": 79014.0, "train/model_opt_loss": 8581.028382207307, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1566.9014084507041, "train/policy_entropy_mag": 2.3647642303520526, "train/policy_entropy_max": 2.3647642303520526, "train/policy_entropy_mean": 0.37796809555779043, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4664301960401132, "train/policy_logprob_mag": 7.438384049375292, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37709513222667534, "train/policy_logprob_min": -7.438384049375292, "train/policy_logprob_std": 0.9848236978893549, "train/policy_randomness_mag": 0.834657995633676, "train/policy_randomness_max": 0.834657995633676, "train/policy_randomness_mean": 0.1334061529225027, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16462938991230977, "train/post_ent_mag": 54.125947817950184, "train/post_ent_max": 54.125947817950184, "train/post_ent_mean": 38.3325681552081, "train/post_ent_min": 18.225949515759105, "train/post_ent_std": 5.828676398371307, "train/prior_ent_mag": 74.81176725575622, "train/prior_ent_max": 74.81176725575622, "train/prior_ent_mean": 42.77797231539874, "train/prior_ent_min": 23.291097318622427, "train/prior_ent_std": 7.5687773395592055, "train/rep_loss_mean": 4.499832223838483, "train/rep_loss_std": 8.447700963893407, "train/reward_avg": 0.025403003759262428, "train/reward_loss_mean": 0.041980777066988, "train/reward_loss_std": 0.18257992599211947, "train/reward_max_data": 1.0112676083202092, "train/reward_max_pred": 1.0130539914252052, "train/reward_neg_acc": 0.9955462771402278, "train/reward_neg_loss": 0.02046506434128108, "train/reward_pos_acc": 0.9893425148977361, "train/reward_pos_loss": 0.7257959137500172, "train/reward_pred": 0.025250211253132617, "train/reward_rate": 0.030355963908450703, "stats/sum_log_reward": 5.6714284760611395, "stats/max_log_achievement_collect_drink": 3.857142857142857, "stats/max_log_achievement_collect_sapling": 3.5714285714285716, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 6.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.14285714285714285, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_plant": 1.8571428571428572, "stats/max_log_achievement_place_table": 2.7142857142857144, "stats/max_log_achievement_wake_up": 1.8571428571428572, "stats/mean_log_entropy": 0.38745722600391935, "replay/size": 159908.0, "replay/inserts": 1424.0, "replay/samples": 11392.0, "replay/insert_wait_avg": 3.7741795014799313e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2769374284851418e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3352572917938, "timer/env.step_count": 1424.0, "timer/env.step_total": 19.60284972190857, "timer/env.step_frac": 0.06526989171592071, "timer/env.step_avg": 0.013766046153025681, "timer/env.step_min": 0.0030126571655273438, "timer/env.step_max": 1.7806744575500488, "timer/replay.add_count": 1424.0, "timer/replay.add_total": 0.26235008239746094, "timer/replay.add_frac": 0.0008735240902554841, "timer/replay.add_avg": 0.00018423460842518325, "timer/replay.add_min": 7.367134094238281e-05, "timer/replay.add_max": 0.0022149085998535156, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0321352481842041, "timer/logger.write_frac": 0.00010699792116975054, "timer/logger.write_avg": 0.0321352481842041, "timer/logger.write_min": 0.0321352481842041, "timer/logger.write_max": 0.0321352481842041, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003914833068847656, "timer/checkpoint.save_frac": 1.303487677120825e-06, "timer/checkpoint.save_avg": 0.0003914833068847656, "timer/checkpoint.save_min": 0.0003914833068847656, "timer/checkpoint.save_max": 0.0003914833068847656, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3701930046081543, "timer/agent.save_frac": 0.0045622116329716465, "timer/agent.save_avg": 1.3701930046081543, "timer/agent.save_min": 1.3701930046081543, "timer/agent.save_max": 1.3701930046081543, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.012222290039062e-05, "timer/replay.save_frac": 3.0007207183414847e-07, "timer/replay.save_avg": 9.012222290039062e-05, "timer/replay.save_min": 9.012222290039062e-05, "timer/replay.save_max": 9.012222290039062e-05, "timer/agent.policy_count": 1424.0, "timer/agent.policy_total": 11.972442150115967, "timer/agent.policy_frac": 0.0398635919674393, "timer/agent.policy_avg": 0.008407613869463459, "timer/agent.policy_min": 0.005712270736694336, "timer/agent.policy_max": 1.3652105331420898, "timer/dataset_count": 712.0, "timer/dataset_total": 0.06585931777954102, "timer/dataset_frac": 0.00021928600182813274, "timer/dataset_avg": 9.249904182519806e-05, "timer/dataset_min": 7.081031799316406e-05, "timer/dataset_max": 0.0002453327178955078, "timer/agent.train_count": 712.0, "timer/agent.train_total": 267.697154045105, "timer/agent.train_frac": 0.8913277663734999, "timer/agent.train_avg": 0.3759791489397542, "timer/agent.train_min": 0.3658144474029541, "timer/agent.train_max": 2.8185503482818604, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21850347518920898, "timer/agent.report_frac": 0.0007275318827350319, "timer/agent.report_avg": 0.21850347518920898, "timer/agent.report_min": 0.21850347518920898, "timer/agent.report_max": 0.21850347518920898, "fps": 4.741307866109196}
{"step": 160052, "episode/length": 210.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 8.100000001490116, "episode/reward_rate": 0.037914691943127965}
{"step": 160252, "episode/length": 199.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.900000028312206, "episode/reward_rate": 0.025}
{"step": 160690, "episode/length": 437.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.30000001937151, "episode/reward_rate": 0.01598173515981735}
{"step": 160934, "episode/length": 243.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.03278688524590164}
{"step": 161108, "episode/length": 173.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.034482758620689655}
{"step": 161308, "episode/length": 199.0, "episode/score": 5.099999979138374, "episode/sum_abs_reward": 6.900000020861626, "episode/reward_rate": 0.03}
{"step": 161427, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.469836091342038, "train/action_min": 0.0, "train/action_std": 3.4137080924151695, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.053680369604940284, "train/actor_opt_grad_steps": 79800.0, "train/actor_opt_loss": -14.192088430874968, "train/adv_mag": 0.5603051422393486, "train/adv_max": 0.5306517930879985, "train/adv_mean": 0.003380180930372723, "train/adv_min": -0.45540210931268454, "train/adv_std": 0.06261214960927833, "train/cont_avg": 0.9945151969178082, "train/cont_loss_mean": 0.00014583344613026372, "train/cont_loss_std": 0.004599461065132744, "train/cont_neg_acc": 0.9977168955215036, "train/cont_neg_loss": 0.02244951744959919, "train/cont_pos_acc": 0.9999999844864623, "train/cont_pos_loss": 1.4438460564474865e-05, "train/cont_pred": 0.9945176774508333, "train/cont_rate": 0.9945151969178082, "train/dyn_loss_mean": 4.3560432081353175, "train/dyn_loss_std": 8.271535429236007, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1001626889999598, "train/extr_critic_critic_opt_grad_steps": 79800.0, "train/extr_critic_critic_opt_loss": 16365.00078927654, "train/extr_critic_mag": 6.712239722683005, "train/extr_critic_max": 6.712239722683005, "train/extr_critic_mean": 1.3141530033660263, "train/extr_critic_min": -0.6036312531118524, "train/extr_critic_std": 1.4800728608484137, "train/extr_return_normed_mag": 1.5984679819786385, "train/extr_return_normed_max": 1.5984679819786385, "train/extr_return_normed_mean": 0.32352422504392386, "train/extr_return_normed_min": -0.15400893976018853, "train/extr_return_normed_std": 0.32195037093064555, "train/extr_return_rate": 0.5726277419965561, "train/extr_return_raw_mag": 7.327306009318731, "train/extr_return_raw_max": 7.327306009318731, "train/extr_return_raw_mean": 1.330156830075669, "train/extr_return_raw_min": -0.9166197270563204, "train/extr_return_raw_std": 1.5148020492841119, "train/extr_reward_mag": 1.0248637395362332, "train/extr_reward_max": 1.0248637395362332, "train/extr_reward_mean": 0.03404782005675035, "train/extr_reward_min": -0.6520072613676934, "train/extr_reward_std": 0.18245992880977996, "train/image_loss_mean": 2.5719166847124493, "train/image_loss_std": 7.121818503288374, "train/model_loss_mean": 5.227369040659029, "train/model_loss_std": 11.09180080727355, "train/model_opt_grad_norm": 40.36412576126726, "train/model_opt_grad_steps": 79733.19178082192, "train/model_opt_loss": 7721.593107876713, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1489.7260273972602, "train/policy_entropy_mag": 2.347651808229211, "train/policy_entropy_max": 2.347651808229211, "train/policy_entropy_mean": 0.35913777963755883, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.44421495150213375, "train/policy_logprob_mag": 7.438384062623324, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.35710049736989685, "train/policy_logprob_min": -7.438384062623324, "train/policy_logprob_std": 0.9650133962500586, "train/policy_randomness_mag": 0.8286180610526098, "train/policy_randomness_max": 0.8286180610526098, "train/policy_randomness_mean": 0.12675987663742613, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15678838262819264, "train/post_ent_mag": 54.67629983980362, "train/post_ent_max": 54.67629983980362, "train/post_ent_mean": 38.436087151096295, "train/post_ent_min": 17.912010898328806, "train/post_ent_std": 5.811064249848666, "train/prior_ent_mag": 74.9101752712302, "train/prior_ent_max": 74.9101752712302, "train/prior_ent_mean": 42.74526491557082, "train/prior_ent_min": 23.721532847783337, "train/prior_ent_std": 7.512174554067116, "train/rep_loss_mean": 4.3560432081353175, "train/rep_loss_std": 8.271535429236007, "train/reward_avg": 0.02426557115291896, "train/reward_loss_mean": 0.04168057666249471, "train/reward_loss_std": 0.18506635051884063, "train/reward_max_data": 1.0068493167014971, "train/reward_max_pred": 1.0094274854006833, "train/reward_neg_acc": 0.9957261461101167, "train/reward_neg_loss": 0.02088027169341094, "train/reward_pos_acc": 0.9869711546048726, "train/reward_pos_loss": 0.7347745111543839, "train/reward_pred": 0.024109215450103152, "train/reward_rate": 0.0292433647260274, "stats/sum_log_reward": 5.433333317438762, "stats/max_log_achievement_collect_drink": 5.166666666666667, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 6.833333333333333, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_table": 2.6666666666666665, "stats/max_log_achievement_wake_up": 2.5, "stats/mean_log_entropy": 0.4660498301188151, "replay/size": 161364.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.7537826286567437e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.28342391370417e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2301342487335, "timer/env.step_count": 1456.0, "timer/env.step_total": 17.184829473495483, "timer/env.step_frac": 0.057238856174438045, "timer/env.step_avg": 0.011802767495532612, "timer/env.step_min": 0.003117084503173828, "timer/env.step_max": 1.7158617973327637, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.26756834983825684, "timer/replay.add_frac": 0.0008912108390045312, "timer/replay.add_avg": 0.0001837694710427588, "timer/replay.add_min": 7.224082946777344e-05, "timer/replay.add_max": 0.0037603378295898438, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023144006729125977, "timer/logger.write_frac": 7.708755414255559e-05, "timer/logger.write_avg": 0.023144006729125977, "timer/logger.write_min": 0.023144006729125977, "timer/logger.write_max": 0.023144006729125977, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 10.776823282241821, "timer/agent.policy_frac": 0.035895208551295785, "timer/agent.policy_avg": 0.0074016643421990535, "timer/agent.policy_min": 0.00580143928527832, "timer/agent.policy_max": 0.01972174644470215, "timer/dataset_count": 728.0, "timer/dataset_total": 0.06685280799865723, "timer/dataset_frac": 0.00022267187857722258, "timer/dataset_avg": 9.183078021793576e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.00021529197692871094, "timer/agent.train_count": 728.0, "timer/agent.train_total": 271.20272421836853, "timer/agent.train_frac": 0.9033161341282402, "timer/agent.train_avg": 0.37253121458567107, "timer/agent.train_min": 0.36587953567504883, "timer/agent.train_max": 0.38692569732666016, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21940112113952637, "timer/agent.report_frac": 0.0007307764814765655, "timer/agent.report_avg": 0.21940112113952637, "timer/agent.report_min": 0.21940112113952637, "timer/agent.report_max": 0.21940112113952637, "fps": 4.849543409658156}
{"step": 161453, "episode/length": 144.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.3000000193715096, "episode/reward_rate": 0.041379310344827586}
{"step": 161635, "episode/length": 181.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.299999997019768, "episode/reward_rate": 0.038461538461538464}
{"step": 161799, "episode/length": 163.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.036585365853658534}
{"step": 161987, "episode/length": 187.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.900000013411045, "episode/reward_rate": 0.047872340425531915}
{"step": 162066, "episode/length": 78.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.3000000193715096, "episode/reward_rate": 0.05063291139240506}
{"step": 162207, "episode/length": 140.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.05673758865248227}
{"step": 162386, "episode/length": 178.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.0223463687150838}
{"step": 162551, "episode/length": 164.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.03636363636363636}
{"step": 162710, "episode/length": 158.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03773584905660377}
{"step": 162859, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4594675699869795, "train/action_min": 0.0, "train/action_std": 3.32844814658165, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05214700661599636, "train/actor_opt_grad_steps": 80525.0, "train/actor_opt_loss": -15.565045901470715, "train/adv_mag": 0.589449153178268, "train/adv_max": 0.5626149173412058, "train/adv_mean": 0.002971704042768882, "train/adv_min": -0.473544602178865, "train/adv_std": 0.06138140123544468, "train/cont_avg": 0.9942762586805556, "train/cont_loss_mean": 7.957279407162016e-05, "train/cont_loss_std": 0.002435891226809872, "train/cont_neg_acc": 0.9944444447755814, "train/cont_neg_loss": 0.011805522323963183, "train/cont_pos_acc": 0.999999985926681, "train/cont_pos_loss": 2.0811636163939636e-05, "train/cont_pred": 0.994287316997846, "train/cont_rate": 0.9942762586805556, "train/dyn_loss_mean": 4.389246881008148, "train/dyn_loss_std": 8.2666068871816, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0382744719584782, "train/extr_critic_critic_opt_grad_steps": 80525.0, "train/extr_critic_critic_opt_loss": 15918.091593424479, "train/extr_critic_mag": 6.91652559571796, "train/extr_critic_max": 6.91652559571796, "train/extr_critic_mean": 1.3420797296696239, "train/extr_critic_min": -0.6068320522705714, "train/extr_critic_std": 1.4984584881199732, "train/extr_return_normed_mag": 1.629681881931093, "train/extr_return_normed_max": 1.629681881931093, "train/extr_return_normed_mean": 0.3317039304723342, "train/extr_return_normed_min": -0.14953250800155932, "train/extr_return_normed_std": 0.3251533094379637, "train/extr_return_rate": 0.5782678988244798, "train/extr_return_raw_mag": 7.4720152550273475, "train/extr_return_raw_max": 7.4720152550273475, "train/extr_return_raw_mean": 1.3560895356867049, "train/extr_return_raw_min": -0.9123028243581454, "train/extr_return_raw_std": 1.5322351588143244, "train/extr_reward_mag": 1.025791169868575, "train/extr_reward_max": 1.025791169868575, "train/extr_reward_mean": 0.03454675869498816, "train/extr_reward_min": -0.662141963839531, "train/extr_reward_std": 0.18387902859184477, "train/image_loss_mean": 2.5554871724711523, "train/image_loss_std": 6.9157682988378735, "train/model_loss_mean": 5.231456233395471, "train/model_loss_std": 10.899191909366184, "train/model_opt_grad_norm": 38.690839211146034, "train/model_opt_grad_steps": 80458.0, "train/model_opt_loss": 9305.535827636719, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1788.1944444444443, "train/policy_entropy_mag": 2.3547980222437115, "train/policy_entropy_max": 2.3547980222437115, "train/policy_entropy_mean": 0.3595390361216333, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.44596945328844917, "train/policy_logprob_mag": 7.438384075959523, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.359594464302063, "train/policy_logprob_min": -7.438384075959523, "train/policy_logprob_std": 0.9742250690857569, "train/policy_randomness_mag": 0.8311403633819686, "train/policy_randomness_max": 0.8311403633819686, "train/policy_randomness_mean": 0.12690149972008335, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1574076446187165, "train/post_ent_mag": 54.34273502561781, "train/post_ent_max": 54.34273502561781, "train/post_ent_mean": 38.6432835261027, "train/post_ent_min": 18.70188097159068, "train/post_ent_std": 5.822572423352136, "train/prior_ent_mag": 74.87053839365642, "train/prior_ent_max": 74.87053839365642, "train/prior_ent_mean": 42.97472641203139, "train/prior_ent_min": 23.60398923026191, "train/prior_ent_std": 7.517423464192285, "train/rep_loss_mean": 4.389246881008148, "train/rep_loss_std": 8.2666068871816, "train/reward_avg": 0.024911837859286204, "train/reward_loss_mean": 0.04234141553752124, "train/reward_loss_std": 0.18677936121821404, "train/reward_max_data": 1.0027777784400516, "train/reward_max_pred": 1.004441711637709, "train/reward_neg_acc": 0.995384575592147, "train/reward_neg_loss": 0.02080680217800869, "train/reward_pos_acc": 0.9868743775619401, "train/reward_pos_loss": 0.7366136088967323, "train/reward_pred": 0.024632061495342188, "train/reward_rate": 0.030083550347222224, "stats/sum_log_reward": 5.100000090069241, "stats/max_log_achievement_collect_drink": 2.6666666666666665, "stats/max_log_achievement_collect_sapling": 2.888888888888889, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 5.111111111111111, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.2222222222222222, "stats/max_log_achievement_eat_cow": 0.2222222222222222, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.4444444444444444, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_table": 1.7777777777777777, "stats/max_log_achievement_wake_up": 1.1111111111111112, "stats/mean_log_entropy": 0.30794795685344273, "replay/size": 162796.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.7817315682352586e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.36589121552153e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.13819313049316, "timer/env.step_count": 1432.0, "timer/env.step_total": 21.8117733001709, "timer/env.step_frac": 0.07267243489630672, "timer/env.step_avg": 0.015231685265482471, "timer/env.step_min": 0.0029795169830322266, "timer/env.step_max": 1.716036319732666, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.27776336669921875, "timer/replay.add_frac": 0.000925451585491666, "timer/replay.add_avg": 0.00019396883149386786, "timer/replay.add_min": 7.05718994140625e-05, "timer/replay.add_max": 0.011811017990112305, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02774500846862793, "timer/logger.write_frac": 9.244077929317393e-05, "timer/logger.write_avg": 0.02774500846862793, "timer/logger.write_min": 0.02774500846862793, "timer/logger.write_max": 0.02774500846862793, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 10.612744569778442, "timer/agent.policy_frac": 0.03535952708679187, "timer/agent.policy_avg": 0.007411134476102264, "timer/agent.policy_min": 0.0056421756744384766, "timer/agent.policy_max": 0.01971292495727539, "timer/dataset_count": 716.0, "timer/dataset_total": 0.06720280647277832, "timer/dataset_frac": 0.00022390621390713873, "timer/dataset_avg": 9.385866825807028e-05, "timer/dataset_min": 7.200241088867188e-05, "timer/dataset_max": 0.002019166946411133, "timer/agent.train_count": 716.0, "timer/agent.train_total": 266.6347351074219, "timer/agent.train_frac": 0.8883732267672286, "timer/agent.train_avg": 0.37239488143494676, "timer/agent.train_min": 0.3663444519042969, "timer/agent.train_max": 0.3849470615386963, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22075414657592773, "timer/agent.report_frac": 0.0007355083479160846, "timer/agent.report_avg": 0.22075414657592773, "timer/agent.report_min": 0.22075414657592773, "timer/agent.report_max": 0.22075414657592773, "fps": 4.771038661159522}
{"step": 162947, "episode/length": 236.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.500000022351742, "episode/reward_rate": 0.029535864978902954}
{"step": 163137, "episode/length": 189.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.031578947368421054}
{"step": 163327, "episode/length": 189.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.03684210526315789}
{"step": 163551, "episode/length": 223.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.03125}
{"step": 163767, "episode/length": 215.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.299999997019768, "episode/reward_rate": 0.041666666666666664}
{"step": 163972, "episode/length": 204.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.900000050663948, "episode/reward_rate": 0.03902439024390244}
{"step": 164120, "episode/length": 147.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.0472972972972973}
{"step": 164285, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.47960136306118, "train/action_min": 0.0, "train/action_std": 3.293784776204069, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05178959268919179, "train/actor_opt_grad_steps": 81240.0, "train/actor_opt_loss": -13.750759888702715, "train/adv_mag": 0.538361453254458, "train/adv_max": 0.5104120021135035, "train/adv_mean": 0.003446193707954798, "train/adv_min": -0.4432582347325876, "train/adv_std": 0.06105152071571686, "train/cont_avg": 0.9943744498239436, "train/cont_loss_mean": 9.188189767588534e-06, "train/cont_loss_std": 0.0002585327125955982, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0004125221052880745, "train/cont_pos_acc": 0.9999999823704572, "train/cont_pos_loss": 5.896019199729982e-06, "train/cont_pred": 0.9943723712168949, "train/cont_rate": 0.9943744498239436, "train/dyn_loss_mean": 4.713220196710506, "train/dyn_loss_std": 8.458450189778503, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1263680474858888, "train/extr_critic_critic_opt_grad_steps": 81240.0, "train/extr_critic_critic_opt_loss": 16243.964774977992, "train/extr_critic_mag": 6.9522534155509845, "train/extr_critic_max": 6.9522534155509845, "train/extr_critic_mean": 1.301341087045804, "train/extr_critic_min": -0.5498776872393111, "train/extr_critic_std": 1.5054270247338524, "train/extr_return_normed_mag": 1.6284137930668576, "train/extr_return_normed_max": 1.6284137930668576, "train/extr_return_normed_mean": 0.3191982371286607, "train/extr_return_normed_min": -0.1508472479984794, "train/extr_return_normed_std": 0.32328074247064725, "train/extr_return_rate": 0.5721739576735967, "train/extr_return_raw_mag": 7.550762015329281, "train/extr_return_raw_max": 7.550762015329281, "train/extr_return_raw_mean": 1.3177912713776172, "train/extr_return_raw_min": -0.9196680104228813, "train/extr_return_raw_std": 1.5388642062603588, "train/extr_reward_mag": 1.0160167989596514, "train/extr_reward_max": 1.0160167989596514, "train/extr_reward_mean": 0.03282209031913482, "train/extr_reward_min": -0.6664676397619113, "train/extr_reward_std": 0.18004568613750835, "train/image_loss_mean": 2.859003617729939, "train/image_loss_std": 7.708674625611641, "train/model_loss_mean": 5.72964764312959, "train/model_loss_std": 11.753690921084981, "train/model_opt_grad_norm": 37.419970660142496, "train/model_opt_grad_steps": 81172.74647887323, "train/model_opt_loss": 12518.831102827904, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2183.0985915492956, "train/policy_entropy_mag": 2.3612112428101018, "train/policy_entropy_max": 2.3612112428101018, "train/policy_entropy_mean": 0.35046518016868916, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4375740889932068, "train/policy_logprob_mag": 7.438384062807325, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.350256922799097, "train/policy_logprob_min": -7.438384062807325, "train/policy_logprob_std": 0.9657757147936754, "train/policy_randomness_mag": 0.8334039466481813, "train/policy_randomness_max": 0.8334039466481813, "train/policy_randomness_mean": 0.1236988290304869, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15444445148320265, "train/post_ent_mag": 54.60060076646402, "train/post_ent_max": 54.60060076646402, "train/post_ent_mean": 38.642945732868895, "train/post_ent_min": 18.582833276668065, "train/post_ent_std": 5.895436542134889, "train/prior_ent_mag": 74.94581818916429, "train/prior_ent_max": 74.94581818916429, "train/prior_ent_mean": 43.32638710989079, "train/prior_ent_min": 24.025848522992202, "train/prior_ent_std": 7.57088870061955, "train/rep_loss_mean": 4.713220196710506, "train/rep_loss_std": 8.458450189778503, "train/reward_avg": 0.02411834286971831, "train/reward_loss_mean": 0.04270284121829859, "train/reward_loss_std": 0.18396644084386424, "train/reward_max_data": 1.0070422552001308, "train/reward_max_pred": 1.00738705715663, "train/reward_neg_acc": 0.9952975477970821, "train/reward_neg_loss": 0.022034135765173067, "train/reward_pos_acc": 0.9886820022488984, "train/reward_pos_loss": 0.729910198231818, "train/reward_pred": 0.0239085857166161, "train/reward_rate": 0.029159330985915492, "stats/sum_log_reward": 6.242857047489712, "stats/max_log_achievement_collect_drink": 5.142857142857143, "stats/max_log_achievement_collect_sapling": 3.142857142857143, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 6.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5714285714285714, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_plant": 2.857142857142857, "stats/max_log_achievement_place_table": 2.4285714285714284, "stats/max_log_achievement_wake_up": 2.0, "stats/mean_log_entropy": 0.3369999953678676, "replay/size": 164222.0, "replay/inserts": 1426.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 3.750494787101157e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2623352556375768e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.27870082855225, "timer/env.step_count": 1426.0, "timer/env.step_total": 21.48270273208618, "timer/env.step_frac": 0.07154254588423836, "timer/env.step_avg": 0.015065008928531683, "timer/env.step_min": 0.002910614013671875, "timer/env.step_max": 2.611290693283081, "timer/replay.add_count": 1426.0, "timer/replay.add_total": 0.2770271301269531, "timer/replay.add_frac": 0.0009225667000774893, "timer/replay.add_avg": 0.00019426867470333318, "timer/replay.add_min": 8.20159912109375e-05, "timer/replay.add_max": 0.007915496826171875, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028637409210205078, "timer/logger.write_frac": 9.536943223474233e-05, "timer/logger.write_avg": 0.028637409210205078, "timer/logger.write_min": 0.028637409210205078, "timer/logger.write_max": 0.028637409210205078, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002009868621826172, "timer/checkpoint.save_frac": 6.693343937749786e-07, "timer/checkpoint.save_avg": 0.0002009868621826172, "timer/checkpoint.save_min": 0.0002009868621826172, "timer/checkpoint.save_max": 0.0002009868621826172, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.361959457397461, "timer/agent.save_frac": 0.004535651225476322, "timer/agent.save_avg": 1.361959457397461, "timer/agent.save_min": 1.361959457397461, "timer/agent.save_max": 1.361959457397461, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.510185241699219e-05, "timer/replay.save_frac": 2.501071578162732e-07, "timer/replay.save_avg": 7.510185241699219e-05, "timer/replay.save_min": 7.510185241699219e-05, "timer/replay.save_max": 7.510185241699219e-05, "timer/agent.policy_count": 1426.0, "timer/agent.policy_total": 11.824184894561768, "timer/agent.policy_frac": 0.039377367964945766, "timer/agent.policy_avg": 0.008291854764769823, "timer/agent.policy_min": 0.005746126174926758, "timer/agent.policy_max": 1.3465189933776855, "timer/dataset_count": 713.0, "timer/dataset_total": 0.06511425971984863, "timer/dataset_frac": 0.0002168460817906176, "timer/dataset_avg": 9.132434743316779e-05, "timer/dataset_min": 6.4849853515625e-05, "timer/dataset_max": 0.001180410385131836, "timer/agent.train_count": 713.0, "timer/agent.train_total": 265.9026942253113, "timer/agent.train_frac": 0.8855196638709705, "timer/agent.train_avg": 0.37293505501446184, "timer/agent.train_min": 0.36510443687438965, "timer/agent.train_max": 0.8429806232452393, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2195720672607422, "timer/agent.report_frac": 0.0007312275784292457, "timer/agent.report_avg": 0.2195720672607422, "timer/agent.report_min": 0.2195720672607422, "timer/agent.report_max": 0.2195720672607422, "fps": 4.748843563396949}
{"step": 164331, "episode/length": 210.0, "episode/score": 6.099999979138374, "episode/sum_abs_reward": 7.900000020861626, "episode/reward_rate": 0.03317535545023697}
{"step": 164469, "episode/length": 137.0, "episode/score": 5.100000001490116, "episode/sum_abs_reward": 7.1000000312924385, "episode/reward_rate": 0.043478260869565216}
{"step": 164637, "episode/length": 167.0, "episode/score": 7.1000000312924385, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.05357142857142857}
{"step": 164785, "episode/length": 147.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.500000022351742, "episode/reward_rate": 0.033783783783783786}
{"step": 164974, "episode/length": 188.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.0999999940395355, "episode/reward_rate": 0.037037037037037035}
{"step": 165213, "episode/length": 238.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.029288702928870293}
{"step": 165391, "episode/length": 177.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.033707865168539325}
{"step": 165538, "episode/length": 146.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 5.900000050663948, "episode/reward_rate": 0.027210884353741496}
{"step": 165700, "episode/length": 161.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.043209876543209874}
{"step": 165717, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.404283120598592, "train/action_min": 0.0, "train/action_std": 3.3263091839535135, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05296099553225746, "train/actor_opt_grad_steps": 81950.0, "train/actor_opt_loss": -15.003391100067487, "train/adv_mag": 0.6218364687872605, "train/adv_max": 0.5430530632885409, "train/adv_mean": 0.0037202605654410754, "train/adv_min": -0.5167558369502215, "train/adv_std": 0.06279812050117574, "train/cont_avg": 0.9943194322183099, "train/cont_loss_mean": 1.7613387887624258e-05, "train/cont_loss_std": 0.0004218970643841792, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0004945676113442152, "train/cont_pos_acc": 0.9999999815309552, "train/cont_pos_loss": 1.471670668416571e-05, "train/cont_pred": 0.9943089258502906, "train/cont_rate": 0.9943194322183099, "train/dyn_loss_mean": 4.650936690854355, "train/dyn_loss_std": 8.449154914264948, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0984685832345988, "train/extr_critic_critic_opt_grad_steps": 81950.0, "train/extr_critic_critic_opt_loss": 16410.324782680458, "train/extr_critic_mag": 7.325659758608106, "train/extr_critic_max": 7.325659758608106, "train/extr_critic_mean": 1.4016382056222836, "train/extr_critic_min": -0.6113722710542275, "train/extr_critic_std": 1.58370286813924, "train/extr_return_normed_mag": 1.6747793983405745, "train/extr_return_normed_max": 1.6747793983405745, "train/extr_return_normed_mean": 0.3369359829476182, "train/extr_return_normed_min": -0.1493648003104707, "train/extr_return_normed_std": 0.335429009837164, "train/extr_return_rate": 0.5956692275866656, "train/extr_return_raw_mag": 7.900573737184766, "train/extr_return_raw_max": 7.900573737184766, "train/extr_return_raw_mean": 1.419694419478027, "train/extr_return_raw_min": -0.9338491357548137, "train/extr_return_raw_std": 1.624087931404651, "train/extr_reward_mag": 1.0266891936181297, "train/extr_reward_max": 1.0266891936181297, "train/extr_reward_mean": 0.0348280864754613, "train/extr_reward_min": -0.6673857275868805, "train/extr_reward_std": 0.18591890893351865, "train/image_loss_mean": 2.831880015386662, "train/image_loss_std": 7.8115787103142535, "train/model_loss_mean": 5.667171169334734, "train/model_loss_std": 11.830945807443538, "train/model_opt_grad_norm": 39.81602279233261, "train/model_opt_grad_steps": 81882.0, "train/model_opt_loss": 7083.963977222711, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.35588229877848, "train/policy_entropy_max": 2.35588229877848, "train/policy_entropy_mean": 0.3483645802652332, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.43518539843424947, "train/policy_logprob_mag": 7.438384076239357, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3492608152224984, "train/policy_logprob_min": -7.438384076239357, "train/policy_logprob_std": 0.9670233357120568, "train/policy_randomness_mag": 0.8315230658356573, "train/policy_randomness_max": 0.8315230658356573, "train/policy_randomness_mean": 0.12295740779856561, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15360134567173434, "train/post_ent_mag": 54.43815123866981, "train/post_ent_max": 54.43815123866981, "train/post_ent_mean": 38.54945368162343, "train/post_ent_min": 18.78605170988701, "train/post_ent_std": 5.898239518555117, "train/prior_ent_mag": 74.86408738687005, "train/prior_ent_max": 74.86408738687005, "train/prior_ent_mean": 43.15445918768224, "train/prior_ent_min": 23.81850062625509, "train/prior_ent_std": 7.585487345574608, "train/rep_loss_mean": 4.650936690854355, "train/rep_loss_std": 8.449154914264948, "train/reward_avg": 0.025174680716869697, "train/reward_loss_mean": 0.04471154602795419, "train/reward_loss_std": 0.19702148101699185, "train/reward_max_data": 1.0140845104002616, "train/reward_max_pred": 1.0164648059388282, "train/reward_neg_acc": 0.9952341091464942, "train/reward_neg_loss": 0.022858612987042313, "train/reward_pos_acc": 0.9870630494305785, "train/reward_pos_loss": 0.7459429284216652, "train/reward_pred": 0.024945420265512566, "train/reward_rate": 0.030369718309859156, "stats/sum_log_reward": 5.322222126854791, "stats/max_log_achievement_collect_drink": 3.3333333333333335, "stats/max_log_achievement_collect_sapling": 1.8888888888888888, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 6.444444444444445, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.2222222222222222, "stats/max_log_achievement_eat_cow": 0.1111111111111111, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.6666666666666666, "stats/max_log_achievement_place_plant": 1.4444444444444444, "stats/max_log_achievement_place_table": 2.6666666666666665, "stats/max_log_achievement_wake_up": 1.4444444444444444, "stats/mean_log_entropy": 0.3029217604133818, "replay/size": 165654.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.866310226184696e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2533832861724513e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0884063243866, "timer/env.step_count": 1432.0, "timer/env.step_total": 21.904540538787842, "timer/env.step_frac": 0.0729936248023847, "timer/env.step_avg": 0.015296466856695421, "timer/env.step_min": 0.0027582645416259766, "timer/env.step_max": 1.7176158428192139, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.28469204902648926, "timer/replay.add_frac": 0.0009486939282777412, "timer/replay.add_avg": 0.00019880729680620758, "timer/replay.add_min": 7.605552673339844e-05, "timer/replay.add_max": 0.006735086441040039, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030523300170898438, "timer/logger.write_frac": 0.00010171435992733309, "timer/logger.write_avg": 0.030523300170898438, "timer/logger.write_min": 0.030523300170898438, "timer/logger.write_max": 0.030523300170898438, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 10.417921781539917, "timer/agent.policy_frac": 0.034716175506888644, "timer/agent.policy_avg": 0.007275085042974802, "timer/agent.policy_min": 0.005674123764038086, "timer/agent.policy_max": 0.019144296646118164, "timer/dataset_count": 716.0, "timer/dataset_total": 0.06436514854431152, "timer/dataset_frac": 0.00021448728837172976, "timer/dataset_avg": 8.989545886077028e-05, "timer/dataset_min": 7.009506225585938e-05, "timer/dataset_max": 0.0003523826599121094, "timer/agent.train_count": 716.0, "timer/agent.train_total": 266.6831531524658, "timer/agent.train_frac": 0.8886819601560658, "timer/agent.train_avg": 0.3724625044028852, "timer/agent.train_min": 0.3667869567871094, "timer/agent.train_max": 0.38335227966308594, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22219276428222656, "timer/agent.report_frac": 0.0007404243536221217, "timer/agent.report_avg": 0.22219276428222656, "timer/agent.report_min": 0.22219276428222656, "timer/agent.report_max": 0.22219276428222656, "fps": 4.771866532534398}
{"step": 165865, "episode/length": 164.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.03636363636363636}
{"step": 166043, "episode/length": 177.0, "episode/score": 7.099999964237213, "episode/sum_abs_reward": 9.099999994039536, "episode/reward_rate": 0.0449438202247191}
{"step": 166284, "episode/length": 240.0, "episode/score": 7.099999971687794, "episode/sum_abs_reward": 9.100000031292439, "episode/reward_rate": 0.03734439834024896}
{"step": 166402, "episode/length": 117.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.0423728813559322}
{"step": 166579, "episode/length": 176.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.04519774011299435}
{"step": 166761, "episode/length": 181.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.5, "episode/reward_rate": 0.038461538461538464}
{"step": 166930, "episode/length": 168.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.047337278106508875}
{"step": 167082, "episode/length": 151.0, "episode/score": 5.100000023841858, "episode/sum_abs_reward": 7.299999982118607, "episode/reward_rate": 0.046052631578947366}
{"step": 167155, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.536715189615886, "train/action_min": 0.0, "train/action_std": 3.4059281084272595, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04989191796630621, "train/actor_opt_grad_steps": 82665.0, "train/actor_opt_loss": -15.844849919279417, "train/adv_mag": 0.5504154318736659, "train/adv_max": 0.5127759099834495, "train/adv_mean": 0.002535534437811293, "train/adv_min": -0.45269112040599185, "train/adv_std": 0.05964932787335581, "train/cont_avg": 0.9943440755208334, "train/cont_loss_mean": 3.365345211313474e-05, "train/cont_loss_std": 0.0009014968854488517, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0014027894032122073, "train/cont_pos_acc": 0.9999862785140673, "train/cont_pos_loss": 2.3369699326517928e-05, "train/cont_pred": 0.9943343011869324, "train/cont_rate": 0.9943440755208334, "train/dyn_loss_mean": 4.5462740692827435, "train/dyn_loss_std": 8.411356780264112, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0983322660128276, "train/extr_critic_critic_opt_grad_steps": 82665.0, "train/extr_critic_critic_opt_loss": 15917.962809244791, "train/extr_critic_mag": 7.002248644828796, "train/extr_critic_max": 7.002248644828796, "train/extr_critic_mean": 1.4037408621774778, "train/extr_critic_min": -0.619931826988856, "train/extr_critic_std": 1.547600617011388, "train/extr_return_normed_mag": 1.5932392014397516, "train/extr_return_normed_max": 1.5932392014397516, "train/extr_return_normed_mean": 0.33130112704303527, "train/extr_return_normed_min": -0.14941201343511543, "train/extr_return_normed_std": 0.3238384657435947, "train/extr_return_rate": 0.5954572078254488, "train/extr_return_raw_mag": 7.581360571914249, "train/extr_return_raw_max": 7.581360571914249, "train/extr_return_raw_mean": 1.416196891831027, "train/extr_return_raw_min": -0.9318891097274091, "train/extr_return_raw_std": 1.5821094893746905, "train/extr_reward_mag": 1.0272603564792209, "train/extr_reward_max": 1.0272603564792209, "train/extr_reward_mean": 0.03339359384133584, "train/extr_reward_min": -0.6691368967294693, "train/extr_reward_std": 0.1821745592686865, "train/image_loss_mean": 2.8717202064063816, "train/image_loss_std": 7.59440611799558, "train/model_loss_mean": 5.6428055498335095, "train/model_loss_std": 11.600188930829367, "train/model_opt_grad_norm": 37.67397141792405, "train/model_opt_grad_steps": 82596.30555555556, "train/model_opt_loss": 8299.90416124132, "train/model_opt_model_opt_grad_overflow": 0.013888888888888888, "train/model_opt_model_opt_grad_scale": 1440.9722222222222, "train/policy_entropy_mag": 2.3524194856484733, "train/policy_entropy_max": 2.3524194856484733, "train/policy_entropy_mean": 0.36507563210195965, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4547450964649518, "train/policy_logprob_mag": 7.438384102450477, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3646377685169379, "train/policy_logprob_min": -7.438384102450477, "train/policy_logprob_std": 0.9772318046953943, "train/policy_randomness_mag": 0.830300842722257, "train/policy_randomness_max": 0.830300842722257, "train/policy_randomness_mean": 0.12885567773547438, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16050506052043703, "train/post_ent_mag": 54.79481426874796, "train/post_ent_max": 54.79481426874796, "train/post_ent_mean": 38.80582698186239, "train/post_ent_min": 18.99236606227027, "train/post_ent_std": 5.890840662850274, "train/prior_ent_mag": 75.09611913892958, "train/prior_ent_max": 75.09611913892958, "train/prior_ent_mean": 43.32110505633884, "train/prior_ent_min": 24.42366666264004, "train/prior_ent_std": 7.539158980051677, "train/rep_loss_mean": 4.5462740692827435, "train/rep_loss_std": 8.411356780264112, "train/reward_avg": 0.02481825057313674, "train/reward_loss_mean": 0.04328727846344312, "train/reward_loss_std": 0.1911318167630169, "train/reward_max_data": 1.0055555568801031, "train/reward_max_pred": 1.0074765748447843, "train/reward_neg_acc": 0.9954948450128237, "train/reward_neg_loss": 0.02178883160619686, "train/reward_pos_acc": 0.9860133197572496, "train/reward_pos_loss": 0.7401270866394043, "train/reward_pred": 0.0245738204749715, "train/reward_rate": 0.029975043402777776, "stats/sum_log_reward": 5.725000023841858, "stats/max_log_achievement_collect_drink": 3.875, "stats/max_log_achievement_collect_sapling": 3.0, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 6.625, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.375, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_plant": 2.375, "stats/max_log_achievement_place_table": 2.125, "stats/max_log_achievement_wake_up": 1.375, "stats/mean_log_entropy": 0.333922415971756, "replay/size": 167092.0, "replay/inserts": 1438.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.7137258367843523e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2658940568587047e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.14712357521057, "timer/env.step_count": 1438.0, "timer/env.step_total": 20.936383485794067, "timer/env.step_frac": 0.06975373688879563, "timer/env.step_avg": 0.014559376554794206, "timer/env.step_min": 0.002946615219116211, "timer/env.step_max": 1.7855522632598877, "timer/replay.add_count": 1438.0, "timer/replay.add_total": 0.26368021965026855, "timer/replay.add_frac": 0.0008785032370440019, "timer/replay.add_avg": 0.00018336593856068745, "timer/replay.add_min": 7.581710815429688e-05, "timer/replay.add_max": 0.0017559528350830078, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022813081741333008, "timer/logger.write_frac": 7.60063313937324e-05, "timer/logger.write_avg": 0.022813081741333008, "timer/logger.write_min": 0.022813081741333008, "timer/logger.write_max": 0.022813081741333008, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1438.0, "timer/agent.policy_total": 10.560189962387085, "timer/agent.policy_frac": 0.03518337885967087, "timer/agent.policy_avg": 0.007343664786082813, "timer/agent.policy_min": 0.005644798278808594, "timer/agent.policy_max": 0.023676633834838867, "timer/dataset_count": 719.0, "timer/dataset_total": 0.0641324520111084, "timer/dataset_frac": 0.00021367005369631053, "timer/dataset_avg": 8.919673436871821e-05, "timer/dataset_min": 6.4849853515625e-05, "timer/dataset_max": 0.0001811981201171875, "timer/agent.train_count": 719.0, "timer/agent.train_total": 267.59765696525574, "timer/agent.train_frac": 0.8915549607064662, "timer/agent.train_avg": 0.37218032957615543, "timer/agent.train_min": 0.36587977409362793, "timer/agent.train_max": 0.3848409652709961, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22029423713684082, "timer/agent.report_frac": 0.000733954183910877, "timer/agent.report_avg": 0.22029423713684082, "timer/agent.report_min": 0.22029423713684082, "timer/agent.report_max": 0.22029423713684082, "fps": 4.790909557048906}
{"step": 167267, "episode/length": 184.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.03783783783783784}
{"step": 167429, "episode/length": 161.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.043209876543209874}
{"step": 167486, "episode/length": 56.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.100000016391277, "episode/reward_rate": 0.05263157894736842}
{"step": 167637, "episode/length": 150.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.039735099337748346}
{"step": 167813, "episode/length": 175.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.03977272727272727}
{"step": 167981, "episode/length": 167.0, "episode/score": 6.099999979138374, "episode/sum_abs_reward": 7.900000020861626, "episode/reward_rate": 0.041666666666666664}
{"step": 168137, "episode/length": 155.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.04487179487179487}
{"step": 168217, "episode/length": 79.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.0875}
{"step": 168571, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.511957732724472, "train/action_min": 0.0, "train/action_std": 3.3904175657621574, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05124923969868203, "train/actor_opt_grad_steps": 83380.0, "train/actor_opt_loss": -16.164890589638496, "train/adv_mag": 0.5680078817924983, "train/adv_max": 0.5355204595646388, "train/adv_mean": 0.0032923416457238154, "train/adv_min": -0.4612063253429574, "train/adv_std": 0.06089081987738609, "train/cont_avg": 0.9943331866197183, "train/cont_loss_mean": 6.731037407122822e-06, "train/cont_loss_std": 0.00015225349945809978, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00032250811248777094, "train/cont_pos_acc": 0.9999999806914531, "train/cont_pos_loss": 5.08883256560226e-06, "train/cont_pred": 0.9943298185375374, "train/cont_rate": 0.9943331866197183, "train/dyn_loss_mean": 4.477777514659183, "train/dyn_loss_std": 8.435495497475207, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0786512275816689, "train/extr_critic_critic_opt_grad_steps": 83380.0, "train/extr_critic_critic_opt_loss": 16070.123266945422, "train/extr_critic_mag": 7.138284696659571, "train/extr_critic_max": 7.138284696659571, "train/extr_critic_mean": 1.4235887040554638, "train/extr_critic_min": -0.6403389329641638, "train/extr_critic_std": 1.5720300758388681, "train/extr_return_normed_mag": 1.62978861869221, "train/extr_return_normed_max": 1.62978861869221, "train/extr_return_normed_mean": 0.3348393448641602, "train/extr_return_normed_min": -0.1584498254765927, "train/extr_return_normed_std": 0.33054913853255796, "train/extr_return_rate": 0.589340371145329, "train/extr_return_raw_mag": 7.737166485316317, "train/extr_return_raw_max": 7.737166485316317, "train/extr_return_raw_mean": 1.4396203479296725, "train/extr_return_raw_min": -0.9586472821907258, "train/extr_return_raw_std": 1.6072020228479948, "train/extr_reward_mag": 1.0281674425366898, "train/extr_reward_max": 1.0281674425366898, "train/extr_reward_mean": 0.034008670650737385, "train/extr_reward_min": -0.6888337152104982, "train/extr_reward_std": 0.18414236059491063, "train/image_loss_mean": 2.7549489064955375, "train/image_loss_std": 7.522071683910531, "train/model_loss_mean": 5.484218859336745, "train/model_loss_std": 11.59635174442345, "train/model_opt_grad_norm": 36.45177607469156, "train/model_opt_grad_steps": 83311.0, "train/model_opt_loss": 8836.858673525529, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1602.112676056338, "train/policy_entropy_mag": 2.3084876000041694, "train/policy_entropy_max": 2.3084876000041694, "train/policy_entropy_mean": 0.3695971264805592, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.45687155614436514, "train/policy_logprob_mag": 7.438384109819439, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36982827874976143, "train/policy_logprob_min": -7.438384109819439, "train/policy_logprob_std": 0.9821772231182582, "train/policy_randomness_mag": 0.8147948182804484, "train/policy_randomness_max": 0.8147948182804484, "train/policy_randomness_mean": 0.13045156589696105, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16125560982126586, "train/post_ent_mag": 55.10086365820656, "train/post_ent_max": 55.10086365820656, "train/post_ent_mean": 38.84307855955312, "train/post_ent_min": 18.714119561961, "train/post_ent_std": 5.945976465520724, "train/prior_ent_mag": 74.85588148949851, "train/prior_ent_max": 74.85588148949851, "train/prior_ent_mean": 43.25724916055169, "train/prior_ent_min": 23.705864892879003, "train/prior_ent_std": 7.586654669801954, "train/rep_loss_mean": 4.477777514659183, "train/rep_loss_std": 8.435495497475207, "train/reward_avg": 0.025086652461281965, "train/reward_loss_mean": 0.042596687707053105, "train/reward_loss_std": 0.18745933997798975, "train/reward_max_data": 1.008450706240157, "train/reward_max_pred": 1.0088168802395674, "train/reward_neg_acc": 0.9956851257404811, "train/reward_neg_loss": 0.020953312844142948, "train/reward_pos_acc": 0.9888122837308427, "train/reward_pos_loss": 0.7382810241739515, "train/reward_pred": 0.024907996090994755, "train/reward_rate": 0.030163402288732395, "stats/sum_log_reward": 5.474999904632568, "stats/max_log_achievement_collect_drink": 5.25, "stats/max_log_achievement_collect_sapling": 3.25, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 7.375, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.125, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 2.125, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_table": 2.25, "stats/max_log_achievement_wake_up": 1.125, "stats/mean_log_entropy": 0.3206537030637264, "replay/size": 168508.0, "replay/inserts": 1416.0, "replay/samples": 11328.0, "replay/insert_wait_avg": 3.7333722841941704e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2436155545509468e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.35904335975647, "timer/env.step_count": 1416.0, "timer/env.step_total": 20.45501184463501, "timer/env.step_frac": 0.0681018677374562, "timer/env.step_avg": 0.014445629833781786, "timer/env.step_min": 0.003004789352416992, "timer/env.step_max": 1.6822807788848877, "timer/replay.add_count": 1416.0, "timer/replay.add_total": 0.25533580780029297, "timer/replay.add_frac": 0.0008501019478027278, "timer/replay.add_avg": 0.00018032189816404872, "timer/replay.add_min": 7.033348083496094e-05, "timer/replay.add_max": 0.0026891231536865234, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02838611602783203, "timer/logger.write_frac": 9.450727938906246e-05, "timer/logger.write_avg": 0.02838611602783203, "timer/logger.write_min": 0.02838611602783203, "timer/logger.write_max": 0.02838611602783203, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002498626708984375, "timer/checkpoint.save_frac": 8.318799664012889e-07, "timer/checkpoint.save_avg": 0.0002498626708984375, "timer/checkpoint.save_min": 0.0002498626708984375, "timer/checkpoint.save_max": 0.0002498626708984375, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4459607601165771, "timer/agent.save_frac": 0.004814107622471918, "timer/agent.save_avg": 1.4459607601165771, "timer/agent.save_min": 1.4459607601165771, "timer/agent.save_max": 1.4459607601165771, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.058547973632812e-05, "timer/replay.save_frac": 2.682971647362936e-07, "timer/replay.save_avg": 8.058547973632812e-05, "timer/replay.save_min": 8.058547973632812e-05, "timer/replay.save_max": 8.058547973632812e-05, "timer/agent.policy_count": 1416.0, "timer/agent.policy_total": 15.311958074569702, "timer/agent.policy_frac": 0.05097884819212762, "timer/agent.policy_avg": 0.010813529713679168, "timer/agent.policy_min": 0.005617856979370117, "timer/agent.policy_max": 3.570232391357422, "timer/dataset_count": 708.0, "timer/dataset_total": 0.06339621543884277, "timer/dataset_frac": 0.00021106810945229192, "timer/dataset_avg": 8.954267717350674e-05, "timer/dataset_min": 7.033348083496094e-05, "timer/dataset_max": 0.0001857280731201172, "timer/agent.train_count": 708.0, "timer/agent.train_total": 263.55815076828003, "timer/agent.train_frac": 0.8774769949330342, "timer/agent.train_avg": 0.37225727509644074, "timer/agent.train_min": 0.36617136001586914, "timer/agent.train_max": 0.3844156265258789, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2177140712738037, "timer/agent.report_frac": 0.0007248460670219796, "timer/agent.report_avg": 0.2177140712738037, "timer/agent.report_min": 0.2177140712738037, "timer/agent.report_max": 0.2177140712738037, "fps": 4.714278602375789}
{"step": 168764, "episode/length": 546.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.012797074954296161}
{"step": 168974, "episode/length": 209.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.299999997019768, "episode/reward_rate": 0.04285714285714286}
{"step": 169061, "episode/length": 86.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.06896551724137931}
{"step": 169242, "episode/length": 180.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.3000000193715096, "episode/reward_rate": 0.03314917127071823}
{"step": 169421, "episode/length": 178.0, "episode/score": 8.099999964237213, "episode/sum_abs_reward": 9.699999988079071, "episode/reward_rate": 0.05027932960893855}
{"step": 169649, "episode/length": 227.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.03508771929824561}
{"step": 169822, "episode/length": 172.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.046242774566473986}
{"step": 169999, "episode/length": 176.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.03954802259887006}
{"step": 170011, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4982147216796875, "train/action_min": 0.0, "train/action_std": 3.3321791423691645, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0495867437372605, "train/actor_opt_grad_steps": 84095.0, "train/actor_opt_loss": -18.15076325005955, "train/adv_mag": 0.5814959444105625, "train/adv_max": 0.5352654005918238, "train/adv_mean": 0.002180107750468273, "train/adv_min": -0.44075485691428185, "train/adv_std": 0.05875426510141955, "train/cont_avg": 0.9942762586805556, "train/cont_loss_mean": 1.5209589731865788e-05, "train/cont_loss_std": 0.0003421505922571239, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00013055766715473914, "train/cont_pos_acc": 0.9999999834431542, "train/cont_pos_loss": 1.4491801624198311e-05, "train/cont_pred": 0.9942641796337234, "train/cont_rate": 0.9942762586805556, "train/dyn_loss_mean": 4.728393276532491, "train/dyn_loss_std": 8.38278106186125, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1049187812540266, "train/extr_critic_critic_opt_grad_steps": 84095.0, "train/extr_critic_critic_opt_loss": 16006.292575412326, "train/extr_critic_mag": 7.3570250206523475, "train/extr_critic_max": 7.3570250206523475, "train/extr_critic_mean": 1.4606625644697084, "train/extr_critic_min": -0.5979912562502755, "train/extr_critic_std": 1.6360397222969267, "train/extr_return_normed_mag": 1.6230421082841024, "train/extr_return_normed_max": 1.6230421082841024, "train/extr_return_normed_mean": 0.3348012038817008, "train/extr_return_normed_min": -0.1524984830369552, "train/extr_return_normed_std": 0.334488936389486, "train/extr_return_rate": 0.581911919431554, "train/extr_return_raw_mag": 7.91967244942983, "train/extr_return_raw_max": 7.91967244942983, "train/extr_return_raw_mean": 1.4716071552700467, "train/extr_return_raw_min": -0.96807701802916, "train/extr_return_raw_std": 1.6740324977371428, "train/extr_reward_mag": 1.018894738621182, "train/extr_reward_max": 1.018894738621182, "train/extr_reward_mean": 0.033929197040076055, "train/extr_reward_min": -0.6577068550719155, "train/extr_reward_std": 0.18386722707913983, "train/image_loss_mean": 3.026666791902648, "train/image_loss_std": 8.052280604839325, "train/model_loss_mean": 5.906535857253605, "train/model_loss_std": 12.04087856080797, "train/model_opt_grad_norm": 52.57353671391805, "train/model_opt_grad_steps": 84024.63888888889, "train/model_opt_loss": 6451.065819634332, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1102.4305555555557, "train/policy_entropy_mag": 2.3171207971043057, "train/policy_entropy_max": 2.3171207971043057, "train/policy_entropy_mean": 0.35256897202796406, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.43719644306434524, "train/policy_logprob_mag": 7.438384029600355, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3521208568579621, "train/policy_logprob_min": -7.438384029600355, "train/policy_logprob_std": 0.9672919536630312, "train/policy_randomness_mag": 0.81784195618497, "train/policy_randomness_max": 0.81784195618497, "train/policy_randomness_mean": 0.12444137492113644, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15431115848736632, "train/post_ent_mag": 54.50730360878838, "train/post_ent_max": 54.50730360878838, "train/post_ent_mean": 38.533447901407875, "train/post_ent_min": 18.158806284268696, "train/post_ent_std": 5.749818464120229, "train/prior_ent_mag": 74.86166826883952, "train/prior_ent_max": 74.86166826883952, "train/prior_ent_mean": 43.192530949910484, "train/prior_ent_min": 24.419669257269966, "train/prior_ent_std": 7.505159709188673, "train/rep_loss_mean": 4.728393276532491, "train/rep_loss_std": 8.38278106186125, "train/reward_avg": 0.024970160693758063, "train/reward_loss_mean": 0.042817915970873505, "train/reward_loss_std": 0.19154885783791542, "train/reward_max_data": 1.008333335320155, "train/reward_max_pred": 1.0096963793039322, "train/reward_neg_acc": 0.9952705485953225, "train/reward_neg_loss": 0.021434320815994095, "train/reward_pos_acc": 0.9870571916302046, "train/reward_pos_loss": 0.7375555568271213, "train/reward_pred": 0.024804256261429854, "train/reward_rate": 0.029920789930555556, "stats/sum_log_reward": 6.100000023841858, "stats/max_log_achievement_collect_drink": 8.125, "stats/max_log_achievement_collect_sapling": 2.25, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 7.75, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.375, "stats/max_log_achievement_eat_cow": 0.375, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 1.125, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_table": 2.625, "stats/max_log_achievement_wake_up": 1.875, "stats/mean_log_entropy": 0.3445369340479374, "replay/size": 169948.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.74068816502889e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2766776813401117e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2783856391907, "timer/env.step_count": 1440.0, "timer/env.step_total": 20.511544704437256, "timer/env.step_frac": 0.06830842872947764, "timer/env.step_avg": 0.014244128266970317, "timer/env.step_min": 0.002988576889038086, "timer/env.step_max": 1.7540168762207031, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.2730841636657715, "timer/replay.add_frac": 0.0009094366318923291, "timer/replay.add_avg": 0.00018964178032345242, "timer/replay.add_min": 6.580352783203125e-05, "timer/replay.add_max": 0.0015408992767333984, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029275894165039062, "timer/logger.write_frac": 9.749584240877222e-05, "timer/logger.write_avg": 0.029275894165039062, "timer/logger.write_min": 0.029275894165039062, "timer/logger.write_max": 0.029275894165039062, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 10.654029369354248, "timer/agent.policy_frac": 0.03548050701909643, "timer/agent.policy_avg": 0.007398631506496006, "timer/agent.policy_min": 0.005697011947631836, "timer/agent.policy_max": 0.016553878784179688, "timer/dataset_count": 720.0, "timer/dataset_total": 0.06604194641113281, "timer/dataset_frac": 0.0002199357315397575, "timer/dataset_avg": 9.17249255710178e-05, "timer/dataset_min": 6.437301635742188e-05, "timer/dataset_max": 0.00022220611572265625, "timer/agent.train_count": 720.0, "timer/agent.train_total": 268.0333323478699, "timer/agent.train_frac": 0.8926161361142193, "timer/agent.train_avg": 0.3722685171498193, "timer/agent.train_min": 0.36363649368286133, "timer/agent.train_max": 0.38394689559936523, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2179408073425293, "timer/agent.report_frac": 0.0007257958539993058, "timer/agent.report_avg": 0.2179408073425293, "timer/agent.report_min": 0.2179408073425293, "timer/agent.report_max": 0.2179408073425293, "fps": 4.795473716479011}
{"step": 170236, "episode/length": 236.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.03375527426160337}
{"step": 170276, "episode/length": 39.0, "episode/score": -0.9000000134110451, "episode/sum_abs_reward": 0.9000000134110451, "episode/reward_rate": 0.0}
{"step": 170477, "episode/length": 200.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.03482587064676617}
{"step": 170710, "episode/length": 232.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.034334763948497854}
{"step": 170862, "episode/length": 151.0, "episode/score": 6.099999971687794, "episode/sum_abs_reward": 8.100000031292439, "episode/reward_rate": 0.05263157894736842}
{"step": 171014, "episode/length": 151.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.0999999940395355, "episode/reward_rate": 0.046052631578947366}
{"step": 171221, "episode/length": 206.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.033816425120772944}
{"step": 171390, "episode/length": 168.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.04142011834319527}
{"step": 171451, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.53993394639757, "train/action_min": 0.0, "train/action_std": 3.3842818240324655, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.050184287027352385, "train/actor_opt_grad_steps": 84815.0, "train/actor_opt_loss": -18.216197560230892, "train/adv_mag": 0.5764060951769352, "train/adv_max": 0.5227888437608877, "train/adv_mean": 0.001622424691656003, "train/adv_min": -0.5221499068041643, "train/adv_std": 0.0592417961710857, "train/cont_avg": 0.9938422309027778, "train/cont_loss_mean": 1.2212405597011866e-05, "train/cont_loss_std": 0.000280283433922711, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0004194396369838513, "train/cont_pos_acc": 0.9999999759925736, "train/cont_pos_loss": 9.671635092997929e-06, "train/cont_pred": 0.9938363151417838, "train/cont_rate": 0.9938422309027778, "train/dyn_loss_mean": 4.480531894498402, "train/dyn_loss_std": 8.441058258215586, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0477214256922405, "train/extr_critic_critic_opt_grad_steps": 84815.0, "train/extr_critic_critic_opt_loss": 15953.869222005209, "train/extr_critic_mag": 7.148050645987193, "train/extr_critic_max": 7.148050645987193, "train/extr_critic_mean": 1.3784848145312734, "train/extr_critic_min": -0.6359315680132972, "train/extr_critic_std": 1.5920499099625482, "train/extr_return_normed_mag": 1.6047113653686311, "train/extr_return_normed_max": 1.6047113653686311, "train/extr_return_normed_mean": 0.3238123502168391, "train/extr_return_normed_min": -0.15211146604269743, "train/extr_return_normed_std": 0.32918293919000363, "train/extr_return_rate": 0.5718207773235109, "train/extr_return_raw_mag": 7.689133160644108, "train/extr_return_raw_max": 7.689133160644108, "train/extr_return_raw_mean": 1.3864346055520906, "train/extr_return_raw_min": -0.9545896285110049, "train/extr_return_raw_std": 1.6200218068228827, "train/extr_reward_mag": 1.0390751196278467, "train/extr_reward_max": 1.0390751196278467, "train/extr_reward_mean": 0.032671505947493844, "train/extr_reward_min": -0.6880621297491921, "train/extr_reward_std": 0.18254224293761784, "train/image_loss_mean": 2.644651878211233, "train/image_loss_std": 7.198983278539446, "train/model_loss_mean": 5.377350052197774, "train/model_loss_std": 11.259842064645555, "train/model_opt_grad_norm": 27.887052032682632, "train/model_opt_grad_steps": 84744.0, "train/model_opt_loss": 3697.175496419271, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 685.7638888888889, "train/policy_entropy_mag": 2.321142574151357, "train/policy_entropy_max": 2.321142574151357, "train/policy_entropy_mean": 0.35159435992439586, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.44083980181150967, "train/policy_logprob_mag": 7.438384095827739, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3525835619204574, "train/policy_logprob_min": -7.438384095827739, "train/policy_logprob_std": 0.9709213450551033, "train/policy_randomness_mag": 0.8192614664634069, "train/policy_randomness_max": 0.8192614664634069, "train/policy_randomness_mean": 0.1240973791314496, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1555971031387647, "train/post_ent_mag": 55.191619873046875, "train/post_ent_max": 55.191619873046875, "train/post_ent_mean": 39.01513470543755, "train/post_ent_min": 18.676894505818684, "train/post_ent_std": 5.870377454492781, "train/prior_ent_mag": 75.16200129191081, "train/prior_ent_max": 75.16200129191081, "train/prior_ent_mean": 43.4579062461853, "train/prior_ent_min": 24.383042997784084, "train/prior_ent_std": 7.542080071237352, "train/rep_loss_mean": 4.480531894498402, "train/rep_loss_std": 8.441058258215586, "train/reward_avg": 0.02489284917505251, "train/reward_loss_mean": 0.044366799760609865, "train/reward_loss_std": 0.192959856448902, "train/reward_max_data": 1.0097222245401807, "train/reward_max_pred": 1.008991688489914, "train/reward_neg_acc": 0.9958333522081375, "train/reward_neg_loss": 0.02313013885739363, "train/reward_pos_acc": 0.9907029006216261, "train/reward_pos_loss": 0.7221768663989173, "train/reward_pred": 0.024706817232072353, "train/reward_rate": 0.030354817708333332, "stats/sum_log_reward": 5.2249999195337296, "stats/max_log_achievement_collect_drink": 3.875, "stats/max_log_achievement_collect_sapling": 3.0, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 8.25, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.375, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 1.125, "stats/max_log_achievement_place_plant": 1.875, "stats/max_log_achievement_place_table": 3.125, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.3250423688441515, "replay/size": 171388.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.7337342898050943e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2720624605814615e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3276994228363, "timer/env.step_count": 1440.0, "timer/env.step_total": 20.450674295425415, "timer/env.step_frac": 0.06809453252139948, "timer/env.step_avg": 0.014201857149600983, "timer/env.step_min": 0.003182649612426758, "timer/env.step_max": 1.6985142230987549, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.2594761848449707, "timer/replay.add_frac": 0.0008639768670809479, "timer/replay.add_avg": 0.00018019179503122966, "timer/replay.add_min": 7.009506225585938e-05, "timer/replay.add_max": 0.0019342899322509766, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026505470275878906, "timer/logger.write_frac": 8.825516369890816e-05, "timer/logger.write_avg": 0.026505470275878906, "timer/logger.write_min": 0.026505470275878906, "timer/logger.write_max": 0.026505470275878906, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 10.620462894439697, "timer/agent.policy_frac": 0.03536291495872638, "timer/agent.policy_avg": 0.007375321454472012, "timer/agent.policy_min": 0.005734443664550781, "timer/agent.policy_max": 0.01670694351196289, "timer/dataset_count": 720.0, "timer/dataset_total": 0.06547355651855469, "timer/dataset_frac": 0.0002180070524443148, "timer/dataset_avg": 9.093549516465928e-05, "timer/dataset_min": 6.318092346191406e-05, "timer/dataset_max": 0.0001919269561767578, "timer/agent.train_count": 720.0, "timer/agent.train_total": 268.19854259490967, "timer/agent.train_frac": 0.8930196685498147, "timer/agent.train_avg": 0.3724979758262634, "timer/agent.train_min": 0.3661055564880371, "timer/agent.train_max": 0.3854069709777832, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22070050239562988, "timer/agent.report_frac": 0.0007348656245153799, "timer/agent.report_avg": 0.22070050239562988, "timer/agent.report_min": 0.22070050239562988, "timer/agent.report_max": 0.22070050239562988, "fps": 4.794660909785983}
{"step": 171567, "episode/length": 176.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.04519774011299435}
{"step": 171621, "episode/length": 53.0, "episode/score": 2.0999999716877937, "episode/sum_abs_reward": 4.1000000312924385, "episode/reward_rate": 0.07407407407407407}
{"step": 171792, "episode/length": 170.0, "episode/score": 3.100000023841858, "episode/sum_abs_reward": 4.899999976158142, "episode/reward_rate": 0.029239766081871343}
{"step": 171945, "episode/length": 152.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.05228758169934641}
{"step": 172172, "episode/length": 226.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.900000013411045, "episode/reward_rate": 0.039647577092511016}
{"step": 172384, "episode/length": 211.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.02830188679245283}
{"step": 172608, "episode/length": 223.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.500000022351742, "episode/reward_rate": 0.03125}
{"step": 172759, "episode/length": 150.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.046357615894039736}
{"step": 172865, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.518224581866197, "train/action_min": 0.0, "train/action_std": 3.4278792831259715, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05200032648486151, "train/actor_opt_grad_steps": 85530.0, "train/actor_opt_loss": -16.39223666510112, "train/adv_mag": 0.6222902402071886, "train/adv_max": 0.5810016763042396, "train/adv_mean": 0.002774696057162479, "train/adv_min": -0.5131218769180943, "train/adv_std": 0.06207328027402851, "train/cont_avg": 0.9943469410211268, "train/cont_loss_mean": 0.00010352393836699417, "train/cont_loss_std": 0.003220292826306793, "train/cont_neg_acc": 0.9979879285248232, "train/cont_neg_loss": 0.010227526217630852, "train/cont_pos_acc": 0.9999861213522898, "train/cont_pos_loss": 3.4101871832858644e-05, "train/cont_pred": 0.9943459227051533, "train/cont_rate": 0.9943469410211268, "train/dyn_loss_mean": 4.437918105595548, "train/dyn_loss_std": 8.384206080100906, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.142398066923652, "train/extr_critic_critic_opt_grad_steps": 85530.0, "train/extr_critic_critic_opt_loss": 16311.714211047536, "train/extr_critic_mag": 7.368425134202124, "train/extr_critic_max": 7.368425134202124, "train/extr_critic_mean": 1.3422325690027694, "train/extr_critic_min": -0.6097841665778362, "train/extr_critic_std": 1.5481303544111655, "train/extr_return_normed_mag": 1.6649927925056136, "train/extr_return_normed_max": 1.6649927925056136, "train/extr_return_normed_mean": 0.3193558802906896, "train/extr_return_normed_min": -0.15529292139788747, "train/extr_return_normed_std": 0.3248905854325899, "train/extr_return_rate": 0.5742646287864362, "train/extr_return_raw_mag": 7.884733193357226, "train/extr_return_raw_max": 7.884733193357226, "train/extr_return_raw_mean": 1.3556328810436624, "train/extr_return_raw_min": -0.9447878792252339, "train/extr_return_raw_std": 1.5760161406557325, "train/extr_reward_mag": 1.0291934819288657, "train/extr_reward_max": 1.0291934819288657, "train/extr_reward_mean": 0.034334550965839705, "train/extr_reward_min": -0.7014795978304366, "train/extr_reward_std": 0.18456786283304993, "train/image_loss_mean": 2.8303286089024073, "train/image_loss_std": 7.354850399662071, "train/model_loss_mean": 5.536155747695708, "train/model_loss_std": 11.370571230498838, "train/model_opt_grad_norm": 34.571199820075236, "train/model_opt_grad_steps": 85459.0, "train/model_opt_loss": 6920.194679797535, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.3166611563991495, "train/policy_entropy_max": 2.3166611563991495, "train/policy_entropy_mean": 0.36753789429933253, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.45913860495661346, "train/policy_logprob_mag": 7.438384069523341, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3688724326415801, "train/policy_logprob_min": -7.438384069523341, "train/policy_logprob_std": 0.9841130275121877, "train/policy_randomness_mag": 0.8176797250626793, "train/policy_randomness_max": 0.8176797250626793, "train/policy_randomness_mean": 0.12972474843263626, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16205577898613163, "train/post_ent_mag": 55.43223931755818, "train/post_ent_max": 55.43223931755818, "train/post_ent_mean": 39.14776498499051, "train/post_ent_min": 18.689444703115544, "train/post_ent_std": 6.000761468645552, "train/prior_ent_mag": 75.06441057232064, "train/prior_ent_max": 75.06441057232064, "train/prior_ent_mean": 43.511676465961294, "train/prior_ent_min": 24.07040373036559, "train/prior_ent_std": 7.588427550356153, "train/rep_loss_mean": 4.437918105595548, "train/rep_loss_std": 8.384206080100906, "train/reward_avg": 0.025665712936348478, "train/reward_loss_mean": 0.04297272286469668, "train/reward_loss_std": 0.18635533676600793, "train/reward_max_data": 1.016901412480314, "train/reward_max_pred": 1.0156138363018843, "train/reward_neg_acc": 0.9954600468487806, "train/reward_neg_loss": 0.02109020208598862, "train/reward_pos_acc": 0.9877180406745051, "train/reward_pos_loss": 0.7288608727320819, "train/reward_pred": 0.025401912878831506, "train/reward_rate": 0.030768595950704226, "stats/sum_log_reward": 5.475000023841858, "stats/max_log_achievement_collect_drink": 4.625, "stats/max_log_achievement_collect_sapling": 3.125, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 7.25, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.25, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_plant": 2.5, "stats/max_log_achievement_place_table": 2.25, "stats/max_log_achievement_wake_up": 1.875, "stats/mean_log_entropy": 0.31829030625522137, "replay/size": 172802.0, "replay/inserts": 1414.0, "replay/samples": 11312.0, "replay/insert_wait_avg": 3.837291388397001e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2808675644589955e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.30039405822754, "timer/env.step_count": 1414.0, "timer/env.step_total": 20.506266832351685, "timer/env.step_frac": 0.06828584723194059, "timer/env.step_avg": 0.014502310348197796, "timer/env.step_min": 0.002848386764526367, "timer/env.step_max": 1.7528913021087646, "timer/replay.add_count": 1414.0, "timer/replay.add_total": 0.28495049476623535, "timer/replay.add_frac": 0.0009488848513165258, "timer/replay.add_avg": 0.00020152085909917636, "timer/replay.add_min": 7.43865966796875e-05, "timer/replay.add_max": 0.002790689468383789, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022126197814941406, "timer/logger.write_frac": 7.368021571976756e-05, "timer/logger.write_avg": 0.022126197814941406, "timer/logger.write_min": 0.022126197814941406, "timer/logger.write_max": 0.022126197814941406, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00033855438232421875, "timer/checkpoint.save_frac": 1.127385741154152e-06, "timer/checkpoint.save_avg": 0.00033855438232421875, "timer/checkpoint.save_min": 0.00033855438232421875, "timer/checkpoint.save_max": 0.00033855438232421875, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.366086483001709, "timer/agent.save_frac": 0.004549066568113887, "timer/agent.save_avg": 1.366086483001709, "timer/agent.save_min": 1.366086483001709, "timer/agent.save_max": 1.366086483001709, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.535385131835938e-05, "timer/replay.save_frac": 2.8422823615013125e-07, "timer/replay.save_avg": 8.535385131835938e-05, "timer/replay.save_min": 8.535385131835938e-05, "timer/replay.save_max": 8.535385131835938e-05, "timer/agent.policy_count": 1414.0, "timer/agent.policy_total": 15.255578517913818, "timer/agent.policy_frac": 0.05080106060385588, "timer/agent.policy_avg": 0.010788952275752347, "timer/agent.policy_min": 0.00568842887878418, "timer/agent.policy_max": 3.4043378829956055, "timer/dataset_count": 707.0, "timer/dataset_total": 0.0649709701538086, "timer/dataset_frac": 0.00021635326306368707, "timer/dataset_avg": 9.189670460227524e-05, "timer/dataset_min": 6.031990051269531e-05, "timer/dataset_max": 0.00016689300537109375, "timer/agent.train_count": 707.0, "timer/agent.train_total": 263.45552372932434, "timer/agent.train_frac": 0.8773066201113308, "timer/agent.train_avg": 0.3726386474247869, "timer/agent.train_min": 0.3660547733306885, "timer/agent.train_max": 0.38918566703796387, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22315263748168945, "timer/agent.report_frac": 0.0007430980508084871, "timer/agent.report_avg": 0.22315263748168945, "timer/agent.report_min": 0.22315263748168945, "timer/agent.report_max": 0.22315263748168945, "fps": 4.708526976230371}
{"step": 172928, "episode/length": 168.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.04142011834319527}
{"step": 173137, "episode/length": 208.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.30000001937151, "episode/reward_rate": 0.03349282296650718}
{"step": 173178, "episode/length": 40.0, "episode/score": 3.0999999940395355, "episode/sum_abs_reward": 4.9000000059604645, "episode/reward_rate": 0.12195121951219512}
{"step": 173331, "episode/length": 152.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.30000001937151, "episode/reward_rate": 0.0457516339869281}
{"step": 173516, "episode/length": 184.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 5.299999997019768, "episode/reward_rate": 0.02702702702702703}
{"step": 173668, "episode/length": 151.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.02631578947368421}
{"step": 173819, "episode/length": 150.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.046357615894039736}
{"step": 174052, "episode/length": 232.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.0999999940395355, "episode/reward_rate": 0.030042918454935622}
{"step": 174187, "episode/length": 134.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.700000025331974, "episode/reward_rate": 0.02962962962962963}
{"step": 174299, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4221649169921875, "train/action_min": 0.0, "train/action_std": 3.4181020988358393, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05260957430841194, "train/actor_opt_grad_steps": 86245.0, "train/actor_opt_loss": -14.129043467860255, "train/adv_mag": 0.5421656051443683, "train/adv_max": 0.5073796672125658, "train/adv_mean": 0.0037873333292029404, "train/adv_min": -0.4527868591248989, "train/adv_std": 0.06152757060610586, "train/cont_avg": 0.9947374131944444, "train/cont_loss_mean": 9.877589533068152e-06, "train/cont_loss_std": 0.00023417090439023823, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 8.437993230043301e-05, "train/cont_pos_acc": 0.999999982615312, "train/cont_pos_loss": 9.478650446068412e-06, "train/cont_pred": 0.9947290346026421, "train/cont_rate": 0.9947374131944444, "train/dyn_loss_mean": 4.551439321703381, "train/dyn_loss_std": 8.391173488563961, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0964684304263856, "train/extr_critic_critic_opt_grad_steps": 86245.0, "train/extr_critic_critic_opt_loss": 16482.61545138889, "train/extr_critic_mag": 6.899618142180973, "train/extr_critic_max": 6.899618142180973, "train/extr_critic_mean": 1.3473262083199289, "train/extr_critic_min": -0.5880829956796434, "train/extr_critic_std": 1.4658371541235182, "train/extr_return_normed_mag": 1.6383322576681774, "train/extr_return_normed_max": 1.6383322576681774, "train/extr_return_normed_mean": 0.32724121316439575, "train/extr_return_normed_min": -0.1487987343635824, "train/extr_return_normed_std": 0.3175491603712241, "train/extr_return_rate": 0.6007478270265791, "train/extr_return_raw_mag": 7.5643689499961, "train/extr_return_raw_max": 7.5643689499961, "train/extr_return_raw_mean": 1.3652642650736704, "train/extr_return_raw_min": -0.8860348636905352, "train/extr_return_raw_std": 1.501752871606085, "train/extr_reward_mag": 1.032402108112971, "train/extr_reward_max": 1.032402108112971, "train/extr_reward_mean": 0.035438531815695264, "train/extr_reward_min": -0.7001701527171664, "train/extr_reward_std": 0.18671957010196316, "train/image_loss_mean": 2.8616153250137963, "train/image_loss_std": 7.839475936359829, "train/model_loss_mean": 5.635599123107062, "train/model_loss_std": 11.831443866093954, "train/model_opt_grad_norm": 42.97528616587321, "train/model_opt_grad_steps": 86172.81944444444, "train/model_opt_loss": 5641.570641411676, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 998.2638888888889, "train/policy_entropy_mag": 2.282455288701587, "train/policy_entropy_max": 2.282455288701587, "train/policy_entropy_mean": 0.3472565954758061, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4329009349975321, "train/policy_logprob_mag": 7.438384115695953, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.34724822599026894, "train/policy_logprob_min": -7.438384115695953, "train/policy_logprob_std": 0.9617049114571677, "train/policy_randomness_mag": 0.8056065522962146, "train/policy_randomness_max": 0.8056065522962146, "train/policy_randomness_mean": 0.12256633873201078, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15279503094239366, "train/post_ent_mag": 54.98056443532308, "train/post_ent_max": 54.98056443532308, "train/post_ent_mean": 39.259146213531494, "train/post_ent_min": 18.617238124211628, "train/post_ent_std": 5.890610463089413, "train/prior_ent_mag": 75.09631729125977, "train/prior_ent_max": 75.09631729125977, "train/prior_ent_mean": 43.71153656641642, "train/prior_ent_min": 24.298036310407852, "train/prior_ent_std": 7.4133013354407415, "train/rep_loss_mean": 4.551439321703381, "train/rep_loss_std": 8.391173488563961, "train/reward_avg": 0.025965711748641398, "train/reward_loss_mean": 0.043110297087373003, "train/reward_loss_std": 0.19072758654753366, "train/reward_max_data": 1.0097222245401807, "train/reward_max_pred": 1.011215819252862, "train/reward_neg_acc": 0.9959407506717576, "train/reward_neg_loss": 0.020759156064337328, "train/reward_pos_acc": 0.9851048083768951, "train/reward_pos_loss": 0.7443287654055489, "train/reward_pred": 0.025568455625842843, "train/reward_rate": 0.030843098958333332, "stats/sum_log_reward": 4.655555460188124, "stats/max_log_achievement_collect_drink": 3.5555555555555554, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 6.111111111111111, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.1111111111111111, "stats/max_log_achievement_eat_cow": 0.1111111111111111, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.6666666666666666, "stats/max_log_achievement_place_plant": 1.4444444444444444, "stats/max_log_achievement_place_table": 2.2222222222222223, "stats/max_log_achievement_wake_up": 1.1111111111111112, "stats/mean_log_entropy": 0.27653757731119794, "replay/size": 174236.0, "replay/inserts": 1434.0, "replay/samples": 11472.0, "replay/insert_wait_avg": 3.754676967817703e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2735816724130797e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3559992313385, "timer/env.step_count": 1434.0, "timer/env.step_total": 21.720654010772705, "timer/env.step_frac": 0.07231636480163377, "timer/env.step_avg": 0.015146899589102305, "timer/env.step_min": 0.002994537353515625, "timer/env.step_max": 1.6257619857788086, "timer/replay.add_count": 1434.0, "timer/replay.add_total": 0.2931222915649414, "timer/replay.add_frac": 0.0009759162204686793, "timer/replay.add_avg": 0.00020440885046369694, "timer/replay.add_min": 7.295608520507812e-05, "timer/replay.add_max": 0.008534431457519531, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027628183364868164, "timer/logger.write_frac": 9.198478950170241e-05, "timer/logger.write_avg": 0.027628183364868164, "timer/logger.write_min": 0.027628183364868164, "timer/logger.write_max": 0.027628183364868164, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1434.0, "timer/agent.policy_total": 10.582150220870972, "timer/agent.policy_frac": 0.03523202548959393, "timer/agent.policy_avg": 0.0073794631944706915, "timer/agent.policy_min": 0.005692243576049805, "timer/agent.policy_max": 0.017913103103637695, "timer/dataset_count": 717.0, "timer/dataset_total": 0.06474089622497559, "timer/dataset_frac": 0.00021554720528525623, "timer/dataset_avg": 9.029413699438715e-05, "timer/dataset_min": 6.437301635742188e-05, "timer/dataset_max": 0.00016808509826660156, "timer/agent.train_count": 717.0, "timer/agent.train_total": 266.9628064632416, "timer/agent.train_frac": 0.888821289224934, "timer/agent.train_avg": 0.37233306340758937, "timer/agent.train_min": 0.36409425735473633, "timer/agent.train_max": 0.3852090835571289, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22017335891723633, "timer/agent.report_frac": 0.0007330413225662113, "timer/agent.report_avg": 0.22017335891723633, "timer/agent.report_min": 0.22017335891723633, "timer/agent.report_max": 0.22017335891723633, "fps": 4.774256718333014}
{"step": 174385, "episode/length": 197.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.30000001937151, "episode/reward_rate": 0.03535353535353535}
{"step": 174612, "episode/length": 226.0, "episode/score": 6.099999971687794, "episode/sum_abs_reward": 8.500000037252903, "episode/reward_rate": 0.03524229074889868}
{"step": 174751, "episode/length": 138.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.050359712230215826}
{"step": 174930, "episode/length": 178.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.3000000193715096, "episode/reward_rate": 0.027932960893854747}
{"step": 175119, "episode/length": 188.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.042328042328042326}
{"step": 175273, "episode/length": 153.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 4.899999991059303, "episode/reward_rate": 0.032467532467532464}
{"step": 175562, "episode/length": 288.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.02768166089965398}
{"step": 175620, "episode/length": 57.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.08620689655172414}
{"step": 175739, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.324365403917101, "train/action_min": 0.0, "train/action_std": 3.3062606155872345, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.051009721122682095, "train/actor_opt_grad_steps": 86965.0, "train/actor_opt_loss": -14.155066203325987, "train/adv_mag": 0.6362080040077368, "train/adv_max": 0.586389505614837, "train/adv_mean": 0.002934465420998499, "train/adv_min": -0.5429733809497621, "train/adv_std": 0.060993088926706046, "train/cont_avg": 0.9944932725694444, "train/cont_loss_mean": 0.00024246036690161391, "train/cont_loss_std": 0.0076290826428015, "train/cont_neg_acc": 0.9961419759525193, "train/cont_neg_loss": 0.029839365483768334, "train/cont_pos_acc": 0.9999999784761004, "train/cont_pos_loss": 2.2697966823020328e-05, "train/cont_pred": 0.9945050511095259, "train/cont_rate": 0.9944932725694444, "train/dyn_loss_mean": 4.501361280679703, "train/dyn_loss_std": 8.442783223258125, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0572093907329772, "train/extr_critic_critic_opt_grad_steps": 86965.0, "train/extr_critic_critic_opt_loss": 16030.138061523438, "train/extr_critic_mag": 7.2097861766815186, "train/extr_critic_max": 7.2097861766815186, "train/extr_critic_mean": 1.3891706715027492, "train/extr_critic_min": -0.5697458469205432, "train/extr_critic_std": 1.5325569444232516, "train/extr_return_normed_mag": 1.7018008828163147, "train/extr_return_normed_max": 1.7018008828163147, "train/extr_return_normed_mean": 0.3341719127363629, "train/extr_return_normed_min": -0.1625452476243178, "train/extr_return_normed_std": 0.33094423864450717, "train/extr_return_rate": 0.613181819104486, "train/extr_return_raw_mag": 7.880185511377123, "train/extr_return_raw_max": 7.880185511377123, "train/extr_return_raw_mean": 1.4030873543686337, "train/extr_return_raw_min": -0.9493302760852708, "train/extr_return_raw_std": 1.5672390361626942, "train/extr_reward_mag": 1.033569077650706, "train/extr_reward_max": 1.033569077650706, "train/extr_reward_mean": 0.0336358637497243, "train/extr_reward_min": -0.6884390198522143, "train/extr_reward_std": 0.18335414615770182, "train/image_loss_mean": 2.6749105387263827, "train/image_loss_std": 7.482005212042067, "train/model_loss_mean": 5.418748150269191, "train/model_loss_std": 11.54841360118654, "train/model_opt_grad_norm": 36.493026389016045, "train/model_opt_grad_steps": 86892.0, "train/model_opt_loss": 4039.101593017578, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 737.8472222222222, "train/policy_entropy_mag": 2.2881153888172574, "train/policy_entropy_max": 2.2881153888172574, "train/policy_entropy_mean": 0.34664399632149273, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.43121685170465046, "train/policy_logprob_mag": 7.438384115695953, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.34501753830247456, "train/policy_logprob_min": -7.438384115695953, "train/policy_logprob_std": 0.9567935897244347, "train/policy_randomness_mag": 0.8076043220029937, "train/policy_randomness_max": 0.8076043220029937, "train/policy_randomness_mean": 0.1223501189508372, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15220062413977253, "train/post_ent_mag": 55.030154122246635, "train/post_ent_max": 55.030154122246635, "train/post_ent_mean": 39.12355793846978, "train/post_ent_min": 18.338549150360954, "train/post_ent_std": 5.870738671885596, "train/prior_ent_mag": 75.18857373131647, "train/prior_ent_max": 75.18857373131647, "train/prior_ent_mean": 43.5619035826789, "train/prior_ent_min": 24.61447082625495, "train/prior_ent_std": 7.411728885438707, "train/rep_loss_mean": 4.501361280679703, "train/rep_loss_std": 8.442783223258125, "train/reward_avg": 0.024713812667566042, "train/reward_loss_mean": 0.04277838895925217, "train/reward_loss_std": 0.1912127657689982, "train/reward_max_data": 1.0111111137602065, "train/reward_max_pred": 1.012668937444687, "train/reward_neg_acc": 0.9950373669465383, "train/reward_neg_loss": 0.02126453538140696, "train/reward_pos_acc": 0.9857949043313662, "train/reward_pos_loss": 0.746354705757565, "train/reward_pred": 0.0244164716762801, "train/reward_rate": 0.029649522569444444, "stats/sum_log_reward": 5.474999964237213, "stats/max_log_achievement_collect_drink": 5.625, "stats/max_log_achievement_collect_sapling": 3.125, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 6.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 1.75, "stats/max_log_achievement_place_plant": 2.375, "stats/max_log_achievement_place_table": 2.125, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.2866223696619272, "replay/size": 175676.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.7279393937852647e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2690615322854783e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3361258506775, "timer/env.step_count": 1440.0, "timer/env.step_total": 20.538525104522705, "timer/env.step_frac": 0.0683851303147399, "timer/env.step_avg": 0.014262864655918545, "timer/env.step_min": 0.0029325485229492188, "timer/env.step_max": 1.7946441173553467, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.28827738761901855, "timer/replay.add_frac": 0.0009598491916431846, "timer/replay.add_avg": 0.00020019263029098512, "timer/replay.add_min": 7.224082946777344e-05, "timer/replay.add_max": 0.0234377384185791, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02727484703063965, "timer/logger.write_frac": 9.081440653662918e-05, "timer/logger.write_avg": 0.02727484703063965, "timer/logger.write_min": 0.02727484703063965, "timer/logger.write_max": 0.02727484703063965, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 10.521749496459961, "timer/agent.policy_frac": 0.03503324638905149, "timer/agent.policy_avg": 0.00730677048365275, "timer/agent.policy_min": 0.005698442459106445, "timer/agent.policy_max": 0.016578197479248047, "timer/dataset_count": 720.0, "timer/dataset_total": 0.06464171409606934, "timer/dataset_frac": 0.000215231231051466, "timer/dataset_avg": 8.978015846676297e-05, "timer/dataset_min": 6.866455078125e-05, "timer/dataset_max": 0.0002014636993408203, "timer/agent.train_count": 720.0, "timer/agent.train_total": 268.1910629272461, "timer/agent.train_frac": 0.8929697090805072, "timer/agent.train_avg": 0.37248758739895294, "timer/agent.train_min": 0.36562108993530273, "timer/agent.train_max": 0.3839278221130371, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21835732460021973, "timer/agent.report_frac": 0.0007270431553371759, "timer/agent.report_avg": 0.21835732460021973, "timer/agent.report_min": 0.21835732460021973, "timer/agent.report_max": 0.21835732460021973, "fps": 4.794548533900452}
{"step": 175776, "episode/length": 155.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.099999994039536, "episode/reward_rate": 0.0641025641025641}
{"step": 176058, "episode/length": 281.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.024822695035460994}
{"step": 176248, "episode/length": 189.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.299999997019768, "episode/reward_rate": 0.042105263157894736}
{"step": 176455, "episode/length": 206.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 8.500000022351742, "episode/reward_rate": 0.03864734299516908}
{"step": 176625, "episode/length": 169.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.047058823529411764}
{"step": 176799, "episode/length": 173.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.04597701149425287}
{"step": 177006, "episode/length": 206.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.033816425120772944}
{"step": 177163, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.33478642853213, "train/action_min": 0.0, "train/action_std": 3.2570215883389326, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.049422629282508096, "train/actor_opt_grad_steps": 87680.0, "train/actor_opt_loss": -17.376220146745023, "train/adv_mag": 0.5626783194676251, "train/adv_max": 0.5308179620286109, "train/adv_mean": 0.00229350970930938, "train/adv_min": -0.4556360557465486, "train/adv_std": 0.05795706346840926, "train/cont_avg": 0.9942093970070423, "train/cont_loss_mean": 0.00022380525062134707, "train/cont_loss_std": 0.006977007476011045, "train/cont_neg_acc": 0.9982394366197183, "train/cont_neg_loss": 0.025393375658495643, "train/cont_pos_acc": 0.9999861221917918, "train/cont_pos_loss": 2.4742085027045007e-05, "train/cont_pred": 0.9942106864821743, "train/cont_rate": 0.9942093970070423, "train/dyn_loss_mean": 4.587229355959825, "train/dyn_loss_std": 8.439350658739118, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0649017876302693, "train/extr_critic_critic_opt_grad_steps": 87680.0, "train/extr_critic_critic_opt_loss": 15831.671957526409, "train/extr_critic_mag": 7.059009693038296, "train/extr_critic_max": 7.059009693038296, "train/extr_critic_mean": 1.3718076742870706, "train/extr_critic_min": -0.617558262717556, "train/extr_critic_std": 1.5093837909295524, "train/extr_return_normed_mag": 1.6293676184936308, "train/extr_return_normed_max": 1.6293676184936308, "train/extr_return_normed_mean": 0.3322136553240494, "train/extr_return_normed_min": -0.15228793644149538, "train/extr_return_normed_std": 0.32078444789832744, "train/extr_return_rate": 0.6129218331525024, "train/extr_return_raw_mag": 7.628425510836319, "train/extr_return_raw_max": 7.628425510836319, "train/extr_return_raw_mean": 1.3828317027696422, "train/extr_return_raw_min": -0.9497775233967204, "train/extr_return_raw_std": 1.544494632264258, "train/extr_reward_mag": 1.0253367256110824, "train/extr_reward_max": 1.0253367256110824, "train/extr_reward_mean": 0.03293746796397256, "train/extr_reward_min": -0.6840878590731554, "train/extr_reward_std": 0.18144760081465816, "train/image_loss_mean": 2.661488996425145, "train/image_loss_std": 7.431527251928625, "train/model_loss_mean": 5.456848258703527, "train/model_loss_std": 11.48765692912357, "train/model_opt_grad_norm": 39.33531350149235, "train/model_opt_grad_steps": 87607.0, "train/model_opt_loss": 6821.060319927376, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.297172828459404, "train/policy_entropy_max": 2.297172828459404, "train/policy_entropy_mean": 0.3494164551227865, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4358957443438785, "train/policy_logprob_mag": 7.438384116535455, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.348552598919667, "train/policy_logprob_min": -7.438384116535455, "train/policy_logprob_std": 0.9610281267636259, "train/policy_randomness_mag": 0.8108011979452321, "train/policy_randomness_max": 0.8108011979452321, "train/policy_randomness_mean": 0.12332867568647357, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15385206998653814, "train/post_ent_mag": 55.47666802204831, "train/post_ent_max": 55.47666802204831, "train/post_ent_mean": 39.143032235159, "train/post_ent_min": 18.689760570794764, "train/post_ent_std": 5.963068767332695, "train/prior_ent_mag": 75.15338800994444, "train/prior_ent_max": 75.15338800994444, "train/prior_ent_mean": 43.71101819965202, "train/prior_ent_min": 24.383658691191336, "train/prior_ent_std": 7.495985588557284, "train/rep_loss_mean": 4.587229355959825, "train/rep_loss_std": 8.439350658739118, "train/reward_avg": 0.024881711780605182, "train/reward_loss_mean": 0.04279784716560807, "train/reward_loss_std": 0.19307627371499236, "train/reward_max_data": 1.0126760593602355, "train/reward_max_pred": 1.0136093539251407, "train/reward_neg_acc": 0.9953313184456086, "train/reward_neg_loss": 0.020949287995905945, "train/reward_pos_acc": 0.9862080610973735, "train/reward_pos_loss": 0.7471094232209972, "train/reward_pred": 0.024553397001410033, "train/reward_rate": 0.03005336707746479, "stats/sum_log_reward": 6.6714286123003275, "stats/max_log_achievement_collect_drink": 4.142857142857143, "stats/max_log_achievement_collect_sapling": 2.7142857142857144, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 11.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5714285714285714, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 2.4285714285714284, "stats/max_log_achievement_place_plant": 2.4285714285714284, "stats/max_log_achievement_place_table": 4.142857142857143, "stats/max_log_achievement_wake_up": 1.8571428571428572, "stats/mean_log_entropy": 0.3348317933934076, "replay/size": 177100.0, "replay/inserts": 1424.0, "replay/samples": 11392.0, "replay/insert_wait_avg": 3.7497348999709225e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2788837880231022e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.25533056259155, "timer/env.step_count": 1424.0, "timer/env.step_total": 18.828144073486328, "timer/env.step_frac": 0.06270711010594829, "timer/env.step_avg": 0.013222011287560623, "timer/env.step_min": 0.0030477046966552734, "timer/env.step_max": 1.7843148708343506, "timer/replay.add_count": 1424.0, "timer/replay.add_total": 0.26845765113830566, "timer/replay.add_frac": 0.0008940978687548819, "timer/replay.add_avg": 0.0001885236314173495, "timer/replay.add_min": 6.437301635742188e-05, "timer/replay.add_max": 0.002312183380126953, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02813410758972168, "timer/logger.write_frac": 9.370060986763002e-05, "timer/logger.write_avg": 0.02813410758972168, "timer/logger.write_min": 0.02813410758972168, "timer/logger.write_max": 0.02813410758972168, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003581047058105469, "timer/checkpoint.save_frac": 1.1926672713505613e-06, "timer/checkpoint.save_avg": 0.0003581047058105469, "timer/checkpoint.save_min": 0.0003581047058105469, "timer/checkpoint.save_max": 0.0003581047058105469, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3371593952178955, "timer/agent.save_frac": 0.004453407680431338, "timer/agent.save_avg": 1.3371593952178955, "timer/agent.save_min": 1.3371593952178955, "timer/agent.save_max": 1.3371593952178955, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.72747802734375e-05, "timer/replay.save_frac": 3.2397353309655727e-07, "timer/replay.save_avg": 9.72747802734375e-05, "timer/replay.save_min": 9.72747802734375e-05, "timer/replay.save_max": 9.72747802734375e-05, "timer/agent.policy_count": 1424.0, "timer/agent.policy_total": 15.249439001083374, "timer/agent.policy_frac": 0.05078823737287309, "timer/agent.policy_avg": 0.010708875703007987, "timer/agent.policy_min": 0.00569605827331543, "timer/agent.policy_max": 3.44600248336792, "timer/dataset_count": 712.0, "timer/dataset_total": 0.06448054313659668, "timer/dataset_frac": 0.00021475236764582602, "timer/dataset_avg": 9.056256058510769e-05, "timer/dataset_min": 6.389617919921875e-05, "timer/dataset_max": 0.00022983551025390625, "timer/agent.train_count": 712.0, "timer/agent.train_total": 265.1248948574066, "timer/agent.train_frac": 0.8829981281619191, "timer/agent.train_avg": 0.37236642536152614, "timer/agent.train_min": 0.3662381172180176, "timer/agent.train_max": 0.41791820526123047, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21862339973449707, "timer/agent.report_frac": 0.0007281249572650721, "timer/agent.report_avg": 0.21862339973449707, "timer/agent.report_min": 0.21862339973449707, "timer/agent.report_max": 0.21862339973449707, "fps": 4.742560921213287}
{"step": 177248, "episode/length": 241.0, "episode/score": 8.100000016391277, "episode/sum_abs_reward": 9.30000003427267, "episode/reward_rate": 0.0371900826446281}
{"step": 177475, "episode/length": 226.0, "episode/score": 5.099999979138374, "episode/sum_abs_reward": 7.30000002682209, "episode/reward_rate": 0.02643171806167401}
{"step": 177641, "episode/length": 165.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.0999999940395355, "episode/reward_rate": 0.04216867469879518}
{"step": 177897, "episode/length": 255.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.02734375}
{"step": 178054, "episode/length": 156.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.044585987261146494}
{"step": 178216, "episode/length": 161.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.037037037037037035}
{"step": 178414, "episode/length": 197.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.03535353535353535}
{"step": 178472, "episode/length": 57.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.06896551724137931}
{"step": 178605, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.5751758151584205, "train/action_min": 0.0, "train/action_std": 3.4823535448975034, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0513034343926443, "train/actor_opt_grad_steps": 88395.0, "train/actor_opt_loss": -16.246252232515772, "train/adv_mag": 0.5757168663872613, "train/adv_max": 0.5380290055440532, "train/adv_mean": 0.0022962850310553526, "train/adv_min": -0.4873565232588185, "train/adv_std": 0.06016792346619897, "train/cont_avg": 0.9941541883680556, "train/cont_loss_mean": 5.747749853115794e-05, "train/cont_loss_std": 0.001763908986107923, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 2.9363652038859476e-05, "train/cont_pos_acc": 0.9999863273567624, "train/cont_pos_loss": 5.763302794569035e-05, "train/cont_pred": 0.9941307322846519, "train/cont_rate": 0.9941541883680556, "train/dyn_loss_mean": 4.487188302808338, "train/dyn_loss_std": 8.351989487806955, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0768842664029863, "train/extr_critic_critic_opt_grad_steps": 88395.0, "train/extr_critic_critic_opt_loss": 15885.764268663195, "train/extr_critic_mag": 7.111904952261183, "train/extr_critic_max": 7.111904952261183, "train/extr_critic_mean": 1.359444917904006, "train/extr_critic_min": -0.6190553572442796, "train/extr_critic_std": 1.5272455397579405, "train/extr_return_normed_mag": 1.658515653676457, "train/extr_return_normed_max": 1.658515653676457, "train/extr_return_normed_mean": 0.33092402170101803, "train/extr_return_normed_min": -0.15880833617928955, "train/extr_return_normed_std": 0.32519665732979774, "train/extr_return_rate": 0.5890562016930845, "train/extr_return_raw_mag": 7.753641221258375, "train/extr_return_raw_max": 7.753641221258375, "train/extr_return_raw_mean": 1.3704903490013547, "train/extr_return_raw_min": -0.9853543995155228, "train/extr_return_raw_std": 1.5638565636343427, "train/extr_reward_mag": 1.0298534399933286, "train/extr_reward_max": 1.0298534399933286, "train/extr_reward_mean": 0.03418938249039153, "train/extr_reward_min": -0.6948510756095251, "train/extr_reward_std": 0.18428590666088793, "train/image_loss_mean": 2.6336347924338446, "train/image_loss_std": 7.353716942999098, "train/model_loss_mean": 5.368423713578118, "train/model_loss_std": 11.339855008655125, "train/model_opt_grad_norm": 38.14841397603353, "train/model_opt_grad_steps": 88321.22222222222, "train/model_opt_loss": 6710.529629177518, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.3107436100641885, "train/policy_entropy_max": 2.3107436100641885, "train/policy_entropy_mean": 0.3661236609849665, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.45289913482136196, "train/policy_logprob_mag": 7.438384115695953, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36659762428866494, "train/policy_logprob_min": -7.438384115695953, "train/policy_logprob_std": 0.978497157494227, "train/policy_randomness_mag": 0.8155910910831558, "train/policy_randomness_max": 0.8155910910831558, "train/policy_randomness_mean": 0.12922558478183216, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1598535201822718, "train/post_ent_mag": 55.28743330637614, "train/post_ent_max": 55.28743330637614, "train/post_ent_mean": 39.2964571317037, "train/post_ent_min": 18.678379363483852, "train/post_ent_std": 6.084312048223284, "train/prior_ent_mag": 75.14543215433757, "train/prior_ent_max": 75.14543215433757, "train/prior_ent_mean": 43.766865253448486, "train/prior_ent_min": 23.880483110745747, "train/prior_ent_std": 7.579791890250312, "train/rep_loss_mean": 4.487188302808338, "train/rep_loss_std": 8.351989487806955, "train/reward_avg": 0.024602593077967565, "train/reward_loss_mean": 0.04241844546049833, "train/reward_loss_std": 0.17610187352531487, "train/reward_max_data": 1.0111111137602065, "train/reward_max_pred": 1.01157150665919, "train/reward_neg_acc": 0.9948997447888056, "train/reward_neg_loss": 0.021607091650366783, "train/reward_pos_acc": 0.9914176637927691, "train/reward_pos_loss": 0.7186227945817841, "train/reward_pred": 0.024465433257218037, "train/reward_rate": 0.029866536458333332, "stats/sum_log_reward": 5.5999999940395355, "stats/max_log_achievement_collect_drink": 5.125, "stats/max_log_achievement_collect_sapling": 3.25, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 5.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.875, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.5, "stats/max_log_achievement_place_plant": 2.125, "stats/max_log_achievement_place_table": 1.75, "stats/max_log_achievement_wake_up": 2.25, "stats/mean_log_entropy": 0.3409844897687435, "replay/size": 178542.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.686063663308068e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2715588660908143e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2177073955536, "timer/env.step_count": 1442.0, "timer/env.step_total": 20.18817710876465, "timer/env.step_frac": 0.06724512449282546, "timer/env.step_avg": 0.0140001228216121, "timer/env.step_min": 0.002973794937133789, "timer/env.step_max": 1.6897060871124268, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.25879883766174316, "timer/replay.add_frac": 0.0008620372192795452, "timer/replay.add_avg": 0.00017947214817041828, "timer/replay.add_min": 7.534027099609375e-05, "timer/replay.add_max": 0.0012824535369873047, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024346351623535156, "timer/logger.write_frac": 8.109565499898205e-05, "timer/logger.write_avg": 0.024346351623535156, "timer/logger.write_min": 0.024346351623535156, "timer/logger.write_max": 0.024346351623535156, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 10.601726770401001, "timer/agent.policy_frac": 0.035313462561462554, "timer/agent.policy_avg": 0.007352099008599862, "timer/agent.policy_min": 0.005702972412109375, "timer/agent.policy_max": 0.016722917556762695, "timer/dataset_count": 721.0, "timer/dataset_total": 0.06430816650390625, "timer/dataset_frac": 0.0002142051082256006, "timer/dataset_avg": 8.919301872941228e-05, "timer/dataset_min": 6.842613220214844e-05, "timer/dataset_max": 0.00026035308837890625, "timer/agent.train_count": 721.0, "timer/agent.train_total": 268.38038992881775, "timer/agent.train_frac": 0.8939525661463119, "timer/agent.train_avg": 0.372233550525406, "timer/agent.train_min": 0.3632538318634033, "timer/agent.train_max": 0.38509440422058105, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21886897087097168, "timer/agent.report_frac": 0.0007290341824594629, "timer/agent.report_avg": 0.21886897087097168, "timer/agent.report_min": 0.21886897087097168, "timer/agent.report_max": 0.21886897087097168, "fps": 4.8031067010787645}
{"step": 178689, "episode/length": 216.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.5, "episode/reward_rate": 0.03686635944700461}
{"step": 178739, "episode/length": 49.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 3.900000013411045, "episode/reward_rate": 0.06}
{"step": 178873, "episode/length": 133.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.05223880597014925}
{"step": 179031, "episode/length": 157.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.0379746835443038}
{"step": 179242, "episode/length": 210.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.02843601895734597}
{"step": 179518, "episode/length": 275.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.028985507246376812}
{"step": 179722, "episode/length": 203.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.029411764705882353}
{"step": 179776, "episode/length": 53.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.07407407407407407}
{"step": 179957, "episode/length": 180.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.3000000193715096, "episode/reward_rate": 0.03314917127071823}
{"step": 180035, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.557151257152289, "train/action_min": 0.0, "train/action_std": 3.534394237357126, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.050718790785947314, "train/actor_opt_grad_steps": 89110.0, "train/actor_opt_loss": -15.488837281478123, "train/adv_mag": 0.5637546832292852, "train/adv_max": 0.5375177767914785, "train/adv_mean": 0.003220473656768609, "train/adv_min": -0.4654668699687635, "train/adv_std": 0.06059797118667146, "train/cont_avg": 0.9941818882042254, "train/cont_loss_mean": 2.7913219333852243e-05, "train/cont_loss_std": 0.0008108906334866691, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.000549281198307423, "train/cont_pos_acc": 0.9999999874074694, "train/cont_pos_loss": 2.475381268461308e-05, "train/cont_pred": 0.9941646633013873, "train/cont_rate": 0.9941818882042254, "train/dyn_loss_mean": 4.45704381902453, "train/dyn_loss_std": 8.459258542933934, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0446443314283667, "train/extr_critic_critic_opt_grad_steps": 89110.0, "train/extr_critic_critic_opt_loss": 15957.20147447183, "train/extr_critic_mag": 7.107554811826894, "train/extr_critic_max": 7.107554811826894, "train/extr_critic_mean": 1.3501152488547312, "train/extr_critic_min": -0.5893609725253682, "train/extr_critic_std": 1.5354263094109548, "train/extr_return_normed_mag": 1.6401533140263087, "train/extr_return_normed_max": 1.6401533140263087, "train/extr_return_normed_mean": 0.3255760201685865, "train/extr_return_normed_min": -0.15547504464925174, "train/extr_return_normed_std": 0.3285513704931232, "train/extr_return_rate": 0.5674030184745789, "train/extr_return_raw_mag": 7.657710357451103, "train/extr_return_raw_max": 7.657710357451103, "train/extr_return_raw_mean": 1.3655294272261607, "train/extr_return_raw_min": -0.9366874040012628, "train/extr_return_raw_std": 1.5727872697400376, "train/extr_reward_mag": 1.0342566261828785, "train/extr_reward_max": 1.0342566261828785, "train/extr_reward_mean": 0.03486820158194488, "train/extr_reward_min": -0.6727304458618164, "train/extr_reward_std": 0.18593849262721102, "train/image_loss_mean": 2.6371023806048113, "train/image_loss_std": 7.474857625826983, "train/model_loss_mean": 5.355408399877414, "train/model_loss_std": 11.532677945956378, "train/model_opt_grad_norm": 35.695236958248515, "train/model_opt_grad_steps": 89036.0, "train/model_opt_loss": 9133.489526023328, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1725.3521126760563, "train/policy_entropy_mag": 2.321697040342949, "train/policy_entropy_max": 2.321697040342949, "train/policy_entropy_mean": 0.35093189587055795, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4374127463555672, "train/policy_logprob_mag": 7.438384123251471, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3515623022972698, "train/policy_logprob_min": -7.438384123251471, "train/policy_logprob_std": 0.9663010105280809, "train/policy_randomness_mag": 0.8194571683104609, "train/policy_randomness_max": 0.8194571683104609, "train/policy_randomness_mean": 0.12386355958354305, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15438750281300342, "train/post_ent_mag": 55.82242621838207, "train/post_ent_max": 55.82242621838207, "train/post_ent_mean": 39.33040688743054, "train/post_ent_min": 18.66290199924523, "train/post_ent_std": 6.001376722899961, "train/prior_ent_mag": 75.15177627348564, "train/prior_ent_max": 75.15177627348564, "train/prior_ent_mean": 43.72807897648341, "train/prior_ent_min": 24.257342969867544, "train/prior_ent_std": 7.508845423308896, "train/rep_loss_mean": 4.45704381902453, "train/rep_loss_std": 8.459258542933934, "train/reward_avg": 0.0252984701590219, "train/reward_loss_mean": 0.04405183334585647, "train/reward_loss_std": 0.195530939375011, "train/reward_max_data": 1.0140845104002616, "train/reward_max_pred": 1.0136722913930114, "train/reward_neg_acc": 0.9957480900724169, "train/reward_neg_loss": 0.02226352746742712, "train/reward_pos_acc": 0.9861268745341771, "train/reward_pos_loss": 0.739470855450966, "train/reward_pred": 0.024940471558398764, "train/reward_rate": 0.03043849031690141, "stats/sum_log_reward": 4.988888793521458, "stats/max_log_achievement_collect_drink": 4.444444444444445, "stats/max_log_achievement_collect_sapling": 2.6666666666666665, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 4.666666666666667, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.3333333333333333, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.5555555555555556, "stats/max_log_achievement_place_plant": 2.4444444444444446, "stats/max_log_achievement_place_table": 1.5555555555555556, "stats/max_log_achievement_wake_up": 1.4444444444444444, "stats/mean_log_entropy": 0.27777163022094303, "replay/size": 179972.0, "replay/inserts": 1430.0, "replay/samples": 11440.0, "replay/insert_wait_avg": 3.733334841428103e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2625764299939562e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.28564500808716, "timer/env.step_count": 1430.0, "timer/env.step_total": 22.421277046203613, "timer/env.step_frac": 0.07466649644740685, "timer/env.step_avg": 0.015679214717624904, "timer/env.step_min": 0.002917051315307617, "timer/env.step_max": 1.801551342010498, "timer/replay.add_count": 1430.0, "timer/replay.add_total": 0.2763068675994873, "timer/replay.add_frac": 0.0009201467742224106, "timer/replay.add_avg": 0.00019322158573390722, "timer/replay.add_min": 6.937980651855469e-05, "timer/replay.add_max": 0.008038759231567383, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025727033615112305, "timer/logger.write_frac": 8.567520307012823e-05, "timer/logger.write_avg": 0.025727033615112305, "timer/logger.write_min": 0.025727033615112305, "timer/logger.write_max": 0.025727033615112305, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1430.0, "timer/agent.policy_total": 10.492096662521362, "timer/agent.policy_frac": 0.03494038705126512, "timer/agent.policy_avg": 0.007337130533231722, "timer/agent.policy_min": 0.005673408508300781, "timer/agent.policy_max": 0.01537466049194336, "timer/dataset_count": 715.0, "timer/dataset_total": 0.06580138206481934, "timer/dataset_frac": 0.0002191292962507322, "timer/dataset_avg": 9.20299049857613e-05, "timer/dataset_min": 6.29425048828125e-05, "timer/dataset_max": 0.0001990795135498047, "timer/agent.train_count": 715.0, "timer/agent.train_total": 266.30284667015076, "timer/agent.train_frac": 0.8868317586842315, "timer/agent.train_avg": 0.37245153380440665, "timer/agent.train_min": 0.366091251373291, "timer/agent.train_max": 0.38744425773620605, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21814966201782227, "timer/agent.report_frac": 0.0007264738279845084, "timer/agent.report_avg": 0.21814966201782227, "timer/agent.report_min": 0.21814966201782227, "timer/agent.report_max": 0.21814966201782227, "fps": 4.7620300526276935}
{"step": 180117, "episode/length": 159.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.05}
{"step": 180315, "episode/length": 197.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.030303030303030304}
{"step": 180518, "episode/length": 202.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.700000025331974, "episode/reward_rate": 0.04433497536945813}
{"step": 180711, "episode/length": 192.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.031088082901554404}
{"step": 180748, "episode/length": 36.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.10810810810810811}
{"step": 180912, "episode/length": 163.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.036585365853658534}
{"step": 181131, "episode/length": 218.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 9.100000031292439, "episode/reward_rate": 0.0365296803652968}
{"step": 181313, "episode/length": 181.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.038461538461538464}
{"step": 181453, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.52824638259243, "train/action_min": 0.0, "train/action_std": 3.498599609858553, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05150680443350698, "train/actor_opt_grad_steps": 89820.0, "train/actor_opt_loss": -16.212127233711136, "train/adv_mag": 0.5785136281604498, "train/adv_max": 0.54118165709603, "train/adv_mean": 0.0025691701871757787, "train/adv_min": -0.4892189490123534, "train/adv_std": 0.06100603728227212, "train/cont_avg": 0.9936317121478874, "train/cont_loss_mean": 2.322865281206452e-05, "train/cont_loss_std": 0.0006465910614374928, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0006906245961045629, "train/cont_pos_acc": 0.9999999907654775, "train/cont_pos_loss": 1.8790366916266682e-05, "train/cont_pred": 0.9936197274167773, "train/cont_rate": 0.9936317121478874, "train/dyn_loss_mean": 4.596358658562244, "train/dyn_loss_std": 8.492588412593788, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.051897405738562, "train/extr_critic_critic_opt_grad_steps": 89820.0, "train/extr_critic_critic_opt_loss": 15917.374917473591, "train/extr_critic_mag": 7.091066454497861, "train/extr_critic_max": 7.091066454497861, "train/extr_critic_mean": 1.386443750959047, "train/extr_critic_min": -0.5983109171961395, "train/extr_critic_std": 1.5276650207143434, "train/extr_return_normed_mag": 1.647729860225194, "train/extr_return_normed_max": 1.647729860225194, "train/extr_return_normed_mean": 0.33595217575489633, "train/extr_return_normed_min": -0.16620679273152014, "train/extr_return_normed_std": 0.32762511641206876, "train/extr_return_rate": 0.5908927846122796, "train/extr_return_raw_mag": 7.635124213258985, "train/extr_return_raw_max": 7.635124213258985, "train/extr_return_raw_mean": 1.3986880787661378, "train/extr_return_raw_min": -0.9885063952123615, "train/extr_return_raw_std": 1.55786231202139, "train/extr_reward_mag": 1.0296778443833472, "train/extr_reward_max": 1.0296778443833472, "train/extr_reward_mean": 0.03468948201289479, "train/extr_reward_min": -0.6682560678938745, "train/extr_reward_std": 0.18596240017615573, "train/image_loss_mean": 2.7000218646627077, "train/image_loss_std": 7.634400025219985, "train/model_loss_mean": 5.503256186633043, "train/model_loss_std": 11.70949429525456, "train/model_opt_grad_norm": 37.044464218784384, "train/model_opt_grad_steps": 89746.0, "train/model_opt_loss": 13758.140459947183, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.2770322510893917, "train/policy_entropy_max": 2.2770322510893917, "train/policy_entropy_mean": 0.34233774139847556, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.42546801290041963, "train/policy_logprob_mag": 7.438384116535455, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3424618768859917, "train/policy_logprob_min": -7.438384116535455, "train/policy_logprob_std": 0.9561692459482543, "train/policy_randomness_mag": 0.8036924600601196, "train/policy_randomness_max": 0.8036924600601196, "train/policy_randomness_mean": 0.1208301971495991, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1501715375294148, "train/post_ent_mag": 55.69693874305403, "train/post_ent_max": 55.69693874305403, "train/post_ent_mean": 39.2579484858983, "train/post_ent_min": 18.61928351496307, "train/post_ent_std": 6.044422042201942, "train/prior_ent_mag": 75.05321416720538, "train/prior_ent_max": 75.05321416720538, "train/prior_ent_mean": 43.79392817322637, "train/prior_ent_min": 24.025510626779475, "train/prior_ent_std": 7.6406164639432665, "train/rep_loss_mean": 4.596358658562244, "train/rep_loss_std": 8.492588412593788, "train/reward_avg": 0.025855523678408543, "train/reward_loss_mean": 0.045395954787521293, "train/reward_loss_std": 0.19640287819882513, "train/reward_max_data": 1.0140845104002616, "train/reward_max_pred": 1.0148688537973753, "train/reward_neg_acc": 0.9955933186369883, "train/reward_neg_loss": 0.023148003624568522, "train/reward_pos_acc": 0.9871778832355016, "train/reward_pos_loss": 0.7351739389795653, "train/reward_pred": 0.02559693405588328, "train/reward_rate": 0.031373789612676055, "stats/sum_log_reward": 5.724999964237213, "stats/max_log_achievement_collect_drink": 4.125, "stats/max_log_achievement_collect_sapling": 3.125, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 7.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.625, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.75, "stats/max_log_achievement_place_plant": 2.375, "stats/max_log_achievement_place_table": 2.375, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.26165207475423813, "replay/size": 181390.0, "replay/inserts": 1418.0, "replay/samples": 11344.0, "replay/insert_wait_avg": 3.64992278923605e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2678807477856892e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.155029296875, "timer/env.step_count": 1418.0, "timer/env.step_total": 19.92885947227478, "timer/env.step_frac": 0.06639522089287965, "timer/env.step_avg": 0.014054202730800268, "timer/env.step_min": 0.0029573440551757812, "timer/env.step_max": 1.6777002811431885, "timer/replay.add_count": 1418.0, "timer/replay.add_total": 0.2615957260131836, "timer/replay.add_frac": 0.0008715353749893243, "timer/replay.add_avg": 0.00018448217631395175, "timer/replay.add_min": 7.104873657226562e-05, "timer/replay.add_max": 0.0013072490692138672, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023848772048950195, "timer/logger.write_frac": 7.945484739941518e-05, "timer/logger.write_avg": 0.023848772048950195, "timer/logger.write_min": 0.023848772048950195, "timer/logger.write_max": 0.023848772048950195, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0005662441253662109, "timer/checkpoint.save_frac": 1.8865055391297628e-06, "timer/checkpoint.save_avg": 0.0005662441253662109, "timer/checkpoint.save_min": 0.0005662441253662109, "timer/checkpoint.save_max": 0.0005662441253662109, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4460194110870361, "timer/agent.save_frac": 0.004817575152661588, "timer/agent.save_avg": 1.4460194110870361, "timer/agent.save_min": 1.4460194110870361, "timer/agent.save_max": 1.4460194110870361, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.608268737792969e-05, "timer/replay.save_frac": 3.201102030607556e-07, "timer/replay.save_avg": 9.608268737792969e-05, "timer/replay.save_min": 9.608268737792969e-05, "timer/replay.save_max": 9.608268737792969e-05, "timer/agent.policy_count": 1418.0, "timer/agent.policy_total": 15.154095888137817, "timer/agent.policy_frac": 0.05048756278925889, "timer/agent.policy_avg": 0.010686950555809462, "timer/agent.policy_min": 0.005685329437255859, "timer/agent.policy_max": 3.388664722442627, "timer/dataset_count": 709.0, "timer/dataset_total": 0.06463146209716797, "timer/dataset_frac": 0.00021532693371345373, "timer/dataset_avg": 9.115862072943297e-05, "timer/dataset_min": 7.009506225585938e-05, "timer/dataset_max": 0.0009963512420654297, "timer/agent.train_count": 709.0, "timer/agent.train_total": 264.0306463241577, "timer/agent.train_frac": 0.8796475839257464, "timer/agent.train_avg": 0.3723986549000814, "timer/agent.train_min": 0.36568570137023926, "timer/agent.train_max": 0.4592709541320801, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21866607666015625, "timer/agent.report_frac": 0.0007285104539890275, "timer/agent.report_avg": 0.21866607666015625, "timer/agent.report_min": 0.21866607666015625, "timer/agent.report_max": 0.21866607666015625, "fps": 4.7241617471375195}
{"step": 181509, "episode/length": 195.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.03571428571428571}
{"step": 181754, "episode/length": 244.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.024489795918367346}
{"step": 181932, "episode/length": 177.0, "episode/score": 6.100000023841858, "episode/sum_abs_reward": 7.700000047683716, "episode/reward_rate": 0.03932584269662921}
{"step": 182121, "episode/length": 188.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.026455026455026454}
{"step": 182294, "episode/length": 172.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.04046242774566474}
{"step": 182482, "episode/length": 187.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.03723404255319149}
{"step": 182635, "episode/length": 152.0, "episode/score": 6.099999971687794, "episode/sum_abs_reward": 8.100000031292439, "episode/reward_rate": 0.05228758169934641}
{"step": 182675, "episode/length": 39.0, "episode/score": 1.0999999716877937, "episode/sum_abs_reward": 3.1000000312924385, "episode/reward_rate": 0.075}
{"step": 182875, "episode/length": 199.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.04}
{"step": 182885, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.59275139702691, "train/action_min": 0.0, "train/action_std": 3.6286865837044187, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05121761037864619, "train/actor_opt_grad_steps": 90535.0, "train/actor_opt_loss": -16.63348666140357, "train/adv_mag": 0.5331750259631209, "train/adv_max": 0.5126205641362402, "train/adv_mean": 0.002443960003094819, "train/adv_min": -0.4389887986083825, "train/adv_std": 0.060092856279677816, "train/cont_avg": 0.994140625, "train/cont_loss_mean": 9.058812755292756e-05, "train/cont_loss_std": 0.002733430014070374, "train/cont_neg_acc": 0.9976525827192925, "train/cont_neg_loss": 0.010885472254428773, "train/cont_pos_acc": 0.9999863248732355, "train/cont_pos_loss": 2.7542841526124245e-05, "train/cont_pred": 0.9941350941856703, "train/cont_rate": 0.994140625, "train/dyn_loss_mean": 4.566637016004986, "train/dyn_loss_std": 8.447954886489445, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0634728140301175, "train/extr_critic_critic_opt_grad_steps": 90535.0, "train/extr_critic_critic_opt_loss": 15790.374240451389, "train/extr_critic_mag": 6.960749838087294, "train/extr_critic_max": 6.960749838087294, "train/extr_critic_mean": 1.3395835119816992, "train/extr_critic_min": -0.5990656216939291, "train/extr_critic_std": 1.465662956237793, "train/extr_return_normed_mag": 1.6570822132958307, "train/extr_return_normed_max": 1.6570822132958307, "train/extr_return_normed_mean": 0.3342667000575198, "train/extr_return_normed_min": -0.14491631432125965, "train/extr_return_normed_std": 0.3197181543542279, "train/extr_return_rate": 0.5987449677454101, "train/extr_return_raw_mag": 7.550066219435798, "train/extr_return_raw_max": 7.550066219435798, "train/extr_return_raw_mean": 1.351030859682295, "train/extr_return_raw_min": -0.8946237804161178, "train/extr_return_raw_std": 1.498482495546341, "train/extr_reward_mag": 1.0304691625965967, "train/extr_reward_max": 1.0304691625965967, "train/extr_reward_mean": 0.03421746700122538, "train/extr_reward_min": -0.652602333161566, "train/extr_reward_std": 0.18425340433087614, "train/image_loss_mean": 2.728099897503853, "train/image_loss_std": 7.676747017436558, "train/model_loss_mean": 5.511750012636185, "train/model_loss_std": 11.71168499522739, "train/model_opt_grad_norm": 36.051063219706215, "train/model_opt_grad_steps": 90459.26388888889, "train/model_opt_loss": 8782.994676378039, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1597.2222222222222, "train/policy_entropy_mag": 2.2919757465521493, "train/policy_entropy_max": 2.2919757465521493, "train/policy_entropy_mean": 0.3631373287902938, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.441809316062265, "train/policy_logprob_mag": 7.438384115695953, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3624394978913996, "train/policy_logprob_min": -7.438384115695953, "train/policy_logprob_std": 0.9715361578596963, "train/policy_randomness_mag": 0.8089668568637636, "train/policy_randomness_max": 0.8089668568637636, "train/policy_randomness_mean": 0.12817154131415817, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1559392993027965, "train/post_ent_mag": 55.2028095987108, "train/post_ent_max": 55.2028095987108, "train/post_ent_mean": 39.2135976685418, "train/post_ent_min": 18.619804210133022, "train/post_ent_std": 5.90449763668908, "train/prior_ent_mag": 75.19653839535184, "train/prior_ent_max": 75.19653839535184, "train/prior_ent_mean": 43.744720141092934, "train/prior_ent_min": 25.234261406792534, "train/prior_ent_std": 7.428102466795179, "train/rep_loss_mean": 4.566637016004986, "train/rep_loss_std": 8.447954886489445, "train/reward_avg": 0.02579481298259149, "train/reward_loss_mean": 0.04357733683557146, "train/reward_loss_std": 0.1903216243825025, "train/reward_max_data": 1.0152777814202838, "train/reward_max_pred": 1.0157751242319744, "train/reward_neg_acc": 0.9957024372286267, "train/reward_neg_loss": 0.021548366439270064, "train/reward_pos_acc": 0.9867368853754468, "train/reward_pos_loss": 0.7347524886329969, "train/reward_pred": 0.025495784189034667, "train/reward_rate": 0.0308837890625, "stats/sum_log_reward": 5.099999904632568, "stats/max_log_achievement_collect_drink": 4.444444444444445, "stats/max_log_achievement_collect_sapling": 2.6666666666666665, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 5.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.2222222222222222, "stats/max_log_achievement_eat_cow": 0.2222222222222222, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.6666666666666666, "stats/max_log_achievement_place_plant": 2.4444444444444446, "stats/max_log_achievement_place_table": 1.8888888888888888, "stats/max_log_achievement_wake_up": 1.5555555555555556, "stats/mean_log_entropy": 0.3560454414950477, "replay/size": 182822.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.733281982677609e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2775664555959862e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.03293228149414, "timer/env.step_count": 1432.0, "timer/env.step_total": 21.99304175376892, "timer/env.step_frac": 0.07330209249541585, "timer/env.step_avg": 0.015358269381123548, "timer/env.step_min": 0.002893686294555664, "timer/env.step_max": 1.7940099239349365, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.2621614933013916, "timer/replay.add_frac": 0.0008737757262440406, "timer/replay.add_avg": 0.0001830736685065584, "timer/replay.add_min": 6.246566772460938e-05, "timer/replay.add_max": 0.0016732215881347656, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028450727462768555, "timer/logger.write_frac": 9.48253488256275e-05, "timer/logger.write_avg": 0.028450727462768555, "timer/logger.write_min": 0.028450727462768555, "timer/logger.write_max": 0.028450727462768555, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 10.531437158584595, "timer/agent.policy_frac": 0.03510093734878372, "timer/agent.policy_avg": 0.007354355557670806, "timer/agent.policy_min": 0.0056819915771484375, "timer/agent.policy_max": 0.015507698059082031, "timer/dataset_count": 716.0, "timer/dataset_total": 0.0647430419921875, "timer/dataset_frac": 0.0002157864521733397, "timer/dataset_avg": 9.042324300584846e-05, "timer/dataset_min": 6.079673767089844e-05, "timer/dataset_max": 0.0002143383026123047, "timer/agent.train_count": 716.0, "timer/agent.train_total": 266.45104360580444, "timer/agent.train_frac": 0.8880726578234992, "timer/agent.train_avg": 0.3721383290583861, "timer/agent.train_min": 0.3622264862060547, "timer/agent.train_max": 0.3847169876098633, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21905064582824707, "timer/agent.report_frac": 0.0007300886744750119, "timer/agent.report_avg": 0.21905064582824707, "timer/agent.report_min": 0.21905064582824707, "timer/agent.report_max": 0.21905064582824707, "fps": 4.772747600871111}
{"step": 183116, "episode/length": 240.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.03319502074688797}
{"step": 183269, "episode/length": 152.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.0457516339869281}
{"step": 183476, "episode/length": 206.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.03864734299516908}
{"step": 183635, "episode/length": 158.0, "episode/score": 5.099999971687794, "episode/sum_abs_reward": 7.1000000312924385, "episode/reward_rate": 0.0440251572327044}
{"step": 183797, "episode/length": 161.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.030864197530864196}
{"step": 183914, "episode/length": 116.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.05128205128205128}
{"step": 184071, "episode/length": 156.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.03184713375796178}
{"step": 184301, "episode/length": 229.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 8.899999991059303, "episode/reward_rate": 0.0391304347826087}
{"step": 184325, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.503624810112847, "train/action_min": 0.0, "train/action_std": 3.4897895554701486, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05190066455139054, "train/actor_opt_grad_steps": 91255.0, "train/actor_opt_loss": -14.271965323223007, "train/adv_mag": 0.6122186237739192, "train/adv_max": 0.5566626311176353, "train/adv_mean": 0.003621795515856421, "train/adv_min": -0.5106013123359945, "train/adv_std": 0.06160419242870477, "train/cont_avg": 0.9942626953125, "train/cont_loss_mean": 9.466556476351368e-05, "train/cont_loss_std": 0.0028914882753604664, "train/cont_neg_acc": 0.9954861112766795, "train/cont_neg_loss": 0.010681862431561563, "train/cont_pos_acc": 0.9999999776482582, "train/cont_pos_loss": 2.3323628140935347e-05, "train/cont_pred": 0.9942662417888641, "train/cont_rate": 0.9942626953125, "train/dyn_loss_mean": 4.488798055383894, "train/dyn_loss_std": 8.4113652838601, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0838067299789853, "train/extr_critic_critic_opt_grad_steps": 91255.0, "train/extr_critic_critic_opt_loss": 15917.568386501736, "train/extr_critic_mag": 6.962513446807861, "train/extr_critic_max": 6.962513446807861, "train/extr_critic_mean": 1.3547871303227212, "train/extr_critic_min": -0.6010195596350564, "train/extr_critic_std": 1.4903691642814212, "train/extr_return_normed_mag": 1.6505315320359335, "train/extr_return_normed_max": 1.6505315320359335, "train/extr_return_normed_mean": 0.33343662155999076, "train/extr_return_normed_min": -0.1522540423191256, "train/extr_return_normed_std": 0.32101354872186977, "train/extr_return_rate": 0.6107494562036462, "train/extr_return_raw_mag": 7.6302851173612805, "train/extr_return_raw_max": 7.6302851173612805, "train/extr_return_raw_mean": 1.3719926079114277, "train/extr_return_raw_min": -0.9361140529314677, "train/extr_return_raw_std": 1.5254290766186185, "train/extr_reward_mag": 1.0268069207668304, "train/extr_reward_max": 1.0268069207668304, "train/extr_reward_mean": 0.03400415489967498, "train/extr_reward_min": -0.6731461965375476, "train/extr_reward_std": 0.18411497068074015, "train/image_loss_mean": 2.633806922369533, "train/image_loss_std": 7.138785613907708, "train/model_loss_mean": 5.37056169907252, "train/model_loss_std": 11.145209716426002, "train/model_opt_grad_norm": 36.29656606250339, "train/model_opt_grad_steps": 91179.0, "train/model_opt_loss": 9596.295552571615, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1805.5555555555557, "train/policy_entropy_mag": 2.3131219844023385, "train/policy_entropy_max": 2.3131219844023385, "train/policy_entropy_mean": 0.354461907926533, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4371609894765748, "train/policy_logprob_mag": 7.438384115695953, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.35475029175480205, "train/policy_logprob_min": -7.438384115695953, "train/policy_logprob_std": 0.9667576634221606, "train/policy_randomness_mag": 0.8164305513103803, "train/policy_randomness_max": 0.8164305513103803, "train/policy_randomness_mean": 0.12510949569857782, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15429864544421434, "train/post_ent_mag": 55.697273095448814, "train/post_ent_max": 55.697273095448814, "train/post_ent_mean": 39.429644690619575, "train/post_ent_min": 18.35323754946391, "train/post_ent_std": 5.985844062434302, "train/prior_ent_mag": 75.1803854836358, "train/prior_ent_max": 75.1803854836358, "train/prior_ent_mean": 43.893935680389404, "train/prior_ent_min": 24.263564666112263, "train/prior_ent_std": 7.467432783709632, "train/rep_loss_mean": 4.488798055383894, "train/rep_loss_std": 8.4113652838601, "train/reward_avg": 0.02544216564597769, "train/reward_loss_mean": 0.04338125323152377, "train/reward_loss_std": 0.18752024446924528, "train/reward_max_data": 1.013888892200258, "train/reward_max_pred": 1.0128011686934366, "train/reward_neg_acc": 0.9956492781639099, "train/reward_neg_loss": 0.021396196977649298, "train/reward_pos_acc": 0.9846160544289483, "train/reward_pos_loss": 0.7407794702384207, "train/reward_pred": 0.025225636820929747, "train/reward_rate": 0.030707465277777776, "stats/sum_log_reward": 5.724999904632568, "stats/max_log_achievement_collect_drink": 3.5, "stats/max_log_achievement_collect_sapling": 2.5, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 9.125, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.375, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 1.5, "stats/max_log_achievement_place_plant": 1.875, "stats/max_log_achievement_place_table": 2.625, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.30412110313773155, "replay/size": 184262.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.7378735012478297e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2596241301960416e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.07577323913574, "timer/env.step_count": 1440.0, "timer/env.step_total": 20.29183077812195, "timer/env.step_frac": 0.06762235604388837, "timer/env.step_avg": 0.014091549151473575, "timer/env.step_min": 0.0029366016387939453, "timer/env.step_max": 1.6841907501220703, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.2805047035217285, "timer/replay.add_frac": 0.0009347795741517237, "timer/replay.add_avg": 0.00019479493300120037, "timer/replay.add_min": 7.724761962890625e-05, "timer/replay.add_max": 0.0049626827239990234, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030887603759765625, "timer/logger.write_frac": 0.00010293268072378086, "timer/logger.write_avg": 0.030887603759765625, "timer/logger.write_min": 0.030887603759765625, "timer/logger.write_max": 0.030887603759765625, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 10.589976787567139, "timer/agent.policy_frac": 0.03529100891169844, "timer/agent.policy_avg": 0.007354150546921624, "timer/agent.policy_min": 0.005549907684326172, "timer/agent.policy_max": 0.016367673873901367, "timer/dataset_count": 720.0, "timer/dataset_total": 0.06479573249816895, "timer/dataset_frac": 0.0002159312356300489, "timer/dataset_avg": 8.999407291412353e-05, "timer/dataset_min": 6.937980651855469e-05, "timer/dataset_max": 0.00018453598022460938, "timer/agent.train_count": 720.0, "timer/agent.train_total": 268.12330889701843, "timer/agent.train_frac": 0.893518680307944, "timer/agent.train_avg": 0.37239348457919225, "timer/agent.train_min": 0.3662431240081787, "timer/agent.train_max": 0.38596439361572266, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22054767608642578, "timer/agent.report_frac": 0.0007349732826004164, "timer/agent.report_avg": 0.22054767608642578, "timer/agent.report_min": 0.22054767608642578, "timer/agent.report_max": 0.22054767608642578, "fps": 4.798684797263163}
{"step": 184493, "episode/length": 191.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.700000047683716, "episode/reward_rate": 0.036458333333333336}
{"step": 184643, "episode/length": 149.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.04666666666666667}
{"step": 184895, "episode/length": 251.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.500000022351742, "episode/reward_rate": 0.031746031746031744}
{"step": 185179, "episode/length": 283.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.02464788732394366}
{"step": 185452, "episode/length": 272.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.700000025331974, "episode/reward_rate": 0.029304029304029304}
{"step": 185650, "episode/length": 197.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.900000028312206, "episode/reward_rate": 0.03535353535353535}
{"step": 185759, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.538924323187934, "train/action_min": 0.0, "train/action_std": 3.5693727201885648, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05084808413974113, "train/actor_opt_grad_steps": 91975.0, "train/actor_opt_loss": -15.1796482304732, "train/adv_mag": 0.5640872692068418, "train/adv_max": 0.5212036793430647, "train/adv_mean": 0.0023258843317914093, "train/adv_min": -0.4581042097674476, "train/adv_std": 0.05882143756995598, "train/cont_avg": 0.9941948784722222, "train/cont_loss_mean": 3.725603493462712e-05, "train/cont_loss_std": 0.0011143907737884244, "train/cont_neg_acc": 0.9972222223877907, "train/cont_neg_loss": 0.005305293817375261, "train/cont_pos_acc": 0.9999999776482582, "train/cont_pos_loss": 1.0891727381137332e-05, "train/cont_pred": 0.9941988488038381, "train/cont_rate": 0.9941948784722222, "train/dyn_loss_mean": 4.604616433382034, "train/dyn_loss_std": 8.46949756807751, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.083063867357042, "train/extr_critic_critic_opt_grad_steps": 91975.0, "train/extr_critic_critic_opt_loss": 15702.540974934896, "train/extr_critic_mag": 7.0618129637506275, "train/extr_critic_max": 7.0618129637506275, "train/extr_critic_mean": 1.4419527583652072, "train/extr_critic_min": -0.6147876613669925, "train/extr_critic_std": 1.551021236512396, "train/extr_return_normed_mag": 1.649808453189002, "train/extr_return_normed_max": 1.649808453189002, "train/extr_return_normed_mean": 0.34530312940478325, "train/extr_return_normed_min": -0.14464359554565615, "train/extr_return_normed_std": 0.32681705099013114, "train/extr_return_rate": 0.6182680763304234, "train/extr_return_raw_mag": 7.782215032312605, "train/extr_return_raw_max": 7.782215032312605, "train/extr_return_raw_mean": 1.4532402786943648, "train/extr_return_raw_min": -0.9242151197459962, "train/extr_return_raw_std": 1.5857848020063505, "train/extr_reward_mag": 1.0271146065658994, "train/extr_reward_max": 1.0271146065658994, "train/extr_reward_mean": 0.03457339568477538, "train/extr_reward_min": -0.6636825187338723, "train/extr_reward_std": 0.18562344937688774, "train/image_loss_mean": 2.710017152958446, "train/image_loss_std": 7.582075337568919, "train/model_loss_mean": 5.516003244453007, "train/model_loss_std": 11.654718816280365, "train/model_opt_grad_norm": 39.38250788052877, "train/model_opt_grad_steps": 91898.59722222222, "train/model_opt_loss": 11005.738986545139, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1996.5277777777778, "train/policy_entropy_mag": 2.3067579534318714, "train/policy_entropy_max": 2.3067579534318714, "train/policy_entropy_mean": 0.35055096737212604, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4307417215572463, "train/policy_logprob_mag": 7.4383841090732155, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3510227083332009, "train/policy_logprob_min": -7.4383841090732155, "train/policy_logprob_std": 0.9632609842552079, "train/policy_randomness_mag": 0.8141843287481202, "train/policy_randomness_max": 0.8141843287481202, "train/policy_randomness_mean": 0.12372910790145397, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15203292512645325, "train/post_ent_mag": 54.94032997555203, "train/post_ent_max": 54.94032997555203, "train/post_ent_mean": 39.217125415802, "train/post_ent_min": 18.48365463150872, "train/post_ent_std": 5.957337776819865, "train/prior_ent_mag": 75.20670223236084, "train/prior_ent_max": 75.20670223236084, "train/prior_ent_mean": 43.797083907657196, "train/prior_ent_min": 24.205545081032646, "train/prior_ent_std": 7.451933403809865, "train/rep_loss_mean": 4.604616433382034, "train/rep_loss_std": 8.46949756807751, "train/reward_avg": 0.02617458754684776, "train/reward_loss_mean": 0.04317900866994427, "train/reward_loss_std": 0.18406799932320914, "train/reward_max_data": 1.013888892200258, "train/reward_max_pred": 1.0160280962785084, "train/reward_neg_acc": 0.9956443657477697, "train/reward_neg_loss": 0.02103703184467223, "train/reward_pos_acc": 0.9903590165906482, "train/reward_pos_loss": 0.7274178473485841, "train/reward_pred": 0.026024233834404085, "train/reward_rate": 0.031331380208333336, "stats/sum_log_reward": 6.433333158493042, "stats/max_log_achievement_collect_drink": 7.5, "stats/max_log_achievement_collect_sapling": 2.8333333333333335, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 6.833333333333333, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.6666666666666666, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 1.5, "stats/max_log_achievement_place_plant": 2.5, "stats/max_log_achievement_place_table": 2.1666666666666665, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.31560493260622025, "replay/size": 185696.0, "replay/inserts": 1434.0, "replay/samples": 11472.0, "replay/insert_wait_avg": 3.7156055828184928e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2653725250329267e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.30232286453247, "timer/env.step_count": 1434.0, "timer/env.step_total": 17.03377604484558, "timer/env.step_frac": 0.05672209219816652, "timer/env.step_avg": 0.011878504912723558, "timer/env.step_min": 0.0030744075775146484, "timer/env.step_max": 1.636549711227417, "timer/replay.add_count": 1434.0, "timer/replay.add_total": 0.2668185234069824, "timer/replay.add_frac": 0.0008884996987763737, "timer/replay.add_avg": 0.0001860659159044508, "timer/replay.add_min": 7.367134094238281e-05, "timer/replay.add_max": 0.002870798110961914, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024750709533691406, "timer/logger.write_frac": 8.241930764170794e-05, "timer/logger.write_avg": 0.024750709533691406, "timer/logger.write_min": 0.024750709533691406, "timer/logger.write_max": 0.024750709533691406, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002968311309814453, "timer/checkpoint.save_frac": 9.884410088807305e-07, "timer/checkpoint.save_avg": 0.0002968311309814453, "timer/checkpoint.save_min": 0.0002968311309814453, "timer/checkpoint.save_max": 0.0002968311309814453, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.379608392715454, "timer/agent.save_frac": 0.0045940650060765625, "timer/agent.save_avg": 1.379608392715454, "timer/agent.save_min": 1.379608392715454, "timer/agent.save_max": 1.379608392715454, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.0108642578125e-05, "timer/replay.save_frac": 2.667599831196188e-07, "timer/replay.save_avg": 8.0108642578125e-05, "timer/replay.save_min": 8.0108642578125e-05, "timer/replay.save_max": 8.0108642578125e-05, "timer/agent.policy_count": 1434.0, "timer/agent.policy_total": 15.045028924942017, "timer/agent.policy_frac": 0.050099608892232535, "timer/agent.policy_avg": 0.010491651969973512, "timer/agent.policy_min": 0.005627632141113281, "timer/agent.policy_max": 3.1296262741088867, "timer/dataset_count": 717.0, "timer/dataset_total": 0.06380128860473633, "timer/dataset_frac": 0.00021245686012731022, "timer/dataset_avg": 8.898366611539236e-05, "timer/dataset_min": 6.29425048828125e-05, "timer/dataset_max": 0.00017905235290527344, "timer/agent.train_count": 717.0, "timer/agent.train_total": 267.17302203178406, "timer/agent.train_frac": 0.8896801712463172, "timer/agent.train_avg": 0.37262625109035435, "timer/agent.train_min": 0.3607034683227539, "timer/agent.train_max": 0.4239931106567383, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21989870071411133, "timer/agent.report_frac": 0.000732257741520396, "timer/agent.report_avg": 0.21989870071411133, "timer/agent.report_min": 0.21989870071411133, "timer/agent.report_max": 0.21989870071411133, "fps": 4.775121084672975}
{"step": 185827, "episode/length": 176.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.03954802259887006}
{"step": 186003, "episode/length": 175.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.03977272727272727}
{"step": 186226, "episode/length": 222.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 8.899999991059303, "episode/reward_rate": 0.04035874439461883}
{"step": 186398, "episode/length": 171.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03488372093023256}
{"step": 186535, "episode/length": 136.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.051094890510948905}
{"step": 186678, "episode/length": 142.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.055944055944055944}
{"step": 186856, "episode/length": 177.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.0449438202247191}
{"step": 187059, "episode/length": 202.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.300000041723251, "episode/reward_rate": 0.03940886699507389}
{"step": 187201, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.48213873969184, "train/action_min": 0.0, "train/action_std": 3.574725624587801, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.050155958678159446, "train/actor_opt_grad_steps": 92695.0, "train/actor_opt_loss": -14.227630482572648, "train/adv_mag": 0.5276759751141071, "train/adv_max": 0.5039486342834102, "train/adv_mean": 0.0032695040576982137, "train/adv_min": -0.43894974432057804, "train/adv_std": 0.05827027460974124, "train/cont_avg": 0.9942626953125, "train/cont_loss_mean": 4.972981858012797e-06, "train/cont_loss_std": 6.410209388087019e-05, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00018022913051633319, "train/cont_pos_acc": 0.9999999842709966, "train/cont_pos_loss": 3.96305917268099e-06, "train/cont_pred": 0.9942598053150706, "train/cont_rate": 0.9942626953125, "train/dyn_loss_mean": 4.471058785915375, "train/dyn_loss_std": 8.385480417145622, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0668386568625767, "train/extr_critic_critic_opt_grad_steps": 92695.0, "train/extr_critic_critic_opt_loss": 15663.80601671007, "train/extr_critic_mag": 7.188762611813015, "train/extr_critic_max": 7.188762611813015, "train/extr_critic_mean": 1.4485045646627743, "train/extr_critic_min": -0.6199253052473068, "train/extr_critic_std": 1.579730702771081, "train/extr_return_normed_mag": 1.638599283165402, "train/extr_return_normed_max": 1.638599283165402, "train/extr_return_normed_mean": 0.3399740116049846, "train/extr_return_normed_min": -0.15302744487093556, "train/extr_return_normed_std": 0.32595840551786953, "train/extr_return_rate": 0.6103570196363661, "train/extr_return_raw_mag": 7.904446754190657, "train/extr_return_raw_max": 7.904446754190657, "train/extr_return_raw_mean": 1.4647370659642749, "train/extr_return_raw_min": -0.9793744368685616, "train/extr_return_raw_std": 1.6163808719979391, "train/extr_reward_mag": 1.0211108095116086, "train/extr_reward_max": 1.0211108095116086, "train/extr_reward_mean": 0.03445109921611018, "train/extr_reward_min": -0.6960442529784309, "train/extr_reward_std": 0.18509278011818728, "train/image_loss_mean": 2.6983043435547085, "train/image_loss_std": 7.382319900724623, "train/model_loss_mean": 5.424004435539246, "train/model_loss_std": 11.369898233148787, "train/model_opt_grad_norm": 38.92144219080607, "train/model_opt_grad_steps": 92618.0, "train/model_opt_loss": 6860.543782552083, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1267.361111111111, "train/policy_entropy_mag": 2.3312722543875375, "train/policy_entropy_max": 2.3312722543875375, "train/policy_entropy_mean": 0.35102562606334686, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4376109962662061, "train/policy_logprob_mag": 7.438384162055121, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.35180720769696766, "train/policy_logprob_min": -7.438384162055121, "train/policy_logprob_std": 0.9667389533585973, "train/policy_randomness_mag": 0.8228367980983522, "train/policy_randomness_max": 0.8228367980983522, "train/policy_randomness_mean": 0.1238966423811184, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1544574766109387, "train/post_ent_mag": 54.90579027599759, "train/post_ent_max": 54.90579027599759, "train/post_ent_mean": 39.598358154296875, "train/post_ent_min": 18.79210669464535, "train/post_ent_std": 5.974303947554694, "train/prior_ent_mag": 75.1906000773112, "train/prior_ent_max": 75.1906000773112, "train/prior_ent_mean": 44.01410457823012, "train/prior_ent_min": 24.19596224360996, "train/prior_ent_std": 7.428359899255964, "train/rep_loss_mean": 4.471058785915375, "train/rep_loss_std": 8.385480417145622, "train/reward_avg": 0.025644259798961382, "train/reward_loss_mean": 0.04305979650881556, "train/reward_loss_std": 0.18784594639307922, "train/reward_max_data": 1.008333335320155, "train/reward_max_pred": 1.0102683736218347, "train/reward_neg_acc": 0.9954950718416108, "train/reward_neg_loss": 0.021227178461332288, "train/reward_pos_acc": 0.9856272091468176, "train/reward_pos_loss": 0.7338995105690427, "train/reward_pred": 0.025383548009105854, "train/reward_rate": 0.030775282118055556, "stats/sum_log_reward": 6.224999904632568, "stats/max_log_achievement_collect_drink": 6.125, "stats/max_log_achievement_collect_sapling": 2.75, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 7.625, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.25, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 1.375, "stats/max_log_achievement_place_plant": 2.375, "stats/max_log_achievement_place_table": 2.25, "stats/max_log_achievement_wake_up": 1.125, "stats/mean_log_entropy": 0.3134511336684227, "replay/size": 187138.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.7493884315437813e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2761056836534308e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2693524360657, "timer/env.step_count": 1442.0, "timer/env.step_total": 20.11792540550232, "timer/env.step_frac": 0.06699959633671203, "timer/env.step_avg": 0.013951404580792177, "timer/env.step_min": 0.0028731822967529297, "timer/env.step_max": 1.657292127609253, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.28452444076538086, "timer/replay.add_frac": 0.0009475640402760143, "timer/replay.add_avg": 0.00019731237223674124, "timer/replay.add_min": 6.699562072753906e-05, "timer/replay.add_max": 0.0022857189178466797, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027982711791992188, "timer/logger.write_frac": 9.31920343017703e-05, "timer/logger.write_avg": 0.027982711791992188, "timer/logger.write_min": 0.027982711791992188, "timer/logger.write_max": 0.027982711791992188, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 10.605204820632935, "timer/agent.policy_frac": 0.035318971898375906, "timer/agent.policy_avg": 0.007354510971312715, "timer/agent.policy_min": 0.005638599395751953, "timer/agent.policy_max": 0.016556501388549805, "timer/dataset_count": 721.0, "timer/dataset_total": 0.06525945663452148, "timer/dataset_frac": 0.00021733638849611448, "timer/dataset_avg": 9.051242251667334e-05, "timer/dataset_min": 6.794929504394531e-05, "timer/dataset_max": 0.0002193450927734375, "timer/agent.train_count": 721.0, "timer/agent.train_total": 268.4652910232544, "timer/agent.train_frac": 0.894081559923492, "timer/agent.train_avg": 0.37235130516401443, "timer/agent.train_min": 0.3662705421447754, "timer/agent.train_max": 0.38390493392944336, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2215266227722168, "timer/agent.report_frac": 0.0007377596846797242, "timer/agent.report_avg": 0.2215266227722168, "timer/agent.report_min": 0.2215266227722168, "timer/agent.report_max": 0.2215266227722168, "fps": 4.802285103303601}
{"step": 187208, "episode/length": 148.0, "episode/score": 4.099999971687794, "episode/sum_abs_reward": 6.1000000312924385, "episode/reward_rate": 0.040268456375838924}
{"step": 187361, "episode/length": 152.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.0457516339869281}
{"step": 187495, "episode/length": 133.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.500000022351742, "episode/reward_rate": 0.05223880597014925}
{"step": 187675, "episode/length": 179.0, "episode/score": 4.099999971687794, "episode/sum_abs_reward": 6.500000037252903, "episode/reward_rate": 0.03333333333333333}
{"step": 187829, "episode/length": 153.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.032467532467532464}
{"step": 187968, "episode/length": 138.0, "episode/score": 7.099999971687794, "episode/sum_abs_reward": 9.900000043213367, "episode/reward_rate": 0.06474820143884892}
{"step": 188009, "episode/length": 40.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 3.900000013411045, "episode/reward_rate": 0.07317073170731707}
{"step": 188171, "episode/length": 161.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.043209876543209874}
{"step": 188333, "episode/length": 161.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.043209876543209874}
{"step": 188385, "episode/length": 51.0, "episode/score": 5.100000001490116, "episode/sum_abs_reward": 6.700000025331974, "episode/reward_rate": 0.11538461538461539}
{"step": 188625, "stats/sum_log_reward": 5.099999904632568, "stats/max_log_achievement_collect_drink": 3.1, "stats/max_log_achievement_collect_sapling": 2.2, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 6.7, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.8, "stats/max_log_achievement_place_plant": 1.6, "stats/max_log_achievement_place_table": 2.3, "stats/max_log_achievement_wake_up": 1.2, "stats/mean_log_entropy": 0.27804711610078814, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.549899249009683, "train/action_min": 0.0, "train/action_std": 3.5982879148402684, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05069224426234272, "train/actor_opt_grad_steps": 93410.0, "train/actor_opt_loss": -16.118310532099763, "train/adv_mag": 0.5471963974791514, "train/adv_max": 0.5032426353911279, "train/adv_mean": 0.002270338429644, "train/adv_min": -0.47714274492062314, "train/adv_std": 0.05859204019669076, "train/cont_avg": 0.9939068001760564, "train/cont_loss_mean": 0.0001787326810622738, "train/cont_loss_std": 0.005652808617091529, "train/cont_neg_acc": 0.9962441325187683, "train/cont_neg_loss": 0.024734057265011638, "train/cont_pos_acc": 0.9999999840494612, "train/cont_pos_loss": 5.037380431480908e-06, "train/cont_pred": 0.9939352047275489, "train/cont_rate": 0.9939068001760564, "train/dyn_loss_mean": 4.600903094654352, "train/dyn_loss_std": 8.424089599663104, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0611859727913224, "train/extr_critic_critic_opt_grad_steps": 93410.0, "train/extr_critic_critic_opt_loss": 15830.601452464789, "train/extr_critic_mag": 7.233156808665101, "train/extr_critic_max": 7.233156808665101, "train/extr_critic_mean": 1.5000448378039077, "train/extr_critic_min": -0.6168158054351807, "train/extr_critic_std": 1.624621740529235, "train/extr_return_normed_mag": 1.6200896081790117, "train/extr_return_normed_max": 1.6200896081790117, "train/extr_return_normed_mean": 0.3442187271487545, "train/extr_return_normed_min": -0.15219584632087763, "train/extr_return_normed_std": 0.3313673822812631, "train/extr_return_rate": 0.6185684724592827, "train/extr_return_raw_mag": 7.883039837152186, "train/extr_return_raw_max": 7.883039837152186, "train/extr_return_raw_mean": 1.511377535235714, "train/extr_return_raw_min": -0.968084605646805, "train/extr_return_raw_std": 1.6551183042391924, "train/extr_reward_mag": 1.020867495469644, "train/extr_reward_max": 1.020867495469644, "train/extr_reward_mean": 0.03518376035064879, "train/extr_reward_min": -0.6728255731958739, "train/extr_reward_std": 0.18683814729603243, "train/image_loss_mean": 2.7548927035130246, "train/image_loss_std": 7.5136215653218015, "train/model_loss_mean": 5.560438700125251, "train/model_loss_std": 11.510673952774264, "train/model_opt_grad_norm": 39.45632716971384, "train/model_opt_grad_steps": 93332.1690140845, "train/model_opt_loss": 8086.889077629841, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1461.2676056338028, "train/policy_entropy_mag": 2.311567135260139, "train/policy_entropy_max": 2.311567135260139, "train/policy_entropy_mean": 0.345529576002712, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4214124486479961, "train/policy_logprob_mag": 7.438384123251471, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3447035559466187, "train/policy_logprob_min": -7.438384123251471, "train/policy_logprob_std": 0.9542501820644862, "train/policy_randomness_mag": 0.815881761027054, "train/policy_randomness_max": 0.815881761027054, "train/policy_randomness_mean": 0.12195677866398448, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.14874009955936754, "train/post_ent_mag": 55.332067247847434, "train/post_ent_max": 55.332067247847434, "train/post_ent_mean": 39.52143456902302, "train/post_ent_min": 18.656751807306854, "train/post_ent_std": 5.986996858892306, "train/prior_ent_mag": 75.21589671390157, "train/prior_ent_max": 75.21589671390157, "train/prior_ent_mean": 44.096711978106434, "train/prior_ent_min": 24.721970302957885, "train/prior_ent_std": 7.429924797004377, "train/rep_loss_mean": 4.600903094654352, "train/rep_loss_std": 8.424089599663104, "train/reward_avg": 0.026284660881673787, "train/reward_loss_mean": 0.04482548439901479, "train/reward_loss_std": 0.19059404604871508, "train/reward_max_data": 1.0070422552001308, "train/reward_max_pred": 1.0078775211119315, "train/reward_neg_acc": 0.9950448727943528, "train/reward_neg_loss": 0.02253629136043535, "train/reward_pos_acc": 0.9910054425118675, "train/reward_pos_loss": 0.727686948339704, "train/reward_pred": 0.026122670148459957, "train/reward_rate": 0.03166263204225352, "replay/size": 188562.0, "replay/inserts": 1424.0, "replay/samples": 11392.0, "replay/insert_wait_avg": 3.7909223792258274e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3077652521347733e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.30448746681213, "timer/env.step_count": 1424.0, "timer/env.step_total": 23.50759983062744, "timer/env.step_frac": 0.07827921596817751, "timer/env.step_avg": 0.016508145948474325, "timer/env.step_min": 0.0031173229217529297, "timer/env.step_max": 1.7324273586273193, "timer/replay.add_count": 1424.0, "timer/replay.add_total": 0.2787508964538574, "timer/replay.add_frac": 0.0009282275426692161, "timer/replay.add_avg": 0.00019575203402658528, "timer/replay.add_min": 7.128715515136719e-05, "timer/replay.add_max": 0.0023598670959472656, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02747368812561035, "timer/logger.write_frac": 9.148610584331205e-05, "timer/logger.write_avg": 0.02747368812561035, "timer/logger.write_min": 0.02747368812561035, "timer/logger.write_max": 0.02747368812561035, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1424.0, "timer/agent.policy_total": 10.620320558547974, "timer/agent.policy_frac": 0.035365174353985195, "timer/agent.policy_avg": 0.007458090279879195, "timer/agent.policy_min": 0.005700826644897461, "timer/agent.policy_max": 0.016956567764282227, "timer/dataset_count": 712.0, "timer/dataset_total": 0.06612563133239746, "timer/dataset_frac": 0.00022019528209582707, "timer/dataset_avg": 9.287307771404138e-05, "timer/dataset_min": 7.200241088867188e-05, "timer/dataset_max": 0.00018405914306640625, "timer/agent.train_count": 712.0, "timer/agent.train_total": 265.0937747955322, "timer/agent.train_frac": 0.8827499616529334, "timer/agent.train_avg": 0.3723227174094554, "timer/agent.train_min": 0.3644680976867676, "timer/agent.train_max": 0.38836026191711426, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22182106971740723, "timer/agent.report_frac": 0.000738653862912793, "timer/agent.report_avg": 0.22182106971740723, "timer/agent.report_min": 0.22182106971740723, "timer/agent.report_max": 0.22182106971740723, "fps": 4.741772292876898}
{"step": 188727, "episode/length": 341.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.02046783625730994}
{"step": 188947, "episode/length": 219.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.031818181818181815}
{"step": 189082, "episode/length": 134.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.299999997019768, "episode/reward_rate": 0.05185185185185185}
{"step": 189267, "episode/length": 184.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.043243243243243246}
{"step": 189422, "episode/length": 154.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.04516129032258064}
{"step": 189566, "episode/length": 143.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.041666666666666664}
{"step": 189615, "episode/length": 48.0, "episode/score": 3.100000001490116, "episode/sum_abs_reward": 5.100000001490116, "episode/reward_rate": 0.10204081632653061}
{"step": 189775, "episode/length": 159.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.0375}
{"step": 189959, "episode/length": 183.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.043478260869565216}
{"step": 190035, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.558899797712054, "train/action_min": 0.0, "train/action_std": 3.612931432042803, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05235092373830932, "train/actor_opt_grad_steps": 94115.0, "train/actor_opt_loss": -13.9415223049266, "train/adv_mag": 0.5993016971009119, "train/adv_max": 0.5408411379371371, "train/adv_mean": 0.0035617546124350544, "train/adv_min": -0.4776780788387571, "train/adv_std": 0.060993945864694456, "train/cont_avg": 0.9945870535714286, "train/cont_loss_mean": 1.999296032246483e-05, "train/cont_loss_std": 0.000489695606821832, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0012333065925174327, "train/cont_pos_acc": 0.9999999846730914, "train/cont_pos_loss": 1.0903958990939243e-05, "train/cont_pred": 0.994585017647062, "train/cont_rate": 0.9945870535714286, "train/dyn_loss_mean": 4.462045199530465, "train/dyn_loss_std": 8.401985910960606, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0904393783637456, "train/extr_critic_critic_opt_grad_steps": 94115.0, "train/extr_critic_critic_opt_loss": 16064.330022321428, "train/extr_critic_mag": 7.735670300892421, "train/extr_critic_max": 7.735670300892421, "train/extr_critic_mean": 1.4914042030061994, "train/extr_critic_min": -0.6123920048986162, "train/extr_critic_std": 1.6098589863095965, "train/extr_return_normed_mag": 1.7360019632748196, "train/extr_return_normed_max": 1.7360019632748196, "train/extr_return_normed_mean": 0.34302886085850853, "train/extr_return_normed_min": -0.1439105569251946, "train/extr_return_normed_std": 0.3300859868526459, "train/extr_return_rate": 0.6376488421644483, "train/extr_return_raw_mag": 8.489867074148995, "train/extr_return_raw_max": 8.489867074148995, "train/extr_return_raw_mean": 1.5092713049479893, "train/extr_return_raw_min": -0.9311991776738848, "train/extr_return_raw_std": 1.6542866178921292, "train/extr_reward_mag": 1.019693500655038, "train/extr_reward_max": 1.019693500655038, "train/extr_reward_mean": 0.03535752110183239, "train/extr_reward_min": -0.6866933328764779, "train/extr_reward_std": 0.18637191844838005, "train/image_loss_mean": 2.715168537412371, "train/image_loss_std": 7.796960084778922, "train/model_loss_mean": 5.43515031678336, "train/model_loss_std": 11.80561855179923, "train/model_opt_grad_norm": 38.74404035295759, "train/model_opt_grad_steps": 94036.97142857143, "train/model_opt_loss": 9573.89914202009, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1732.142857142857, "train/policy_entropy_mag": 2.275940012931824, "train/policy_entropy_max": 2.275940012931824, "train/policy_entropy_mean": 0.3476201627935682, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.42878685380731313, "train/policy_logprob_mag": 7.4383841855185375, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3462775081396103, "train/policy_logprob_min": -7.4383841855185375, "train/policy_logprob_std": 0.9540014590535845, "train/policy_randomness_mag": 0.8033069542476109, "train/policy_randomness_max": 0.8033069542476109, "train/policy_randomness_mean": 0.12269466412918908, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15134294245924268, "train/post_ent_mag": 55.072401428222655, "train/post_ent_max": 55.072401428222655, "train/post_ent_mean": 39.62097004481724, "train/post_ent_min": 18.882523087092807, "train/post_ent_std": 5.900177124568394, "train/prior_ent_mag": 75.27256186349051, "train/prior_ent_max": 75.27256186349051, "train/prior_ent_mean": 44.01837855747768, "train/prior_ent_min": 25.367490822928293, "train/prior_ent_std": 7.33427449635097, "train/rep_loss_mean": 4.462045199530465, "train/rep_loss_std": 8.401985910960606, "train/reward_avg": 0.02504743275099567, "train/reward_loss_mean": 0.042734657600522044, "train/reward_loss_std": 0.1902878630374159, "train/reward_max_data": 1.014285717691694, "train/reward_max_pred": 1.0129886525017875, "train/reward_neg_acc": 0.995268360206059, "train/reward_neg_loss": 0.021083176282367538, "train/reward_pos_acc": 0.983655846118927, "train/reward_pos_loss": 0.7471462522234236, "train/reward_pred": 0.024727900153292078, "train/reward_rate": 0.029924665178571428, "stats/sum_log_reward": 5.544444349077013, "stats/max_log_achievement_collect_drink": 10.555555555555555, "stats/max_log_achievement_collect_sapling": 3.4444444444444446, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 7.555555555555555, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.1111111111111111, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 1.1111111111111112, "stats/max_log_achievement_place_plant": 2.7777777777777777, "stats/max_log_achievement_place_table": 2.111111111111111, "stats/max_log_achievement_wake_up": 1.7777777777777777, "stats/mean_log_entropy": 0.3347749412059784, "replay/size": 189972.0, "replay/inserts": 1410.0, "replay/samples": 11280.0, "replay/insert_wait_avg": 3.778342659591783e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2749264426265203e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3719952106476, "timer/env.step_count": 1410.0, "timer/env.step_total": 21.94687795639038, "timer/env.step_frac": 0.07306565960318397, "timer/env.step_avg": 0.015565161671198851, "timer/env.step_min": 0.0027840137481689453, "timer/env.step_max": 1.759328842163086, "timer/replay.add_count": 1410.0, "timer/replay.add_total": 0.26363301277160645, "timer/replay.add_frac": 0.0008776883896473887, "timer/replay.add_avg": 0.00018697376792312513, "timer/replay.add_min": 7.987022399902344e-05, "timer/replay.add_max": 0.002162933349609375, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02644515037536621, "timer/logger.write_frac": 8.804133140581404e-05, "timer/logger.write_avg": 0.02644515037536621, "timer/logger.write_min": 0.02644515037536621, "timer/logger.write_max": 0.02644515037536621, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00035071372985839844, "timer/checkpoint.save_frac": 1.167597963360222e-06, "timer/checkpoint.save_avg": 0.00035071372985839844, "timer/checkpoint.save_min": 0.00035071372985839844, "timer/checkpoint.save_max": 0.00035071372985839844, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3423373699188232, "timer/agent.save_frac": 0.004468916514595366, "timer/agent.save_avg": 1.3423373699188232, "timer/agent.save_min": 1.3423373699188232, "timer/agent.save_max": 1.3423373699188232, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.368492126464844e-05, "timer/replay.save_frac": 2.786042726984622e-07, "timer/replay.save_avg": 8.368492126464844e-05, "timer/replay.save_min": 8.368492126464844e-05, "timer/replay.save_max": 8.368492126464844e-05, "timer/agent.policy_count": 1410.0, "timer/agent.policy_total": 14.957074165344238, "timer/agent.policy_frac": 0.04979516867028501, "timer/agent.policy_avg": 0.010607854017974637, "timer/agent.policy_min": 0.0056188106536865234, "timer/agent.policy_max": 3.2726194858551025, "timer/dataset_count": 705.0, "timer/dataset_total": 0.06501936912536621, "timer/dataset_frac": 0.00021646281997683852, "timer/dataset_avg": 9.222605549697334e-05, "timer/dataset_min": 7.128715515136719e-05, "timer/dataset_max": 0.0002219676971435547, "timer/agent.train_count": 705.0, "timer/agent.train_total": 262.4142816066742, "timer/agent.train_frac": 0.8736309835497346, "timer/agent.train_avg": 0.3722188391584031, "timer/agent.train_min": 0.3659093379974365, "timer/agent.train_max": 0.46225404739379883, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22159314155578613, "timer/agent.report_frac": 0.0007377290329625613, "timer/agent.report_avg": 0.22159314155578613, "timer/agent.report_min": 0.22159314155578613, "timer/agent.report_max": 0.22159314155578613, "fps": 4.694109722180389}
{"step": 190193, "episode/length": 233.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 11.30000003427267, "episode/reward_rate": 0.038461538461538464}
{"step": 190362, "episode/length": 168.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.099999994039536, "episode/reward_rate": 0.047337278106508875}
{"step": 190520, "episode/length": 157.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.04430379746835443}
{"step": 190694, "episode/length": 173.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.040229885057471264}
{"step": 190873, "episode/length": 178.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.30000001937151, "episode/reward_rate": 0.03910614525139665}
{"step": 191018, "episode/length": 144.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.04827586206896552}
{"step": 191236, "episode/length": 217.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.03211009174311927}
{"step": 191467, "episode/length": 230.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.025974025974025976}
{"step": 191471, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.685133192274305, "train/action_min": 0.0, "train/action_std": 3.6726925240622625, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05161976064037946, "train/actor_opt_grad_steps": 94825.0, "train/actor_opt_loss": -15.285348173230886, "train/adv_mag": 0.5939028267231252, "train/adv_max": 0.5502192191779613, "train/adv_mean": 0.002697040519251459, "train/adv_min": -0.4736686994632085, "train/adv_std": 0.05887384024552173, "train/cont_avg": 0.9944661458333334, "train/cont_loss_mean": 3.338479614711787e-05, "train/cont_loss_std": 0.00099476335970097, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.001914822103673133, "train/cont_pos_acc": 0.999986340602239, "train/cont_pos_loss": 2.2769476861108887e-05, "train/cont_pred": 0.9944565387235748, "train/cont_rate": 0.9944661458333334, "train/dyn_loss_mean": 4.530789722998937, "train/dyn_loss_std": 8.492855383290184, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.112831040389008, "train/extr_critic_critic_opt_grad_steps": 94825.0, "train/extr_critic_critic_opt_loss": 15703.710693359375, "train/extr_critic_mag": 7.161727329095204, "train/extr_critic_max": 7.161727329095204, "train/extr_critic_mean": 1.4842790853646066, "train/extr_critic_min": -0.6240781644980112, "train/extr_critic_std": 1.5746937427255843, "train/extr_return_normed_mag": 1.5862541513310537, "train/extr_return_normed_max": 1.5862541513310537, "train/extr_return_normed_mean": 0.34295015202628243, "train/extr_return_normed_min": -0.14805603503353065, "train/extr_return_normed_std": 0.322892453107569, "train/extr_return_rate": 0.6292788237333298, "train/extr_return_raw_mag": 7.693677888976203, "train/extr_return_raw_max": 7.693677888976203, "train/extr_return_raw_mean": 1.4977194335725572, "train/extr_return_raw_min": -0.9491343125700951, "train/extr_return_raw_std": 1.6090596566597621, "train/extr_reward_mag": 1.0287291010220845, "train/extr_reward_max": 1.0287291010220845, "train/extr_reward_mean": 0.03480970461128487, "train/extr_reward_min": -0.672903479801284, "train/extr_reward_std": 0.18510743644502428, "train/image_loss_mean": 2.714852887723181, "train/image_loss_std": 7.499802043040593, "train/model_loss_mean": 5.4762013753255205, "train/model_loss_std": 11.594600531789991, "train/model_opt_grad_norm": 41.68259565035502, "train/model_opt_grad_steps": 94746.0, "train/model_opt_loss": 6845.251715766059, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.3184207909637027, "train/policy_entropy_max": 2.3184207909637027, "train/policy_entropy_mean": 0.35647811368107796, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.43364007729623055, "train/policy_logprob_mag": 7.438384115695953, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.35642657842901015, "train/policy_logprob_min": -7.438384115695953, "train/policy_logprob_std": 0.9651706483629015, "train/policy_randomness_mag": 0.8183007993631892, "train/policy_randomness_max": 0.8183007993631892, "train/policy_randomness_mean": 0.12582112931542927, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15305591757512754, "train/post_ent_mag": 55.17630963855319, "train/post_ent_max": 55.17630963855319, "train/post_ent_mean": 39.59349913067288, "train/post_ent_min": 18.731177581681145, "train/post_ent_std": 6.006413757801056, "train/prior_ent_mag": 75.28140788608127, "train/prior_ent_max": 75.28140788608127, "train/prior_ent_mean": 44.07098621792264, "train/prior_ent_min": 24.930971384048462, "train/prior_ent_std": 7.4073282149102955, "train/rep_loss_mean": 4.530789722998937, "train/rep_loss_std": 8.492855383290184, "train/reward_avg": 0.024479166604578495, "train/reward_loss_mean": 0.04284129703106979, "train/reward_loss_std": 0.18826321626289022, "train/reward_max_data": 1.013888892200258, "train/reward_max_pred": 1.0137729313638475, "train/reward_neg_acc": 0.9952737043301264, "train/reward_neg_loss": 0.021704136245211378, "train/reward_pos_acc": 0.9837999501162105, "train/reward_pos_loss": 0.7401177527176009, "train/reward_pred": 0.024307211317742865, "train/reward_rate": 0.029595269097222224, "stats/sum_log_reward": 6.099999964237213, "stats/max_log_achievement_collect_drink": 5.0, "stats/max_log_achievement_collect_sapling": 3.5, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 9.25, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 0.125, "stats/max_log_achievement_eat_cow": 0.375, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 1.5, "stats/max_log_achievement_place_plant": 2.5, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.3248588126152754, "replay/size": 191408.0, "replay/inserts": 1436.0, "replay/samples": 11488.0, "replay/insert_wait_avg": 3.7497796720116916e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.325954301775664e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.34710788726807, "timer/env.step_count": 1436.0, "timer/env.step_total": 20.524038553237915, "timer/env.step_frac": 0.0683343971500514, "timer/env.step_avg": 0.014292505956293812, "timer/env.step_min": 0.0030193328857421875, "timer/env.step_max": 1.7112834453582764, "timer/replay.add_count": 1436.0, "timer/replay.add_total": 0.2871701717376709, "timer/replay.add_frac": 0.0009561276409741792, "timer/replay.add_avg": 0.00019997922822957584, "timer/replay.add_min": 7.987022399902344e-05, "timer/replay.add_max": 0.004056215286254883, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0295870304107666, "timer/logger.write_frac": 9.850945667128502e-05, "timer/logger.write_avg": 0.0295870304107666, "timer/logger.write_min": 0.0295870304107666, "timer/logger.write_max": 0.0295870304107666, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1436.0, "timer/agent.policy_total": 10.712945699691772, "timer/agent.policy_frac": 0.0356685495493859, "timer/agent.policy_avg": 0.00746026859310012, "timer/agent.policy_min": 0.0057201385498046875, "timer/agent.policy_max": 0.0650320053100586, "timer/dataset_count": 718.0, "timer/dataset_total": 0.06792044639587402, "timer/dataset_frac": 0.0002261398382479754, "timer/dataset_avg": 9.459672199982455e-05, "timer/dataset_min": 6.508827209472656e-05, "timer/dataset_max": 0.00044155120849609375, "timer/agent.train_count": 718.0, "timer/agent.train_total": 268.0149266719818, "timer/agent.train_frac": 0.8923506157834495, "timer/agent.train_avg": 0.37327984216153454, "timer/agent.train_min": 0.36588096618652344, "timer/agent.train_max": 1.1403756141662598, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22153472900390625, "timer/agent.report_frac": 0.0007375956790869344, "timer/agent.report_avg": 0.22153472900390625, "timer/agent.report_min": 0.22153472900390625, "timer/agent.report_max": 0.22153472900390625, "fps": 4.781067140309542}
{"step": 191524, "episode/length": 56.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.10526315789473684}
{"step": 191676, "episode/length": 151.0, "episode/score": 5.100000023841858, "episode/sum_abs_reward": 6.5, "episode/reward_rate": 0.046052631578947366}
{"step": 191839, "episode/length": 162.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.03067484662576687}
{"step": 192018, "episode/length": 178.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.0446927374301676}
{"step": 192453, "episode/length": 434.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.016091954022988506}
{"step": 192634, "episode/length": 180.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.03867403314917127}
{"step": 192695, "episode/length": 60.0, "episode/score": 3.0999999716877937, "episode/sum_abs_reward": 5.1000000312924385, "episode/reward_rate": 0.08196721311475409}
{"step": 192889, "episode/length": 193.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.900000028312206, "episode/reward_rate": 0.03608247422680412}
{"step": 192911, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.768223232693142, "train/action_min": 0.0, "train/action_std": 3.728622214661704, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05108446741683616, "train/actor_opt_grad_steps": 95545.0, "train/actor_opt_loss": -15.069919095271164, "train/adv_mag": 0.5412228103313181, "train/adv_max": 0.5006069209840562, "train/adv_mean": 0.003144380910599567, "train/adv_min": -0.4512252091533608, "train/adv_std": 0.059547822198106184, "train/cont_avg": 0.9941677517361112, "train/cont_loss_mean": 1.4854275240949733e-05, "train/cont_loss_std": 0.0002903359031686629, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0005685085348735205, "train/cont_pos_acc": 0.9999999875823656, "train/cont_pos_loss": 1.1401099509219156e-05, "train/cont_pred": 0.9941600585977236, "train/cont_rate": 0.9941677517361112, "train/dyn_loss_mean": 4.56995129916403, "train/dyn_loss_std": 8.54130662812127, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1347772594955232, "train/extr_critic_critic_opt_grad_steps": 95545.0, "train/extr_critic_critic_opt_loss": 15775.41071234809, "train/extr_critic_mag": 7.508845508098602, "train/extr_critic_max": 7.508845508098602, "train/extr_critic_mean": 1.567744352751308, "train/extr_critic_min": -0.5621987034877142, "train/extr_critic_std": 1.6635193443960614, "train/extr_return_normed_mag": 1.6411608739031687, "train/extr_return_normed_max": 1.6411608739031687, "train/extr_return_normed_mean": 0.3529879069990582, "train/extr_return_normed_min": -0.13776316845582592, "train/extr_return_normed_std": 0.33662959850496715, "train/extr_return_rate": 0.6357801970508363, "train/extr_return_raw_mag": 8.091116607189178, "train/extr_return_raw_max": 8.091116607189178, "train/extr_return_raw_mean": 1.5836272935072582, "train/extr_return_raw_min": -0.8963039815425873, "train/extr_return_raw_std": 1.7010497980647616, "train/extr_reward_mag": 1.027412196000417, "train/extr_reward_max": 1.027412196000417, "train/extr_reward_mean": 0.0352775055087275, "train/extr_reward_min": -0.6729755832089318, "train/extr_reward_std": 0.18684914232128197, "train/image_loss_mean": 2.717944963110818, "train/image_loss_std": 7.295814719465044, "train/model_loss_mean": 5.505227933327357, "train/model_loss_std": 11.40341846810447, "train/model_opt_grad_norm": 41.63760987917582, "train/model_opt_grad_steps": 95465.76388888889, "train/model_opt_loss": 9628.777086046008, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1753.4722222222222, "train/policy_entropy_mag": 2.344185574187173, "train/policy_entropy_max": 2.344185574187173, "train/policy_entropy_mean": 0.35629139054152703, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.43845737932456863, "train/policy_logprob_mag": 7.43838416867786, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.35608638553983635, "train/policy_logprob_min": -7.43838416867786, "train/policy_logprob_std": 0.9657760643296771, "train/policy_randomness_mag": 0.8273946386244562, "train/policy_randomness_max": 0.8273946386244562, "train/policy_randomness_mean": 0.12575522665348318, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15475621167570353, "train/post_ent_mag": 55.73735867606269, "train/post_ent_max": 55.73735867606269, "train/post_ent_mean": 39.68873855802748, "train/post_ent_min": 18.511554055743748, "train/post_ent_std": 6.097339239385393, "train/prior_ent_mag": 75.26301617092557, "train/prior_ent_max": 75.26301617092557, "train/prior_ent_mean": 44.18592807981703, "train/prior_ent_min": 25.0748966799842, "train/prior_ent_std": 7.531159434053633, "train/rep_loss_mean": 4.56995129916403, "train/rep_loss_std": 8.54130662812127, "train/reward_avg": 0.026947699435469177, "train/reward_loss_mean": 0.045297353890621, "train/reward_loss_std": 0.19601061805668804, "train/reward_max_data": 1.0152777814202838, "train/reward_max_pred": 1.0154406196541257, "train/reward_neg_acc": 0.9951064669423633, "train/reward_neg_loss": 0.022022772282879386, "train/reward_pos_acc": 0.9858669713139534, "train/reward_pos_loss": 0.743233836359448, "train/reward_pred": 0.026569912106626563, "train/reward_rate": 0.03219943576388889, "stats/sum_log_reward": 5.225000023841858, "stats/max_log_achievement_collect_drink": 5.0, "stats/max_log_achievement_collect_sapling": 2.75, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 5.25, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.375, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.625, "stats/max_log_achievement_place_plant": 2.25, "stats/max_log_achievement_place_table": 1.875, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.2903084196150303, "replay/size": 192848.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.7852260801527234e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3211121161778768e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.01923179626465, "timer/env.step_count": 1440.0, "timer/env.step_total": 20.312427520751953, "timer/env.step_frac": 0.06770375151998789, "timer/env.step_avg": 0.014105852444966633, "timer/env.step_min": 0.003019571304321289, "timer/env.step_max": 1.6728358268737793, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.26851677894592285, "timer/replay.add_frac": 0.0008949985550535163, "timer/replay.add_avg": 0.00018646998537911308, "timer/replay.add_min": 7.796287536621094e-05, "timer/replay.add_max": 0.0019516944885253906, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.020886659622192383, "timer/logger.write_frac": 6.961773582693517e-05, "timer/logger.write_avg": 0.020886659622192383, "timer/logger.write_min": 0.020886659622192383, "timer/logger.write_max": 0.020886659622192383, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 10.726036071777344, "timer/agent.policy_frac": 0.03575116170906377, "timer/agent.policy_avg": 0.007448636160956488, "timer/agent.policy_min": 0.005681753158569336, "timer/agent.policy_max": 0.015404224395751953, "timer/dataset_count": 720.0, "timer/dataset_total": 0.06814336776733398, "timer/dataset_frac": 0.00022712999883156955, "timer/dataset_avg": 9.464356634351943e-05, "timer/dataset_min": 7.05718994140625e-05, "timer/dataset_max": 0.0002777576446533203, "timer/agent.train_count": 720.0, "timer/agent.train_total": 267.9217209815979, "timer/agent.train_frac": 0.8930151556535437, "timer/agent.train_avg": 0.37211350136333043, "timer/agent.train_min": 0.36393213272094727, "timer/agent.train_max": 0.3943915367126465, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22033977508544922, "timer/agent.report_frac": 0.0007344188363067215, "timer/agent.report_avg": 0.22033977508544922, "timer/agent.report_min": 0.22033977508544922, "timer/agent.report_max": 0.22033977508544922, "fps": 4.799507988822471}
{"step": 193047, "episode/length": 157.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.05063291139240506}
{"step": 193213, "episode/length": 165.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.299999997019768, "episode/reward_rate": 0.04819277108433735}
{"step": 193354, "episode/length": 140.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.04964539007092199}
{"step": 193741, "episode/length": 386.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 8.500000037252903, "episode/reward_rate": 0.015503875968992248}
{"step": 194001, "episode/length": 259.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.026923076923076925}
{"step": 194140, "episode/length": 138.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.9000000059604645, "episode/reward_rate": 0.050359712230215826}
{"step": 194343, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4835010104709205, "train/action_min": 0.0, "train/action_std": 3.475553125143051, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.052473491730375424, "train/actor_opt_grad_steps": 96265.0, "train/actor_opt_loss": -13.547983464267519, "train/adv_mag": 0.5397954997089174, "train/adv_max": 0.5055374668704139, "train/adv_mean": 0.003163036692664415, "train/adv_min": -0.4466318695081605, "train/adv_std": 0.05887125551493631, "train/cont_avg": 0.9938151041666666, "train/cont_loss_mean": 5.320922262283842e-05, "train/cont_loss_std": 0.0015488414211135807, "train/cont_neg_acc": 0.9976851857370801, "train/cont_neg_loss": 0.0032332274118971327, "train/cont_pos_acc": 0.9999863422579236, "train/cont_pos_loss": 3.4448269048760314e-05, "train/cont_pred": 0.9937998958759837, "train/cont_rate": 0.9938151041666666, "train/dyn_loss_mean": 4.5276395546065435, "train/dyn_loss_std": 8.504988431930542, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0551064991288714, "train/extr_critic_critic_opt_grad_steps": 96265.0, "train/extr_critic_critic_opt_loss": 15894.071343315973, "train/extr_critic_mag": 7.443911029232873, "train/extr_critic_max": 7.443911029232873, "train/extr_critic_mean": 1.60350773566299, "train/extr_critic_min": -0.5843423638078902, "train/extr_critic_std": 1.6857236756218805, "train/extr_return_normed_mag": 1.6181116700172424, "train/extr_return_normed_max": 1.6181116700172424, "train/extr_return_normed_mean": 0.3545120842754841, "train/extr_return_normed_min": -0.14208596929286918, "train/extr_return_normed_std": 0.33453089122970897, "train/extr_return_rate": 0.642412686927451, "train/extr_return_raw_mag": 8.124743050999111, "train/extr_return_raw_max": 8.124743050999111, "train/extr_return_raw_mean": 1.6197488208611805, "train/extr_return_raw_min": -0.9368187901046541, "train/extr_return_raw_std": 1.7220377557807498, "train/extr_reward_mag": 1.0232023000717163, "train/extr_reward_max": 1.0232023000717163, "train/extr_reward_mean": 0.03607769250973231, "train/extr_reward_min": -0.6910033606820636, "train/extr_reward_std": 0.18931607012119558, "train/image_loss_mean": 2.6793579856554666, "train/image_loss_std": 7.327198459042443, "train/model_loss_mean": 5.441506856017643, "train/model_loss_std": 11.404659608999888, "train/model_opt_grad_norm": 36.6298893822564, "train/model_opt_grad_steps": 96185.0, "train/model_opt_loss": 6801.8835856119795, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.3155187004142337, "train/policy_entropy_max": 2.3155187004142337, "train/policy_entropy_mean": 0.3409958618382613, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4217045596904225, "train/policy_logprob_mag": 7.43838412894143, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.34210402104589677, "train/policy_logprob_min": -7.43838412894143, "train/policy_logprob_std": 0.9554726059238116, "train/policy_randomness_mag": 0.8172764885756705, "train/policy_randomness_max": 0.8172764885756705, "train/policy_randomness_mean": 0.12035657403369744, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1488432021190723, "train/post_ent_mag": 54.81603558858236, "train/post_ent_max": 54.81603558858236, "train/post_ent_mean": 39.693709797329376, "train/post_ent_min": 18.74666754404704, "train/post_ent_std": 5.906388719876607, "train/prior_ent_mag": 75.32212458716498, "train/prior_ent_max": 75.32212458716498, "train/prior_ent_mean": 44.16757424672445, "train/prior_ent_min": 24.402855687671238, "train/prior_ent_std": 7.4086438284979925, "train/rep_loss_mean": 4.5276395546065435, "train/rep_loss_std": 8.504988431930542, "train/reward_avg": 0.026121690274319716, "train/reward_loss_mean": 0.04551188259695967, "train/reward_loss_std": 0.19421399922834504, "train/reward_max_data": 1.0097222245401807, "train/reward_max_pred": 1.0076313267151515, "train/reward_neg_acc": 0.9953331119484372, "train/reward_neg_loss": 0.02288894430320296, "train/reward_pos_acc": 0.9849511732657751, "train/reward_pos_loss": 0.736130548020204, "train/reward_pred": 0.02590814388046662, "train/reward_rate": 0.03172471788194445, "stats/sum_log_reward": 5.933333237965901, "stats/max_log_achievement_collect_drink": 7.833333333333333, "stats/max_log_achievement_collect_sapling": 2.3333333333333335, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 7.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.16666666666666666, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_table": 2.3333333333333335, "stats/max_log_achievement_wake_up": 2.3333333333333335, "stats/mean_log_entropy": 0.4096849511067073, "replay/size": 194280.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.7487658708455177e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3112189383480136e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.35093808174133, "timer/env.step_count": 1432.0, "timer/env.step_total": 17.65825343132019, "timer/env.step_frac": 0.058792070183294874, "timer/env.step_avg": 0.012331182563771083, "timer/env.step_min": 0.0030748844146728516, "timer/env.step_max": 1.7702021598815918, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.2701990604400635, "timer/replay.add_frac": 0.000899611175399519, "timer/replay.add_avg": 0.00018868649472071473, "timer/replay.add_min": 7.82012939453125e-05, "timer/replay.add_max": 0.0011625289916992188, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02675461769104004, "timer/logger.write_frac": 8.907785626345771e-05, "timer/logger.write_avg": 0.02675461769104004, "timer/logger.write_min": 0.02675461769104004, "timer/logger.write_max": 0.02675461769104004, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00046753883361816406, "timer/checkpoint.save_frac": 1.5566418290690409e-06, "timer/checkpoint.save_avg": 0.00046753883361816406, "timer/checkpoint.save_min": 0.00046753883361816406, "timer/checkpoint.save_max": 0.00046753883361816406, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.433624029159546, "timer/agent.save_frac": 0.004773163148135003, "timer/agent.save_avg": 1.433624029159546, "timer/agent.save_min": 1.433624029159546, "timer/agent.save_max": 1.433624029159546, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.915496826171875e-05, "timer/replay.save_frac": 2.6354160492142863e-07, "timer/replay.save_avg": 7.915496826171875e-05, "timer/replay.save_min": 7.915496826171875e-05, "timer/replay.save_max": 7.915496826171875e-05, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 15.147918701171875, "timer/agent.policy_frac": 0.05043406489061582, "timer/agent.policy_avg": 0.010578155517578125, "timer/agent.policy_min": 0.005678653717041016, "timer/agent.policy_max": 3.159548044204712, "timer/dataset_count": 716.0, "timer/dataset_total": 0.06569051742553711, "timer/dataset_frac": 0.00021871254288428178, "timer/dataset_avg": 9.17465327172306e-05, "timer/dataset_min": 6.0558319091796875e-05, "timer/dataset_max": 0.00026917457580566406, "timer/agent.train_count": 716.0, "timer/agent.train_total": 266.4850845336914, "timer/agent.train_frac": 0.8872457207414041, "timer/agent.train_avg": 0.37218587225375893, "timer/agent.train_min": 0.3648502826690674, "timer/agent.train_max": 0.42313408851623535, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21806716918945312, "timer/agent.report_frac": 0.0007260412455582394, "timer/agent.report_avg": 0.21806716918945312, "timer/agent.report_min": 0.21806716918945312, "timer/agent.report_max": 0.21806716918945312, "fps": 4.767666287853644}
{"step": 194346, "episode/length": 205.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.100000068545341, "episode/reward_rate": 0.043689320388349516}
{"step": 194549, "episode/length": 202.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.034482758620689655}
{"step": 194715, "episode/length": 165.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03614457831325301}
{"step": 194776, "episode/length": 60.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 4.899999991059303, "episode/reward_rate": 0.08196721311475409}
{"step": 194929, "episode/length": 152.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.0392156862745098}
{"step": 195072, "episode/length": 142.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.04195804195804196}
{"step": 195236, "episode/length": 163.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.042682926829268296}
{"step": 195398, "episode/length": 161.0, "episode/score": 5.099999971687794, "episode/sum_abs_reward": 6.900000028312206, "episode/reward_rate": 0.043209876543209874}
{"step": 195688, "episode/length": 289.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.700000025331974, "episode/reward_rate": 0.027586206896551724}
{"step": 195777, "stats/sum_log_reward": 5.544444349077013, "stats/max_log_achievement_collect_drink": 4.222222222222222, "stats/max_log_achievement_collect_sapling": 3.3333333333333335, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 7.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.2222222222222222, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 1.4444444444444444, "stats/max_log_achievement_place_plant": 2.3333333333333335, "stats/max_log_achievement_place_table": 2.2222222222222223, "stats/max_log_achievement_wake_up": 1.6666666666666667, "stats/mean_log_entropy": 0.3417999545733134, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.610097106073944, "train/action_min": 0.0, "train/action_std": 3.6026230865800883, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0512698034060673, "train/actor_opt_grad_steps": 96980.0, "train/actor_opt_loss": -17.787320820378586, "train/adv_mag": 0.5384529060880903, "train/adv_max": 0.5009255044057336, "train/adv_mean": 0.0012348823654744119, "train/adv_min": -0.4499058916535176, "train/adv_std": 0.05722204732223296, "train/cont_avg": 0.9944019586267606, "train/cont_loss_mean": 4.976726481591983e-05, "train/cont_loss_std": 0.0015427190519707898, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00016713194159358825, "train/cont_pos_acc": 0.9999861448583468, "train/cont_pos_loss": 4.894574563612538e-05, "train/cont_pred": 0.9943639493324388, "train/cont_rate": 0.9944019586267606, "train/dyn_loss_mean": 4.5930111911934866, "train/dyn_loss_std": 8.441720116306358, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.132213744479166, "train/extr_critic_critic_opt_grad_steps": 96980.0, "train/extr_critic_critic_opt_loss": 15788.364491637323, "train/extr_critic_mag": 7.438632441238618, "train/extr_critic_max": 7.438632441238618, "train/extr_critic_mean": 1.5737697011987928, "train/extr_critic_min": -0.5906135397897639, "train/extr_critic_std": 1.696201829843118, "train/extr_return_normed_mag": 1.5646404531640066, "train/extr_return_normed_max": 1.5646404531640066, "train/extr_return_normed_mean": 0.3471328389476722, "train/extr_return_normed_min": -0.13894034617803466, "train/extr_return_normed_std": 0.33039374565574486, "train/extr_return_rate": 0.6341705494363543, "train/extr_return_raw_mag": 7.947696551470689, "train/extr_return_raw_max": 7.947696551470689, "train/extr_return_raw_mean": 1.5802098571414678, "train/extr_return_raw_min": -0.9623293121096114, "train/extr_return_raw_std": 1.7281549682079906, "train/extr_reward_mag": 1.0345868258409097, "train/extr_reward_max": 1.0345868258409097, "train/extr_reward_mean": 0.03360835816973532, "train/extr_reward_min": -0.6765320032415255, "train/extr_reward_std": 0.18321695944792787, "train/image_loss_mean": 2.7455850100853074, "train/image_loss_std": 7.721905970237624, "train/model_loss_mean": 5.54607003171679, "train/model_loss_std": 11.72662972732329, "train/model_opt_grad_norm": 38.69459955457231, "train/model_opt_grad_steps": 96900.0, "train/model_opt_loss": 12833.360035211268, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2306.3380281690143, "train/policy_entropy_mag": 2.321501678144428, "train/policy_entropy_max": 2.321501678144428, "train/policy_entropy_mean": 0.3608139765934205, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4468586545594981, "train/policy_logprob_mag": 7.438384129967488, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3608576130699104, "train/policy_logprob_min": -7.438384129967488, "train/policy_logprob_std": 0.9699992042192271, "train/policy_randomness_mag": 0.8193882200079905, "train/policy_randomness_max": 0.8193882200079905, "train/policy_randomness_mean": 0.12735149977912366, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1577214932357761, "train/post_ent_mag": 55.45284593609017, "train/post_ent_max": 55.45284593609017, "train/post_ent_mean": 39.65713409638741, "train/post_ent_min": 18.809074683928152, "train/post_ent_std": 5.93259423887226, "train/prior_ent_mag": 75.3889447064467, "train/prior_ent_max": 75.3889447064467, "train/prior_ent_mean": 44.21634426922866, "train/prior_ent_min": 25.02035989895673, "train/prior_ent_std": 7.418913774087396, "train/rep_loss_mean": 4.5930111911934866, "train/rep_loss_std": 8.441720116306358, "train/reward_avg": 0.025885782978484328, "train/reward_loss_mean": 0.04462853758792642, "train/reward_loss_std": 0.19133838496997324, "train/reward_max_data": 1.016901412480314, "train/reward_max_pred": 1.0181611490921236, "train/reward_neg_acc": 0.9951796355381818, "train/reward_neg_loss": 0.022710504561242923, "train/reward_pos_acc": 0.9870543379179189, "train/reward_pos_loss": 0.7343293336075796, "train/reward_pred": 0.025643500604365075, "train/reward_rate": 0.03102992957746479, "replay/size": 195714.0, "replay/inserts": 1434.0, "replay/samples": 11472.0, "replay/insert_wait_avg": 3.721424725265184e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3367817159144615e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.33106684684753, "timer/env.step_count": 1434.0, "timer/env.step_total": 21.879857540130615, "timer/env.step_frac": 0.0728524616845188, "timer/env.step_avg": 0.015257920181402103, "timer/env.step_min": 0.0030694007873535156, "timer/env.step_max": 1.7586357593536377, "timer/replay.add_count": 1434.0, "timer/replay.add_total": 0.28380370140075684, "timer/replay.add_frac": 0.0009449695110811871, "timer/replay.add_avg": 0.00019791053096287087, "timer/replay.add_min": 7.963180541992188e-05, "timer/replay.add_max": 0.006033420562744141, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028008222579956055, "timer/logger.write_frac": 9.325782668443928e-05, "timer/logger.write_avg": 0.028008222579956055, "timer/logger.write_min": 0.028008222579956055, "timer/logger.write_max": 0.028008222579956055, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1434.0, "timer/agent.policy_total": 10.487951278686523, "timer/agent.policy_frac": 0.034921299980047706, "timer/agent.policy_avg": 0.007313773555569403, "timer/agent.policy_min": 0.005643606185913086, "timer/agent.policy_max": 0.01898336410522461, "timer/dataset_count": 717.0, "timer/dataset_total": 0.06466817855834961, "timer/dataset_frac": 0.00021532297420075712, "timer/dataset_avg": 9.019271765460197e-05, "timer/dataset_min": 6.771087646484375e-05, "timer/dataset_max": 0.00020742416381835938, "timer/agent.train_count": 717.0, "timer/agent.train_total": 266.88722467422485, "timer/agent.train_frac": 0.8886434143368951, "timer/agent.train_avg": 0.37222764947590636, "timer/agent.train_min": 0.3662433624267578, "timer/agent.train_max": 0.38459181785583496, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22124671936035156, "timer/agent.report_frac": 0.0007366761010880547, "timer/agent.report_avg": 0.22124671936035156, "timer/agent.report_min": 0.22124671936035156, "timer/agent.report_max": 0.22124671936035156, "fps": 4.774669325024412}
{"step": 195847, "episode/length": 158.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.0440251572327044}
{"step": 195886, "episode/length": 38.0, "episode/score": 4.100000001490116, "episode/sum_abs_reward": 5.500000022351742, "episode/reward_rate": 0.1282051282051282}
{"step": 196082, "episode/length": 195.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.025510204081632654}
{"step": 196246, "episode/length": 163.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.03048780487804878}
{"step": 196439, "episode/length": 192.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.04145077720207254}
{"step": 196613, "episode/length": 173.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.040229885057471264}
{"step": 196792, "episode/length": 178.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.027932960893854747}
{"step": 196966, "episode/length": 173.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.040229885057471264}
{"step": 197134, "episode/length": 167.0, "episode/score": 5.099999971687794, "episode/sum_abs_reward": 7.500000037252903, "episode/reward_rate": 0.041666666666666664}
{"step": 197211, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.7240447998046875, "train/action_min": 0.0, "train/action_std": 3.694374909003576, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.051159688685503274, "train/actor_opt_grad_steps": 97695.0, "train/actor_opt_loss": -16.785128557019764, "train/adv_mag": 0.5055174475742711, "train/adv_max": 0.4717810195353296, "train/adv_mean": 0.0022095662954800194, "train/adv_min": -0.43352905702259803, "train/adv_std": 0.057679727466570005, "train/cont_avg": 0.9942898220486112, "train/cont_loss_mean": 0.00020064146190061175, "train/cont_loss_std": 0.006341324059660123, "train/cont_neg_acc": 0.9986111116078165, "train/cont_neg_loss": 0.004335232169991186, "train/cont_pos_acc": 0.9999726812044779, "train/cont_pos_loss": 0.00016040430238792623, "train/cont_pred": 0.9942742495073212, "train/cont_rate": 0.9942898220486112, "train/dyn_loss_mean": 4.669264124499427, "train/dyn_loss_std": 8.504254341125488, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1241705202394061, "train/extr_critic_critic_opt_grad_steps": 97695.0, "train/extr_critic_critic_opt_loss": 15987.994439019098, "train/extr_critic_mag": 7.289776504039764, "train/extr_critic_max": 7.289776504039764, "train/extr_critic_mean": 1.4906203399101894, "train/extr_critic_min": -0.5976683331860436, "train/extr_critic_std": 1.664242962996165, "train/extr_return_normed_mag": 1.5891423920790355, "train/extr_return_normed_max": 1.5891423920790355, "train/extr_return_normed_mean": 0.3383762256966697, "train/extr_return_normed_min": -0.14421260149942505, "train/extr_return_normed_std": 0.3319053509169155, "train/extr_return_rate": 0.6050980488459269, "train/extr_return_raw_mag": 7.888803594642216, "train/extr_return_raw_max": 7.888803594642216, "train/extr_return_raw_mean": 1.5018894250194232, "train/extr_return_raw_min": -0.9624013387494617, "train/extr_return_raw_std": 1.6949798415104549, "train/extr_reward_mag": 1.0369030104743109, "train/extr_reward_max": 1.0369030104743109, "train/extr_reward_mean": 0.03422257650850548, "train/extr_reward_min": -0.6843692196740044, "train/extr_reward_std": 0.18470646834207904, "train/image_loss_mean": 2.7750519348515406, "train/image_loss_std": 7.728087120585972, "train/model_loss_mean": 5.620840513043934, "train/model_loss_std": 11.80926337507036, "train/model_opt_grad_norm": 37.045901934305824, "train/model_opt_grad_steps": 97614.55555555556, "train/model_opt_loss": 14052.101277669271, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.2944618893994226, "train/policy_entropy_max": 2.2944618893994226, "train/policy_entropy_mean": 0.3619985145827134, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4433375315533744, "train/policy_logprob_mag": 7.438384069336785, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36259137880471015, "train/policy_logprob_min": -7.438384069336785, "train/policy_logprob_std": 0.9726139505704244, "train/policy_randomness_mag": 0.809844359755516, "train/policy_randomness_max": 0.809844359755516, "train/policy_randomness_mean": 0.12776958921717274, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15647869163917172, "train/post_ent_mag": 55.47217729356554, "train/post_ent_max": 55.47217729356554, "train/post_ent_mean": 39.66044802135892, "train/post_ent_min": 18.67220519648658, "train/post_ent_std": 6.006236010127598, "train/prior_ent_mag": 75.24206797281902, "train/prior_ent_max": 75.24206797281902, "train/prior_ent_mean": 44.2921814388699, "train/prior_ent_min": 25.413472678926254, "train/prior_ent_std": 7.423418362935384, "train/rep_loss_mean": 4.669264124499427, "train/rep_loss_std": 8.504254341125488, "train/reward_avg": 0.025489637162536383, "train/reward_loss_mean": 0.04402947570714685, "train/reward_loss_std": 0.19399601438393196, "train/reward_max_data": 1.0180555598603354, "train/reward_max_pred": 1.0179796599679523, "train/reward_neg_acc": 0.995351705286238, "train/reward_neg_loss": 0.02225532393074698, "train/reward_pos_acc": 0.9871317678027682, "train/reward_pos_loss": 0.7312252248326937, "train/reward_pred": 0.02523403804904471, "train/reward_rate": 0.030666775173611112, "stats/sum_log_reward": 5.211111068725586, "stats/max_log_achievement_collect_drink": 3.7777777777777777, "stats/max_log_achievement_collect_sapling": 2.3333333333333335, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 6.888888888888889, "stats/max_log_achievement_defeat_skeleton": 0.1111111111111111, "stats/max_log_achievement_defeat_zombie": 0.5555555555555556, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 1.4444444444444444, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_table": 2.4444444444444446, "stats/max_log_achievement_wake_up": 1.8888888888888888, "stats/mean_log_entropy": 0.2829566647609075, "replay/size": 197148.0, "replay/inserts": 1434.0, "replay/samples": 11472.0, "replay/insert_wait_avg": 3.6544214565218574e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2641047832856119e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0588550567627, "timer/env.step_count": 1434.0, "timer/env.step_total": 21.59774947166443, "timer/env.step_frac": 0.07197837726728225, "timer/env.step_avg": 0.0150611921001844, "timer/env.step_min": 0.0030875205993652344, "timer/env.step_max": 1.675490379333496, "timer/replay.add_count": 1434.0, "timer/replay.add_total": 0.2626338005065918, "timer/replay.add_frac": 0.0008752742872957669, "timer/replay.add_avg": 0.0001831476990980417, "timer/replay.add_min": 6.222724914550781e-05, "timer/replay.add_max": 0.0027527809143066406, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02239513397216797, "timer/logger.write_frac": 7.463580425890594e-05, "timer/logger.write_avg": 0.02239513397216797, "timer/logger.write_min": 0.02239513397216797, "timer/logger.write_max": 0.02239513397216797, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1434.0, "timer/agent.policy_total": 10.538414001464844, "timer/agent.policy_frac": 0.0351211564793556, "timer/agent.policy_avg": 0.007348963738817883, "timer/agent.policy_min": 0.005641460418701172, "timer/agent.policy_max": 0.017774105072021484, "timer/dataset_count": 717.0, "timer/dataset_total": 0.06435656547546387, "timer/dataset_frac": 0.0002144798075140606, "timer/dataset_avg": 8.975811084444054e-05, "timer/dataset_min": 5.936622619628906e-05, "timer/dataset_max": 0.0002396106719970703, "timer/agent.train_count": 717.0, "timer/agent.train_total": 266.87660479545593, "timer/agent.train_frac": 0.8894141942418943, "timer/agent.train_avg": 0.37221283792950616, "timer/agent.train_min": 0.3660428524017334, "timer/agent.train_max": 0.38401174545288086, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21972393989562988, "timer/agent.report_frac": 0.0007322694737806164, "timer/agent.report_avg": 0.21972393989562988, "timer/agent.report_min": 0.21972393989562988, "timer/agent.report_max": 0.21972393989562988, "fps": 4.778972671306309}
{"step": 197298, "episode/length": 163.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.30000001937151, "episode/reward_rate": 0.042682926829268296}
{"step": 197493, "episode/length": 194.0, "episode/score": 6.0999999940395355, "episode/sum_abs_reward": 7.9000000059604645, "episode/reward_rate": 0.041025641025641026}
{"step": 197723, "episode/length": 229.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.034782608695652174}
{"step": 197879, "episode/length": 155.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.04487179487179487}
{"step": 198094, "episode/length": 214.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 8.900000028312206, "episode/reward_rate": 0.037209302325581395}
{"step": 198397, "episode/length": 302.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.026402640264026403}
{"step": 198564, "episode/length": 166.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.041916167664670656}
{"step": 198637, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.676907391615317, "train/action_min": 0.0, "train/action_std": 3.7022826973821075, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04965049337962983, "train/actor_opt_grad_steps": 98410.0, "train/actor_opt_loss": -15.737281564255836, "train/adv_mag": 0.5535256065113444, "train/adv_max": 0.498334246622005, "train/adv_mean": 0.002038176930743158, "train/adv_min": -0.48545571804886134, "train/adv_std": 0.05814467701064029, "train/cont_avg": 0.9940856073943662, "train/cont_loss_mean": 1.3592826072729455e-05, "train/cont_loss_std": 0.0003288489717552808, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0003048079089867443, "train/cont_pos_acc": 0.9999999848889632, "train/cont_pos_loss": 1.1626685814952664e-05, "train/cont_pred": 0.9940772535095752, "train/cont_rate": 0.9940856073943662, "train/dyn_loss_mean": 4.568556187858044, "train/dyn_loss_std": 8.435039110586677, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0900103760437228, "train/extr_critic_critic_opt_grad_steps": 98410.0, "train/extr_critic_critic_opt_loss": 15608.442300286091, "train/extr_critic_mag": 7.528488951669613, "train/extr_critic_max": 7.528488951669613, "train/extr_critic_mean": 1.5072383729504868, "train/extr_critic_min": -0.6125441873577279, "train/extr_critic_std": 1.6841391963018497, "train/extr_return_normed_mag": 1.6541261370752898, "train/extr_return_normed_max": 1.6541261370752898, "train/extr_return_normed_mean": 0.3411633573787313, "train/extr_return_normed_min": -0.16071131489646268, "train/extr_return_normed_std": 0.33750670770524255, "train/extr_return_rate": 0.6141019623044511, "train/extr_return_raw_mag": 8.203156343648132, "train/extr_return_raw_max": 8.203156343648132, "train/extr_return_raw_mean": 1.5176522244869823, "train/extr_return_raw_min": -1.0381265601641696, "train/extr_return_raw_std": 1.7188188257351729, "train/extr_reward_mag": 1.0277568521633955, "train/extr_reward_max": 1.0277568521633955, "train/extr_reward_mean": 0.03365108658048049, "train/extr_reward_min": -0.6927521027309794, "train/extr_reward_std": 0.18397774180056345, "train/image_loss_mean": 2.7063796050112012, "train/image_loss_std": 7.163641439357274, "train/model_loss_mean": 5.492289422263561, "train/model_loss_std": 11.210755939215002, "train/model_opt_grad_norm": 37.0783134782818, "train/model_opt_grad_steps": 98328.98591549296, "train/model_opt_loss": 13937.550726232394, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2570.4225352112676, "train/policy_entropy_mag": 2.311629940086687, "train/policy_entropy_max": 2.311629940086687, "train/policy_entropy_mean": 0.36230625904781716, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4447343718837684, "train/policy_logprob_mag": 7.438384237423749, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3635111619049395, "train/policy_logprob_min": -7.438384237423749, "train/policy_logprob_std": 0.9743304882251042, "train/policy_randomness_mag": 0.815903923041384, "train/policy_randomness_max": 0.815903923041384, "train/policy_randomness_mean": 0.12787820860533647, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15697171507586896, "train/post_ent_mag": 55.63999224380708, "train/post_ent_max": 55.63999224380708, "train/post_ent_mean": 39.895275223423056, "train/post_ent_min": 18.46270522265367, "train/post_ent_std": 5.998547956977092, "train/prior_ent_mag": 75.27943302208269, "train/prior_ent_max": 75.27943302208269, "train/prior_ent_mean": 44.39932680801606, "train/prior_ent_min": 24.955017062979685, "train/prior_ent_std": 7.429320953261684, "train/rep_loss_mean": 4.568556187858044, "train/rep_loss_std": 8.435039110586677, "train/reward_avg": 0.025774372689111133, "train/reward_loss_mean": 0.04476252675686084, "train/reward_loss_std": 0.19101042520832007, "train/reward_max_data": 1.0140845104002616, "train/reward_max_pred": 1.0140438952916104, "train/reward_neg_acc": 0.994845773972256, "train/reward_neg_loss": 0.02254218189701648, "train/reward_pos_acc": 0.9854764333913024, "train/reward_pos_loss": 0.7380491495132446, "train/reward_pred": 0.02554627806997635, "train/reward_rate": 0.03108494718309859, "stats/sum_log_reward": 6.528571333203997, "stats/max_log_achievement_collect_drink": 7.714285714285714, "stats/max_log_achievement_collect_sapling": 2.857142857142857, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 7.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.5714285714285714, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 1.7142857142857142, "stats/max_log_achievement_place_plant": 2.142857142857143, "stats/max_log_achievement_place_table": 2.5714285714285716, "stats/max_log_achievement_wake_up": 2.7142857142857144, "stats/mean_log_entropy": 0.35644468665122986, "replay/size": 198574.0, "replay/inserts": 1426.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 3.696992721664621e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2656582354830491e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0791573524475, "timer/env.step_count": 1426.0, "timer/env.step_total": 18.380775690078735, "timer/env.step_frac": 0.061253090192099666, "timer/env.step_avg": 0.01288974452319687, "timer/env.step_min": 0.0030117034912109375, "timer/env.step_max": 1.6721746921539307, "timer/replay.add_count": 1426.0, "timer/replay.add_total": 0.2617528438568115, "timer/replay.add_frac": 0.0008722793217836814, "timer/replay.add_avg": 0.00018355739400898423, "timer/replay.add_min": 7.176399230957031e-05, "timer/replay.add_max": 0.0020825862884521484, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027062177658081055, "timer/logger.write_frac": 9.018346324631976e-05, "timer/logger.write_avg": 0.027062177658081055, "timer/logger.write_min": 0.027062177658081055, "timer/logger.write_max": 0.027062177658081055, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0005431175231933594, "timer/checkpoint.save_frac": 1.8099141839280082e-06, "timer/checkpoint.save_avg": 0.0005431175231933594, "timer/checkpoint.save_min": 0.0005431175231933594, "timer/checkpoint.save_max": 0.0005431175231933594, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3437120914459229, "timer/agent.save_frac": 0.004477858786665788, "timer/agent.save_avg": 1.3437120914459229, "timer/agent.save_min": 1.3437120914459229, "timer/agent.save_max": 1.3437120914459229, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.0001049041748046875, "timer/replay.save_frac": 3.495883410572096e-07, "timer/replay.save_avg": 0.0001049041748046875, "timer/replay.save_min": 0.0001049041748046875, "timer/replay.save_max": 0.0001049041748046875, "timer/agent.policy_count": 1426.0, "timer/agent.policy_total": 15.238504409790039, "timer/agent.policy_frac": 0.050781615571827886, "timer/agent.policy_avg": 0.010686188225659215, "timer/agent.policy_min": 0.0057332515716552734, "timer/agent.policy_max": 3.485938310623169, "timer/dataset_count": 713.0, "timer/dataset_total": 0.06345033645629883, "timer/dataset_frac": 0.00021144533001262545, "timer/dataset_avg": 8.89906542164079e-05, "timer/dataset_min": 6.532669067382812e-05, "timer/dataset_max": 0.0001628398895263672, "timer/agent.train_count": 713.0, "timer/agent.train_total": 265.40815138816833, "timer/agent.train_frac": 0.884460466131083, "timer/agent.train_avg": 0.3722414465472207, "timer/agent.train_min": 0.36653876304626465, "timer/agent.train_max": 0.38582730293273926, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2247161865234375, "timer/agent.report_frac": 0.0007488563634544766, "timer/agent.report_avg": 0.2247161865234375, "timer/agent.report_min": 0.2247161865234375, "timer/agent.report_max": 0.2247161865234375, "fps": 4.752009846094017}
{"step": 198793, "episode/length": 228.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 8.899999991059303, "episode/reward_rate": 0.039301310043668124}
{"step": 198989, "episode/length": 195.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.500000022351742, "episode/reward_rate": 0.03571428571428571}
{"step": 199139, "episode/length": 149.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.05333333333333334}
{"step": 199183, "episode/length": 43.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 4.899999991059303, "episode/reward_rate": 0.11363636363636363}
{"step": 199343, "episode/length": 159.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 4.899999991059303, "episode/reward_rate": 0.03125}
{"step": 199555, "episode/length": 211.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.03773584905660377}
{"step": 199740, "episode/length": 184.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.043243243243243246}
{"step": 199901, "episode/length": 160.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.049689440993788817}
{"step": 199945, "episode/length": 43.0, "episode/score": 0.10000000894069672, "episode/sum_abs_reward": 1.8999999910593033, "episode/reward_rate": 0.045454545454545456}
{"step": 200071, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.686890496148004, "train/action_min": 0.0, "train/action_std": 3.6495329870118036, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.049178331003834806, "train/actor_opt_grad_steps": 99125.0, "train/actor_opt_loss": -16.02021146317323, "train/adv_mag": 0.5346232110427486, "train/adv_max": 0.4925089507467217, "train/adv_mean": 0.0018916104477347693, "train/adv_min": -0.4589194344977538, "train/adv_std": 0.056944982821328774, "train/cont_avg": 0.9947509765625, "train/cont_loss_mean": 8.850310184074476e-06, "train/cont_loss_std": 0.00020661221557974032, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00010203151243280849, "train/cont_pos_acc": 0.999999976820416, "train/cont_pos_loss": 8.221578682644627e-06, "train/cont_pred": 0.9947437172134718, "train/cont_rate": 0.9947509765625, "train/dyn_loss_mean": 4.462449295653237, "train/dyn_loss_std": 8.318665027618408, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.059922528763612, "train/extr_critic_critic_opt_grad_steps": 99125.0, "train/extr_critic_critic_opt_loss": 15536.274617513021, "train/extr_critic_mag": 7.332170214917925, "train/extr_critic_max": 7.332170214917925, "train/extr_critic_mean": 1.4404058638546202, "train/extr_critic_min": -0.5922692169745764, "train/extr_critic_std": 1.5994213736719556, "train/extr_return_normed_mag": 1.6329670233858957, "train/extr_return_normed_max": 1.6329670233858957, "train/extr_return_normed_mean": 0.33424273050493664, "train/extr_return_normed_min": -0.1410246164434486, "train/extr_return_normed_std": 0.3280570086919599, "train/extr_return_rate": 0.6094301860365603, "train/extr_return_raw_mag": 7.903814223077562, "train/extr_return_raw_max": 7.903814223077562, "train/extr_return_raw_mean": 1.4497964911990695, "train/extr_return_raw_min": -0.9121397684017817, "train/extr_return_raw_std": 1.6301698717806075, "train/extr_reward_mag": 1.0330931345621746, "train/extr_reward_max": 1.0330931345621746, "train/extr_reward_mean": 0.03312843349865741, "train/extr_reward_min": -0.6781985577609804, "train/extr_reward_std": 0.18216349929571152, "train/image_loss_mean": 2.5658797522385917, "train/image_loss_std": 7.146867513656616, "train/model_loss_mean": 5.285538458161884, "train/model_loss_std": 11.113840599854788, "train/model_opt_grad_norm": 34.93369147512648, "train/model_opt_grad_steps": 99043.0, "train/model_opt_loss": 13213.846110026041, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.3387775321801505, "train/policy_entropy_max": 2.3387775321801505, "train/policy_entropy_mean": 0.3676414353152116, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4541720358861817, "train/policy_logprob_mag": 7.438384082582262, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3678647205233574, "train/policy_logprob_min": -7.438384082582262, "train/policy_logprob_std": 0.9778503684533967, "train/policy_randomness_mag": 0.8254858338170581, "train/policy_randomness_max": 0.8254858338170581, "train/policy_randomness_mean": 0.12976129208174017, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16030279857416949, "train/post_ent_mag": 56.233049127790665, "train/post_ent_max": 56.233049127790665, "train/post_ent_mean": 40.03277275297377, "train/post_ent_min": 18.59332729710473, "train/post_ent_std": 5.9471451375219555, "train/prior_ent_mag": 75.31003867255316, "train/prior_ent_max": 75.31003867255316, "train/prior_ent_mean": 44.450879944695366, "train/prior_ent_min": 25.458553658591377, "train/prior_ent_std": 7.314812971485986, "train/rep_loss_mean": 4.462449295653237, "train/rep_loss_std": 8.318665027618408, "train/reward_avg": 0.025480142910964787, "train/reward_loss_mean": 0.04218025057990518, "train/reward_loss_std": 0.18506016375290024, "train/reward_max_data": 1.013888892200258, "train/reward_max_pred": 1.0134135666820738, "train/reward_neg_acc": 0.9955518891414007, "train/reward_neg_loss": 0.020716822874318395, "train/reward_pos_acc": 0.9885403224163585, "train/reward_pos_loss": 0.7274656933214929, "train/reward_pred": 0.025286690319060452, "train/reward_rate": 0.030409071180555556, "stats/sum_log_reward": 5.099999916222361, "stats/max_log_achievement_collect_drink": 2.7777777777777777, "stats/max_log_achievement_collect_sapling": 3.111111111111111, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 7.333333333333333, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.1111111111111111, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 1.4444444444444444, "stats/max_log_achievement_place_plant": 1.8888888888888888, "stats/max_log_achievement_place_table": 2.111111111111111, "stats/max_log_achievement_wake_up": 1.5555555555555556, "stats/mean_log_entropy": 0.3206800702545378, "replay/size": 200008.0, "replay/inserts": 1434.0, "replay/samples": 11472.0, "replay/insert_wait_avg": 3.7292390022650256e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2934083220350194e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.01781940460205, "timer/env.step_count": 1434.0, "timer/env.step_total": 21.509066343307495, "timer/env.step_frac": 0.07169262941112345, "timer/env.step_avg": 0.014999348914440373, "timer/env.step_min": 0.0026540756225585938, "timer/env.step_max": 1.7086877822875977, "timer/replay.add_count": 1434.0, "timer/replay.add_total": 0.26825928688049316, "timer/replay.add_frac": 0.0008941445125255059, "timer/replay.add_avg": 0.00018707063241317514, "timer/replay.add_min": 6.67572021484375e-05, "timer/replay.add_max": 0.0015215873718261719, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02762317657470703, "timer/logger.write_frac": 9.207178636764437e-05, "timer/logger.write_avg": 0.02762317657470703, "timer/logger.write_min": 0.02762317657470703, "timer/logger.write_max": 0.02762317657470703, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1434.0, "timer/agent.policy_total": 10.552352666854858, "timer/agent.policy_frac": 0.03517241971759026, "timer/agent.policy_avg": 0.007358683868099622, "timer/agent.policy_min": 0.005733489990234375, "timer/agent.policy_max": 0.01709151268005371, "timer/dataset_count": 717.0, "timer/dataset_total": 0.06557703018188477, "timer/dataset_frac": 0.00021857711755930075, "timer/dataset_avg": 9.1460293140704e-05, "timer/dataset_min": 6.222724914550781e-05, "timer/dataset_max": 0.00024580955505371094, "timer/agent.train_count": 717.0, "timer/agent.train_total": 266.89462447166443, "timer/agent.train_frac": 0.889595908007491, "timer/agent.train_avg": 0.3722379699744274, "timer/agent.train_min": 0.36601686477661133, "timer/agent.train_max": 0.3872547149658203, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22093772888183594, "timer/agent.report_frac": 0.0007364153546622535, "timer/agent.report_avg": 0.22093772888183594, "timer/agent.report_min": 0.22093772888183594, "timer/agent.report_max": 0.22093772888183594, "fps": 4.779621505875818}
{"step": 200099, "episode/length": 153.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.045454545454545456}
{"step": 200290, "episode/length": 190.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 9.500000037252903, "episode/reward_rate": 0.041884816753926704}
{"step": 200474, "episode/length": 183.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.043478260869565216}
{"step": 200701, "episode/length": 226.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.02643171806167401}
{"step": 201146, "episode/length": 444.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 4.900000013411045, "episode/reward_rate": 0.008988764044943821}
{"step": 201439, "episode/length": 292.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.023890784982935155}
{"step": 201531, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.5495062005029965, "train/action_min": 0.0, "train/action_std": 3.542834517073958, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05167828357382996, "train/actor_opt_grad_steps": 99850.0, "train/actor_opt_loss": -15.103574690753467, "train/adv_mag": 0.5425796570026711, "train/adv_max": 0.5106054454633634, "train/adv_mean": 0.0031403008442420326, "train/adv_min": -0.43773206782667606, "train/adv_std": 0.05939177821760308, "train/cont_avg": 0.9942075128424658, "train/cont_loss_mean": 8.277457140736746e-05, "train/cont_loss_std": 0.0026085855290984474, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00011318690385824955, "train/cont_pos_acc": 0.9999730195084663, "train/cont_pos_loss": 8.284334411819347e-05, "train/cont_pred": 0.9941745547399129, "train/cont_rate": 0.9942075128424658, "train/dyn_loss_mean": 4.781394497988975, "train/dyn_loss_std": 8.612873292949102, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0641477638727999, "train/extr_critic_critic_opt_grad_steps": 99850.0, "train/extr_critic_critic_opt_loss": 15481.581991117295, "train/extr_critic_mag": 7.198116753199329, "train/extr_critic_max": 7.198116753199329, "train/extr_critic_mean": 1.4321756950796467, "train/extr_critic_min": -0.5920818619532128, "train/extr_critic_std": 1.5915367178720972, "train/extr_return_normed_mag": 1.6391314088481745, "train/extr_return_normed_max": 1.6391314088481745, "train/extr_return_normed_mean": 0.3376211711805161, "train/extr_return_normed_min": -0.14619067923663415, "train/extr_return_normed_std": 0.33383980005571284, "train/extr_return_rate": 0.5812990804241128, "train/extr_return_raw_mag": 7.801061094623723, "train/extr_return_raw_max": 7.801061094623723, "train/extr_return_raw_mean": 1.4474749132378462, "train/extr_return_raw_min": -0.9148025096279301, "train/extr_return_raw_std": 1.6302663300135365, "train/extr_reward_mag": 1.0256850164230555, "train/extr_reward_max": 1.0256850164230555, "train/extr_reward_mean": 0.03414881760126924, "train/extr_reward_min": -0.6630882482006125, "train/extr_reward_std": 0.1850822339319203, "train/image_loss_mean": 2.8218789949809033, "train/image_loss_std": 7.6450569074447845, "train/model_loss_mean": 5.735744639618756, "train/model_loss_std": 11.790230215412297, "train/model_opt_grad_norm": 41.94332201186925, "train/model_opt_grad_steps": 99767.08219178082, "train/model_opt_loss": 7757.929854719606, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1352.7397260273972, "train/policy_entropy_mag": 2.311453264053554, "train/policy_entropy_max": 2.311453264053554, "train/policy_entropy_mean": 0.3678476149088716, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4556937238124952, "train/policy_logprob_mag": 7.4383841279434835, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3683817451947356, "train/policy_logprob_min": -7.4383841279434835, "train/policy_logprob_std": 0.9797326056924585, "train/policy_randomness_mag": 0.8158415662099238, "train/policy_randomness_max": 0.8158415662099238, "train/policy_randomness_mean": 0.12983406467797004, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16083988863719653, "train/post_ent_mag": 55.260896656611195, "train/post_ent_max": 55.260896656611195, "train/post_ent_mean": 39.79959534945553, "train/post_ent_min": 17.97708814438075, "train/post_ent_std": 5.936232364341004, "train/prior_ent_mag": 75.33893867388163, "train/prior_ent_max": 75.33893867388163, "train/prior_ent_mean": 44.51955251824366, "train/prior_ent_min": 25.697792575783925, "train/prior_ent_std": 7.322185535953469, "train/rep_loss_mean": 4.781394497988975, "train/rep_loss_std": 8.612873292949102, "train/reward_avg": 0.026343107670035264, "train/reward_loss_mean": 0.04494618874502509, "train/reward_loss_std": 0.19804801220354967, "train/reward_max_data": 1.0123287700626948, "train/reward_max_pred": 1.012071913235808, "train/reward_neg_acc": 0.9951388648111527, "train/reward_neg_loss": 0.022608657373906407, "train/reward_pos_acc": 0.9886681788588223, "train/reward_pos_loss": 0.7308040089803199, "train/reward_pred": 0.026105508374126805, "train/reward_rate": 0.03149079623287671, "stats/sum_log_reward": 5.599999825159709, "stats/max_log_achievement_collect_drink": 6.666666666666667, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 8.166666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.3333333333333333, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 1.6666666666666667, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 3.0, "stats/mean_log_entropy": 0.4110117306311925, "replay/size": 201468.0, "replay/inserts": 1460.0, "replay/samples": 11680.0, "replay/insert_wait_avg": 3.7061025018561378e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2544124093774248e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.29033851623535, "timer/env.step_count": 1460.0, "timer/env.step_total": 17.110553979873657, "timer/env.step_frac": 0.05698003493691678, "timer/env.step_avg": 0.011719557520461409, "timer/env.step_min": 0.003000020980834961, "timer/env.step_max": 1.748450517654419, "timer/replay.add_count": 1460.0, "timer/replay.add_total": 0.2665822505950928, "timer/replay.add_frac": 0.0008877483435274754, "timer/replay.add_avg": 0.00018259058259937862, "timer/replay.add_min": 7.748603820800781e-05, "timer/replay.add_max": 0.0034232139587402344, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03150200843811035, "timer/logger.write_frac": 0.00010490516809087142, "timer/logger.write_avg": 0.03150200843811035, "timer/logger.write_min": 0.03150200843811035, "timer/logger.write_max": 0.03150200843811035, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1460.0, "timer/agent.policy_total": 10.571974277496338, "timer/agent.policy_frac": 0.035205842218346155, "timer/agent.policy_avg": 0.0072410782722577656, "timer/agent.policy_min": 0.005736351013183594, "timer/agent.policy_max": 0.017499208450317383, "timer/dataset_count": 730.0, "timer/dataset_total": 0.06504082679748535, "timer/dataset_frac": 0.0002165931382236891, "timer/dataset_avg": 8.90970230102539e-05, "timer/dataset_min": 6.771087646484375e-05, "timer/dataset_max": 0.00016117095947265625, "timer/agent.train_count": 730.0, "timer/agent.train_total": 271.54692029953003, "timer/agent.train_frac": 0.9042812420848122, "timer/agent.train_avg": 0.3719820826020959, "timer/agent.train_min": 0.36283278465270996, "timer/agent.train_max": 0.38233423233032227, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22205400466918945, "timer/agent.report_frac": 0.0007394643656082328, "timer/agent.report_avg": 0.22205400466918945, "timer/agent.report_min": 0.22205400466918945, "timer/agent.report_max": 0.22205400466918945, "fps": 4.861894650657653}
{"step": 201697, "episode/length": 257.0, "episode/score": 4.099999971687794, "episode/sum_abs_reward": 6.500000037252903, "episode/reward_rate": 0.023255813953488372}
{"step": 201910, "episode/length": 212.0, "episode/score": 5.099999979138374, "episode/sum_abs_reward": 7.700000032782555, "episode/reward_rate": 0.028169014084507043}
{"step": 202181, "episode/length": 270.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.025830258302583026}
{"step": 202332, "episode/length": 150.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.046357615894039736}
{"step": 202476, "episode/length": 143.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.700000047683716, "episode/reward_rate": 0.04861111111111111}
{"step": 202531, "episode/length": 54.0, "episode/score": 3.100000001490116, "episode/sum_abs_reward": 5.100000001490116, "episode/reward_rate": 0.09090909090909091}
{"step": 202689, "episode/length": 157.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.04430379746835443}
{"step": 202879, "episode/length": 189.0, "episode/score": 5.1000000312924385, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.03684210526315789}
{"step": 202947, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.508476149867958, "train/action_min": 0.0, "train/action_std": 3.437924667143486, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04993260158619411, "train/actor_opt_grad_steps": 100570.0, "train/actor_opt_loss": -14.919200503490341, "train/adv_mag": 0.5595688261616398, "train/adv_max": 0.5126838768032235, "train/adv_mean": 0.0025506751511989345, "train/adv_min": -0.47321053541881936, "train/adv_std": 0.05890195139906776, "train/cont_avg": 0.9939480633802817, "train/cont_loss_mean": 5.821069537448789e-05, "train/cont_loss_std": 0.0017378246688740803, "train/cont_neg_acc": 0.9971830987594497, "train/cont_neg_loss": 0.010186298364458989, "train/cont_pos_acc": 0.9999999865679674, "train/cont_pos_loss": 7.763704062658946e-06, "train/cont_pred": 0.9939561519824284, "train/cont_rate": 0.9939480633802817, "train/dyn_loss_mean": 4.543291854186797, "train/dyn_loss_std": 8.432803295028041, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0359466428488073, "train/extr_critic_critic_opt_grad_steps": 100570.0, "train/extr_critic_critic_opt_loss": 15502.60108109595, "train/extr_critic_mag": 7.39125970383765, "train/extr_critic_max": 7.39125970383765, "train/extr_critic_mean": 1.4152000336579873, "train/extr_critic_min": -0.6099105737578701, "train/extr_critic_std": 1.6448680615760911, "train/extr_return_normed_mag": 1.6404848568876025, "train/extr_return_normed_max": 1.6404848568876025, "train/extr_return_normed_mean": 0.3275441735143393, "train/extr_return_normed_min": -0.14023913915308428, "train/extr_return_normed_std": 0.33924215990053097, "train/extr_return_rate": 0.5732871482909565, "train/extr_return_raw_mag": 7.91612984428943, "train/extr_return_raw_max": 7.91612984428943, "train/extr_return_raw_mean": 1.427771485187638, "train/extr_return_raw_min": -0.883019035970661, "train/extr_return_raw_std": 1.675751741503326, "train/extr_reward_mag": 1.0242131226499316, "train/extr_reward_max": 1.0242131226499316, "train/extr_reward_mean": 0.03342057260828958, "train/extr_reward_min": -0.6991211797150088, "train/extr_reward_std": 0.18299224091247773, "train/image_loss_mean": 2.728901737172839, "train/image_loss_std": 7.568077564239502, "train/model_loss_mean": 5.498694527317101, "train/model_loss_std": 11.581426479447057, "train/model_opt_grad_norm": 36.33579092965999, "train/model_opt_grad_steps": 100487.0, "train/model_opt_loss": 10544.483804192341, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1919.0140845070423, "train/policy_entropy_mag": 2.336305876852761, "train/policy_entropy_max": 2.336305876852761, "train/policy_entropy_mean": 0.3627746197539316, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.45564517924483394, "train/policy_logprob_mag": 7.438384150115537, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3628144379652722, "train/policy_logprob_min": -7.438384150115537, "train/policy_logprob_std": 0.9752170409954769, "train/policy_randomness_mag": 0.8246134494391966, "train/policy_randomness_max": 0.8246134494391966, "train/policy_randomness_mean": 0.12804352166787, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16082275260082432, "train/post_ent_mag": 56.313436642499035, "train/post_ent_max": 56.313436642499035, "train/post_ent_mean": 40.24282869150941, "train/post_ent_min": 18.8145423405607, "train/post_ent_std": 6.062440442367339, "train/prior_ent_mag": 75.3222041600187, "train/prior_ent_max": 75.3222041600187, "train/prior_ent_mean": 44.75617293236961, "train/prior_ent_min": 25.203618519742722, "train/prior_ent_std": 7.39617617701141, "train/rep_loss_mean": 4.543291854186797, "train/rep_loss_std": 8.432803295028041, "train/reward_avg": 0.025646456792740753, "train/reward_loss_mean": 0.04375947159255894, "train/reward_loss_std": 0.1904004006318643, "train/reward_max_data": 1.0112676083202092, "train/reward_max_pred": 1.0085790778549624, "train/reward_neg_acc": 0.9954690421131295, "train/reward_neg_loss": 0.021643641404807568, "train/reward_pos_acc": 0.9862652471367742, "train/reward_pos_loss": 0.7331593112206795, "train/reward_pred": 0.025445710303602924, "train/reward_rate": 0.03108494718309859, "stats/sum_log_reward": 5.224999904632568, "stats/max_log_achievement_collect_drink": 6.75, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 5.625, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 1.125, "stats/max_log_achievement_place_plant": 1.125, "stats/max_log_achievement_place_table": 1.875, "stats/max_log_achievement_wake_up": 2.0, "stats/mean_log_entropy": 0.3558361306786537, "replay/size": 202884.0, "replay/inserts": 1416.0, "replay/samples": 11328.0, "replay/insert_wait_avg": 3.7586284896074715e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2787848205889686e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1393599510193, "timer/env.step_count": 1416.0, "timer/env.step_total": 20.394161462783813, "timer/env.step_frac": 0.06794897365714381, "timer/env.step_avg": 0.014402656400271054, "timer/env.step_min": 0.003086566925048828, "timer/env.step_max": 1.6964623928070068, "timer/replay.add_count": 1416.0, "timer/replay.add_total": 0.2995007038116455, "timer/replay.add_frac": 0.0009978721346661165, "timer/replay.add_avg": 0.00021151179647715078, "timer/replay.add_min": 7.05718994140625e-05, "timer/replay.add_max": 0.008990764617919922, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026698589324951172, "timer/logger.write_frac": 8.895397567752594e-05, "timer/logger.write_avg": 0.026698589324951172, "timer/logger.write_min": 0.026698589324951172, "timer/logger.write_max": 0.026698589324951172, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00021576881408691406, "timer/checkpoint.save_frac": 7.188954295168953e-07, "timer/checkpoint.save_avg": 0.00021576881408691406, "timer/checkpoint.save_min": 0.00021576881408691406, "timer/checkpoint.save_max": 0.00021576881408691406, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3641948699951172, "timer/agent.save_frac": 0.0045452048349065065, "timer/agent.save_avg": 1.3641948699951172, "timer/agent.save_min": 1.3641948699951172, "timer/agent.save_max": 1.3641948699951172, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.437301635742188e-05, "timer/replay.save_frac": 2.1447708946912899e-07, "timer/replay.save_avg": 6.437301635742188e-05, "timer/replay.save_min": 6.437301635742188e-05, "timer/replay.save_max": 6.437301635742188e-05, "timer/agent.policy_count": 1416.0, "timer/agent.policy_total": 15.10543179512024, "timer/agent.policy_frac": 0.05032806026368999, "timer/agent.policy_avg": 0.010667677821412598, "timer/agent.policy_min": 0.005723237991333008, "timer/agent.policy_max": 3.3783187866210938, "timer/dataset_count": 708.0, "timer/dataset_total": 0.06355810165405273, "timer/dataset_frac": 0.00021176196838836796, "timer/dataset_avg": 8.977133001984849e-05, "timer/dataset_min": 6.29425048828125e-05, "timer/dataset_max": 0.00018310546875, "timer/agent.train_count": 708.0, "timer/agent.train_total": 263.55924010276794, "timer/agent.train_frac": 0.8781228831359507, "timer/agent.train_avg": 0.3722588137044745, "timer/agent.train_min": 0.36606550216674805, "timer/agent.train_max": 0.38475680351257324, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2192552089691162, "timer/agent.report_frac": 0.0007305113498106252, "timer/agent.report_avg": 0.2192552089691162, "timer/agent.report_min": 0.2192552089691162, "timer/agent.report_max": 0.2192552089691162, "fps": 4.717748707416164}
{"step": 203010, "episode/length": 130.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.3000000193715096, "episode/reward_rate": 0.030534351145038167}
{"step": 203190, "episode/length": 179.0, "episode/score": 6.099999971687794, "episode/sum_abs_reward": 8.100000031292439, "episode/reward_rate": 0.044444444444444446}
{"step": 203420, "episode/length": 229.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.030434782608695653}
{"step": 203565, "episode/length": 144.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.500000022351742, "episode/reward_rate": 0.04827586206896552}
{"step": 203741, "episode/length": 175.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.03977272727272727}
{"step": 203910, "episode/length": 168.0, "episode/score": 4.099999979138374, "episode/sum_abs_reward": 6.700000032782555, "episode/reward_rate": 0.029585798816568046}
{"step": 204114, "episode/length": 203.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.5, "episode/reward_rate": 0.04411764705882353}
{"step": 204307, "episode/length": 192.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.04145077720207254}
{"step": 204387, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.495687696668837, "train/action_min": 0.0, "train/action_std": 3.3769125640392303, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05161063952578439, "train/actor_opt_grad_steps": 101285.0, "train/actor_opt_loss": -12.265861349594262, "train/adv_mag": 0.6996794094642004, "train/adv_max": 0.6241095815267828, "train/adv_mean": 0.003047754273615687, "train/adv_min": -0.5502657968964841, "train/adv_std": 0.05975771969598201, "train/cont_avg": 0.9942220052083334, "train/cont_loss_mean": 1.1419804528777098e-05, "train/cont_loss_std": 0.0003120607349684532, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0011144827532613515, "train/cont_pos_acc": 0.9999999784761004, "train/cont_pos_loss": 2.8680936955775374e-06, "train/cont_pred": 0.99422687292099, "train/cont_rate": 0.9942220052083334, "train/dyn_loss_mean": 4.461946219205856, "train/dyn_loss_std": 8.456320544083914, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0739278097947438, "train/extr_critic_critic_opt_grad_steps": 101285.0, "train/extr_critic_critic_opt_loss": 15784.307440863715, "train/extr_critic_mag": 7.792608022689819, "train/extr_critic_max": 7.792608022689819, "train/extr_critic_mean": 1.4870768280492888, "train/extr_critic_min": -0.6237573706441455, "train/extr_critic_std": 1.7034328165981505, "train/extr_return_normed_mag": 1.73907081120544, "train/extr_return_normed_max": 1.73907081120544, "train/extr_return_normed_mean": 0.3434941153973341, "train/extr_return_normed_min": -0.14814830685241354, "train/extr_return_normed_std": 0.34575946090949905, "train/extr_return_rate": 0.6029975364605585, "train/extr_return_raw_mag": 8.546317074033949, "train/extr_return_raw_max": 8.546317074033949, "train/extr_return_raw_mean": 1.5024033379223611, "train/extr_return_raw_min": -0.978239024678866, "train/extr_return_raw_std": 1.7449068542983797, "train/extr_reward_mag": 1.0302070776621501, "train/extr_reward_max": 1.0302070776621501, "train/extr_reward_mean": 0.03401706942046682, "train/extr_reward_min": -0.6816082745790482, "train/extr_reward_std": 0.18509468995034695, "train/image_loss_mean": 2.6726742254363165, "train/image_loss_std": 7.366056561470032, "train/model_loss_mean": 5.3939926657411785, "train/model_loss_std": 11.38739197784, "train/model_opt_grad_norm": 38.52406856748793, "train/model_opt_grad_steps": 101201.76388888889, "train/model_opt_loss": 12880.281127929688, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2378.472222222222, "train/policy_entropy_mag": 2.318166414896647, "train/policy_entropy_max": 2.318166414896647, "train/policy_entropy_mean": 0.34110735687944627, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4239233550098207, "train/policy_logprob_mag": 7.438384102450477, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.33957985623015297, "train/policy_logprob_min": -7.438384102450477, "train/policy_logprob_std": 0.9501615481244193, "train/policy_randomness_mag": 0.8182110157277849, "train/policy_randomness_max": 0.8182110157277849, "train/policy_randomness_mean": 0.12039592789693011, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.14962633999271524, "train/post_ent_mag": 56.18227847417196, "train/post_ent_max": 56.18227847417196, "train/post_ent_mean": 40.17417393790351, "train/post_ent_min": 18.656412469016182, "train/post_ent_std": 6.003236141469744, "train/prior_ent_mag": 75.47894318898518, "train/prior_ent_max": 75.47894318898518, "train/prior_ent_mean": 44.57760180367364, "train/prior_ent_min": 25.365524530410767, "train/prior_ent_std": 7.33600597249137, "train/rep_loss_mean": 4.461946219205856, "train/rep_loss_std": 8.456320544083914, "train/reward_avg": 0.02551405168034964, "train/reward_loss_mean": 0.04413930670772162, "train/reward_loss_std": 0.18850033833748764, "train/reward_max_data": 1.0180555598603354, "train/reward_max_pred": 1.0188832316133711, "train/reward_neg_acc": 0.995699456996388, "train/reward_neg_loss": 0.022144744935859408, "train/reward_pos_acc": 0.9873640487591425, "train/reward_pos_loss": 0.7351196996039815, "train/reward_pred": 0.025231994002954, "train/reward_rate": 0.030924479166666668, "stats/sum_log_reward": 5.600000083446503, "stats/max_log_achievement_collect_drink": 5.0, "stats/max_log_achievement_collect_sapling": 2.25, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 8.25, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.25, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 1.5, "stats/max_log_achievement_place_plant": 1.625, "stats/max_log_achievement_place_table": 2.75, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.35281267389655113, "replay/size": 204324.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.7887030177646214e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2666814857059056e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.11530351638794, "timer/env.step_count": 1440.0, "timer/env.step_total": 20.418595552444458, "timer/env.step_frac": 0.06803583593773481, "timer/env.step_avg": 0.014179580244753095, "timer/env.step_min": 0.0030813217163085938, "timer/env.step_max": 1.6756725311279297, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.28987598419189453, "timer/replay.add_frac": 0.0009658820486508969, "timer/replay.add_avg": 0.00020130276679992677, "timer/replay.add_min": 8.344650268554688e-05, "timer/replay.add_max": 0.001661062240600586, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023418903350830078, "timer/logger.write_frac": 7.80330195642665e-05, "timer/logger.write_avg": 0.023418903350830078, "timer/logger.write_min": 0.023418903350830078, "timer/logger.write_max": 0.023418903350830078, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 10.545347452163696, "timer/agent.policy_frac": 0.035137653190643985, "timer/agent.policy_avg": 0.007323157952891456, "timer/agent.policy_min": 0.005660533905029297, "timer/agent.policy_max": 0.01839160919189453, "timer/dataset_count": 720.0, "timer/dataset_total": 0.06557798385620117, "timer/dataset_frac": 0.00021850929655315045, "timer/dataset_avg": 9.108053313361274e-05, "timer/dataset_min": 7.009506225585938e-05, "timer/dataset_max": 0.0002028942108154297, "timer/agent.train_count": 720.0, "timer/agent.train_total": 268.07248163223267, "timer/agent.train_frac": 0.8932316296146305, "timer/agent.train_avg": 0.3723228911558787, "timer/agent.train_min": 0.3631289005279541, "timer/agent.train_max": 0.38756608963012695, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21845221519470215, "timer/agent.report_frac": 0.0007278942880790931, "timer/agent.report_avg": 0.21845221519470215, "timer/agent.report_min": 0.21845221519470215, "timer/agent.report_max": 0.21845221519470215, "fps": 4.7980774343334085}
{"step": 204651, "episode/length": 343.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 7.500000037252903, "episode/reward_rate": 0.014534883720930232}
{"step": 204820, "episode/length": 168.0, "episode/score": 6.099999979138374, "episode/sum_abs_reward": 8.30000002682209, "episode/reward_rate": 0.04142011834319527}
{"step": 204993, "episode/length": 172.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.046242774566473986}
{"step": 205164, "episode/length": 170.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.04678362573099415}
{"step": 205349, "episode/length": 184.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.032432432432432434}
{"step": 205542, "episode/length": 192.0, "episode/score": 5.100000001490116, "episode/sum_abs_reward": 8.100000061094761, "episode/reward_rate": 0.031088082901554404}
{"step": 205678, "episode/length": 135.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.051470588235294115}
{"step": 205837, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.493582831488715, "train/action_min": 0.0, "train/action_std": 3.3602071735594006, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05198912265607052, "train/actor_opt_grad_steps": 102005.0, "train/actor_opt_loss": -15.718114289455116, "train/adv_mag": 0.5669447146356106, "train/adv_max": 0.5381962557633718, "train/adv_mean": 0.0026684889311986305, "train/adv_min": -0.44548997324373985, "train/adv_std": 0.05945099352134599, "train/cont_avg": 0.9943440755208334, "train/cont_loss_mean": 8.871732047271368e-06, "train/cont_loss_std": 0.00023703511566629408, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0010366950367723701, "train/cont_pos_acc": 0.9999999809596274, "train/cont_pos_loss": 2.959839145136003e-06, "train/cont_pred": 0.9943467593855329, "train/cont_rate": 0.9943440755208334, "train/dyn_loss_mean": 4.583722571531932, "train/dyn_loss_std": 8.508337537447611, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0743631488747067, "train/extr_critic_critic_opt_grad_steps": 102005.0, "train/extr_critic_critic_opt_loss": 15629.841525607639, "train/extr_critic_mag": 7.4030049840609236, "train/extr_critic_max": 7.4030049840609236, "train/extr_critic_mean": 1.4857548135850165, "train/extr_critic_min": -0.6171895629829831, "train/extr_critic_std": 1.6781627254353628, "train/extr_return_normed_mag": 1.670219471057256, "train/extr_return_normed_max": 1.670219471057256, "train/extr_return_normed_mean": 0.34744331758055425, "train/extr_return_normed_min": -0.14779486921098497, "train/extr_return_normed_std": 0.3404376262591945, "train/extr_return_rate": 0.5993444716764821, "train/extr_return_raw_mag": 8.163846631844839, "train/extr_return_raw_max": 8.163846631844839, "train/extr_return_raw_mean": 1.4992335711916287, "train/extr_return_raw_min": -0.9957962988151444, "train/extr_return_raw_std": 1.7153263572189543, "train/extr_reward_mag": 1.0333481993940141, "train/extr_reward_max": 1.0333481993940141, "train/extr_reward_mean": 0.03502063898162709, "train/extr_reward_min": -0.6600838088326983, "train/extr_reward_std": 0.18708150937325424, "train/image_loss_mean": 2.721431530184216, "train/image_loss_std": 7.587906337446636, "train/model_loss_mean": 5.516522304879294, "train/model_loss_std": 11.675476590792337, "train/model_opt_grad_norm": 35.39960294299655, "train/model_opt_grad_steps": 101920.0, "train/model_opt_loss": 6895.652879503038, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.315044836865531, "train/policy_entropy_max": 2.315044836865531, "train/policy_entropy_mean": 0.35037012543115353, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4373636113272773, "train/policy_logprob_mag": 7.438384122318691, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3517334156980117, "train/policy_logprob_min": -7.438384122318691, "train/policy_logprob_std": 0.9662054735753272, "train/policy_randomness_mag": 0.8171092371145884, "train/policy_randomness_max": 0.8171092371145884, "train/policy_randomness_mean": 0.12366527867399985, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15437015953163305, "train/post_ent_mag": 55.82627381218804, "train/post_ent_max": 55.82627381218804, "train/post_ent_mean": 39.94303687413534, "train/post_ent_min": 18.579945762952168, "train/post_ent_std": 5.950099733140734, "train/prior_ent_mag": 75.40675311618381, "train/prior_ent_max": 75.40675311618381, "train/prior_ent_mean": 44.470528019799126, "train/prior_ent_min": 25.547613541285198, "train/prior_ent_std": 7.372073570887248, "train/rep_loss_mean": 4.583722571531932, "train/rep_loss_std": 8.508337537447611, "train/reward_avg": 0.02668185761043181, "train/reward_loss_mean": 0.044848371400601335, "train/reward_loss_std": 0.19224137191971144, "train/reward_max_data": 1.0166666706403096, "train/reward_max_pred": 1.0137578083409204, "train/reward_neg_acc": 0.9950113726986779, "train/reward_neg_loss": 0.02179852975273712, "train/reward_pos_acc": 0.9840829190280702, "train/reward_pos_loss": 0.7468161814742618, "train/reward_pred": 0.026325253588664863, "train/reward_rate": 0.031806098090277776, "stats/sum_log_reward": 5.671428544180734, "stats/max_log_achievement_collect_drink": 5.428571428571429, "stats/max_log_achievement_collect_sapling": 2.7142857142857144, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 6.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.14285714285714285, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_plant": 1.8571428571428572, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 2.142857142857143, "stats/mean_log_entropy": 0.4190123294081007, "replay/size": 205774.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.7043670128131735e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2871520272616683e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1036274433136, "timer/env.step_count": 1450.0, "timer/env.step_total": 18.561135053634644, "timer/env.step_frac": 0.06184908596994765, "timer/env.step_avg": 0.012800782795610099, "timer/env.step_min": 0.0029325485229492188, "timer/env.step_max": 1.705765724182129, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.2737112045288086, "timer/replay.add_frac": 0.0009120556351172721, "timer/replay.add_avg": 0.00018876634795090248, "timer/replay.add_min": 6.151199340820312e-05, "timer/replay.add_max": 0.009653806686401367, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027262210845947266, "timer/logger.write_frac": 9.084265684558181e-05, "timer/logger.write_avg": 0.027262210845947266, "timer/logger.write_min": 0.027262210845947266, "timer/logger.write_max": 0.027262210845947266, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 10.59837031364441, "timer/agent.policy_frac": 0.035315702125747646, "timer/agent.policy_avg": 0.0073092209059616615, "timer/agent.policy_min": 0.005675792694091797, "timer/agent.policy_max": 0.019087553024291992, "timer/dataset_count": 725.0, "timer/dataset_total": 0.06424283981323242, "timer/dataset_frac": 0.00021406885468376157, "timer/dataset_avg": 8.8610813535493e-05, "timer/dataset_min": 6.270408630371094e-05, "timer/dataset_max": 0.00017762184143066406, "timer/agent.train_count": 725.0, "timer/agent.train_total": 269.8784453868866, "timer/agent.train_frac": 0.8992841828873387, "timer/agent.train_avg": 0.3722461315681194, "timer/agent.train_min": 0.3659791946411133, "timer/agent.train_max": 0.3854093551635742, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22046828269958496, "timer/agent.report_frac": 0.0007346405126050304, "timer/agent.report_avg": 0.22046828269958496, "timer/agent.report_min": 0.22046828269958496, "timer/agent.report_max": 0.22046828269958496, "fps": 4.831565850247228}
{"step": 205874, "episode/length": 195.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.900000028312206, "episode/reward_rate": 0.030612244897959183}
{"step": 206072, "episode/length": 197.0, "episode/score": 7.099999964237213, "episode/sum_abs_reward": 8.699999988079071, "episode/reward_rate": 0.04040404040404041}
{"step": 206218, "episode/length": 145.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.700000002980232, "episode/reward_rate": 0.0547945205479452}
{"step": 206431, "episode/length": 212.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.018779342723004695}
{"step": 206582, "episode/length": 150.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.039735099337748346}
{"step": 206775, "episode/length": 192.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 8.900000028312206, "episode/reward_rate": 0.04145077720207254}
{"step": 206975, "episode/length": 199.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.5, "episode/reward_rate": 0.045}
{"step": 207217, "episode/length": 241.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.028925619834710745}
{"step": 207279, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.580849007384418, "train/action_min": 0.0, "train/action_std": 3.506908060753182, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.051354656991076796, "train/actor_opt_grad_steps": 102730.0, "train/actor_opt_loss": -12.240068750124271, "train/adv_mag": 0.5770268403503993, "train/adv_max": 0.5349951031273359, "train/adv_mean": 0.0038397252845317953, "train/adv_min": -0.48041233175421416, "train/adv_std": 0.060709064749822225, "train/cont_avg": 0.994501819349315, "train/cont_loss_mean": 4.158050942717088e-05, "train/cont_loss_std": 0.0012437529046923225, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0023373992815895815, "train/cont_pos_acc": 0.9999865481298263, "train/cont_pos_loss": 3.0267308690745827e-05, "train/cont_pred": 0.9944908373976407, "train/cont_rate": 0.994501819349315, "train/dyn_loss_mean": 4.6337325736267925, "train/dyn_loss_std": 8.475265692358148, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0955944469530288, "train/extr_critic_critic_opt_grad_steps": 102730.0, "train/extr_critic_critic_opt_loss": 15921.667861729453, "train/extr_critic_mag": 7.412394249275939, "train/extr_critic_max": 7.412394249275939, "train/extr_critic_mean": 1.421970197599228, "train/extr_critic_min": -0.6236808659279183, "train/extr_critic_std": 1.617049174766018, "train/extr_return_normed_mag": 1.6748578287150762, "train/extr_return_normed_max": 1.6748578287150762, "train/extr_return_normed_mean": 0.33702639010671065, "train/extr_return_normed_min": -0.14467709562549852, "train/extr_return_normed_std": 0.33049623341593026, "train/extr_return_rate": 0.619290486182252, "train/extr_return_raw_mag": 8.132256952050614, "train/extr_return_raw_max": 8.132256952050614, "train/extr_return_raw_mean": 1.4412505822638944, "train/extr_return_raw_min": -0.968737833303948, "train/extr_return_raw_std": 1.6533321207516813, "train/extr_reward_mag": 1.0291553686742914, "train/extr_reward_max": 1.0291553686742914, "train/extr_reward_mean": 0.03554278415666051, "train/extr_reward_min": -0.6606481156937064, "train/extr_reward_std": 0.1877891327420326, "train/image_loss_mean": 2.586266870368017, "train/image_loss_std": 7.136299074512639, "train/model_loss_mean": 5.410311597667328, "train/model_loss_std": 11.206676261065757, "train/model_opt_grad_norm": 38.175722069936256, "train/model_opt_grad_steps": 102644.78082191781, "train/model_opt_loss": 10101.752080211902, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1866.4383561643835, "train/policy_entropy_mag": 2.336136412947145, "train/policy_entropy_max": 2.336136412947145, "train/policy_entropy_mean": 0.3475813583968437, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4325531533319656, "train/policy_logprob_mag": 7.438384147539531, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3461806841500818, "train/policy_logprob_min": -7.438384147539531, "train/policy_logprob_std": 0.9578294517242745, "train/policy_randomness_mag": 0.8245536333894077, "train/policy_randomness_max": 0.8245536333894077, "train/policy_randomness_mean": 0.12268096524966907, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1526722787585977, "train/post_ent_mag": 55.91958424816393, "train/post_ent_max": 55.91958424816393, "train/post_ent_mean": 39.995913623130484, "train/post_ent_min": 18.835597809046916, "train/post_ent_std": 6.003920600838857, "train/prior_ent_mag": 75.3748400962516, "train/prior_ent_max": 75.3748400962516, "train/prior_ent_mean": 44.59333006976402, "train/prior_ent_min": 25.499393907311845, "train/prior_ent_std": 7.3505255751413845, "train/rep_loss_mean": 4.6337325736267925, "train/rep_loss_std": 8.475265692358148, "train/reward_avg": 0.02654109555870703, "train/reward_loss_mean": 0.0437636283570773, "train/reward_loss_std": 0.1926703257103489, "train/reward_max_data": 1.0136986334029943, "train/reward_max_pred": 1.013829231262207, "train/reward_neg_acc": 0.9950299548776183, "train/reward_neg_loss": 0.02123995941795715, "train/reward_pos_acc": 0.9859899347775603, "train/reward_pos_loss": 0.7409198382129408, "train/reward_pred": 0.026307021376153785, "train/reward_rate": 0.03146404109589041, "stats/sum_log_reward": 5.849999964237213, "stats/max_log_achievement_collect_drink": 5.0, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 7.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.375, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 1.625, "stats/max_log_achievement_place_plant": 1.375, "stats/max_log_achievement_place_table": 2.25, "stats/max_log_achievement_wake_up": 1.875, "stats/mean_log_entropy": 0.3954004533588886, "replay/size": 207216.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.684740952744398e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2633952618306618e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1421711444855, "timer/env.step_count": 1442.0, "timer/env.step_total": 20.198260068893433, "timer/env.step_frac": 0.06729564190155135, "timer/env.step_avg": 0.014007115165668122, "timer/env.step_min": 0.0029625892639160156, "timer/env.step_max": 1.826146125793457, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.2680351734161377, "timer/replay.add_frac": 0.0008930273689767781, "timer/replay.add_avg": 0.00018587737407499148, "timer/replay.add_min": 7.319450378417969e-05, "timer/replay.add_max": 0.0030989646911621094, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02752995491027832, "timer/logger.write_frac": 9.172304846500785e-05, "timer/logger.write_avg": 0.02752995491027832, "timer/logger.write_min": 0.02752995491027832, "timer/logger.write_max": 0.02752995491027832, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 10.566728591918945, "timer/agent.policy_frac": 0.035205744503101585, "timer/agent.policy_avg": 0.007327828427128256, "timer/agent.policy_min": 0.005580902099609375, "timer/agent.policy_max": 0.016931772232055664, "timer/dataset_count": 721.0, "timer/dataset_total": 0.06437945365905762, "timer/dataset_frac": 0.00021449652814054573, "timer/dataset_avg": 8.929189134404662e-05, "timer/dataset_min": 5.888938903808594e-05, "timer/dataset_max": 0.0001957416534423828, "timer/agent.train_count": 721.0, "timer/agent.train_total": 268.3155994415283, "timer/agent.train_frac": 0.893961679621368, "timer/agent.train_avg": 0.37214368854580904, "timer/agent.train_min": 0.36467480659484863, "timer/agent.train_max": 0.38309764862060547, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21889209747314453, "timer/agent.report_frac": 0.0007292947093654894, "timer/agent.report_avg": 0.21889209747314453, "timer/agent.report_min": 0.21889209747314453, "timer/agent.report_max": 0.21889209747314453, "fps": 4.804288731381616}
{"step": 207383, "episode/length": 165.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.04216867469879518}
{"step": 207557, "episode/length": 173.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.034482758620689655}
{"step": 207728, "episode/length": 170.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.03508771929824561}
{"step": 207917, "episode/length": 188.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.037037037037037035}
{"step": 208087, "episode/length": 169.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.03529411764705882}
{"step": 208277, "episode/length": 189.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.042105263157894736}
{"step": 208442, "episode/length": 164.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.700000002980232, "episode/reward_rate": 0.048484848484848485}
{"step": 208680, "episode/length": 237.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 8.100000001490116, "episode/reward_rate": 0.03361344537815126}
{"step": 208699, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.484786772392165, "train/action_min": 0.0, "train/action_std": 3.4341802227665, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05008874775868066, "train/actor_opt_grad_steps": 103450.0, "train/actor_opt_loss": -16.08486449886376, "train/adv_mag": 0.6327721073593892, "train/adv_max": 0.6013371172085614, "train/adv_mean": 0.0016812232817858491, "train/adv_min": -0.4821709461615119, "train/adv_std": 0.05945518786008929, "train/cont_avg": 0.9941818882042254, "train/cont_loss_mean": 7.243677295661309e-05, "train/cont_loss_std": 0.002292985862332341, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0019502498192541936, "train/cont_pos_acc": 0.9999861331053184, "train/cont_pos_loss": 6.306994953505241e-05, "train/cont_pred": 0.9941763231452082, "train/cont_rate": 0.9941818882042254, "train/dyn_loss_mean": 4.58591855747599, "train/dyn_loss_std": 8.491356769078214, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0549641402674392, "train/extr_critic_critic_opt_grad_steps": 103450.0, "train/extr_critic_critic_opt_loss": 15711.027550066021, "train/extr_critic_mag": 7.751662207321382, "train/extr_critic_max": 7.751662207321382, "train/extr_critic_mean": 1.3955384996575368, "train/extr_critic_min": -0.6177056809546242, "train/extr_critic_std": 1.6319179316641579, "train/extr_return_normed_mag": 1.7620980857123791, "train/extr_return_normed_max": 1.7620980857123791, "train/extr_return_normed_mean": 0.33262856094770027, "train/extr_return_normed_min": -0.149610687099712, "train/extr_return_normed_std": 0.33713919365070233, "train/extr_return_rate": 0.6187876269850933, "train/extr_return_raw_mag": 8.442529167927487, "train/extr_return_raw_max": 8.442529167927487, "train/extr_return_raw_mean": 1.403806206206201, "train/extr_return_raw_min": -0.9727313686424578, "train/extr_return_raw_std": 1.6605969482744243, "train/extr_reward_mag": 1.0220015485521774, "train/extr_reward_max": 1.0220015485521774, "train/extr_reward_mean": 0.033433630170536716, "train/extr_reward_min": -0.6833221660533422, "train/extr_reward_std": 0.18300243645486697, "train/image_loss_mean": 2.748532306980079, "train/image_loss_std": 7.615613353084511, "train/model_loss_mean": 5.543504620941592, "train/model_loss_std": 11.65854605822496, "train/model_opt_grad_norm": 38.66249345054089, "train/model_opt_grad_steps": 103364.0, "train/model_opt_loss": 6929.380797480194, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.3290059197116904, "train/policy_entropy_max": 2.3290059197116904, "train/policy_entropy_mean": 0.3431830662237087, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4192991294491459, "train/policy_logprob_mag": 7.438384129967488, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3429277048144542, "train/policy_logprob_min": -7.438384129967488, "train/policy_logprob_std": 0.955291682565716, "train/policy_randomness_mag": 0.8220368842004051, "train/policy_randomness_max": 0.8220368842004051, "train/policy_randomness_mean": 0.12112856068661515, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.14799419339274017, "train/post_ent_mag": 56.20363380539585, "train/post_ent_max": 56.20363380539585, "train/post_ent_mean": 40.00908354638328, "train/post_ent_min": 18.632838880512075, "train/post_ent_std": 6.085769445123807, "train/prior_ent_mag": 75.43628821574467, "train/prior_ent_max": 75.43628821574467, "train/prior_ent_mean": 44.580579139816926, "train/prior_ent_min": 24.710737335849817, "train/prior_ent_std": 7.471037999005385, "train/rep_loss_mean": 4.58591855747599, "train/rep_loss_std": 8.491356769078214, "train/reward_avg": 0.02490509456207215, "train/reward_loss_mean": 0.04334878672281621, "train/reward_loss_std": 0.19472089241927779, "train/reward_max_data": 1.0112676083202092, "train/reward_max_pred": 1.0078621414345754, "train/reward_neg_acc": 0.9954189599399835, "train/reward_neg_loss": 0.021740976143890704, "train/reward_pos_acc": 0.9842674765788334, "train/reward_pos_loss": 0.7441418758580383, "train/reward_pred": 0.024791040733246734, "train/reward_rate": 0.03006712147887324, "stats/sum_log_reward": 5.724999964237213, "stats/max_log_achievement_collect_drink": 6.5, "stats/max_log_achievement_collect_sapling": 2.5, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 8.875, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 1.25, "stats/max_log_achievement_place_plant": 1.875, "stats/max_log_achievement_place_table": 2.875, "stats/max_log_achievement_wake_up": 1.625, "stats/mean_log_entropy": 0.3111739419400692, "replay/size": 208636.0, "replay/inserts": 1420.0, "replay/samples": 11360.0, "replay/insert_wait_avg": 3.7292359580456373e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2795690079809913e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.181254863739, "timer/env.step_count": 1420.0, "timer/env.step_total": 22.376867532730103, "timer/env.step_frac": 0.07454451991976518, "timer/env.step_avg": 0.015758357417415565, "timer/env.step_min": 0.0030417442321777344, "timer/env.step_max": 2.601959466934204, "timer/replay.add_count": 1420.0, "timer/replay.add_total": 0.2847123146057129, "timer/replay.add_frac": 0.0009484680005583696, "timer/replay.add_avg": 0.00020050163000402316, "timer/replay.add_min": 7.653236389160156e-05, "timer/replay.add_max": 0.0024764537811279297, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025072813034057617, "timer/logger.write_frac": 8.352557872222533e-05, "timer/logger.write_avg": 0.025072813034057617, "timer/logger.write_min": 0.025072813034057617, "timer/logger.write_max": 0.025072813034057617, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.000316619873046875, "timer/checkpoint.save_frac": 1.0547623074951763e-06, "timer/checkpoint.save_avg": 0.000316619873046875, "timer/checkpoint.save_min": 0.000316619873046875, "timer/checkpoint.save_max": 0.000316619873046875, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4484789371490479, "timer/agent.save_frac": 0.004825347731345032, "timer/agent.save_avg": 1.4484789371490479, "timer/agent.save_min": 1.4484789371490479, "timer/agent.save_max": 1.4484789371490479, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.0001068115234375, "timer/replay.save_frac": 3.5582342903451735e-07, "timer/replay.save_avg": 0.0001068115234375, "timer/replay.save_min": 0.0001068115234375, "timer/replay.save_max": 0.0001068115234375, "timer/agent.policy_count": 1420.0, "timer/agent.policy_total": 11.790156126022339, "timer/agent.policy_frac": 0.03927679005597546, "timer/agent.policy_avg": 0.008302926849311507, "timer/agent.policy_min": 0.005664825439453125, "timer/agent.policy_max": 1.4378786087036133, "timer/dataset_count": 710.0, "timer/dataset_total": 0.06518840789794922, "timer/dataset_frac": 0.00021716348653262886, "timer/dataset_avg": 9.181465901119608e-05, "timer/dataset_min": 6.532669067382812e-05, "timer/dataset_max": 0.00024008750915527344, "timer/agent.train_count": 710.0, "timer/agent.train_total": 264.9468152523041, "timer/agent.train_frac": 0.8826227852654261, "timer/agent.train_avg": 0.37316452852437193, "timer/agent.train_min": 0.3652069568634033, "timer/agent.train_max": 0.8622941970825195, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21789216995239258, "timer/agent.report_frac": 0.000725868675748258, "timer/agent.report_avg": 0.21789216995239258, "timer/agent.report_min": 0.21789216995239258, "timer/agent.report_max": 0.21789216995239258, "fps": 4.730395644237295}
{"step": 208915, "episode/length": 234.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.029787234042553193}
{"step": 209051, "episode/length": 135.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.0999999940395355, "episode/reward_rate": 0.051470588235294115}
{"step": 209210, "episode/length": 158.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.0440251572327044}
{"step": 209362, "episode/length": 151.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.039473684210526314}
{"step": 209533, "episode/length": 170.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.0999999940395355, "episode/reward_rate": 0.04093567251461988}
{"step": 209743, "episode/length": 209.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.03333333333333333}
{"step": 210016, "episode/length": 272.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 7.1000000312924385, "episode/reward_rate": 0.018315018315018316}
{"step": 210145, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.406712002224392, "train/action_min": 0.0, "train/action_std": 3.4065711531374188, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05294077082847556, "train/actor_opt_grad_steps": 104165.0, "train/actor_opt_loss": -15.444557924237516, "train/adv_mag": 0.6453122049570084, "train/adv_max": 0.6094551657636961, "train/adv_mean": 0.002575123222514877, "train/adv_min": -0.5123316740824116, "train/adv_std": 0.060525710539271436, "train/cont_avg": 0.9947645399305556, "train/cont_loss_mean": 1.5532668972559646e-05, "train/cont_loss_std": 0.0004159654158785781, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.001981265178925805, "train/cont_pos_acc": 0.9999999759925736, "train/cont_pos_loss": 7.44825351740709e-06, "train/cont_pred": 0.9947647013598018, "train/cont_rate": 0.9947645399305556, "train/dyn_loss_mean": 4.513603902525372, "train/dyn_loss_std": 8.435726477040184, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0702117151684232, "train/extr_critic_critic_opt_grad_steps": 104165.0, "train/extr_critic_critic_opt_loss": 15561.569132486979, "train/extr_critic_mag": 7.656731307506561, "train/extr_critic_max": 7.656731307506561, "train/extr_critic_mean": 1.4497207171387143, "train/extr_critic_min": -0.6126235922177633, "train/extr_critic_std": 1.598163679242134, "train/extr_return_normed_mag": 1.7612993286715612, "train/extr_return_normed_max": 1.7612993286715612, "train/extr_return_normed_mean": 0.3471529877020253, "train/extr_return_normed_min": -0.15222385774056116, "train/extr_return_normed_std": 0.33738662654327023, "train/extr_return_rate": 0.6471354497803582, "train/extr_return_raw_mag": 8.305545932716793, "train/extr_return_raw_max": 8.305545932716793, "train/extr_return_raw_mean": 1.4621676612231467, "train/extr_return_raw_min": -0.9528255917959743, "train/extr_return_raw_std": 1.632054951455858, "train/extr_reward_mag": 1.0337750415007274, "train/extr_reward_max": 1.0337750415007274, "train/extr_reward_mean": 0.03583216372256478, "train/extr_reward_min": -0.648973372247484, "train/extr_reward_std": 0.18776833597156736, "train/image_loss_mean": 2.7004584123690925, "train/image_loss_std": 7.809438546498616, "train/model_loss_mean": 5.451203624407451, "train/model_loss_std": 11.810468289587233, "train/model_opt_grad_norm": 37.44038777881198, "train/model_opt_grad_steps": 104078.22222222222, "train/model_opt_loss": 7115.221516927083, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1302.0833333333333, "train/policy_entropy_mag": 2.350011650058958, "train/policy_entropy_max": 2.350011650058958, "train/policy_entropy_mean": 0.34761221210161847, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.43087850221329266, "train/policy_logprob_mag": 7.43838412894143, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3488801121711731, "train/policy_logprob_min": -7.43838412894143, "train/policy_logprob_std": 0.9658868759870529, "train/policy_randomness_mag": 0.8294509864515729, "train/policy_randomness_max": 0.8294509864515729, "train/policy_randomness_mean": 0.1226918569041623, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15208120230171415, "train/post_ent_mag": 55.02851650449965, "train/post_ent_max": 55.02851650449965, "train/post_ent_mean": 40.13701475991143, "train/post_ent_min": 18.608182907104492, "train/post_ent_std": 5.944999390178257, "train/prior_ent_mag": 75.46359369489882, "train/prior_ent_max": 75.46359369489882, "train/prior_ent_mean": 44.615738762749565, "train/prior_ent_min": 25.57107244597541, "train/prior_ent_std": 7.238884442382389, "train/rep_loss_mean": 4.513603902525372, "train/rep_loss_std": 8.435726477040184, "train/reward_avg": 0.02666965041620036, "train/reward_loss_mean": 0.042567383187512554, "train/reward_loss_std": 0.1812270728664266, "train/reward_max_data": 1.0097222245401807, "train/reward_max_pred": 1.0104702214399974, "train/reward_neg_acc": 0.9953336715698242, "train/reward_neg_loss": 0.020718011293663748, "train/reward_pos_acc": 0.9891904749804072, "train/reward_pos_loss": 0.7180582036574682, "train/reward_pred": 0.026599877785580855, "train/reward_rate": 0.03148057725694445, "stats/sum_log_reward": 5.385714258466448, "stats/max_log_achievement_collect_drink": 11.142857142857142, "stats/max_log_achievement_collect_sapling": 2.2857142857142856, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 5.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.14285714285714285, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.5714285714285714, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_table": 2.142857142857143, "stats/max_log_achievement_wake_up": 1.8571428571428572, "stats/mean_log_entropy": 0.3547296481473105, "replay/size": 210082.0, "replay/inserts": 1446.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.703072522850617e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2757084016813118e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0012454986572, "timer/env.step_count": 1446.0, "timer/env.step_total": 19.131450414657593, "timer/env.step_frac": 0.06377123662556002, "timer/env.step_avg": 0.013230601946512857, "timer/env.step_min": 0.0030012130737304688, "timer/env.step_max": 1.740978479385376, "timer/replay.add_count": 1446.0, "timer/replay.add_total": 0.2742929458618164, "timer/replay.add_frac": 0.0009143060236496388, "timer/replay.add_avg": 0.0001896908339293336, "timer/replay.add_min": 7.367134094238281e-05, "timer/replay.add_max": 0.007089853286743164, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.031321048736572266, "timer/logger.write_frac": 0.0001044030623423277, "timer/logger.write_avg": 0.031321048736572266, "timer/logger.write_min": 0.031321048736572266, "timer/logger.write_max": 0.031321048736572266, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1446.0, "timer/agent.policy_total": 10.621403932571411, "timer/agent.policy_frac": 0.03540453278757788, "timer/agent.policy_avg": 0.007345369247974696, "timer/agent.policy_min": 0.005628824234008789, "timer/agent.policy_max": 0.020853519439697266, "timer/dataset_count": 723.0, "timer/dataset_total": 0.06517267227172852, "timer/dataset_frac": 0.00021724133899310834, "timer/dataset_avg": 9.014200867458993e-05, "timer/dataset_min": 6.628036499023438e-05, "timer/dataset_max": 0.0001773834228515625, "timer/agent.train_count": 723.0, "timer/agent.train_total": 269.1732256412506, "timer/agent.train_frac": 0.897240360431955, "timer/agent.train_avg": 0.37230045040283627, "timer/agent.train_min": 0.3663938045501709, "timer/agent.train_max": 0.3850717544555664, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22009015083312988, "timer/agent.report_frac": 0.0007336307903232187, "timer/agent.report_avg": 0.22009015083312988, "timer/agent.report_min": 0.22009015083312988, "timer/agent.report_max": 0.22009015083312988, "fps": 4.819881243087308}
{"step": 210395, "episode/length": 378.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.018469656992084433}
{"step": 210611, "episode/length": 215.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.037037037037037035}
{"step": 210771, "episode/length": 159.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.099999994039536, "episode/reward_rate": 0.05625}
{"step": 210994, "episode/length": 222.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.03139013452914798}
{"step": 211258, "episode/length": 263.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.026515151515151516}
{"step": 211436, "episode/length": 177.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.0449438202247191}
{"step": 211601, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.395052975171233, "train/action_min": 0.0, "train/action_std": 3.4222462079296374, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.049337306557452845, "train/actor_opt_grad_steps": 104890.0, "train/actor_opt_loss": -14.538938803215549, "train/adv_mag": 0.5492859690973203, "train/adv_max": 0.5055787734789391, "train/adv_mean": 0.0027026065662826173, "train/adv_min": -0.45774605911071986, "train/adv_std": 0.05746606318917993, "train/cont_avg": 0.9943412885273972, "train/cont_loss_mean": 7.041687730983141e-06, "train/cont_loss_std": 0.00018511195506493692, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0007382197990135528, "train/cont_pos_acc": 0.9999999804039524, "train/cont_pos_loss": 2.2593231478074887e-06, "train/cont_pred": 0.9943436661811724, "train/cont_rate": 0.9943412885273972, "train/dyn_loss_mean": 4.595303140274466, "train/dyn_loss_std": 8.507027737081867, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0258236723403409, "train/extr_critic_critic_opt_grad_steps": 104890.0, "train/extr_critic_critic_opt_loss": 15462.109321489726, "train/extr_critic_mag": 7.088243020723944, "train/extr_critic_max": 7.088243020723944, "train/extr_critic_mean": 1.3946806494503805, "train/extr_critic_min": -0.6019924781093858, "train/extr_critic_std": 1.5395724332495913, "train/extr_return_normed_mag": 1.6602210508633966, "train/extr_return_normed_max": 1.6602210508633966, "train/extr_return_normed_mean": 0.33770420269606866, "train/extr_return_normed_min": -0.15321358885258846, "train/extr_return_normed_std": 0.3283833187736877, "train/extr_return_rate": 0.6291452952443737, "train/extr_return_raw_mag": 7.73664246519951, "train/extr_return_raw_max": 7.73664246519951, "train/extr_return_raw_mean": 1.4075870840516809, "train/extr_return_raw_min": -0.9421973138639371, "train/extr_return_raw_std": 1.5717618367443347, "train/extr_reward_mag": 1.0271185293589553, "train/extr_reward_max": 1.0271185293589553, "train/extr_reward_mean": 0.03390114981528014, "train/extr_reward_min": -0.6604769344199194, "train/extr_reward_std": 0.1837494426394162, "train/image_loss_mean": 2.712171588858513, "train/image_loss_std": 7.399177289988897, "train/model_loss_mean": 5.512027302833452, "train/model_loss_std": 11.456978784848566, "train/model_opt_grad_norm": 36.78237476087596, "train/model_opt_grad_steps": 104802.71232876713, "train/model_opt_loss": 7773.7155260059935, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1386.986301369863, "train/policy_entropy_mag": 2.3441413526665675, "train/policy_entropy_max": 2.3441413526665675, "train/policy_entropy_mean": 0.3486170885089326, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4313039632692729, "train/policy_logprob_mag": 7.438384160603563, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3465751817781631, "train/policy_logprob_min": -7.438384160603563, "train/policy_logprob_std": 0.955457964172102, "train/policy_randomness_mag": 0.8273790290910904, "train/policy_randomness_max": 0.8273790290910904, "train/policy_randomness_mean": 0.12304653237535529, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15223137299491935, "train/post_ent_mag": 55.549579097800056, "train/post_ent_max": 55.549579097800056, "train/post_ent_mean": 40.321111496180706, "train/post_ent_min": 18.614831741542034, "train/post_ent_std": 6.029084297075664, "train/prior_ent_mag": 75.58897723890331, "train/prior_ent_max": 75.58897723890331, "train/prior_ent_mean": 44.8526605579951, "train/prior_ent_min": 25.852626931177426, "train/prior_ent_std": 7.2872448032849455, "train/rep_loss_mean": 4.595303140274466, "train/rep_loss_std": 8.507027737081867, "train/reward_avg": 0.025228756275793462, "train/reward_loss_mean": 0.042666784806610784, "train/reward_loss_std": 0.18114848169561934, "train/reward_max_data": 1.0123287700626948, "train/reward_max_pred": 1.0115972038817733, "train/reward_neg_acc": 0.9953895464335403, "train/reward_neg_loss": 0.021524342567953346, "train/reward_pos_acc": 0.9915500471036728, "train/reward_pos_loss": 0.7186654242750716, "train/reward_pred": 0.02514005652692628, "train/reward_rate": 0.030353702910958905, "stats/sum_log_reward": 6.599999904632568, "stats/max_log_achievement_collect_drink": 7.666666666666667, "stats/max_log_achievement_collect_sapling": 2.5, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 11.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.3333333333333333, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.16666666666666666, "stats/max_log_achievement_make_wood_sword": 3.3333333333333335, "stats/max_log_achievement_place_plant": 2.5, "stats/max_log_achievement_place_table": 3.8333333333333335, "stats/max_log_achievement_wake_up": 2.5, "stats/mean_log_entropy": 0.4603361984093984, "replay/size": 211538.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.688283019013457e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2654729269363069e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.18237948417664, "timer/env.step_count": 1456.0, "timer/env.step_total": 17.39913845062256, "timer/env.step_frac": 0.05796189130261628, "timer/env.step_avg": 0.011949957727075933, "timer/env.step_min": 0.003109455108642578, "timer/env.step_max": 1.7257328033447266, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.2654125690460205, "timer/replay.add_frac": 0.0008841710479545688, "timer/replay.add_avg": 0.00018228885236677234, "timer/replay.add_min": 7.152557373046875e-05, "timer/replay.add_max": 0.002489328384399414, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022472858428955078, "timer/logger.write_frac": 7.486401589450948e-05, "timer/logger.write_avg": 0.022472858428955078, "timer/logger.write_min": 0.022472858428955078, "timer/logger.write_max": 0.022472858428955078, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 10.65047574043274, "timer/agent.policy_frac": 0.03548001637782391, "timer/agent.policy_avg": 0.007314887184363145, "timer/agent.policy_min": 0.005692243576049805, "timer/agent.policy_max": 0.018303632736206055, "timer/dataset_count": 728.0, "timer/dataset_total": 0.06511211395263672, "timer/dataset_frac": 0.0002169085142989512, "timer/dataset_avg": 8.943971696790758e-05, "timer/dataset_min": 6.985664367675781e-05, "timer/dataset_max": 0.0001735687255859375, "timer/agent.train_count": 728.0, "timer/agent.train_total": 271.0822548866272, "timer/agent.train_frac": 0.90305851846616, "timer/agent.train_avg": 0.372365734734378, "timer/agent.train_min": 0.3661782741546631, "timer/agent.train_max": 0.3863673210144043, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22175192832946777, "timer/agent.report_frac": 0.0007387240007575357, "timer/agent.report_avg": 0.22175192832946777, "timer/agent.report_min": 0.22175192832946777, "timer/agent.report_max": 0.22175192832946777, "fps": 4.85032011593559}
{"step": 211870, "episode/length": 433.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.016129032258064516}
{"step": 212016, "episode/length": 145.0, "episode/score": 3.0999999716877937, "episode/sum_abs_reward": 5.500000037252903, "episode/reward_rate": 0.03424657534246575}
{"step": 212204, "episode/length": 187.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.031914893617021274}
{"step": 212457, "episode/length": 252.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 8.700000040233135, "episode/reward_rate": 0.02766798418972332}
{"step": 212607, "episode/length": 149.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.04}
{"step": 212735, "episode/length": 127.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.046875}
{"step": 212957, "episode/length": 221.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.02702702702702703}
{"step": 213025, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.478586116307218, "train/action_min": 0.0, "train/action_std": 3.440817074036934, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05075165482474045, "train/actor_opt_grad_steps": 105610.0, "train/actor_opt_loss": -14.609829639884788, "train/adv_mag": 0.5995125371805379, "train/adv_max": 0.5381464412514593, "train/adv_mean": 0.002893638401128299, "train/adv_min": -0.49606936918178074, "train/adv_std": 0.060467598094067106, "train/cont_avg": 0.9944982394366197, "train/cont_loss_mean": 4.5068724615779966e-05, "train/cont_loss_std": 0.0012857114865076089, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00046296744157714296, "train/cont_pos_acc": 0.9999862002654815, "train/cont_pos_loss": 4.295473726476213e-05, "train/cont_pred": 0.9944816466788171, "train/cont_rate": 0.9944982394366197, "train/dyn_loss_mean": 4.615886335641566, "train/dyn_loss_std": 8.480949119782784, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0690769670714795, "train/extr_critic_critic_opt_grad_steps": 105610.0, "train/extr_critic_critic_opt_loss": 15549.25605193662, "train/extr_critic_mag": 7.2189629783093086, "train/extr_critic_max": 7.2189629783093086, "train/extr_critic_mean": 1.385562863987936, "train/extr_critic_min": -0.6015716153131404, "train/extr_critic_std": 1.5359903406089461, "train/extr_return_normed_mag": 1.693875468952555, "train/extr_return_normed_max": 1.693875468952555, "train/extr_return_normed_mean": 0.3383304867106424, "train/extr_return_normed_min": -0.14903395622968674, "train/extr_return_normed_std": 0.32889119672103667, "train/extr_return_rate": 0.6353662639436587, "train/extr_return_raw_mag": 7.8640816043800035, "train/extr_return_raw_max": 7.8640816043800035, "train/extr_return_raw_mean": 1.3993393191149537, "train/extr_return_raw_min": -0.9252251747628333, "train/extr_return_raw_std": 1.5688828800765562, "train/extr_reward_mag": 1.0185242068599647, "train/extr_reward_max": 1.0185242068599647, "train/extr_reward_mean": 0.03399840060254218, "train/extr_reward_min": -0.664042098421446, "train/extr_reward_std": 0.18364912114093002, "train/image_loss_mean": 2.790636704001628, "train/image_loss_std": 7.702037831427345, "train/model_loss_mean": 5.603758516445966, "train/model_loss_std": 11.762741505260198, "train/model_opt_grad_norm": 35.92495558295452, "train/model_opt_grad_steps": 105522.0, "train/model_opt_loss": 7004.69814590669, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.3347380832887032, "train/policy_entropy_max": 2.3347380832887032, "train/policy_entropy_mean": 0.3637190519923895, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4465632614955096, "train/policy_logprob_mag": 7.438384103103423, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36351498625647855, "train/policy_logprob_min": -7.438384103103423, "train/policy_logprob_std": 0.9725655300516478, "train/policy_randomness_mag": 0.8240600824356079, "train/policy_randomness_max": 0.8240600824356079, "train/policy_randomness_mean": 0.128376863372158, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15761723379853745, "train/post_ent_mag": 55.9020451827788, "train/post_ent_max": 55.9020451827788, "train/post_ent_mean": 40.06884926809391, "train/post_ent_min": 18.618837383431448, "train/post_ent_std": 6.047317578758992, "train/prior_ent_mag": 75.48554057806311, "train/prior_ent_max": 75.48554057806311, "train/prior_ent_mean": 44.63621166390433, "train/prior_ent_min": 25.581861334787288, "train/prior_ent_std": 7.383713265539894, "train/rep_loss_mean": 4.615886335641566, "train/rep_loss_std": 8.480949119782784, "train/reward_avg": 0.025833516486618722, "train/reward_loss_mean": 0.043544909798763166, "train/reward_loss_std": 0.1945393509428266, "train/reward_max_data": 1.0056338041601047, "train/reward_max_pred": 1.007367473253062, "train/reward_neg_acc": 0.9955286375233825, "train/reward_neg_loss": 0.021425952433123136, "train/reward_pos_acc": 0.9863809758508709, "train/reward_pos_loss": 0.7356724554384259, "train/reward_pred": 0.025546031754831194, "train/reward_rate": 0.03085112235915493, "stats/sum_log_reward": 5.099999972752163, "stats/max_log_achievement_collect_drink": 4.571428571428571, "stats/max_log_achievement_collect_sapling": 2.857142857142857, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 5.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.14285714285714285, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_plant": 1.8571428571428572, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 2.7142857142857144, "stats/mean_log_entropy": 0.3895440697669983, "replay/size": 212962.0, "replay/inserts": 1424.0, "replay/samples": 11392.0, "replay/insert_wait_avg": 3.7718354985955055e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2698844912346828e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0822410583496, "timer/env.step_count": 1424.0, "timer/env.step_total": 18.913743019104004, "timer/env.step_frac": 0.06302853161985789, "timer/env.step_avg": 0.01328212290667416, "timer/env.step_min": 0.0029649734497070312, "timer/env.step_max": 1.706068992614746, "timer/replay.add_count": 1424.0, "timer/replay.add_total": 0.2655599117279053, "timer/replay.add_frac": 0.0008849571063962708, "timer/replay.add_avg": 0.00018648870205611326, "timer/replay.add_min": 8.082389831542969e-05, "timer/replay.add_max": 0.0011360645294189453, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02704334259033203, "timer/logger.write_frac": 9.011977015018886e-05, "timer/logger.write_avg": 0.02704334259033203, "timer/logger.write_min": 0.02704334259033203, "timer/logger.write_max": 0.02704334259033203, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00029587745666503906, "timer/checkpoint.save_frac": 9.85987893257259e-07, "timer/checkpoint.save_avg": 0.00029587745666503906, "timer/checkpoint.save_min": 0.00029587745666503906, "timer/checkpoint.save_max": 0.00029587745666503906, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3483538627624512, "timer/agent.save_frac": 0.004493281101897229, "timer/agent.save_avg": 1.3483538627624512, "timer/agent.save_min": 1.3483538627624512, "timer/agent.save_max": 1.3483538627624512, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.557868957519531e-05, "timer/replay.save_frac": 2.518599211624102e-07, "timer/replay.save_avg": 7.557868957519531e-05, "timer/replay.save_min": 7.557868957519531e-05, "timer/replay.save_max": 7.557868957519531e-05, "timer/agent.policy_count": 1424.0, "timer/agent.policy_total": 15.03542160987854, "timer/agent.policy_frac": 0.050104336587365635, "timer/agent.policy_avg": 0.010558582591206839, "timer/agent.policy_min": 0.005692720413208008, "timer/agent.policy_max": 3.2137491703033447, "timer/dataset_count": 712.0, "timer/dataset_total": 0.06444072723388672, "timer/dataset_frac": 0.0002147435549888356, "timer/dataset_avg": 9.05066393734364e-05, "timer/dataset_min": 6.222724914550781e-05, "timer/dataset_max": 0.0001919269561767578, "timer/agent.train_count": 712.0, "timer/agent.train_total": 265.07810139656067, "timer/agent.train_frac": 0.8833515121110331, "timer/agent.train_avg": 0.37230070420865263, "timer/agent.train_min": 0.36564183235168457, "timer/agent.train_max": 0.4158635139465332, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22203469276428223, "timer/agent.report_frac": 0.000739912805173661, "timer/agent.report_avg": 0.22203469276428223, "timer/agent.report_min": 0.22203469276428223, "timer/agent.report_max": 0.22203469276428223, "fps": 4.745259419465709}
{"step": 213118, "episode/length": 160.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 4.899999991059303, "episode/reward_rate": 0.031055900621118012}
{"step": 213280, "episode/length": 161.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.04938271604938271}
{"step": 213459, "episode/length": 178.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.0335195530726257}
{"step": 213635, "episode/length": 175.0, "episode/score": 6.0999999940395355, "episode/sum_abs_reward": 7.9000000059604645, "episode/reward_rate": 0.045454545454545456}
{"step": 213814, "episode/length": 178.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.03910614525139665}
{"step": 213986, "episode/length": 171.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.040697674418604654}
{"step": 214347, "episode/length": 360.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.019390581717451522}
{"step": 214475, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.461197747124566, "train/action_min": 0.0, "train/action_std": 3.3606904910670385, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05449743796553877, "train/actor_opt_grad_steps": 106325.0, "train/actor_opt_loss": -11.806398686849409, "train/adv_mag": 0.5997747364971373, "train/adv_max": 0.5719497543242242, "train/adv_mean": 0.004327771541941022, "train/adv_min": -0.4755708509021335, "train/adv_std": 0.061922269511140056, "train/cont_avg": 0.9946153428819444, "train/cont_loss_mean": 0.0001429130808132426, "train/cont_loss_std": 0.0045314689283865546, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.003610693075744267, "train/cont_pos_acc": 0.9999863497085042, "train/cont_pos_loss": 0.0001258446115681464, "train/cont_pred": 0.9946115604705281, "train/cont_rate": 0.9946153428819444, "train/dyn_loss_mean": 4.503088653087616, "train/dyn_loss_std": 8.378554979960123, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0622331558002367, "train/extr_critic_critic_opt_grad_steps": 106325.0, "train/extr_critic_critic_opt_loss": 15868.849283854166, "train/extr_critic_mag": 7.37449613544676, "train/extr_critic_max": 7.37449613544676, "train/extr_critic_mean": 1.4545312474171321, "train/extr_critic_min": -0.5627269066042371, "train/extr_critic_std": 1.5302293284071817, "train/extr_return_normed_mag": 1.740582870112525, "train/extr_return_normed_max": 1.740582870112525, "train/extr_return_normed_mean": 0.3548622309333748, "train/extr_return_normed_min": -0.14855340547445747, "train/extr_return_normed_std": 0.3331763773328728, "train/extr_return_rate": 0.66985590217842, "train/extr_return_raw_mag": 8.013403779930538, "train/extr_return_raw_max": 8.013403779930538, "train/extr_return_raw_mean": 1.474950077633063, "train/extr_return_raw_min": -0.9009897915853394, "train/extr_return_raw_std": 1.5726086811886892, "train/extr_reward_mag": 1.0276909669240315, "train/extr_reward_max": 1.0276909669240315, "train/extr_reward_mean": 0.03630983177572489, "train/extr_reward_min": -0.6853483418623606, "train/extr_reward_std": 0.18959692265424463, "train/image_loss_mean": 2.6354418413506613, "train/image_loss_std": 7.12670303384463, "train/model_loss_mean": 5.381261881854799, "train/model_loss_std": 11.13144455353419, "train/model_opt_grad_norm": 36.01879125171237, "train/model_opt_grad_steps": 106237.0, "train/model_opt_loss": 12722.405619303385, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2361.1111111111113, "train/policy_entropy_mag": 2.318985531727473, "train/policy_entropy_max": 2.318985531727473, "train/policy_entropy_mean": 0.354932960950666, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4341067766977681, "train/policy_logprob_mag": 7.438384102450477, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3555224790341324, "train/policy_logprob_min": -7.438384102450477, "train/policy_logprob_std": 0.9668303579092026, "train/policy_randomness_mag": 0.8185001272294257, "train/policy_randomness_max": 0.8185001272294257, "train/policy_randomness_mean": 0.1252757573707236, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15322064080586037, "train/post_ent_mag": 56.112555768754746, "train/post_ent_max": 56.112555768754746, "train/post_ent_mean": 40.23223532570733, "train/post_ent_min": 18.732287486394245, "train/post_ent_std": 5.968464056650798, "train/prior_ent_mag": 75.32004578908284, "train/prior_ent_max": 75.32004578908284, "train/prior_ent_mean": 44.706303437550865, "train/prior_ent_min": 25.78059352768792, "train/prior_ent_std": 7.222575134701199, "train/rep_loss_mean": 4.503088653087616, "train/rep_loss_std": 8.378554979960123, "train/reward_avg": 0.02703450488237043, "train/reward_loss_mean": 0.043824008769459195, "train/reward_loss_std": 0.18622278401421177, "train/reward_max_data": 1.0097222245401807, "train/reward_max_pred": 1.010497917731603, "train/reward_neg_acc": 0.9948857037557496, "train/reward_neg_loss": 0.02118675426916323, "train/reward_pos_acc": 0.9897273141476843, "train/reward_pos_loss": 0.7308084236250983, "train/reward_pred": 0.02681914300450848, "train/reward_rate": 0.031982421875, "stats/sum_log_reward": 5.6714284760611395, "stats/max_log_achievement_collect_drink": 6.857142857142857, "stats/max_log_achievement_collect_sapling": 2.857142857142857, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 6.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.42857142857142855, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 1.2857142857142858, "stats/max_log_achievement_place_plant": 2.2857142857142856, "stats/max_log_achievement_place_table": 2.2857142857142856, "stats/max_log_achievement_wake_up": 2.0, "stats/mean_log_entropy": 0.36595634051731657, "replay/size": 214412.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.723933778960129e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2558493120916958e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2258791923523, "timer/env.step_count": 1450.0, "timer/env.step_total": 18.46031618118286, "timer/env.step_frac": 0.06148809100282619, "timer/env.step_avg": 0.0127312525387468, "timer/env.step_min": 0.002968311309814453, "timer/env.step_max": 1.698530912399292, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.26583242416381836, "timer/replay.add_frac": 0.0008854414045815872, "timer/replay.add_avg": 0.00018333270631987474, "timer/replay.add_min": 7.510185241699219e-05, "timer/replay.add_max": 0.003302335739135742, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0281832218170166, "timer/logger.write_frac": 9.387339256973193e-05, "timer/logger.write_avg": 0.0281832218170166, "timer/logger.write_min": 0.0281832218170166, "timer/logger.write_max": 0.0281832218170166, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 10.657761812210083, "timer/agent.policy_frac": 0.03549914431387756, "timer/agent.policy_avg": 0.007350180560144885, "timer/agent.policy_min": 0.005599021911621094, "timer/agent.policy_max": 0.01720881462097168, "timer/dataset_count": 725.0, "timer/dataset_total": 0.06569790840148926, "timer/dataset_frac": 0.00021882826549871518, "timer/dataset_avg": 9.061780469170932e-05, "timer/dataset_min": 7.009506225585938e-05, "timer/dataset_max": 0.00016546249389648438, "timer/agent.train_count": 725.0, "timer/agent.train_total": 270.0481414794922, "timer/agent.train_frac": 0.8994832231183992, "timer/agent.train_avg": 0.37248019514412717, "timer/agent.train_min": 0.36644625663757324, "timer/agent.train_max": 0.38880062103271484, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22128772735595703, "timer/agent.report_frac": 0.0007370707946671704, "timer/agent.report_avg": 0.22128772735595703, "timer/agent.report_min": 0.22128772735595703, "timer/agent.report_max": 0.22128772735595703, "fps": 4.829613737101474}
{"step": 214776, "episode/length": 428.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.013986013986013986}
{"step": 214924, "episode/length": 147.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.04054054054054054}
{"step": 215112, "episode/length": 187.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.03723404255319149}
{"step": 215302, "episode/length": 189.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.03684210526315789}
{"step": 215536, "episode/length": 233.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.021367521367521368}
{"step": 215733, "episode/length": 196.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 8.900000028312206, "episode/reward_rate": 0.04060913705583756}
{"step": 215887, "episode/length": 153.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.099999994039536, "episode/reward_rate": 0.05194805194805195}
{"step": 215921, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.547141715271832, "train/action_min": 0.0, "train/action_std": 3.480611987309913, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05156947764223569, "train/actor_opt_grad_steps": 107050.0, "train/actor_opt_loss": -18.46470454539338, "train/adv_mag": 0.5540730255107357, "train/adv_max": 0.5076470289328326, "train/adv_mean": 0.0015096120859110769, "train/adv_min": -0.47966422242661044, "train/adv_std": 0.05974999871360113, "train/cont_avg": 0.9942877782534246, "train/cont_loss_mean": 9.242539850637427e-06, "train/cont_loss_std": 0.00020739110505019198, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0006479116489896264, "train/cont_pos_acc": 0.9999999795874505, "train/cont_pos_loss": 3.988211213699169e-06, "train/cont_pred": 0.994288731927741, "train/cont_rate": 0.9942877782534246, "train/dyn_loss_mean": 4.799280901477761, "train/dyn_loss_std": 8.434368283781287, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0955758323408153, "train/extr_critic_critic_opt_grad_steps": 107050.0, "train/extr_critic_critic_opt_loss": 15599.434744220891, "train/extr_critic_mag": 7.25126925559893, "train/extr_critic_max": 7.25126925559893, "train/extr_critic_mean": 1.430744658594262, "train/extr_critic_min": -0.6163107042443262, "train/extr_critic_std": 1.5109421961928067, "train/extr_return_normed_mag": 1.6776214658397517, "train/extr_return_normed_max": 1.6776214658397517, "train/extr_return_normed_mean": 0.34620431147209585, "train/extr_return_normed_min": -0.16392863327509735, "train/extr_return_normed_std": 0.3240220550804922, "train/extr_return_rate": 0.6744783112447555, "train/extr_return_raw_mag": 7.778839757997695, "train/extr_return_raw_max": 7.778839757997695, "train/extr_return_raw_mean": 1.437912496801925, "train/extr_return_raw_min": -0.9913719386270602, "train/extr_return_raw_std": 1.542998880556185, "train/extr_reward_mag": 1.0275601360895863, "train/extr_reward_max": 1.0275601360895863, "train/extr_reward_mean": 0.033216082299612974, "train/extr_reward_min": -0.6706911815355902, "train/extr_reward_std": 0.18191319071266748, "train/image_loss_mean": 2.723002938375081, "train/image_loss_std": 7.444616376537166, "train/model_loss_mean": 5.646785037158287, "train/model_loss_std": 11.459453700339957, "train/model_opt_grad_norm": 37.07347992674945, "train/model_opt_grad_steps": 106961.28767123287, "train/model_opt_loss": 9054.618157373716, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1609.5890410958905, "train/policy_entropy_mag": 2.3082677142260826, "train/policy_entropy_max": 2.3082677142260826, "train/policy_entropy_mean": 0.3568204061625755, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.43291340584624305, "train/policy_logprob_mag": 7.438384160603563, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.35709439973308615, "train/policy_logprob_min": -7.438384160603563, "train/policy_logprob_std": 0.9690859374934679, "train/policy_randomness_mag": 0.8147172078694382, "train/policy_randomness_max": 0.8147172078694382, "train/policy_randomness_mean": 0.12594194404066425, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15279943434751198, "train/post_ent_mag": 55.270126238261184, "train/post_ent_max": 55.270126238261184, "train/post_ent_mean": 39.82565443483117, "train/post_ent_min": 18.695005756534943, "train/post_ent_std": 5.886076796544741, "train/prior_ent_mag": 75.44095005401194, "train/prior_ent_max": 75.44095005401194, "train/prior_ent_mean": 44.566514838231754, "train/prior_ent_min": 25.748105297349905, "train/prior_ent_std": 7.320717667880124, "train/rep_loss_mean": 4.799280901477761, "train/rep_loss_std": 8.434368283781287, "train/reward_avg": 0.02523410720878268, "train/reward_loss_mean": 0.044204316012663385, "train/reward_loss_std": 0.19533438398821712, "train/reward_max_data": 1.0178082234238925, "train/reward_max_pred": 1.018311134756428, "train/reward_neg_acc": 0.9948544102172329, "train/reward_neg_loss": 0.022216355045364327, "train/reward_pos_acc": 0.984402062958234, "train/reward_pos_loss": 0.7429836580198105, "train/reward_pred": 0.025029296029920448, "train/reward_rate": 0.030500856164383562, "stats/sum_log_reward": 5.6714284760611395, "stats/max_log_achievement_collect_drink": 9.714285714285714, "stats/max_log_achievement_collect_sapling": 2.7142857142857144, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 5.857142857142857, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.14285714285714285, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_plant": 1.7142857142857142, "stats/max_log_achievement_place_table": 1.7142857142857142, "stats/max_log_achievement_wake_up": 2.7142857142857144, "stats/mean_log_entropy": 0.38075814715453554, "replay/size": 215858.0, "replay/inserts": 1446.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.8249199156279715e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2925263097507166e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3533205986023, "timer/env.step_count": 1446.0, "timer/env.step_total": 18.73546290397644, "timer/env.step_frac": 0.06237807814688641, "timer/env.step_avg": 0.012956751662500996, "timer/env.step_min": 0.002958536148071289, "timer/env.step_max": 1.6731665134429932, "timer/replay.add_count": 1446.0, "timer/replay.add_total": 0.26593875885009766, "timer/replay.add_frac": 0.0008854197393925374, "timer/replay.add_avg": 0.00018391338786313808, "timer/replay.add_min": 6.413459777832031e-05, "timer/replay.add_max": 0.0012805461883544922, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03074955940246582, "timer/logger.write_frac": 0.00010237795720447551, "timer/logger.write_avg": 0.03074955940246582, "timer/logger.write_min": 0.03074955940246582, "timer/logger.write_max": 0.03074955940246582, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1446.0, "timer/agent.policy_total": 10.713413953781128, "timer/agent.policy_frac": 0.035669370767832234, "timer/agent.policy_avg": 0.007408999968036741, "timer/agent.policy_min": 0.005728244781494141, "timer/agent.policy_max": 0.02371358871459961, "timer/dataset_count": 723.0, "timer/dataset_total": 0.06549596786499023, "timer/dataset_frac": 0.0002180630722991748, "timer/dataset_avg": 9.05891671714941e-05, "timer/dataset_min": 6.508827209472656e-05, "timer/dataset_max": 0.00015807151794433594, "timer/agent.train_count": 723.0, "timer/agent.train_total": 269.83835649490356, "timer/agent.train_frac": 0.8984031072375608, "timer/agent.train_avg": 0.3732204100897698, "timer/agent.train_min": 0.36353278160095215, "timer/agent.train_max": 0.40870022773742676, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22083163261413574, "timer/agent.report_frac": 0.0007352395244840965, "timer/agent.report_avg": 0.22083163261413574, "timer/agent.report_min": 0.22083163261413574, "timer/agent.report_max": 0.22083163261413574, "fps": 4.8142660745022985}
{"step": 216000, "episode/length": 112.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.04424778761061947}
{"step": 216190, "episode/length": 189.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.042105263157894736}
{"step": 216400, "episode/length": 209.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.900000028312206, "episode/reward_rate": 0.02857142857142857}
{"step": 216671, "episode/length": 270.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.025830258302583026}
{"step": 216855, "episode/length": 183.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.03804347826086957}
{"step": 217017, "episode/length": 161.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.030864197530864196}
{"step": 217268, "episode/length": 250.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.0199203187250996}
{"step": 217345, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.481367943992077, "train/action_min": 0.0, "train/action_std": 3.4303871208513286, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.048393766540037075, "train/actor_opt_grad_steps": 107770.0, "train/actor_opt_loss": -16.40960106904238, "train/adv_mag": 0.5669102954192901, "train/adv_max": 0.5232563988423683, "train/adv_mean": 0.0017295554361174857, "train/adv_min": -0.4640209901500756, "train/adv_std": 0.056777159198069235, "train/cont_avg": 0.9941681338028169, "train/cont_loss_mean": 1.5802468938955557e-05, "train/cont_loss_std": 0.00038964339656674164, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0004172171240087933, "train/cont_pos_acc": 0.9999999840494612, "train/cont_pos_loss": 1.3386878108844844e-05, "train/cont_pred": 0.9941584022951798, "train/cont_rate": 0.9941681338028169, "train/dyn_loss_mean": 4.6083238225587655, "train/dyn_loss_std": 8.56662458097431, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0272989373811534, "train/extr_critic_critic_opt_grad_steps": 107770.0, "train/extr_critic_critic_opt_loss": 15142.75693221831, "train/extr_critic_mag": 7.323382491796789, "train/extr_critic_max": 7.323382491796789, "train/extr_critic_mean": 1.4487282381930822, "train/extr_critic_min": -0.60149265846736, "train/extr_critic_std": 1.5637601227827476, "train/extr_return_normed_mag": 1.667080409090284, "train/extr_return_normed_max": 1.667080409090284, "train/extr_return_normed_mean": 0.34622390484306176, "train/extr_return_normed_min": -0.15064915091219083, "train/extr_return_normed_std": 0.33115887599931637, "train/extr_return_rate": 0.6480258216320629, "train/extr_return_raw_mag": 7.814823661052006, "train/extr_return_raw_max": 7.814823661052006, "train/extr_return_raw_mean": 1.4570661833588505, "train/extr_return_raw_min": -0.9341095257812823, "train/extr_return_raw_std": 1.5938016176223755, "train/extr_reward_mag": 1.0279474627803749, "train/extr_reward_max": 1.0279474627803749, "train/extr_reward_mean": 0.03407555784452969, "train/extr_reward_min": -0.6730088448860276, "train/extr_reward_std": 0.18498587587349852, "train/image_loss_mean": 2.7654385415601057, "train/image_loss_std": 7.6715780379067, "train/model_loss_mean": 5.5749402113363775, "train/model_loss_std": 11.779999504626637, "train/model_opt_grad_norm": 36.177330849875865, "train/model_opt_grad_steps": 107681.0, "train/model_opt_loss": 9073.61952574824, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1654.9295774647887, "train/policy_entropy_mag": 2.304941775093616, "train/policy_entropy_max": 2.304941775093616, "train/policy_entropy_mean": 0.36501986334021663, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4492670780336353, "train/policy_logprob_mag": 7.438384136683505, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36561051137010814, "train/policy_logprob_min": -7.438384136683505, "train/policy_logprob_std": 0.9779479520421632, "train/policy_randomness_mag": 0.8135432987145974, "train/policy_randomness_max": 0.8135432987145974, "train/policy_randomness_mean": 0.1288359919694108, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15857156439566275, "train/post_ent_mag": 55.386246211092235, "train/post_ent_max": 55.386246211092235, "train/post_ent_mean": 40.02720249874491, "train/post_ent_min": 18.938073185128225, "train/post_ent_std": 5.899021155397657, "train/prior_ent_mag": 75.50246107074577, "train/prior_ent_max": 75.50246107074577, "train/prior_ent_mean": 44.53238291135976, "train/prior_ent_min": 25.641226943110077, "train/prior_ent_std": 7.401688488436417, "train/rep_loss_mean": 4.6083238225587655, "train/rep_loss_std": 8.56662458097431, "train/reward_avg": 0.026455215755587732, "train/reward_loss_mean": 0.044491613546097784, "train/reward_loss_std": 0.19497112132294078, "train/reward_max_data": 1.0098591572801832, "train/reward_max_pred": 1.0120357694760176, "train/reward_neg_acc": 0.9954244721103722, "train/reward_neg_loss": 0.02226695447215732, "train/reward_pos_acc": 0.9888238050568272, "train/reward_pos_loss": 0.7247730149349696, "train/reward_pred": 0.026325302854390213, "train/reward_rate": 0.03163512323943662, "stats/sum_log_reward": 5.242856979370117, "stats/max_log_achievement_collect_drink": 7.0, "stats/max_log_achievement_collect_sapling": 2.4285714285714284, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 7.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.14285714285714285, "stats/max_log_achievement_make_wood_sword": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.7142857142857142, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.7142857142857142, "stats/mean_log_entropy": 0.3948003223964146, "replay/size": 217282.0, "replay/inserts": 1424.0, "replay/samples": 11392.0, "replay/insert_wait_avg": 3.814864694402459e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2689636329586586e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1415777206421, "timer/env.step_count": 1424.0, "timer/env.step_total": 18.628249645233154, "timer/env.step_frac": 0.06206487547210626, "timer/env.step_avg": 0.013081635986821036, "timer/env.step_min": 0.0030395984649658203, "timer/env.step_max": 1.6683461666107178, "timer/replay.add_count": 1424.0, "timer/replay.add_total": 0.2897028923034668, "timer/replay.add_frac": 0.0009652207951445796, "timer/replay.add_avg": 0.00020344304234794016, "timer/replay.add_min": 7.414817810058594e-05, "timer/replay.add_max": 0.002871274948120117, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02616286277770996, "timer/logger.write_frac": 8.716840557845385e-05, "timer/logger.write_avg": 0.02616286277770996, "timer/logger.write_min": 0.02616286277770996, "timer/logger.write_max": 0.02616286277770996, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00014710426330566406, "timer/checkpoint.save_frac": 4.901162458824079e-07, "timer/checkpoint.save_avg": 0.00014710426330566406, "timer/checkpoint.save_min": 0.00014710426330566406, "timer/checkpoint.save_max": 0.00014710426330566406, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3450288772583008, "timer/agent.save_frac": 0.004481314743104974, "timer/agent.save_avg": 1.3450288772583008, "timer/agent.save_min": 1.3450288772583008, "timer/agent.save_max": 1.3450288772583008, "timer/replay.save_count": 1.0, "timer/replay.save_total": 5.984306335449219e-05, "timer/replay.save_frac": 1.9938278398133612e-07, "timer/replay.save_avg": 5.984306335449219e-05, "timer/replay.save_min": 5.984306335449219e-05, "timer/replay.save_max": 5.984306335449219e-05, "timer/agent.policy_count": 1424.0, "timer/agent.policy_total": 14.9232497215271, "timer/agent.policy_frac": 0.04972070125991332, "timer/agent.policy_avg": 0.010479810197701615, "timer/agent.policy_min": 0.00569462776184082, "timer/agent.policy_max": 3.1360175609588623, "timer/dataset_count": 712.0, "timer/dataset_total": 0.06523799896240234, "timer/dataset_frac": 0.00021735741998105593, "timer/dataset_avg": 9.162640303708195e-05, "timer/dataset_min": 7.081031799316406e-05, "timer/dataset_max": 0.0001800060272216797, "timer/agent.train_count": 712.0, "timer/agent.train_total": 265.5141689777374, "timer/agent.train_frac": 0.8846297503802214, "timer/agent.train_avg": 0.3729131586765975, "timer/agent.train_min": 0.3663475513458252, "timer/agent.train_max": 0.4157991409301758, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21825432777404785, "timer/agent.report_frac": 0.000727171255084122, "timer/agent.report_avg": 0.21825432777404785, "timer/agent.report_min": 0.21825432777404785, "timer/agent.report_max": 0.21825432777404785, "fps": 4.744323577306856}
{"step": 217452, "episode/length": 183.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.03804347826086957}
{"step": 217496, "episode/length": 43.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 4.899999991059303, "episode/reward_rate": 0.11363636363636363}
{"step": 217682, "episode/length": 185.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.30000001937151, "episode/reward_rate": 0.03763440860215054}
{"step": 217943, "episode/length": 260.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.03065134099616858}
{"step": 218103, "episode/length": 159.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.04375}
{"step": 218342, "episode/length": 238.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 5.0999999940395355, "episode/reward_rate": 0.02092050209205021}
{"step": 218490, "episode/length": 147.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.033783783783783786}
{"step": 218680, "episode/length": 189.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.5, "episode/reward_rate": 0.042105263157894736}
{"step": 218787, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.569730970594618, "train/action_min": 0.0, "train/action_std": 3.551910208331214, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04893511383690768, "train/actor_opt_grad_steps": 108485.0, "train/actor_opt_loss": -16.927057654286426, "train/adv_mag": 0.5646134846740298, "train/adv_max": 0.5326590865022607, "train/adv_mean": 0.0021733411629662035, "train/adv_min": -0.4618109021749761, "train/adv_std": 0.05727700935676694, "train/cont_avg": 0.994140625, "train/cont_loss_mean": 6.514567021337964e-05, "train/cont_loss_std": 0.0020038828435531286, "train/cont_neg_acc": 0.9976851857370801, "train/cont_neg_loss": 0.009456944718219043, "train/cont_pos_acc": 0.9999999784761004, "train/cont_pos_loss": 8.981707672914593e-06, "train/cont_pred": 0.99415097054508, "train/cont_rate": 0.994140625, "train/dyn_loss_mean": 4.448465191655689, "train/dyn_loss_std": 8.41196557548311, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.013806872897678, "train/extr_critic_critic_opt_grad_steps": 108485.0, "train/extr_critic_critic_opt_loss": 15265.37590874566, "train/extr_critic_mag": 7.169552955362532, "train/extr_critic_max": 7.169552955362532, "train/extr_critic_mean": 1.421619830860032, "train/extr_critic_min": -0.5939912878804736, "train/extr_critic_std": 1.5320135205984116, "train/extr_return_normed_mag": 1.636504704753558, "train/extr_return_normed_max": 1.636504704753558, "train/extr_return_normed_mean": 0.3375948512305816, "train/extr_return_normed_min": -0.14052022424423033, "train/extr_return_normed_std": 0.32168056236373055, "train/extr_return_rate": 0.6519667270282904, "train/extr_return_raw_mag": 7.74542870786455, "train/extr_return_raw_max": 7.74542870786455, "train/extr_return_raw_mean": 1.4321998713745012, "train/extr_return_raw_min": -0.8925409822000397, "train/extr_return_raw_std": 1.564235453804334, "train/extr_reward_mag": 1.0303592549429998, "train/extr_reward_max": 1.0303592549429998, "train/extr_reward_mean": 0.034781019332715206, "train/extr_reward_min": -0.6679098722007539, "train/extr_reward_std": 0.18633455824520853, "train/image_loss_mean": 2.6363887886206308, "train/image_loss_std": 7.1905180513858795, "train/model_loss_mean": 5.350316991408666, "train/model_loss_std": 11.189280364248487, "train/model_opt_grad_norm": 33.92975878715515, "train/model_opt_grad_steps": 108396.0, "train/model_opt_loss": 13375.792534722223, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.275665627585517, "train/policy_entropy_max": 2.275665627585517, "train/policy_entropy_mean": 0.36765723923842114, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4509508146180047, "train/policy_logprob_mag": 7.438384082582262, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3669265980521838, "train/policy_logprob_min": -7.438384082582262, "train/policy_logprob_std": 0.9734877579742007, "train/policy_randomness_mag": 0.8032100962267982, "train/policy_randomness_max": 0.8032100962267982, "train/policy_randomness_mean": 0.12976687132484382, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15916584763262007, "train/post_ent_mag": 55.614173412323, "train/post_ent_max": 55.614173412323, "train/post_ent_mean": 40.294743590884735, "train/post_ent_min": 19.045801666047836, "train/post_ent_std": 5.9614787167972985, "train/prior_ent_mag": 75.41710811191135, "train/prior_ent_max": 75.41710811191135, "train/prior_ent_mean": 44.70255623923408, "train/prior_ent_min": 25.915264129638672, "train/prior_ent_std": 7.360544006029765, "train/rep_loss_mean": 4.448465191655689, "train/rep_loss_std": 8.41196557548311, "train/reward_avg": 0.025827365448801883, "train/reward_loss_mean": 0.04478398832078609, "train/reward_loss_std": 0.19214415715800393, "train/reward_max_data": 1.0125000029802322, "train/reward_max_pred": 1.0130779710080888, "train/reward_neg_acc": 0.9950030023852984, "train/reward_neg_loss": 0.02258741202402032, "train/reward_pos_acc": 0.9861210832993189, "train/reward_pos_loss": 0.7376119560665555, "train/reward_pred": 0.02561860519926995, "train/reward_rate": 0.0311279296875, "stats/sum_log_reward": 5.224999964237213, "stats/max_log_achievement_collect_drink": 5.0, "stats/max_log_achievement_collect_sapling": 1.875, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 6.75, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.125, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 1.125, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_table": 2.375, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.3641904406249523, "replay/size": 218724.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.7140059239656022e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2630025821320722e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0365993976593, "timer/env.step_count": 1442.0, "timer/env.step_total": 19.923884868621826, "timer/env.step_frac": 0.06640484830390748, "timer/env.step_avg": 0.013816841101679491, "timer/env.step_min": 0.002916097640991211, "timer/env.step_max": 1.6859028339385986, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.26271700859069824, "timer/replay.add_frac": 0.0008756165385093609, "timer/replay.add_avg": 0.00018218932634583789, "timer/replay.add_min": 7.009506225585938e-05, "timer/replay.add_max": 0.0023288726806640625, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028611421585083008, "timer/logger.write_frac": 9.535977158294048e-05, "timer/logger.write_avg": 0.028611421585083008, "timer/logger.write_min": 0.028611421585083008, "timer/logger.write_max": 0.028611421585083008, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 10.588588237762451, "timer/agent.policy_frac": 0.03529098869611124, "timer/agent.policy_avg": 0.00734298768222084, "timer/agent.policy_min": 0.0056874752044677734, "timer/agent.policy_max": 0.016896963119506836, "timer/dataset_count": 721.0, "timer/dataset_total": 0.06534910202026367, "timer/dataset_frac": 0.00021780376844510218, "timer/dataset_avg": 9.063675730965835e-05, "timer/dataset_min": 6.771087646484375e-05, "timer/dataset_max": 0.00016546249389648438, "timer/agent.train_count": 721.0, "timer/agent.train_total": 268.46525526046753, "timer/agent.train_frac": 0.8947750234452295, "timer/agent.train_avg": 0.37235125556236826, "timer/agent.train_min": 0.3644087314605713, "timer/agent.train_max": 0.39166855812072754, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22360754013061523, "timer/agent.report_frac": 0.0007452675459577938, "timer/agent.report_avg": 0.22360754013061523, "timer/agent.report_min": 0.22360754013061523, "timer/agent.report_max": 0.22360754013061523, "fps": 4.80601259292086}
{"step": 218838, "episode/length": 157.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.05063291139240506}
{"step": 219015, "episode/length": 176.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 6.1000000312924385, "episode/reward_rate": 0.022598870056497175}
{"step": 219200, "episode/length": 184.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.043243243243243246}
{"step": 219389, "episode/length": 188.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.031746031746031744}
{"step": 219624, "episode/length": 234.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.03829787234042553}
{"step": 219761, "episode/length": 136.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.051094890510948905}
{"step": 219929, "episode/length": 167.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.047619047619047616}
{"step": 220081, "episode/length": 151.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.900000028312206, "episode/reward_rate": 0.046052631578947366}
{"step": 220229, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.604966905381945, "train/action_min": 0.0, "train/action_std": 3.6261725061469607, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05165614617160625, "train/actor_opt_grad_steps": 109205.0, "train/actor_opt_loss": -17.23502581483788, "train/adv_mag": 0.5558151764174303, "train/adv_max": 0.49206019813815755, "train/adv_mean": 0.002024169924172586, "train/adv_min": -0.4667024372352494, "train/adv_std": 0.05877068799196018, "train/cont_avg": 0.9942220052083334, "train/cont_loss_mean": 2.6045308485736188e-05, "train/cont_loss_std": 0.000802734411362533, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0021779206953043387, "train/cont_pos_acc": 0.999999976820416, "train/cont_pos_loss": 1.3955681152218643e-05, "train/cont_pred": 0.9942207874523269, "train/cont_rate": 0.9942220052083334, "train/dyn_loss_mean": 4.673100875483619, "train/dyn_loss_std": 8.614964505036673, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0122103840112686, "train/extr_critic_critic_opt_grad_steps": 109205.0, "train/extr_critic_critic_opt_loss": 15495.013414171008, "train/extr_critic_mag": 7.047603382004632, "train/extr_critic_max": 7.047603382004632, "train/extr_critic_mean": 1.3901419498854213, "train/extr_critic_min": -0.5936476671033435, "train/extr_critic_std": 1.5318452550305262, "train/extr_return_normed_mag": 1.6434602157937155, "train/extr_return_normed_max": 1.6434602157937155, "train/extr_return_normed_mean": 0.33507732301950455, "train/extr_return_normed_min": -0.15282931323680612, "train/extr_return_normed_std": 0.3249809325983127, "train/extr_return_rate": 0.6360333818528388, "train/extr_return_raw_mag": 7.695799602402581, "train/extr_return_raw_max": 7.695799602402581, "train/extr_return_raw_mean": 1.399936757153935, "train/extr_return_raw_min": -0.9474357755647765, "train/extr_return_raw_std": 1.5637207180261612, "train/extr_reward_mag": 1.0263793104224734, "train/extr_reward_max": 1.0263793104224734, "train/extr_reward_mean": 0.03550605760473344, "train/extr_reward_min": -0.6715312931272719, "train/extr_reward_std": 0.18810173703564537, "train/image_loss_mean": 2.7482229123512902, "train/image_loss_std": 7.8804530832502575, "train/model_loss_mean": 5.59770221180386, "train/model_loss_std": 11.991064733929104, "train/model_opt_grad_norm": 40.16391566101934, "train/model_opt_grad_steps": 109115.08333333333, "train/model_opt_loss": 14359.681871202258, "train/model_opt_model_opt_grad_overflow": 0.013888888888888888, "train/model_opt_model_opt_grad_scale": 2534.722222222222, "train/policy_entropy_mag": 2.254468116495344, "train/policy_entropy_max": 2.254468116495344, "train/policy_entropy_mean": 0.3661532795263661, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4448818200164371, "train/policy_logprob_mag": 7.438384089205, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3663289087514083, "train/policy_logprob_min": -7.438384089205, "train/policy_logprob_std": 0.9748259973194864, "train/policy_randomness_mag": 0.7957283101148076, "train/policy_randomness_max": 0.7957283101148076, "train/policy_randomness_mean": 0.12923604022297594, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15702375728223059, "train/post_ent_mag": 55.3325965139601, "train/post_ent_max": 55.3325965139601, "train/post_ent_mean": 40.11668957604302, "train/post_ent_min": 18.899259183141922, "train/post_ent_std": 5.887973374790615, "train/prior_ent_mag": 75.53081692589654, "train/prior_ent_max": 75.53081692589654, "train/prior_ent_mean": 44.72080495622423, "train/prior_ent_min": 25.83315086364746, "train/prior_ent_std": 7.263103432125515, "train/rep_loss_mean": 4.673100875483619, "train/rep_loss_std": 8.614964505036673, "train/reward_avg": 0.02673068557245036, "train/reward_loss_mean": 0.04559275062961711, "train/reward_loss_std": 0.19815069561203322, "train/reward_max_data": 1.0166666706403096, "train/reward_max_pred": 1.0150283144579992, "train/reward_neg_acc": 0.9950576449433962, "train/reward_neg_loss": 0.022879617987200618, "train/reward_pos_acc": 0.9872803654935625, "train/reward_pos_loss": 0.73439831369453, "train/reward_pred": 0.026423991062781878, "train/reward_rate": 0.031914605034722224, "stats/sum_log_reward": 5.849999934434891, "stats/max_log_achievement_collect_drink": 9.0, "stats/max_log_achievement_collect_sapling": 1.875, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 6.125, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 0.125, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 0.125, "stats/max_log_achievement_make_wood_sword": 1.25, "stats/max_log_achievement_place_plant": 1.375, "stats/max_log_achievement_place_table": 2.125, "stats/max_log_achievement_wake_up": 1.75, "stats/mean_log_entropy": 0.3900090306997299, "replay/size": 220166.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.7631115536418603e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.254239624647757e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.14036083221436, "timer/env.step_count": 1442.0, "timer/env.step_total": 19.98527479171753, "timer/env.step_frac": 0.06658642888381738, "timer/env.step_avg": 0.013859413863881781, "timer/env.step_min": 0.0028443336486816406, "timer/env.step_max": 1.6643035411834717, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.27553343772888184, "timer/replay.add_frac": 0.0009180152811334548, "timer/replay.add_avg": 0.00019107727997842014, "timer/replay.add_min": 7.2479248046875e-05, "timer/replay.add_max": 0.002122163772583008, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026674747467041016, "timer/logger.write_frac": 8.887424334760775e-05, "timer/logger.write_avg": 0.026674747467041016, "timer/logger.write_min": 0.026674747467041016, "timer/logger.write_max": 0.026674747467041016, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 10.596398115158081, "timer/agent.policy_frac": 0.035304809009281235, "timer/agent.policy_avg": 0.007348403685962609, "timer/agent.policy_min": 0.0056650638580322266, "timer/agent.policy_max": 0.015900135040283203, "timer/dataset_count": 721.0, "timer/dataset_total": 0.06570196151733398, "timer/dataset_frac": 0.00021890411984299224, "timer/dataset_avg": 9.112616021821635e-05, "timer/dataset_min": 6.794929504394531e-05, "timer/dataset_max": 0.00017642974853515625, "timer/agent.train_count": 721.0, "timer/agent.train_total": 268.4857099056244, "timer/agent.train_frac": 0.8945338413040501, "timer/agent.train_avg": 0.37237962538921554, "timer/agent.train_min": 0.36632847785949707, "timer/agent.train_max": 0.3865809440612793, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2247910499572754, "timer/agent.report_frac": 0.00074895308759537, "timer/agent.report_avg": 0.2247910499572754, "timer/agent.report_min": 0.2247910499572754, "timer/agent.report_max": 0.2247910499572754, "fps": 4.804318723216401}
{"step": 220300, "episode/length": 218.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.0365296803652968}
{"step": 220464, "episode/length": 163.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.04878048780487805}
{"step": 220658, "episode/length": 193.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.700000025331974, "episode/reward_rate": 0.02577319587628866}
{"step": 220827, "episode/length": 168.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.03550295857988166}
{"step": 221027, "episode/length": 199.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.035}
{"step": 221231, "episode/length": 203.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.700000025331974, "episode/reward_rate": 0.029411764705882353}
{"step": 221421, "episode/length": 189.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.299999997019768, "episode/reward_rate": 0.05263157894736842}
{"step": 221619, "episode/length": 197.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.299999997019768, "episode/reward_rate": 0.04040404040404041}
{"step": 221645, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.598550286091549, "train/action_min": 0.0, "train/action_std": 3.5163527475276464, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.050834840819449494, "train/actor_opt_grad_steps": 109920.0, "train/actor_opt_loss": -17.56400706062854, "train/adv_mag": 0.5223400974777382, "train/adv_max": 0.4666094717005609, "train/adv_mean": 0.002272035139444789, "train/adv_min": -0.4608310822030188, "train/adv_std": 0.05869024724397861, "train/cont_avg": 0.9941956426056338, "train/cont_loss_mean": 1.4756313746834423e-05, "train/cont_loss_std": 0.0003737809066449981, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0010035992678803921, "train/cont_pos_acc": 0.999999978172947, "train/cont_pos_loss": 9.361075925985748e-06, "train/cont_pred": 0.9941922694864408, "train/cont_rate": 0.9941956426056338, "train/dyn_loss_mean": 4.648105634769923, "train/dyn_loss_std": 8.558684584120629, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.03902517070233, "train/extr_critic_critic_opt_grad_steps": 109920.0, "train/extr_critic_critic_opt_loss": 15584.512571522888, "train/extr_critic_mag": 7.013502960473719, "train/extr_critic_max": 7.013502960473719, "train/extr_critic_mean": 1.3384769584091616, "train/extr_critic_min": -0.6179898356048155, "train/extr_critic_std": 1.4994016298106019, "train/extr_return_normed_mag": 1.635595351877347, "train/extr_return_normed_max": 1.635595351877347, "train/extr_return_normed_mean": 0.3280607589953382, "train/extr_return_normed_min": -0.15723946973891326, "train/extr_return_normed_std": 0.31959531025987276, "train/extr_return_rate": 0.6195221140351094, "train/extr_return_raw_mag": 7.607925173262475, "train/extr_return_raw_max": 7.607925173262475, "train/extr_return_raw_mean": 1.3494058587181736, "train/extr_return_raw_min": -0.9752072935373011, "train/extr_return_raw_std": 1.5307949277716624, "train/extr_reward_mag": 1.025771355964768, "train/extr_reward_max": 1.025771355964768, "train/extr_reward_mean": 0.035877169542749165, "train/extr_reward_min": -0.6773965996755681, "train/extr_reward_std": 0.1894130866292497, "train/image_loss_mean": 2.7972665622200763, "train/image_loss_std": 7.883131342874447, "train/model_loss_mean": 5.631111668868804, "train/model_loss_std": 11.96717168243838, "train/model_opt_grad_norm": 35.16895672972773, "train/model_opt_grad_steps": 109829.49295774648, "train/model_opt_loss": 14077.779145576584, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.270501714357188, "train/policy_entropy_max": 2.270501714357188, "train/policy_entropy_mean": 0.36612621579371707, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4471834117258099, "train/policy_logprob_mag": 7.438384062807325, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36635712460732794, "train/policy_logprob_min": -7.438384062807325, "train/policy_logprob_std": 0.9745781774252233, "train/policy_randomness_mag": 0.8013874686939616, "train/policy_randomness_max": 0.8013874686939616, "train/policy_randomness_mean": 0.1292264887564619, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15783611863431796, "train/post_ent_mag": 55.36878800727952, "train/post_ent_max": 55.36878800727952, "train/post_ent_mean": 40.1778146985551, "train/post_ent_min": 18.798827171325684, "train/post_ent_std": 5.933860113922979, "train/prior_ent_mag": 75.63763922033175, "train/prior_ent_max": 75.63763922033175, "train/prior_ent_mean": 44.762414099464955, "train/prior_ent_min": 25.687011047148367, "train/prior_ent_std": 7.328755136946557, "train/rep_loss_mean": 4.648105634769923, "train/rep_loss_std": 8.558684584120629, "train/reward_avg": 0.027144310799178104, "train/reward_loss_mean": 0.044966969586594005, "train/reward_loss_std": 0.19754317486789866, "train/reward_max_data": 1.0098591572801832, "train/reward_max_pred": 1.0114544965851475, "train/reward_neg_acc": 0.9955288154978148, "train/reward_neg_loss": 0.021828440070467095, "train/reward_pos_acc": 0.9868259387956538, "train/reward_pos_loss": 0.7359822845794786, "train/reward_pred": 0.02681558225041544, "train/reward_rate": 0.03233659771126761, "stats/sum_log_reward": 5.975000083446503, "stats/max_log_achievement_collect_drink": 5.375, "stats/max_log_achievement_collect_sapling": 3.25, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 6.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.375, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_plant": 2.25, "stats/max_log_achievement_place_table": 2.25, "stats/max_log_achievement_wake_up": 1.625, "stats/mean_log_entropy": 0.36064719781279564, "replay/size": 221582.0, "replay/inserts": 1416.0, "replay/samples": 11328.0, "replay/insert_wait_avg": 3.7614908595543122e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2436366013887912e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.26267099380493, "timer/env.step_count": 1416.0, "timer/env.step_total": 23.089139461517334, "timer/env.step_frac": 0.07689646996443894, "timer/env.step_avg": 0.016305889450224105, "timer/env.step_min": 0.002822399139404297, "timer/env.step_max": 2.6583635807037354, "timer/replay.add_count": 1416.0, "timer/replay.add_total": 0.27646613121032715, "timer/replay.add_frac": 0.0009207475917511946, "timer/replay.add_avg": 0.0001952444429451463, "timer/replay.add_min": 7.534027099609375e-05, "timer/replay.add_max": 0.004968404769897461, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0273590087890625, "timer/logger.write_frac": 9.11169167266449e-05, "timer/logger.write_avg": 0.0273590087890625, "timer/logger.write_min": 0.0273590087890625, "timer/logger.write_max": 0.0273590087890625, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003447532653808594, "timer/checkpoint.save_frac": 1.1481722461197063e-06, "timer/checkpoint.save_avg": 0.0003447532653808594, "timer/checkpoint.save_min": 0.0003447532653808594, "timer/checkpoint.save_max": 0.0003447532653808594, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4380946159362793, "timer/agent.save_frac": 0.004789455216582518, "timer/agent.save_avg": 1.4380946159362793, "timer/agent.save_min": 1.4380946159362793, "timer/agent.save_max": 1.4380946159362793, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.726119995117188e-05, "timer/replay.save_frac": 2.906162116734526e-07, "timer/replay.save_avg": 8.726119995117188e-05, "timer/replay.save_min": 8.726119995117188e-05, "timer/replay.save_max": 8.726119995117188e-05, "timer/agent.policy_count": 1416.0, "timer/agent.policy_total": 11.608473539352417, "timer/agent.policy_frac": 0.03866106133316827, "timer/agent.policy_avg": 0.008198074533440972, "timer/agent.policy_min": 0.0056569576263427734, "timer/agent.policy_max": 1.4270720481872559, "timer/dataset_count": 708.0, "timer/dataset_total": 0.06339001655578613, "timer/dataset_frac": 0.0002111152090467283, "timer/dataset_avg": 8.953392168896347e-05, "timer/dataset_min": 6.794929504394531e-05, "timer/dataset_max": 0.0002110004425048828, "timer/agent.train_count": 708.0, "timer/agent.train_total": 264.51795840263367, "timer/agent.train_frac": 0.8809551900911827, "timer/agent.train_avg": 0.3736129355969402, "timer/agent.train_min": 0.36241745948791504, "timer/agent.train_max": 0.9490237236022949, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21945738792419434, "timer/agent.report_frac": 0.000730884685724794, "timer/agent.report_avg": 0.21945738792419434, "timer/agent.report_min": 0.21945738792419434, "timer/agent.report_max": 0.21945738792419434, "fps": 4.715814221818565}
{"step": 221779, "episode/length": 159.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.0375}
{"step": 222013, "episode/length": 233.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.500000022351742, "episode/reward_rate": 0.017094017094017096}
{"step": 222169, "episode/length": 155.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.05128205128205128}
{"step": 222345, "episode/length": 175.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03409090909090909}
{"step": 222505, "episode/length": 159.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.04375}
{"step": 222687, "episode/length": 181.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.038461538461538464}
{"step": 222740, "episode/length": 52.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 4.900000013411045, "episode/reward_rate": 0.07547169811320754}
{"step": 223007, "episode/length": 266.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.0299625468164794}
{"step": 223089, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.699975755479601, "train/action_min": 0.0, "train/action_std": 3.5279637773831687, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04934041238286429, "train/actor_opt_grad_steps": 110635.0, "train/actor_opt_loss": -15.864016216662195, "train/adv_mag": 0.5409723379545741, "train/adv_max": 0.5237811725172732, "train/adv_mean": 0.0025197673063909556, "train/adv_min": -0.4238263178202841, "train/adv_std": 0.057465057923562, "train/cont_avg": 0.9940185546875, "train/cont_loss_mean": 4.958956637087416e-05, "train/cont_loss_std": 0.0015238693597415438, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0002432957627434007, "train/cont_pos_acc": 0.9999862983822823, "train/cont_pos_loss": 4.853448182965773e-05, "train/cont_pred": 0.9940047429667579, "train/cont_rate": 0.9940185546875, "train/dyn_loss_mean": 4.521842310825984, "train/dyn_loss_std": 8.470078719986809, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.024798325366444, "train/extr_critic_critic_opt_grad_steps": 110635.0, "train/extr_critic_critic_opt_loss": 15393.153103298611, "train/extr_critic_mag": 7.005920363797082, "train/extr_critic_max": 7.005920363797082, "train/extr_critic_mean": 1.3696276909775205, "train/extr_critic_min": -0.6064027183585696, "train/extr_critic_std": 1.5372915748092864, "train/extr_return_normed_mag": 1.621326156788402, "train/extr_return_normed_max": 1.621326156788402, "train/extr_return_normed_mean": 0.3335088125119607, "train/extr_return_normed_min": -0.14494167423496643, "train/extr_return_normed_std": 0.3234691392216418, "train/extr_return_rate": 0.6128834245933427, "train/extr_return_raw_mag": 7.637318717108832, "train/extr_return_raw_max": 7.637318717108832, "train/extr_return_raw_mean": 1.3818445172574785, "train/extr_return_raw_min": -0.9420120219389597, "train/extr_return_raw_std": 1.5713256696859996, "train/extr_reward_mag": 1.0221120715141296, "train/extr_reward_max": 1.0221120715141296, "train/extr_reward_mean": 0.03565962749740316, "train/extr_reward_min": -0.6699274943934547, "train/extr_reward_std": 0.1883939899918106, "train/image_loss_mean": 2.6660546312729516, "train/image_loss_std": 7.152371413177914, "train/model_loss_mean": 5.4235343138376875, "train/model_loss_std": 11.183288852373758, "train/model_opt_grad_norm": 37.27139478259616, "train/model_opt_grad_steps": 110543.93055555556, "train/model_opt_loss": 14022.163208007812, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2604.1666666666665, "train/policy_entropy_mag": 2.2741200923919678, "train/policy_entropy_max": 2.2741200923919678, "train/policy_entropy_mean": 0.37576960068609977, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4592534253994624, "train/policy_logprob_mag": 7.43838416867786, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37543974734014934, "train/policy_logprob_min": -7.43838416867786, "train/policy_logprob_std": 0.9798588951428732, "train/policy_randomness_mag": 0.8026645936899715, "train/policy_randomness_max": 0.8026645936899715, "train/policy_randomness_mean": 0.13263018015358183, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1620963044050667, "train/post_ent_mag": 55.53540484110514, "train/post_ent_max": 55.53540484110514, "train/post_ent_mean": 40.285717169443764, "train/post_ent_min": 18.72163638803694, "train/post_ent_std": 5.956272886859046, "train/prior_ent_mag": 75.35392316182454, "train/prior_ent_max": 75.35392316182454, "train/prior_ent_mean": 44.77758640713162, "train/prior_ent_min": 25.94866704940796, "train/prior_ent_std": 7.325768417782253, "train/rep_loss_mean": 4.521842310825984, "train/rep_loss_std": 8.470078719986809, "train/reward_avg": 0.026656087035209768, "train/reward_loss_mean": 0.04432474707977639, "train/reward_loss_std": 0.18749544024467468, "train/reward_max_data": 1.0125000029802322, "train/reward_max_pred": 1.014835986826155, "train/reward_neg_acc": 0.9951531895332866, "train/reward_neg_loss": 0.021966787106874917, "train/reward_pos_acc": 0.9907636170585951, "train/reward_pos_loss": 0.7232571451200379, "train/reward_pred": 0.02658548892941326, "train/reward_rate": 0.031914605034722224, "stats/sum_log_reward": 5.099999934434891, "stats/max_log_achievement_collect_drink": 4.625, "stats/max_log_achievement_collect_sapling": 2.625, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 5.875, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.25, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_plant": 1.375, "stats/max_log_achievement_place_table": 2.125, "stats/max_log_achievement_wake_up": 1.625, "stats/mean_log_entropy": 0.3209161050617695, "replay/size": 223026.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.6908649011331914e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2281487523023441e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2610332965851, "timer/env.step_count": 1444.0, "timer/env.step_total": 20.099812030792236, "timer/env.step_frac": 0.06694112722558473, "timer/env.step_avg": 0.013919537417446146, "timer/env.step_min": 0.0029497146606445312, "timer/env.step_max": 1.7045421600341797, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.25063061714172363, "timer/replay.add_frac": 0.0008347091009114105, "timer/replay.add_avg": 0.00017356690937792496, "timer/replay.add_min": 7.700920104980469e-05, "timer/replay.add_max": 0.0012938976287841797, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024977684020996094, "timer/logger.write_frac": 8.318656519217464e-05, "timer/logger.write_avg": 0.024977684020996094, "timer/logger.write_min": 0.024977684020996094, "timer/logger.write_max": 0.024977684020996094, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.371264696121216, "timer/agent.policy_frac": 0.03454082796643453, "timer/agent.policy_avg": 0.007182316271552088, "timer/agent.policy_min": 0.00568699836730957, "timer/agent.policy_max": 0.016385793685913086, "timer/dataset_count": 722.0, "timer/dataset_total": 0.06470823287963867, "timer/dataset_frac": 0.00021550659494241675, "timer/dataset_avg": 8.962359124603694e-05, "timer/dataset_min": 6.985664367675781e-05, "timer/dataset_max": 0.000213623046875, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.7621533870697, "timer/agent.train_frac": 0.8950950126172312, "timer/agent.train_avg": 0.37224674984358685, "timer/agent.train_min": 0.3660717010498047, "timer/agent.train_max": 0.3866114616394043, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22029352188110352, "timer/agent.report_frac": 0.0007336733623490429, "timer/agent.report_avg": 0.22029352188110352, "timer/agent.report_min": 0.22029352188110352, "timer/agent.report_max": 0.22029352188110352, "fps": 4.809088342042642}
{"step": 223181, "episode/length": 173.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.30000001937151, "episode/reward_rate": 0.040229885057471264}
{"step": 223239, "episode/length": 57.0, "episode/score": 5.100000023841858, "episode/sum_abs_reward": 6.5, "episode/reward_rate": 0.1206896551724138}
{"step": 223433, "episode/length": 193.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.03608247422680412}
{"step": 223475, "episode/length": 41.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.14285714285714285}
{"step": 223637, "episode/length": 161.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.043209876543209874}
{"step": 223810, "episode/length": 172.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.04046242774566474}
{"step": 224057, "episode/length": 246.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.03643724696356275}
{"step": 224260, "episode/length": 202.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.034482758620689655}
{"step": 224421, "episode/length": 160.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.043478260869565216}
{"step": 224525, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.693358527289496, "train/action_min": 0.0, "train/action_std": 3.5698623624112873, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05000650246317188, "train/actor_opt_grad_steps": 111355.0, "train/actor_opt_loss": -15.60521490044064, "train/adv_mag": 0.6608288362622261, "train/adv_max": 0.6152027990255091, "train/adv_mean": 0.002607184933241216, "train/adv_min": -0.43626759697993595, "train/adv_std": 0.058692691951162286, "train/cont_avg": 0.994140625, "train/cont_loss_mean": 0.00010524833077991186, "train/cont_loss_std": 0.003248222095420614, "train/cont_neg_acc": 0.9987373741136657, "train/cont_neg_loss": 0.008566352687896343, "train/cont_pos_acc": 0.999999980131785, "train/cont_pos_loss": 1.5225388256428434e-05, "train/cont_pred": 0.9941448428564601, "train/cont_rate": 0.994140625, "train/dyn_loss_mean": 4.7298666006988945, "train/dyn_loss_std": 8.526225176122454, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0177256266276042, "train/extr_critic_critic_opt_grad_steps": 111355.0, "train/extr_critic_critic_opt_loss": 15571.825453016492, "train/extr_critic_mag": 7.888649741808574, "train/extr_critic_max": 7.888649741808574, "train/extr_critic_mean": 1.3843418401148584, "train/extr_critic_min": -0.6062927809026506, "train/extr_critic_std": 1.6681554400258594, "train/extr_return_normed_mag": 1.7592535383171506, "train/extr_return_normed_max": 1.7592535383171506, "train/extr_return_normed_mean": 0.33122289925813675, "train/extr_return_normed_min": -0.15055102544526258, "train/extr_return_normed_std": 0.3439490782717864, "train/extr_return_rate": 0.5912471380498674, "train/extr_return_raw_mag": 8.47539653380712, "train/extr_return_raw_max": 8.47539653380712, "train/extr_return_raw_mean": 1.3972970528735056, "train/extr_return_raw_min": -0.9920167384876145, "train/extr_return_raw_std": 1.705183337132136, "train/extr_reward_mag": 1.0177335341771443, "train/extr_reward_max": 1.0177335341771443, "train/extr_reward_mean": 0.035522707854397595, "train/extr_reward_min": -0.6774218049314287, "train/extr_reward_std": 0.1879255436360836, "train/image_loss_mean": 2.800215272439851, "train/image_loss_std": 7.700826737615797, "train/model_loss_mean": 5.683639215098487, "train/model_loss_std": 11.761719869242775, "train/model_opt_grad_norm": 38.61518394947052, "train/model_opt_grad_steps": 111262.59722222222, "train/model_opt_loss": 11304.873460557727, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1996.5277777777778, "train/policy_entropy_mag": 2.2882810963524713, "train/policy_entropy_max": 2.2882810963524713, "train/policy_entropy_mean": 0.3755147515071763, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4582618690199322, "train/policy_logprob_mag": 7.438384115695953, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3753169783287578, "train/policy_logprob_min": -7.438384115695953, "train/policy_logprob_std": 0.978704023692343, "train/policy_randomness_mag": 0.8076628082328372, "train/policy_randomness_max": 0.8076628082328372, "train/policy_randomness_mean": 0.13254022618962658, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1617463291105297, "train/post_ent_mag": 55.73067839940389, "train/post_ent_max": 55.73067839940389, "train/post_ent_mean": 40.22651396857368, "train/post_ent_min": 19.19130512078603, "train/post_ent_std": 5.941437449720171, "train/prior_ent_mag": 75.57409010993109, "train/prior_ent_max": 75.57409010993109, "train/prior_ent_mean": 44.93183104197184, "train/prior_ent_min": 26.37856345706516, "train/prior_ent_std": 7.33505857653088, "train/rep_loss_mean": 4.7298666006988945, "train/rep_loss_std": 8.526225176122454, "train/reward_avg": 0.02681477865876837, "train/reward_loss_mean": 0.045398773004611336, "train/reward_loss_std": 0.19530535427232584, "train/reward_max_data": 1.0069444461001291, "train/reward_max_pred": 1.008646513024966, "train/reward_neg_acc": 0.9952197381191783, "train/reward_neg_loss": 0.022810472634672705, "train/reward_pos_acc": 0.9867203227347798, "train/reward_pos_loss": 0.7320375243822733, "train/reward_pred": 0.026688764945396945, "train/reward_rate": 0.032036675347222224, "stats/sum_log_reward": 5.988889005449083, "stats/max_log_achievement_collect_drink": 3.111111111111111, "stats/max_log_achievement_collect_sapling": 3.111111111111111, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 7.333333333333333, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.3333333333333333, "stats/max_log_achievement_eat_cow": 0.1111111111111111, "stats/max_log_achievement_make_wood_pickaxe": 0.1111111111111111, "stats/max_log_achievement_make_wood_sword": 1.3333333333333333, "stats/max_log_achievement_place_plant": 1.8888888888888888, "stats/max_log_achievement_place_table": 2.4444444444444446, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.3340984880924225, "replay/size": 224462.0, "replay/inserts": 1436.0, "replay/samples": 11488.0, "replay/insert_wait_avg": 3.702129162121616e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.234222919495989e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0869505405426, "timer/env.step_count": 1436.0, "timer/env.step_total": 21.505205869674683, "timer/env.step_frac": 0.0716632490381126, "timer/env.step_avg": 0.01497577010423028, "timer/env.step_min": 0.0028884410858154297, "timer/env.step_max": 1.6911766529083252, "timer/replay.add_count": 1436.0, "timer/replay.add_total": 0.2589428424835205, "timer/replay.add_frac": 0.0008628927116527068, "timer/replay.add_avg": 0.00018032231370718698, "timer/replay.add_min": 7.43865966796875e-05, "timer/replay.add_max": 0.0011031627655029297, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023978233337402344, "timer/logger.write_frac": 7.990428538865376e-05, "timer/logger.write_avg": 0.023978233337402344, "timer/logger.write_min": 0.023978233337402344, "timer/logger.write_max": 0.023978233337402344, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1436.0, "timer/agent.policy_total": 10.328307151794434, "timer/agent.policy_frac": 0.03441771504289071, "timer/agent.policy_avg": 0.00719241445111033, "timer/agent.policy_min": 0.005608320236206055, "timer/agent.policy_max": 0.015932559967041016, "timer/dataset_count": 718.0, "timer/dataset_total": 0.06509709358215332, "timer/dataset_frac": 0.00021692743874698582, "timer/dataset_avg": 9.066447574116062e-05, "timer/dataset_min": 6.628036499023438e-05, "timer/dataset_max": 0.00021719932556152344, "timer/agent.train_count": 718.0, "timer/agent.train_total": 267.2188115119934, "timer/agent.train_frac": 0.8904712818423318, "timer/agent.train_avg": 0.3721710466740855, "timer/agent.train_min": 0.3661167621612549, "timer/agent.train_max": 0.3834800720214844, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22042036056518555, "timer/agent.report_frac": 0.0007345216450370311, "timer/agent.report_avg": 0.22042036056518555, "timer/agent.report_min": 0.22042036056518555, "timer/agent.report_max": 0.22042036056518555, "fps": 4.785174467473769}
{"step": 224577, "episode/length": 155.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.500000022351742, "episode/reward_rate": 0.04487179487179487}
{"step": 224758, "episode/length": 180.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03314917127071823}
{"step": 224906, "episode/length": 147.0, "episode/score": 6.099999979138374, "episode/sum_abs_reward": 7.700000002980232, "episode/reward_rate": 0.0472972972972973}
{"step": 225066, "episode/length": 159.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.30000001937151, "episode/reward_rate": 0.04375}
{"step": 225111, "episode/length": 44.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.13333333333333333}
{"step": 225265, "episode/length": 153.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.5, "episode/reward_rate": 0.045454545454545456}
{"step": 225482, "episode/length": 216.0, "episode/score": 5.0999999940395355, "episode/sum_abs_reward": 6.9000000059604645, "episode/reward_rate": 0.03225806451612903}
{"step": 225648, "episode/length": 165.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.30000001937151, "episode/reward_rate": 0.04216867469879518}
{"step": 225851, "episode/length": 202.0, "episode/score": 5.099999971687794, "episode/sum_abs_reward": 7.300000034272671, "episode/reward_rate": 0.034482758620689655}
{"step": 225896, "episode/length": 44.0, "episode/score": 0.10000000894069672, "episode/sum_abs_reward": 2.0999999940395355, "episode/reward_rate": 0.044444444444444446}
{"step": 225931, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.649697440011161, "train/action_min": 0.0, "train/action_std": 3.5337342296327865, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04880658515862056, "train/actor_opt_grad_steps": 112065.0, "train/actor_opt_loss": -15.073846600736891, "train/adv_mag": 0.5232518702745438, "train/adv_max": 0.49089455221380507, "train/adv_mean": 0.0025943800319510046, "train/adv_min": -0.41893348268100195, "train/adv_std": 0.05663289129734039, "train/cont_avg": 0.9941824776785714, "train/cont_loss_mean": 3.5577055392975256e-05, "train/cont_loss_std": 0.0009355029555438575, "train/cont_neg_acc": 0.9979591846466065, "train/cont_neg_loss": 0.0034683690738217723, "train/cont_pos_acc": 0.9999999812671116, "train/cont_pos_loss": 1.2039695739523332e-05, "train/cont_pred": 0.9941874921321869, "train/cont_rate": 0.9941824776785714, "train/dyn_loss_mean": 4.707308523995536, "train/dyn_loss_std": 8.547033418927874, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0465561713491167, "train/extr_critic_critic_opt_grad_steps": 112065.0, "train/extr_critic_critic_opt_loss": 15608.945744977678, "train/extr_critic_mag": 7.264348002842494, "train/extr_critic_max": 7.264348002842494, "train/extr_critic_mean": 1.3575249288763318, "train/extr_critic_min": -0.6261533175195967, "train/extr_critic_std": 1.5985181501933508, "train/extr_return_normed_mag": 1.6469786167144775, "train/extr_return_normed_max": 1.6469786167144775, "train/extr_return_normed_mean": 0.33073481342622213, "train/extr_return_normed_min": -0.15210914335080555, "train/extr_return_normed_std": 0.33219696517501557, "train/extr_return_rate": 0.587863684977804, "train/extr_return_raw_mag": 7.842325850895473, "train/extr_return_raw_max": 7.842325850895473, "train/extr_return_raw_mean": 1.3703444991792952, "train/extr_return_raw_min": -1.0052245344434465, "train/extr_return_raw_std": 1.6338430540902273, "train/extr_reward_mag": 1.0284041370664323, "train/extr_reward_max": 1.0284041370664323, "train/extr_reward_mean": 0.03520321899226734, "train/extr_reward_min": -0.6525036011423383, "train/extr_reward_std": 0.18795965037175588, "train/image_loss_mean": 2.812410339287349, "train/image_loss_std": 7.6697575501033235, "train/model_loss_mean": 5.682690027781895, "train/model_loss_std": 11.74033283506121, "train/model_opt_grad_norm": 37.216158921377996, "train/model_opt_grad_steps": 111972.0, "train/model_opt_loss": 7103.362541852679, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.2408859729766846, "train/policy_entropy_max": 2.2408859729766846, "train/policy_entropy_mean": 0.37084041110106875, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4524383166006633, "train/policy_logprob_mag": 7.438384090151105, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3695372577224459, "train/policy_logprob_min": -7.438384090151105, "train/policy_logprob_std": 0.9711058957236154, "train/policy_randomness_mag": 0.7909344051565442, "train/policy_randomness_max": 0.7909344051565442, "train/policy_randomness_mean": 0.13089039134127753, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15969087140900748, "train/post_ent_mag": 55.63804740905762, "train/post_ent_max": 55.63804740905762, "train/post_ent_mean": 40.22741186959403, "train/post_ent_min": 18.577714252471925, "train/post_ent_std": 6.007386602674212, "train/prior_ent_mag": 75.61744657244002, "train/prior_ent_max": 75.61744657244002, "train/prior_ent_mean": 44.91647039140974, "train/prior_ent_min": 25.684764099121093, "train/prior_ent_std": 7.391243730272565, "train/rep_loss_mean": 4.707308523995536, "train/rep_loss_std": 8.547033418927874, "train/reward_avg": 0.02667968732171825, "train/reward_loss_mean": 0.04585907206471477, "train/reward_loss_std": 0.1956266775727272, "train/reward_max_data": 1.0185714329992022, "train/reward_max_pred": 1.015528518812997, "train/reward_neg_acc": 0.9954621246882848, "train/reward_neg_loss": 0.02350577577682478, "train/reward_pos_acc": 0.9913012274674007, "train/reward_pos_loss": 0.7260409474372864, "train/reward_pred": 0.026561424495386225, "train/reward_rate": 0.03179408482142857, "stats/sum_log_reward": 5.000000011175871, "stats/max_log_achievement_collect_drink": 3.4, "stats/max_log_achievement_collect_sapling": 1.4, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 6.6, "stats/max_log_achievement_defeat_skeleton": 0.1, "stats/max_log_achievement_defeat_zombie": 0.2, "stats/max_log_achievement_eat_cow": 0.1, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 1.5, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_table": 2.2, "stats/max_log_achievement_wake_up": 1.3, "stats/mean_log_entropy": 0.31562493145465853, "replay/size": 225868.0, "replay/inserts": 1406.0, "replay/samples": 11248.0, "replay/insert_wait_avg": 3.739576760260852e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2255834142649665e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3191821575165, "timer/env.step_count": 1406.0, "timer/env.step_total": 25.670849561691284, "timer/env.step_frac": 0.08547855444087818, "timer/env.step_avg": 0.01825807223448882, "timer/env.step_min": 0.0028815269470214844, "timer/env.step_max": 2.639451742172241, "timer/replay.add_count": 1406.0, "timer/replay.add_total": 0.26470375061035156, "timer/replay.add_frac": 0.0008814080696034769, "timer/replay.add_avg": 0.0001882672479447735, "timer/replay.add_min": 7.963180541992188e-05, "timer/replay.add_max": 0.004300117492675781, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028134822845458984, "timer/logger.write_frac": 9.368306960393345e-05, "timer/logger.write_avg": 0.028134822845458984, "timer/logger.write_min": 0.028134822845458984, "timer/logger.write_max": 0.028134822845458984, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00044345855712890625, "timer/checkpoint.save_frac": 1.4766241501560617e-06, "timer/checkpoint.save_avg": 0.00044345855712890625, "timer/checkpoint.save_min": 0.00044345855712890625, "timer/checkpoint.save_max": 0.00044345855712890625, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3396694660186768, "timer/agent.save_frac": 0.0044608188407892786, "timer/agent.save_avg": 1.3396694660186768, "timer/agent.save_min": 1.3396694660186768, "timer/agent.save_max": 1.3396694660186768, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.796287536621094e-05, "timer/replay.save_frac": 2.5960005220485603e-07, "timer/replay.save_avg": 7.796287536621094e-05, "timer/replay.save_min": 7.796287536621094e-05, "timer/replay.save_max": 7.796287536621094e-05, "timer/agent.policy_count": 1406.0, "timer/agent.policy_total": 11.42340636253357, "timer/agent.policy_frac": 0.038037551515913585, "timer/agent.policy_avg": 0.008124755592129138, "timer/agent.policy_min": 0.005674839019775391, "timer/agent.policy_max": 1.3332703113555908, "timer/dataset_count": 703.0, "timer/dataset_total": 0.06294608116149902, "timer/dataset_frac": 0.00020959727150723258, "timer/dataset_avg": 8.953923351564584e-05, "timer/dataset_min": 6.937980651855469e-05, "timer/dataset_max": 0.0002830028533935547, "timer/agent.train_count": 703.0, "timer/agent.train_total": 262.1923725605011, "timer/agent.train_frac": 0.8730457064943058, "timer/agent.train_avg": 0.37296212313015803, "timer/agent.train_min": 0.3657546043395996, "timer/agent.train_max": 0.9303431510925293, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21970057487487793, "timer/agent.report_frac": 0.0007315569165330427, "timer/agent.report_avg": 0.21970057487487793, "timer/agent.report_min": 0.21970057487487793, "timer/agent.report_max": 0.21970057487487793, "fps": 4.681587337697426}
{"step": 226048, "episode/length": 151.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.039473684210526314}
{"step": 226232, "episode/length": 183.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.700000025331974, "episode/reward_rate": 0.043478260869565216}
{"step": 226268, "episode/length": 35.0, "episode/score": 4.099999971687794, "episode/sum_abs_reward": 6.1000000312924385, "episode/reward_rate": 0.16666666666666666}
{"step": 226795, "episode/length": 526.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.009487666034155597}
{"step": 226999, "episode/length": 203.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.099999994039536, "episode/reward_rate": 0.0392156862745098}
{"step": 227283, "episode/length": 283.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.500000022351742, "episode/reward_rate": 0.02464788732394366}
{"step": 227340, "episode/length": 56.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.10526315789473684}
{"step": 227381, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.662722234856592, "train/action_min": 0.0, "train/action_std": 3.6393406260503482, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.046886536382036666, "train/actor_opt_grad_steps": 112780.0, "train/actor_opt_loss": -15.353698209540484, "train/adv_mag": 0.6114330524451113, "train/adv_max": 0.586068866187579, "train/adv_mean": 0.0023446012293714203, "train/adv_min": -0.4287387444956662, "train/adv_std": 0.05585574506692691, "train/cont_avg": 0.994234267979452, "train/cont_loss_mean": 4.916647463954003e-05, "train/cont_loss_std": 0.0014468155098518465, "train/cont_neg_acc": 0.9972602741359031, "train/cont_neg_loss": 0.005235496643850538, "train/cont_pos_acc": 0.9999865073047273, "train/cont_pos_loss": 2.1153083177479907e-05, "train/cont_pred": 0.9942331461057271, "train/cont_rate": 0.994234267979452, "train/dyn_loss_mean": 4.638135701009672, "train/dyn_loss_std": 8.510934437790961, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0426295391500813, "train/extr_critic_critic_opt_grad_steps": 112780.0, "train/extr_critic_critic_opt_loss": 15544.647474315068, "train/extr_critic_mag": 8.046063383964643, "train/extr_critic_max": 8.046063383964643, "train/extr_critic_mean": 1.4196976709039244, "train/extr_critic_min": -0.6045285675623645, "train/extr_critic_std": 1.7248319893667143, "train/extr_return_normed_mag": 1.7202114177076784, "train/extr_return_normed_max": 1.7202114177076784, "train/extr_return_normed_mean": 0.3253582660874275, "train/extr_return_normed_min": -0.1352178876938885, "train/extr_return_normed_std": 0.3416868572773999, "train/extr_return_rate": 0.5903806686401367, "train/extr_return_raw_mag": 8.625800478948305, "train/extr_return_raw_max": 8.625800478948305, "train/extr_return_raw_mean": 1.4317403721482787, "train/extr_return_raw_min": -0.9420673871693546, "train/extr_return_raw_std": 1.7625460641024864, "train/extr_reward_mag": 1.01888487437, "train/extr_reward_max": 1.01888487437, "train/extr_reward_mean": 0.03556793953662049, "train/extr_reward_min": -0.6636181432906896, "train/extr_reward_std": 0.18763794351930488, "train/image_loss_mean": 2.74864408088057, "train/image_loss_std": 7.464463671592817, "train/model_loss_mean": 5.576771158061615, "train/model_loss_std": 11.550046241446717, "train/model_opt_grad_norm": 38.895305738057175, "train/model_opt_grad_steps": 112686.64383561644, "train/model_opt_loss": 11406.97967947346, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2037.6712328767123, "train/policy_entropy_mag": 2.2748438560799378, "train/policy_entropy_max": 2.2748438560799378, "train/policy_entropy_mean": 0.37592082031785623, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.45858193464475133, "train/policy_logprob_mag": 7.438384160603563, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3765420742230873, "train/policy_logprob_min": -7.438384160603563, "train/policy_logprob_std": 0.9792229378060119, "train/policy_randomness_mag": 0.8029200500004912, "train/policy_randomness_max": 0.8029200500004912, "train/policy_randomness_mean": 0.13268355280160904, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16185929860970746, "train/post_ent_mag": 55.63355976261505, "train/post_ent_max": 55.63355976261505, "train/post_ent_mean": 40.31248918298173, "train/post_ent_min": 18.95218636238412, "train/post_ent_std": 5.949781973068029, "train/prior_ent_mag": 75.54375499568573, "train/prior_ent_max": 75.54375499568573, "train/prior_ent_mean": 44.919644029173135, "train/prior_ent_min": 26.12484675890779, "train/prior_ent_std": 7.283170504112766, "train/rep_loss_mean": 4.638135701009672, "train/rep_loss_std": 8.510934437790961, "train/reward_avg": 0.026165186159618912, "train/reward_loss_mean": 0.04519656144899048, "train/reward_loss_std": 0.196761792449102, "train/reward_max_data": 1.0109589067223954, "train/reward_max_pred": 1.0104287601497075, "train/reward_neg_acc": 0.9952921695905189, "train/reward_neg_loss": 0.02231748129100832, "train/reward_pos_acc": 0.9776532772469194, "train/reward_pos_loss": 0.759821408415494, "train/reward_pred": 0.02583995686639866, "train/reward_rate": 0.03142390839041096, "stats/sum_log_reward": 5.242857115609305, "stats/max_log_achievement_collect_drink": 8.714285714285714, "stats/max_log_achievement_collect_sapling": 2.2857142857142856, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 6.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 2.4285714285714284, "stats/mean_log_entropy": 0.4087224815573011, "replay/size": 227318.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.7388966001313306e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2323774140456628e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.19868183135986, "timer/env.step_count": 1450.0, "timer/env.step_total": 18.87186908721924, "timer/env.step_frac": 0.06286459678001095, "timer/env.step_avg": 0.013015082129116716, "timer/env.step_min": 0.002989053726196289, "timer/env.step_max": 1.7729823589324951, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.2673494815826416, "timer/replay.add_frac": 0.0008905751349462231, "timer/replay.add_avg": 0.0001843789528156149, "timer/replay.add_min": 7.200241088867188e-05, "timer/replay.add_max": 0.001943349838256836, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029781341552734375, "timer/logger.write_frac": 9.920543744913708e-05, "timer/logger.write_avg": 0.029781341552734375, "timer/logger.write_min": 0.029781341552734375, "timer/logger.write_max": 0.029781341552734375, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 10.452193021774292, "timer/agent.policy_frac": 0.03481758466763, "timer/agent.policy_avg": 0.007208408980533995, "timer/agent.policy_min": 0.005619049072265625, "timer/agent.policy_max": 0.017810344696044922, "timer/dataset_count": 725.0, "timer/dataset_total": 0.0652472972869873, "timer/dataset_frac": 0.0002173470479248831, "timer/dataset_avg": 8.99962721199825e-05, "timer/dataset_min": 6.699562072753906e-05, "timer/dataset_max": 0.00019240379333496094, "timer/agent.train_count": 725.0, "timer/agent.train_total": 269.81408190727234, "timer/agent.train_frac": 0.8987850321702731, "timer/agent.train_avg": 0.3721573543548584, "timer/agent.train_min": 0.36361074447631836, "timer/agent.train_max": 0.38509678840637207, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2188243865966797, "timer/agent.report_frac": 0.0007289318702592, "timer/agent.report_avg": 0.2188243865966797, "timer/agent.report_min": 0.2188243865966797, "timer/agent.report_max": 0.2188243865966797, "fps": 4.830053963627737}
{"step": 227508, "episode/length": 167.0, "episode/score": 7.0999999940395355, "episode/sum_abs_reward": 9.300000011920929, "episode/reward_rate": 0.05357142857142857}
{"step": 227692, "episode/length": 183.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.043478260869565216}
{"step": 227771, "episode/length": 78.0, "episode/score": 4.099999971687794, "episode/sum_abs_reward": 6.1000000312924385, "episode/reward_rate": 0.0759493670886076}
{"step": 228045, "episode/length": 273.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.025547445255474453}
{"step": 228196, "episode/length": 150.0, "episode/score": 5.100000023841858, "episode/sum_abs_reward": 6.5, "episode/reward_rate": 0.046357615894039736}
{"step": 228355, "episode/length": 158.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.0440251572327044}
{"step": 228520, "episode/length": 164.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03636363636363636}
{"step": 228676, "episode/length": 155.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 6.100000038743019, "episode/reward_rate": 0.03205128205128205}
{"step": 228820, "episode/length": 143.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.041666666666666664}
{"step": 228821, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.720873514811198, "train/action_min": 0.0, "train/action_std": 3.636487560139762, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.046083866592703596, "train/actor_opt_grad_steps": 113505.0, "train/actor_opt_loss": -16.56150132748816, "train/adv_mag": 0.5478794963823425, "train/adv_max": 0.512997541990545, "train/adv_mean": 0.0017579977879146706, "train/adv_min": -0.4672200820512242, "train/adv_std": 0.05536458744770951, "train/cont_avg": 0.994140625, "train/cont_loss_mean": 2.677880516838766e-05, "train/cont_loss_std": 0.0007620361982800558, "train/cont_neg_acc": 0.9982638888888888, "train/cont_neg_loss": 0.0033830550293411457, "train/cont_pos_acc": 0.9999999867545234, "train/cont_pos_loss": 4.016193205163492e-06, "train/cont_pred": 0.9941548547810979, "train/cont_rate": 0.994140625, "train/dyn_loss_mean": 4.617947889698876, "train/dyn_loss_std": 8.455882655249702, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0024621842636003, "train/extr_critic_critic_opt_grad_steps": 113505.0, "train/extr_critic_critic_opt_loss": 15422.74030219184, "train/extr_critic_mag": 7.465248982111613, "train/extr_critic_max": 7.465248982111613, "train/extr_critic_mean": 1.3369074140985806, "train/extr_critic_min": -0.6139270895057254, "train/extr_critic_std": 1.613168991274304, "train/extr_return_normed_mag": 1.6476281202501721, "train/extr_return_normed_max": 1.6476281202501721, "train/extr_return_normed_mean": 0.317051219029559, "train/extr_return_normed_min": -0.1461213506344292, "train/extr_return_normed_std": 0.32719716388318276, "train/extr_return_rate": 0.5707962918612692, "train/extr_return_raw_mag": 8.01912130912145, "train/extr_return_raw_max": 8.01912130912145, "train/extr_return_raw_mean": 1.345688467224439, "train/extr_return_raw_min": -0.974730461008019, "train/extr_return_raw_std": 1.640670723385281, "train/extr_reward_mag": 1.0228207574950323, "train/extr_reward_max": 1.0228207574950323, "train/extr_reward_mean": 0.03506292951189809, "train/extr_reward_min": -0.658899747663074, "train/extr_reward_std": 0.18773207937677702, "train/image_loss_mean": 2.6555365837282605, "train/image_loss_std": 7.284824185901218, "train/model_loss_mean": 5.471955080827077, "train/model_loss_std": 11.287877559661865, "train/model_opt_grad_norm": 35.69320403205024, "train/model_opt_grad_steps": 113411.0, "train/model_opt_loss": 6839.943874782986, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.2988665766186185, "train/policy_entropy_max": 2.2988665766186185, "train/policy_entropy_mean": 0.378029227670696, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4644817416038778, "train/policy_logprob_mag": 7.438384148809645, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3788732397887442, "train/policy_logprob_min": -7.438384148809645, "train/policy_logprob_std": 0.9835435375571251, "train/policy_randomness_mag": 0.8113990177710851, "train/policy_randomness_max": 0.8113990177710851, "train/policy_randomness_mean": 0.1334277271396584, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16394167196833426, "train/post_ent_mag": 55.16929652955797, "train/post_ent_max": 55.16929652955797, "train/post_ent_mean": 40.24891418880887, "train/post_ent_min": 18.853596568107605, "train/post_ent_std": 5.848409374554952, "train/prior_ent_mag": 75.53882344563802, "train/prior_ent_max": 75.53882344563802, "train/prior_ent_mean": 44.851912604437935, "train/prior_ent_min": 25.9471824698978, "train/prior_ent_std": 7.323067439926995, "train/rep_loss_mean": 4.617947889698876, "train/rep_loss_std": 8.455882655249702, "train/reward_avg": 0.026642523835309677, "train/reward_loss_mean": 0.04562296001758012, "train/reward_loss_std": 0.19773166357643074, "train/reward_max_data": 1.0097222245401807, "train/reward_max_pred": 1.0089529090457492, "train/reward_neg_acc": 0.9957526855998569, "train/reward_neg_loss": 0.02279235607582248, "train/reward_pos_acc": 0.9843545175260968, "train/reward_pos_loss": 0.7400507662031386, "train/reward_pred": 0.026355854649510648, "train/reward_rate": 0.03195529513888889, "stats/sum_log_reward": 5.544444455040826, "stats/max_log_achievement_collect_drink": 3.5555555555555554, "stats/max_log_achievement_collect_sapling": 2.7777777777777777, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 6.888888888888889, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.2222222222222222, "stats/max_log_achievement_eat_cow": 0.2222222222222222, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 1.2222222222222223, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_table": 2.111111111111111, "stats/max_log_achievement_wake_up": 1.7777777777777777, "stats/mean_log_entropy": 0.3458113984929191, "replay/size": 228758.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.6704871389600966e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2250617146492005e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 301.1979486942291, "timer/env.step_count": 1440.0, "timer/env.step_total": 21.943245887756348, "timer/env.step_frac": 0.0728532381541308, "timer/env.step_avg": 0.015238365199830796, "timer/env.step_min": 0.003009796142578125, "timer/env.step_max": 1.8033864498138428, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.2537117004394531, "timer/replay.add_frac": 0.0008423420595636818, "timer/replay.add_avg": 0.00017618868086073135, "timer/replay.add_min": 7.796287536621094e-05, "timer/replay.add_max": 0.001768350601196289, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03005385398864746, "timer/logger.write_frac": 9.978107128198807e-05, "timer/logger.write_avg": 0.03005385398864746, "timer/logger.write_min": 0.03005385398864746, "timer/logger.write_max": 0.03005385398864746, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 10.22667407989502, "timer/agent.policy_frac": 0.03395333243214402, "timer/agent.policy_avg": 0.007101856999927097, "timer/agent.policy_min": 0.0055811405181884766, "timer/agent.policy_max": 0.016403675079345703, "timer/dataset_count": 720.0, "timer/dataset_total": 0.06426692008972168, "timer/dataset_frac": 0.00021337104176285187, "timer/dataset_avg": 8.925961123572456e-05, "timer/dataset_min": 6.985664367675781e-05, "timer/dataset_max": 0.0002505779266357422, "timer/agent.train_count": 720.0, "timer/agent.train_total": 267.99864625930786, "timer/agent.train_frac": 0.8897758016651547, "timer/agent.train_avg": 0.3722203420268165, "timer/agent.train_min": 0.36530447006225586, "timer/agent.train_max": 0.38571763038635254, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21990704536437988, "timer/agent.report_frac": 0.0007301080446189415, "timer/agent.report_avg": 0.21990704536437988, "timer/agent.report_min": 0.21990704536437988, "timer/agent.report_max": 0.21990704536437988, "fps": 4.780843035958322}
{"step": 229011, "episode/length": 190.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.041884816753926704}
{"step": 229166, "episode/length": 154.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.05161290322580645}
{"step": 229346, "episode/length": 179.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.044444444444444446}
{"step": 229508, "episode/length": 161.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.900000050663948, "episode/reward_rate": 0.04938271604938271}
{"step": 229680, "episode/length": 171.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.040697674418604654}
{"step": 229810, "episode/length": 129.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.06153846153846154}
{"step": 230025, "episode/length": 214.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 9.700000040233135, "episode/reward_rate": 0.03255813953488372}
{"step": 230201, "episode/length": 175.0, "episode/score": 5.100000016391277, "episode/sum_abs_reward": 8.500000052154064, "episode/reward_rate": 0.03977272727272727}
{"step": 230241, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.593556578730194, "train/action_min": 0.0, "train/action_std": 3.56826260392095, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.050062284135902434, "train/actor_opt_grad_steps": 114220.0, "train/actor_opt_loss": -14.968403705408875, "train/adv_mag": 0.5757482950116547, "train/adv_max": 0.49527897255521425, "train/adv_mean": 0.002389693756618137, "train/adv_min": -0.475799346054104, "train/adv_std": 0.05546955124173366, "train/cont_avg": 0.994415713028169, "train/cont_loss_mean": 1.9293865888434545e-05, "train/cont_loss_std": 0.0005122909399745714, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0006018495512019489, "train/cont_pos_acc": 0.9999999756544409, "train/cont_pos_loss": 1.5369493247373905e-05, "train/cont_pred": 0.9944051806355866, "train/cont_rate": 0.994415713028169, "train/dyn_loss_mean": 4.630232035274237, "train/dyn_loss_std": 8.488526559211838, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0035848760269057, "train/extr_critic_critic_opt_grad_steps": 114220.0, "train/extr_critic_critic_opt_loss": 15565.060890735036, "train/extr_critic_mag": 7.582007045477209, "train/extr_critic_max": 7.582007045477209, "train/extr_critic_mean": 1.3565137831258103, "train/extr_critic_min": -0.6253150953373439, "train/extr_critic_std": 1.6439450828122422, "train/extr_return_normed_mag": 1.6545286732660214, "train/extr_return_normed_max": 1.6545286732660214, "train/extr_return_normed_mean": 0.3198348735000046, "train/extr_return_normed_min": -0.16652400529300662, "train/extr_return_normed_std": 0.329503508940549, "train/extr_return_rate": 0.5900528498098884, "train/extr_return_raw_mag": 8.164213576786954, "train/extr_return_raw_max": 8.164213576786954, "train/extr_return_raw_mean": 1.3686355537092183, "train/extr_return_raw_min": -1.1049660175618992, "train/extr_return_raw_std": 1.6775365748875577, "train/extr_reward_mag": 1.0191534304283034, "train/extr_reward_max": 1.0191534304283034, "train/extr_reward_mean": 0.03562889940721888, "train/extr_reward_min": -0.679018346356674, "train/extr_reward_std": 0.18816936498796435, "train/image_loss_mean": 2.6660538592808685, "train/image_loss_std": 7.592035945032684, "train/model_loss_mean": 5.488762016027746, "train/model_loss_std": 11.656970319613604, "train/model_opt_grad_norm": 35.25799880229251, "train/model_opt_grad_steps": 114125.94366197183, "train/model_opt_loss": 13108.166056888203, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2394.3661971830984, "train/policy_entropy_mag": 2.2812672400138747, "train/policy_entropy_max": 2.2812672400138747, "train/policy_entropy_mean": 0.36903947759682026, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4556687906594344, "train/policy_logprob_mag": 7.438384109819439, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3697797353838531, "train/policy_logprob_min": -7.438384109819439, "train/policy_logprob_std": 0.9762815648401287, "train/policy_randomness_mag": 0.8051872261812989, "train/policy_randomness_max": 0.8051872261812989, "train/policy_randomness_mean": 0.13025474265007905, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1608310842388113, "train/post_ent_mag": 55.71426703224719, "train/post_ent_max": 55.71426703224719, "train/post_ent_mean": 40.370812590693085, "train/post_ent_min": 18.69786717858113, "train/post_ent_std": 5.909018214319794, "train/prior_ent_mag": 75.63276822802047, "train/prior_ent_max": 75.63276822802047, "train/prior_ent_mean": 44.964542335187886, "train/prior_ent_min": 26.500912840937225, "train/prior_ent_std": 7.25951439897779, "train/rep_loss_mean": 4.630232035274237, "train/rep_loss_std": 8.488526559211838, "train/reward_avg": 0.027065911002352203, "train/reward_loss_mean": 0.04454961880831651, "train/reward_loss_std": 0.18970675304741927, "train/reward_max_data": 1.008450706240157, "train/reward_max_pred": 1.0097107853687985, "train/reward_neg_acc": 0.9946021706285612, "train/reward_neg_loss": 0.02173854123381242, "train/reward_pos_acc": 0.9845689148970054, "train/reward_pos_loss": 0.7376349098245862, "train/reward_pred": 0.026780731202116315, "train/reward_rate": 0.032061509683098594, "stats/sum_log_reward": 6.225000023841858, "stats/max_log_achievement_collect_drink": 6.125, "stats/max_log_achievement_collect_sapling": 1.625, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 8.25, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.125, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 1.125, "stats/max_log_achievement_place_plant": 1.125, "stats/max_log_achievement_place_table": 2.625, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.3866698816418648, "replay/size": 230178.0, "replay/inserts": 1420.0, "replay/samples": 11360.0, "replay/insert_wait_avg": 3.6879324577224088e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2582036810861507e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3317680358887, "timer/env.step_count": 1420.0, "timer/env.step_total": 20.202643394470215, "timer/env.step_frac": 0.06726775367984403, "timer/env.step_avg": 0.014227213658077616, "timer/env.step_min": 0.0029964447021484375, "timer/env.step_max": 1.6758794784545898, "timer/replay.add_count": 1420.0, "timer/replay.add_total": 0.2586336135864258, "timer/replay.add_frac": 0.0008611596944200718, "timer/replay.add_avg": 0.0001821363475960745, "timer/replay.add_min": 7.677078247070312e-05, "timer/replay.add_max": 0.003869771957397461, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027336835861206055, "timer/logger.write_frac": 9.102212543143085e-05, "timer/logger.write_avg": 0.027336835861206055, "timer/logger.write_min": 0.027336835861206055, "timer/logger.write_max": 0.027336835861206055, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00039577484130859375, "timer/checkpoint.save_frac": 1.3177921333360244e-06, "timer/checkpoint.save_avg": 0.00039577484130859375, "timer/checkpoint.save_min": 0.00039577484130859375, "timer/checkpoint.save_max": 0.00039577484130859375, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3370108604431152, "timer/agent.save_frac": 0.004451779674148047, "timer/agent.save_avg": 1.3370108604431152, "timer/agent.save_min": 1.3370108604431152, "timer/agent.save_max": 1.3370108604431152, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.106231689453125e-05, "timer/replay.save_frac": 2.6990923212906525e-07, "timer/replay.save_avg": 8.106231689453125e-05, "timer/replay.save_min": 8.106231689453125e-05, "timer/replay.save_max": 8.106231689453125e-05, "timer/agent.policy_count": 1420.0, "timer/agent.policy_total": 15.055425882339478, "timer/agent.policy_frac": 0.050129315259584535, "timer/agent.policy_avg": 0.010602412593196815, "timer/agent.policy_min": 0.005579710006713867, "timer/agent.policy_max": 3.56775164604187, "timer/dataset_count": 710.0, "timer/dataset_total": 0.06392955780029297, "timer/dataset_frac": 0.00021286312206790457, "timer/dataset_avg": 9.004163070463799e-05, "timer/dataset_min": 6.651878356933594e-05, "timer/dataset_max": 0.00017261505126953125, "timer/agent.train_count": 710.0, "timer/agent.train_total": 264.05329394340515, "timer/agent.train_frac": 0.8792053390497526, "timer/agent.train_avg": 0.3719060478076129, "timer/agent.train_min": 0.36323022842407227, "timer/agent.train_max": 0.3839378356933594, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21842288970947266, "timer/agent.report_frac": 0.0007272720136731317, "timer/agent.report_avg": 0.21842288970947266, "timer/agent.report_min": 0.21842288970947266, "timer/agent.report_max": 0.21842288970947266, "fps": 4.728029816763551}
{"step": 230356, "episode/length": 154.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.04516129032258064}
{"step": 230522, "episode/length": 165.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.500000044703484, "episode/reward_rate": 0.04216867469879518}
{"step": 230730, "episode/length": 207.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 6.0999999940395355, "episode/reward_rate": 0.028846153846153848}
{"step": 230916, "episode/length": 185.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03225806451612903}
{"step": 231096, "episode/length": 179.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03333333333333333}
{"step": 231307, "episode/length": 210.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 8.500000022351742, "episode/reward_rate": 0.037914691943127965}
{"step": 231507, "episode/length": 199.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03}
{"step": 231693, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.590012444390191, "train/action_min": 0.0, "train/action_std": 3.6313012407885656, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04719955815623204, "train/actor_opt_grad_steps": 114935.0, "train/actor_opt_loss": -17.341007069581085, "train/adv_mag": 0.5900737175510989, "train/adv_max": 0.5368982462419404, "train/adv_mean": 0.001761887203530124, "train/adv_min": -0.4509881954226229, "train/adv_std": 0.055442595285260014, "train/cont_avg": 0.9945203993055556, "train/cont_loss_mean": 0.00010151322065965473, "train/cont_loss_std": 0.003104388305524076, "train/cont_neg_acc": 0.9982638888888888, "train/cont_neg_loss": 0.003380239938097576, "train/cont_pos_acc": 0.999986352192031, "train/cont_pos_loss": 7.73205926626947e-05, "train/cont_pred": 0.9945130604836676, "train/cont_rate": 0.9945203993055556, "train/dyn_loss_mean": 4.547806289460924, "train/dyn_loss_std": 8.492370466391245, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9906525065501531, "train/extr_critic_critic_opt_grad_steps": 114935.0, "train/extr_critic_critic_opt_loss": 15220.445624457465, "train/extr_critic_mag": 7.679937567975786, "train/extr_critic_max": 7.679937567975786, "train/extr_critic_mean": 1.3323535960581567, "train/extr_critic_min": -0.6263232529163361, "train/extr_critic_std": 1.6451832585864596, "train/extr_return_normed_mag": 1.7393692334493, "train/extr_return_normed_max": 1.7393692334493, "train/extr_return_normed_mean": 0.32476777045263183, "train/extr_return_normed_min": -0.1509724668123656, "train/extr_return_normed_std": 0.34239772169126403, "train/extr_return_rate": 0.5828098191155328, "train/extr_return_raw_mag": 8.25873527261946, "train/extr_return_raw_max": 8.25873527261946, "train/extr_return_raw_mean": 1.3409080472257402, "train/extr_return_raw_min": -0.984259990354379, "train/extr_return_raw_std": 1.674533173441887, "train/extr_reward_mag": 1.022960752248764, "train/extr_reward_max": 1.022960752248764, "train/extr_reward_mean": 0.034402741947107844, "train/extr_reward_min": -0.6549718644883897, "train/extr_reward_std": 0.18564038392570284, "train/image_loss_mean": 2.761762579282125, "train/image_loss_std": 7.514540804757012, "train/model_loss_mean": 5.534360931979285, "train/model_loss_std": 11.539272083176506, "train/model_opt_grad_norm": 36.25667315059238, "train/model_opt_grad_steps": 114840.0, "train/model_opt_loss": 6917.951151529948, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.3101363910569086, "train/policy_entropy_max": 2.3101363910569086, "train/policy_entropy_mean": 0.3939233124256134, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.48043423394362134, "train/policy_logprob_mag": 7.438384135564168, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39380449511938626, "train/policy_logprob_min": -7.438384135564168, "train/policy_logprob_std": 0.9935317817661498, "train/policy_randomness_mag": 0.8153767668538623, "train/policy_randomness_max": 0.8153767668538623, "train/policy_randomness_mean": 0.13903764159315163, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16957220331662232, "train/post_ent_mag": 55.612182723151314, "train/post_ent_max": 55.612182723151314, "train/post_ent_mean": 40.53835482067532, "train/post_ent_min": 18.74841781457265, "train/post_ent_std": 5.989708026250203, "train/prior_ent_mag": 75.62318017747667, "train/prior_ent_max": 75.62318017747667, "train/prior_ent_mean": 45.04091940985786, "train/prior_ent_min": 26.578240897920395, "train/prior_ent_std": 7.262715723779467, "train/rep_loss_mean": 4.547806289460924, "train/rep_loss_std": 8.492370466391245, "train/reward_avg": 0.0253526473728319, "train/reward_loss_mean": 0.043813132836172976, "train/reward_loss_std": 0.19881282498439154, "train/reward_max_data": 1.0097222245401807, "train/reward_max_pred": 1.0110873182614644, "train/reward_neg_acc": 0.9953445411390729, "train/reward_neg_loss": 0.022005203516326018, "train/reward_pos_acc": 0.9840416825479932, "train/reward_pos_loss": 0.7475216603941388, "train/reward_pred": 0.025114968263854582, "train/reward_rate": 0.030219184027777776, "stats/sum_log_reward": 5.528571401323591, "stats/max_log_achievement_collect_drink": 5.0, "stats/max_log_achievement_collect_sapling": 2.857142857142857, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 6.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.14285714285714285, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 1.2857142857142858, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_table": 2.2857142857142856, "stats/max_log_achievement_wake_up": 1.8571428571428572, "stats/mean_log_entropy": 0.3387766480445862, "replay/size": 231630.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.722745196550017e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.238192080137815e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1756126880646, "timer/env.step_count": 1452.0, "timer/env.step_total": 18.66748309135437, "timer/env.step_frac": 0.062188539982270905, "timer/env.step_avg": 0.012856393313604938, "timer/env.step_min": 0.002962827682495117, "timer/env.step_max": 1.731379747390747, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.2599210739135742, "timer/replay.add_frac": 0.0008658967048854767, "timer/replay.add_avg": 0.00017900900407270953, "timer/replay.add_min": 7.486343383789062e-05, "timer/replay.add_max": 0.0010390281677246094, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029027462005615234, "timer/logger.write_frac": 9.670159992570712e-05, "timer/logger.write_avg": 0.029027462005615234, "timer/logger.write_min": 0.029027462005615234, "timer/logger.write_max": 0.029027462005615234, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 10.381273031234741, "timer/agent.policy_frac": 0.03458399880746713, "timer/agent.policy_avg": 0.007149637073853128, "timer/agent.policy_min": 0.005726814270019531, "timer/agent.policy_max": 0.014940977096557617, "timer/dataset_count": 726.0, "timer/dataset_total": 0.06704974174499512, "timer/dataset_frac": 0.00022336838474173993, "timer/dataset_avg": 9.235501617767922e-05, "timer/dataset_min": 7.05718994140625e-05, "timer/dataset_max": 0.00019693374633789062, "timer/agent.train_count": 726.0, "timer/agent.train_total": 270.084468126297, "timer/agent.train_frac": 0.8997548658523516, "timer/agent.train_avg": 0.37201717372768184, "timer/agent.train_min": 0.3657383918762207, "timer/agent.train_max": 0.3901972770690918, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2201066017150879, "timer/agent.report_frac": 0.0007332594401791644, "timer/agent.report_avg": 0.2201066017150879, "timer/agent.report_min": 0.2201066017150879, "timer/agent.report_max": 0.2201066017150879, "fps": 4.837093110824789}
{"step": 231794, "episode/length": 286.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.024390243902439025}
{"step": 231954, "episode/length": 159.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.0375}
{"step": 232128, "episode/length": 173.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.040229885057471264}
{"step": 232364, "episode/length": 235.0, "episode/score": 8.099999964237213, "episode/sum_abs_reward": 9.899999991059303, "episode/reward_rate": 0.038135593220338986}
{"step": 232640, "episode/length": 275.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.025362318840579712}
{"step": 232814, "episode/length": 173.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 9.900000043213367, "episode/reward_rate": 0.04597701149425287}
{"step": 232973, "episode/length": 158.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.0440251572327044}
{"step": 233123, "episode/length": 149.0, "episode/score": 6.0999999940395355, "episode/sum_abs_reward": 8.10000005364418, "episode/reward_rate": 0.05333333333333334}
{"step": 233137, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.527903238932292, "train/action_min": 0.0, "train/action_std": 3.5379965835147433, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04715983600666126, "train/actor_opt_grad_steps": 115655.0, "train/actor_opt_loss": -14.33098139655259, "train/adv_mag": 0.548570660667287, "train/adv_max": 0.5185589653750261, "train/adv_mean": 0.002430949626033099, "train/adv_min": -0.43585260916087365, "train/adv_std": 0.056303135895480715, "train/cont_avg": 0.9943033854166666, "train/cont_loss_mean": 4.614068668078946e-06, "train/cont_loss_std": 0.00011579312011002053, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0002568431238816831, "train/cont_pos_acc": 0.9999999834431542, "train/cont_pos_loss": 3.290504199634133e-06, "train/cont_pred": 0.994301518632306, "train/cont_rate": 0.9943033854166666, "train/dyn_loss_mean": 4.55928494532903, "train/dyn_loss_std": 8.444265597396427, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.006956612898244, "train/extr_critic_critic_opt_grad_steps": 115655.0, "train/extr_critic_critic_opt_loss": 15617.17083062066, "train/extr_critic_mag": 7.249137726094988, "train/extr_critic_max": 7.249137726094988, "train/extr_critic_mean": 1.3269417178299692, "train/extr_critic_min": -0.6381988392935859, "train/extr_critic_std": 1.5647666735781565, "train/extr_return_normed_mag": 1.6285828898350398, "train/extr_return_normed_max": 1.6285828898350398, "train/extr_return_normed_mean": 0.32147618052032256, "train/extr_return_normed_min": -0.15202034471763504, "train/extr_return_normed_std": 0.3191316407173872, "train/extr_return_rate": 0.5872043511933751, "train/extr_return_raw_mag": 7.878667142656115, "train/extr_return_raw_max": 7.878667142656115, "train/extr_return_raw_mean": 1.3390590929322772, "train/extr_return_raw_min": -1.0292033056418102, "train/extr_return_raw_std": 1.596557734741105, "train/extr_reward_mag": 1.0243046945995755, "train/extr_reward_max": 1.0243046945995755, "train/extr_reward_mean": 0.03543156504424082, "train/extr_reward_min": -0.6486234863599142, "train/extr_reward_std": 0.188303515728977, "train/image_loss_mean": 2.5529441320233874, "train/image_loss_std": 7.314316338962978, "train/model_loss_mean": 5.333147366841634, "train/model_loss_std": 11.354247212409973, "train/model_opt_grad_norm": 37.999919705920746, "train/model_opt_grad_steps": 115560.0, "train/model_opt_loss": 11094.181342230902, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2083.3333333333335, "train/policy_entropy_mag": 2.296256903145048, "train/policy_entropy_max": 2.296256903145048, "train/policy_entropy_mean": 0.3763527385890484, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.46875154144234127, "train/policy_logprob_mag": 7.438384069336785, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37616172101762557, "train/policy_logprob_min": -7.438384069336785, "train/policy_logprob_std": 0.9828041858143277, "train/policy_randomness_mag": 0.8104779190487332, "train/policy_randomness_max": 0.8104779190487332, "train/policy_randomness_mean": 0.13283600151124927, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16544872460265955, "train/post_ent_mag": 55.55181837081909, "train/post_ent_max": 55.55181837081909, "train/post_ent_mean": 40.38295189539591, "train/post_ent_min": 18.648702608214485, "train/post_ent_std": 5.853861980968052, "train/prior_ent_mag": 75.62676991356744, "train/prior_ent_max": 75.62676991356744, "train/prior_ent_mean": 44.88719786538018, "train/prior_ent_min": 26.789439413282608, "train/prior_ent_std": 7.202840858035618, "train/rep_loss_mean": 4.55928494532903, "train/rep_loss_std": 8.444265597396427, "train/reward_avg": 0.026482475792161293, "train/reward_loss_mean": 0.04462769581004977, "train/reward_loss_std": 0.2005206656952699, "train/reward_max_data": 1.0152777814202838, "train/reward_max_pred": 1.0096370180447896, "train/reward_neg_acc": 0.995743496550454, "train/reward_neg_loss": 0.021381425904110074, "train/reward_pos_acc": 0.9814938629666964, "train/reward_pos_loss": 0.7572292213638624, "train/reward_pred": 0.02602737126613243, "train/reward_rate": 0.031548394097222224, "stats/sum_log_reward": 6.100000023841858, "stats/max_log_achievement_collect_drink": 5.625, "stats/max_log_achievement_collect_sapling": 2.25, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 6.375, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.375, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.625, "stats/max_log_achievement_place_plant": 1.75, "stats/max_log_achievement_place_table": 2.375, "stats/max_log_achievement_wake_up": 1.875, "stats/mean_log_entropy": 0.45512973330914974, "replay/size": 233074.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.6806280923352017e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2448248440539078e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3731451034546, "timer/env.step_count": 1444.0, "timer/env.step_total": 20.394214391708374, "timer/env.step_frac": 0.06789626411070868, "timer/env.step_avg": 0.014123417168773113, "timer/env.step_min": 0.002985715866088867, "timer/env.step_max": 1.7549176216125488, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.2681863307952881, "timer/replay.add_frac": 0.0008928439015509169, "timer/replay.add_avg": 0.00018572460581391142, "timer/replay.add_min": 7.605552673339844e-05, "timer/replay.add_max": 0.0032088756561279297, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030421972274780273, "timer/logger.write_frac": 0.00010128059971640385, "timer/logger.write_avg": 0.030421972274780273, "timer/logger.write_min": 0.030421972274780273, "timer/logger.write_max": 0.030421972274780273, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.362113952636719, "timer/agent.policy_frac": 0.03449747130046462, "timer/agent.policy_avg": 0.007175979191576675, "timer/agent.policy_min": 0.005695343017578125, "timer/agent.policy_max": 0.016583681106567383, "timer/dataset_count": 722.0, "timer/dataset_total": 0.06564068794250488, "timer/dataset_frac": 0.0002185304812116173, "timer/dataset_avg": 9.091508025277684e-05, "timer/dataset_min": 6.890296936035156e-05, "timer/dataset_max": 0.0001804828643798828, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.5660321712494, "timer/agent.train_frac": 0.8941080004963486, "timer/agent.train_avg": 0.3719751138105947, "timer/agent.train_min": 0.3660550117492676, "timer/agent.train_max": 0.38496994972229004, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21974754333496094, "timer/agent.report_frac": 0.0007315818571572883, "timer/agent.report_avg": 0.21974754333496094, "timer/agent.report_min": 0.21974754333496094, "timer/agent.report_max": 0.21974754333496094, "fps": 4.807285433314582}
{"step": 233289, "episode/length": 165.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 8.30000003427267, "episode/reward_rate": 0.04216867469879518}
{"step": 233448, "episode/length": 158.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.03773584905660377}
{"step": 233622, "episode/length": 173.0, "episode/score": 2.1000000089406967, "episode/sum_abs_reward": 4.299999997019768, "episode/reward_rate": 0.022988505747126436}
{"step": 233800, "episode/length": 177.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.03932584269662921}
{"step": 234236, "episode/length": 435.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.01834862385321101}
{"step": 234448, "episode/length": 211.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.03773584905660377}
{"step": 234573, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.596711900499132, "train/action_min": 0.0, "train/action_std": 3.5448668930265637, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05059752499477731, "train/actor_opt_grad_steps": 116375.0, "train/actor_opt_loss": -16.8610700070858, "train/adv_mag": 0.5723022417061858, "train/adv_max": 0.5485756686992116, "train/adv_mean": 0.0024936090469256872, "train/adv_min": -0.43810348129934734, "train/adv_std": 0.05904031255178981, "train/cont_avg": 0.9943576388888888, "train/cont_loss_mean": 0.00010648454183886318, "train/cont_loss_std": 0.0033308659089199308, "train/cont_neg_acc": 0.9984567902154393, "train/cont_neg_loss": 0.005026963997427932, "train/cont_pos_acc": 0.9999727374977536, "train/cont_pos_loss": 6.468098310286052e-05, "train/cont_pred": 0.9943490318126149, "train/cont_rate": 0.9943576388888888, "train/dyn_loss_mean": 4.479854166507721, "train/dyn_loss_std": 8.380220552285513, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0425450909468863, "train/extr_critic_critic_opt_grad_steps": 116375.0, "train/extr_critic_critic_opt_loss": 15705.376546223959, "train/extr_critic_mag": 7.169415189160241, "train/extr_critic_max": 7.169415189160241, "train/extr_critic_mean": 1.3577810592121549, "train/extr_critic_min": -0.6055795964267519, "train/extr_critic_std": 1.5722667293416128, "train/extr_return_normed_mag": 1.6695073710547552, "train/extr_return_normed_max": 1.6695073710547552, "train/extr_return_normed_mean": 0.33424274685482186, "train/extr_return_normed_min": -0.15286087782846558, "train/extr_return_normed_std": 0.3345288145873282, "train/extr_return_rate": 0.5889531195991569, "train/extr_return_raw_mag": 7.777268363369836, "train/extr_return_raw_max": 7.777268363369836, "train/extr_return_raw_mean": 1.369760260813766, "train/extr_return_raw_min": -0.9684863512714704, "train/extr_return_raw_std": 1.6053593042824004, "train/extr_reward_mag": 1.031253606081009, "train/extr_reward_max": 1.031253606081009, "train/extr_reward_mean": 0.03648056765086949, "train/extr_reward_min": -0.6753238356775708, "train/extr_reward_std": 0.19037442633675206, "train/image_loss_mean": 2.523179082406892, "train/image_loss_std": 6.883927954567803, "train/model_loss_mean": 5.25414130753941, "train/model_loss_std": 10.886786176098717, "train/model_opt_grad_norm": 34.611922052171494, "train/model_opt_grad_steps": 116279.77777777778, "train/model_opt_loss": 13910.879177517361, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2638.8888888888887, "train/policy_entropy_mag": 2.341379208697213, "train/policy_entropy_max": 2.341379208697213, "train/policy_entropy_mean": 0.37782688314716023, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.47168289290534127, "train/policy_logprob_mag": 7.438384162055121, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37832171925240093, "train/policy_logprob_min": -7.438384162055121, "train/policy_logprob_std": 0.9878476858139038, "train/policy_randomness_mag": 0.8264041087693639, "train/policy_randomness_max": 0.8264041087693639, "train/policy_randomness_mean": 0.13335630825410286, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16648336230880684, "train/post_ent_mag": 55.62490367889404, "train/post_ent_max": 55.62490367889404, "train/post_ent_mean": 40.521712356143524, "train/post_ent_min": 18.623423139254253, "train/post_ent_std": 5.809477587540944, "train/prior_ent_mag": 75.67760584089491, "train/prior_ent_max": 75.67760584089491, "train/prior_ent_mean": 44.9669263097975, "train/prior_ent_min": 27.08722029791938, "train/prior_ent_std": 7.189242177539402, "train/rep_loss_mean": 4.479854166507721, "train/rep_loss_std": 8.380220552285513, "train/reward_avg": 0.025499131659873657, "train/reward_loss_mean": 0.04294324870635238, "train/reward_loss_std": 0.18329654654694927, "train/reward_max_data": 1.0111111137602065, "train/reward_max_pred": 1.011885987387763, "train/reward_neg_acc": 0.9953402827183405, "train/reward_neg_loss": 0.021529660404970247, "train/reward_pos_acc": 0.990111294719908, "train/reward_pos_loss": 0.719750329024262, "train/reward_pred": 0.025339603191241622, "train/reward_rate": 0.030653211805555556, "stats/sum_log_reward": 5.433333357175191, "stats/max_log_achievement_collect_drink": 6.166666666666667, "stats/max_log_achievement_collect_sapling": 2.3333333333333335, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 8.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.16666666666666666, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.16666666666666666, "stats/max_log_achievement_make_wood_sword": 1.6666666666666667, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_table": 2.3333333333333335, "stats/max_log_achievement_wake_up": 2.1666666666666665, "stats/mean_log_entropy": 0.4196583777666092, "replay/size": 234510.0, "replay/inserts": 1436.0, "replay/samples": 11488.0, "replay/insert_wait_avg": 3.731516410381349e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2246762145528554e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2611894607544, "timer/env.step_count": 1436.0, "timer/env.step_total": 19.582117795944214, "timer/env.step_frac": 0.06521694605657216, "timer/env.step_avg": 0.0136365722812982, "timer/env.step_min": 0.003043651580810547, "timer/env.step_max": 2.6408510208129883, "timer/replay.add_count": 1436.0, "timer/replay.add_total": 0.2982769012451172, "timer/replay.add_frac": 0.0009933914595515964, "timer/replay.add_avg": 0.0002077137195300259, "timer/replay.add_min": 8.344650268554688e-05, "timer/replay.add_max": 0.002544879913330078, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026937484741210938, "timer/logger.write_frac": 8.97135083944367e-05, "timer/logger.write_avg": 0.026937484741210938, "timer/logger.write_min": 0.026937484741210938, "timer/logger.write_max": 0.026937484741210938, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00022983551025390625, "timer/checkpoint.save_frac": 7.65451940914085e-07, "timer/checkpoint.save_avg": 0.00022983551025390625, "timer/checkpoint.save_min": 0.00022983551025390625, "timer/checkpoint.save_max": 0.00022983551025390625, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4485878944396973, "timer/agent.save_frac": 0.004824426017365907, "timer/agent.save_avg": 1.4485878944396973, "timer/agent.save_min": 1.4485878944396973, "timer/agent.save_max": 1.4485878944396973, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.222724914550781e-05, "timer/replay.save_frac": 2.0724373089063918e-07, "timer/replay.save_avg": 6.222724914550781e-05, "timer/replay.save_min": 6.222724914550781e-05, "timer/replay.save_max": 6.222724914550781e-05, "timer/agent.policy_count": 1436.0, "timer/agent.policy_total": 11.764779567718506, "timer/agent.policy_frac": 0.039181818965172054, "timer/agent.policy_avg": 0.008192743431558848, "timer/agent.policy_min": 0.0056362152099609375, "timer/agent.policy_max": 1.4369916915893555, "timer/dataset_count": 718.0, "timer/dataset_total": 0.06579899787902832, "timer/dataset_frac": 0.00021913920342884864, "timer/dataset_avg": 9.16420583273375e-05, "timer/dataset_min": 7.295608520507812e-05, "timer/dataset_max": 0.00027179718017578125, "timer/agent.train_count": 718.0, "timer/agent.train_total": 267.841269493103, "timer/agent.train_frac": 0.8920276042805432, "timer/agent.train_avg": 0.3730379797954081, "timer/agent.train_min": 0.36623644828796387, "timer/agent.train_max": 0.9180748462677002, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2200922966003418, "timer/agent.report_frac": 0.0007330028133026794, "timer/agent.report_avg": 0.2200922966003418, "timer/agent.report_min": 0.2200922966003418, "timer/agent.report_max": 0.2200922966003418, "fps": 4.782440625072656}
{"step": 234884, "episode/length": 435.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.01834862385321101}
{"step": 235085, "episode/length": 200.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.900000013411045, "episode/reward_rate": 0.04477611940298507}
{"step": 235249, "episode/length": 163.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.042682926829268296}
{"step": 235437, "episode/length": 187.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.03723404255319149}
{"step": 235606, "episode/length": 168.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03550295857988166}
{"step": 235787, "episode/length": 180.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.027624309392265192}
{"step": 235836, "episode/length": 48.0, "episode/score": 3.100000001490116, "episode/sum_abs_reward": 5.100000001490116, "episode/reward_rate": 0.10204081632653061}
{"step": 235997, "episode/length": 160.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.049689440993788817}
{"step": 236017, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.448585510253906, "train/action_min": 0.0, "train/action_std": 3.3673023680845895, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05051403270206518, "train/actor_opt_grad_steps": 117095.0, "train/actor_opt_loss": -17.314887138290537, "train/adv_mag": 0.6482750243610806, "train/adv_max": 0.5883191294140286, "train/adv_mean": 0.002352932526933829, "train/adv_min": -0.4838770466546218, "train/adv_std": 0.05977259917805592, "train/cont_avg": 0.9947102864583334, "train/cont_loss_mean": 2.9032277863747266e-05, "train/cont_loss_std": 0.0008371295880714848, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0015013939601607894, "train/cont_pos_acc": 0.9999863281846046, "train/cont_pos_loss": 1.9772093353341723e-05, "train/cont_pred": 0.9947039302852418, "train/cont_rate": 0.9947102864583334, "train/dyn_loss_mean": 4.678315507041083, "train/dyn_loss_std": 8.486682322290209, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0300910431477759, "train/extr_critic_critic_opt_grad_steps": 117095.0, "train/extr_critic_critic_opt_loss": 15805.886623806424, "train/extr_critic_mag": 7.416936940617031, "train/extr_critic_max": 7.416936940617031, "train/extr_critic_mean": 1.321113804148303, "train/extr_critic_min": -0.6056891464524798, "train/extr_critic_std": 1.5922142581807242, "train/extr_return_normed_mag": 1.6982188986407385, "train/extr_return_normed_max": 1.6982188986407385, "train/extr_return_normed_mean": 0.3248677882883284, "train/extr_return_normed_min": -0.1536761682687534, "train/extr_return_normed_std": 0.3380383431083626, "train/extr_return_rate": 0.5695782999197642, "train/extr_return_raw_mag": 7.9252431525124445, "train/extr_return_raw_max": 7.9252431525124445, "train/extr_return_raw_mean": 1.3324514602621396, "train/extr_return_raw_min": -0.9618467763066292, "train/extr_return_raw_std": 1.6221998913420572, "train/extr_reward_mag": 1.0273761947949727, "train/extr_reward_max": 1.0273761947949727, "train/extr_reward_mean": 0.03519164232744111, "train/extr_reward_min": -0.6543782270616956, "train/extr_reward_std": 0.18740785577230984, "train/image_loss_mean": 2.710884971751107, "train/image_loss_std": 7.732985105779436, "train/model_loss_mean": 5.562548849317762, "train/model_loss_std": 11.786859035491943, "train/model_opt_grad_norm": 37.960176653332184, "train/model_opt_grad_steps": 116998.88888888889, "train/model_opt_loss": 13108.328986273871, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2361.1111111111113, "train/policy_entropy_mag": 2.2966870798005, "train/policy_entropy_max": 2.2966870798005, "train/policy_entropy_mean": 0.3658495011428992, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4568686361114184, "train/policy_logprob_mag": 7.438384175300598, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36578279236952466, "train/policy_logprob_min": -7.438384175300598, "train/policy_logprob_std": 0.9748793087071843, "train/policy_randomness_mag": 0.8106297511193488, "train/policy_randomness_max": 0.8106297511193488, "train/policy_randomness_mean": 0.12912881850368446, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16125457899438012, "train/post_ent_mag": 55.05980973773532, "train/post_ent_max": 55.05980973773532, "train/post_ent_mean": 40.2515050040351, "train/post_ent_min": 18.877639253934223, "train/post_ent_std": 5.803297168678707, "train/prior_ent_mag": 75.7037771013048, "train/prior_ent_max": 75.7037771013048, "train/prior_ent_mean": 44.87192667855157, "train/prior_ent_min": 26.80768084526062, "train/prior_ent_std": 7.186578141318427, "train/rep_loss_mean": 4.678315507041083, "train/rep_loss_std": 8.486682322290209, "train/reward_avg": 0.026379394448465772, "train/reward_loss_mean": 0.044645612257429294, "train/reward_loss_std": 0.19616757250494427, "train/reward_max_data": 1.0152777814202838, "train/reward_max_pred": 1.0131000495619245, "train/reward_neg_acc": 0.9949012191759216, "train/reward_neg_loss": 0.022102061128761206, "train/reward_pos_acc": 0.9841044015354581, "train/reward_pos_loss": 0.7459630270799001, "train/reward_pred": 0.026049809362221923, "train/reward_rate": 0.031222873263888888, "stats/sum_log_reward": 5.850000023841858, "stats/max_log_achievement_collect_drink": 6.75, "stats/max_log_achievement_collect_sapling": 2.5, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 6.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 0.125, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_plant": 1.75, "stats/max_log_achievement_place_table": 2.25, "stats/max_log_achievement_wake_up": 2.25, "stats/mean_log_entropy": 0.3532870188355446, "replay/size": 235954.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.6705563933565345e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2390872778324539e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1583993434906, "timer/env.step_count": 1444.0, "timer/env.step_total": 20.119399070739746, "timer/env.step_frac": 0.06702927226006367, "timer/env.step_avg": 0.01393310184954276, "timer/env.step_min": 0.0030303001403808594, "timer/env.step_max": 1.7349588871002197, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.2551887035369873, "timer/replay.add_frac": 0.0008501801185478685, "timer/replay.add_avg": 0.00017672347890373082, "timer/replay.add_min": 7.82012939453125e-05, "timer/replay.add_max": 0.003506183624267578, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02266836166381836, "timer/logger.write_frac": 7.552133044885242e-05, "timer/logger.write_avg": 0.02266836166381836, "timer/logger.write_min": 0.02266836166381836, "timer/logger.write_max": 0.02266836166381836, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.370851516723633, "timer/agent.policy_frac": 0.03455126206498589, "timer/agent.policy_avg": 0.007182030136235203, "timer/agent.policy_min": 0.005734920501708984, "timer/agent.policy_max": 0.017105579376220703, "timer/dataset_count": 722.0, "timer/dataset_total": 0.06525468826293945, "timer/dataset_frac": 0.00021740084037516575, "timer/dataset_avg": 9.038045465781088e-05, "timer/dataset_min": 6.580352783203125e-05, "timer/dataset_max": 0.000202178955078125, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.6362907886505, "timer/agent.train_frac": 0.8949817542211527, "timer/agent.train_avg": 0.3720724249150284, "timer/agent.train_min": 0.3634481430053711, "timer/agent.train_max": 0.38882946968078613, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21966266632080078, "timer/agent.report_frac": 0.0007318224870643272, "timer/agent.report_avg": 0.21966266632080078, "timer/agent.report_min": 0.21966266632080078, "timer/agent.report_max": 0.21966266632080078, "fps": 4.810718479468372}
{"step": 236178, "episode/length": 180.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.3000000193715096, "episode/reward_rate": 0.03314917127071823}
{"step": 236376, "episode/length": 197.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.030303030303030304}
{"step": 236566, "episode/length": 189.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.042105263157894736}
{"step": 236747, "episode/length": 180.0, "episode/score": 7.0999999940395355, "episode/sum_abs_reward": 9.700000017881393, "episode/reward_rate": 0.049723756906077346}
{"step": 236909, "episode/length": 161.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.043209876543209874}
{"step": 237096, "episode/length": 186.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03208556149732621}
{"step": 237295, "episode/length": 198.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.3000000193715096, "episode/reward_rate": 0.03015075376884422}
{"step": 237343, "episode/length": 47.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 6.0999999940395355, "episode/reward_rate": 0.125}
{"step": 237461, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.429456736943493, "train/action_min": 0.0, "train/action_std": 3.3208453851203394, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05080685315475072, "train/actor_opt_grad_steps": 117820.0, "train/actor_opt_loss": -14.165220403916216, "train/adv_mag": 0.6273082131392336, "train/adv_max": 0.5905809353475702, "train/adv_mean": 0.002969226690267583, "train/adv_min": -0.49271587394688227, "train/adv_std": 0.05912005243031946, "train/cont_avg": 0.9942075128424658, "train/cont_loss_mean": 2.3301291406985984e-05, "train/cont_loss_std": 0.0007029904240604139, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00235691482475886, "train/cont_pos_acc": 0.9999999853029643, "train/cont_pos_loss": 5.120544427997368e-06, "train/cont_pred": 0.9942174994782226, "train/cont_rate": 0.9942075128424658, "train/dyn_loss_mean": 4.519563723916876, "train/dyn_loss_std": 8.549592932609663, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0333925844871834, "train/extr_critic_critic_opt_grad_steps": 117820.0, "train/extr_critic_critic_opt_loss": 15546.649186643835, "train/extr_critic_mag": 7.587523597560517, "train/extr_critic_max": 7.587523597560517, "train/extr_critic_mean": 1.294467514508391, "train/extr_critic_min": -0.6042481513872539, "train/extr_critic_std": 1.6062925547769624, "train/extr_return_normed_mag": 1.7752650731230435, "train/extr_return_normed_max": 1.7752650731230435, "train/extr_return_normed_mean": 0.3206027468589887, "train/extr_return_normed_min": -0.15238884152614907, "train/extr_return_normed_std": 0.343636104913607, "train/extr_return_rate": 0.5595355589095861, "train/extr_return_raw_mag": 8.255626005669162, "train/extr_return_raw_max": 8.255626005669162, "train/extr_return_raw_mean": 1.3086338892374954, "train/extr_return_raw_min": -0.9480544042913881, "train/extr_return_raw_std": 1.640415271667585, "train/extr_reward_mag": 1.033537502158178, "train/extr_reward_max": 1.033537502158178, "train/extr_reward_mean": 0.03628767212878351, "train/extr_reward_min": -0.6533714467532015, "train/extr_reward_std": 0.18974333307514452, "train/image_loss_mean": 2.698839143530963, "train/image_loss_std": 7.674994155152203, "train/model_loss_mean": 5.455751004284376, "train/model_loss_std": 11.766177164365168, "train/model_opt_grad_norm": 33.374698952452775, "train/model_opt_grad_steps": 117723.0, "train/model_opt_loss": 6819.688784246576, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.284622894574518, "train/policy_entropy_max": 2.284622894574518, "train/policy_entropy_mean": 0.37327239039826066, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.45703178154279106, "train/policy_logprob_mag": 7.438384167135578, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37395949763794467, "train/policy_logprob_min": -7.438384167135578, "train/policy_logprob_std": 0.9805044001095915, "train/policy_randomness_mag": 0.8063716243391168, "train/policy_randomness_max": 0.8063716243391168, "train/policy_randomness_mean": 0.13174877172871813, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16131216236581541, "train/post_ent_mag": 55.73550320978034, "train/post_ent_max": 55.73550320978034, "train/post_ent_mean": 40.31395993167407, "train/post_ent_min": 18.749342291322474, "train/post_ent_std": 6.00041030857661, "train/prior_ent_mag": 75.73287963867188, "train/prior_ent_max": 75.73287963867188, "train/prior_ent_mean": 44.756301409577674, "train/prior_ent_min": 26.05660469891274, "train/prior_ent_std": 7.375751253676741, "train/rep_loss_mean": 4.519563723916876, "train/rep_loss_std": 8.549592932609663, "train/reward_avg": 0.025794627361816085, "train/reward_loss_mean": 0.04515032498293543, "train/reward_loss_std": 0.19769655188469037, "train/reward_max_data": 1.0164383600835931, "train/reward_max_pred": 1.0175141569686263, "train/reward_neg_acc": 0.9953903662015314, "train/reward_neg_loss": 0.02298588677602884, "train/reward_pos_acc": 0.9862963867514101, "train/reward_pos_loss": 0.7335755588257149, "train/reward_pred": 0.025600389602964055, "train/reward_rate": 0.0312232448630137, "stats/sum_log_reward": 5.599999904632568, "stats/max_log_achievement_collect_drink": 4.5, "stats/max_log_achievement_collect_sapling": 3.25, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 7.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.25, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 1.25, "stats/max_log_achievement_place_plant": 1.875, "stats/max_log_achievement_place_table": 2.625, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.2953245658427477, "replay/size": 237398.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.6878929243853878e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.243813546410558e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0696289539337, "timer/env.step_count": 1444.0, "timer/env.step_total": 20.049683332443237, "timer/env.step_frac": 0.06681676983551453, "timer/env.step_avg": 0.013884822252384514, "timer/env.step_min": 0.003067493438720703, "timer/env.step_max": 1.697019100189209, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.2611823081970215, "timer/replay.add_frac": 0.0008704056758677094, "timer/replay.add_avg": 0.00018087417465167694, "timer/replay.add_min": 8.0108642578125e-05, "timer/replay.add_max": 0.0020399093627929688, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02356886863708496, "timer/logger.write_frac": 7.85446655139605e-05, "timer/logger.write_avg": 0.02356886863708496, "timer/logger.write_min": 0.02356886863708496, "timer/logger.write_max": 0.02356886863708496, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.31827425956726, "timer/agent.policy_frac": 0.034386266599314215, "timer/agent.policy_avg": 0.007145619293329128, "timer/agent.policy_min": 0.0056345462799072266, "timer/agent.policy_max": 0.018755435943603516, "timer/dataset_count": 722.0, "timer/dataset_total": 0.06452822685241699, "timer/dataset_frac": 0.00021504417850406072, "timer/dataset_avg": 8.93742754188601e-05, "timer/dataset_min": 6.580352783203125e-05, "timer/dataset_max": 0.00019240379333496094, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.6720952987671, "timer/agent.train_frac": 0.8953658397065345, "timer/agent.train_avg": 0.3721220156492619, "timer/agent.train_min": 0.36548519134521484, "timer/agent.train_max": 0.3860006332397461, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21927452087402344, "timer/agent.report_frac": 0.0007307454661054224, "timer/agent.report_avg": 0.21927452087402344, "timer/agent.report_min": 0.21927452087402344, "timer/agent.report_max": 0.21927452087402344, "fps": 4.812128900636166}
{"step": 237491, "episode/length": 147.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.0472972972972973}
{"step": 237659, "episode/length": 167.0, "episode/score": 5.100000001490116, "episode/sum_abs_reward": 7.1000000312924385, "episode/reward_rate": 0.03571428571428571}
{"step": 238073, "episode/length": 413.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.700000025331974, "episode/reward_rate": 0.014492753623188406}
{"step": 238294, "episode/length": 220.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.03619909502262444}
{"step": 238437, "episode/length": 142.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.055944055944055944}
{"step": 238594, "episode/length": 156.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.044585987261146494}
{"step": 238897, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.586754167583627, "train/action_min": 0.0, "train/action_std": 3.4593599816443215, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05129451336155475, "train/actor_opt_grad_steps": 118540.0, "train/actor_opt_loss": -13.643985924586444, "train/adv_mag": 0.6298241661468023, "train/adv_max": 0.5769771543187154, "train/adv_mean": 0.0034249421926649797, "train/adv_min": -0.4957468560044195, "train/adv_std": 0.06145338845294966, "train/cont_avg": 0.9942506602112676, "train/cont_loss_mean": 0.00022800279661784313, "train/cont_loss_std": 0.007203693072534313, "train/cont_neg_acc": 0.9960876375856534, "train/cont_neg_loss": 0.026072501369564866, "train/cont_pos_acc": 0.9999861314263142, "train/cont_pos_loss": 1.79199228082133e-05, "train/cont_pred": 0.9942707771986303, "train/cont_rate": 0.9942506602112676, "train/dyn_loss_mean": 4.6231899865916075, "train/dyn_loss_std": 8.535157573055214, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0261587702052695, "train/extr_critic_critic_opt_grad_steps": 118540.0, "train/extr_critic_critic_opt_loss": 15962.996341329226, "train/extr_critic_mag": 7.760525797454404, "train/extr_critic_max": 7.760525797454404, "train/extr_critic_mean": 1.3551423306196508, "train/extr_critic_min": -0.6249789385728433, "train/extr_critic_std": 1.6451190155996402, "train/extr_return_normed_mag": 1.7924117353600515, "train/extr_return_normed_max": 1.7924117353600515, "train/extr_return_normed_mean": 0.33472964545370826, "train/extr_return_normed_min": -0.1550279753938527, "train/extr_return_normed_std": 0.3504884960785718, "train/extr_return_rate": 0.5853754353355354, "train/extr_return_raw_mag": 8.336534278493533, "train/extr_return_raw_max": 8.336534278493533, "train/extr_return_raw_mean": 1.3714125895164382, "train/extr_return_raw_min": -0.9661530281456423, "train/extr_return_raw_std": 1.6747076947924118, "train/extr_reward_mag": 1.0247765057523486, "train/extr_reward_max": 1.0247765057523486, "train/extr_reward_mean": 0.03668656654026307, "train/extr_reward_min": -0.6825050535336347, "train/extr_reward_std": 0.19050727511795473, "train/image_loss_mean": 2.637645523313066, "train/image_loss_std": 7.400752416798766, "train/model_loss_mean": 5.456784214771969, "train/model_loss_std": 11.506961332240575, "train/model_opt_grad_norm": 36.981046112490375, "train/model_opt_grad_steps": 118442.85915492958, "train/model_opt_loss": 10801.561158945862, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1989.4366197183099, "train/policy_entropy_mag": 2.3064203094428692, "train/policy_entropy_max": 2.3064203094428692, "train/policy_entropy_mean": 0.37173436057399695, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4594482897033154, "train/policy_logprob_mag": 7.438384143399521, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37112816244783536, "train/policy_logprob_min": -7.438384143399521, "train/policy_logprob_std": 0.9770492684673255, "train/policy_randomness_mag": 0.8140651550091488, "train/policy_randomness_max": 0.8140651550091488, "train/policy_randomness_mean": 0.1312059171392884, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16216508435531402, "train/post_ent_mag": 55.200262526391256, "train/post_ent_max": 55.200262526391256, "train/post_ent_mean": 40.44513820594465, "train/post_ent_min": 19.097857596169057, "train/post_ent_std": 5.955032496385171, "train/prior_ent_mag": 75.64908707309776, "train/prior_ent_max": 75.64908707309776, "train/prior_ent_mean": 45.03729436095332, "train/prior_ent_min": 26.388706180411326, "train/prior_ent_std": 7.301112678689017, "train/rep_loss_mean": 4.6231899865916075, "train/rep_loss_std": 8.535157573055214, "train/reward_avg": 0.02657212783962908, "train/reward_loss_mean": 0.04499671448179534, "train/reward_loss_std": 0.1918343769412645, "train/reward_max_data": 1.0098591572801832, "train/reward_max_pred": 1.0089837766029466, "train/reward_neg_acc": 0.9955542163110115, "train/reward_neg_loss": 0.02241689949230829, "train/reward_pos_acc": 0.9879878448768401, "train/reward_pos_loss": 0.726990112116639, "train/reward_pred": 0.026368458401149427, "train/reward_rate": 0.031923965669014086, "stats/sum_log_reward": 6.099999904632568, "stats/max_log_achievement_collect_drink": 8.833333333333334, "stats/max_log_achievement_collect_sapling": 2.6666666666666665, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 8.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.3333333333333333, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.16666666666666666, "stats/max_log_achievement_make_wood_sword": 1.6666666666666667, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_table": 2.3333333333333335, "stats/max_log_achievement_wake_up": 2.0, "stats/mean_log_entropy": 0.4054638395706813, "replay/size": 238834.0, "replay/inserts": 1436.0, "replay/samples": 11488.0, "replay/insert_wait_avg": 3.709766526076123e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2215631585931378e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1712644100189, "timer/env.step_count": 1436.0, "timer/env.step_total": 19.796530723571777, "timer/env.step_frac": 0.06595078567057874, "timer/env.step_avg": 0.013785884904994274, "timer/env.step_min": 0.0028514862060546875, "timer/env.step_max": 2.684063196182251, "timer/replay.add_count": 1436.0, "timer/replay.add_total": 0.28502988815307617, "timer/replay.add_frac": 0.0009495575424692872, "timer/replay.add_avg": 0.0001984887800508887, "timer/replay.add_min": 8.392333984375e-05, "timer/replay.add_max": 0.0023865699768066406, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02968597412109375, "timer/logger.write_frac": 9.889678873639348e-05, "timer/logger.write_avg": 0.02968597412109375, "timer/logger.write_min": 0.02968597412109375, "timer/logger.write_max": 0.02968597412109375, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003752708435058594, "timer/checkpoint.save_frac": 1.2501891020229645e-06, "timer/checkpoint.save_avg": 0.0003752708435058594, "timer/checkpoint.save_min": 0.0003752708435058594, "timer/checkpoint.save_max": 0.0003752708435058594, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3144831657409668, "timer/agent.save_frac": 0.0043791105998256, "timer/agent.save_avg": 1.3144831657409668, "timer/agent.save_min": 1.3144831657409668, "timer/agent.save_max": 1.3144831657409668, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.43865966796875e-05, "timer/replay.save_frac": 2.478138499562674e-07, "timer/replay.save_avg": 7.43865966796875e-05, "timer/replay.save_min": 7.43865966796875e-05, "timer/replay.save_max": 7.43865966796875e-05, "timer/agent.policy_count": 1436.0, "timer/agent.policy_total": 11.54806661605835, "timer/agent.policy_frac": 0.03847159267145661, "timer/agent.policy_avg": 0.008041829119817791, "timer/agent.policy_min": 0.0056285858154296875, "timer/agent.policy_max": 1.3017094135284424, "timer/dataset_count": 718.0, "timer/dataset_total": 0.06436634063720703, "timer/dataset_frac": 0.000214432053526902, "timer/dataset_avg": 8.964671397939698e-05, "timer/dataset_min": 7.009506225585938e-05, "timer/dataset_max": 0.0001583099365234375, "timer/agent.train_count": 718.0, "timer/agent.train_total": 267.7654504776001, "timer/agent.train_frac": 0.8920422512924019, "timer/agent.train_avg": 0.3729323822807801, "timer/agent.train_min": 0.36594414710998535, "timer/agent.train_max": 0.8688409328460693, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2223660945892334, "timer/agent.report_frac": 0.0007407974078607753, "timer/agent.report_avg": 0.2223660945892334, "timer/agent.report_min": 0.2223660945892334, "timer/agent.report_max": 0.2223660945892334, "fps": 4.7838302609090375}
{"step": 238992, "episode/length": 397.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.017587939698492462}
{"step": 239161, "episode/length": 168.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.099999994039536, "episode/reward_rate": 0.047337278106508875}
{"step": 239324, "episode/length": 162.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.3000000193715096, "episode/reward_rate": 0.03067484662576687}
{"step": 239482, "episode/length": 157.0, "episode/score": 5.0999999940395355, "episode/sum_abs_reward": 6.9000000059604645, "episode/reward_rate": 0.04430379746835443}
{"step": 239588, "episode/length": 105.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.500000022351742, "episode/reward_rate": 0.03773584905660377}
{"step": 239773, "episode/length": 184.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.03783783783783784}
{"step": 239913, "episode/length": 139.0, "episode/score": 6.0999999940395355, "episode/sum_abs_reward": 7.9000000059604645, "episode/reward_rate": 0.05714285714285714}
{"step": 240108, "episode/length": 194.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.02564102564102564}
{"step": 240341, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.500748307737585, "train/action_min": 0.0, "train/action_std": 3.3675133822715444, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05101916142930723, "train/actor_opt_grad_steps": 119260.0, "train/actor_opt_loss": -14.307203383886652, "train/adv_mag": 0.5789847757718335, "train/adv_max": 0.5391624794430929, "train/adv_mean": 0.003123468084994198, "train/adv_min": -0.477867213422305, "train/adv_std": 0.059761370391878364, "train/cont_avg": 0.9941807577054794, "train/cont_loss_mean": 0.00010231766127508432, "train/cont_loss_std": 0.0031628463274289173, "train/cont_neg_acc": 0.9972602741359031, "train/cont_neg_loss": 0.019116666578947717, "train/cont_pos_acc": 0.9999999828534584, "train/cont_pos_loss": 6.685973760776917e-06, "train/cont_pred": 0.994201126163953, "train/cont_rate": 0.9941807577054794, "train/dyn_loss_mean": 4.814147923090687, "train/dyn_loss_std": 8.542978508831704, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0559816825879764, "train/extr_critic_critic_opt_grad_steps": 119260.0, "train/extr_critic_critic_opt_loss": 15924.107876712329, "train/extr_critic_mag": 7.227368211093014, "train/extr_critic_max": 7.227368211093014, "train/extr_critic_mean": 1.419460170073052, "train/extr_critic_min": -0.6072398032227607, "train/extr_critic_std": 1.5843987432244706, "train/extr_return_normed_mag": 1.6730694003301123, "train/extr_return_normed_max": 1.6730694003301123, "train/extr_return_normed_mean": 0.341021744559889, "train/extr_return_normed_min": -0.1592073763580355, "train/extr_return_normed_std": 0.3340842072686104, "train/extr_return_rate": 0.6062714351366644, "train/extr_return_raw_mag": 7.893262804371037, "train/extr_return_raw_max": 7.893262804371037, "train/extr_return_raw_mean": 1.4345961392742315, "train/extr_return_raw_min": -0.9916544450472479, "train/extr_return_raw_std": 1.6201199734047667, "train/extr_reward_mag": 1.0369409306408608, "train/extr_reward_max": 1.0369409306408608, "train/extr_reward_mean": 0.03730234143974846, "train/extr_reward_min": -0.68329889153781, "train/extr_reward_std": 0.19276277169789355, "train/image_loss_mean": 2.777126965457446, "train/image_loss_std": 7.947822952923709, "train/model_loss_mean": 5.710535193142825, "train/model_loss_std": 12.019535064697266, "train/model_opt_grad_norm": 42.04627679798701, "train/model_opt_grad_steps": 119162.0, "train/model_opt_loss": 7138.168985445205, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.3314123937528426, "train/policy_entropy_max": 2.3314123937528426, "train/policy_entropy_mean": 0.37001452258188433, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4584667298891773, "train/policy_logprob_mag": 7.438384167135578, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3692873977635005, "train/policy_logprob_min": -7.438384167135578, "train/policy_logprob_std": 0.9776918030764958, "train/policy_randomness_mag": 0.8228862628544846, "train/policy_randomness_max": 0.8228862628544846, "train/policy_randomness_mean": 0.13059888882179782, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1618186355861899, "train/post_ent_mag": 55.51875765029698, "train/post_ent_max": 55.51875765029698, "train/post_ent_mean": 40.04207961200035, "train/post_ent_min": 18.638448375545135, "train/post_ent_std": 5.900865300060952, "train/prior_ent_mag": 75.75740646989378, "train/prior_ent_max": 75.75740646989378, "train/prior_ent_mean": 44.79002359468643, "train/prior_ent_min": 25.77415288637762, "train/prior_ent_std": 7.39705878087919, "train/rep_loss_mean": 4.814147923090687, "train/rep_loss_std": 8.542978508831704, "train/reward_avg": 0.02630565050121856, "train/reward_loss_mean": 0.044817102613718546, "train/reward_loss_std": 0.1950353747361327, "train/reward_max_data": 1.0205479501044914, "train/reward_max_pred": 1.0180603380072606, "train/reward_neg_acc": 0.9952351034504093, "train/reward_neg_loss": 0.02250498250024776, "train/reward_pos_acc": 0.9858932944193278, "train/reward_pos_loss": 0.7329822215315414, "train/reward_pred": 0.026147302240133286, "train/reward_rate": 0.03139715325342466, "stats/sum_log_reward": 5.099999934434891, "stats/max_log_achievement_collect_drink": 3.5, "stats/max_log_achievement_collect_sapling": 3.5, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 7.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 0.625, "stats/max_log_achievement_place_plant": 2.5, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 1.375, "stats/mean_log_entropy": 0.33965479768812656, "replay/size": 240278.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.6913602305911586e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2516356241009573e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1544692516327, "timer/env.step_count": 1444.0, "timer/env.step_total": 20.070038080215454, "timer/env.step_frac": 0.06686569795297587, "timer/env.step_avg": 0.013898918338099345, "timer/env.step_min": 0.002832651138305664, "timer/env.step_max": 1.7133963108062744, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.25287413597106934, "timer/replay.add_frac": 0.0008424799957220488, "timer/replay.add_avg": 0.00017512059277774886, "timer/replay.add_min": 7.510185241699219e-05, "timer/replay.add_max": 0.001039743423461914, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028017759323120117, "timer/logger.write_frac": 9.334446824322179e-05, "timer/logger.write_avg": 0.028017759323120117, "timer/logger.write_min": 0.028017759323120117, "timer/logger.write_max": 0.028017759323120117, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.372835397720337, "timer/agent.policy_frac": 0.0345583239975825, "timer/agent.policy_avg": 0.007183404015041785, "timer/agent.policy_min": 0.005615949630737305, "timer/agent.policy_max": 0.016795873641967773, "timer/dataset_count": 722.0, "timer/dataset_total": 0.06510591506958008, "timer/dataset_frac": 0.00021690803149427345, "timer/dataset_avg": 9.017439760329651e-05, "timer/dataset_min": 7.081031799316406e-05, "timer/dataset_max": 0.00017595291137695312, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.6810052394867, "timer/agent.train_frac": 0.8951424441867617, "timer/agent.train_avg": 0.3721343562873777, "timer/agent.train_min": 0.3655080795288086, "timer/agent.train_max": 0.3830149173736572, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21888446807861328, "timer/agent.report_frac": 0.0007292394100422766, "timer/agent.report_avg": 0.21888446807861328, "timer/agent.report_min": 0.21888446807861328, "timer/agent.report_max": 0.21888446807861328, "fps": 4.810787452008561}
{"step": 240351, "episode/length": 242.0, "episode/score": 7.099999964237213, "episode/sum_abs_reward": 9.099999994039536, "episode/reward_rate": 0.03292181069958848}
{"step": 240523, "episode/length": 171.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.040697674418604654}
{"step": 240566, "episode/length": 42.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 6.0999999940395355, "episode/reward_rate": 0.13953488372093023}
{"step": 240753, "episode/length": 186.0, "episode/score": 7.100000023841858, "episode/sum_abs_reward": 9.10000005364418, "episode/reward_rate": 0.0427807486631016}
{"step": 240908, "episode/length": 154.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.900000028312206, "episode/reward_rate": 0.04516129032258064}
{"step": 241075, "episode/length": 166.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.029940119760479042}
{"step": 241253, "episode/length": 177.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.099999994039536, "episode/reward_rate": 0.0449438202247191}
{"step": 241429, "episode/length": 175.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.045454545454545456}
{"step": 241584, "episode/length": 154.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.04516129032258064}
{"step": 241757, "episode/length": 172.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.900000028312206, "episode/reward_rate": 0.03468208092485549}
{"step": 241767, "stats/sum_log_reward": 5.899999952316284, "stats/max_log_achievement_collect_drink": 4.1, "stats/max_log_achievement_collect_sapling": 2.4, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 9.1, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.6, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_wood_pickaxe": 0.0, "stats/max_log_achievement_make_wood_sword": 1.1, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.2, "stats/mean_log_entropy": 0.3184395059943199, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.514265033560739, "train/action_min": 0.0, "train/action_std": 3.444712309770181, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04957710253730626, "train/actor_opt_grad_steps": 119980.0, "train/actor_opt_loss": -16.038100699303854, "train/adv_mag": 0.5330035405259737, "train/adv_max": 0.5026058411934007, "train/adv_mean": 0.0023969198161249154, "train/adv_min": -0.4241089321358103, "train/adv_std": 0.05720067370525548, "train/cont_avg": 0.9947870818661971, "train/cont_loss_mean": 0.00013084842659549008, "train/cont_loss_std": 0.0036230039386338487, "train/cont_neg_acc": 0.9976525827192925, "train/cont_neg_loss": 0.007972382167761834, "train/cont_pos_acc": 0.99997242403702, "train/cont_pos_loss": 8.426343491167623e-05, "train/cont_pred": 0.9947743340277336, "train/cont_rate": 0.9947870818661971, "train/dyn_loss_mean": 4.6307327142903505, "train/dyn_loss_std": 8.51513283689257, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0478004133197623, "train/extr_critic_critic_opt_grad_steps": 119980.0, "train/extr_critic_critic_opt_loss": 15739.176964128521, "train/extr_critic_mag": 7.002517216642138, "train/extr_critic_max": 7.002517216642138, "train/extr_critic_mean": 1.3766490531639315, "train/extr_critic_min": -0.6403182039798145, "train/extr_critic_std": 1.5118613142362782, "train/extr_return_normed_mag": 1.5953238446947555, "train/extr_return_normed_max": 1.5953238446947555, "train/extr_return_normed_mean": 0.332904984833489, "train/extr_return_normed_min": -0.15778707618444737, "train/extr_return_normed_std": 0.31741414796298656, "train/extr_return_rate": 0.6057952197504716, "train/extr_return_raw_mag": 7.512277764333805, "train/extr_return_raw_max": 7.512277764333805, "train/extr_return_raw_mean": 1.3882734716778071, "train/extr_return_raw_min": -0.9917097083279784, "train/extr_return_raw_std": 1.539948668278439, "train/extr_reward_mag": 1.025257711679163, "train/extr_reward_max": 1.025257711679163, "train/extr_reward_mean": 0.03564232537968898, "train/extr_reward_min": -0.6764445069810034, "train/extr_reward_std": 0.1879273296242029, "train/image_loss_mean": 2.6723598812667415, "train/image_loss_std": 7.331520224960757, "train/model_loss_mean": 5.494507467243033, "train/model_loss_std": 11.416946317108584, "train/model_opt_grad_norm": 31.958706573701242, "train/model_opt_grad_steps": 119882.0, "train/model_opt_loss": 12120.367999009683, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2200.7042253521126, "train/policy_entropy_mag": 2.3241320428713945, "train/policy_entropy_max": 2.3241320428713945, "train/policy_entropy_mean": 0.3684867481950303, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4528197427870522, "train/policy_logprob_mag": 7.438384156831553, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3691528964210564, "train/policy_logprob_min": -7.438384156831553, "train/policy_logprob_std": 0.980833820893731, "train/policy_randomness_mag": 0.820316621955012, "train/policy_randomness_max": 0.820316621955012, "train/policy_randomness_mean": 0.13005965234528125, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15982549805456484, "train/post_ent_mag": 55.45222322705766, "train/post_ent_max": 55.45222322705766, "train/post_ent_mean": 40.394392900063956, "train/post_ent_min": 18.37181588293801, "train/post_ent_std": 5.908258156037666, "train/prior_ent_mag": 75.7448598297549, "train/prior_ent_max": 75.7448598297549, "train/prior_ent_mean": 44.93589707495461, "train/prior_ent_min": 26.22287492349114, "train/prior_ent_std": 7.258142014624367, "train/rep_loss_mean": 4.6307327142903505, "train/rep_loss_std": 8.51513283689257, "train/reward_avg": 0.026352057338390553, "train/reward_loss_mean": 0.043577181122882266, "train/reward_loss_std": 0.1986764178309642, "train/reward_max_data": 1.016901412480314, "train/reward_max_pred": 1.013218622812083, "train/reward_neg_acc": 0.9956294482862446, "train/reward_neg_loss": 0.02097088466464004, "train/reward_pos_acc": 0.9845756905179628, "train/reward_pos_loss": 0.7569169486072701, "train/reward_pred": 0.026016058190397814, "train/reward_rate": 0.031098701584507043, "replay/size": 241704.0, "replay/inserts": 1426.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 3.7652078550962045e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2442365100641238e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3673982620239, "timer/env.step_count": 1426.0, "timer/env.step_total": 23.530513048171997, "timer/env.step_frac": 0.07833910465757431, "timer/env.step_avg": 0.016501061043598875, "timer/env.step_min": 0.003054380416870117, "timer/env.step_max": 1.77598237991333, "timer/replay.add_count": 1426.0, "timer/replay.add_total": 0.2705531120300293, "timer/replay.add_frac": 0.0009007406049907378, "timer/replay.add_avg": 0.00018972869006313414, "timer/replay.add_min": 7.915496826171875e-05, "timer/replay.add_max": 0.003149747848510742, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029119253158569336, "timer/logger.write_frac": 9.694545189344187e-05, "timer/logger.write_avg": 0.029119253158569336, "timer/logger.write_min": 0.029119253158569336, "timer/logger.write_max": 0.029119253158569336, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1426.0, "timer/agent.policy_total": 10.369860649108887, "timer/agent.policy_frac": 0.03452392206714389, "timer/agent.policy_avg": 0.007271992040048307, "timer/agent.policy_min": 0.005631446838378906, "timer/agent.policy_max": 0.017627954483032227, "timer/dataset_count": 713.0, "timer/dataset_total": 0.06567692756652832, "timer/dataset_frac": 0.00021865531328148802, "timer/dataset_avg": 9.21135028983567e-05, "timer/dataset_min": 6.890296936035156e-05, "timer/dataset_max": 0.0001957416534423828, "timer/agent.train_count": 713.0, "timer/agent.train_total": 265.4140453338623, "timer/agent.train_frac": 0.8836313357228262, "timer/agent.train_avg": 0.3722497129507185, "timer/agent.train_min": 0.36591076850891113, "timer/agent.train_max": 0.38831329345703125, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21918296813964844, "timer/agent.report_frac": 0.000729716238872387, "timer/agent.report_avg": 0.21918296813964844, "timer/agent.report_min": 0.21918296813964844, "timer/agent.report_max": 0.21918296813964844, "fps": 4.747437968682627}
{"step": 242129, "episode/length": 371.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.01881720430107527}
{"step": 242330, "episode/length": 200.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.03980099502487562}
{"step": 242507, "episode/length": 176.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.900000028312206, "episode/reward_rate": 0.03389830508474576}
{"step": 242697, "episode/length": 189.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.03684210526315789}
{"step": 242912, "episode/length": 214.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.04186046511627907}
{"step": 243081, "episode/length": 168.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.05325443786982249}
{"step": 243203, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.693186442057292, "train/action_min": 0.0, "train/action_std": 3.6844521198007794, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05454770051356819, "train/actor_opt_grad_steps": 120695.0, "train/actor_opt_loss": -12.217935326612658, "train/adv_mag": 0.5615005894667573, "train/adv_max": 0.5195536435478263, "train/adv_mean": 0.004310969855873105, "train/adv_min": -0.4674227283232742, "train/adv_std": 0.06124140166987976, "train/cont_avg": 0.9944254557291666, "train/cont_loss_mean": 1.3346296857551386e-05, "train/cont_loss_std": 0.00033214244476790594, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0016322250229197583, "train/cont_pos_acc": 0.999999982615312, "train/cont_pos_loss": 2.646777768017867e-06, "train/cont_pred": 0.9944326811366611, "train/cont_rate": 0.9944254557291666, "train/dyn_loss_mean": 4.561423381169637, "train/dyn_loss_std": 8.468557629320356, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.044858420888583, "train/extr_critic_critic_opt_grad_steps": 120695.0, "train/extr_critic_critic_opt_loss": 15996.104220920139, "train/extr_critic_mag": 7.3496620588832435, "train/extr_critic_max": 7.3496620588832435, "train/extr_critic_mean": 1.3977634285887082, "train/extr_critic_min": -0.6200931817293167, "train/extr_critic_std": 1.5600425120857027, "train/extr_return_normed_mag": 1.703250401549869, "train/extr_return_normed_max": 1.703250401549869, "train/extr_return_normed_mean": 0.33928292120496434, "train/extr_return_normed_min": -0.15483252321266466, "train/extr_return_normed_std": 0.3319254635522763, "train/extr_return_rate": 0.6087782453331683, "train/extr_return_raw_mag": 8.002202484342787, "train/extr_return_raw_max": 8.002202484342787, "train/extr_return_raw_mean": 1.4185779980487294, "train/extr_return_raw_min": -0.9667877381046613, "train/extr_return_raw_std": 1.6023333254787657, "train/extr_reward_mag": 1.034511258204778, "train/extr_reward_max": 1.034511258204778, "train/extr_reward_mean": 0.03752846645915674, "train/extr_reward_min": -0.6658179958661398, "train/extr_reward_std": 0.19286347635918194, "train/image_loss_mean": 2.6558223565419516, "train/image_loss_std": 7.484008418189155, "train/model_loss_mean": 5.436334636476305, "train/model_loss_std": 11.52684991227256, "train/model_opt_grad_norm": 37.28934517171648, "train/model_opt_grad_steps": 120596.375, "train/model_opt_loss": 11987.917168511285, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2187.5, "train/policy_entropy_mag": 2.31852548983362, "train/policy_entropy_max": 2.31852548983362, "train/policy_entropy_mean": 0.38895497222741443, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.47574571727050674, "train/policy_logprob_mag": 7.438384142186907, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3884467027253575, "train/policy_logprob_min": -7.438384142186907, "train/policy_logprob_std": 0.9928511041733954, "train/policy_randomness_mag": 0.8183377517594231, "train/policy_randomness_max": 0.8183377517594231, "train/policy_randomness_mean": 0.1372840352770355, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16791736003425387, "train/post_ent_mag": 55.373514811197914, "train/post_ent_max": 55.373514811197914, "train/post_ent_mean": 40.57266150580512, "train/post_ent_min": 19.16823697090149, "train/post_ent_std": 5.853696544965108, "train/prior_ent_mag": 75.71958933936224, "train/prior_ent_max": 75.71958933936224, "train/prior_ent_mean": 45.09740596347385, "train/prior_ent_min": 26.717590861850315, "train/prior_ent_std": 7.230305201477474, "train/rep_loss_mean": 4.561423381169637, "train/rep_loss_std": 8.468557629320356, "train/reward_avg": 0.026422796964955825, "train/reward_loss_mean": 0.04364493851446443, "train/reward_loss_std": 0.1895514429650373, "train/reward_max_data": 1.0166666706403096, "train/reward_max_pred": 1.017013086213006, "train/reward_neg_acc": 0.9953346583578322, "train/reward_neg_loss": 0.02140492039810245, "train/reward_pos_acc": 0.9879661293493377, "train/reward_pos_loss": 0.7351896257864105, "train/reward_pred": 0.026265167566533718, "train/reward_rate": 0.03127712673611111, "stats/sum_log_reward": 6.766666730244954, "stats/max_log_achievement_collect_drink": 4.666666666666667, "stats/max_log_achievement_collect_sapling": 2.1666666666666665, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 8.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 0.5, "stats/max_log_achievement_make_wood_sword": 1.5, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_table": 2.3333333333333335, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.4644315242767334, "replay/size": 243140.0, "replay/inserts": 1436.0, "replay/samples": 11488.0, "replay/insert_wait_avg": 3.7139172673557464e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2511994513296483e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.275887966156, "timer/env.step_count": 1436.0, "timer/env.step_total": 19.27185082435608, "timer/env.step_frac": 0.0641804806735871, "timer/env.step_avg": 0.013420508930610083, "timer/env.step_min": 0.003005504608154297, "timer/env.step_max": 2.0656211376190186, "timer/replay.add_count": 1436.0, "timer/replay.add_total": 0.2886807918548584, "timer/replay.add_frac": 0.00096138519083289, "timer/replay.add_avg": 0.00020103119209948357, "timer/replay.add_min": 7.534027099609375e-05, "timer/replay.add_max": 0.0076253414154052734, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03235888481140137, "timer/logger.write_frac": 0.00010776384687620514, "timer/logger.write_avg": 0.03235888481140137, "timer/logger.write_min": 0.03235888481140137, "timer/logger.write_max": 0.03235888481140137, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00044035911560058594, "timer/checkpoint.save_frac": 1.4665150724663536e-06, "timer/checkpoint.save_avg": 0.00044035911560058594, "timer/checkpoint.save_min": 0.00044035911560058594, "timer/checkpoint.save_max": 0.00044035911560058594, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.327566146850586, "timer/agent.save_frac": 0.004421154678261131, "timer/agent.save_avg": 1.327566146850586, "timer/agent.save_min": 1.327566146850586, "timer/agent.save_max": 1.327566146850586, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.344650268554688e-05, "timer/replay.save_frac": 2.7789944524267665e-07, "timer/replay.save_avg": 8.344650268554688e-05, "timer/replay.save_min": 8.344650268554688e-05, "timer/replay.save_max": 8.344650268554688e-05, "timer/agent.policy_count": 1436.0, "timer/agent.policy_total": 12.273540019989014, "timer/agent.policy_frac": 0.04087421105677443, "timer/agent.policy_avg": 0.00854703344010377, "timer/agent.policy_min": 0.005609035491943359, "timer/agent.policy_max": 1.3229708671569824, "timer/dataset_count": 718.0, "timer/dataset_total": 0.06524229049682617, "timer/dataset_frac": 0.00021727449026536427, "timer/dataset_avg": 9.086669985630386e-05, "timer/dataset_min": 6.222724914550781e-05, "timer/dataset_max": 0.0002028942108154297, "timer/agent.train_count": 718.0, "timer/agent.train_total": 267.6645929813385, "timer/agent.train_frac": 0.8913955589118328, "timer/agent.train_avg": 0.37279191223027647, "timer/agent.train_min": 0.36463356018066406, "timer/agent.train_max": 0.8522129058837891, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22298455238342285, "timer/agent.report_frac": 0.0007425989275854056, "timer/agent.report_avg": 0.22298455238342285, "timer/agent.report_min": 0.22298455238342285, "timer/agent.report_max": 0.22298455238342285, "fps": 4.78220541511465}
{"step": 243265, "episode/length": 183.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.04891304347826087}
{"step": 243460, "episode/length": 194.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.041025641025641026}
{"step": 243675, "episode/length": 214.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.03255813953488372}
{"step": 243866, "episode/length": 190.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.03664921465968586}
{"step": 244024, "episode/length": 157.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.0379746835443038}
{"step": 244223, "episode/length": 198.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.100000038743019, "episode/reward_rate": 0.04522613065326633}
{"step": 244401, "episode/length": 177.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.03932584269662921}
{"step": 244591, "episode/length": 189.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.042105263157894736}
{"step": 244647, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.743288675944011, "train/action_min": 0.0, "train/action_std": 3.5779131717152066, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05179981799382302, "train/actor_opt_grad_steps": 121415.0, "train/actor_opt_loss": -8.775036923794282, "train/adv_mag": 0.5712992168135114, "train/adv_max": 0.5343987233936787, "train/adv_mean": 0.0050927265304684015, "train/adv_min": -0.433868913186921, "train/adv_std": 0.05892867884702153, "train/cont_avg": 0.9943576388888888, "train/cont_loss_mean": 4.761696928268222e-05, "train/cont_loss_std": 0.001514770553486539, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.002799324281726159, "train/cont_pos_acc": 0.9999863124556012, "train/cont_pos_loss": 2.924259191824004e-05, "train/cont_pred": 0.9943602598375745, "train/cont_rate": 0.9943576388888888, "train/dyn_loss_mean": 4.5890206760830345, "train/dyn_loss_std": 8.5251741276847, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.083691073788537, "train/extr_critic_critic_opt_grad_steps": 121415.0, "train/extr_critic_critic_opt_loss": 16043.671440972223, "train/extr_critic_mag": 7.543429791927338, "train/extr_critic_max": 7.543429791927338, "train/extr_critic_mean": 1.512958233555158, "train/extr_critic_min": -0.6447907156414456, "train/extr_critic_std": 1.5912519014543958, "train/extr_return_normed_mag": 1.6823735932509105, "train/extr_return_normed_max": 1.6823735932509105, "train/extr_return_normed_mean": 0.3597564709683259, "train/extr_return_normed_min": -0.1615585144609213, "train/extr_return_normed_std": 0.3307211502558655, "train/extr_return_rate": 0.6634648433989949, "train/extr_return_raw_mag": 8.03733977344301, "train/extr_return_raw_max": 8.03733977344301, "train/extr_return_raw_mean": 1.537970362438096, "train/extr_return_raw_min": -1.0235492860277493, "train/extr_return_raw_std": 1.6256629046466615, "train/extr_reward_mag": 1.036734037929111, "train/extr_reward_max": 1.036734037929111, "train/extr_reward_mean": 0.036524925432685346, "train/extr_reward_min": -0.6712941080331802, "train/extr_reward_std": 0.19023194226125875, "train/image_loss_mean": 2.635248377919197, "train/image_loss_std": 7.332530743545956, "train/model_loss_mean": 5.433677103784349, "train/model_loss_std": 11.426648219426474, "train/model_opt_grad_norm": 37.232328944736054, "train/model_opt_grad_steps": 121315.0, "train/model_opt_loss": 6792.096381293402, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.2994657357533774, "train/policy_entropy_max": 2.2994657357533774, "train/policy_entropy_mean": 0.36196813732385635, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4335927433437771, "train/policy_logprob_mag": 7.43838412894143, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36222728797131115, "train/policy_logprob_min": -7.43838412894143, "train/policy_logprob_std": 0.9718398369020886, "train/policy_randomness_mag": 0.8116104958785905, "train/policy_randomness_max": 0.8116104958785905, "train/policy_randomness_mean": 0.12775886793517405, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15303920871681637, "train/post_ent_mag": 55.40427176157633, "train/post_ent_max": 55.40427176157633, "train/post_ent_mean": 40.46383682886759, "train/post_ent_min": 19.00327628188663, "train/post_ent_std": 5.922038555145264, "train/prior_ent_mag": 75.70262188381619, "train/prior_ent_max": 75.70262188381619, "train/prior_ent_mean": 44.996937645806206, "train/prior_ent_min": 25.938883463541668, "train/prior_ent_std": 7.306627028518253, "train/rep_loss_mean": 4.5890206760830345, "train/rep_loss_std": 8.5251741276847, "train/reward_avg": 0.026456705385094717, "train/reward_loss_mean": 0.044968763262861304, "train/reward_loss_std": 0.19138488049308458, "train/reward_max_data": 1.0194444490803614, "train/reward_max_pred": 1.017897594306204, "train/reward_neg_acc": 0.9952958913313018, "train/reward_neg_loss": 0.022458905082506437, "train/reward_pos_acc": 0.9886519445313348, "train/reward_pos_loss": 0.7286364676223861, "train/reward_pred": 0.026256299681133695, "train/reward_rate": 0.031697591145833336, "stats/sum_log_reward": 6.7250001430511475, "stats/max_log_achievement_collect_drink": 3.125, "stats/max_log_achievement_collect_sapling": 1.625, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 7.75, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.75, "stats/max_log_achievement_make_wood_sword": 1.125, "stats/max_log_achievement_place_plant": 1.625, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.375, "stats/mean_log_entropy": 0.3162951394915581, "replay/size": 244584.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.6629613416677035e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2228033219017812e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2334702014923, "timer/env.step_count": 1444.0, "timer/env.step_total": 20.17681336402893, "timer/env.step_frac": 0.06720374430768127, "timer/env.step_avg": 0.013972862440463248, "timer/env.step_min": 0.0029227733612060547, "timer/env.step_max": 1.7148573398590088, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.25229406356811523, "timer/replay.add_frac": 0.0008403262414373586, "timer/replay.add_avg": 0.00017471888058733743, "timer/replay.add_min": 7.534027099609375e-05, "timer/replay.add_max": 0.0010864734649658203, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026979446411132812, "timer/logger.write_frac": 8.98615547194868e-05, "timer/logger.write_avg": 0.026979446411132812, "timer/logger.write_min": 0.026979446411132812, "timer/logger.write_max": 0.026979446411132812, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.361161470413208, "timer/agent.policy_frac": 0.034510347775215194, "timer/agent.policy_avg": 0.007175319577848482, "timer/agent.policy_min": 0.005682706832885742, "timer/agent.policy_max": 0.017390727996826172, "timer/dataset_count": 722.0, "timer/dataset_total": 0.06406021118164062, "timer/dataset_frac": 0.00021336798704904092, "timer/dataset_avg": 8.872605426820032e-05, "timer/dataset_min": 7.009506225585938e-05, "timer/dataset_max": 0.00016450881958007812, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.66235733032227, "timer/agent.train_frac": 0.894844792454412, "timer/agent.train_avg": 0.3721085281583411, "timer/agent.train_min": 0.3659188747406006, "timer/agent.train_max": 0.3838942050933838, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22138428688049316, "timer/agent.report_frac": 0.0007373737735899932, "timer/agent.report_avg": 0.22138428688049316, "timer/agent.report_min": 0.22138428688049316, "timer/agent.report_max": 0.22138428688049316, "fps": 4.809495972371941}
{"step": 244765, "episode/length": 173.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.04597701149425287}
{"step": 244933, "episode/length": 167.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.500000022351742, "episode/reward_rate": 0.041666666666666664}
{"step": 245058, "episode/length": 124.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.056}
{"step": 245226, "episode/length": 167.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.900000013411045, "episode/reward_rate": 0.05357142857142857}
{"step": 245389, "episode/length": 162.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.049079754601226995}
{"step": 245622, "episode/length": 232.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 9.30000003427267, "episode/reward_rate": 0.034334763948497854}
{"step": 245791, "episode/length": 168.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.05917159763313609}
{"step": 245984, "episode/length": 192.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.03626943005181347}
{"step": 246091, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.630410936143663, "train/action_min": 0.0, "train/action_std": 3.5985284977489047, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05155436435921325, "train/actor_opt_grad_steps": 122135.0, "train/actor_opt_loss": -12.586216832200686, "train/adv_mag": 0.5822777272098594, "train/adv_max": 0.5376716848048899, "train/adv_mean": 0.004167937539477862, "train/adv_min": -0.4627821449604299, "train/adv_std": 0.059625231091760926, "train/cont_avg": 0.9941813151041666, "train/cont_loss_mean": 2.9636410266863244e-06, "train/cont_loss_std": 9.117059114909725e-05, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0001618334494363833, "train/cont_pos_acc": 0.9999999809596274, "train/cont_pos_loss": 1.7007219418700241e-06, "train/cont_pred": 0.9941809111171298, "train/cont_rate": 0.9941813151041666, "train/dyn_loss_mean": 4.531615452633964, "train/dyn_loss_std": 8.487396154138777, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0613210168149736, "train/extr_critic_critic_opt_grad_steps": 122135.0, "train/extr_critic_critic_opt_loss": 15707.592990451389, "train/extr_critic_mag": 7.843370583322313, "train/extr_critic_max": 7.843370583322313, "train/extr_critic_mean": 1.7153367582294676, "train/extr_critic_min": -0.6266025255123774, "train/extr_critic_std": 1.6705290145344205, "train/extr_return_normed_mag": 1.7225859347316954, "train/extr_return_normed_max": 1.7225859347316954, "train/extr_return_normed_mean": 0.3855382237169478, "train/extr_return_normed_min": -0.14452367896835008, "train/extr_return_normed_std": 0.3363092765212059, "train/extr_return_rate": 0.6923502956827482, "train/extr_return_raw_mag": 8.549390547805363, "train/extr_return_raw_max": 8.549390547805363, "train/extr_return_raw_mean": 1.7365613447295294, "train/extr_return_raw_min": -0.9630235723323293, "train/extr_return_raw_std": 1.7131818301147885, "train/extr_reward_mag": 1.0306229922506545, "train/extr_reward_max": 1.0306229922506545, "train/extr_reward_mean": 0.03862558281980455, "train/extr_reward_min": -0.6306822250286738, "train/extr_reward_std": 0.19457057283984291, "train/image_loss_mean": 2.528745593296157, "train/image_loss_std": 7.190927763779958, "train/model_loss_mean": 5.292493810256322, "train/model_loss_std": 11.28151680363549, "train/model_opt_grad_norm": 36.666887044906616, "train/model_opt_grad_steps": 122034.58333333333, "train/model_opt_loss": 9644.421196831598, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1840.2777777777778, "train/policy_entropy_mag": 2.291896618074841, "train/policy_entropy_max": 2.291896618074841, "train/policy_entropy_mean": 0.3649011424018277, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4427786481877168, "train/policy_logprob_mag": 7.438384162055121, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3659341124196847, "train/policy_logprob_min": -7.438384162055121, "train/policy_logprob_std": 0.9750547019971741, "train/policy_randomness_mag": 0.8089389296041595, "train/policy_randomness_max": 0.8089389296041595, "train/policy_randomness_mean": 0.12879408864925304, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15628143317169613, "train/post_ent_mag": 54.690866470336914, "train/post_ent_max": 54.690866470336914, "train/post_ent_mean": 40.34676133261787, "train/post_ent_min": 18.75174343585968, "train/post_ent_std": 5.846101529068417, "train/prior_ent_mag": 75.74771870507135, "train/prior_ent_max": 75.74771870507135, "train/prior_ent_mean": 44.83104292551676, "train/prior_ent_min": 25.98512993918525, "train/prior_ent_std": 7.269611067242092, "train/rep_loss_mean": 4.531615452633964, "train/rep_loss_std": 8.487396154138777, "train/reward_avg": 0.028123643624389336, "train/reward_loss_mean": 0.044776010068340436, "train/reward_loss_std": 0.19537902685503164, "train/reward_max_data": 1.0166666706403096, "train/reward_max_pred": 1.0168911897473865, "train/reward_neg_acc": 0.995653343697389, "train/reward_neg_loss": 0.021052772890672915, "train/reward_pos_acc": 0.9869873896241188, "train/reward_pos_loss": 0.7375562613209089, "train/reward_pred": 0.02785723053643273, "train/reward_rate": 0.03323025173611111, "stats/sum_log_reward": 6.975000083446503, "stats/max_log_achievement_collect_drink": 2.625, "stats/max_log_achievement_collect_sapling": 1.75, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 8.625, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.625, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_wood_pickaxe": 0.75, "stats/max_log_achievement_make_wood_sword": 1.375, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_table": 2.75, "stats/max_log_achievement_wake_up": 1.375, "stats/mean_log_entropy": 0.3643546551465988, "replay/size": 246028.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.7162918133088428e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2413781765755524e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.06565165519714, "timer/env.step_count": 1444.0, "timer/env.step_total": 19.956356048583984, "timer/env.step_frac": 0.06650663259357542, "timer/env.step_avg": 0.01382019116937949, "timer/env.step_min": 0.003149747848510742, "timer/env.step_max": 1.7203636169433594, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.28742456436157227, "timer/replay.add_frac": 0.000957872261540449, "timer/replay.add_avg": 0.00019904748224485613, "timer/replay.add_min": 7.796287536621094e-05, "timer/replay.add_max": 0.010041475296020508, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02736949920654297, "timer/logger.write_frac": 9.121170335748066e-05, "timer/logger.write_avg": 0.02736949920654297, "timer/logger.write_min": 0.02736949920654297, "timer/logger.write_max": 0.02736949920654297, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.454944133758545, "timer/agent.policy_frac": 0.03484218895460994, "timer/agent.policy_avg": 0.00724026602060841, "timer/agent.policy_min": 0.005689144134521484, "timer/agent.policy_max": 0.02237224578857422, "timer/dataset_count": 722.0, "timer/dataset_total": 0.06559300422668457, "timer/dataset_frac": 0.0002185955102320639, "timer/dataset_avg": 9.084903632504788e-05, "timer/dataset_min": 6.580352783203125e-05, "timer/dataset_max": 0.00020456314086914062, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.58079266548157, "timer/agent.train_frac": 0.8950734320438164, "timer/agent.train_avg": 0.37199555770842324, "timer/agent.train_min": 0.36339616775512695, "timer/agent.train_max": 0.3841521739959717, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22503328323364258, "timer/agent.report_frac": 0.0007499468266105525, "timer/agent.report_avg": 0.22503328323364258, "timer/agent.report_min": 0.22503328323364258, "timer/agent.report_max": 0.22503328323364258, "fps": 4.812181151507649}
{"step": 246148, "episode/length": 163.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.06707317073170732}
{"step": 246315, "episode/length": 166.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.04790419161676647}
{"step": 246455, "episode/length": 139.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.03571428571428571}
{"step": 246645, "episode/length": 189.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.03684210526315789}
{"step": 246742, "episode/length": 96.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.08247422680412371}
{"step": 246911, "episode/length": 168.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.03550295857988166}
{"step": 247081, "episode/length": 169.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 9.10000005364418, "episode/reward_rate": 0.041176470588235294}
{"step": 247238, "episode/length": 156.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.050955414012738856}
{"step": 247418, "episode/length": 179.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.044444444444444446}
{"step": 247501, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.607564576914613, "train/action_min": 0.0, "train/action_std": 3.5313043829420923, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05008643367130992, "train/actor_opt_grad_steps": 122850.0, "train/actor_opt_loss": -16.571080446243286, "train/adv_mag": 0.5481148009568872, "train/adv_max": 0.5109050252907713, "train/adv_mean": 0.002332427169292227, "train/adv_min": -0.43952803712495614, "train/adv_std": 0.056790476323853076, "train/cont_avg": 0.9939343089788732, "train/cont_loss_mean": 0.00016334679854292588, "train/cont_loss_std": 0.005133275254017833, "train/cont_neg_acc": 0.9982394366197183, "train/cont_neg_loss": 0.0028047926352595003, "train/cont_pos_acc": 0.9999861188337836, "train/cont_pos_loss": 0.00014363879684024865, "train/cont_pred": 0.9939258896129232, "train/cont_rate": 0.9939343089788732, "train/dyn_loss_mean": 4.6983906920527065, "train/dyn_loss_std": 8.511344842507805, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0406585369311587, "train/extr_critic_critic_opt_grad_steps": 122850.0, "train/extr_critic_critic_opt_loss": 15734.125041263203, "train/extr_critic_mag": 7.8532264467696065, "train/extr_critic_max": 7.8532264467696065, "train/extr_critic_mean": 1.713853117445825, "train/extr_critic_min": -0.6166950346718372, "train/extr_critic_std": 1.7337964655647815, "train/extr_return_normed_mag": 1.6348584487404623, "train/extr_return_normed_max": 1.6348584487404623, "train/extr_return_normed_mean": 0.36919377681235194, "train/extr_return_normed_min": -0.13853213364179706, "train/extr_return_normed_std": 0.3331149203676573, "train/extr_return_rate": 0.6553752531468029, "train/extr_return_raw_mag": 8.447712199788699, "train/extr_return_raw_max": 8.447712199788699, "train/extr_return_raw_mean": 1.7261648614641647, "train/extr_return_raw_min": -0.9707422944861399, "train/extr_return_raw_std": 1.7698060072643655, "train/extr_reward_mag": 1.025390537691788, "train/extr_reward_max": 1.025390537691788, "train/extr_reward_mean": 0.036431095287413666, "train/extr_reward_min": -0.6526243048654475, "train/extr_reward_std": 0.19026553253052939, "train/image_loss_mean": 2.666041612625122, "train/image_loss_std": 7.449809997854098, "train/model_loss_mean": 5.530773515432653, "train/model_loss_std": 11.51054025032151, "train/model_opt_grad_norm": 36.44029794612401, "train/model_opt_grad_steps": 122749.0, "train/model_opt_loss": 7060.925416758363, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1267.605633802817, "train/policy_entropy_mag": 2.2783190330988923, "train/policy_entropy_max": 2.2783190330988923, "train/policy_entropy_mean": 0.36087381587901585, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.44054488648831003, "train/policy_logprob_mag": 7.438384150115537, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36122054365319267, "train/policy_logprob_min": -7.438384150115537, "train/policy_logprob_std": 0.9677385259682024, "train/policy_randomness_mag": 0.8041466340212755, "train/policy_randomness_max": 0.8041466340212755, "train/policy_randomness_mean": 0.12737262102080063, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1554930138755852, "train/post_ent_mag": 55.18821222009793, "train/post_ent_max": 55.18821222009793, "train/post_ent_mean": 40.33053954218475, "train/post_ent_min": 18.749903826646403, "train/post_ent_std": 5.813729440662223, "train/prior_ent_mag": 75.8386552837533, "train/prior_ent_max": 75.8386552837533, "train/prior_ent_mean": 44.9987312101982, "train/prior_ent_min": 26.450858398222586, "train/prior_ent_std": 7.2882026349994495, "train/rep_loss_mean": 4.6983906920527065, "train/rep_loss_std": 8.511344842507805, "train/reward_avg": 0.02671792474903271, "train/reward_loss_mean": 0.045534104659733635, "train/reward_loss_std": 0.196143723079856, "train/reward_max_data": 1.0112676083202092, "train/reward_max_pred": 1.0113936830574357, "train/reward_neg_acc": 0.9953438379395176, "train/reward_neg_loss": 0.02202376251069593, "train/reward_pos_acc": 0.9800457198854903, "train/reward_pos_loss": 0.7599898039455145, "train/reward_pred": 0.02624000796497288, "train/reward_rate": 0.032061509683098594, "stats/sum_log_reward": 6.544444508022732, "stats/max_log_achievement_collect_drink": 2.2222222222222223, "stats/max_log_achievement_collect_sapling": 2.5555555555555554, "stats/max_log_achievement_collect_stone": 0.1111111111111111, "stats/max_log_achievement_collect_wood": 8.222222222222221, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.2222222222222222, "stats/max_log_achievement_eat_cow": 0.2222222222222222, "stats/max_log_achievement_make_wood_pickaxe": 1.8888888888888888, "stats/max_log_achievement_make_wood_sword": 0.8888888888888888, "stats/max_log_achievement_place_plant": 2.111111111111111, "stats/max_log_achievement_place_table": 2.2222222222222223, "stats/max_log_achievement_wake_up": 1.4444444444444444, "stats/mean_log_entropy": 0.34531591998206246, "replay/size": 247438.0, "replay/inserts": 1410.0, "replay/samples": 11280.0, "replay/insert_wait_avg": 3.72051347232034e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.228468637939886e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 299.9893901348114, "timer/env.step_count": 1410.0, "timer/env.step_total": 24.517521858215332, "timer/env.step_frac": 0.08172796326962588, "timer/env.step_avg": 0.017388313374620802, "timer/env.step_min": 0.0028650760650634766, "timer/env.step_max": 2.725926399230957, "timer/replay.add_count": 1410.0, "timer/replay.add_total": 0.2621023654937744, "timer/replay.add_frac": 0.0008737054513027577, "timer/replay.add_avg": 0.0001858882024778542, "timer/replay.add_min": 7.224082946777344e-05, "timer/replay.add_max": 0.00599217414855957, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028246164321899414, "timer/logger.write_frac": 9.415721105738423e-05, "timer/logger.write_avg": 0.028246164321899414, "timer/logger.write_min": 0.028246164321899414, "timer/logger.write_max": 0.028246164321899414, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003933906555175781, "timer/checkpoint.save_frac": 1.311348562496805e-06, "timer/checkpoint.save_avg": 0.0003933906555175781, "timer/checkpoint.save_min": 0.0003933906555175781, "timer/checkpoint.save_max": 0.0003933906555175781, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4289281368255615, "timer/agent.save_frac": 0.004763262247986236, "timer/agent.save_avg": 1.4289281368255615, "timer/agent.save_min": 1.4289281368255615, "timer/agent.save_max": 1.4289281368255615, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.584426879882812e-05, "timer/replay.save_frac": 3.194921952264943e-07, "timer/replay.save_avg": 9.584426879882812e-05, "timer/replay.save_min": 9.584426879882812e-05, "timer/replay.save_max": 9.584426879882812e-05, "timer/agent.policy_count": 1410.0, "timer/agent.policy_total": 11.574899435043335, "timer/agent.policy_frac": 0.03858436269976656, "timer/agent.policy_avg": 0.008209148535491727, "timer/agent.policy_min": 0.005671977996826172, "timer/agent.policy_max": 1.4283876419067383, "timer/dataset_count": 705.0, "timer/dataset_total": 0.06450486183166504, "timer/dataset_frac": 0.00021502381068436247, "timer/dataset_avg": 9.149625791725538e-05, "timer/dataset_min": 7.152557373046875e-05, "timer/dataset_max": 0.00023031234741210938, "timer/agent.train_count": 705.0, "timer/agent.train_total": 262.85893964767456, "timer/agent.train_frac": 0.8762274543427989, "timer/agent.train_avg": 0.3728495597839355, "timer/agent.train_min": 0.36592841148376465, "timer/agent.train_max": 0.8848850727081299, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21848773956298828, "timer/agent.report_frac": 0.0007283182230704982, "timer/agent.report_avg": 0.21848773956298828, "timer/agent.report_min": 0.21848773956298828, "timer/agent.report_max": 0.21848773956298828, "fps": 4.700095205328141}
{"step": 247574, "episode/length": 155.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.500000022351742, "episode/reward_rate": 0.05128205128205128}
{"step": 247769, "episode/length": 194.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.05128205128205128}
{"step": 247903, "episode/length": 133.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 7.700000025331974, "episode/reward_rate": 0.05223880597014925}
{"step": 248132, "episode/length": 228.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.039301310043668124}
{"step": 248289, "episode/length": 156.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.044585987261146494}
{"step": 248550, "episode/length": 260.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.034482758620689655}
{"step": 248703, "episode/length": 152.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.0457516339869281}
{"step": 248882, "episode/length": 178.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.099999994039536, "episode/reward_rate": 0.05027932960893855}
{"step": 248943, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.549802992078993, "train/action_min": 0.0, "train/action_std": 3.5013873212867312, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0477106042413248, "train/actor_opt_grad_steps": 123565.0, "train/actor_opt_loss": -16.377454923258888, "train/adv_mag": 0.521744341072109, "train/adv_max": 0.4913218642274539, "train/adv_mean": 0.0015080697339252918, "train/adv_min": -0.4372336309817102, "train/adv_std": 0.0542444514317645, "train/cont_avg": 0.9943440755208334, "train/cont_loss_mean": 0.00010297870719355728, "train/cont_loss_std": 0.003178499495246475, "train/cont_neg_acc": 0.9918981492519379, "train/cont_neg_loss": 0.01575595672817877, "train/cont_pos_acc": 0.9999863670931922, "train/cont_pos_loss": 2.3826368807020356e-05, "train/cont_pred": 0.9943632392419709, "train/cont_rate": 0.9943440755208334, "train/dyn_loss_mean": 4.744970917701721, "train/dyn_loss_std": 8.598657773600685, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9943332084351115, "train/extr_critic_critic_opt_grad_steps": 123565.0, "train/extr_critic_critic_opt_loss": 15527.560004340277, "train/extr_critic_mag": 7.752188788519965, "train/extr_critic_max": 7.752188788519965, "train/extr_critic_mean": 1.6931948620412085, "train/extr_critic_min": -0.6316375037034353, "train/extr_critic_std": 1.7523133489820693, "train/extr_return_normed_mag": 1.59093100991514, "train/extr_return_normed_max": 1.59093100991514, "train/extr_return_normed_mean": 0.3581031846503417, "train/extr_return_normed_min": -0.13095937689973247, "train/extr_return_normed_std": 0.3260958848728074, "train/extr_return_rate": 0.6402280781832006, "train/extr_return_raw_mag": 8.44786877102322, "train/extr_return_raw_max": 8.44786877102322, "train/extr_return_raw_mean": 1.70144289235274, "train/extr_return_raw_min": -0.9751159962680604, "train/extr_return_raw_std": 1.784643977880478, "train/extr_reward_mag": 1.0199695295757718, "train/extr_reward_max": 1.0199695295757718, "train/extr_reward_mean": 0.0365531123501973, "train/extr_reward_min": -0.6376123163435194, "train/extr_reward_std": 0.191030357653896, "train/image_loss_mean": 2.7535143527719708, "train/image_loss_std": 7.4645028246773615, "train/model_loss_mean": 5.644969728257921, "train/model_loss_std": 11.561824878056845, "train/model_opt_grad_norm": 36.63570589489407, "train/model_opt_grad_steps": 123463.90277777778, "train/model_opt_loss": 13385.000637478299, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2378.472222222222, "train/policy_entropy_mag": 2.277737660540475, "train/policy_entropy_max": 2.277737660540475, "train/policy_entropy_mean": 0.3594271486832036, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4375946848756737, "train/policy_logprob_mag": 7.438384175300598, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3601004009445508, "train/policy_logprob_min": -7.438384175300598, "train/policy_logprob_std": 0.9697499258650674, "train/policy_randomness_mag": 0.8039414385954539, "train/policy_randomness_max": 0.8039414385954539, "train/policy_randomness_mean": 0.1268620098837548, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15445172041654587, "train/post_ent_mag": 55.24560080634223, "train/post_ent_max": 55.24560080634223, "train/post_ent_mean": 40.50004275639852, "train/post_ent_min": 18.63991051250034, "train/post_ent_std": 5.886971056461334, "train/prior_ent_mag": 75.65838199191623, "train/prior_ent_max": 75.65838199191623, "train/prior_ent_mean": 45.1933921708001, "train/prior_ent_min": 27.36518669128418, "train/prior_ent_std": 7.253312706947327, "train/rep_loss_mean": 4.744970917701721, "train/rep_loss_std": 8.598657773600685, "train/reward_avg": 0.027035861437778093, "train/reward_loss_mean": 0.04436984290886256, "train/reward_loss_std": 0.1872807155466742, "train/reward_max_data": 1.0097222245401807, "train/reward_max_pred": 1.0099849336677127, "train/reward_neg_acc": 0.9956009992294841, "train/reward_neg_loss": 0.021491023285004, "train/reward_pos_acc": 0.9892206481761403, "train/reward_pos_loss": 0.7304599293404155, "train/reward_pred": 0.02675984629119436, "train/reward_rate": 0.03221299913194445, "stats/sum_log_reward": 7.225000083446503, "stats/max_log_achievement_collect_drink": 3.5, "stats/max_log_achievement_collect_sapling": 1.75, "stats/max_log_achievement_collect_stone": 0.75, "stats/max_log_achievement_collect_wood": 9.375, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.625, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.375, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_plant": 1.375, "stats/max_log_achievement_place_table": 2.375, "stats/max_log_achievement_wake_up": 1.125, "stats/mean_log_entropy": 0.3964673653244972, "replay/size": 248880.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.677135367003294e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.249196790623764e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.15514087677, "timer/env.step_count": 1442.0, "timer/env.step_total": 20.595504760742188, "timer/env.step_frac": 0.06861619861176312, "timer/env.step_avg": 0.014282596921457828, "timer/env.step_min": 0.003172636032104492, "timer/env.step_max": 1.8500845432281494, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.25747084617614746, "timer/replay.add_frac": 0.0008577925582885593, "timer/replay.add_avg": 0.00017855121094046287, "timer/replay.add_min": 7.104873657226562e-05, "timer/replay.add_max": 0.0058040618896484375, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030870437622070312, "timer/logger.write_frac": 0.00010284827216983867, "timer/logger.write_avg": 0.030870437622070312, "timer/logger.write_min": 0.030870437622070312, "timer/logger.write_max": 0.030870437622070312, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 10.359830141067505, "timer/agent.policy_frac": 0.03451491822131002, "timer/agent.policy_avg": 0.007184348225428228, "timer/agent.policy_min": 0.005658149719238281, "timer/agent.policy_max": 0.016912221908569336, "timer/dataset_count": 721.0, "timer/dataset_total": 0.06569051742553711, "timer/dataset_frac": 0.00021885521345278784, "timer/dataset_avg": 9.11102876914523e-05, "timer/dataset_min": 6.532669067382812e-05, "timer/dataset_max": 0.00022673606872558594, "timer/agent.train_count": 721.0, "timer/agent.train_total": 268.15836119651794, "timer/agent.train_frac": 0.893399194873732, "timer/agent.train_avg": 0.3719256049882357, "timer/agent.train_min": 0.3640470504760742, "timer/agent.train_max": 0.3850860595703125, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22031474113464355, "timer/agent.report_frac": 0.0007340028909419702, "timer/agent.report_avg": 0.22031474113464355, "timer/agent.report_min": 0.22031474113464355, "timer/agent.report_max": 0.22031474113464355, "fps": 4.804104918885439}
{"step": 249065, "episode/length": 182.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03278688524590164}
{"step": 249236, "episode/length": 170.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.099999994039536, "episode/reward_rate": 0.05263157894736842}
{"step": 249280, "episode/length": 43.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.13636363636363635}
{"step": 249525, "episode/length": 244.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.036734693877551024}
{"step": 249723, "episode/length": 197.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.700000025331974, "episode/reward_rate": 0.045454545454545456}
{"step": 249808, "episode/length": 84.0, "episode/score": 5.100000023841858, "episode/sum_abs_reward": 6.5, "episode/reward_rate": 0.08235294117647059}
{"step": 249990, "episode/length": 181.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.038461538461538464}
{"step": 250179, "episode/length": 188.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.047619047619047616}
{"step": 250385, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.572090148925781, "train/action_min": 0.0, "train/action_std": 3.621995528539022, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04851188019124998, "train/actor_opt_grad_steps": 124285.0, "train/actor_opt_loss": -16.277434474892086, "train/adv_mag": 0.498908881098032, "train/adv_max": 0.46309004061751896, "train/adv_mean": 0.0018477461213074599, "train/adv_min": -0.4243854040073024, "train/adv_std": 0.05543480684152908, "train/cont_avg": 0.9944118923611112, "train/cont_loss_mean": 8.713035201976834e-06, "train/cont_loss_std": 0.00015303755226941322, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00018246316715754397, "train/cont_pos_acc": 0.9999999809596274, "train/cont_pos_loss": 7.751438057251252e-06, "train/cont_pred": 0.9944053226047092, "train/cont_rate": 0.9944118923611112, "train/dyn_loss_mean": 4.534303377072017, "train/dyn_loss_std": 8.469542470243242, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0434065668119326, "train/extr_critic_critic_opt_grad_steps": 124285.0, "train/extr_critic_critic_opt_loss": 15752.984402126736, "train/extr_critic_mag": 7.672374626000722, "train/extr_critic_max": 7.672374626000722, "train/extr_critic_mean": 1.5935781233840518, "train/extr_critic_min": -0.6338422877920998, "train/extr_critic_std": 1.7383426411284342, "train/extr_return_normed_mag": 1.5761960165368185, "train/extr_return_normed_max": 1.5761960165368185, "train/extr_return_normed_mean": 0.3435707382029957, "train/extr_return_normed_min": -0.13774110526881284, "train/extr_return_normed_std": 0.32622527041369015, "train/extr_return_rate": 0.6187825815545188, "train/extr_return_raw_mag": 8.279725319809383, "train/extr_return_raw_max": 8.279725319809383, "train/extr_return_raw_mean": 1.603552468948894, "train/extr_return_raw_min": -1.0032380570967991, "train/extr_return_raw_std": 1.766756726635827, "train/extr_reward_mag": 1.033615122238795, "train/extr_reward_max": 1.033615122238795, "train/extr_reward_mean": 0.03640575613826513, "train/extr_reward_min": -0.6482732478115294, "train/extr_reward_std": 0.1899891777171029, "train/image_loss_mean": 2.7958705408705606, "train/image_loss_std": 7.794338504473369, "train/model_loss_mean": 5.561047977871365, "train/model_loss_std": 11.770070883962843, "train/model_opt_grad_norm": 37.51109875573052, "train/model_opt_grad_steps": 124183.0, "train/model_opt_loss": 6951.309950086806, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.3134819997681513, "train/policy_entropy_max": 2.3134819997681513, "train/policy_entropy_mean": 0.3898267729414834, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.47292256396677756, "train/policy_logprob_mag": 7.4383841090732155, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3900090062783824, "train/policy_logprob_min": -7.4383841090732155, "train/policy_logprob_std": 0.992487339509858, "train/policy_randomness_mag": 0.8165576234459877, "train/policy_randomness_max": 0.8165576234459877, "train/policy_randomness_mean": 0.13759174446264902, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16692091317640412, "train/post_ent_mag": 55.30476427078247, "train/post_ent_max": 55.30476427078247, "train/post_ent_mean": 40.60244788063897, "train/post_ent_min": 18.948167814148796, "train/post_ent_std": 5.939679655763838, "train/prior_ent_mag": 75.86944897969563, "train/prior_ent_max": 75.86944897969563, "train/prior_ent_mean": 45.08899741702609, "train/prior_ent_min": 26.616240978240967, "train/prior_ent_std": 7.29552976290385, "train/rep_loss_mean": 4.534303377072017, "train/rep_loss_std": 8.469542470243242, "train/reward_avg": 0.02680528408382088, "train/reward_loss_mean": 0.04458667581073112, "train/reward_loss_std": 0.18853880113197696, "train/reward_max_data": 1.0097222245401807, "train/reward_max_pred": 1.0099780162175496, "train/reward_neg_acc": 0.9950840307606591, "train/reward_neg_loss": 0.02228745201136917, "train/reward_pos_acc": 0.9889234900474548, "train/reward_pos_loss": 0.7242626994848251, "train/reward_pred": 0.026645885922739074, "train/reward_rate": 0.03176540798611111, "stats/sum_log_reward": 6.475000202655792, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_sapling": 2.5, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 8.625, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 1.125, "stats/max_log_achievement_make_wood_sword": 1.5, "stats/max_log_achievement_place_plant": 1.75, "stats/max_log_achievement_place_table": 2.625, "stats/max_log_achievement_wake_up": 1.375, "stats/mean_log_entropy": 0.3692008703947067, "replay/size": 250322.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.7320278553956092e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2264007007530096e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.00124979019165, "timer/env.step_count": 1442.0, "timer/env.step_total": 20.37959885597229, "timer/env.step_frac": 0.06793171318527816, "timer/env.step_avg": 0.014132870219120866, "timer/env.step_min": 0.0028464794158935547, "timer/env.step_max": 1.8325397968292236, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.2614595890045166, "timer/replay.add_frac": 0.0008715283325898493, "timer/replay.add_avg": 0.00018131732940673828, "timer/replay.add_min": 7.152557373046875e-05, "timer/replay.add_max": 0.0034728050231933594, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027892589569091797, "timer/logger.write_frac": 9.297491123319889e-05, "timer/logger.write_avg": 0.027892589569091797, "timer/logger.write_min": 0.027892589569091797, "timer/logger.write_max": 0.027892589569091797, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 10.382013320922852, "timer/agent.policy_frac": 0.03460656689991658, "timer/agent.policy_avg": 0.0071997318453001745, "timer/agent.policy_min": 0.005636692047119141, "timer/agent.policy_max": 0.015621662139892578, "timer/dataset_count": 721.0, "timer/dataset_total": 0.06693506240844727, "timer/dataset_frac": 0.00022311594520109116, "timer/dataset_avg": 9.283642497704198e-05, "timer/dataset_min": 7.104873657226562e-05, "timer/dataset_max": 0.00017833709716796875, "timer/agent.train_count": 721.0, "timer/agent.train_total": 268.19341111183167, "timer/agent.train_frac": 0.8939743127716799, "timer/agent.train_avg": 0.371974217908227, "timer/agent.train_min": 0.36597299575805664, "timer/agent.train_max": 0.3834242820739746, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22205734252929688, "timer/agent.report_frac": 0.0007401880581650727, "timer/agent.report_avg": 0.22205734252929688, "timer/agent.report_min": 0.22205734252929688, "timer/agent.report_max": 0.22205734252929688, "fps": 4.806570282474067}
{"step": 250423, "episode/length": 243.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.900000028312206, "episode/reward_rate": 0.03278688524590164}
{"step": 250592, "episode/length": 168.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.04142011834319527}
{"step": 250784, "episode/length": 191.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.041666666666666664}
{"step": 251010, "episode/length": 225.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.035398230088495575}
{"step": 251240, "episode/length": 229.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.900000028312206, "episode/reward_rate": 0.0391304347826087}
{"step": 251415, "episode/length": 174.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.05142857142857143}
{"step": 251555, "episode/length": 139.0, "episode/score": 4.100000001490116, "episode/sum_abs_reward": 6.300000034272671, "episode/reward_rate": 0.03571428571428571}
{"step": 251804, "episode/length": 248.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.040160642570281124}
{"step": 251805, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.497972085442342, "train/action_min": 0.0, "train/action_std": 3.489038363308974, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04887907752688502, "train/actor_opt_grad_steps": 125000.0, "train/actor_opt_loss": -15.134392284171682, "train/adv_mag": 0.47290454532059145, "train/adv_max": 0.45462243951542275, "train/adv_mean": 0.0022054395304224616, "train/adv_min": -0.39462219619415173, "train/adv_std": 0.055621399426124464, "train/cont_avg": 0.9944019586267606, "train/cont_loss_mean": 1.332147978116513e-05, "train/cont_loss_std": 0.00034473963033156314, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.001735574661632225, "train/cont_pos_acc": 0.9999999840494612, "train/cont_pos_loss": 7.84092282106991e-06, "train/cont_pred": 0.9943994938487738, "train/cont_rate": 0.9944019586267606, "train/dyn_loss_mean": 4.492456963364507, "train/dyn_loss_std": 8.40772229181209, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9608092568290065, "train/extr_critic_critic_opt_grad_steps": 125000.0, "train/extr_critic_critic_opt_loss": 15834.12274427817, "train/extr_critic_mag": 7.653870414680158, "train/extr_critic_max": 7.653870414680158, "train/extr_critic_mean": 1.5901522250242637, "train/extr_critic_min": -0.6283630199835334, "train/extr_critic_std": 1.7034437992203404, "train/extr_return_normed_mag": 1.5955519810528822, "train/extr_return_normed_max": 1.5955519810528822, "train/extr_return_normed_mean": 0.34749278489133, "train/extr_return_normed_min": -0.14090251313968444, "train/extr_return_normed_std": 0.328803334647501, "train/extr_return_rate": 0.632073464108185, "train/extr_return_raw_mag": 8.166222867831378, "train/extr_return_raw_max": 8.166222867831378, "train/extr_return_raw_mean": 1.6017295038196402, "train/extr_return_raw_min": -0.9647465809969835, "train/extr_return_raw_std": 1.7288875143292923, "train/extr_reward_mag": 1.0203488208878209, "train/extr_reward_max": 1.0203488208878209, "train/extr_reward_mean": 0.03712810421178878, "train/extr_reward_min": -0.6649034090445075, "train/extr_reward_std": 0.19113554522185258, "train/image_loss_mean": 2.598251179910042, "train/image_loss_std": 7.0120436372891275, "train/model_loss_mean": 5.338203786124645, "train/model_loss_std": 11.046840533404284, "train/model_opt_grad_norm": 36.014532545922506, "train/model_opt_grad_steps": 124897.76056338029, "train/model_opt_loss": 9826.948290327904, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1830.9859154929577, "train/policy_entropy_mag": 2.375336553009463, "train/policy_entropy_max": 2.375336553009463, "train/policy_entropy_mean": 0.3759763400319596, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4697801814952367, "train/policy_logprob_mag": 7.438384150115537, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3760493922401482, "train/policy_logprob_min": -7.438384150115537, "train/policy_logprob_std": 0.9840577463029136, "train/policy_randomness_mag": 0.8383895654073903, "train/policy_randomness_max": 0.8383895654073903, "train/policy_randomness_mean": 0.13270314730389018, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1658117875037059, "train/post_ent_mag": 55.2045259072747, "train/post_ent_max": 55.2045259072747, "train/post_ent_mean": 40.4770791497029, "train/post_ent_min": 18.8725775732121, "train/post_ent_std": 5.893438722046328, "train/prior_ent_mag": 75.7820135841907, "train/prior_ent_max": 75.7820135841907, "train/prior_ent_mean": 44.959762035960885, "train/prior_ent_min": 26.779907199698435, "train/prior_ent_std": 7.289057933108907, "train/rep_loss_mean": 4.492456963364507, "train/rep_loss_std": 8.40772229181209, "train/reward_avg": 0.02668353861433939, "train/reward_loss_mean": 0.0444650873541832, "train/reward_loss_std": 0.1927718958804305, "train/reward_max_data": 1.008450706240157, "train/reward_max_pred": 1.0075229003395834, "train/reward_neg_acc": 0.9954652685514638, "train/reward_neg_loss": 0.021758222729492356, "train/reward_pos_acc": 0.9852586598463462, "train/reward_pos_loss": 0.7426985594588267, "train/reward_pred": 0.026382967606711556, "train/reward_rate": 0.03178642165492958, "stats/sum_log_reward": 7.100000083446503, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_sapling": 3.125, "stats/max_log_achievement_collect_stone": 0.5, "stats/max_log_achievement_collect_wood": 11.875, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.75, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 2.75, "stats/max_log_achievement_make_wood_sword": 1.25, "stats/max_log_achievement_place_plant": 2.5, "stats/max_log_achievement_place_table": 2.75, "stats/max_log_achievement_wake_up": 1.625, "stats/mean_log_entropy": 0.3722406066954136, "replay/size": 251742.0, "replay/inserts": 1420.0, "replay/samples": 11360.0, "replay/insert_wait_avg": 3.728228555598729e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2437852335647797e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.34751772880554, "timer/env.step_count": 1420.0, "timer/env.step_total": 20.768006801605225, "timer/env.step_frac": 0.06914659045178924, "timer/env.step_avg": 0.01462535690253889, "timer/env.step_min": 0.0029757022857666016, "timer/env.step_max": 1.6880285739898682, "timer/replay.add_count": 1420.0, "timer/replay.add_total": 0.2700650691986084, "timer/replay.add_frac": 0.0008991752994691295, "timer/replay.add_avg": 0.00019018666844972421, "timer/replay.add_min": 7.963180541992188e-05, "timer/replay.add_max": 0.0018563270568847656, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029239416122436523, "timer/logger.write_frac": 9.735194864782545e-05, "timer/logger.write_avg": 0.029239416122436523, "timer/logger.write_min": 0.029239416122436523, "timer/logger.write_max": 0.029239416122436523, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002422332763671875, "timer/checkpoint.save_frac": 8.065099994796978e-07, "timer/checkpoint.save_avg": 0.0002422332763671875, "timer/checkpoint.save_min": 0.0002422332763671875, "timer/checkpoint.save_max": 0.0002422332763671875, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3261351585388184, "timer/agent.save_frac": 0.004415335836856268, "timer/agent.save_avg": 1.3261351585388184, "timer/agent.save_min": 1.3261351585388184, "timer/agent.save_max": 1.3261351585388184, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.0108642578125e-05, "timer/replay.save_frac": 2.667198423476166e-07, "timer/replay.save_avg": 8.0108642578125e-05, "timer/replay.save_min": 8.0108642578125e-05, "timer/replay.save_max": 8.0108642578125e-05, "timer/agent.policy_count": 1420.0, "timer/agent.policy_total": 14.308083534240723, "timer/agent.policy_frac": 0.047638427786708064, "timer/agent.policy_avg": 0.010076115164958255, "timer/agent.policy_min": 0.0056955814361572266, "timer/agent.policy_max": 2.702687978744507, "timer/dataset_count": 710.0, "timer/dataset_total": 0.06400775909423828, "timer/dataset_frac": 0.0002131123292719641, "timer/dataset_avg": 9.01517733721666e-05, "timer/dataset_min": 6.29425048828125e-05, "timer/dataset_max": 0.00017690658569335938, "timer/agent.train_count": 710.0, "timer/agent.train_total": 264.22283005714417, "timer/agent.train_frac": 0.8797237015813141, "timer/agent.train_avg": 0.37214483106640023, "timer/agent.train_min": 0.36479926109313965, "timer/agent.train_max": 0.38433313369750977, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2194211483001709, "timer/agent.report_frac": 0.000730557555325941, "timer/agent.report_avg": 0.2194211483001709, "timer/agent.report_min": 0.2194211483001709, "timer/agent.report_max": 0.2194211483001709, "fps": 4.727793686540236}
{"step": 251951, "episode/length": 146.0, "episode/score": 5.100000001490116, "episode/sum_abs_reward": 7.500000037252903, "episode/reward_rate": 0.04081632653061224}
{"step": 252272, "episode/length": 320.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 11.100000031292439, "episode/reward_rate": 0.028037383177570093}
{"step": 252454, "episode/length": 181.0, "episode/score": 8.100000038743019, "episode/sum_abs_reward": 10.30000002682209, "episode/reward_rate": 0.054945054945054944}
{"step": 252624, "episode/length": 169.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.900000013411045, "episode/reward_rate": 0.052941176470588235}
{"step": 252850, "episode/length": 225.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.03982300884955752}
{"step": 252897, "episode/length": 46.0, "episode/score": 4.0999999940395355, "episode/sum_abs_reward": 5.9000000059604645, "episode/reward_rate": 0.1276595744680851}
{"step": 253114, "episode/length": 216.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.299999997019768, "episode/reward_rate": 0.041474654377880185}
{"step": 253253, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.479665968153212, "train/action_min": 0.0, "train/action_std": 3.429474241203732, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04997415514662862, "train/actor_opt_grad_steps": 125715.0, "train/actor_opt_loss": -15.086452058723403, "train/adv_mag": 0.528978174759282, "train/adv_max": 0.4623468870090114, "train/adv_mean": 0.0027857792300791414, "train/adv_min": -0.4676512885424826, "train/adv_std": 0.05728938321893414, "train/cont_avg": 0.9943712022569444, "train/cont_loss_mean": 5.4691358049770615e-06, "train/cont_loss_std": 0.00013433386974131482, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0004952190644694889, "train/cont_pos_acc": 0.9999999809596274, "train/cont_pos_loss": 2.362684845103047e-06, "train/cont_pred": 0.994371906750732, "train/cont_rate": 0.9943712022569444, "train/dyn_loss_mean": 4.670158134566413, "train/dyn_loss_std": 8.551432821485731, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0113881006836891, "train/extr_critic_critic_opt_grad_steps": 125715.0, "train/extr_critic_critic_opt_loss": 15923.702419704861, "train/extr_critic_mag": 7.563193632496728, "train/extr_critic_max": 7.563193632496728, "train/extr_critic_mean": 1.6125983926985, "train/extr_critic_min": -0.6282390289836459, "train/extr_critic_std": 1.6928531842099295, "train/extr_return_normed_mag": 1.6205796665615506, "train/extr_return_normed_max": 1.6205796665615506, "train/extr_return_normed_mean": 0.3574154387331671, "train/extr_return_normed_min": -0.13788632882965934, "train/extr_return_normed_std": 0.3334798398945067, "train/extr_return_rate": 0.6373345586988661, "train/extr_return_raw_mag": 8.164906640847525, "train/extr_return_raw_max": 8.164906640847525, "train/extr_return_raw_mean": 1.6270084695683584, "train/extr_return_raw_min": -0.9362452195750343, "train/extr_return_raw_std": 1.7259020590119891, "train/extr_reward_mag": 1.0253453354040782, "train/extr_reward_max": 1.0253453354040782, "train/extr_reward_mean": 0.03671303319020404, "train/extr_reward_min": -0.6583604746394687, "train/extr_reward_std": 0.1896921605285671, "train/image_loss_mean": 2.7001039187113443, "train/image_loss_std": 7.640618450111813, "train/model_loss_mean": 5.546452121602164, "train/model_loss_std": 11.723659541871813, "train/model_opt_grad_norm": 37.60857372813754, "train/model_opt_grad_steps": 125612.0, "train/model_opt_loss": 6933.065110948351, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.3796253237459393, "train/policy_entropy_max": 2.3796253237459393, "train/policy_entropy_mean": 0.37064214588867295, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4582429706222481, "train/policy_logprob_mag": 7.43838416867786, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37072429516249233, "train/policy_logprob_min": -7.43838416867786, "train/policy_logprob_std": 0.9799851692385144, "train/policy_randomness_mag": 0.839903313252661, "train/policy_randomness_max": 0.839903313252661, "train/policy_randomness_mean": 0.13082041249920925, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1617396583573686, "train/post_ent_mag": 55.077112409803604, "train/post_ent_max": 55.077112409803604, "train/post_ent_mean": 40.337856716579864, "train/post_ent_min": 18.710916850301956, "train/post_ent_std": 5.868576089541118, "train/prior_ent_mag": 75.77180438571506, "train/prior_ent_max": 75.77180438571506, "train/prior_ent_mean": 44.95187966028849, "train/prior_ent_min": 26.383450508117676, "train/prior_ent_std": 7.318054556846619, "train/rep_loss_mean": 4.670158134566413, "train/rep_loss_std": 8.551432821485731, "train/reward_avg": 0.027335611689421866, "train/reward_loss_mean": 0.0442478412296623, "train/reward_loss_std": 0.18912891815933916, "train/reward_max_data": 1.0097222245401807, "train/reward_max_pred": 1.0081232421927981, "train/reward_neg_acc": 0.9956411851776971, "train/reward_neg_loss": 0.02142059863803701, "train/reward_pos_acc": 0.9864976911081208, "train/reward_pos_loss": 0.7311598509550095, "train/reward_pred": 0.027114569558762014, "train/reward_rate": 0.03221299913194445, "stats/sum_log_reward": 6.957142761775425, "stats/max_log_achievement_collect_drink": 4.571428571428571, "stats/max_log_achievement_collect_sapling": 2.4285714285714284, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 7.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.7142857142857143, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 1.4285714285714286, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_plant": 2.2857142857142856, "stats/max_log_achievement_place_table": 2.2857142857142856, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.3792865914957864, "replay/size": 253190.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.7020741246681847e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2402129436724752e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1536931991577, "timer/env.step_count": 1448.0, "timer/env.step_total": 18.4206759929657, "timer/env.step_frac": 0.061370812388249464, "timer/env.step_avg": 0.012721461321108908, "timer/env.step_min": 0.0030565261840820312, "timer/env.step_max": 1.7110991477966309, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.2742342948913574, "timer/replay.add_frac": 0.0009136462455899142, "timer/replay.add_avg": 0.0001893883252012137, "timer/replay.add_min": 7.748603820800781e-05, "timer/replay.add_max": 0.006682634353637695, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.034157514572143555, "timer/logger.write_frac": 0.00011380008091214587, "timer/logger.write_avg": 0.034157514572143555, "timer/logger.write_min": 0.034157514572143555, "timer/logger.write_max": 0.034157514572143555, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 10.369490385055542, "timer/agent.policy_frac": 0.03454726901586111, "timer/agent.policy_avg": 0.0071612502659223354, "timer/agent.policy_min": 0.00562739372253418, "timer/agent.policy_max": 0.015336275100708008, "timer/dataset_count": 724.0, "timer/dataset_total": 0.06524872779846191, "timer/dataset_frac": 0.00021738439098654746, "timer/dataset_avg": 9.012255220782033e-05, "timer/dataset_min": 6.985664367675781e-05, "timer/dataset_max": 0.0001609325408935547, "timer/agent.train_count": 724.0, "timer/agent.train_total": 270.3036525249481, "timer/agent.train_frac": 0.9005508132981608, "timer/agent.train_avg": 0.3733475863604256, "timer/agent.train_min": 0.3649179935455322, "timer/agent.train_max": 1.2405591011047363, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22266578674316406, "timer/agent.report_frac": 0.0007418392369919002, "timer/agent.report_avg": 0.22266578674316406, "timer/agent.report_min": 0.22266578674316406, "timer/agent.report_max": 0.22266578674316406, "fps": 4.824110924306866}
{"step": 253343, "episode/length": 228.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.700000025331974, "episode/reward_rate": 0.039301310043668124}
{"step": 253590, "episode/length": 246.0, "episode/score": 8.100000016391277, "episode/sum_abs_reward": 9.100000031292439, "episode/reward_rate": 0.03643724696356275}
{"step": 253779, "episode/length": 188.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.500000022351742, "episode/reward_rate": 0.042328042328042326}
{"step": 254005, "episode/length": 225.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.700000002980232, "episode/reward_rate": 0.035398230088495575}
{"step": 254038, "episode/length": 32.0, "episode/score": 1.0999999716877937, "episode/sum_abs_reward": 2.9000000283122063, "episode/reward_rate": 0.09090909090909091}
{"step": 254204, "episode/length": 165.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.500000022351742, "episode/reward_rate": 0.04819277108433735}
{"step": 254422, "episode/length": 217.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.03669724770642202}
{"step": 254567, "episode/length": 144.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.05517241379310345}
{"step": 254695, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.465237087673611, "train/action_min": 0.0, "train/action_std": 3.4062985512945385, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.048399553220305175, "train/actor_opt_grad_steps": 126435.0, "train/actor_opt_loss": -14.346644793947538, "train/adv_mag": 0.5546284938851992, "train/adv_max": 0.5104521947602431, "train/adv_mean": 0.0025112086297869813, "train/adv_min": -0.43891792827182347, "train/adv_std": 0.05546337407496241, "train/cont_avg": 0.9945882161458334, "train/cont_loss_mean": 1.3122996825407382e-05, "train/cont_loss_std": 0.00040060865609427136, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0014892420812976247, "train/cont_pos_acc": 0.9999999759925736, "train/cont_pos_loss": 3.333248167554833e-06, "train/cont_pred": 0.9945928851763407, "train/cont_rate": 0.9945882161458334, "train/dyn_loss_mean": 4.568897826804055, "train/dyn_loss_std": 8.487052718798319, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9909060440129704, "train/extr_critic_critic_opt_grad_steps": 126435.0, "train/extr_critic_critic_opt_loss": 15698.377685546875, "train/extr_critic_mag": 7.771936926576826, "train/extr_critic_max": 7.771936926576826, "train/extr_critic_mean": 1.601077862083912, "train/extr_critic_min": -0.6326563027169969, "train/extr_critic_std": 1.7459833274285, "train/extr_return_normed_mag": 1.6484975036647584, "train/extr_return_normed_max": 1.6484975036647584, "train/extr_return_normed_mean": 0.35196111185683143, "train/extr_return_normed_min": -0.13951222226023674, "train/extr_return_normed_std": 0.34238724286357564, "train/extr_return_rate": 0.6248897202312946, "train/extr_return_raw_mag": 8.359710527790917, "train/extr_return_raw_max": 8.359710527790917, "train/extr_return_raw_mean": 1.6141547527578142, "train/extr_return_raw_min": -0.9405586744348208, "train/extr_return_raw_std": 1.7809902081886928, "train/extr_reward_mag": 1.023686558008194, "train/extr_reward_max": 1.023686558008194, "train/extr_reward_mean": 0.03512829397287634, "train/extr_reward_min": -0.6582018136978149, "train/extr_reward_std": 0.1869044355634186, "train/image_loss_mean": 2.6680155992507935, "train/image_loss_std": 7.907368779182434, "train/model_loss_mean": 5.452872766388787, "train/model_loss_std": 11.932916204134623, "train/model_opt_grad_norm": 33.17908669842614, "train/model_opt_grad_steps": 126332.0, "train/model_opt_loss": 12507.516920301648, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2309.027777777778, "train/policy_entropy_mag": 2.420989000134998, "train/policy_entropy_max": 2.420989000134998, "train/policy_entropy_mean": 0.3790048737492826, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.48063699197438026, "train/policy_logprob_mag": 7.438384142186907, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3785758308238453, "train/policy_logprob_min": -7.438384142186907, "train/policy_logprob_std": 0.9871353457371393, "train/policy_randomness_mag": 0.8545028749439452, "train/policy_randomness_max": 0.8545028749439452, "train/policy_randomness_mean": 0.13377208438598448, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16964376386668947, "train/post_ent_mag": 55.08317025502523, "train/post_ent_max": 55.08317025502523, "train/post_ent_mean": 40.48955233891805, "train/post_ent_min": 18.914208319452072, "train/post_ent_std": 5.84465957350201, "train/prior_ent_mag": 75.88113064236111, "train/prior_ent_max": 75.88113064236111, "train/prior_ent_mean": 45.02846617168851, "train/prior_ent_min": 27.179837942123413, "train/prior_ent_std": 7.200036115116543, "train/rep_loss_mean": 4.568897826804055, "train/rep_loss_std": 8.487052718798319, "train/reward_avg": 0.026558430774861738, "train/reward_loss_mean": 0.043505392813434206, "train/reward_loss_std": 0.18648910398284593, "train/reward_max_data": 1.0111111137602065, "train/reward_max_pred": 1.0120394792821672, "train/reward_neg_acc": 0.9955186752809418, "train/reward_neg_loss": 0.020968134430909738, "train/reward_pos_acc": 0.9885415360331535, "train/reward_pos_loss": 0.7374598938557837, "train/reward_pred": 0.02623272566900899, "train/reward_rate": 0.031548394097222224, "stats/sum_log_reward": 6.475000038743019, "stats/max_log_achievement_collect_drink": 3.75, "stats/max_log_achievement_collect_sapling": 1.75, "stats/max_log_achievement_collect_stone": 0.5, "stats/max_log_achievement_collect_wood": 9.375, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.75, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.375, "stats/max_log_achievement_make_wood_sword": 0.75, "stats/max_log_achievement_place_plant": 1.375, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.34279487282037735, "replay/size": 254632.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.704250933558534e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2488041109251744e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1344804763794, "timer/env.step_count": 1442.0, "timer/env.step_total": 20.360396146774292, "timer/env.step_frac": 0.06783757772335211, "timer/env.step_avg": 0.014119553499843476, "timer/env.step_min": 0.003099679946899414, "timer/env.step_max": 1.7169239521026611, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.2582662105560303, "timer/replay.add_frac": 0.0008605016329550175, "timer/replay.add_avg": 0.00017910278124551337, "timer/replay.add_min": 7.486343383789062e-05, "timer/replay.add_max": 0.0015635490417480469, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027144908905029297, "timer/logger.write_frac": 9.044248718755793e-05, "timer/logger.write_avg": 0.027144908905029297, "timer/logger.write_min": 0.027144908905029297, "timer/logger.write_max": 0.027144908905029297, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 10.467056512832642, "timer/agent.policy_frac": 0.034874555220110404, "timer/agent.policy_avg": 0.007258707706541361, "timer/agent.policy_min": 0.005672454833984375, "timer/agent.policy_max": 0.01927495002746582, "timer/dataset_count": 721.0, "timer/dataset_total": 0.06484556198120117, "timer/dataset_frac": 0.0002160550226627644, "timer/dataset_avg": 8.993836613204046e-05, "timer/dataset_min": 6.413459777832031e-05, "timer/dataset_max": 0.00017881393432617188, "timer/agent.train_count": 721.0, "timer/agent.train_total": 268.26877331733704, "timer/agent.train_frac": 0.8938285694184005, "timer/agent.train_avg": 0.3720787424650999, "timer/agent.train_min": 0.3634054660797119, "timer/agent.train_max": 0.3864607810974121, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21851611137390137, "timer/agent.report_frac": 0.0007280606714265827, "timer/agent.report_avg": 0.21851611137390137, "timer/agent.report_min": 0.21851611137390137, "timer/agent.report_max": 0.21851611137390137, "fps": 4.804426508390306}
{"step": 254769, "episode/length": 201.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.039603960396039604}
{"step": 254985, "episode/length": 215.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.037037037037037035}
{"step": 255239, "episode/length": 253.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.900000028312206, "episode/reward_rate": 0.03543307086614173}
{"step": 255415, "episode/length": 175.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.100000038743019, "episode/reward_rate": 0.045454545454545456}
{"step": 255581, "episode/length": 165.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.04819277108433735}
{"step": 255800, "episode/length": 218.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.0410958904109589}
{"step": 255968, "episode/length": 167.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.03571428571428571}
{"step": 256125, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.529081556532118, "train/action_min": 0.0, "train/action_std": 3.4354661438200207, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05059368458266059, "train/actor_opt_grad_steps": 127155.0, "train/actor_opt_loss": -13.719079631070295, "train/adv_mag": 0.5303315466476811, "train/adv_max": 0.4787842751377159, "train/adv_mean": 0.002703333015334566, "train/adv_min": -0.4365042025844256, "train/adv_std": 0.05659258246628775, "train/cont_avg": 0.9943305121527778, "train/cont_loss_mean": 0.00019432013651056302, "train/cont_loss_std": 0.00610117732089953, "train/cont_neg_acc": 0.9953703706463178, "train/cont_neg_loss": 0.052336089036507535, "train/cont_pos_acc": 0.9999863232175509, "train/cont_pos_loss": 4.079900513387358e-05, "train/cont_pred": 0.9943238976928923, "train/cont_rate": 0.9943305121527778, "train/dyn_loss_mean": 4.614598635170195, "train/dyn_loss_std": 8.550768660174477, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0070245506034956, "train/extr_critic_critic_opt_grad_steps": 127155.0, "train/extr_critic_critic_opt_loss": 16118.540147569445, "train/extr_critic_mag": 7.810814360777537, "train/extr_critic_max": 7.810814360777537, "train/extr_critic_mean": 1.570002252029048, "train/extr_critic_min": -0.6012531105015013, "train/extr_critic_std": 1.696941355864207, "train/extr_return_normed_mag": 1.6273211008972592, "train/extr_return_normed_max": 1.6273211008972592, "train/extr_return_normed_mean": 0.3396675137595998, "train/extr_return_normed_min": -0.1385819795024064, "train/extr_return_normed_std": 0.3289678473439481, "train/extr_return_rate": 0.6192573019199901, "train/extr_return_raw_mag": 8.331052541732788, "train/extr_return_raw_max": 8.331052541732788, "train/extr_return_raw_mean": 1.5841771016518276, "train/extr_return_raw_min": -0.9232068583369255, "train/extr_return_raw_std": 1.7243325263261795, "train/extr_reward_mag": 1.0239576631122165, "train/extr_reward_max": 1.0239576631122165, "train/extr_reward_mean": 0.037373209786083966, "train/extr_reward_min": -0.6676923665735457, "train/extr_reward_std": 0.19156437988082567, "train/image_loss_mean": 2.715651507178942, "train/image_loss_std": 7.72681247194608, "train/model_loss_mean": 5.529754810863071, "train/model_loss_std": 11.833146545622084, "train/model_opt_grad_norm": 38.099948008855186, "train/model_opt_grad_steps": 127051.54166666667, "train/model_opt_loss": 13824.387044270834, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.4174875848823123, "train/policy_entropy_max": 2.4174875848823123, "train/policy_entropy_mean": 0.373074483540323, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.46935366425249314, "train/policy_logprob_mag": 7.438384148809645, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3734909084935983, "train/policy_logprob_min": -7.438384148809645, "train/policy_logprob_std": 0.9827597124709023, "train/policy_randomness_mag": 0.8532670305834876, "train/policy_randomness_max": 0.8532670305834876, "train/policy_randomness_mean": 0.1316789203426904, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16566124806801477, "train/post_ent_mag": 54.68844487931993, "train/post_ent_max": 54.68844487931993, "train/post_ent_mean": 40.34832525253296, "train/post_ent_min": 18.767409258418613, "train/post_ent_std": 5.807846691873339, "train/prior_ent_mag": 75.83651574452718, "train/prior_ent_max": 75.83651574452718, "train/prior_ent_mean": 44.897571351793076, "train/prior_ent_min": 26.779394494162666, "train/prior_ent_std": 7.25787658823861, "train/rep_loss_mean": 4.614598635170195, "train/rep_loss_std": 8.550768660174477, "train/reward_avg": 0.027080620574350987, "train/reward_loss_mean": 0.045149851150603756, "train/reward_loss_std": 0.19959377155949673, "train/reward_max_data": 1.008333335320155, "train/reward_max_pred": 1.0102597888973024, "train/reward_neg_acc": 0.9956963227854835, "train/reward_neg_loss": 0.02208066802834057, "train/reward_pos_acc": 0.9901436310675409, "train/reward_pos_loss": 0.7344142157170508, "train/reward_pred": 0.026795401056814525, "train/reward_rate": 0.03232150607638889, "stats/sum_log_reward": 7.100000040871756, "stats/max_log_achievement_collect_drink": 5.571428571428571, "stats/max_log_achievement_collect_sapling": 2.857142857142857, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 12.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5714285714285714, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 2.7142857142857144, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_plant": 2.5714285714285716, "stats/max_log_achievement_place_table": 3.142857142857143, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.3642983649458204, "replay/size": 256062.0, "replay/inserts": 1430.0, "replay/samples": 11440.0, "replay/insert_wait_avg": 3.790855407714844e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2225412822269894e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3457124233246, "timer/env.step_count": 1430.0, "timer/env.step_total": 21.220746994018555, "timer/env.step_frac": 0.07065440296383792, "timer/env.step_avg": 0.014839683212600388, "timer/env.step_min": 0.0029935836791992188, "timer/env.step_max": 2.729611873626709, "timer/replay.add_count": 1430.0, "timer/replay.add_total": 0.25877976417541504, "timer/replay.add_frac": 0.0008616063205546144, "timer/replay.add_avg": 0.0001809648700527378, "timer/replay.add_min": 7.510185241699219e-05, "timer/replay.add_max": 0.0010313987731933594, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027866601943969727, "timer/logger.write_frac": 9.278175379674783e-05, "timer/logger.write_avg": 0.027866601943969727, "timer/logger.write_min": 0.027866601943969727, "timer/logger.write_max": 0.027866601943969727, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004215240478515625, "timer/checkpoint.save_frac": 1.4034628443686326e-06, "timer/checkpoint.save_avg": 0.0004215240478515625, "timer/checkpoint.save_min": 0.0004215240478515625, "timer/checkpoint.save_max": 0.0004215240478515625, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3345005512237549, "timer/agent.save_frac": 0.004443214922085629, "timer/agent.save_avg": 1.3345005512237549, "timer/agent.save_min": 1.3345005512237549, "timer/agent.save_max": 1.3345005512237549, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.772445678710938e-05, "timer/replay.save_frac": 2.5878330727611667e-07, "timer/replay.save_avg": 7.772445678710938e-05, "timer/replay.save_min": 7.772445678710938e-05, "timer/replay.save_max": 7.772445678710938e-05, "timer/agent.policy_count": 1430.0, "timer/agent.policy_total": 11.525603771209717, "timer/agent.policy_frac": 0.03837445748173313, "timer/agent.policy_avg": 0.008059862777069732, "timer/agent.policy_min": 0.00557708740234375, "timer/agent.policy_max": 1.3337960243225098, "timer/dataset_count": 715.0, "timer/dataset_total": 0.0654897689819336, "timer/dataset_frac": 0.0002180479569810823, "timer/dataset_avg": 9.159408249221482e-05, "timer/dataset_min": 7.009506225585938e-05, "timer/dataset_max": 0.0002231597900390625, "timer/agent.train_count": 715.0, "timer/agent.train_total": 266.5614535808563, "timer/agent.train_frac": 0.887515428238074, "timer/agent.train_avg": 0.37281322179140747, "timer/agent.train_min": 0.36579418182373047, "timer/agent.train_max": 0.921640157699585, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22257089614868164, "timer/agent.report_frac": 0.000741049020986114, "timer/agent.report_avg": 0.22257089614868164, "timer/agent.report_min": 0.22257089614868164, "timer/agent.report_max": 0.22257089614868164, "fps": 4.761071273397977}
{"step": 256240, "episode/length": 271.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.029411764705882353}
{"step": 256426, "episode/length": 185.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.30000001937151, "episode/reward_rate": 0.03763440860215054}
{"step": 256666, "episode/length": 239.0, "episode/score": 6.0999999940395355, "episode/sum_abs_reward": 8.700000017881393, "episode/reward_rate": 0.03333333333333333}
{"step": 256967, "episode/length": 300.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 13.300000049173832, "episode/reward_rate": 0.036544850498338874}
{"step": 257154, "episode/length": 186.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.900000013411045, "episode/reward_rate": 0.0481283422459893}
{"step": 257339, "episode/length": 184.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.500000022351742, "episode/reward_rate": 0.03783783783783784}
{"step": 257587, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.571751424711045, "train/action_min": 0.0, "train/action_std": 3.543552953902989, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.049384396319111734, "train/actor_opt_grad_steps": 127880.0, "train/actor_opt_loss": -13.389445955622685, "train/adv_mag": 0.5389790530890635, "train/adv_max": 0.5063290718483598, "train/adv_mean": 0.0033283486165152543, "train/adv_min": -0.4460891701587259, "train/adv_std": 0.05692293545971178, "train/cont_avg": 0.993699165239726, "train/cont_loss_mean": 6.790305128825908e-05, "train/cont_loss_std": 0.002103348062148567, "train/cont_neg_acc": 0.9965753424657534, "train/cont_neg_loss": 0.01633325451090224, "train/cont_pos_acc": 0.9999999804039524, "train/cont_pos_loss": 4.160911869691256e-06, "train/cont_pred": 0.9937101537234163, "train/cont_rate": 0.993699165239726, "train/dyn_loss_mean": 4.803124039140466, "train/dyn_loss_std": 8.586214196192076, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.005072979894403, "train/extr_critic_critic_opt_grad_steps": 127880.0, "train/extr_critic_critic_opt_loss": 16098.659741545376, "train/extr_critic_mag": 7.742548883777776, "train/extr_critic_max": 7.742548883777776, "train/extr_critic_mean": 1.658453689862604, "train/extr_critic_min": -0.6176952221622206, "train/extr_critic_std": 1.7640527356160831, "train/extr_return_normed_mag": 1.600042795481747, "train/extr_return_normed_max": 1.600042795481747, "train/extr_return_normed_mean": 0.3542417102072337, "train/extr_return_normed_min": -0.13221825118342492, "train/extr_return_normed_std": 0.3404414429240031, "train/extr_return_rate": 0.6271243891487382, "train/extr_return_raw_mag": 8.251495309071998, "train/extr_return_raw_max": 8.251495309071998, "train/extr_return_raw_mean": 1.6760490038623548, "train/extr_return_raw_min": -0.8922339824781026, "train/extr_return_raw_std": 1.7972542259791127, "train/extr_reward_mag": 1.023089549312853, "train/extr_reward_max": 1.023089549312853, "train/extr_reward_mean": 0.03935682306653016, "train/extr_reward_min": -0.657857156779668, "train/extr_reward_std": 0.1971848286586265, "train/image_loss_mean": 2.7093200601943552, "train/image_loss_std": 7.327446637088305, "train/model_loss_mean": 5.638185553354759, "train/model_loss_std": 11.471358874072767, "train/model_opt_grad_norm": 38.2092586935383, "train/model_opt_grad_steps": 127775.95890410959, "train/model_opt_loss": 14458.642176797945, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2602.7397260273974, "train/policy_entropy_mag": 2.3895944863149565, "train/policy_entropy_max": 2.3895944863149565, "train/policy_entropy_mean": 0.36469763762330354, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4630732801679063, "train/policy_logprob_mag": 7.438384141007515, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36551292914233796, "train/policy_logprob_min": -7.438384141007515, "train/policy_logprob_std": 0.978646116713955, "train/policy_randomness_mag": 0.8434219882912832, "train/policy_randomness_max": 0.8434219882912832, "train/policy_randomness_mean": 0.12872225893278644, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16344454782466367, "train/post_ent_mag": 55.51322801145789, "train/post_ent_max": 55.51322801145789, "train/post_ent_mean": 40.46670291848378, "train/post_ent_min": 18.951067676282907, "train/post_ent_std": 5.854222395648695, "train/prior_ent_mag": 75.74003590622993, "train/prior_ent_max": 75.74003590622993, "train/prior_ent_mean": 45.230674273347205, "train/prior_ent_min": 26.28369697152752, "train/prior_ent_std": 7.3205871059469985, "train/rep_loss_mean": 4.803124039140466, "train/rep_loss_std": 8.586214196192076, "train/reward_avg": 0.028622645170313037, "train/reward_loss_mean": 0.04692320714462293, "train/reward_loss_std": 0.19692950583484076, "train/reward_max_data": 1.0082191800417966, "train/reward_max_pred": 1.0095820982162267, "train/reward_neg_acc": 0.9956343925162537, "train/reward_neg_loss": 0.02294157625316349, "train/reward_pos_acc": 0.9895178185750361, "train/reward_pos_loss": 0.7240647673606873, "train/reward_pred": 0.028422690175269563, "train/reward_rate": 0.03416630993150685, "stats/sum_log_reward": 7.266666730244954, "stats/max_log_achievement_collect_drink": 5.333333333333333, "stats/max_log_achievement_collect_sapling": 2.5, "stats/max_log_achievement_collect_stone": 1.1666666666666667, "stats/max_log_achievement_collect_wood": 10.166666666666666, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 0.3333333333333333, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_wood_sword": 1.3333333333333333, "stats/max_log_achievement_place_plant": 2.1666666666666665, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.5098625322182974, "stats/max_log_achievement_place_stone": 0.6666666666666666, "replay/size": 257524.0, "replay/inserts": 1462.0, "replay/samples": 11696.0, "replay/insert_wait_avg": 3.7343003029047057e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2376933026085473e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.24479842185974, "timer/env.step_count": 1462.0, "timer/env.step_total": 16.71180486679077, "timer/env.step_frac": 0.05566059746790286, "timer/env.step_avg": 0.011430783082620227, "timer/env.step_min": 0.002765178680419922, "timer/env.step_max": 1.6770806312561035, "timer/replay.add_count": 1462.0, "timer/replay.add_total": 0.26717066764831543, "timer/replay.add_frac": 0.000889842785129375, "timer/replay.add_avg": 0.00018274327472524995, "timer/replay.add_min": 8.225440979003906e-05, "timer/replay.add_max": 0.0072307586669921875, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02971673011779785, "timer/logger.write_frac": 9.897500397673595e-05, "timer/logger.write_avg": 0.02971673011779785, "timer/logger.write_min": 0.02971673011779785, "timer/logger.write_max": 0.02971673011779785, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1462.0, "timer/agent.policy_total": 10.514353036880493, "timer/agent.policy_frac": 0.035019267917865055, "timer/agent.policy_avg": 0.0071917599431467125, "timer/agent.policy_min": 0.0056972503662109375, "timer/agent.policy_max": 0.01739954948425293, "timer/dataset_count": 731.0, "timer/dataset_total": 0.0663764476776123, "timer/dataset_frac": 0.00022107443002009948, "timer/dataset_avg": 9.08022540049416e-05, "timer/dataset_min": 6.580352783203125e-05, "timer/dataset_max": 0.00030803680419921875, "timer/agent.train_count": 731.0, "timer/agent.train_total": 271.9688398838043, "timer/agent.train_frac": 0.9058236522774785, "timer/agent.train_avg": 0.37205039655787187, "timer/agent.train_min": 0.364757776260376, "timer/agent.train_max": 0.3859975337982178, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21919012069702148, "timer/agent.report_frac": 0.0007300380284658514, "timer/agent.report_avg": 0.21919012069702148, "timer/agent.report_min": 0.21919012069702148, "timer/agent.report_max": 0.21919012069702148, "fps": 4.869286004652769}
{"step": 257610, "episode/length": 270.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.025830258302583026}
{"step": 257799, "episode/length": 188.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.042328042328042326}
{"step": 257956, "episode/length": 156.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.044585987261146494}
{"step": 258178, "episode/length": 221.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.04504504504504504}
{"step": 258330, "episode/length": 151.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.039473684210526314}
{"step": 258550, "episode/length": 219.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.045454545454545456}
{"step": 258757, "episode/length": 206.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.30000001937151, "episode/reward_rate": 0.033816425120772944}
{"step": 258991, "episode/length": 233.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.300000041723251, "episode/reward_rate": 0.038461538461538464}
{"step": 259029, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.508404201931423, "train/action_min": 0.0, "train/action_std": 3.4278205964300366, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04915798186428017, "train/actor_opt_grad_steps": 128605.0, "train/actor_opt_loss": -12.669766618973679, "train/adv_mag": 0.5122360632651382, "train/adv_max": 0.4967954717576504, "train/adv_mean": 0.0028206807899348657, "train/adv_min": -0.40089219560225803, "train/adv_std": 0.055282581287125744, "train/cont_avg": 0.9944254557291666, "train/cont_loss_mean": 0.0001093624129764079, "train/cont_loss_std": 0.0033134904024873573, "train/cont_neg_acc": 0.9949074081248708, "train/cont_neg_loss": 0.0159002840468795, "train/cont_pos_acc": 0.9999863240453932, "train/cont_pos_loss": 2.1889222813974306e-05, "train/cont_pred": 0.9944395745793978, "train/cont_rate": 0.9944254557291666, "train/dyn_loss_mean": 4.607132878568438, "train/dyn_loss_std": 8.492722067568037, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.060872880121072, "train/extr_critic_critic_opt_grad_steps": 128605.0, "train/extr_critic_critic_opt_loss": 16076.048380533854, "train/extr_critic_mag": 7.771070076359643, "train/extr_critic_max": 7.771070076359643, "train/extr_critic_mean": 1.672892654935519, "train/extr_critic_min": -0.6077392730447981, "train/extr_critic_std": 1.7453028162320454, "train/extr_return_normed_mag": 1.5897296832667456, "train/extr_return_normed_max": 1.5897296832667456, "train/extr_return_normed_mean": 0.34930861244599026, "train/extr_return_normed_min": -0.1309150414955285, "train/extr_return_normed_std": 0.3292357441451814, "train/extr_return_rate": 0.6384820164077811, "train/extr_return_raw_mag": 8.388777335484823, "train/extr_return_raw_max": 8.388777335484823, "train/extr_return_raw_mean": 1.6881074325905905, "train/extr_return_raw_min": -0.9064258535703024, "train/extr_return_raw_std": 1.778921890589926, "train/extr_reward_mag": 1.0371573732958899, "train/extr_reward_max": 1.0371573732958899, "train/extr_reward_mean": 0.038512743155782424, "train/extr_reward_min": -0.6848432173331579, "train/extr_reward_std": 0.19447205236388576, "train/image_loss_mean": 2.7119042525688806, "train/image_loss_std": 7.382660504844454, "train/model_loss_mean": 5.522928741243151, "train/model_loss_std": 11.466055115063986, "train/model_opt_grad_norm": 34.82634947035048, "train/model_opt_grad_steps": 128500.0, "train/model_opt_loss": 13807.32184516059, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.4054346084594727, "train/policy_entropy_max": 2.4054346084594727, "train/policy_entropy_mean": 0.3768557918568452, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4762417409155104, "train/policy_logprob_mag": 7.438384175300598, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37653303932812476, "train/policy_logprob_min": -7.438384175300598, "train/policy_logprob_std": 0.9835463282134798, "train/policy_randomness_mag": 0.8490128558542993, "train/policy_randomness_max": 0.8490128558542993, "train/policy_randomness_mean": 0.13301355660789543, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16809243553628525, "train/post_ent_mag": 55.563596884409584, "train/post_ent_max": 55.563596884409584, "train/post_ent_mean": 40.531905598110626, "train/post_ent_min": 18.474500669373406, "train/post_ent_std": 5.895757271183862, "train/prior_ent_mag": 75.86815918816461, "train/prior_ent_max": 75.86815918816461, "train/prior_ent_mean": 45.104796727498375, "train/prior_ent_min": 26.439879258473713, "train/prior_ent_std": 7.30077385240131, "train/rep_loss_mean": 4.607132878568438, "train/rep_loss_std": 8.492722067568037, "train/reward_avg": 0.02810058562964615, "train/reward_loss_mean": 0.04663541982881725, "train/reward_loss_std": 0.1959771898885568, "train/reward_max_data": 1.0152777814202838, "train/reward_max_pred": 1.0155250761244032, "train/reward_neg_acc": 0.9955571335222986, "train/reward_neg_loss": 0.023140575814371307, "train/reward_pos_acc": 0.9873950870500671, "train/reward_pos_loss": 0.7322914650042852, "train/reward_pred": 0.0278530949079949, "train/reward_rate": 0.033203125, "stats/sum_log_reward": 6.975000083446503, "stats/max_log_achievement_collect_drink": 4.375, "stats/max_log_achievement_collect_sapling": 1.75, "stats/max_log_achievement_collect_stone": 0.125, "stats/max_log_achievement_collect_wood": 9.75, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.375, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 1.625, "stats/max_log_achievement_make_wood_sword": 1.375, "stats/max_log_achievement_place_plant": 1.625, "stats/max_log_achievement_place_stone": 0.0, "stats/max_log_achievement_place_table": 2.375, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.388625655323267, "replay/size": 258966.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.7348386153434086e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2194564702937409e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.08242750167847, "timer/env.step_count": 1442.0, "timer/env.step_total": 20.167471170425415, "timer/env.step_frac": 0.06720643837204567, "timer/env.step_avg": 0.013985763641071717, "timer/env.step_min": 0.0028848648071289062, "timer/env.step_max": 1.7130086421966553, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.26207923889160156, "timer/replay.add_frac": 0.000873357500715818, "timer/replay.add_avg": 0.00018174704500111065, "timer/replay.add_min": 7.152557373046875e-05, "timer/replay.add_max": 0.0014064311981201172, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027637243270874023, "timer/logger.write_frac": 9.209883931214012e-05, "timer/logger.write_avg": 0.027637243270874023, "timer/logger.write_min": 0.027637243270874023, "timer/logger.write_max": 0.027637243270874023, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 10.364833354949951, "timer/agent.policy_frac": 0.034539954376008826, "timer/agent.policy_avg": 0.007187817860575555, "timer/agent.policy_min": 0.005667209625244141, "timer/agent.policy_max": 0.018468618392944336, "timer/dataset_count": 721.0, "timer/dataset_total": 0.06523633003234863, "timer/dataset_frac": 0.0002173947024338296, "timer/dataset_avg": 9.048034678550434e-05, "timer/dataset_min": 6.961822509765625e-05, "timer/dataset_max": 0.0002028942108154297, "timer/agent.train_count": 721.0, "timer/agent.train_total": 268.49300813674927, "timer/agent.train_frac": 0.8947308590245509, "timer/agent.train_avg": 0.3723897477624816, "timer/agent.train_min": 0.36530590057373047, "timer/agent.train_max": 0.38935256004333496, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22235465049743652, "timer/agent.report_frac": 0.0007409785782814385, "timer/agent.report_avg": 0.22235465049743652, "timer/agent.report_min": 0.22235465049743652, "timer/agent.report_max": 0.22235465049743652, "fps": 4.805241020391774}
{"step": 259167, "episode/length": 175.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03409090909090909}
{"step": 259356, "episode/length": 188.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.700000025331974, "episode/reward_rate": 0.047619047619047616}
{"step": 259529, "episode/length": 172.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.04046242774566474}
{"step": 259583, "episode/length": 53.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.09259259259259259}
{"step": 259744, "episode/length": 160.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.049689440993788817}
{"step": 259932, "episode/length": 187.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.03723404255319149}
{"step": 260061, "episode/length": 128.0, "episode/score": 5.100000061094761, "episode/sum_abs_reward": 7.700000025331974, "episode/reward_rate": 0.05426356589147287}
{"step": 260247, "episode/length": 185.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.053763440860215055}
{"step": 260406, "episode/length": 158.0, "episode/score": 5.0999999940395355, "episode/sum_abs_reward": 6.9000000059604645, "episode/reward_rate": 0.0440251572327044}
{"step": 260441, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.462102325869278, "train/action_min": 0.0, "train/action_std": 3.3975384571182894, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04956857240955594, "train/actor_opt_grad_steps": 129320.0, "train/actor_opt_loss": -14.207344206312383, "train/adv_mag": 0.5125635220131404, "train/adv_max": 0.45191862885381134, "train/adv_mean": 0.002297157680670711, "train/adv_min": -0.4381885008073189, "train/adv_std": 0.05565367639064789, "train/cont_avg": 0.994993397887324, "train/cont_loss_mean": 0.00047155673450695654, "train/cont_loss_std": 0.014970620057347717, "train/cont_neg_acc": 0.9901190485273089, "train/cont_neg_loss": 0.04566417490989433, "train/cont_pos_acc": 0.9999722653711346, "train/cont_pos_loss": 0.00022523700244997939, "train/cont_pred": 0.9950097488685393, "train/cont_rate": 0.994993397887324, "train/dyn_loss_mean": 4.489685726837373, "train/dyn_loss_std": 8.41949879955238, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.037296800546243, "train/extr_critic_critic_opt_grad_steps": 129320.0, "train/extr_critic_critic_opt_loss": 16103.759408010563, "train/extr_critic_mag": 7.699396758012369, "train/extr_critic_max": 7.699396758012369, "train/extr_critic_mean": 1.6612041491857716, "train/extr_critic_min": -0.6228645888852401, "train/extr_critic_std": 1.6804367874709654, "train/extr_return_normed_mag": 1.5953387156338759, "train/extr_return_normed_max": 1.5953387156338759, "train/extr_return_normed_mean": 0.3514575391588077, "train/extr_return_normed_min": -0.14372295760352846, "train/extr_return_normed_std": 0.31873740528670835, "train/extr_return_rate": 0.6668473406576775, "train/extr_return_raw_mag": 8.354742950117084, "train/extr_return_raw_max": 8.354742950117084, "train/extr_return_raw_mean": 1.673446685495511, "train/extr_return_raw_min": -0.9871788352308138, "train/extr_return_raw_std": 1.7124444078391707, "train/extr_reward_mag": 1.0327101761186626, "train/extr_reward_max": 1.0327101761186626, "train/extr_reward_mean": 0.03606199856165429, "train/extr_reward_min": -0.6467016465227369, "train/extr_reward_std": 0.18784862462903412, "train/image_loss_mean": 2.5557511440465146, "train/image_loss_std": 6.976686524673247, "train/model_loss_mean": 5.293556737228179, "train/model_loss_std": 11.039341268405108, "train/model_opt_grad_norm": 33.692575508440044, "train/model_opt_grad_steps": 129214.18309859154, "train/model_opt_loss": 12298.117627640846, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2341.549295774648, "train/policy_entropy_mag": 2.4073545093267734, "train/policy_entropy_max": 2.4073545093267734, "train/policy_entropy_mean": 0.3782046302943162, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.47540524979712256, "train/policy_logprob_mag": 7.438384163547569, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37676039967738406, "train/policy_logprob_min": -7.438384163547569, "train/policy_logprob_std": 0.9850712065965357, "train/policy_randomness_mag": 0.8496904960820373, "train/policy_randomness_max": 0.8496904960820373, "train/policy_randomness_mean": 0.13348963667809124, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16779719030773135, "train/post_ent_mag": 55.23580019238969, "train/post_ent_max": 55.23580019238969, "train/post_ent_mean": 40.56157700444611, "train/post_ent_min": 18.518527796570684, "train/post_ent_std": 5.826932779500182, "train/prior_ent_mag": 75.77452753631162, "train/prior_ent_max": 75.77452753631162, "train/prior_ent_mean": 45.00193002190388, "train/prior_ent_min": 26.474365314967194, "train/prior_ent_std": 7.1951737605350115, "train/rep_loss_mean": 4.489685726837373, "train/rep_loss_std": 8.41949879955238, "train/reward_avg": 0.026134738108326852, "train/reward_loss_mean": 0.0435225879379981, "train/reward_loss_std": 0.1886482446546286, "train/reward_max_data": 1.0126760593602355, "train/reward_max_pred": 1.011390916058715, "train/reward_neg_acc": 0.99511907721909, "train/reward_neg_loss": 0.021537900023477177, "train/reward_pos_acc": 0.9892476024762006, "train/reward_pos_loss": 0.7317486271052294, "train/reward_pred": 0.02582603689073257, "train/reward_rate": 0.030974911971830985, "stats/sum_log_reward": 6.211111068725586, "stats/max_log_achievement_collect_drink": 1.6666666666666667, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 0.6666666666666666, "stats/max_log_achievement_collect_wood": 10.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.3333333333333333, "stats/max_log_achievement_eat_cow": 0.1111111111111111, "stats/max_log_achievement_make_wood_pickaxe": 2.6666666666666665, "stats/max_log_achievement_make_wood_sword": 0.3333333333333333, "stats/max_log_achievement_place_plant": 1.5555555555555556, "stats/max_log_achievement_place_stone": 0.0, "stats/max_log_achievement_place_table": 3.3333333333333335, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.2792656355433994, "stats/max_log_achievement_collect_coal": 0.5, "replay/size": 260378.0, "replay/inserts": 1412.0, "replay/samples": 11296.0, "replay/insert_wait_avg": 3.7198026187021402e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2531538860656047e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0443034172058, "timer/env.step_count": 1412.0, "timer/env.step_total": 24.13851809501648, "timer/env.step_frac": 0.08044984630637142, "timer/env.step_avg": 0.01709526777267456, "timer/env.step_min": 0.003037691116333008, "timer/env.step_max": 2.7560412883758545, "timer/replay.add_count": 1412.0, "timer/replay.add_total": 0.2668893337249756, "timer/replay.add_frac": 0.0008894997528210729, "timer/replay.add_avg": 0.0001890151088703793, "timer/replay.add_min": 7.033348083496094e-05, "timer/replay.add_max": 0.008373498916625977, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027749300003051758, "timer/logger.write_frac": 9.248400881808075e-05, "timer/logger.write_avg": 0.027749300003051758, "timer/logger.write_min": 0.027749300003051758, "timer/logger.write_max": 0.027749300003051758, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0006992816925048828, "timer/checkpoint.save_frac": 2.330594797304134e-06, "timer/checkpoint.save_avg": 0.0006992816925048828, "timer/checkpoint.save_min": 0.0006992816925048828, "timer/checkpoint.save_max": 0.0006992816925048828, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.440955638885498, "timer/agent.save_frac": 0.004802476242589672, "timer/agent.save_avg": 1.440955638885498, "timer/agent.save_min": 1.440955638885498, "timer/agent.save_max": 1.440955638885498, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.679794311523438e-05, "timer/replay.save_frac": 3.226121676459183e-07, "timer/replay.save_avg": 9.679794311523438e-05, "timer/replay.save_min": 9.679794311523438e-05, "timer/replay.save_max": 9.679794311523438e-05, "timer/agent.policy_count": 1412.0, "timer/agent.policy_total": 11.555064916610718, "timer/agent.policy_frac": 0.03851119579678746, "timer/agent.policy_avg": 0.00818347373697643, "timer/agent.policy_min": 0.0056416988372802734, "timer/agent.policy_max": 1.4406330585479736, "timer/dataset_count": 706.0, "timer/dataset_total": 0.06297183036804199, "timer/dataset_frac": 0.00020987510727867704, "timer/dataset_avg": 8.919522715020112e-05, "timer/dataset_min": 6.246566772460938e-05, "timer/dataset_max": 0.00017881393432617188, "timer/agent.train_count": 706.0, "timer/agent.train_total": 263.3029055595398, "timer/agent.train_frac": 0.8775467574647541, "timer/agent.train_avg": 0.37295029116082123, "timer/agent.train_min": 0.36400294303894043, "timer/agent.train_max": 0.9199378490447998, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21932196617126465, "timer/agent.report_frac": 0.0007309652730393675, "timer/agent.report_avg": 0.21932196617126465, "timer/agent.report_min": 0.21932196617126465, "timer/agent.report_max": 0.21932196617126465, "fps": 4.705911172466177}
{"step": 260605, "episode/length": 198.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.04020100502512563}
{"step": 260819, "episode/length": 213.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.04672897196261682}
{"step": 260994, "episode/length": 174.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.05142857142857143}
{"step": 261209, "episode/length": 214.0, "episode/score": 8.099999979138374, "episode/sum_abs_reward": 10.30000002682209, "episode/reward_rate": 0.04186046511627907}
{"step": 261386, "episode/length": 176.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.04519774011299435}
{"step": 261561, "episode/length": 174.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.04}
{"step": 261719, "episode/length": 157.0, "episode/score": 7.0999999940395355, "episode/sum_abs_reward": 9.90000006556511, "episode/reward_rate": 0.056962025316455694}
{"step": 261891, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.395988464355469, "train/action_min": 0.0, "train/action_std": 3.3166153331597648, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04889338091015816, "train/actor_opt_grad_steps": 130035.0, "train/actor_opt_loss": -15.213025181657738, "train/adv_mag": 0.48997191339731216, "train/adv_max": 0.4430350818567806, "train/adv_mean": 0.0022633489109517135, "train/adv_min": -0.4150163423683908, "train/adv_std": 0.05497361300513148, "train/cont_avg": 0.9946017795138888, "train/cont_loss_mean": 9.521896234302811e-05, "train/cont_loss_std": 0.0030164717375448114, "train/cont_neg_acc": 0.9962962973448966, "train/cont_neg_loss": 0.005453363767915991, "train/cont_pos_acc": 0.9999863041771783, "train/cont_pos_loss": 5.5761052930838576e-05, "train/cont_pred": 0.9946016197403272, "train/cont_rate": 0.9946017795138888, "train/dyn_loss_mean": 4.6817917293972435, "train/dyn_loss_std": 8.607161376211378, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0234429902500577, "train/extr_critic_critic_opt_grad_steps": 130035.0, "train/extr_critic_critic_opt_loss": 15985.322021484375, "train/extr_critic_mag": 7.662120189931658, "train/extr_critic_max": 7.662120189931658, "train/extr_critic_mean": 1.62362522052394, "train/extr_critic_min": -0.5978818039099375, "train/extr_critic_std": 1.6956461469332378, "train/extr_return_normed_mag": 1.5553865747319326, "train/extr_return_normed_max": 1.5553865747319326, "train/extr_return_normed_mean": 0.3413999308314588, "train/extr_return_normed_min": -0.1251053743892246, "train/extr_return_normed_std": 0.3207919591416915, "train/extr_return_rate": 0.640315790557199, "train/extr_return_raw_mag": 8.162207470999824, "train/extr_return_raw_max": 8.162207470999824, "train/extr_return_raw_mean": 1.6357487721575632, "train/extr_return_raw_min": -0.8719415101740096, "train/extr_return_raw_std": 1.724701272116767, "train/extr_reward_mag": 1.0346153643396165, "train/extr_reward_max": 1.0346153643396165, "train/extr_reward_mean": 0.03718070804865824, "train/extr_reward_min": -0.6626426064305835, "train/extr_reward_std": 0.19088057511382633, "train/image_loss_mean": 2.78947291109297, "train/image_loss_std": 7.8629500601026745, "train/model_loss_mean": 5.64349561267429, "train/model_loss_std": 12.001332733366224, "train/model_opt_grad_norm": 36.5624738269382, "train/model_opt_grad_steps": 129928.0, "train/model_opt_loss": 7054.369486490886, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.431128376060062, "train/policy_entropy_max": 2.431128376060062, "train/policy_entropy_mean": 0.375218669573466, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4728570737772518, "train/policy_logprob_mag": 7.43838412894143, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.374257806274626, "train/policy_logprob_min": -7.43838412894143, "train/policy_logprob_std": 0.9814509145087666, "train/policy_randomness_mag": 0.8580816288789114, "train/policy_randomness_max": 0.8580816288789114, "train/policy_randomness_mean": 0.13243572403573328, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16689779568049642, "train/post_ent_mag": 55.118654092152916, "train/post_ent_max": 55.118654092152916, "train/post_ent_mean": 40.415130297342934, "train/post_ent_min": 19.013365361425613, "train/post_ent_std": 5.855300227801005, "train/prior_ent_mag": 75.69921493530273, "train/prior_ent_max": 75.69921493530273, "train/prior_ent_mean": 45.025501569112144, "train/prior_ent_min": 26.560475243462456, "train/prior_ent_std": 7.201905945936839, "train/rep_loss_mean": 4.6817917293972435, "train/rep_loss_std": 8.607161376211378, "train/reward_avg": 0.02649739564448181, "train/reward_loss_mean": 0.04485250021227532, "train/reward_loss_std": 0.19973651133477688, "train/reward_max_data": 1.0152777814202838, "train/reward_max_pred": 1.0170235517952178, "train/reward_neg_acc": 0.9957179857624902, "train/reward_neg_loss": 0.022192674171593454, "train/reward_pos_acc": 0.9850841032134162, "train/reward_pos_loss": 0.7465619320670763, "train/reward_pred": 0.02625709514702774, "train/reward_rate": 0.0313720703125, "stats/sum_log_reward": 7.528571469443185, "stats/max_log_achievement_collect_coal": 0.0, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_sapling": 3.142857142857143, "stats/max_log_achievement_collect_stone": 0.14285714285714285, "stats/max_log_achievement_collect_wood": 9.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_wood_pickaxe": 1.8571428571428572, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_plant": 2.4285714285714284, "stats/max_log_achievement_place_stone": 0.0, "stats/max_log_achievement_place_table": 3.2857142857142856, "stats/max_log_achievement_wake_up": 1.8571428571428572, "stats/mean_log_entropy": 0.3550341086728232, "replay/size": 261828.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.7502420359644396e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.223662803912985e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.00273180007935, "timer/env.step_count": 1450.0, "timer/env.step_total": 18.66964054107666, "timer/env.step_frac": 0.06223156845624338, "timer/env.step_avg": 0.012875614166259765, "timer/env.step_min": 0.0030405521392822266, "timer/env.step_max": 1.7240328788757324, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.2602269649505615, "timer/replay.add_frac": 0.0008674153178177583, "timer/replay.add_avg": 0.0001794668723796976, "timer/replay.add_min": 7.2479248046875e-05, "timer/replay.add_max": 0.005124568939208984, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03059554100036621, "timer/logger.write_frac": 0.00010198420799966235, "timer/logger.write_avg": 0.03059554100036621, "timer/logger.write_min": 0.03059554100036621, "timer/logger.write_max": 0.03059554100036621, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 10.370585680007935, "timer/agent.policy_frac": 0.03456830415437301, "timer/agent.policy_avg": 0.0071521280551778855, "timer/agent.policy_min": 0.005673885345458984, "timer/agent.policy_max": 0.020604610443115234, "timer/dataset_count": 725.0, "timer/dataset_total": 0.06573677062988281, "timer/dataset_frac": 0.0002191205734542762, "timer/dataset_avg": 9.06714077653556e-05, "timer/dataset_min": 6.747245788574219e-05, "timer/dataset_max": 0.00020956993103027344, "timer/agent.train_count": 725.0, "timer/agent.train_total": 269.91992807388306, "timer/agent.train_frac": 0.8997249006844266, "timer/agent.train_avg": 0.3723033490674249, "timer/agent.train_min": 0.36566996574401855, "timer/agent.train_max": 0.41002869606018066, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21968865394592285, "timer/agent.report_frac": 0.0007322888449306606, "timer/agent.report_avg": 0.21968865394592285, "timer/agent.report_min": 0.21968865394592285, "timer/agent.report_max": 0.21968865394592285, "fps": 4.833185425224965}
{"step": 261970, "episode/length": 250.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.900000013411045, "episode/reward_rate": 0.035856573705179286}
{"step": 262012, "episode/length": 41.0, "episode/score": 2.0999999940395355, "episode/sum_abs_reward": 3.9000000059604645, "episode/reward_rate": 0.09523809523809523}
{"step": 262250, "episode/length": 237.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.029411764705882353}
{"step": 262417, "episode/length": 166.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.041916167664670656}
{"step": 262627, "episode/length": 209.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.02857142857142857}
{"step": 262864, "episode/length": 236.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.04219409282700422}
{"step": 263033, "episode/length": 168.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.047337278106508875}
{"step": 263226, "episode/length": 192.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.046632124352331605}
{"step": 263333, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.398641798231337, "train/action_min": 0.0, "train/action_std": 3.3336826066176095, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.050554184501783714, "train/actor_opt_grad_steps": 130755.0, "train/actor_opt_loss": -14.960726243754229, "train/adv_mag": 0.5160333915717072, "train/adv_max": 0.4963642578158114, "train/adv_mean": 0.0030894077877342673, "train/adv_min": -0.42095137925611603, "train/adv_std": 0.05738537453321947, "train/cont_avg": 0.994384765625, "train/cont_loss_mean": 3.282290667004794e-05, "train/cont_loss_std": 0.0009455759628615507, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.002329782156838039, "train/cont_pos_acc": 0.9999999842709966, "train/cont_pos_loss": 1.8739389236564917e-05, "train/cont_pred": 0.9943794641229842, "train/cont_rate": 0.994384765625, "train/dyn_loss_mean": 4.490253663725323, "train/dyn_loss_std": 8.432938575744629, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0248720140920744, "train/extr_critic_critic_opt_grad_steps": 130755.0, "train/extr_critic_critic_opt_loss": 16010.697835286459, "train/extr_critic_mag": 7.6605210767851935, "train/extr_critic_max": 7.6605210767851935, "train/extr_critic_mean": 1.6983663688103359, "train/extr_critic_min": -0.613667670223448, "train/extr_critic_std": 1.6834264679087534, "train/extr_return_normed_mag": 1.629675406548712, "train/extr_return_normed_max": 1.629675406548712, "train/extr_return_normed_mean": 0.36324936751690173, "train/extr_return_normed_min": -0.1325517716921038, "train/extr_return_normed_std": 0.3252999571462472, "train/extr_return_rate": 0.6681270235114627, "train/extr_return_raw_mag": 8.390681372748482, "train/extr_return_raw_max": 8.390681372748482, "train/extr_return_raw_mean": 1.7146610418955486, "train/extr_return_raw_min": -0.8982615255647235, "train/extr_return_raw_std": 1.7148340145746868, "train/extr_reward_mag": 1.0348264111412897, "train/extr_reward_max": 1.0348264111412897, "train/extr_reward_mean": 0.0391944508947846, "train/extr_reward_min": -0.654417355855306, "train/extr_reward_std": 0.19512168318033218, "train/image_loss_mean": 2.5564597696065903, "train/image_loss_std": 7.010427872339885, "train/model_loss_mean": 5.2951151331265764, "train/model_loss_std": 11.089611887931824, "train/model_opt_grad_norm": 34.402965519163345, "train/model_opt_grad_steps": 130648.0, "train/model_opt_loss": 12019.020629882812, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2274.3055555555557, "train/policy_entropy_mag": 2.4262828561994763, "train/policy_entropy_max": 2.4262828561994763, "train/policy_entropy_mean": 0.37463020698891747, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.47700119266907376, "train/policy_logprob_mag": 7.438384181923336, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37512776255607605, "train/policy_logprob_min": -7.438384181923336, "train/policy_logprob_std": 0.9855212999714745, "train/policy_randomness_mag": 0.8563713712824715, "train/policy_randomness_max": 0.8563713712824715, "train/policy_randomness_mean": 0.13222802326911026, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1683604855918222, "train/post_ent_mag": 55.358911726209854, "train/post_ent_max": 55.358911726209854, "train/post_ent_mean": 40.65099864535861, "train/post_ent_min": 18.320037576887344, "train/post_ent_std": 5.889572123686473, "train/prior_ent_mag": 75.80018944210477, "train/prior_ent_max": 75.80018944210477, "train/prior_ent_mean": 45.13574345906576, "train/prior_ent_min": 26.13773488998413, "train/prior_ent_std": 7.233116812176174, "train/rep_loss_mean": 4.490253663725323, "train/rep_loss_std": 8.432938575744629, "train/reward_avg": 0.02793104372297724, "train/reward_loss_mean": 0.044470367565130196, "train/reward_loss_std": 0.19314995573626625, "train/reward_max_data": 1.0125000029802322, "train/reward_max_pred": 1.0113649004035525, "train/reward_neg_acc": 0.9952286374237802, "train/reward_neg_loss": 0.02125799533031467, "train/reward_pos_acc": 0.9906564859880341, "train/reward_pos_loss": 0.726193385819594, "train/reward_pred": 0.027769158749530714, "train/reward_rate": 0.03294542100694445, "stats/sum_log_reward": 6.475000083446503, "stats/max_log_achievement_collect_coal": 0.0, "stats/max_log_achievement_collect_drink": 4.0, "stats/max_log_achievement_collect_sapling": 2.125, "stats/max_log_achievement_collect_stone": 0.625, "stats/max_log_achievement_collect_wood": 11.25, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.25, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 2.375, "stats/max_log_achievement_make_wood_sword": 0.75, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 0.0, "stats/max_log_achievement_place_table": 3.375, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.38586821407079697, "stats/max_log_achievement_place_furnace": 0.3333333333333333, "replay/size": 263270.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.7817948403537026e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.235701009403816e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2103509902954, "timer/env.step_count": 1442.0, "timer/env.step_total": 20.633201599121094, "timer/env.step_frac": 0.06872914784936274, "timer/env.step_avg": 0.014308738973038207, "timer/env.step_min": 0.002978086471557617, "timer/env.step_max": 1.7267909049987793, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.2673063278198242, "timer/replay.add_frac": 0.0008903967732560465, "timer/replay.add_avg": 0.00018537193330084897, "timer/replay.add_min": 7.2479248046875e-05, "timer/replay.add_max": 0.0038607120513916016, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029682159423828125, "timer/logger.write_frac": 9.88712058925231e-05, "timer/logger.write_avg": 0.029682159423828125, "timer/logger.write_min": 0.029682159423828125, "timer/logger.write_max": 0.029682159423828125, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 10.322206020355225, "timer/agent.policy_frac": 0.03438324490246807, "timer/agent.policy_avg": 0.007158256602188089, "timer/agent.policy_min": 0.005751609802246094, "timer/agent.policy_max": 0.017602920532226562, "timer/dataset_count": 721.0, "timer/dataset_total": 0.06612277030944824, "timer/dataset_frac": 0.00022025479831501787, "timer/dataset_avg": 9.170980625443584e-05, "timer/dataset_min": 6.890296936035156e-05, "timer/dataset_max": 0.000217437744140625, "timer/agent.train_count": 721.0, "timer/agent.train_total": 268.20133447647095, "timer/agent.train_frac": 0.8933780384046146, "timer/agent.train_avg": 0.3719852073182676, "timer/agent.train_min": 0.3656160831451416, "timer/agent.train_max": 0.38335394859313965, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22086381912231445, "timer/agent.report_frac": 0.0007356968818488677, "timer/agent.report_avg": 0.22086381912231445, "timer/agent.report_min": 0.22086381912231445, "timer/agent.report_max": 0.22086381912231445, "fps": 4.803228114562578}
{"step": 263382, "episode/length": 155.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.099999994039536, "episode/reward_rate": 0.0641025641025641}
{"step": 263623, "episode/length": 240.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.03734439834024896}
{"step": 263887, "episode/length": 263.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.03409090909090909}
{"step": 264073, "episode/length": 185.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.500000044703484, "episode/reward_rate": 0.043010752688172046}
{"step": 264291, "episode/length": 217.0, "episode/score": 5.0999999940395355, "episode/sum_abs_reward": 6.9000000059604645, "episode/reward_rate": 0.03211009174311927}
{"step": 264441, "episode/length": 149.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 8.500000037252903, "episode/reward_rate": 0.04666666666666667}
{"step": 264606, "episode/length": 164.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.900000028312206, "episode/reward_rate": 0.048484848484848485}
{"step": 264763, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.324733310275608, "train/action_min": 0.0, "train/action_std": 3.1555255585246615, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.049780304026272565, "train/actor_opt_grad_steps": 131475.0, "train/actor_opt_loss": -14.24646229752236, "train/adv_mag": 0.4899665229022503, "train/adv_max": 0.4616095746556918, "train/adv_mean": 0.003046253132323626, "train/adv_min": -0.4100515627198749, "train/adv_std": 0.05657635774049494, "train/cont_avg": 0.9941134982638888, "train/cont_loss_mean": 3.62799054212104e-05, "train/cont_loss_std": 0.0009802725066063228, "train/cont_neg_acc": 0.9972222223877907, "train/cont_neg_loss": 0.0041635582984109005, "train/cont_pos_acc": 0.9999999784761004, "train/cont_pos_loss": 1.5186222497792161e-05, "train/cont_pred": 0.9941129518879784, "train/cont_rate": 0.9941134982638888, "train/dyn_loss_mean": 4.577964776092106, "train/dyn_loss_std": 8.550871094067892, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.047063685953617, "train/extr_critic_critic_opt_grad_steps": 131475.0, "train/extr_critic_critic_opt_loss": 16276.487481011285, "train/extr_critic_mag": 7.548030813535054, "train/extr_critic_max": 7.548030813535054, "train/extr_critic_mean": 1.7605929639604356, "train/extr_critic_min": -0.6313939260111915, "train/extr_critic_std": 1.7355039831664827, "train/extr_return_normed_mag": 1.5507912751701143, "train/extr_return_normed_max": 1.5507912751701143, "train/extr_return_normed_mean": 0.3702422502554125, "train/extr_return_normed_min": -0.13586557584090364, "train/extr_return_normed_std": 0.32718314189049935, "train/extr_return_rate": 0.6746211614873674, "train/extr_return_raw_mag": 8.169219619697994, "train/extr_return_raw_max": 8.169219619697994, "train/extr_return_raw_mean": 1.7770971341265573, "train/extr_return_raw_min": -0.963616218831804, "train/extr_return_raw_std": 1.7715631590949164, "train/extr_reward_mag": 1.035524543788698, "train/extr_reward_max": 1.035524543788698, "train/extr_reward_mean": 0.038628967504741415, "train/extr_reward_min": -0.6584630360205969, "train/extr_reward_std": 0.19506478123366833, "train/image_loss_mean": 2.679642755124304, "train/image_loss_std": 7.461637785037358, "train/model_loss_mean": 5.473364803526136, "train/model_loss_std": 11.572181748019325, "train/model_opt_grad_norm": 36.03887395064036, "train/model_opt_grad_steps": 131367.23611111112, "train/model_opt_loss": 11566.683634440104, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2118.0555555555557, "train/policy_entropy_mag": 2.375983330938551, "train/policy_entropy_max": 2.375983330938551, "train/policy_entropy_mean": 0.34440335383017856, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.44122208654880524, "train/policy_logprob_mag": 7.438384195168813, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.345198057177994, "train/policy_logprob_min": -7.438384195168813, "train/policy_logprob_std": 0.9615107013119591, "train/policy_randomness_mag": 0.8386178505089548, "train/policy_randomness_max": 0.8386178505089548, "train/policy_randomness_mean": 0.1215592711750004, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1557320343951384, "train/post_ent_mag": 55.358465883466934, "train/post_ent_max": 55.358465883466934, "train/post_ent_mean": 40.49331029256185, "train/post_ent_min": 18.931657446755302, "train/post_ent_std": 5.817295551300049, "train/prior_ent_mag": 75.74460856119792, "train/prior_ent_max": 75.74460856119792, "train/prior_ent_mean": 44.995103200276695, "train/prior_ent_min": 26.788968483606975, "train/prior_ent_std": 7.275108443366157, "train/rep_loss_mean": 4.577964776092106, "train/rep_loss_std": 8.550871094067892, "train/reward_avg": 0.02854682058872034, "train/reward_loss_mean": 0.046906937638090715, "train/reward_loss_std": 0.1938538122922182, "train/reward_max_data": 1.0194444490803614, "train/reward_max_pred": 1.0202239288224115, "train/reward_neg_acc": 0.9951090398761961, "train/reward_neg_loss": 0.022858178100755647, "train/reward_pos_acc": 0.9880342781543732, "train/reward_pos_loss": 0.7323840608199438, "train/reward_pred": 0.028341076388541196, "train/reward_rate": 0.033854166666666664, "stats/sum_log_reward": 7.100000108991351, "stats/max_log_achievement_collect_coal": 0.0, "stats/max_log_achievement_collect_drink": 2.7142857142857144, "stats/max_log_achievement_collect_sapling": 3.0, "stats/max_log_achievement_collect_stone": 0.42857142857142855, "stats/max_log_achievement_collect_wood": 13.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.7142857142857143, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 2.2857142857142856, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 0.0, "stats/max_log_achievement_place_plant": 2.5714285714285716, "stats/max_log_achievement_place_stone": 0.0, "stats/max_log_achievement_place_table": 4.571428571428571, "stats/max_log_achievement_wake_up": 0.8571428571428571, "stats/mean_log_entropy": 0.3293706348964146, "replay/size": 264700.0, "replay/inserts": 1430.0, "replay/samples": 11440.0, "replay/insert_wait_avg": 3.710493341192499e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.242819365921554e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.29454612731934, "timer/env.step_count": 1430.0, "timer/env.step_total": 21.01224708557129, "timer/env.step_frac": 0.06997212355852273, "timer/env.step_avg": 0.014693879080819084, "timer/env.step_min": 0.002978086471557617, "timer/env.step_max": 2.7362194061279297, "timer/replay.add_count": 1430.0, "timer/replay.add_total": 0.26170945167541504, "timer/replay.add_frac": 0.0008715091734115447, "timer/replay.add_avg": 0.0001830136025702203, "timer/replay.add_min": 7.295608520507812e-05, "timer/replay.add_max": 0.0016241073608398438, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028026580810546875, "timer/logger.write_frac": 9.33303024380074e-05, "timer/logger.write_avg": 0.028026580810546875, "timer/logger.write_min": 0.028026580810546875, "timer/logger.write_max": 0.028026580810546875, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00038909912109375, "timer/checkpoint.save_frac": 1.2957249011401598e-06, "timer/checkpoint.save_avg": 0.00038909912109375, "timer/checkpoint.save_min": 0.00038909912109375, "timer/checkpoint.save_max": 0.00038909912109375, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3519623279571533, "timer/agent.save_frac": 0.004502120819017293, "timer/agent.save_avg": 1.3519623279571533, "timer/agent.save_min": 1.3519623279571533, "timer/agent.save_max": 1.3519623279571533, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.0558319091796875e-05, "timer/replay.save_frac": 2.01663066721569e-07, "timer/replay.save_avg": 6.0558319091796875e-05, "timer/replay.save_min": 6.0558319091796875e-05, "timer/replay.save_max": 6.0558319091796875e-05, "timer/agent.policy_count": 1430.0, "timer/agent.policy_total": 11.585907697677612, "timer/agent.policy_frac": 0.03858181191464397, "timer/agent.policy_avg": 0.008102033355019309, "timer/agent.policy_min": 0.005678415298461914, "timer/agent.policy_max": 1.3473005294799805, "timer/dataset_count": 715.0, "timer/dataset_total": 0.06413888931274414, "timer/dataset_frac": 0.00021358659402875214, "timer/dataset_avg": 8.970474029754425e-05, "timer/dataset_min": 6.651878356933594e-05, "timer/dataset_max": 0.0001800060272216797, "timer/agent.train_count": 715.0, "timer/agent.train_total": 266.65860056877136, "timer/agent.train_frac": 0.8879901550250368, "timer/agent.train_avg": 0.37294909170457535, "timer/agent.train_min": 0.3637831211090088, "timer/agent.train_max": 0.8842785358428955, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22210979461669922, "timer/agent.report_frac": 0.0007396397886045149, "timer/agent.report_avg": 0.22210979461669922, "timer/agent.report_min": 0.22210979461669922, "timer/agent.report_max": 0.22210979461669922, "fps": 4.761894059689566}
{"step": 264782, "episode/length": 175.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.05113636363636364}
{"step": 264956, "episode/length": 173.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.04597701149425287}
{"step": 265148, "episode/length": 191.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.057291666666666664}
{"step": 265182, "episode/length": 33.0, "episode/score": 1.099999986588955, "episode/sum_abs_reward": 3.1000000163912773, "episode/reward_rate": 0.058823529411764705}
{"step": 265371, "episode/length": 188.0, "episode/score": 10.099999964237213, "episode/sum_abs_reward": 11.699999988079071, "episode/reward_rate": 0.0582010582010582}
{"step": 265532, "episode/length": 160.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.049689440993788817}
{"step": 265744, "episode/length": 211.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 11.10000005364418, "episode/reward_rate": 0.04245283018867924}
{"step": 265908, "episode/length": 163.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.04878048780487805}
{"step": 266076, "episode/length": 167.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.047619047619047616}
{"step": 266199, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.486746893988715, "train/action_min": 0.0, "train/action_std": 3.3159070346090527, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.049184213340696364, "train/actor_opt_grad_steps": 132195.0, "train/actor_opt_loss": -12.721340536311295, "train/adv_mag": 0.5201133588949839, "train/adv_max": 0.470995648453633, "train/adv_mean": 0.0027443411122223755, "train/adv_min": -0.42779527066482437, "train/adv_std": 0.05471300525176856, "train/cont_avg": 0.9948187934027778, "train/cont_loss_mean": 0.0001026290043234389, "train/cont_loss_std": 0.003084707632963399, "train/cont_neg_acc": 0.9949074081248708, "train/cont_neg_loss": 0.015229261987100371, "train/cont_pos_acc": 0.9999999834431542, "train/cont_pos_loss": 2.2116451986736114e-05, "train/cont_pred": 0.9948324056135284, "train/cont_rate": 0.9948187934027778, "train/dyn_loss_mean": 4.6044351226753655, "train/dyn_loss_std": 8.585386799441444, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1107343741589122, "train/extr_critic_critic_opt_grad_steps": 132195.0, "train/extr_critic_critic_opt_loss": 16214.140584309896, "train/extr_critic_mag": 7.791816943221622, "train/extr_critic_max": 7.791816943221622, "train/extr_critic_mean": 1.6404571384191513, "train/extr_critic_min": -0.6395042588313421, "train/extr_critic_std": 1.72613339457247, "train/extr_return_normed_mag": 1.56808226969507, "train/extr_return_normed_max": 1.56808226969507, "train/extr_return_normed_mean": 0.34185973596241737, "train/extr_return_normed_min": -0.13594649162971312, "train/extr_return_normed_std": 0.3205046947631571, "train/extr_return_rate": 0.6520191671119796, "train/extr_return_raw_mag": 8.381911350621117, "train/extr_return_raw_max": 8.381911350621117, "train/extr_return_raw_mean": 1.655513991912206, "train/extr_return_raw_min": -0.9640022226505809, "train/extr_return_raw_std": 1.7583248631821737, "train/extr_reward_mag": 1.0319265325864155, "train/extr_reward_max": 1.0319265325864155, "train/extr_reward_mean": 0.035754984658625394, "train/extr_reward_min": -0.6799800412522422, "train/extr_reward_std": 0.18771080921093622, "train/image_loss_mean": 2.7047319130765066, "train/image_loss_std": 7.548264775011274, "train/model_loss_mean": 5.511092868116167, "train/model_loss_std": 11.686361405584547, "train/model_opt_grad_norm": 34.27616230646769, "train/model_opt_grad_steps": 132086.0, "train/model_opt_loss": 6888.866082085504, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.4171668224864535, "train/policy_entropy_max": 2.4171668224864535, "train/policy_entropy_mean": 0.37930352654722, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.47322405295239556, "train/policy_logprob_mag": 7.438384135564168, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37905338240994346, "train/policy_logprob_min": -7.438384135564168, "train/policy_logprob_std": 0.9834938736425506, "train/policy_randomness_mag": 0.8531538173556328, "train/policy_randomness_max": 0.8531538173556328, "train/policy_randomness_mean": 0.13387749892556006, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16702732350677252, "train/post_ent_mag": 55.13087855445014, "train/post_ent_max": 55.13087855445014, "train/post_ent_mean": 40.563245084550644, "train/post_ent_min": 18.66083249780867, "train/post_ent_std": 5.848853011926015, "train/prior_ent_mag": 75.76889091067844, "train/prior_ent_max": 75.76889091067844, "train/prior_ent_mean": 45.08995236290826, "train/prior_ent_min": 26.93499191602071, "train/prior_ent_std": 7.152924802568224, "train/rep_loss_mean": 4.6044351226753655, "train/rep_loss_std": 8.585386799441444, "train/reward_avg": 0.024810112779960036, "train/reward_loss_mean": 0.04359731753356755, "train/reward_loss_std": 0.19297017850395706, "train/reward_max_data": 1.0152777814202838, "train/reward_max_pred": 1.0161417126655579, "train/reward_neg_acc": 0.9947568385137452, "train/reward_neg_loss": 0.022133172256872058, "train/reward_pos_acc": 0.9850231359402338, "train/reward_pos_loss": 0.7438453982273737, "train/reward_pred": 0.024352128617465496, "train/reward_rate": 0.029608832465277776, "stats/sum_log_reward": 7.322222352027893, "stats/max_log_achievement_collect_coal": 0.2222222222222222, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_sapling": 2.5555555555555554, "stats/max_log_achievement_collect_stone": 0.8888888888888888, "stats/max_log_achievement_collect_wood": 10.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.7777777777777778, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.5555555555555556, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.0, "stats/max_log_achievement_place_plant": 1.8888888888888888, "stats/max_log_achievement_place_stone": 0.0, "stats/max_log_achievement_place_table": 2.5555555555555554, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.273228676782714, "replay/size": 266136.0, "replay/inserts": 1436.0, "replay/samples": 11488.0, "replay/insert_wait_avg": 3.726203461543431e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2391415479123425e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3739900588989, "timer/env.step_count": 1436.0, "timer/env.step_total": 21.54156184196472, "timer/env.step_frac": 0.07171580281548591, "timer/env.step_avg": 0.015001087633680169, "timer/env.step_min": 0.0028123855590820312, "timer/env.step_max": 1.6254746913909912, "timer/replay.add_count": 1436.0, "timer/replay.add_total": 0.2773444652557373, "timer/replay.add_frac": 0.0009233304960970626, "timer/replay.add_avg": 0.00019313681424494241, "timer/replay.add_min": 7.605552673339844e-05, "timer/replay.add_max": 0.005975246429443359, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02346038818359375, "timer/logger.write_frac": 7.81039269711519e-05, "timer/logger.write_avg": 0.02346038818359375, "timer/logger.write_min": 0.02346038818359375, "timer/logger.write_max": 0.02346038818359375, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1436.0, "timer/agent.policy_total": 10.349061727523804, "timer/agent.policy_frac": 0.03445392101191753, "timer/agent.policy_avg": 0.00720686749827563, "timer/agent.policy_min": 0.0057239532470703125, "timer/agent.policy_max": 0.018073081970214844, "timer/dataset_count": 718.0, "timer/dataset_total": 0.06483864784240723, "timer/dataset_frac": 0.00021585972816652108, "timer/dataset_avg": 9.030452345739168e-05, "timer/dataset_min": 6.890296936035156e-05, "timer/dataset_max": 0.0001800060272216797, "timer/agent.train_count": 718.0, "timer/agent.train_total": 267.42102551460266, "timer/agent.train_frac": 0.89029354859309, "timer/agent.train_avg": 0.3724526817752126, "timer/agent.train_min": 0.36589550971984863, "timer/agent.train_max": 0.38663506507873535, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22458624839782715, "timer/agent.report_frac": 0.0007476887341470182, "timer/agent.report_avg": 0.22458624839782715, "timer/agent.report_min": 0.22458624839782715, "timer/agent.report_max": 0.22458624839782715, "fps": 4.78061600880605}
{"step": 266254, "episode/length": 177.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.0449438202247191}
{"step": 266430, "episode/length": 175.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.03977272727272727}
{"step": 266586, "episode/length": 155.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 9.899999991059303, "episode/reward_rate": 0.0641025641025641}
{"step": 266986, "episode/length": 399.0, "episode/score": 10.099999964237213, "episode/sum_abs_reward": 11.699999988079071, "episode/reward_rate": 0.0275}
{"step": 267171, "episode/length": 184.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.05405405405405406}
{"step": 267534, "episode/length": 362.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.030303030303030304}
{"step": 267655, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4043324788411455, "train/action_min": 0.0, "train/action_std": 3.2704690992832184, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.048724267010887466, "train/actor_opt_grad_steps": 132915.0, "train/actor_opt_loss": -15.199972975171274, "train/adv_mag": 0.5116301572157277, "train/adv_max": 0.4828990225990613, "train/adv_mean": 0.0019077490030415195, "train/adv_min": -0.43478550637761754, "train/adv_std": 0.054316685535013676, "train/cont_avg": 0.9940728081597222, "train/cont_loss_mean": 0.0002665555061322304, "train/cont_loss_std": 0.008384260979572863, "train/cont_neg_acc": 0.9986111116078165, "train/cont_neg_loss": 0.009233947727024214, "train/cont_pos_acc": 0.9999863356351852, "train/cont_pos_loss": 0.00017904622685923263, "train/cont_pred": 0.9940617746777005, "train/cont_rate": 0.9940728081597222, "train/dyn_loss_mean": 4.75055518746376, "train/dyn_loss_std": 8.599818448225657, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0343968354993396, "train/extr_critic_critic_opt_grad_steps": 132915.0, "train/extr_critic_critic_opt_loss": 16040.834526909723, "train/extr_critic_mag": 7.779146313667297, "train/extr_critic_max": 7.779146313667297, "train/extr_critic_mean": 1.614857046140565, "train/extr_critic_min": -0.6224734253353543, "train/extr_critic_std": 1.749464472134908, "train/extr_return_normed_mag": 1.5749510725339253, "train/extr_return_normed_max": 1.5749510725339253, "train/extr_return_normed_mean": 0.33874778428839314, "train/extr_return_normed_min": -0.13141521645916832, "train/extr_return_normed_std": 0.3263243908683459, "train/extr_return_rate": 0.6339509499569734, "train/extr_return_raw_mag": 8.360313600964016, "train/extr_return_raw_max": 8.360313600964016, "train/extr_return_raw_mean": 1.625224416454633, "train/extr_return_raw_min": -0.9367327392101288, "train/extr_return_raw_std": 1.778073752919833, "train/extr_reward_mag": 1.0366606348090701, "train/extr_reward_max": 1.0366606348090701, "train/extr_reward_mean": 0.035536864306777716, "train/extr_reward_min": -0.6595153328445222, "train/extr_reward_std": 0.1883455543882317, "train/image_loss_mean": 2.835057912601365, "train/image_loss_std": 7.477454589472877, "train/model_loss_mean": 5.730398615201314, "train/model_loss_std": 11.572678022914463, "train/model_opt_grad_norm": 35.941219329833984, "train/model_opt_grad_steps": 132806.0, "train/model_opt_loss": 14126.896118164062, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2465.277777777778, "train/policy_entropy_mag": 2.38343408703804, "train/policy_entropy_max": 2.38343408703804, "train/policy_entropy_mean": 0.3596183508634567, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.45282699209120536, "train/policy_logprob_mag": 7.4383842084142895, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3593347238169776, "train/policy_logprob_min": -7.4383842084142895, "train/policy_logprob_std": 0.967953183584743, "train/policy_randomness_mag": 0.8412476380666097, "train/policy_randomness_max": 0.8412476380666097, "train/policy_randomness_mean": 0.12692949693236086, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15982805606391695, "train/post_ent_mag": 55.30157205793593, "train/post_ent_max": 55.30157205793593, "train/post_ent_mean": 40.58281135559082, "train/post_ent_min": 18.70965838432312, "train/post_ent_std": 5.866794758372837, "train/prior_ent_mag": 75.77310064103868, "train/prior_ent_max": 75.77310064103868, "train/prior_ent_mean": 45.27075878779093, "train/prior_ent_min": 26.594149324629043, "train/prior_ent_std": 7.306698011027442, "train/rep_loss_mean": 4.75055518746376, "train/rep_loss_std": 8.599818448225657, "train/reward_avg": 0.026105414274045162, "train/reward_loss_mean": 0.044741029695918165, "train/reward_loss_std": 0.1886780777325233, "train/reward_max_data": 1.0236111167404387, "train/reward_max_pred": 1.0193360216087766, "train/reward_neg_acc": 0.9946940913796425, "train/reward_neg_loss": 0.022382418715601995, "train/reward_pos_acc": 0.9883203829328219, "train/reward_pos_loss": 0.7341555315587256, "train/reward_pred": 0.025817757498265967, "train/reward_rate": 0.03138563368055555, "stats/sum_log_reward": 8.43333355585734, "stats/max_log_achievement_collect_coal": 1.1666666666666667, "stats/max_log_achievement_collect_drink": 10.166666666666666, "stats/max_log_achievement_collect_sapling": 2.1666666666666665, "stats/max_log_achievement_collect_stone": 7.0, "stats/max_log_achievement_collect_wood": 9.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.16666666666666666, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 0.3333333333333333, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_stone": 0.3333333333333333, "stats/max_log_achievement_place_table": 2.6666666666666665, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.40889247755209607, "replay/size": 267592.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.7542738757290684e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2553614246976245e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3118004798889, "timer/env.step_count": 1456.0, "timer/env.step_total": 17.010074377059937, "timer/env.step_frac": 0.05664137856014438, "timer/env.step_avg": 0.011682743390837868, "timer/env.step_min": 0.0031015872955322266, "timer/env.step_max": 1.7422981262207031, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.2801330089569092, "timer/replay.add_frac": 0.0009328071974170358, "timer/replay.add_avg": 0.0001923990446132618, "timer/replay.add_min": 7.796287536621094e-05, "timer/replay.add_max": 0.007278919219970703, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03065204620361328, "timer/logger.write_frac": 0.00010206740512571356, "timer/logger.write_avg": 0.03065204620361328, "timer/logger.write_min": 0.03065204620361328, "timer/logger.write_max": 0.03065204620361328, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 10.684545040130615, "timer/agent.policy_frac": 0.035578172496242386, "timer/agent.policy_avg": 0.007338286428661137, "timer/agent.policy_min": 0.005614280700683594, "timer/agent.policy_max": 0.019020795822143555, "timer/dataset_count": 728.0, "timer/dataset_total": 0.06701493263244629, "timer/dataset_frac": 0.00022315117995815853, "timer/dataset_avg": 9.205347889072293e-05, "timer/dataset_min": 7.033348083496094e-05, "timer/dataset_max": 0.00022673606872558594, "timer/agent.train_count": 728.0, "timer/agent.train_total": 271.52983808517456, "timer/agent.train_frac": 0.9041597354858462, "timer/agent.train_avg": 0.37298054682029474, "timer/agent.train_min": 0.366579532623291, "timer/agent.train_max": 0.41488027572631836, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22051119804382324, "timer/agent.report_frac": 0.0007342741700174726, "timer/agent.report_avg": 0.22051119804382324, "timer/agent.report_min": 0.22051119804382324, "timer/agent.report_max": 0.22051119804382324, "fps": 4.848207540370449}
{"step": 267740, "episode/length": 205.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.038834951456310676}
{"step": 267944, "episode/length": 203.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.024509803921568627}
{"step": 268198, "episode/length": 253.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.03937007874015748}
{"step": 268469, "episode/length": 270.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.02952029520295203}
{"step": 268619, "episode/length": 149.0, "episode/score": 4.100000001490116, "episode/sum_abs_reward": 5.700000025331974, "episode/reward_rate": 0.03333333333333333}
{"step": 268827, "episode/length": 207.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.038461538461538464}
{"step": 269087, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.541503058539496, "train/action_min": 0.0, "train/action_std": 3.404983702633116, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05088829989027646, "train/actor_opt_grad_steps": 133635.0, "train/actor_opt_loss": -13.109613666103947, "train/adv_mag": 0.5508735047446357, "train/adv_max": 0.5014346150888337, "train/adv_mean": 0.0033796869293812254, "train/adv_min": -0.42324807970888084, "train/adv_std": 0.056542553938925266, "train/cont_avg": 0.994384765625, "train/cont_loss_mean": 5.024953668690083e-05, "train/cont_loss_std": 0.0014456499759521397, "train/cont_neg_acc": 0.9982638888888888, "train/cont_neg_loss": 0.005569910178286995, "train/cont_pos_acc": 0.9999999793039428, "train/cont_pos_loss": 9.400322430488631e-06, "train/cont_pred": 0.994395073917177, "train/cont_rate": 0.994384765625, "train/dyn_loss_mean": 4.7391535805331335, "train/dyn_loss_std": 8.60563220580419, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0993094700906012, "train/extr_critic_critic_opt_grad_steps": 133635.0, "train/extr_critic_critic_opt_loss": 16328.987806532117, "train/extr_critic_mag": 7.9681481917699175, "train/extr_critic_max": 7.9681481917699175, "train/extr_critic_mean": 1.7156247744957607, "train/extr_critic_min": -0.5663719574610392, "train/extr_critic_std": 1.7929838846127193, "train/extr_return_normed_mag": 1.5818437387545903, "train/extr_return_normed_max": 1.5818437387545903, "train/extr_return_normed_mean": 0.3486598746644126, "train/extr_return_normed_min": -0.12179790866664714, "train/extr_return_normed_std": 0.3301134953896205, "train/extr_return_rate": 0.6550003969007068, "train/extr_return_raw_mag": 8.574450148476494, "train/extr_return_raw_max": 8.574450148476494, "train/extr_return_raw_mean": 1.7343510389328003, "train/extr_return_raw_min": -0.8728541053003736, "train/extr_return_raw_std": 1.8311111877361934, "train/extr_reward_mag": 1.0277131663428412, "train/extr_reward_max": 1.0277131663428412, "train/extr_reward_mean": 0.03864403198369675, "train/extr_reward_min": -0.651956738697158, "train/extr_reward_std": 0.19336655032303599, "train/image_loss_mean": 3.0062757117880716, "train/image_loss_std": 8.340566350354088, "train/model_loss_mean": 5.894772999816471, "train/model_loss_std": 12.418773982259962, "train/model_opt_grad_norm": 37.69939788182577, "train/model_opt_grad_steps": 133525.04166666666, "train/model_opt_loss": 11886.501017252604, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2048.6111111111113, "train/policy_entropy_mag": 2.3956768678294287, "train/policy_entropy_max": 2.3956768678294287, "train/policy_entropy_mean": 0.37760861880249447, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4745265576574538, "train/policy_logprob_mag": 7.438384215037028, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3792019399503867, "train/policy_logprob_min": -7.438384215037028, "train/policy_logprob_std": 0.9889629988206757, "train/policy_randomness_mag": 0.8455688009659449, "train/policy_randomness_max": 0.8455688009659449, "train/policy_randomness_mean": 0.13327926956117153, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1674870496822728, "train/post_ent_mag": 55.006122536129425, "train/post_ent_max": 55.006122536129425, "train/post_ent_mean": 40.44199540879991, "train/post_ent_min": 18.768434392081367, "train/post_ent_std": 5.760513173209296, "train/prior_ent_mag": 75.92092937893338, "train/prior_ent_max": 75.92092937893338, "train/prior_ent_mean": 45.0993324915568, "train/prior_ent_min": 27.309229850769043, "train/prior_ent_std": 7.247818211714427, "train/rep_loss_mean": 4.7391535805331335, "train/rep_loss_std": 8.60563220580419, "train/reward_avg": 0.027202690886850987, "train/reward_loss_mean": 0.04495498354339765, "train/reward_loss_std": 0.19274178457756838, "train/reward_max_data": 1.013888892200258, "train/reward_max_pred": 1.013124167919159, "train/reward_neg_acc": 0.9950967927773794, "train/reward_neg_loss": 0.02211390646536731, "train/reward_pos_acc": 0.9869528495603137, "train/reward_pos_loss": 0.7340534122453796, "train/reward_pred": 0.026897557855894167, "train/reward_rate": 0.032145182291666664, "stats/sum_log_reward": 6.433333317438762, "stats/max_log_achievement_collect_coal": 0.16666666666666666, "stats/max_log_achievement_collect_drink": 12.333333333333334, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 3.6666666666666665, "stats/max_log_achievement_collect_wood": 8.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.0, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 0.0, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.33359119047721225, "replay/size": 269024.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.710139397136326e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2300117721770729e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.02561688423157, "timer/env.step_count": 1432.0, "timer/env.step_total": 17.147491455078125, "timer/env.step_frac": 0.057153424541394035, "timer/env.step_avg": 0.011974505206060143, "timer/env.step_min": 0.003070354461669922, "timer/env.step_max": 1.7097349166870117, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.27546262741088867, "timer/replay.add_frac": 0.0009181303592392219, "timer/replay.add_avg": 0.00019236216997967087, "timer/replay.add_min": 7.82012939453125e-05, "timer/replay.add_max": 0.003436565399169922, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02626824378967285, "timer/logger.write_frac": 8.755333648662661e-05, "timer/logger.write_avg": 0.02626824378967285, "timer/logger.write_min": 0.02626824378967285, "timer/logger.write_max": 0.02626824378967285, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004754066467285156, "timer/checkpoint.save_frac": 1.584553518014953e-06, "timer/checkpoint.save_avg": 0.0004754066467285156, "timer/checkpoint.save_min": 0.0004754066467285156, "timer/checkpoint.save_max": 0.0004754066467285156, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3427038192749023, "timer/agent.save_frac": 0.00447529725367751, "timer/agent.save_avg": 1.3427038192749023, "timer/agent.save_min": 1.3427038192749023, "timer/agent.save_max": 1.3427038192749023, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.367134094238281e-05, "timer/replay.save_frac": 2.4555016904043153e-07, "timer/replay.save_avg": 7.367134094238281e-05, "timer/replay.save_min": 7.367134094238281e-05, "timer/replay.save_max": 7.367134094238281e-05, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 11.625343799591064, "timer/agent.policy_frac": 0.03874783733575937, "timer/agent.policy_avg": 0.00811825684328985, "timer/agent.policy_min": 0.00564122200012207, "timer/agent.policy_max": 1.330155849456787, "timer/dataset_count": 716.0, "timer/dataset_total": 0.06552386283874512, "timer/dataset_frac": 0.00021839422753033876, "timer/dataset_avg": 9.151377491444849e-05, "timer/dataset_min": 6.937980651855469e-05, "timer/dataset_max": 0.00023245811462402344, "timer/agent.train_count": 716.0, "timer/agent.train_total": 270.20132303237915, "timer/agent.train_frac": 0.9005941753854956, "timer/agent.train_avg": 0.37737614948656306, "timer/agent.train_min": 0.3648343086242676, "timer/agent.train_max": 3.664905071258545, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21801137924194336, "timer/agent.report_frac": 0.0007266425497462292, "timer/agent.report_avg": 0.21801137924194336, "timer/agent.report_min": 0.21801137924194336, "timer/agent.report_max": 0.21801137924194336, "fps": 4.7728417912943755}
{"step": 269163, "episode/length": 335.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.900000013411045, "episode/reward_rate": 0.026785714285714284}
{"step": 269335, "episode/length": 171.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.040697674418604654}
{"step": 269491, "episode/length": 155.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.05128205128205128}
{"step": 269639, "episode/length": 147.0, "episode/score": 7.099999979138374, "episode/sum_abs_reward": 9.30000002682209, "episode/reward_rate": 0.05405405405405406}
{"step": 269801, "episode/length": 161.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.700000047683716, "episode/reward_rate": 0.043209876543209874}
{"step": 269991, "episode/length": 189.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.042105263157894736}
{"step": 270166, "episode/length": 174.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.045714285714285714}
{"step": 270362, "episode/length": 195.0, "episode/score": 8.099999979138374, "episode/sum_abs_reward": 9.900000020861626, "episode/reward_rate": 0.04591836734693878}
{"step": 270531, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.575443691677517, "train/action_min": 0.0, "train/action_std": 3.4182731608549752, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.051695754958523646, "train/actor_opt_grad_steps": 134355.0, "train/actor_opt_loss": -11.232186688420674, "train/adv_mag": 0.4804020623366038, "train/adv_max": 0.4526730966236856, "train/adv_mean": 0.004099727530564855, "train/adv_min": -0.4136431747012668, "train/adv_std": 0.05757877297906412, "train/cont_avg": 0.9940863715277778, "train/cont_loss_mean": 2.9115057900399835e-05, "train/cont_loss_std": 0.0008012574931276125, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0012825102108738268, "train/cont_pos_acc": 0.9999863654375076, "train/cont_pos_loss": 2.421328156978733e-05, "train/cont_pred": 0.9940728288557794, "train/cont_rate": 0.9940863715277778, "train/dyn_loss_mean": 4.687393052710427, "train/dyn_loss_std": 8.58729973104265, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0571919952829678, "train/extr_critic_critic_opt_grad_steps": 134355.0, "train/extr_critic_critic_opt_loss": 16479.49107530382, "train/extr_critic_mag": 7.819504982895321, "train/extr_critic_max": 7.819504982895321, "train/extr_critic_mean": 1.8182092424896028, "train/extr_critic_min": -0.6106658577919006, "train/extr_critic_std": 1.817505967285898, "train/extr_return_normed_mag": 1.5403900626632903, "train/extr_return_normed_max": 1.5403900626632903, "train/extr_return_normed_mean": 0.3663736805319786, "train/extr_return_normed_min": -0.1249390175152156, "train/extr_return_normed_std": 0.3309110138151381, "train/extr_return_rate": 0.667113385680649, "train/extr_return_raw_mag": 8.413922521803114, "train/extr_return_raw_max": 8.413922521803114, "train/extr_return_raw_mean": 1.8411409225728776, "train/extr_return_raw_min": -0.910517253809505, "train/extr_return_raw_std": 1.8532071709632874, "train/extr_reward_mag": 1.0330549014939203, "train/extr_reward_max": 1.0330549014939203, "train/extr_reward_mean": 0.04068582533444795, "train/extr_reward_min": -0.6574126829703649, "train/extr_reward_std": 0.19991009475456345, "train/image_loss_mean": 2.839947667386797, "train/image_loss_std": 7.634464495711857, "train/model_loss_mean": 5.69971776008606, "train/model_loss_std": 11.742936081356472, "train/model_opt_grad_norm": 37.308947536680435, "train/model_opt_grad_steps": 134244.0, "train/model_opt_loss": 7124.647162543402, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.386476629310184, "train/policy_entropy_max": 2.386476629310184, "train/policy_entropy_mean": 0.36420755295289886, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4615221495429675, "train/policy_logprob_mag": 7.43838416867786, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3641756541199154, "train/policy_logprob_min": -7.43838416867786, "train/policy_logprob_std": 0.9736425719327397, "train/policy_randomness_mag": 0.8423215258452628, "train/policy_randomness_max": 0.8423215258452628, "train/policy_randomness_mean": 0.12854928326689535, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1628970629018214, "train/post_ent_mag": 55.094929218292236, "train/post_ent_max": 55.094929218292236, "train/post_ent_mean": 40.507172425587974, "train/post_ent_min": 19.127645823690628, "train/post_ent_std": 5.8166462779045105, "train/prior_ent_mag": 75.8156385421753, "train/prior_ent_max": 75.8156385421753, "train/prior_ent_mean": 45.11741590499878, "train/prior_ent_min": 26.757535033755833, "train/prior_ent_std": 7.345859640174442, "train/rep_loss_mean": 4.687393052710427, "train/rep_loss_std": 8.58729973104265, "train/reward_avg": 0.027791340796587367, "train/reward_loss_mean": 0.047305191297911935, "train/reward_loss_std": 0.1996637520690759, "train/reward_max_data": 1.0208333383003871, "train/reward_max_pred": 1.0192887882391612, "train/reward_neg_acc": 0.9949507787823677, "train/reward_neg_loss": 0.02393385629531824, "train/reward_pos_acc": 0.9894189718696806, "train/reward_pos_loss": 0.728863319589032, "train/reward_pred": 0.02760592751049747, "train/reward_rate": 0.033203125, "stats/sum_log_reward": 7.100000202655792, "stats/max_log_achievement_collect_coal": 0.125, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 1.0, "stats/max_log_achievement_collect_wood": 12.25, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.25, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 3.125, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.0, "stats/max_log_achievement_place_plant": 1.75, "stats/max_log_achievement_place_stone": 0.0, "stats/max_log_achievement_place_table": 3.25, "stats/max_log_achievement_wake_up": 1.125, "stats/mean_log_entropy": 0.3098527304828167, "replay/size": 270468.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.81816457183077e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2402017691128802e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.28811049461365, "timer/env.step_count": 1444.0, "timer/env.step_total": 20.322359085083008, "timer/env.step_frac": 0.06767620286933583, "timer/env.step_avg": 0.014073655876096266, "timer/env.step_min": 0.003077268600463867, "timer/env.step_max": 1.6863987445831299, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.2666630744934082, "timer/replay.add_frac": 0.0008880240847837078, "timer/replay.add_avg": 0.00018466971917826053, "timer/replay.add_min": 8.0108642578125e-05, "timer/replay.add_max": 0.0032906532287597656, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029572486877441406, "timer/logger.write_frac": 9.848037882263027e-05, "timer/logger.write_avg": 0.029572486877441406, "timer/logger.write_min": 0.029572486877441406, "timer/logger.write_max": 0.029572486877441406, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.388852834701538, "timer/agent.policy_frac": 0.03459628427375877, "timer/agent.policy_avg": 0.0071944964229235025, "timer/agent.policy_min": 0.005671501159667969, "timer/agent.policy_max": 0.016099214553833008, "timer/dataset_count": 722.0, "timer/dataset_total": 0.06468772888183594, "timer/dataset_frac": 0.00021541888147115387, "timer/dataset_avg": 8.959519235711349e-05, "timer/dataset_min": 6.318092346191406e-05, "timer/dataset_max": 0.00016427040100097656, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.5274043083191, "timer/agent.train_frac": 0.894232555081916, "timer/agent.train_avg": 0.3719216126154004, "timer/agent.train_min": 0.36550474166870117, "timer/agent.train_max": 0.38335251808166504, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22017574310302734, "timer/agent.report_frac": 0.0007332149872346568, "timer/agent.report_avg": 0.22017574310302734, "timer/agent.report_min": 0.22017574310302734, "timer/agent.report_max": 0.22017574310302734, "fps": 4.808636253024266}
{"step": 270562, "episode/length": 199.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.700000025331974, "episode/reward_rate": 0.045}
{"step": 270744, "episode/length": 181.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.03296703296703297}
{"step": 270798, "episode/length": 53.0, "episode/score": 2.100000001490116, "episode/sum_abs_reward": 4.100000001490116, "episode/reward_rate": 0.07407407407407407}
{"step": 270857, "episode/length": 58.0, "episode/score": 4.099999971687794, "episode/sum_abs_reward": 5.900000028312206, "episode/reward_rate": 0.1016949152542373}
{"step": 270907, "episode/length": 49.0, "episode/score": 3.100000001490116, "episode/sum_abs_reward": 5.100000001490116, "episode/reward_rate": 0.1}
{"step": 271078, "episode/length": 170.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.900000013411045, "episode/reward_rate": 0.05263157894736842}
{"step": 271237, "episode/length": 158.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.05660377358490566}
{"step": 271442, "episode/length": 204.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.5, "episode/reward_rate": 0.04878048780487805}
{"step": 271587, "episode/length": 144.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.04827586206896552}
{"step": 271846, "episode/length": 258.0, "episode/score": 8.100000031292439, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.03861003861003861}
{"step": 271959, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.515130784776476, "train/action_min": 0.0, "train/action_std": 3.424753722217348, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04879810997388429, "train/actor_opt_grad_steps": 135075.0, "train/actor_opt_loss": -13.291637075651023, "train/adv_mag": 0.5469393307964007, "train/adv_max": 0.5011769218577279, "train/adv_mean": 0.003027542589128037, "train/adv_min": -0.4469620957970619, "train/adv_std": 0.056047947301218905, "train/cont_avg": 0.9944118923611112, "train/cont_loss_mean": 3.339996940394169e-05, "train/cont_loss_std": 0.0009766388538842029, "train/cont_neg_acc": 0.9980158739619784, "train/cont_neg_loss": 0.0037982147068633923, "train/cont_pos_acc": 0.9999999834431542, "train/cont_pos_loss": 7.482239828012401e-06, "train/cont_pred": 0.9944164347317483, "train/cont_rate": 0.9944118923611112, "train/dyn_loss_mean": 4.580723904901081, "train/dyn_loss_std": 8.504556198914846, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0520722857779927, "train/extr_critic_critic_opt_grad_steps": 135075.0, "train/extr_critic_critic_opt_loss": 16077.305962456598, "train/extr_critic_mag": 8.153666423426735, "train/extr_critic_max": 8.153666423426735, "train/extr_critic_mean": 1.8603279872073069, "train/extr_critic_min": -0.5747046967347463, "train/extr_critic_std": 1.8340364495913188, "train/extr_return_normed_mag": 1.5937921520736482, "train/extr_return_normed_max": 1.5937921520736482, "train/extr_return_normed_mean": 0.36507801256246036, "train/extr_return_normed_min": -0.1145207475249966, "train/extr_return_normed_std": 0.3310352410707209, "train/extr_return_rate": 0.6729203189412752, "train/extr_return_raw_mag": 8.818905187977684, "train/extr_return_raw_max": 8.818905187977684, "train/extr_return_raw_mean": 1.8773900949292712, "train/extr_return_raw_min": -0.8330460612972578, "train/extr_return_raw_std": 1.8704747011264165, "train/extr_reward_mag": 1.029857532845603, "train/extr_reward_max": 1.029857532845603, "train/extr_reward_mean": 0.03832749536054002, "train/extr_reward_min": -0.6457128690348731, "train/extr_reward_std": 0.1926310881972313, "train/image_loss_mean": 2.716726208726565, "train/image_loss_std": 7.046246058411068, "train/model_loss_mean": 5.51026756895913, "train/model_loss_std": 11.115752769841087, "train/model_opt_grad_norm": 31.676758726437885, "train/model_opt_grad_steps": 134964.0, "train/model_opt_loss": 13674.551771375867, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.3985121813085346, "train/policy_entropy_max": 2.3985121813085346, "train/policy_entropy_mean": 0.3646661904123094, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4614360038605001, "train/policy_logprob_mag": 7.438384175300598, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36346087749633527, "train/policy_logprob_min": -7.438384175300598, "train/policy_logprob_std": 0.9701330893569522, "train/policy_randomness_mag": 0.8465695422556665, "train/policy_randomness_max": 0.8465695422556665, "train/policy_randomness_mean": 0.1287111604793204, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16286666008333364, "train/post_ent_mag": 55.320459842681885, "train/post_ent_max": 55.320459842681885, "train/post_ent_mean": 40.81535731421577, "train/post_ent_min": 18.628421584765118, "train/post_ent_std": 5.828283091386159, "train/prior_ent_mag": 75.70523632897272, "train/prior_ent_max": 75.70523632897272, "train/prior_ent_mean": 45.324257373809814, "train/prior_ent_min": 26.871194044748943, "train/prior_ent_std": 7.241733206642999, "train/rep_loss_mean": 4.580723904901081, "train/rep_loss_std": 8.504556198914846, "train/reward_avg": 0.02781439871372034, "train/reward_loss_mean": 0.045073574564109244, "train/reward_loss_std": 0.18639978642265, "train/reward_max_data": 1.013888892200258, "train/reward_max_pred": 1.0118645363383822, "train/reward_neg_acc": 0.9954814894331826, "train/reward_neg_loss": 0.021856640497895166, "train/reward_pos_acc": 0.9904842798908552, "train/reward_pos_loss": 0.7291372675034735, "train/reward_pred": 0.02753733225270278, "train/reward_rate": 0.03286404079861111, "stats/sum_log_reward": 6.100000095367432, "stats/max_log_achievement_collect_coal": 0.0, "stats/max_log_achievement_collect_drink": 6.3, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 0.2, "stats/max_log_achievement_collect_wood": 9.4, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.4, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_wood_pickaxe": 1.8, "stats/max_log_achievement_make_wood_sword": 0.5, "stats/max_log_achievement_place_furnace": 0.0, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 0.0, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 0.9, "stats/mean_log_entropy": 0.3065332621335983, "replay/size": 271896.0, "replay/inserts": 1428.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 3.7836427448176537e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2262570423906256e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.36375188827515, "timer/env.step_count": 1428.0, "timer/env.step_total": 23.470728158950806, "timer/env.step_frac": 0.07814101405845103, "timer/env.step_avg": 0.016436084144923535, "timer/env.step_min": 0.003080129623413086, "timer/env.step_max": 1.7559890747070312, "timer/replay.add_count": 1428.0, "timer/replay.add_total": 0.25404787063598633, "timer/replay.add_frac": 0.0008458006967847547, "timer/replay.add_avg": 0.0001779046713137159, "timer/replay.add_min": 8.153915405273438e-05, "timer/replay.add_max": 0.0024890899658203125, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027959108352661133, "timer/logger.write_frac": 9.308416270902405e-05, "timer/logger.write_avg": 0.027959108352661133, "timer/logger.write_min": 0.027959108352661133, "timer/logger.write_max": 0.027959108352661133, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1428.0, "timer/agent.policy_total": 10.202182054519653, "timer/agent.policy_frac": 0.03396608941785529, "timer/agent.policy_avg": 0.007144385192240654, "timer/agent.policy_min": 0.005658149719238281, "timer/agent.policy_max": 0.01572108268737793, "timer/dataset_count": 714.0, "timer/dataset_total": 0.06380295753479004, "timer/dataset_frac": 0.0002124189657829368, "timer/dataset_avg": 8.935988450250705e-05, "timer/dataset_min": 6.937980651855469e-05, "timer/dataset_max": 0.00016164779663085938, "timer/agent.train_count": 714.0, "timer/agent.train_total": 265.6635653972626, "timer/agent.train_frac": 0.8844727891669171, "timer/agent.train_avg": 0.3720778226852417, "timer/agent.train_min": 0.36600780487060547, "timer/agent.train_max": 0.3882899284362793, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21934890747070312, "timer/agent.report_frac": 0.0007302775587657904, "timer/agent.report_avg": 0.21934890747070312, "timer/agent.report_min": 0.21934890747070312, "timer/agent.report_max": 0.21934890747070312, "fps": 4.754152770583272}
{"step": 271991, "episode/length": 144.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.700000025331974, "episode/reward_rate": 0.05517241379310345}
{"step": 272175, "episode/length": 183.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.500000022351742, "episode/reward_rate": 0.043478260869565216}
{"step": 272389, "episode/length": 213.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.04205607476635514}
{"step": 272552, "episode/length": 162.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.05521472392638037}
{"step": 272719, "episode/length": 166.0, "episode/score": 7.099999979138374, "episode/sum_abs_reward": 8.900000020861626, "episode/reward_rate": 0.04790419161676647}
{"step": 272902, "episode/length": 182.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.0546448087431694}
{"step": 273151, "episode/length": 248.0, "episode/score": 7.099999979138374, "episode/sum_abs_reward": 8.900000020861626, "episode/reward_rate": 0.0321285140562249}
{"step": 273307, "episode/length": 155.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.03205128205128205}
{"step": 273379, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.570904798910651, "train/action_min": 0.0, "train/action_std": 3.5169111473459593, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.050086894190647234, "train/actor_opt_grad_steps": 135790.0, "train/actor_opt_loss": -12.087057338634008, "train/adv_mag": 0.510194826293999, "train/adv_max": 0.45643685233425085, "train/adv_mean": 0.0028749361089736134, "train/adv_min": -0.42331243652692985, "train/adv_std": 0.05647676201983237, "train/cont_avg": 0.9945119938380281, "train/cont_loss_mean": 2.4038665577083366e-05, "train/cont_loss_std": 0.0006514158163229336, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0003177067392756162, "train/cont_pos_acc": 0.9999999764939429, "train/cont_pos_loss": 2.2313269308732532e-05, "train/cont_pred": 0.9944936784220414, "train/cont_rate": 0.9945119938380281, "train/dyn_loss_mean": 4.574303929234894, "train/dyn_loss_std": 8.527038097381592, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0537944343728078, "train/extr_critic_critic_opt_grad_steps": 135790.0, "train/extr_critic_critic_opt_loss": 16292.914406360036, "train/extr_critic_mag": 8.072642131590507, "train/extr_critic_max": 8.072642131590507, "train/extr_critic_mean": 1.8722658879320386, "train/extr_critic_min": -0.6118959792902772, "train/extr_critic_std": 1.820188349401447, "train/extr_return_normed_mag": 1.5371360946709, "train/extr_return_normed_max": 1.5371360946709, "train/extr_return_normed_mean": 0.3642011885072144, "train/extr_return_normed_min": -0.12865301525928605, "train/extr_return_normed_std": 0.32385333533018407, "train/extr_return_rate": 0.6819698499961638, "train/extr_return_raw_mag": 8.599015262764944, "train/extr_return_raw_max": 8.599015262764944, "train/extr_return_raw_mean": 1.888695132564491, "train/extr_return_raw_min": -0.9303906635499336, "train/extr_return_raw_std": 1.8525080177145945, "train/extr_reward_mag": 1.0316475780916885, "train/extr_reward_max": 1.0316475780916885, "train/extr_reward_mean": 0.03779212180787409, "train/extr_reward_min": -0.675610859629134, "train/extr_reward_std": 0.1920607173946542, "train/image_loss_mean": 2.7442266420579293, "train/image_loss_std": 7.894249754892269, "train/model_loss_mean": 5.532967570801856, "train/model_loss_std": 11.960209550991864, "train/model_opt_grad_norm": 34.01906591066172, "train/model_opt_grad_steps": 135678.29577464788, "train/model_opt_loss": 8922.543408890846, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1619.718309859155, "train/policy_entropy_mag": 2.3762512912212963, "train/policy_entropy_max": 2.3762512912212963, "train/policy_entropy_mean": 0.36463673475762487, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.46344128964652476, "train/policy_logprob_mag": 7.438384170263586, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36483985122660517, "train/policy_logprob_min": -7.438384170263586, "train/policy_logprob_std": 0.9729219381238373, "train/policy_randomness_mag": 0.8387124269780978, "train/policy_randomness_max": 0.8387124269780978, "train/policy_randomness_mean": 0.12870076456120316, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16357443775509445, "train/post_ent_mag": 54.46241491613254, "train/post_ent_max": 54.46241491613254, "train/post_ent_mean": 40.43169757681833, "train/post_ent_min": 18.98436344845194, "train/post_ent_std": 5.7801037170517615, "train/prior_ent_mag": 75.9618906370351, "train/prior_ent_max": 75.9618906370351, "train/prior_ent_mean": 44.97877352002641, "train/prior_ent_min": 26.662460004779653, "train/prior_ent_std": 7.270071721412767, "train/rep_loss_mean": 4.574303929234894, "train/rep_loss_std": 8.527038097381592, "train/reward_avg": 0.026092099301307133, "train/reward_loss_mean": 0.04413456060517002, "train/reward_loss_std": 0.19349010729453933, "train/reward_max_data": 1.016901412480314, "train/reward_max_pred": 1.0179268608630543, "train/reward_neg_acc": 0.9952724030320074, "train/reward_neg_loss": 0.021914050494596153, "train/reward_pos_acc": 0.9887658005029383, "train/reward_pos_loss": 0.7319330959252908, "train/reward_pred": 0.025864337006924858, "train/reward_rate": 0.031194982394366196, "stats/sum_log_reward": 7.2250001430511475, "stats/max_log_achievement_collect_coal": 0.0, "stats/max_log_achievement_collect_drink": 5.625, "stats/max_log_achievement_collect_sapling": 2.375, "stats/max_log_achievement_collect_stone": 1.25, "stats/max_log_achievement_collect_wood": 7.875, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.125, "stats/max_log_achievement_eat_cow": 0.375, "stats/max_log_achievement_make_wood_pickaxe": 1.75, "stats/max_log_achievement_make_wood_sword": 0.75, "stats/max_log_achievement_place_furnace": 0.0, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 0.0, "stats/max_log_achievement_place_table": 2.25, "stats/max_log_achievement_wake_up": 1.125, "stats/mean_log_entropy": 0.3213029969483614, "replay/size": 273316.0, "replay/inserts": 1420.0, "replay/samples": 11360.0, "replay/insert_wait_avg": 3.722352041325099e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2386432835753536e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3158049583435, "timer/env.step_count": 1420.0, "timer/env.step_total": 22.90793013572693, "timer/env.step_frac": 0.07627946900398554, "timer/env.step_avg": 0.01613234516600488, "timer/env.step_min": 0.003038644790649414, "timer/env.step_max": 2.6762545108795166, "timer/replay.add_count": 1420.0, "timer/replay.add_total": 0.28077220916748047, "timer/replay.add_frac": 0.0009349231859656074, "timer/replay.add_avg": 0.00019772690786442286, "timer/replay.add_min": 6.270408630371094e-05, "timer/replay.add_max": 0.0075054168701171875, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03073263168334961, "timer/logger.write_frac": 0.00010233437992919654, "timer/logger.write_avg": 0.03073263168334961, "timer/logger.write_min": 0.03073263168334961, "timer/logger.write_max": 0.03073263168334961, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003643035888671875, "timer/checkpoint.save_frac": 1.2130683195901717e-06, "timer/checkpoint.save_avg": 0.0003643035888671875, "timer/checkpoint.save_min": 0.0003643035888671875, "timer/checkpoint.save_max": 0.0003643035888671875, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4217820167541504, "timer/agent.save_frac": 0.004734289681994473, "timer/agent.save_avg": 1.4217820167541504, "timer/agent.save_min": 1.4217820167541504, "timer/agent.save_max": 1.4217820167541504, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.295608520507812e-05, "timer/replay.save_frac": 2.429312210697595e-07, "timer/replay.save_avg": 7.295608520507812e-05, "timer/replay.save_min": 7.295608520507812e-05, "timer/replay.save_max": 7.295608520507812e-05, "timer/agent.policy_count": 1420.0, "timer/agent.policy_total": 11.613115787506104, "timer/agent.policy_frac": 0.03866967903709546, "timer/agent.policy_avg": 0.008178250554581762, "timer/agent.policy_min": 0.005724668502807617, "timer/agent.policy_max": 1.410736083984375, "timer/dataset_count": 710.0, "timer/dataset_total": 0.06328678131103516, "timer/dataset_frac": 0.00021073410145634394, "timer/dataset_avg": 8.913631170568331e-05, "timer/dataset_min": 6.67572021484375e-05, "timer/dataset_max": 0.000164031982421875, "timer/agent.train_count": 710.0, "timer/agent.train_total": 264.7388114929199, "timer/agent.train_frac": 0.8815347281826927, "timer/agent.train_avg": 0.3728715654829858, "timer/agent.train_min": 0.3627474308013916, "timer/agent.train_max": 0.9168753623962402, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2190542221069336, "timer/agent.report_frac": 0.0007294128996551426, "timer/agent.report_avg": 0.2190542221069336, "timer/agent.report_min": 0.2190542221069336, "timer/agent.report_max": 0.2190542221069336, "fps": 4.728283537794088}
{"step": 273465, "episode/length": 157.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.03164556962025317}
{"step": 273622, "episode/length": 156.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.06369426751592357}
{"step": 273798, "episode/length": 175.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03409090909090909}
{"step": 274017, "episode/length": 218.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.700000025331974, "episode/reward_rate": 0.0410958904109589}
{"step": 274218, "episode/length": 200.0, "episode/score": 9.099999994039536, "episode/sum_abs_reward": 11.100000008940697, "episode/reward_rate": 0.05472636815920398}
{"step": 274303, "episode/length": 84.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 8.899999991059303, "episode/reward_rate": 0.10588235294117647}
{"step": 274475, "episode/length": 171.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.040697674418604654}
{"step": 274637, "episode/length": 161.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.05555555555555555}
{"step": 274817, "episode/length": 179.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.03888888888888889}
{"step": 274818, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.463312713193222, "train/action_min": 0.0, "train/action_std": 3.4093859934471022, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04930330398426929, "train/actor_opt_grad_steps": 136500.0, "train/actor_opt_loss": -14.34986585084821, "train/adv_mag": 0.540579831516239, "train/adv_max": 0.5025551898378722, "train/adv_mean": 0.002085704400241424, "train/adv_min": -0.41063392707999324, "train/adv_std": 0.05519403868787725, "train/cont_avg": 0.9941268705985915, "train/cont_loss_mean": 9.508647454041097e-06, "train/cont_loss_std": 0.000212324553918849, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 5.676464477058379e-05, "train/cont_pos_acc": 0.9999999840494612, "train/cont_pos_loss": 9.243023279616825e-06, "train/cont_pred": 0.994118869304657, "train/cont_rate": 0.9941268705985915, "train/dyn_loss_mean": 4.692870032619423, "train/dyn_loss_std": 8.595181498729007, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0425171994827163, "train/extr_critic_critic_opt_grad_steps": 136500.0, "train/extr_critic_critic_opt_loss": 16096.234485035211, "train/extr_critic_mag": 8.376214537822024, "train/extr_critic_max": 8.376214537822024, "train/extr_critic_mean": 1.8876549861800502, "train/extr_critic_min": -0.5812201499938965, "train/extr_critic_std": 1.8751848701020362, "train/extr_return_normed_mag": 1.6002978909183556, "train/extr_return_normed_max": 1.6002978909183556, "train/extr_return_normed_mean": 0.3662537241905508, "train/extr_return_normed_min": -0.12020594343333177, "train/extr_return_normed_std": 0.3340958205746933, "train/extr_return_rate": 0.6697183431873859, "train/extr_return_raw_mag": 8.944517350532639, "train/extr_return_raw_max": 8.944517350532639, "train/extr_return_raw_mean": 1.899568366332793, "train/extr_return_raw_min": -0.8774354390695062, "train/extr_return_raw_std": 1.907558647679611, "train/extr_reward_mag": 1.0401256823203933, "train/extr_reward_max": 1.0401256823203933, "train/extr_reward_mean": 0.03781080051836833, "train/extr_reward_min": -0.6702574642611222, "train/extr_reward_std": 0.1921110711467098, "train/image_loss_mean": 2.787271032870655, "train/image_loss_std": 7.282068339871689, "train/model_loss_mean": 5.650768599040072, "train/model_loss_std": 11.43898385679218, "train/model_opt_grad_norm": 34.47685367960325, "train/model_opt_grad_steps": 136388.0, "train/model_opt_loss": 9146.29658615757, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1619.718309859155, "train/policy_entropy_mag": 2.350138140396333, "train/policy_entropy_max": 2.350138140396333, "train/policy_entropy_mean": 0.36199662215273143, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.45691117350484284, "train/policy_logprob_mag": 7.438384190411635, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.363690992476235, "train/policy_logprob_min": -7.438384190411635, "train/policy_logprob_std": 0.9711820693083213, "train/policy_randomness_mag": 0.8294956297941611, "train/policy_randomness_max": 0.8294956297941611, "train/policy_randomness_mean": 0.12776892170519896, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16126959351166872, "train/post_ent_mag": 55.00528550483811, "train/post_ent_max": 55.00528550483811, "train/post_ent_mean": 40.47014370770522, "train/post_ent_min": 18.519652836759324, "train/post_ent_std": 5.812624568670568, "train/prior_ent_mag": 75.96833328461983, "train/prior_ent_max": 75.96833328461983, "train/prior_ent_mean": 45.11314934743962, "train/prior_ent_min": 27.216507468425053, "train/prior_ent_std": 7.351963224545331, "train/rep_loss_mean": 4.692870032619423, "train/rep_loss_std": 8.595181498729007, "train/reward_avg": 0.0271223040271393, "train/reward_loss_mean": 0.04776603460941516, "train/reward_loss_std": 0.202828941001019, "train/reward_max_data": 1.0140845104002616, "train/reward_max_pred": 1.0135726022048734, "train/reward_neg_acc": 0.9951431860386486, "train/reward_neg_loss": 0.024785351768975526, "train/reward_pos_acc": 0.986891079116875, "train/reward_pos_loss": 0.7342787032396021, "train/reward_pred": 0.026864115857112576, "train/reward_rate": 0.032460387323943664, "stats/sum_log_reward": 6.988889111412896, "stats/max_log_achievement_collect_coal": 0.2222222222222222, "stats/max_log_achievement_collect_drink": 1.4444444444444444, "stats/max_log_achievement_collect_sapling": 1.7777777777777777, "stats/max_log_achievement_collect_stone": 1.6666666666666667, "stats/max_log_achievement_collect_wood": 7.555555555555555, "stats/max_log_achievement_defeat_skeleton": 0.1111111111111111, "stats/max_log_achievement_defeat_zombie": 0.2222222222222222, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 1.1111111111111112, "stats/max_log_achievement_make_wood_sword": 0.7777777777777778, "stats/max_log_achievement_place_furnace": 0.0, "stats/max_log_achievement_place_plant": 1.5555555555555556, "stats/max_log_achievement_place_stone": 0.0, "stats/max_log_achievement_place_table": 1.5555555555555556, "stats/max_log_achievement_wake_up": 1.2222222222222223, "stats/mean_log_entropy": 0.28004710872968036, "replay/size": 274755.0, "replay/inserts": 1439.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.743784720902645e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2282784691440546e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3758969306946, "timer/env.step_count": 1439.0, "timer/env.step_total": 21.563615560531616, "timer/env.step_frac": 0.07178876794334456, "timer/env.step_avg": 0.014985139374935105, "timer/env.step_min": 0.002897024154663086, "timer/env.step_max": 1.6564452648162842, "timer/replay.add_count": 1439.0, "timer/replay.add_total": 0.263291597366333, "timer/replay.add_frac": 0.0008765403617823637, "timer/replay.add_avg": 0.00018296844848251077, "timer/replay.add_min": 8.273124694824219e-05, "timer/replay.add_max": 0.0024840831756591797, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028195619583129883, "timer/logger.write_frac": 9.386778323839821e-05, "timer/logger.write_avg": 0.028195619583129883, "timer/logger.write_min": 0.028195619583129883, "timer/logger.write_max": 0.028195619583129883, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1439.0, "timer/agent.policy_total": 10.293893098831177, "timer/agent.policy_frac": 0.03427003699037235, "timer/agent.policy_avg": 0.007153504585706169, "timer/agent.policy_min": 0.0056610107421875, "timer/agent.policy_max": 0.016155242919921875, "timer/dataset_count": 719.0, "timer/dataset_total": 0.06444025039672852, "timer/dataset_frac": 0.000214532028219284, "timer/dataset_avg": 8.962482669920517e-05, "timer/dataset_min": 7.009506225585938e-05, "timer/dataset_max": 0.00017070770263671875, "timer/agent.train_count": 719.0, "timer/agent.train_total": 267.46987748146057, "timer/agent.train_frac": 0.890450532864072, "timer/agent.train_avg": 0.3720026112398617, "timer/agent.train_min": 0.3653984069824219, "timer/agent.train_max": 0.38259410858154297, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22487759590148926, "timer/agent.report_frac": 0.0007486539306227191, "timer/agent.report_avg": 0.22487759590148926, "timer/agent.report_min": 0.22487759590148926, "timer/agent.report_max": 0.22487759590148926, "fps": 4.79057232922781}
{"step": 275132, "episode/length": 314.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.03492063492063492}
{"step": 275339, "episode/length": 206.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.043478260869565216}
{"step": 275512, "episode/length": 172.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.05202312138728324}
{"step": 275642, "episode/length": 129.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.06153846153846154}
{"step": 275790, "episode/length": 147.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.500000022351742, "episode/reward_rate": 0.05405405405405406}
{"step": 276091, "episode/length": 300.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.029900332225913623}
{"step": 276275, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.397726816673801, "train/action_min": 0.0, "train/action_std": 3.352835913227029, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04715528885183269, "train/actor_opt_grad_steps": 137220.0, "train/actor_opt_loss": -16.966342312220025, "train/adv_mag": 0.48472903607642814, "train/adv_max": 0.4456399230107869, "train/adv_mean": 0.0012527469002945933, "train/adv_min": -0.41479204819627, "train/adv_std": 0.05251665214357311, "train/cont_avg": 0.9946891053082192, "train/cont_loss_mean": 3.16200443208264e-05, "train/cont_loss_std": 0.0008976471960043094, "train/cont_neg_acc": 0.9972602741359031, "train/cont_neg_loss": 0.004916628601876417, "train/cont_pos_acc": 0.9999999787709485, "train/cont_pos_loss": 7.603562599417447e-06, "train/cont_pred": 0.9946931102504469, "train/cont_rate": 0.9946891053082192, "train/dyn_loss_mean": 4.485598858088663, "train/dyn_loss_std": 8.507715493032377, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9944076636066176, "train/extr_critic_critic_opt_grad_steps": 137220.0, "train/extr_critic_critic_opt_loss": 15681.625454837329, "train/extr_critic_mag": 7.939666225485606, "train/extr_critic_max": 7.939666225485606, "train/extr_critic_mean": 1.863672095618836, "train/extr_critic_min": -0.5949411980093342, "train/extr_critic_std": 1.835822490796651, "train/extr_return_normed_mag": 1.5251707932720446, "train/extr_return_normed_max": 1.5251707932720446, "train/extr_return_normed_mean": 0.3611297750309722, "train/extr_return_normed_min": -0.1199158687297612, "train/extr_return_normed_std": 0.32682599555956177, "train/extr_return_rate": 0.684193102872535, "train/extr_return_raw_mag": 8.513083947847967, "train/extr_return_raw_max": 8.513083947847967, "train/extr_return_raw_mean": 1.8707917740900222, "train/extr_return_raw_min": -0.8741627719304333, "train/extr_return_raw_std": 1.8650335726672655, "train/extr_reward_mag": 1.0286395909035042, "train/extr_reward_max": 1.0286395909035042, "train/extr_reward_mean": 0.0373460857631409, "train/extr_reward_min": -0.6609870342359151, "train/extr_reward_std": 0.19079757696145203, "train/image_loss_mean": 2.5833857810660583, "train/image_loss_std": 7.411467558717074, "train/model_loss_mean": 5.319309606944045, "train/model_loss_std": 11.48223876953125, "train/model_opt_grad_norm": 35.159601629596864, "train/model_opt_grad_steps": 137107.04109589042, "train/model_opt_loss": 6908.342004227312, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1301.3698630136987, "train/policy_entropy_mag": 2.3147918328846973, "train/policy_entropy_max": 2.3147918328846973, "train/policy_entropy_mean": 0.3553014914058659, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.45397039962141483, "train/policy_logprob_mag": 7.438384225923721, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3560859054735262, "train/policy_logprob_min": -7.438384225923721, "train/policy_logprob_std": 0.9645433115632567, "train/policy_randomness_mag": 0.8170199369731015, "train/policy_randomness_max": 0.8170199369731015, "train/policy_randomness_mean": 0.12540583404367917, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16023162925896578, "train/post_ent_mag": 55.02337155276782, "train/post_ent_max": 55.02337155276782, "train/post_ent_mean": 40.644572323315764, "train/post_ent_min": 18.67537084344315, "train/post_ent_std": 5.748732037740211, "train/prior_ent_mag": 75.91887946978007, "train/prior_ent_max": 75.91887946978007, "train/prior_ent_mean": 45.05309990660785, "train/prior_ent_min": 26.74566535427146, "train/prior_ent_std": 7.186989823432818, "train/rep_loss_mean": 4.485598858088663, "train/rep_loss_std": 8.507715493032377, "train/reward_avg": 0.02713505969676253, "train/reward_loss_mean": 0.044532963904003575, "train/reward_loss_std": 0.1959461357495556, "train/reward_max_data": 1.0136986334029943, "train/reward_max_pred": 1.0141881688000405, "train/reward_neg_acc": 0.9953039753926943, "train/reward_neg_loss": 0.021700314131297478, "train/reward_pos_acc": 0.9895623146671139, "train/reward_pos_loss": 0.7340193292866014, "train/reward_pred": 0.026826865001492305, "train/reward_rate": 0.03202589897260274, "stats/sum_log_reward": 8.100000381469727, "stats/max_log_achievement_collect_coal": 0.0, "stats/max_log_achievement_collect_drink": 10.166666666666666, "stats/max_log_achievement_collect_sapling": 2.5, "stats/max_log_achievement_collect_stone": 3.3333333333333335, "stats/max_log_achievement_collect_wood": 11.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 0.6666666666666666, "stats/max_log_achievement_place_furnace": 0.0, "stats/max_log_achievement_place_plant": 2.3333333333333335, "stats/max_log_achievement_place_stone": 0.16666666666666666, "stats/max_log_achievement_place_table": 3.5, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.35403142621119815, "replay/size": 276212.0, "replay/inserts": 1457.0, "replay/samples": 11664.0, "replay/insert_wait_avg": 3.726824391927307e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2361218409283171e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.02421021461487, "timer/env.step_count": 1457.0, "timer/env.step_total": 17.30291771888733, "timer/env.step_frac": 0.05767173824575729, "timer/env.step_avg": 0.011875715661556163, "timer/env.step_min": 0.003045797348022461, "timer/env.step_max": 1.6864538192749023, "timer/replay.add_count": 1457.0, "timer/replay.add_total": 0.25614237785339355, "timer/replay.add_frac": 0.0008537390288276018, "timer/replay.add_avg": 0.0001758012202150951, "timer/replay.add_min": 7.891654968261719e-05, "timer/replay.add_max": 0.0013158321380615234, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024497509002685547, "timer/logger.write_frac": 8.165177398571223e-05, "timer/logger.write_avg": 0.024497509002685547, "timer/logger.write_min": 0.024497509002685547, "timer/logger.write_max": 0.024497509002685547, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1457.0, "timer/agent.policy_total": 10.527653455734253, "timer/agent.policy_frac": 0.03508934645041997, "timer/agent.policy_avg": 0.007225568603798389, "timer/agent.policy_min": 0.0057353973388671875, "timer/agent.policy_max": 0.02637648582458496, "timer/dataset_count": 729.0, "timer/dataset_total": 0.06658267974853516, "timer/dataset_frac": 0.00022192435637413024, "timer/dataset_avg": 9.13342657730249e-05, "timer/dataset_min": 6.437301635742188e-05, "timer/dataset_max": 0.00039649009704589844, "timer/agent.train_count": 729.0, "timer/agent.train_total": 271.1616632938385, "timer/agent.train_frac": 0.903799273731509, "timer/agent.train_avg": 0.3719638728310542, "timer/agent.train_min": 0.36553502082824707, "timer/agent.train_max": 0.3846707344055176, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21859145164489746, "timer/agent.report_frac": 0.0007285793752728605, "timer/agent.report_avg": 0.21859145164489746, "timer/agent.report_min": 0.21859145164489746, "timer/agent.report_max": 0.21859145164489746, "fps": 4.856199410026255}
{"step": 276291, "episode/length": 199.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.045}
{"step": 276439, "episode/length": 147.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.3000000193715096, "episode/reward_rate": 0.04054054054054054}
{"step": 276634, "episode/length": 194.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 10.100000031292439, "episode/reward_rate": 0.041025641025641026}
{"step": 276714, "episode/length": 79.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.0875}
{"step": 276868, "episode/length": 153.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.05194805194805195}
{"step": 277266, "episode/length": 397.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.032663316582914576}
{"step": 277519, "episode/length": 252.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.043478260869565216}
{"step": 277694, "episode/length": 174.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.05142857142857143}
{"step": 277695, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.442621795224472, "train/action_min": 0.0, "train/action_std": 3.3374554506489926, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.047026267511324146, "train/actor_opt_grad_steps": 137940.0, "train/actor_opt_loss": -15.016469208287521, "train/adv_mag": 0.542425919586504, "train/adv_max": 0.48002824061353444, "train/adv_mean": 0.002165449356179009, "train/adv_min": -0.43774438198183624, "train/adv_std": 0.05426502967594375, "train/cont_avg": 0.9943331866197183, "train/cont_loss_mean": 0.00011346350512087771, "train/cont_loss_std": 0.0035013773549348063, "train/cont_neg_acc": 0.9953051645990828, "train/cont_neg_loss": 0.03361347772127207, "train/cont_pos_acc": 0.9999999773334449, "train/cont_pos_loss": 1.425468728274942e-05, "train/cont_pred": 0.994335305522865, "train/cont_rate": 0.9943331866197183, "train/dyn_loss_mean": 4.64902590362119, "train/dyn_loss_std": 8.5793447561667, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0371534135979665, "train/extr_critic_critic_opt_grad_steps": 137940.0, "train/extr_critic_critic_opt_loss": 15847.472793794013, "train/extr_critic_mag": 8.09714922434847, "train/extr_critic_max": 8.09714922434847, "train/extr_critic_mean": 1.7814721549060983, "train/extr_critic_min": -0.5931356557658021, "train/extr_critic_std": 1.8445666575096022, "train/extr_return_normed_mag": 1.5966784517529984, "train/extr_return_normed_max": 1.5966784517529984, "train/extr_return_normed_mean": 0.3582099823045059, "train/extr_return_normed_min": -0.1231119428617014, "train/extr_return_normed_std": 0.3361619385615201, "train/extr_return_rate": 0.6623753296657348, "train/extr_return_raw_mag": 8.687898172459132, "train/extr_return_raw_max": 8.687898172459132, "train/extr_return_raw_mean": 1.7935052069140152, "train/extr_return_raw_min": -0.8852350392811735, "train/extr_return_raw_std": 1.871740267310344, "train/extr_reward_mag": 1.0330762359457957, "train/extr_reward_max": 1.0330762359457957, "train/extr_reward_mean": 0.03752573542821575, "train/extr_reward_min": -0.649164124273918, "train/extr_reward_std": 0.19178974985236852, "train/image_loss_mean": 2.9715254508273703, "train/image_loss_std": 8.424474507990018, "train/model_loss_mean": 5.80611464003442, "train/model_loss_std": 12.460318887737435, "train/model_opt_grad_norm": 37.8373864939515, "train/model_opt_grad_steps": 137826.7605633803, "train/model_opt_loss": 9661.983480963909, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1672.5352112676057, "train/policy_entropy_mag": 2.3412368734117965, "train/policy_entropy_max": 2.3412368734117965, "train/policy_entropy_mean": 0.35654997699697255, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4489101750749937, "train/policy_logprob_mag": 7.438384163547569, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3553785807649854, "train/policy_logprob_min": -7.438384163547569, "train/policy_logprob_std": 0.9628316919568559, "train/policy_randomness_mag": 0.8263538748445646, "train/policy_randomness_max": 0.8263538748445646, "train/policy_randomness_mean": 0.12584649624539093, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15844559197274732, "train/post_ent_mag": 54.81172545527069, "train/post_ent_max": 54.81172545527069, "train/post_ent_mean": 40.55116685679261, "train/post_ent_min": 18.665642160764882, "train/post_ent_std": 5.7536081260358785, "train/prior_ent_mag": 75.86714731135838, "train/prior_ent_max": 75.86714731135838, "train/prior_ent_mean": 45.16203727184887, "train/prior_ent_min": 26.7228529218217, "train/prior_ent_std": 7.264469556405511, "train/rep_loss_mean": 4.64902590362119, "train/rep_loss_std": 8.5793447561667, "train/reward_avg": 0.026968254668402, "train/reward_loss_mean": 0.04506016194715466, "train/reward_loss_std": 0.19562201705616963, "train/reward_max_data": 1.0197183145603663, "train/reward_max_pred": 1.0203725603264822, "train/reward_neg_acc": 0.995780393271379, "train/reward_neg_loss": 0.022327809305992763, "train/reward_pos_acc": 0.9873462772705186, "train/reward_pos_loss": 0.7321929302014095, "train/reward_pred": 0.026713593954771336, "train/reward_rate": 0.03207526408450704, "stats/sum_log_reward": 7.8500001430511475, "stats/max_log_achievement_collect_coal": 0.25, "stats/max_log_achievement_collect_drink": 8.25, "stats/max_log_achievement_collect_sapling": 2.375, "stats/max_log_achievement_collect_stone": 4.25, "stats/max_log_achievement_collect_wood": 8.875, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 0.875, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.25, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 1.25, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.125, "stats/mean_log_entropy": 0.35465182922780514, "replay/size": 277632.0, "replay/inserts": 1420.0, "replay/samples": 11360.0, "replay/insert_wait_avg": 3.713789120526381e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2169841309668313e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2604887485504, "timer/env.step_count": 1420.0, "timer/env.step_total": 22.519339084625244, "timer/env.step_frac": 0.07499934199961886, "timer/env.step_avg": 0.01585868949621496, "timer/env.step_min": 0.002847909927368164, "timer/env.step_max": 2.101388692855835, "timer/replay.add_count": 1420.0, "timer/replay.add_total": 0.25843286514282227, "timer/replay.add_frac": 0.0008606955454576769, "timer/replay.add_avg": 0.00018199497545269173, "timer/replay.add_min": 8.106231689453125e-05, "timer/replay.add_max": 0.0014798641204833984, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023434877395629883, "timer/logger.write_frac": 7.804848880817996e-05, "timer/logger.write_avg": 0.023434877395629883, "timer/logger.write_min": 0.023434877395629883, "timer/logger.write_max": 0.023434877395629883, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003757476806640625, "timer/checkpoint.save_frac": 1.2514056785497606e-06, "timer/checkpoint.save_avg": 0.0003757476806640625, "timer/checkpoint.save_min": 0.0003757476806640625, "timer/checkpoint.save_max": 0.0003757476806640625, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3444571495056152, "timer/agent.save_frac": 0.004477635919095286, "timer/agent.save_avg": 1.3444571495056152, "timer/agent.save_min": 1.3444571495056152, "timer/agent.save_max": 1.3444571495056152, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.606910705566406e-05, "timer/replay.save_frac": 2.866481281449642e-07, "timer/replay.save_avg": 8.606910705566406e-05, "timer/replay.save_min": 8.606910705566406e-05, "timer/replay.save_max": 8.606910705566406e-05, "timer/agent.policy_count": 1420.0, "timer/agent.policy_total": 12.188016891479492, "timer/agent.policy_frac": 0.04059147756095942, "timer/agent.policy_avg": 0.008583110486957389, "timer/agent.policy_min": 0.005640745162963867, "timer/agent.policy_max": 1.3348093032836914, "timer/dataset_count": 710.0, "timer/dataset_total": 0.0637505054473877, "timer/dataset_frac": 0.0002123173305721713, "timer/dataset_avg": 8.978944429209535e-05, "timer/dataset_min": 6.818771362304688e-05, "timer/dataset_max": 0.00016951560974121094, "timer/agent.train_count": 710.0, "timer/agent.train_total": 264.54073095321655, "timer/agent.train_frac": 0.8810374353808271, "timer/agent.train_avg": 0.37259257880734725, "timer/agent.train_min": 0.36531591415405273, "timer/agent.train_max": 0.863194465637207, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20136189460754395, "timer/agent.report_frac": 0.0006706240153234816, "timer/agent.report_avg": 0.20136189460754395, "timer/agent.report_min": 0.20136189460754395, "timer/agent.report_max": 0.20136189460754395, "fps": 4.7291612503528455}
{"step": 277985, "episode/length": 290.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.027491408934707903}
{"step": 278035, "episode/length": 49.0, "episode/score": 3.100000023841858, "episode/sum_abs_reward": 4.9000000059604645, "episode/reward_rate": 0.1}
{"step": 278199, "episode/length": 163.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.04878048780487805}
{"step": 278256, "episode/length": 56.0, "episode/score": 5.099999979138374, "episode/sum_abs_reward": 7.30000002682209, "episode/reward_rate": 0.10526315789473684}
{"step": 278353, "episode/length": 96.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.500000022351742, "episode/reward_rate": 0.030927835051546393}
{"step": 278520, "episode/length": 166.0, "episode/score": 5.099999979138374, "episode/sum_abs_reward": 7.30000002682209, "episode/reward_rate": 0.03592814371257485}
{"step": 279017, "episode/length": 496.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.700000040233135, "episode/reward_rate": 0.02414486921529175}
{"step": 279147, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.470919674389983, "train/action_min": 0.0, "train/action_std": 3.3560608184500915, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04898666784371415, "train/actor_opt_grad_steps": 138660.0, "train/actor_opt_loss": -15.565464519474604, "train/adv_mag": 0.5193698594014938, "train/adv_max": 0.47586393560448736, "train/adv_mean": 0.002400960546279524, "train/adv_min": -0.42601776408822567, "train/adv_std": 0.054662408945086886, "train/cont_avg": 0.9944349315068494, "train/cont_loss_mean": 4.528160629094338e-05, "train/cont_loss_std": 0.0013291271076537072, "train/cont_neg_acc": 0.9965753424657534, "train/cont_neg_loss": 0.005501668418798533, "train/cont_pos_acc": 0.9999999828534584, "train/cont_pos_loss": 2.3641059008802076e-05, "train/cont_pred": 0.9944268554857333, "train/cont_rate": 0.9944349315068494, "train/dyn_loss_mean": 4.53952607063398, "train/dyn_loss_std": 8.57500258537188, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9760907039250413, "train/extr_critic_critic_opt_grad_steps": 138660.0, "train/extr_critic_critic_opt_loss": 15851.013725385274, "train/extr_critic_mag": 7.857146465615051, "train/extr_critic_max": 7.857146465615051, "train/extr_critic_mean": 1.7562577022265082, "train/extr_critic_min": -0.583809008337047, "train/extr_critic_std": 1.7727015655334681, "train/extr_return_normed_mag": 1.6011559244704574, "train/extr_return_normed_max": 1.6011559244704574, "train/extr_return_normed_mean": 0.3590384235937301, "train/extr_return_normed_min": -0.12438951983843764, "train/extr_return_normed_std": 0.3288669333066026, "train/extr_return_rate": 0.6675808323572759, "train/extr_return_raw_mag": 8.573298134215891, "train/extr_return_raw_max": 8.573298134215891, "train/extr_return_raw_mean": 1.7694282972649351, "train/extr_return_raw_min": -0.8788730298003106, "train/extr_return_raw_std": 1.8015542079324591, "train/extr_reward_mag": 1.0356542378255766, "train/extr_reward_max": 1.0356542378255766, "train/extr_reward_mean": 0.03888241066406035, "train/extr_reward_min": -0.658933797927752, "train/extr_reward_std": 0.19491121009604573, "train/image_loss_mean": 2.6650227765514427, "train/image_loss_std": 7.873753599924584, "train/model_loss_mean": 5.434037228153176, "train/model_loss_std": 11.965377899065409, "train/model_opt_grad_norm": 33.150297112660866, "train/model_opt_grad_steps": 138546.0, "train/model_opt_loss": 6792.546547249572, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.348418118202523, "train/policy_entropy_max": 2.348418118202523, "train/policy_entropy_mean": 0.36285224434447616, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.462399181437819, "train/policy_logprob_mag": 7.438384238987753, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3632507177248393, "train/policy_logprob_min": -7.438384238987753, "train/policy_logprob_std": 0.9755307729930094, "train/policy_randomness_mag": 0.8288885371325767, "train/policy_randomness_max": 0.8288885371325767, "train/policy_randomness_mean": 0.1280709156026579, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16320661935087752, "train/post_ent_mag": 54.349537888618364, "train/post_ent_max": 54.349537888618364, "train/post_ent_mean": 40.625717894671716, "train/post_ent_min": 18.501303202485385, "train/post_ent_std": 5.662148253558433, "train/prior_ent_mag": 75.89132732234589, "train/prior_ent_max": 75.89132732234589, "train/prior_ent_mean": 45.092160420875025, "train/prior_ent_min": 27.181155975550823, "train/prior_ent_std": 7.183861967635481, "train/rep_loss_mean": 4.53952607063398, "train/rep_loss_std": 8.57500258537188, "train/reward_avg": 0.02844071059092267, "train/reward_loss_mean": 0.04525355213921364, "train/reward_loss_std": 0.18468479546782088, "train/reward_max_data": 1.0150684967432937, "train/reward_max_pred": 1.0160151671056878, "train/reward_neg_acc": 0.9952525284192334, "train/reward_neg_loss": 0.02198081806761353, "train/reward_pos_acc": 0.9918076485803683, "train/reward_pos_loss": 0.7200626159367496, "train/reward_pred": 0.028191480441146517, "train/reward_rate": 0.03339041095890411, "stats/sum_log_reward": 5.814285687037876, "stats/max_log_achievement_collect_coal": 0.0, "stats/max_log_achievement_collect_drink": 4.571428571428571, "stats/max_log_achievement_collect_sapling": 3.2857142857142856, "stats/max_log_achievement_collect_stone": 0.7142857142857143, "stats/max_log_achievement_collect_wood": 6.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5714285714285714, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 0.0, "stats/max_log_achievement_place_plant": 2.2857142857142856, "stats/max_log_achievement_place_stone": 0.42857142857142855, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.31896120948450907, "replay/size": 279084.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.7107585875455997e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2440211845166755e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2970492839813, "timer/env.step_count": 1452.0, "timer/env.step_total": 18.779924869537354, "timer/env.step_frac": 0.0625378268428398, "timer/env.step_avg": 0.012933832554777792, "timer/env.step_min": 0.0030519962310791016, "timer/env.step_max": 1.683105230331421, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.2574422359466553, "timer/replay.add_frac": 0.0008572919266456074, "timer/replay.add_avg": 0.00017730181539025845, "timer/replay.add_min": 7.414817810058594e-05, "timer/replay.add_max": 0.0037689208984375, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.031171798706054688, "timer/logger.write_frac": 0.0001038032134527453, "timer/logger.write_avg": 0.031171798706054688, "timer/logger.write_min": 0.031171798706054688, "timer/logger.write_max": 0.031171798706054688, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 10.426559925079346, "timer/agent.policy_frac": 0.034720820434100505, "timer/agent.policy_avg": 0.007180826394682745, "timer/agent.policy_min": 0.005689144134521484, "timer/agent.policy_max": 0.01643967628479004, "timer/dataset_count": 726.0, "timer/dataset_total": 0.0648040771484375, "timer/dataset_frac": 0.00021579991312919747, "timer/dataset_avg": 8.926181425404614e-05, "timer/dataset_min": 6.437301635742188e-05, "timer/dataset_max": 0.00015163421630859375, "timer/agent.train_count": 726.0, "timer/agent.train_total": 270.0668246746063, "timer/agent.train_frac": 0.8993322622334952, "timer/agent.train_avg": 0.3719928714526258, "timer/agent.train_min": 0.36434030532836914, "timer/agent.train_max": 0.3836400508880615, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2037975788116455, "timer/agent.report_frac": 0.0006786532844647456, "timer/agent.report_avg": 0.2037975788116455, "timer/agent.report_min": 0.2037975788116455, "timer/agent.report_max": 0.2037975788116455, "fps": 4.835143883825905}
{"step": 279208, "episode/length": 190.0, "episode/score": 5.100000001490116, "episode/sum_abs_reward": 7.100000001490116, "episode/reward_rate": 0.03664921465968586}
{"step": 279377, "episode/length": 168.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.0650887573964497}
{"step": 279585, "episode/length": 207.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.500000022351742, "episode/reward_rate": 0.038461538461538464}
{"step": 279782, "episode/length": 196.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 11.500000037252903, "episode/reward_rate": 0.050761421319796954}
{"step": 279965, "episode/length": 182.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.03825136612021858}
{"step": 280151, "episode/length": 185.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.043010752688172046}
{"step": 280318, "episode/length": 166.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.05389221556886228}
{"step": 280556, "episode/length": 237.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.04201680672268908}
{"step": 280589, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.531962076822917, "train/action_min": 0.0, "train/action_std": 3.4097191327148013, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.049964207586728863, "train/actor_opt_grad_steps": 139385.0, "train/actor_opt_loss": -17.084521133866573, "train/adv_mag": 0.5640327516529295, "train/adv_max": 0.5179434791207314, "train/adv_mean": 0.002617718671621737, "train/adv_min": -0.44037719319264096, "train/adv_std": 0.05611993481094638, "train/cont_avg": 0.9943169487847222, "train/cont_loss_mean": 1.4349108161818927e-05, "train/cont_loss_std": 0.0003992592496347116, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0005501987035864255, "train/cont_pos_acc": 0.9999999850988388, "train/cont_pos_loss": 1.2171391361448514e-05, "train/cont_pred": 0.9943090809716119, "train/cont_rate": 0.9943169487847222, "train/dyn_loss_mean": 4.7805258764161005, "train/dyn_loss_std": 8.60952478647232, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9983403484026591, "train/extr_critic_critic_opt_grad_steps": 139385.0, "train/extr_critic_critic_opt_loss": 16059.077392578125, "train/extr_critic_mag": 7.969506899515788, "train/extr_critic_max": 7.969506899515788, "train/extr_critic_mean": 1.772476938035753, "train/extr_critic_min": -0.6173852036396662, "train/extr_critic_std": 1.7932820932732687, "train/extr_return_normed_mag": 1.614168119099405, "train/extr_return_normed_max": 1.614168119099405, "train/extr_return_normed_mean": 0.3682967705859078, "train/extr_return_normed_min": -0.12586755067523983, "train/extr_return_normed_std": 0.3349288126660718, "train/extr_return_rate": 0.666424371716049, "train/extr_return_raw_mag": 8.579883224434322, "train/extr_return_raw_max": 8.579883224434322, "train/extr_return_raw_mean": 1.7867570999595854, "train/extr_return_raw_min": -0.9064413284262022, "train/extr_return_raw_std": 1.8258554637432098, "train/extr_reward_mag": 1.0336942540274725, "train/extr_reward_max": 1.0336942540274725, "train/extr_reward_mean": 0.039039440634143024, "train/extr_reward_min": -0.6448038352860345, "train/extr_reward_std": 0.1952494161410464, "train/image_loss_mean": 3.0382233361403146, "train/image_loss_std": 8.073553373416265, "train/model_loss_mean": 5.952645089891222, "train/model_loss_std": 12.161946713924408, "train/model_opt_grad_norm": 35.52653951115079, "train/model_opt_grad_steps": 139270.97222222222, "train/model_opt_loss": 13618.07282172309, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2291.6666666666665, "train/policy_entropy_mag": 2.366344107521905, "train/policy_entropy_max": 2.366344107521905, "train/policy_entropy_mean": 0.3743679453101423, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.47169117050038445, "train/policy_logprob_mag": 7.438384181923336, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3745701321297222, "train/policy_logprob_min": -7.438384181923336, "train/policy_logprob_std": 0.9813564684655931, "train/policy_randomness_mag": 0.8352156256635984, "train/policy_randomness_max": 0.8352156256635984, "train/policy_randomness_mean": 0.13213545435832608, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16648628521296713, "train/post_ent_mag": 55.103294690450035, "train/post_ent_max": 55.103294690450035, "train/post_ent_mean": 40.653204917907715, "train/post_ent_min": 18.47068218390147, "train/post_ent_std": 5.799577289157444, "train/prior_ent_mag": 75.83697848849826, "train/prior_ent_max": 75.83697848849826, "train/prior_ent_mean": 45.335258430904815, "train/prior_ent_min": 26.630351225535076, "train/prior_ent_std": 7.228253205617269, "train/rep_loss_mean": 4.7805258764161005, "train/rep_loss_std": 8.60952478647232, "train/reward_avg": 0.028515624839605555, "train/reward_loss_mean": 0.04609191324561834, "train/reward_loss_std": 0.20054110677705872, "train/reward_max_data": 1.0194444490803614, "train/reward_max_pred": 1.0181889451212354, "train/reward_neg_acc": 0.9951622519228194, "train/reward_neg_loss": 0.02220143033708963, "train/reward_pos_acc": 0.9884771216246817, "train/reward_pos_loss": 0.7343956803282102, "train/reward_pred": 0.028334210652651057, "train/reward_rate": 0.033610026041666664, "stats/sum_log_reward": 7.6000001430511475, "stats/max_log_achievement_collect_coal": 0.875, "stats/max_log_achievement_collect_drink": 2.875, "stats/max_log_achievement_collect_sapling": 2.5, "stats/max_log_achievement_collect_stone": 3.625, "stats/max_log_achievement_collect_wood": 7.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 0.875, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.0, "stats/max_log_achievement_place_plant": 2.125, "stats/max_log_achievement_place_stone": 0.25, "stats/max_log_achievement_place_table": 2.125, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.3601258583366871, "replay/size": 280526.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.887777024267781e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2246646431381924e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.03961062431335, "timer/env.step_count": 1442.0, "timer/env.step_total": 20.375989198684692, "timer/env.step_frac": 0.06791099733894118, "timer/env.step_avg": 0.01413036698937912, "timer/env.step_min": 0.003007650375366211, "timer/env.step_max": 1.7404894828796387, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.2495555877685547, "timer/replay.add_frac": 0.0008317421398104303, "timer/replay.add_avg": 0.0001730621274400518, "timer/replay.add_min": 7.104873657226562e-05, "timer/replay.add_max": 0.001409769058227539, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02753448486328125, "timer/logger.write_frac": 9.176949938705868e-05, "timer/logger.write_avg": 0.02753448486328125, "timer/logger.write_min": 0.02753448486328125, "timer/logger.write_max": 0.02753448486328125, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 10.33882188796997, "timer/agent.policy_frac": 0.034458189925181085, "timer/agent.policy_avg": 0.007169779395263503, "timer/agent.policy_min": 0.005705118179321289, "timer/agent.policy_max": 0.01511073112487793, "timer/dataset_count": 721.0, "timer/dataset_total": 0.06480574607849121, "timer/dataset_frac": 0.00021599063518195271, "timer/dataset_avg": 8.988314296600723e-05, "timer/dataset_min": 6.914138793945312e-05, "timer/dataset_max": 0.0001971721649169922, "timer/agent.train_count": 721.0, "timer/agent.train_total": 268.3125605583191, "timer/agent.train_frac": 0.8942571282505747, "timer/agent.train_avg": 0.3721394737285979, "timer/agent.train_min": 0.36461400985717773, "timer/agent.train_max": 0.39226794242858887, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20222163200378418, "timer/agent.report_frac": 0.0006739831170391386, "timer/agent.report_avg": 0.20222163200378418, "timer/agent.report_min": 0.20222163200378418, "timer/agent.report_max": 0.20222163200378418, "fps": 4.805966189235709}
{"step": 280834, "episode/length": 277.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.03237410071942446}
{"step": 281033, "episode/length": 198.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.300000041723251, "episode/reward_rate": 0.035175879396984924}
{"step": 281204, "episode/length": 170.0, "episode/score": 6.099999971687794, "episode/sum_abs_reward": 8.100000031292439, "episode/reward_rate": 0.04678362573099415}
{"step": 281362, "episode/length": 157.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.04430379746835443}
{"step": 281517, "episode/length": 154.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.04516129032258064}
{"step": 281728, "episode/length": 210.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.037914691943127965}
{"step": 282025, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.471176995171441, "train/action_min": 0.0, "train/action_std": 3.424276398287879, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.048861927145885095, "train/actor_opt_grad_steps": 140105.0, "train/actor_opt_loss": -14.405023272252745, "train/adv_mag": 0.4801756834818257, "train/adv_max": 0.43820131777061355, "train/adv_mean": 0.002675170588999107, "train/adv_min": -0.4192776386108663, "train/adv_std": 0.05453017338489493, "train/cont_avg": 0.9943440755208334, "train/cont_loss_mean": 3.456959061232112e-05, "train/cont_loss_std": 0.0010820741753233183, "train/cont_neg_acc": 0.9984567902154393, "train/cont_neg_loss": 0.004228351756605914, "train/cont_pos_acc": 0.9999999817874696, "train/cont_pos_loss": 2.163914268068131e-06, "train/cont_pred": 0.9943590056565073, "train/cont_rate": 0.9943440755208334, "train/dyn_loss_mean": 4.6220884919166565, "train/dyn_loss_std": 8.443102227316963, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.006946620841821, "train/extr_critic_critic_opt_grad_steps": 140105.0, "train/extr_critic_critic_opt_loss": 16010.570434570312, "train/extr_critic_mag": 7.766349156697591, "train/extr_critic_max": 7.766349156697591, "train/extr_critic_mean": 1.7693950980901718, "train/extr_critic_min": -0.6220382336113188, "train/extr_critic_std": 1.8115533110168245, "train/extr_return_normed_mag": 1.5406382117006514, "train/extr_return_normed_max": 1.5406382117006514, "train/extr_return_normed_mean": 0.35850208894246155, "train/extr_return_normed_min": -0.13103818355335128, "train/extr_return_normed_std": 0.33040448485149276, "train/extr_return_rate": 0.6553865013023218, "train/extr_return_raw_mag": 8.375105215443504, "train/extr_return_raw_max": 8.375105215443504, "train/extr_return_raw_mean": 1.7842968619532056, "train/extr_return_raw_min": -0.9455460707346598, "train/extr_return_raw_std": 1.8422956764698029, "train/extr_reward_mag": 1.0275731020503573, "train/extr_reward_max": 1.0275731020503573, "train/extr_reward_mean": 0.03684706551333269, "train/extr_reward_min": -0.6733713895082474, "train/extr_reward_std": 0.19049610921906102, "train/image_loss_mean": 2.759002975291676, "train/image_loss_std": 7.347043540742662, "train/model_loss_mean": 5.577268299129274, "train/model_loss_std": 11.345990982320574, "train/model_opt_grad_norm": 34.91680860519409, "train/model_opt_grad_steps": 139990.0, "train/model_opt_loss": 6971.585354275174, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.3642027941015034, "train/policy_entropy_max": 2.3642027941015034, "train/policy_entropy_mean": 0.3749878716965516, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.47765995520684457, "train/policy_logprob_mag": 7.438384201791552, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37364420832859147, "train/policy_logprob_min": -7.438384201791552, "train/policy_logprob_std": 0.9778594962424703, "train/policy_randomness_mag": 0.8344598387678465, "train/policy_randomness_max": 0.8344598387678465, "train/policy_randomness_mean": 0.13235426280233595, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16859300434589386, "train/post_ent_mag": 55.37050814098782, "train/post_ent_max": 55.37050814098782, "train/post_ent_mean": 40.633117569817436, "train/post_ent_min": 19.124853081173367, "train/post_ent_std": 5.734276334444682, "train/prior_ent_mag": 75.86725616455078, "train/prior_ent_max": 75.86725616455078, "train/prior_ent_mean": 45.221733782026504, "train/prior_ent_min": 26.96374773979187, "train/prior_ent_std": 7.2127940853436785, "train/rep_loss_mean": 4.6220884919166565, "train/rep_loss_std": 8.443102227316963, "train/reward_avg": 0.026662868745107617, "train/reward_loss_mean": 0.044977621666880116, "train/reward_loss_std": 0.1932415391008059, "train/reward_max_data": 1.0152777814202838, "train/reward_max_pred": 1.0138641827636294, "train/reward_neg_acc": 0.9949032208985753, "train/reward_neg_loss": 0.022137247569238145, "train/reward_pos_acc": 0.9863836773567729, "train/reward_pos_loss": 0.7428643926978111, "train/reward_pred": 0.026416918301644426, "train/reward_rate": 0.031806098090277776, "stats/sum_log_reward": 6.599999984105428, "stats/max_log_achievement_collect_coal": 0.0, "stats/max_log_achievement_collect_drink": 6.166666666666667, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 0.0, "stats/max_log_achievement_collect_wood": 11.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.16666666666666666, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 2.6666666666666665, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 0.0, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 0.0, "stats/max_log_achievement_place_table": 3.1666666666666665, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.3405737280845642, "replay/size": 281962.0, "replay/inserts": 1436.0, "replay/samples": 11488.0, "replay/insert_wait_avg": 3.8837656005179316e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2465921285092664e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.15639543533325, "timer/env.step_count": 1436.0, "timer/env.step_total": 16.832565307617188, "timer/env.step_frac": 0.0560793158619992, "timer/env.step_avg": 0.011721842136223667, "timer/env.step_min": 0.0030469894409179688, "timer/env.step_max": 1.627387285232544, "timer/replay.add_count": 1436.0, "timer/replay.add_total": 0.24710679054260254, "timer/replay.add_frac": 0.0008232601213917499, "timer/replay.add_avg": 0.00017207993770376222, "timer/replay.add_min": 7.319450378417969e-05, "timer/replay.add_max": 0.0027234554290771484, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029423236846923828, "timer/logger.write_frac": 9.802635324244781e-05, "timer/logger.write_avg": 0.029423236846923828, "timer/logger.write_min": 0.029423236846923828, "timer/logger.write_max": 0.029423236846923828, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002651214599609375, "timer/checkpoint.save_frac": 8.832777311854952e-07, "timer/checkpoint.save_avg": 0.0002651214599609375, "timer/checkpoint.save_min": 0.0002651214599609375, "timer/checkpoint.save_max": 0.0002651214599609375, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.227674961090088, "timer/agent.save_frac": 0.00409011761788225, "timer/agent.save_avg": 1.227674961090088, "timer/agent.save_min": 1.227674961090088, "timer/agent.save_max": 1.227674961090088, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.031990051269531e-05, "timer/replay.save_frac": 2.009615701348294e-07, "timer/replay.save_avg": 6.031990051269531e-05, "timer/replay.save_min": 6.031990051269531e-05, "timer/replay.save_max": 6.031990051269531e-05, "timer/agent.policy_count": 1436.0, "timer/agent.policy_total": 15.156271696090698, "timer/agent.policy_frac": 0.05049458191323469, "timer/agent.policy_avg": 0.010554506752152297, "timer/agent.policy_min": 0.005639791488647461, "timer/agent.policy_max": 3.6288511753082275, "timer/dataset_count": 718.0, "timer/dataset_total": 0.064056396484375, "timer/dataset_frac": 0.00021341006708009837, "timer/dataset_avg": 8.921503688631615e-05, "timer/dataset_min": 6.651878356933594e-05, "timer/dataset_max": 0.00019478797912597656, "timer/agent.train_count": 718.0, "timer/agent.train_total": 267.1689991950989, "timer/agent.train_frac": 0.890099305755618, "timer/agent.train_avg": 0.37210167018816, "timer/agent.train_min": 0.36594390869140625, "timer/agent.train_max": 0.3843851089477539, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2027599811553955, "timer/agent.report_frac": 0.0006755144459318337, "timer/agent.report_avg": 0.2027599811553955, "timer/agent.report_min": 0.2027599811553955, "timer/agent.report_max": 0.2027599811553955, "fps": 4.784102570504238}
{"step": 282096, "episode/length": 367.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.029891304347826088}
{"step": 282252, "episode/length": 155.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.05128205128205128}
{"step": 282306, "episode/length": 53.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.09259259259259259}
{"step": 282476, "episode/length": 169.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.058823529411764705}
{"step": 282630, "episode/length": 153.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.05194805194805195}
{"step": 282837, "episode/length": 206.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.043478260869565216}
{"step": 283168, "episode/length": 330.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.03323262839879154}
{"step": 283477, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.391543918185764, "train/action_min": 0.0, "train/action_std": 3.2576858401298523, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.05006303762396177, "train/actor_opt_grad_steps": 140825.0, "train/actor_opt_loss": -13.805610969662666, "train/adv_mag": 0.5797445434663031, "train/adv_max": 0.5449002029167281, "train/adv_mean": 0.003192330643388333, "train/adv_min": -0.47860114607546067, "train/adv_std": 0.05676519555143184, "train/cont_avg": 0.9945339626736112, "train/cont_loss_mean": 4.147947085028944e-05, "train/cont_loss_std": 0.0013146981837519117, "train/cont_neg_acc": 0.9965277777777778, "train/cont_neg_loss": 0.0065009167721920376, "train/cont_pos_acc": 0.9999863604704539, "train/cont_pos_loss": 1.583310294413683e-05, "train/cont_pred": 0.9945345587200589, "train/cont_rate": 0.9945339626736112, "train/dyn_loss_mean": 4.736362079779307, "train/dyn_loss_std": 8.530544579029083, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0553347203466628, "train/extr_critic_critic_opt_grad_steps": 140825.0, "train/extr_critic_critic_opt_loss": 16071.904486762152, "train/extr_critic_mag": 8.432848532994589, "train/extr_critic_max": 8.432848532994589, "train/extr_critic_mean": 1.8807613187366061, "train/extr_critic_min": -0.6193527049488492, "train/extr_critic_std": 1.8876235965225432, "train/extr_return_normed_mag": 1.6742277575863733, "train/extr_return_normed_max": 1.6742277575863733, "train/extr_return_normed_mean": 0.37350742891430855, "train/extr_return_normed_min": -0.12615617457777262, "train/extr_return_normed_std": 0.34133441125353176, "train/extr_return_rate": 0.6824291451937623, "train/extr_return_raw_mag": 9.234450625048744, "train/extr_return_raw_max": 9.234450625048744, "train/extr_return_raw_mean": 1.898805957701471, "train/extr_return_raw_min": -0.9163114627202352, "train/extr_return_raw_std": 1.9242102089855406, "train/extr_reward_mag": 1.0284362534681957, "train/extr_reward_max": 1.0284362534681957, "train/extr_reward_mean": 0.03996993265011244, "train/extr_reward_min": -0.6473491539557775, "train/extr_reward_std": 0.19711067982845837, "train/image_loss_mean": 2.708372657497724, "train/image_loss_std": 7.733907328711616, "train/model_loss_mean": 5.595274594095018, "train/model_loss_std": 11.813725882106358, "train/model_opt_grad_norm": 35.292113410102, "train/model_opt_grad_steps": 140709.41666666666, "train/model_opt_loss": 7413.046244303386, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1319.4444444444443, "train/policy_entropy_mag": 2.352551211913427, "train/policy_entropy_max": 2.352551211913427, "train/policy_entropy_mean": 0.3455112564067046, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.44495884080727893, "train/policy_logprob_mag": 7.438384181923336, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3461753825346629, "train/policy_logprob_min": -7.438384181923336, "train/policy_logprob_std": 0.9608100064926677, "train/policy_randomness_mag": 0.8303473384843932, "train/policy_randomness_max": 0.8303473384843932, "train/policy_randomness_mean": 0.1219503100340565, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15705094331254563, "train/post_ent_mag": 54.5509737332662, "train/post_ent_max": 54.5509737332662, "train/post_ent_mean": 40.27096817228529, "train/post_ent_min": 18.49841652976142, "train/post_ent_std": 5.613987008730571, "train/prior_ent_mag": 75.86709997389052, "train/prior_ent_max": 75.86709997389052, "train/prior_ent_mean": 44.98098288642036, "train/prior_ent_min": 27.089030583699543, "train/prior_ent_std": 7.225685430897607, "train/rep_loss_mean": 4.736362079779307, "train/rep_loss_std": 8.530544579029083, "train/reward_avg": 0.029439290480998654, "train/reward_loss_mean": 0.04504321782021887, "train/reward_loss_std": 0.18458348295340934, "train/reward_max_data": 1.0069444461001291, "train/reward_max_pred": 1.0078181740310457, "train/reward_neg_acc": 0.9952820870611403, "train/reward_neg_loss": 0.0208183338594002, "train/reward_pos_acc": 0.989691384964519, "train/reward_pos_loss": 0.7255052601297697, "train/reward_pred": 0.02922246577994277, "train/reward_rate": 0.034342447916666664, "stats/sum_log_reward": 7.957143102373395, "stats/max_log_achievement_collect_coal": 0.0, "stats/max_log_achievement_collect_drink": 2.2857142857142856, "stats/max_log_achievement_collect_sapling": 2.2857142857142856, "stats/max_log_achievement_collect_stone": 6.0, "stats/max_log_achievement_collect_wood": 12.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.42857142857142855, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.2857142857142858, "stats/max_log_achievement_make_wood_sword": 1.2857142857142858, "stats/max_log_achievement_place_furnace": 0.2857142857142857, "stats/max_log_achievement_place_plant": 2.142857142857143, "stats/max_log_achievement_place_stone": 2.857142857142857, "stats/max_log_achievement_place_table": 3.7142857142857144, "stats/max_log_achievement_wake_up": 0.8571428571428571, "stats/mean_log_entropy": 0.40607440045901705, "replay/size": 283414.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.743434412091888e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2088823581201643e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2634036540985, "timer/env.step_count": 1452.0, "timer/env.step_total": 18.741409301757812, "timer/env.step_frac": 0.06241656183764504, "timer/env.step_avg": 0.012907306681651387, "timer/env.step_min": 0.0031566619873046875, "timer/env.step_max": 1.7519662380218506, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.26528239250183105, "timer/replay.add_frac": 0.0008834989188607036, "timer/replay.add_avg": 0.00018270137224644012, "timer/replay.add_min": 8.20159912109375e-05, "timer/replay.add_max": 0.008987665176391602, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030173540115356445, "timer/logger.write_frac": 0.00010049023540050244, "timer/logger.write_avg": 0.030173540115356445, "timer/logger.write_min": 0.030173540115356445, "timer/logger.write_max": 0.030173540115356445, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 10.403885841369629, "timer/agent.policy_frac": 0.03464919705417993, "timer/agent.policy_avg": 0.007165210634552086, "timer/agent.policy_min": 0.005716085433959961, "timer/agent.policy_max": 0.015568733215332031, "timer/dataset_count": 726.0, "timer/dataset_total": 0.06534051895141602, "timer/dataset_frac": 0.00021761066502359332, "timer/dataset_avg": 9.000071480911297e-05, "timer/dataset_min": 6.985664367675781e-05, "timer/dataset_max": 0.00018072128295898438, "timer/agent.train_count": 726.0, "timer/agent.train_total": 270.0946726799011, "timer/agent.train_frac": 0.8995257810074265, "timer/agent.train_avg": 0.37203122958664064, "timer/agent.train_min": 0.3623316287994385, "timer/agent.train_max": 0.3843045234680176, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20061349868774414, "timer/agent.report_frac": 0.000668125040369054, "timer/agent.report_avg": 0.20061349868774414, "timer/agent.report_min": 0.20061349868774414, "timer/agent.report_max": 0.20061349868774414, "fps": 4.835700853941613}
{"step": 283573, "episode/length": 404.0, "episode/score": 10.099999964237213, "episode/sum_abs_reward": 11.699999988079071, "episode/reward_rate": 0.027160493827160494}
{"step": 283862, "episode/length": 288.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.04152249134948097}
{"step": 284069, "episode/length": 206.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 11.900000050663948, "episode/reward_rate": 0.04830917874396135}
{"step": 284246, "episode/length": 176.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.04519774011299435}
{"step": 284422, "episode/length": 175.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.05113636363636364}
{"step": 284688, "episode/length": 265.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.041353383458646614}
{"step": 284933, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.387535617776113, "train/action_min": 0.0, "train/action_std": 3.233821258153001, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04811481263947814, "train/actor_opt_grad_steps": 141550.0, "train/actor_opt_loss": -11.783286393913505, "train/adv_mag": 0.4910598397254944, "train/adv_max": 0.4571030544091577, "train/adv_mean": 0.003352764470037073, "train/adv_min": -0.38542269558122716, "train/adv_std": 0.05424372606898007, "train/cont_avg": 0.9946489726027398, "train/cont_loss_mean": 7.873687026543364e-05, "train/cont_loss_std": 0.002247752200834071, "train/cont_neg_acc": 0.9980158739619784, "train/cont_neg_loss": 0.004295597282227466, "train/cont_pos_acc": 0.9999865064882252, "train/cont_pos_loss": 5.041820463347335e-05, "train/cont_pred": 0.9946333684333383, "train/cont_rate": 0.9946489726027398, "train/dyn_loss_mean": 4.764582245317224, "train/dyn_loss_std": 8.579762073412333, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0273577334129647, "train/extr_critic_critic_opt_grad_steps": 141550.0, "train/extr_critic_critic_opt_loss": 16036.834412457192, "train/extr_critic_mag": 7.853870104437005, "train/extr_critic_max": 7.853870104437005, "train/extr_critic_mean": 1.822924893196315, "train/extr_critic_min": -0.5919658549844402, "train/extr_critic_std": 1.7965471760867393, "train/extr_return_normed_mag": 1.5469123394521949, "train/extr_return_normed_max": 1.5469123394521949, "train/extr_return_normed_mean": 0.36251342806914083, "train/extr_return_normed_min": -0.1213393871710725, "train/extr_return_normed_std": 0.3271281384441951, "train/extr_return_rate": 0.670430257304074, "train/extr_return_raw_mag": 8.465135900941613, "train/extr_return_raw_max": 8.465135900941613, "train/extr_return_raw_mean": 1.8416935793341023, "train/extr_return_raw_min": -0.8644535778319999, "train/extr_return_raw_std": 1.829695265587062, "train/extr_reward_mag": 1.0308361445387748, "train/extr_reward_max": 1.0308361445387748, "train/extr_reward_mean": 0.039468291764185856, "train/extr_reward_min": -0.6294434380857912, "train/extr_reward_std": 0.19518414445935864, "train/image_loss_mean": 2.977947331454656, "train/image_loss_std": 7.938495635986328, "train/model_loss_mean": 5.882885031504173, "train/model_loss_std": 12.016476650760598, "train/model_opt_grad_norm": 38.59513562346158, "train/model_opt_grad_steps": 141434.0, "train/model_opt_loss": 8771.534219820205, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1506.849315068493, "train/policy_entropy_mag": 2.3935838137587457, "train/policy_entropy_max": 2.3935838137587457, "train/policy_entropy_mean": 0.3757674000034594, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4755532504761056, "train/policy_logprob_mag": 7.438384160603563, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3758054036800175, "train/policy_logprob_min": -7.438384160603563, "train/policy_logprob_std": 0.9829025342039865, "train/policy_randomness_mag": 0.8448300492273618, "train/policy_randomness_max": 0.8448300492273618, "train/policy_randomness_mean": 0.1326294015735796, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1678494269104853, "train/post_ent_mag": 55.00766822083356, "train/post_ent_max": 55.00766822083356, "train/post_ent_mean": 40.50168024350519, "train/post_ent_min": 19.112707974159555, "train/post_ent_std": 5.720001475451744, "train/prior_ent_mag": 75.9347533134565, "train/prior_ent_max": 75.9347533134565, "train/prior_ent_mean": 45.215362078522986, "train/prior_ent_min": 27.220261508471346, "train/prior_ent_std": 7.287102503319309, "train/rep_loss_mean": 4.764582245317224, "train/rep_loss_std": 8.579762073412333, "train/reward_avg": 0.027810626663267612, "train/reward_loss_mean": 0.04610962640136888, "train/reward_loss_std": 0.20117396728633202, "train/reward_max_data": 1.0123287700626948, "train/reward_max_pred": 1.0138754126143783, "train/reward_neg_acc": 0.994824033893951, "train/reward_neg_loss": 0.02255494568547974, "train/reward_pos_acc": 0.9844782425932688, "train/reward_pos_loss": 0.7417420361140002, "train/reward_pred": 0.0275679247275199, "train/reward_rate": 0.03282855308219178, "stats/sum_log_reward": 9.266666968663534, "stats/max_log_achievement_collect_coal": 0.16666666666666666, "stats/max_log_achievement_collect_drink": 4.833333333333333, "stats/max_log_achievement_collect_sapling": 2.1666666666666665, "stats/max_log_achievement_collect_stone": 2.3333333333333335, "stats/max_log_achievement_collect_wood": 11.166666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.1666666666666667, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.0, "stats/max_log_achievement_place_plant": 2.1666666666666665, "stats/max_log_achievement_place_stone": 0.8333333333333334, "stats/max_log_achievement_place_table": 3.1666666666666665, "stats/max_log_achievement_wake_up": 1.6666666666666667, "stats/mean_log_entropy": 0.4735314945379893, "stats/max_log_achievement_make_stone_sword": 0.2, "replay/size": 284870.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.803071084913317e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2445335204784687e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3583390712738, "timer/env.step_count": 1456.0, "timer/env.step_total": 17.605870723724365, "timer/env.step_frac": 0.05861622080533134, "timer/env.step_avg": 0.012091944178382118, "timer/env.step_min": 0.002936840057373047, "timer/env.step_max": 1.840226650238037, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.2607734203338623, "timer/replay.add_frac": 0.000868207691986144, "timer/replay.add_avg": 0.00017910262385567466, "timer/replay.add_min": 7.104873657226562e-05, "timer/replay.add_max": 0.0010886192321777344, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023246288299560547, "timer/logger.write_frac": 7.739518193981056e-05, "timer/logger.write_avg": 0.023246288299560547, "timer/logger.write_min": 0.023246288299560547, "timer/logger.write_max": 0.023246288299560547, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 10.6408052444458, "timer/agent.policy_frac": 0.03542703451266849, "timer/agent.policy_avg": 0.007308245360196292, "timer/agent.policy_min": 0.005598783493041992, "timer/agent.policy_max": 0.016258716583251953, "timer/dataset_count": 728.0, "timer/dataset_total": 0.06752490997314453, "timer/dataset_frac": 0.0002248145005127397, "timer/dataset_avg": 9.275399721585787e-05, "timer/dataset_min": 6.341934204101562e-05, "timer/dataset_max": 0.00017595291137695312, "timer/agent.train_count": 728.0, "timer/agent.train_total": 271.07162594795227, "timer/agent.train_frac": 0.9024940901794909, "timer/agent.train_avg": 0.37235113454389046, "timer/agent.train_min": 0.3661966323852539, "timer/agent.train_max": 0.38455820083618164, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21100378036499023, "timer/agent.report_frac": 0.0007025068157502359, "timer/agent.report_avg": 0.21100378036499023, "timer/agent.report_min": 0.21100378036499023, "timer/agent.report_max": 0.21100378036499023, "fps": 4.847478972426761}
{"step": 284956, "episode/length": 267.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.033582089552238806}
{"step": 285200, "episode/length": 243.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.028688524590163935}
{"step": 285507, "episode/length": 306.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.700000025331974, "episode/reward_rate": 0.019543973941368076}
{"step": 285768, "episode/length": 260.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.03065134099616858}
{"step": 286035, "episode/length": 266.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.300000041723251, "episode/reward_rate": 0.033707865168539325}
{"step": 286351, "episode/length": 315.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.03481012658227848}
{"step": 286362, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.365856594509548, "train/action_min": 0.0, "train/action_std": 3.222309281428655, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04908822590692176, "train/actor_opt_grad_steps": 142275.0, "train/actor_opt_loss": -10.487464176283943, "train/adv_mag": 0.511074747890234, "train/adv_max": 0.4703463274571631, "train/adv_mean": 0.0039586874177075515, "train/adv_min": -0.4258367758658197, "train/adv_std": 0.054980346053424806, "train/cont_avg": 0.9945882161458334, "train/cont_loss_mean": 0.0001101998049344546, "train/cont_loss_std": 0.00326044272672653, "train/cont_neg_acc": 0.9956405112441157, "train/cont_neg_loss": 0.015572795158367254, "train/cont_pos_acc": 0.999999980131785, "train/cont_pos_loss": 1.476670062040676e-05, "train/cont_pred": 0.994606731666459, "train/cont_rate": 0.9945882161458334, "train/dyn_loss_mean": 4.697655459245046, "train/dyn_loss_std": 8.557761980427635, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1642800370852153, "train/extr_critic_critic_opt_grad_steps": 142275.0, "train/extr_critic_critic_opt_loss": 16064.591335720486, "train/extr_critic_mag": 8.190844429863823, "train/extr_critic_max": 8.190844429863823, "train/extr_critic_mean": 1.9432055784596338, "train/extr_critic_min": -0.5762738833824793, "train/extr_critic_std": 1.8881404714451895, "train/extr_return_normed_mag": 1.5706168661514919, "train/extr_return_normed_max": 1.5706168661514919, "train/extr_return_normed_mean": 0.37257563488350975, "train/extr_return_normed_min": -0.12069848050466842, "train/extr_return_normed_std": 0.33469320254193413, "train/extr_return_rate": 0.6837077165643374, "train/extr_return_raw_mag": 8.864609334203932, "train/extr_return_raw_max": 8.864609334203932, "train/extr_return_raw_mean": 1.9659998168547947, "train/extr_return_raw_min": -0.8747637449867196, "train/extr_return_raw_std": 1.9275046288967133, "train/extr_reward_mag": 1.0311802195178137, "train/extr_reward_max": 1.0311802195178137, "train/extr_reward_mean": 0.03929968015290797, "train/extr_reward_min": -0.6686945011218389, "train/extr_reward_std": 0.1950379771490892, "train/image_loss_mean": 2.8302287889851465, "train/image_loss_std": 7.9626293778419495, "train/model_loss_mean": 5.693153831693861, "train/model_loss_std": 12.031031529108683, "train/model_opt_grad_norm": 33.55720824665494, "train/model_opt_grad_steps": 142159.0, "train/model_opt_loss": 14232.884535047742, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.4017401569419436, "train/policy_entropy_max": 2.4017401569419436, "train/policy_entropy_mean": 0.35944266782866585, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.460842031157679, "train/policy_logprob_mag": 7.438384181923336, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3592449376980464, "train/policy_logprob_min": -7.438384181923336, "train/policy_logprob_std": 0.9692592314547963, "train/policy_randomness_mag": 0.8477088784178098, "train/policy_randomness_max": 0.8477088784178098, "train/policy_randomness_mean": 0.12686748750921753, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16265701305949026, "train/post_ent_mag": 54.940737300448944, "train/post_ent_max": 54.940737300448944, "train/post_ent_mean": 40.62731732262505, "train/post_ent_min": 19.163385060098435, "train/post_ent_std": 5.701100481881036, "train/prior_ent_mag": 75.96594058142767, "train/prior_ent_max": 75.96594058142767, "train/prior_ent_mean": 45.30990611182319, "train/prior_ent_min": 27.19743667708503, "train/prior_ent_std": 7.219780789481269, "train/rep_loss_mean": 4.697655459245046, "train/rep_loss_std": 8.557761980427635, "train/reward_avg": 0.0274766707378957, "train/reward_loss_mean": 0.044221564661711454, "train/reward_loss_std": 0.18328316282067034, "train/reward_max_data": 1.013888892200258, "train/reward_max_pred": 1.0117191440529294, "train/reward_neg_acc": 0.9954305382238494, "train/reward_neg_loss": 0.021245343060905322, "train/reward_pos_acc": 0.9893202483654022, "train/reward_pos_loss": 0.7286193296313286, "train/reward_pred": 0.027225527834768098, "train/reward_rate": 0.032470703125, "stats/sum_log_reward": 7.4333334763844805, "stats/max_log_achievement_collect_coal": 0.16666666666666666, "stats/max_log_achievement_collect_drink": 4.333333333333333, "stats/max_log_achievement_collect_sapling": 3.6666666666666665, "stats/max_log_achievement_collect_stone": 1.0, "stats/max_log_achievement_collect_wood": 9.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 0.0, "stats/max_log_achievement_place_plant": 3.5, "stats/max_log_achievement_place_stone": 0.3333333333333333, "stats/max_log_achievement_place_table": 3.1666666666666665, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.4776700437068939, "replay/size": 286299.0, "replay/inserts": 1429.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 3.820536768961987e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2413669033210818e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.00406980514526, "timer/env.step_count": 1429.0, "timer/env.step_total": 17.764312267303467, "timer/env.step_frac": 0.05921357093202606, "timer/env.step_avg": 0.012431289200352321, "timer/env.step_min": 0.0031998157501220703, "timer/env.step_max": 1.7849771976470947, "timer/replay.add_count": 1429.0, "timer/replay.add_total": 0.25171971321105957, "timer/replay.add_frac": 0.0008390543280781267, "timer/replay.add_avg": 0.00017615095396155322, "timer/replay.add_min": 7.200241088867188e-05, "timer/replay.add_max": 0.0010094642639160156, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03117084503173828, "timer/logger.write_frac": 0.00010390140724418826, "timer/logger.write_avg": 0.03117084503173828, "timer/logger.write_min": 0.03117084503173828, "timer/logger.write_max": 0.03117084503173828, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004138946533203125, "timer/checkpoint.save_frac": 1.3796301283150591e-06, "timer/checkpoint.save_avg": 0.0004138946533203125, "timer/checkpoint.save_min": 0.0004138946533203125, "timer/checkpoint.save_max": 0.0004138946533203125, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.5333905220031738, "timer/agent.save_frac": 0.005111232400944166, "timer/agent.save_avg": 1.5333905220031738, "timer/agent.save_min": 1.5333905220031738, "timer/agent.save_max": 1.5333905220031738, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.724761962890625e-05, "timer/replay.save_frac": 2.5748857233529907e-07, "timer/replay.save_avg": 7.724761962890625e-05, "timer/replay.save_min": 7.724761962890625e-05, "timer/replay.save_max": 7.724761962890625e-05, "timer/agent.policy_count": 1429.0, "timer/agent.policy_total": 11.900784015655518, "timer/agent.policy_frac": 0.039668741905352016, "timer/agent.policy_avg": 0.00832805039584011, "timer/agent.policy_min": 0.005730390548706055, "timer/agent.policy_max": 1.5195720195770264, "timer/dataset_count": 714.0, "timer/dataset_total": 0.0654289722442627, "timer/dataset_frac": 0.00021809361548581413, "timer/dataset_avg": 9.163721602837912e-05, "timer/dataset_min": 6.794929504394531e-05, "timer/dataset_max": 0.0001838207244873047, "timer/agent.train_count": 714.0, "timer/agent.train_total": 269.3193824291229, "timer/agent.train_frac": 0.8977190962910861, "timer/agent.train_avg": 0.37719801460661473, "timer/agent.train_min": 0.36509156227111816, "timer/agent.train_max": 3.593505382537842, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20099115371704102, "timer/agent.report_frac": 0.0006699614236819726, "timer/agent.report_avg": 0.20099115371704102, "timer/agent.report_min": 0.20099115371704102, "timer/agent.report_max": 0.20099115371704102, "fps": 4.763185629256513}
{"step": 286527, "episode/length": 175.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.05113636363636364}
{"step": 286588, "episode/length": 60.0, "episode/score": 5.100000001490116, "episode/sum_abs_reward": 6.700000025331974, "episode/reward_rate": 0.09836065573770492}
{"step": 286776, "episode/length": 187.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.0425531914893617}
{"step": 286975, "episode/length": 198.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.04020100502512563}
{"step": 287137, "episode/length": 161.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.043209876543209874}
{"step": 287347, "episode/length": 209.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 10.100000031292439, "episode/reward_rate": 0.04285714285714286}
{"step": 287495, "episode/length": 147.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.05405405405405406}
{"step": 287766, "episode/length": 270.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 11.100000031292439, "episode/reward_rate": 0.033210332103321034}
{"step": 287803, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.332271999782986, "train/action_min": 0.0, "train/action_std": 3.159712897406684, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0469490478022231, "train/actor_opt_grad_steps": 142995.0, "train/actor_opt_loss": -12.76310634944174, "train/adv_mag": 0.49989797671635944, "train/adv_max": 0.4578378179834949, "train/adv_mean": 0.0027919717043308387, "train/adv_min": -0.399111886198322, "train/adv_std": 0.053019908981190786, "train/cont_avg": 0.9942762586805556, "train/cont_loss_mean": 3.551401069638397e-05, "train/cont_loss_std": 0.0010296943464748803, "train/cont_neg_acc": 0.9987373741136657, "train/cont_neg_loss": 0.003064857041917119, "train/cont_pos_acc": 0.9999999892380502, "train/cont_pos_loss": 8.672877074092059e-06, "train/cont_pred": 0.9942855056789186, "train/cont_rate": 0.9942762586805556, "train/dyn_loss_mean": 4.659115009837681, "train/dyn_loss_std": 8.586232476764255, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0326707247230742, "train/extr_critic_critic_opt_grad_steps": 142995.0, "train/extr_critic_critic_opt_loss": 15967.532877604166, "train/extr_critic_mag": 8.467863294813368, "train/extr_critic_max": 8.467863294813368, "train/extr_critic_mean": 1.9744029740492504, "train/extr_critic_min": -0.5873694486088223, "train/extr_critic_std": 1.985666510131624, "train/extr_return_normed_mag": 1.582930102944374, "train/extr_return_normed_max": 1.582930102944374, "train/extr_return_normed_mean": 0.3656166382133961, "train/extr_return_normed_min": -0.12348899369438489, "train/extr_return_normed_std": 0.3408336130281289, "train/extr_return_rate": 0.6800175789329741, "train/extr_return_raw_mag": 9.190274205472734, "train/extr_return_raw_max": 9.190274205472734, "train/extr_return_raw_mean": 1.9909152587254841, "train/extr_return_raw_min": -0.9002283298306994, "train/extr_return_raw_std": 2.0154001977708607, "train/extr_reward_mag": 1.0387843549251556, "train/extr_reward_max": 1.0387843549251556, "train/extr_reward_mean": 0.03799921631192168, "train/extr_reward_min": -0.6514199905925326, "train/extr_reward_std": 0.19315501405960983, "train/image_loss_mean": 2.8819276276561947, "train/image_loss_std": 7.977262053224775, "train/model_loss_mean": 5.723463204171923, "train/model_loss_std": 12.082850363519457, "train/model_opt_grad_norm": 33.54119118054708, "train/model_opt_grad_steps": 142878.15277777778, "train/model_opt_loss": 14051.034071180555, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2482.6388888888887, "train/policy_entropy_mag": 2.390342606438531, "train/policy_entropy_max": 2.390342606438531, "train/policy_entropy_mean": 0.3502156597872575, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.44289254107409054, "train/policy_logprob_mag": 7.438384188546075, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.34928931461440194, "train/policy_logprob_min": -7.438384188546075, "train/policy_logprob_std": 0.9590477090742853, "train/policy_randomness_mag": 0.8436860417326292, "train/policy_randomness_max": 0.8436860417326292, "train/policy_randomness_mean": 0.12361075987832414, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15632163215842512, "train/post_ent_mag": 54.84007199605306, "train/post_ent_max": 54.84007199605306, "train/post_ent_mean": 40.715994781918, "train/post_ent_min": 18.770969178941513, "train/post_ent_std": 5.666797048515743, "train/prior_ent_mag": 76.01501284705267, "train/prior_ent_max": 76.01501284705267, "train/prior_ent_mean": 45.3422982427809, "train/prior_ent_min": 27.455012400945026, "train/prior_ent_std": 7.187210480372111, "train/rep_loss_mean": 4.659115009837681, "train/rep_loss_std": 8.586232476764255, "train/reward_avg": 0.026490613947518997, "train/reward_loss_mean": 0.0460310408897284, "train/reward_loss_std": 0.1899094194587734, "train/reward_max_data": 1.0180555598603354, "train/reward_max_pred": 1.0185478296544817, "train/reward_neg_acc": 0.9950689234667354, "train/reward_neg_loss": 0.023675135815412633, "train/reward_pos_acc": 0.9889164947801166, "train/reward_pos_loss": 0.7297599390149117, "train/reward_pred": 0.026287783351209428, "train/reward_rate": 0.031819661458333336, "stats/sum_log_reward": 7.1000001430511475, "stats/max_log_achievement_collect_coal": 0.375, "stats/max_log_achievement_collect_drink": 1.875, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 4.5, "stats/max_log_achievement_collect_wood": 11.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.125, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.875, "stats/max_log_achievement_make_wood_sword": 0.5, "stats/max_log_achievement_place_furnace": 0.125, "stats/max_log_achievement_place_plant": 1.375, "stats/max_log_achievement_place_stone": 0.625, "stats/max_log_achievement_place_table": 3.125, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.31276978366076946, "replay/size": 287740.0, "replay/inserts": 1441.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.792691942224231e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2506021705976637e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.08077335357666, "timer/env.step_count": 1441.0, "timer/env.step_total": 20.364306688308716, "timer/env.step_frac": 0.06786275062119368, "timer/env.step_avg": 0.0141320657101379, "timer/env.step_min": 0.003166675567626953, "timer/env.step_max": 1.7196860313415527, "timer/replay.add_count": 1441.0, "timer/replay.add_total": 0.2478163242340088, "timer/replay.add_frac": 0.0008258320633625329, "timer/replay.add_avg": 0.0001719752423553149, "timer/replay.add_min": 6.67572021484375e-05, "timer/replay.add_max": 0.001241922378540039, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0302731990814209, "timer/logger.write_frac": 0.00010088350127567436, "timer/logger.write_avg": 0.0302731990814209, "timer/logger.write_min": 0.0302731990814209, "timer/logger.write_max": 0.0302731990814209, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1441.0, "timer/agent.policy_total": 10.32373309135437, "timer/agent.policy_frac": 0.03440318077023285, "timer/agent.policy_avg": 0.007164283894069653, "timer/agent.policy_min": 0.005711078643798828, "timer/agent.policy_max": 0.01951289176940918, "timer/dataset_count": 721.0, "timer/dataset_total": 0.0654001235961914, "timer/dataset_frac": 0.00021794173237194473, "timer/dataset_avg": 9.07075223248147e-05, "timer/dataset_min": 6.079673767089844e-05, "timer/dataset_max": 0.00018167495727539062, "timer/agent.train_count": 721.0, "timer/agent.train_total": 268.3801784515381, "timer/agent.train_frac": 0.8943597933724109, "timer/agent.train_avg": 0.37223325721433853, "timer/agent.train_min": 0.3662903308868408, "timer/agent.train_max": 0.43032383918762207, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20333147048950195, "timer/agent.report_frac": 0.0006775891311434413, "timer/agent.report_avg": 0.20333147048950195, "timer/agent.report_min": 0.20333147048950195, "timer/agent.report_max": 0.20333147048950195, "fps": 4.801950184171279}
{"step": 287811, "episode/length": 44.0, "episode/score": 4.099999971687794, "episode/sum_abs_reward": 6.1000000312924385, "episode/reward_rate": 0.13333333333333333}
{"step": 288013, "episode/length": 201.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.0297029702970297}
{"step": 288180, "episode/length": 166.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.04790419161676647}
{"step": 288360, "episode/length": 179.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.700000025331974, "episode/reward_rate": 0.05}
{"step": 288437, "episode/length": 76.0, "episode/score": 7.100000023841858, "episode/sum_abs_reward": 8.899999976158142, "episode/reward_rate": 0.11688311688311688}
{"step": 288590, "episode/length": 152.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.700000025331974, "episode/reward_rate": 0.058823529411764705}
{"step": 288830, "episode/length": 239.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 9.30000003427267, "episode/reward_rate": 0.029166666666666667}
{"step": 289001, "episode/length": 170.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.04678362573099415}
{"step": 289155, "episode/length": 153.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.05844155844155844}
{"step": 289239, "stats/sum_log_reward": 6.766666783226861, "stats/max_log_achievement_collect_coal": 0.1111111111111111, "stats/max_log_achievement_collect_drink": 2.4444444444444446, "stats/max_log_achievement_collect_sapling": 1.8888888888888888, "stats/max_log_achievement_collect_stone": 0.3333333333333333, "stats/max_log_achievement_collect_wood": 9.777777777777779, "stats/max_log_achievement_defeat_skeleton": 0.1111111111111111, "stats/max_log_achievement_defeat_zombie": 0.2222222222222222, "stats/max_log_achievement_eat_cow": 0.2222222222222222, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.4444444444444444, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.0, "stats/max_log_achievement_place_plant": 1.4444444444444444, "stats/max_log_achievement_place_stone": 0.0, "stats/max_log_achievement_place_table": 2.888888888888889, "stats/max_log_achievement_wake_up": 0.8888888888888888, "stats/mean_log_entropy": 0.3192013204097748, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.3750559488932295, "train/action_min": 0.0, "train/action_std": 3.2212742467721305, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.046148606524285346, "train/actor_opt_grad_steps": 143715.0, "train/actor_opt_loss": -13.107896049817404, "train/adv_mag": 0.4806232311659389, "train/adv_max": 0.43529755456580055, "train/adv_mean": 0.0026114392561188047, "train/adv_min": -0.4110315094391505, "train/adv_std": 0.05169416596699092, "train/cont_avg": 0.9946424696180556, "train/cont_loss_mean": 3.0693344677522485e-05, "train/cont_loss_std": 0.0009695787170546705, "train/cont_neg_acc": 0.9976851857370801, "train/cont_neg_loss": 0.005180648312056569, "train/cont_pos_acc": 0.9999999842709966, "train/cont_pos_loss": 6.619831802723297e-07, "train/cont_pred": 0.9946553458770117, "train/cont_rate": 0.9946424696180556, "train/dyn_loss_mean": 4.638175845146179, "train/dyn_loss_std": 8.611038194762337, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0223559505409665, "train/extr_critic_critic_opt_grad_steps": 143715.0, "train/extr_critic_critic_opt_loss": 15983.204603407117, "train/extr_critic_mag": 8.283697101804945, "train/extr_critic_max": 8.283697101804945, "train/extr_critic_mean": 1.9955749147468143, "train/extr_critic_min": -0.575503076116244, "train/extr_critic_std": 1.9110264231761296, "train/extr_return_normed_mag": 1.5293136023812823, "train/extr_return_normed_max": 1.5293136023812823, "train/extr_return_normed_mean": 0.3661476808289687, "train/extr_return_normed_min": -0.1251011816267338, "train/extr_return_normed_std": 0.3265636097639799, "train/extr_return_rate": 0.6998644040690528, "train/extr_return_raw_mag": 8.902667707867092, "train/extr_return_raw_max": 8.902667707867092, "train/extr_return_raw_mean": 2.0110355814297995, "train/extr_return_raw_min": -0.8997841709189944, "train/extr_return_raw_std": 1.9348479277557797, "train/extr_reward_mag": 1.0383495158619351, "train/extr_reward_max": 1.0383495158619351, "train/extr_reward_mean": 0.03838366254543265, "train/extr_reward_min": -0.6694801714685228, "train/extr_reward_std": 0.19313795140220058, "train/image_loss_mean": 2.8733183128966227, "train/image_loss_std": 7.974549147817823, "train/model_loss_mean": 5.703333430820042, "train/model_loss_std": 12.10128104686737, "train/model_opt_grad_norm": 33.95037178198496, "train/model_opt_grad_steps": 143597.0, "train/model_opt_loss": 7129.166822645399, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.387558947006861, "train/policy_entropy_max": 2.387558947006861, "train/policy_entropy_mean": 0.3564503172205554, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.45429259000553024, "train/policy_logprob_mag": 7.438384234905243, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3566555366333988, "train/policy_logprob_min": -7.438384234905243, "train/policy_logprob_std": 0.9687688963280784, "train/policy_randomness_mag": 0.8427035320136282, "train/policy_randomness_max": 0.8427035320136282, "train/policy_randomness_mean": 0.12581131959127057, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1603453489434388, "train/post_ent_mag": 55.00659026039971, "train/post_ent_max": 55.00659026039971, "train/post_ent_mean": 40.67831399705675, "train/post_ent_min": 18.621311598353916, "train/post_ent_std": 5.69481529129876, "train/prior_ent_mag": 75.99438571929932, "train/prior_ent_max": 75.99438571929932, "train/prior_ent_mean": 45.24895821677314, "train/prior_ent_min": 27.64545249938965, "train/prior_ent_std": 7.230689194467333, "train/rep_loss_mean": 4.638175845146179, "train/rep_loss_std": 8.611038194762337, "train/reward_avg": 0.02813313803118136, "train/reward_loss_mean": 0.04707886837422848, "train/reward_loss_std": 0.2076513920393255, "train/reward_max_data": 1.0180555598603354, "train/reward_max_pred": 1.0178451703654394, "train/reward_neg_acc": 0.9949945302473174, "train/reward_neg_loss": 0.022970079437881295, "train/reward_pos_acc": 0.9849893980556064, "train/reward_pos_loss": 0.7484178253346019, "train/reward_pred": 0.02780346014899098, "train/reward_rate": 0.033148871527777776, "replay/size": 289176.0, "replay/inserts": 1436.0, "replay/samples": 11488.0, "replay/insert_wait_avg": 3.7081062295642736e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2466336359220627e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3508331775665, "timer/env.step_count": 1436.0, "timer/env.step_total": 21.968297719955444, "timer/env.step_frac": 0.07314212345456639, "timer/env.step_avg": 0.01529825746515003, "timer/env.step_min": 0.003052234649658203, "timer/env.step_max": 1.7324066162109375, "timer/replay.add_count": 1436.0, "timer/replay.add_total": 0.24854135513305664, "timer/replay.add_frac": 0.0008275034648767554, "timer/replay.add_avg": 0.00017307893811494194, "timer/replay.add_min": 8.106231689453125e-05, "timer/replay.add_max": 0.001092672348022461, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03226661682128906, "timer/logger.write_frac": 0.00010742975632837061, "timer/logger.write_avg": 0.03226661682128906, "timer/logger.write_min": 0.03226661682128906, "timer/logger.write_max": 0.03226661682128906, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1436.0, "timer/agent.policy_total": 10.24941897392273, "timer/agent.policy_frac": 0.03412482284629889, "timer/agent.policy_avg": 0.007137478394096609, "timer/agent.policy_min": 0.005643129348754883, "timer/agent.policy_max": 0.015424489974975586, "timer/dataset_count": 718.0, "timer/dataset_total": 0.0645899772644043, "timer/dataset_frac": 0.00021504843712625527, "timer/dataset_avg": 8.995818560501991e-05, "timer/dataset_min": 6.437301635742188e-05, "timer/dataset_max": 0.00016760826110839844, "timer/agent.train_count": 718.0, "timer/agent.train_total": 267.1206970214844, "timer/agent.train_frac": 0.8893622641078655, "timer/agent.train_avg": 0.37203439696585566, "timer/agent.train_min": 0.36557698249816895, "timer/agent.train_max": 0.39037060737609863, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2042686939239502, "timer/agent.report_frac": 0.0006801003072403237, "timer/agent.report_avg": 0.2042686939239502, "timer/agent.report_min": 0.2042686939239502, "timer/agent.report_max": 0.2042686939239502, "fps": 4.781010383679339}
{"step": 289428, "episode/length": 272.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.03663003663003663}
{"step": 289617, "episode/length": 188.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.05291005291005291}
{"step": 289896, "episode/length": 278.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.900000028312206, "episode/reward_rate": 0.03225806451612903}
{"step": 290063, "episode/length": 166.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.04790419161676647}
{"step": 290103, "episode/length": 39.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.15}
{"step": 290347, "episode/length": 243.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.040983606557377046}
{"step": 290426, "episode/length": 78.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.500000022351742, "episode/reward_rate": 0.05063291139240506}
{"step": 290596, "episode/length": 169.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.06470588235294118}
{"step": 290659, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.412342340173856, "train/action_min": 0.0, "train/action_std": 3.3073562635502345, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04796963625810516, "train/actor_opt_grad_steps": 144430.0, "train/actor_opt_loss": -14.45467300964913, "train/adv_mag": 0.5645055162235045, "train/adv_max": 0.5133043577973272, "train/adv_mean": 0.0020325836762630145, "train/adv_min": -0.49995235196301635, "train/adv_std": 0.05382240154373814, "train/cont_avg": 0.9947045554577465, "train/cont_loss_mean": 0.0001148855663753328, "train/cont_loss_std": 0.0035648221449962516, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0006697559341017963, "train/cont_pos_acc": 0.9999585050932118, "train/cont_pos_loss": 0.00011149776819718067, "train/cont_pred": 0.9946690940521132, "train/cont_rate": 0.9947045554577465, "train/dyn_loss_mean": 4.695974930910997, "train/dyn_loss_std": 8.491436622512172, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9988673673549169, "train/extr_critic_critic_opt_grad_steps": 144430.0, "train/extr_critic_critic_opt_loss": 15852.005322953346, "train/extr_critic_mag": 8.664917475740674, "train/extr_critic_max": 8.664917475740674, "train/extr_critic_mean": 1.9882906473858255, "train/extr_critic_min": -0.5450733094148232, "train/extr_critic_std": 1.9243758849694694, "train/extr_return_normed_mag": 1.6228319372929318, "train/extr_return_normed_max": 1.6228319372929318, "train/extr_return_normed_mean": 0.3684713683077987, "train/extr_return_normed_min": -0.11131610154685839, "train/extr_return_normed_std": 0.3332770223348913, "train/extr_return_rate": 0.692765216592332, "train/extr_return_raw_mag": 9.33809695445316, "train/extr_return_raw_max": 9.33809695445316, "train/extr_return_raw_mean": 2.000199789732275, "train/extr_return_raw_min": -0.807355049630286, "train/extr_return_raw_std": 1.950019552674092, "train/extr_reward_mag": 1.0301900312934122, "train/extr_reward_max": 1.0301900312934122, "train/extr_reward_mean": 0.03879944778139323, "train/extr_reward_min": -0.6348642883166461, "train/extr_reward_std": 0.1935546148410985, "train/image_loss_mean": 2.7160234921415087, "train/image_loss_std": 7.556039078134886, "train/model_loss_mean": 5.578152871467698, "train/model_loss_std": 11.592437072538994, "train/model_opt_grad_norm": 32.94303509886836, "train/model_opt_grad_steps": 144312.0, "train/model_opt_loss": 11413.941846390846, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2059.8591549295775, "train/policy_entropy_mag": 2.364599348793567, "train/policy_entropy_max": 2.364599348793567, "train/policy_entropy_mean": 0.36083194361606113, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.45498151174733337, "train/policy_logprob_mag": 7.438384150115537, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3612271333244485, "train/policy_logprob_min": -7.438384150115537, "train/policy_logprob_std": 0.9707790042313051, "train/policy_randomness_mag": 0.8345998021918284, "train/policy_randomness_max": 0.8345998021918284, "train/policy_randomness_mean": 0.1273578393837096, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1605885073962346, "train/post_ent_mag": 55.1693786298725, "train/post_ent_max": 55.1693786298725, "train/post_ent_mean": 40.63041063765405, "train/post_ent_min": 18.909403868124517, "train/post_ent_std": 5.740196093707017, "train/prior_ent_mag": 75.9659624771333, "train/prior_ent_max": 75.9659624771333, "train/prior_ent_mean": 45.305449848443686, "train/prior_ent_min": 27.369385302906306, "train/prior_ent_std": 7.199579165015422, "train/rep_loss_mean": 4.695974930910997, "train/rep_loss_std": 8.491436622512172, "train/reward_avg": 0.027239216412876695, "train/reward_loss_mean": 0.04442955288563816, "train/reward_loss_std": 0.19034961411650753, "train/reward_max_data": 1.0126760593602355, "train/reward_max_pred": 1.0142623270061655, "train/reward_neg_acc": 0.9953366047899488, "train/reward_neg_loss": 0.021748387556470617, "train/reward_pos_acc": 0.9859504959952663, "train/reward_pos_loss": 0.7333837470538179, "train/reward_pred": 0.02713360950927919, "train/reward_rate": 0.03215779049295775, "stats/sum_log_reward": 7.475000113248825, "stats/max_log_achievement_collect_coal": 0.0, "stats/max_log_achievement_collect_drink": 4.125, "stats/max_log_achievement_collect_sapling": 1.625, "stats/max_log_achievement_collect_stone": 2.75, "stats/max_log_achievement_collect_wood": 9.875, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.5, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.0, "stats/max_log_achievement_place_plant": 1.375, "stats/max_log_achievement_place_stone": 1.5, "stats/max_log_achievement_place_table": 2.75, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.3143098335713148, "replay/size": 290596.0, "replay/inserts": 1420.0, "replay/samples": 11360.0, "replay/insert_wait_avg": 3.7782628771284934e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2261347031929124e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3015205860138, "timer/env.step_count": 1420.0, "timer/env.step_total": 20.106441736221313, "timer/env.step_frac": 0.0669541789098678, "timer/env.step_avg": 0.01415946601142346, "timer/env.step_min": 0.0031173229217529297, "timer/env.step_max": 1.6738436222076416, "timer/replay.add_count": 1420.0, "timer/replay.add_total": 0.2548689842224121, "timer/replay.add_frac": 0.0008487102686828099, "timer/replay.add_avg": 0.00017948520015662826, "timer/replay.add_min": 7.104873657226562e-05, "timer/replay.add_max": 0.0073850154876708984, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027012348175048828, "timer/logger.write_frac": 8.99507539033983e-05, "timer/logger.write_avg": 0.027012348175048828, "timer/logger.write_min": 0.027012348175048828, "timer/logger.write_max": 0.027012348175048828, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003509521484375, "timer/checkpoint.save_frac": 1.1686659053628687e-06, "timer/checkpoint.save_avg": 0.0003509521484375, "timer/checkpoint.save_min": 0.0003509521484375, "timer/checkpoint.save_max": 0.0003509521484375, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2764782905578613, "timer/agent.save_frac": 0.004250655434800725, "timer/agent.save_avg": 1.2764782905578613, "timer/agent.save_min": 1.2764782905578613, "timer/agent.save_max": 1.2764782905578613, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.581710815429688e-05, "timer/replay.save_frac": 2.5246994422920674e-07, "timer/replay.save_avg": 7.581710815429688e-05, "timer/replay.save_min": 7.581710815429688e-05, "timer/replay.save_max": 7.581710815429688e-05, "timer/agent.policy_count": 1420.0, "timer/agent.policy_total": 14.928346872329712, "timer/agent.policy_frac": 0.04971119308086841, "timer/agent.policy_avg": 0.010512920332626558, "timer/agent.policy_min": 0.005666971206665039, "timer/agent.policy_max": 3.5151896476745605, "timer/dataset_count": 710.0, "timer/dataset_total": 0.06348848342895508, "timer/dataset_frac": 0.00021141579071948257, "timer/dataset_avg": 8.942039919571138e-05, "timer/dataset_min": 7.05718994140625e-05, "timer/dataset_max": 0.00034332275390625, "timer/agent.train_count": 710.0, "timer/agent.train_total": 264.2674958705902, "timer/agent.train_frac": 0.8800071852946127, "timer/agent.train_avg": 0.3722077406628031, "timer/agent.train_min": 0.36609792709350586, "timer/agent.train_max": 0.38341641426086426, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20064616203308105, "timer/agent.report_frac": 0.0006681490045123199, "timer/agent.report_avg": 0.20064616203308105, "timer/agent.report_min": 0.20064616203308105, "timer/agent.report_max": 0.20064616203308105, "fps": 4.7285016411831755}
{"step": 290752, "episode/length": 155.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.057692307692307696}
{"step": 290932, "episode/length": 179.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.044444444444444446}
{"step": 291094, "episode/length": 161.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.04938271604938271}
{"step": 291263, "episode/length": 168.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.05917159763313609}
{"step": 291457, "episode/length": 193.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.041237113402061855}
{"step": 291630, "episode/length": 172.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.500000022351742, "episode/reward_rate": 0.05202312138728324}
{"step": 291824, "episode/length": 193.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.900000013411045, "episode/reward_rate": 0.04639175257731959}
{"step": 292082, "episode/length": 257.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.03875968992248062}
{"step": 292103, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4040578206380205, "train/action_min": 0.0, "train/action_std": 3.319541076819102, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04679657813782493, "train/actor_opt_grad_steps": 145145.0, "train/actor_opt_loss": -13.248012945055962, "train/adv_mag": 0.4730957829289966, "train/adv_max": 0.4169080816209316, "train/adv_mean": 0.0024814085539522543, "train/adv_min": -0.4007405460708671, "train/adv_std": 0.0520924035873678, "train/cont_avg": 0.9943983289930556, "train/cont_loss_mean": 1.6848057687942248e-05, "train/cont_loss_std": 0.0004459201009739091, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.001595361069168651, "train/cont_pos_acc": 0.9999999850988388, "train/cont_pos_loss": 1.0190481017641812e-05, "train/cont_pred": 0.994395426577992, "train/cont_rate": 0.9943983289930556, "train/dyn_loss_mean": 4.5944842961099415, "train/dyn_loss_std": 8.51714132891761, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9864872660901811, "train/extr_critic_critic_opt_grad_steps": 145145.0, "train/extr_critic_critic_opt_loss": 15678.405653211805, "train/extr_critic_mag": 8.259973088900248, "train/extr_critic_max": 8.259973088900248, "train/extr_critic_mean": 2.075015308128463, "train/extr_critic_min": -0.6021591458055708, "train/extr_critic_std": 1.926462396979332, "train/extr_return_normed_mag": 1.5363514290915594, "train/extr_return_normed_max": 1.5363514290915594, "train/extr_return_normed_mean": 0.38457412976357674, "train/extr_return_normed_min": -0.12173817296408945, "train/extr_return_normed_std": 0.3317663185298443, "train/extr_return_rate": 0.7116699558165338, "train/extr_return_raw_mag": 8.882031904326546, "train/extr_return_raw_max": 8.882031904326546, "train/extr_return_raw_mean": 2.0896212226814694, "train/extr_return_raw_min": -0.8957993454403348, "train/extr_return_raw_std": 1.956378772854805, "train/extr_reward_mag": 1.0302753912078009, "train/extr_reward_max": 1.0302753912078009, "train/extr_reward_mean": 0.04025630373507738, "train/extr_reward_min": -0.6506947924693426, "train/extr_reward_std": 0.19764049496087763, "train/image_loss_mean": 2.7073409954706826, "train/image_loss_std": 7.568617549207476, "train/model_loss_mean": 5.510258972644806, "train/model_loss_std": 11.593108190430534, "train/model_opt_grad_norm": 35.281946738561, "train/model_opt_grad_steps": 145026.75, "train/model_opt_loss": 13775.647433810764, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.3653048045105405, "train/policy_entropy_max": 2.3653048045105405, "train/policy_entropy_mean": 0.3571360922522015, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.45643510876430404, "train/policy_logprob_mag": 7.438384175300598, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.35745665844943786, "train/policy_logprob_min": -7.438384175300598, "train/policy_logprob_std": 0.9680137675669458, "train/policy_randomness_mag": 0.8348487996392779, "train/policy_randomness_max": 0.8348487996392779, "train/policy_randomness_mean": 0.12605336763792568, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16110156321277222, "train/post_ent_mag": 55.07240502039591, "train/post_ent_max": 55.07240502039591, "train/post_ent_mean": 40.75589323043823, "train/post_ent_min": 18.991006122695076, "train/post_ent_std": 5.702252407868703, "train/prior_ent_mag": 76.09008100297716, "train/prior_ent_max": 76.09008100297716, "train/prior_ent_mean": 45.29158565733168, "train/prior_ent_min": 27.169073184331257, "train/prior_ent_std": 7.2090913322236805, "train/rep_loss_mean": 4.5944842961099415, "train/rep_loss_std": 8.51714132891761, "train/reward_avg": 0.028516981065169804, "train/reward_loss_mean": 0.04621053192143639, "train/reward_loss_std": 0.20021840184926987, "train/reward_max_data": 1.0152777814202838, "train/reward_max_pred": 1.0130079090595245, "train/reward_neg_acc": 0.9946262927518951, "train/reward_neg_loss": 0.02215547285353144, "train/reward_pos_acc": 0.9879581290814612, "train/reward_pos_loss": 0.7414442143506474, "train/reward_pred": 0.028287542893344328, "train/reward_rate": 0.033487955729166664, "stats/sum_log_reward": 7.975000023841858, "stats/max_log_achievement_collect_coal": 0.0, "stats/max_log_achievement_collect_drink": 4.125, "stats/max_log_achievement_collect_sapling": 1.875, "stats/max_log_achievement_collect_stone": 3.625, "stats/max_log_achievement_collect_wood": 10.75, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.125, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.625, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.0, "stats/max_log_achievement_place_plant": 1.75, "stats/max_log_achievement_place_stone": 0.5, "stats/max_log_achievement_place_table": 3.5, "stats/max_log_achievement_wake_up": 1.125, "stats/mean_log_entropy": 0.3364590108394623, "replay/size": 292040.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.6447992615422383e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2451550636925527e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3641748428345, "timer/env.step_count": 1444.0, "timer/env.step_total": 20.351797103881836, "timer/env.step_frac": 0.06775707227578293, "timer/env.step_avg": 0.014094042315707643, "timer/env.step_min": 0.003110647201538086, "timer/env.step_max": 1.6875450611114502, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.2515709400177002, "timer/replay.add_frac": 0.0008375530808537159, "timer/replay.add_avg": 0.00017421810250533256, "timer/replay.add_min": 7.152557373046875e-05, "timer/replay.add_max": 0.0010895729064941406, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02796196937561035, "timer/logger.write_frac": 9.309355681396242e-05, "timer/logger.write_avg": 0.02796196937561035, "timer/logger.write_min": 0.02796196937561035, "timer/logger.write_max": 0.02796196937561035, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.312187194824219, "timer/agent.policy_frac": 0.034332280806191585, "timer/agent.policy_avg": 0.007141403874532008, "timer/agent.policy_min": 0.005660295486450195, "timer/agent.policy_max": 0.017968416213989258, "timer/dataset_count": 722.0, "timer/dataset_total": 0.06455779075622559, "timer/dataset_frac": 0.00021493172676137373, "timer/dataset_avg": 8.941522265405205e-05, "timer/dataset_min": 6.437301635742188e-05, "timer/dataset_max": 0.0001838207244873047, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.68867921829224, "timer/agent.train_frac": 0.8945430305025011, "timer/agent.train_avg": 0.37214498506688676, "timer/agent.train_min": 0.36109471321105957, "timer/agent.train_max": 0.3830533027648926, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20350933074951172, "timer/agent.report_frac": 0.00067754195671304, "timer/agent.report_avg": 0.20350933074951172, "timer/agent.report_min": 0.20350933074951172, "timer/agent.report_max": 0.20350933074951172, "fps": 4.8074267209023835}
{"step": 292296, "episode/length": 213.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.04205607476635514}
{"step": 292664, "episode/length": 367.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.02717391304347826}
{"step": 292752, "episode/length": 87.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.09090909090909091}
{"step": 292937, "episode/length": 184.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.032432432432432434}
{"step": 293190, "episode/length": 252.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.700000047683716, "episode/reward_rate": 0.04743083003952569}
{"step": 293394, "episode/length": 203.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 10.100000031292439, "episode/reward_rate": 0.04411764705882353}
{"step": 293560, "episode/length": 165.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 11.100000038743019, "episode/reward_rate": 0.060240963855421686}
{"step": 293561, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.362628257437928, "train/action_min": 0.0, "train/action_std": 3.2285490264631296, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.046386515185849304, "train/actor_opt_grad_steps": 145870.0, "train/actor_opt_loss": -12.39350397782783, "train/adv_mag": 0.47832282071244225, "train/adv_max": 0.451876213289287, "train/adv_mean": 0.0029321059763825446, "train/adv_min": -0.3964913046523316, "train/adv_std": 0.05258883852256487, "train/cont_avg": 0.994234267979452, "train/cont_loss_mean": 0.00022307633617258456, "train/cont_loss_std": 0.0069764150776317774, "train/cont_neg_acc": 0.9938356166016565, "train/cont_neg_loss": 0.04580934723148484, "train/cont_pos_acc": 0.9999865138367431, "train/cont_pos_loss": 2.0970690611601303e-05, "train/cont_pred": 0.994244884138238, "train/cont_rate": 0.994234267979452, "train/dyn_loss_mean": 4.652129574997784, "train/dyn_loss_std": 8.585712498181486, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0523937720141998, "train/extr_critic_critic_opt_grad_steps": 145870.0, "train/extr_critic_critic_opt_loss": 15971.938195633562, "train/extr_critic_mag": 8.620955467224121, "train/extr_critic_max": 8.620955467224121, "train/extr_critic_mean": 2.0795714250982624, "train/extr_critic_min": -0.6277102346289648, "train/extr_critic_std": 1.9731917528256977, "train/extr_return_normed_mag": 1.5743202950856456, "train/extr_return_normed_max": 1.5743202950856456, "train/extr_return_normed_mean": 0.3795757669292084, "train/extr_return_normed_min": -0.12548394291980625, "train/extr_return_normed_std": 0.3318497403843762, "train/extr_return_rate": 0.713434682316976, "train/extr_return_raw_mag": 9.30986967478713, "train/extr_return_raw_max": 9.30986967478713, "train/extr_return_raw_mean": 2.0972673419403702, "train/extr_return_raw_min": -0.9529888809543766, "train/extr_return_raw_std": 2.003463629173906, "train/extr_reward_mag": 1.037885407878928, "train/extr_reward_max": 1.037885407878928, "train/extr_reward_mean": 0.040727629109400594, "train/extr_reward_min": -0.6763203242053725, "train/extr_reward_std": 0.19908154072010353, "train/image_loss_mean": 2.865913255573952, "train/image_loss_std": 7.818266933911468, "train/model_loss_mean": 5.705144131020324, "train/model_loss_std": 11.921684787697988, "train/model_opt_grad_norm": 36.858455893111554, "train/model_opt_grad_steps": 145750.57534246575, "train/model_opt_loss": 11286.720582726884, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1969.1780821917807, "train/policy_entropy_mag": 2.378074721114276, "train/policy_entropy_max": 2.378074721114276, "train/policy_entropy_mean": 0.3479446040032661, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4435348698537644, "train/policy_logprob_mag": 7.4383842324557365, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.34671546049314, "train/policy_logprob_min": -7.4383842324557365, "train/policy_logprob_std": 0.9571475558084984, "train/policy_randomness_mag": 0.8393560174393327, "train/policy_randomness_max": 0.8393560174393327, "train/policy_randomness_mean": 0.12280917616739664, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15654834390503086, "train/post_ent_mag": 54.78258211318761, "train/post_ent_max": 54.78258211318761, "train/post_ent_mean": 40.67264086579623, "train/post_ent_min": 18.502678936474943, "train/post_ent_std": 5.760889837186631, "train/prior_ent_mag": 75.94867852615984, "train/prior_ent_max": 75.94867852615984, "train/prior_ent_mean": 45.25989187580265, "train/prior_ent_min": 26.87776317335155, "train/prior_ent_std": 7.331987093572748, "train/rep_loss_mean": 4.652129574997784, "train/rep_loss_std": 8.585712498181486, "train/reward_avg": 0.028476829678840833, "train/reward_loss_mean": 0.047730104844659976, "train/reward_loss_std": 0.1987931438504833, "train/reward_max_data": 1.0123287700626948, "train/reward_max_pred": 1.0157616105798173, "train/reward_neg_acc": 0.9943223203698249, "train/reward_neg_loss": 0.023897809091292015, "train/reward_pos_acc": 0.9880740903828242, "train/reward_pos_loss": 0.7314792561204466, "train/reward_pred": 0.02842106779858674, "train/reward_rate": 0.03376498287671233, "stats/sum_log_reward": 8.100000245230538, "stats/max_log_achievement_collect_coal": 0.42857142857142855, "stats/max_log_achievement_collect_drink": 3.142857142857143, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 5.714285714285714, "stats/max_log_achievement_collect_wood": 9.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.14285714285714285, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.5714285714285714, "stats/max_log_achievement_make_wood_sword": 0.5714285714285714, "stats/max_log_achievement_place_furnace": 0.0, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 2.857142857142857, "stats/max_log_achievement_place_table": 3.142857142857143, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.44902888791901724, "replay/size": 293498.0, "replay/inserts": 1458.0, "replay/samples": 11664.0, "replay/insert_wait_avg": 3.677827340585214e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2322994580157662e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 301.5008809566498, "timer/env.step_count": 1458.0, "timer/env.step_total": 18.696033477783203, "timer/env.step_frac": 0.06200988009872961, "timer/env.step_avg": 0.012823068228932238, "timer/env.step_min": 0.0030298233032226562, "timer/env.step_max": 1.7545216083526611, "timer/replay.add_count": 1458.0, "timer/replay.add_total": 0.24752593040466309, "timer/replay.add_frac": 0.0008209791282177139, "timer/replay.add_avg": 0.00016977087133378813, "timer/replay.add_min": 7.176399230957031e-05, "timer/replay.add_max": 0.001222372055053711, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02909564971923828, "timer/logger.write_frac": 9.650270217094886e-05, "timer/logger.write_avg": 0.02909564971923828, "timer/logger.write_min": 0.02909564971923828, "timer/logger.write_max": 0.02909564971923828, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1458.0, "timer/agent.policy_total": 10.380641460418701, "timer/agent.policy_frac": 0.03442988765897253, "timer/agent.policy_avg": 0.00711978152292092, "timer/agent.policy_min": 0.005688667297363281, "timer/agent.policy_max": 0.016569852828979492, "timer/dataset_count": 729.0, "timer/dataset_total": 0.06545233726501465, "timer/dataset_frac": 0.00021708837817434264, "timer/dataset_avg": 8.978372738685137e-05, "timer/dataset_min": 6.628036499023438e-05, "timer/dataset_max": 0.00017023086547851562, "timer/agent.train_count": 729.0, "timer/agent.train_total": 271.41095423698425, "timer/agent.train_frac": 0.9001995396358663, "timer/agent.train_avg": 0.37230583571602777, "timer/agent.train_min": 0.3629279136657715, "timer/agent.train_max": 0.39217448234558105, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2028796672821045, "timer/agent.report_frac": 0.000672899086192968, "timer/agent.report_avg": 0.2028796672821045, "timer/agent.report_min": 0.2028796672821045, "timer/agent.report_max": 0.2028796672821045, "fps": 4.83572508215101}
{"step": 293612, "episode/length": 51.0, "episode/score": 4.100000001490116, "episode/sum_abs_reward": 5.500000022351742, "episode/reward_rate": 0.09615384615384616}
{"step": 293832, "episode/length": 219.0, "episode/score": 6.0999999940395355, "episode/sum_abs_reward": 8.700000017881393, "episode/reward_rate": 0.03636363636363636}
{"step": 294010, "episode/length": 177.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.300000041723251, "episode/reward_rate": 0.0449438202247191}
{"step": 294068, "episode/length": 57.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.100000016391277, "episode/reward_rate": 0.05172413793103448}
{"step": 294227, "episode/length": 158.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.050314465408805034}
{"step": 294411, "episode/length": 183.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.900000028312206, "episode/reward_rate": 0.04891304347826087}
{"step": 294661, "episode/length": 249.0, "episode/score": 3.100000001490116, "episode/sum_abs_reward": 5.1000000312924385, "episode/reward_rate": 0.016}
{"step": 294989, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.416280397227113, "train/action_min": 0.0, "train/action_std": 3.2750413686456814, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.045700069044677306, "train/actor_opt_grad_steps": 146590.0, "train/actor_opt_loss": -14.984628596775968, "train/adv_mag": 0.47617325648455555, "train/adv_max": 0.4390900370100854, "train/adv_mean": 0.0019190877433751486, "train/adv_min": -0.3877945374435102, "train/adv_std": 0.05164182841987677, "train/cont_avg": 0.994291923415493, "train/cont_loss_mean": 1.2801094836139411e-05, "train/cont_loss_std": 0.0002463916544178266, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00043180623502751456, "train/cont_pos_acc": 0.9999999823704572, "train/cont_pos_loss": 9.819058152676058e-06, "train/cont_pred": 0.994285416435188, "train/cont_rate": 0.994291923415493, "train/dyn_loss_mean": 4.668125820831514, "train/dyn_loss_std": 8.52600507333245, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0491668716282911, "train/extr_critic_critic_opt_grad_steps": 146590.0, "train/extr_critic_critic_opt_loss": 15606.685698173416, "train/extr_critic_mag": 8.536063462915555, "train/extr_critic_max": 8.536063462915555, "train/extr_critic_mean": 2.0923854549166183, "train/extr_critic_min": -0.6350416902085425, "train/extr_critic_std": 2.016616964004409, "train/extr_return_normed_mag": 1.5462365419092312, "train/extr_return_normed_max": 1.5462365419092312, "train/extr_return_normed_mean": 0.3785346496692846, "train/extr_return_normed_min": -0.12776125337876065, "train/extr_return_normed_std": 0.3358506812176234, "train/extr_return_rate": 0.7112062027756597, "train/extr_return_raw_mag": 9.218045093643834, "train/extr_return_raw_max": 9.218045093643834, "train/extr_return_raw_mean": 2.1041124437896297, "train/extr_return_raw_min": -0.9798911893871468, "train/extr_return_raw_std": 2.0459672581981607, "train/extr_reward_mag": 1.0362768005317367, "train/extr_reward_max": 1.0362768005317367, "train/extr_reward_mean": 0.039847244285571744, "train/extr_reward_min": -0.6555798960403657, "train/extr_reward_std": 0.19708464703929257, "train/image_loss_mean": 2.814812169948094, "train/image_loss_std": 7.273414820012912, "train/model_loss_mean": 5.661591455970012, "train/model_loss_std": 11.338986013976621, "train/model_opt_grad_norm": 34.70974059843681, "train/model_opt_grad_steps": 146470.0, "train/model_opt_loss": 7271.018148932659, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1285.2112676056338, "train/policy_entropy_mag": 2.388471438851155, "train/policy_entropy_max": 2.388471438851155, "train/policy_entropy_mean": 0.36337374465566286, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4643028055278348, "train/policy_logprob_mag": 7.438384156831553, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3629247164222556, "train/policy_logprob_min": -7.438384156831553, "train/policy_logprob_std": 0.9714304519371247, "train/policy_randomness_mag": 0.8430256062829998, "train/policy_randomness_max": 0.8430256062829998, "train/policy_randomness_mean": 0.12825498687969128, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.163878513893611, "train/post_ent_mag": 54.974484779465364, "train/post_ent_max": 54.974484779465364, "train/post_ent_mean": 40.52546863824549, "train/post_ent_min": 18.461182016721914, "train/post_ent_std": 5.658984143969039, "train/prior_ent_mag": 75.9787324717347, "train/prior_ent_max": 75.9787324717347, "train/prior_ent_mean": 45.16559847979478, "train/prior_ent_min": 26.900559653698558, "train/prior_ent_std": 7.263012603974678, "train/rep_loss_mean": 4.668125820831514, "train/rep_loss_std": 8.52600507333245, "train/reward_avg": 0.029221225936542933, "train/reward_loss_mean": 0.04589100302734845, "train/reward_loss_std": 0.19000213981514247, "train/reward_max_data": 1.0197183145603663, "train/reward_max_pred": 1.0167243094511436, "train/reward_neg_acc": 0.9948612317233019, "train/reward_neg_loss": 0.021834731889022907, "train/reward_pos_acc": 0.9885270310119844, "train/reward_pos_loss": 0.7228519966904546, "train/reward_pred": 0.029054886320422232, "train/reward_rate": 0.03422095070422535, "stats/sum_log_reward": 5.3857143606458395, "stats/max_log_achievement_collect_coal": 0.0, "stats/max_log_achievement_collect_drink": 3.5714285714285716, "stats/max_log_achievement_collect_sapling": 0.42857142857142855, "stats/max_log_achievement_collect_stone": 0.2857142857142857, "stats/max_log_achievement_collect_wood": 10.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5714285714285714, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 0.5714285714285714, "stats/max_log_achievement_place_furnace": 0.0, "stats/max_log_achievement_place_plant": 0.42857142857142855, "stats/max_log_achievement_place_stone": 0.0, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 0.8571428571428571, "stats/mean_log_entropy": 0.27468478998967577, "replay/size": 294926.0, "replay/inserts": 1428.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 3.8046796782677915e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2416590829523337e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.21185517311096, "timer/env.step_count": 1428.0, "timer/env.step_total": 21.35015106201172, "timer/env.step_frac": 0.07111694856187672, "timer/env.step_avg": 0.014951086177879354, "timer/env.step_min": 0.003000020980834961, "timer/env.step_max": 2.67746901512146, "timer/replay.add_count": 1428.0, "timer/replay.add_total": 0.25460362434387207, "timer/replay.add_frac": 0.0008480798474699147, "timer/replay.add_avg": 0.00017829385458254348, "timer/replay.add_min": 7.081031799316406e-05, "timer/replay.add_max": 0.0012383460998535156, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02753305435180664, "timer/logger.write_frac": 9.17120822424893e-05, "timer/logger.write_avg": 0.02753305435180664, "timer/logger.write_min": 0.02753305435180664, "timer/logger.write_max": 0.02753305435180664, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0005097389221191406, "timer/checkpoint.save_frac": 1.6979306890635956e-06, "timer/checkpoint.save_avg": 0.0005097389221191406, "timer/checkpoint.save_min": 0.0005097389221191406, "timer/checkpoint.save_max": 0.0005097389221191406, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.242131233215332, "timer/agent.save_frac": 0.004137515597107525, "timer/agent.save_avg": 1.242131233215332, "timer/agent.save_min": 1.242131233215332, "timer/agent.save_max": 1.242131233215332, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.677078247070312e-05, "timer/replay.save_frac": 2.5572202145859575e-07, "timer/replay.save_avg": 7.677078247070312e-05, "timer/replay.save_min": 7.677078247070312e-05, "timer/replay.save_max": 7.677078247070312e-05, "timer/agent.policy_count": 1428.0, "timer/agent.policy_total": 11.466765403747559, "timer/agent.policy_frac": 0.0381955782430227, "timer/agent.policy_avg": 0.008029947761727982, "timer/agent.policy_min": 0.005654573440551758, "timer/agent.policy_max": 1.2276439666748047, "timer/dataset_count": 714.0, "timer/dataset_total": 0.06498360633850098, "timer/dataset_frac": 0.00021645916115147924, "timer/dataset_avg": 9.101345425560361e-05, "timer/dataset_min": 6.318092346191406e-05, "timer/dataset_max": 0.00016021728515625, "timer/agent.train_count": 714.0, "timer/agent.train_total": 266.3923370838165, "timer/agent.train_frac": 0.8873478261882992, "timer/agent.train_avg": 0.3730985113218719, "timer/agent.train_min": 0.3663170337677002, "timer/agent.train_max": 0.9590597152709961, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.1988694667816162, "timer/agent.report_frac": 0.0006624304248975852, "timer/agent.report_avg": 0.1988694667816162, "timer/agent.report_min": 0.1988694667816162, "timer/agent.report_max": 0.1988694667816162, "fps": 4.756549543908327}
{"step": 295053, "episode/length": 391.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.900000028312206, "episode/reward_rate": 0.02295918367346939}
{"step": 295231, "episode/length": 177.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.500000022351742, "episode/reward_rate": 0.0449438202247191}
{"step": 295399, "episode/length": 167.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.05952380952380952}
{"step": 295689, "episode/length": 289.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.034482758620689655}
{"step": 296058, "episode/length": 368.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.032520325203252036}
{"step": 296267, "episode/length": 208.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.05263157894736842}
{"step": 296430, "episode/length": 162.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.03680981595092025}
{"step": 296439, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.473933807791096, "train/action_min": 0.0, "train/action_std": 3.3076489461611396, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04659838601946831, "train/actor_opt_grad_steps": 147310.0, "train/actor_opt_loss": -13.124925793033757, "train/adv_mag": 0.46462448492442093, "train/adv_max": 0.44020779124678, "train/adv_mean": 0.002548569441001148, "train/adv_min": -0.3720402370576989, "train/adv_std": 0.051607487187401886, "train/cont_avg": 0.9941272474315068, "train/cont_loss_mean": 1.9895781732252358e-05, "train/cont_loss_std": 0.0005499062042316563, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0007358023099731613, "train/cont_pos_acc": 0.9999864836261697, "train/cont_pos_loss": 1.6538089797739753e-05, "train/cont_pred": 0.9941183932840008, "train/cont_rate": 0.9941272474315068, "train/dyn_loss_mean": 4.828401222620925, "train/dyn_loss_std": 8.580986414870171, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0321515357657656, "train/extr_critic_critic_opt_grad_steps": 147310.0, "train/extr_critic_critic_opt_loss": 15750.90190229024, "train/extr_critic_mag": 8.503972105783959, "train/extr_critic_max": 8.503972105783959, "train/extr_critic_mean": 2.120594227150695, "train/extr_critic_min": -0.5988584495570561, "train/extr_critic_std": 2.036489777369042, "train/extr_return_normed_mag": 1.5358469812837365, "train/extr_return_normed_max": 1.5358469812837365, "train/extr_return_normed_mean": 0.3809760621149246, "train/extr_return_normed_min": -0.12239385539129989, "train/extr_return_normed_std": 0.33816743101159186, "train/extr_return_rate": 0.7071837929830159, "train/extr_return_raw_mag": 9.191390298817256, "train/extr_return_raw_max": 9.191390298817256, "train/extr_return_raw_mean": 2.1361694466577816, "train/extr_return_raw_min": -0.9391023549315047, "train/extr_return_raw_std": 2.0659660329557443, "train/extr_reward_mag": 1.0320934236866155, "train/extr_reward_max": 1.0320934236866155, "train/extr_reward_mean": 0.04099591277947981, "train/extr_reward_min": -0.6482715916960207, "train/extr_reward_std": 0.19924242345437612, "train/image_loss_mean": 2.974583248569541, "train/image_loss_std": 7.781188507602639, "train/model_loss_mean": 5.918634630229375, "train/model_loss_std": 11.870096115216818, "train/model_opt_grad_norm": 37.06034158680537, "train/model_opt_grad_steps": 147189.02739726027, "train/model_opt_loss": 7597.042239672517, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1284.2465753424658, "train/policy_entropy_mag": 2.40067526085736, "train/policy_entropy_max": 2.40067526085736, "train/policy_entropy_mean": 0.36300529559997663, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.46158925515331634, "train/policy_logprob_mag": 7.438384173667594, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36447715391851454, "train/policy_logprob_min": -7.438384173667594, "train/policy_logprob_std": 0.9767922105854505, "train/policy_randomness_mag": 0.8473330189103949, "train/policy_randomness_max": 0.8473330189103949, "train/policy_randomness_mean": 0.12812494272238587, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16292075098377384, "train/post_ent_mag": 54.68077259847563, "train/post_ent_max": 54.68077259847563, "train/post_ent_mean": 40.47655340743391, "train/post_ent_min": 19.07885373781805, "train/post_ent_std": 5.667228600750231, "train/prior_ent_mag": 75.96047200242134, "train/prior_ent_max": 75.96047200242134, "train/prior_ent_mean": 45.25672860341529, "train/prior_ent_min": 27.429153912687955, "train/prior_ent_std": 7.3022114283418, "train/rep_loss_mean": 4.828401222620925, "train/rep_loss_std": 8.580986414870171, "train/reward_avg": 0.02958315489686107, "train/reward_loss_mean": 0.04699072897536297, "train/reward_loss_std": 0.19632999629598774, "train/reward_max_data": 1.019178086764192, "train/reward_max_pred": 1.0188081362476087, "train/reward_neg_acc": 0.9952067773636073, "train/reward_neg_loss": 0.02232740088429761, "train/reward_pos_acc": 0.9887045148300798, "train/reward_pos_loss": 0.7319577540436836, "train/reward_pred": 0.029388857074081898, "train/reward_rate": 0.03476830051369863, "stats/sum_log_reward": 8.528571673801967, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 5.0, "stats/max_log_achievement_collect_sapling": 2.2857142857142856, "stats/max_log_achievement_collect_stone": 9.285714285714286, "stats/max_log_achievement_collect_wood": 9.857142857142858, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.5714285714285714, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 2.142857142857143, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 0.0, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 5.285714285714286, "stats/max_log_achievement_place_table": 2.7142857142857144, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.41667106321879793, "replay/size": 296376.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.831304352858971e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.236179779315817e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.28515911102295, "timer/env.step_count": 1450.0, "timer/env.step_total": 18.846584796905518, "timer/env.step_frac": 0.06276229185851127, "timer/env.step_avg": 0.012997644687521046, "timer/env.step_min": 0.0028443336486816406, "timer/env.step_max": 1.6702609062194824, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.2707555294036865, "timer/replay.add_frac": 0.0009016613748253254, "timer/replay.add_avg": 0.00018672795131288725, "timer/replay.add_min": 7.295608520507812e-05, "timer/replay.add_max": 0.004993915557861328, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030596494674682617, "timer/logger.write_frac": 0.00010189146465067336, "timer/logger.write_avg": 0.030596494674682617, "timer/logger.write_min": 0.030596494674682617, "timer/logger.write_max": 0.030596494674682617, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 10.489043235778809, "timer/agent.policy_frac": 0.034930275165216365, "timer/agent.policy_avg": 0.007233822921226764, "timer/agent.policy_min": 0.005643367767333984, "timer/agent.policy_max": 0.017899036407470703, "timer/dataset_count": 725.0, "timer/dataset_total": 0.06719231605529785, "timer/dataset_frac": 0.00022376169456464937, "timer/dataset_avg": 9.267905662799704e-05, "timer/dataset_min": 7.05718994140625e-05, "timer/dataset_max": 0.00018715858459472656, "timer/agent.train_count": 725.0, "timer/agent.train_total": 269.9003372192383, "timer/agent.train_frac": 0.8988134412578457, "timer/agent.train_avg": 0.3722763271989494, "timer/agent.train_min": 0.3664219379425049, "timer/agent.train_max": 0.38515210151672363, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20433354377746582, "timer/agent.report_frac": 0.0006804650099338362, "timer/agent.report_avg": 0.20433354377746582, "timer/agent.report_min": 0.20433354377746582, "timer/agent.report_max": 0.20433354377746582, "fps": 4.828680475925313}
{"step": 296642, "episode/length": 211.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.04245283018867924}
{"step": 296724, "episode/length": 81.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.500000022351742, "episode/reward_rate": 0.08536585365853659}
{"step": 296970, "episode/length": 245.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.04878048780487805}
{"step": 297172, "episode/length": 201.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.900000028312206, "episode/reward_rate": 0.04455445544554455}
{"step": 297296, "episode/length": 123.0, "episode/score": 5.100000023841858, "episode/sum_abs_reward": 6.899999976158142, "episode/reward_rate": 0.056451612903225805}
{"step": 297518, "episode/length": 221.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.036036036036036036}
{"step": 297695, "episode/length": 176.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 11.100000038743019, "episode/reward_rate": 0.05649717514124294}
{"step": 297843, "episode/length": 147.0, "episode/score": 5.099999979138374, "episode/sum_abs_reward": 8.100000038743019, "episode/reward_rate": 0.04054054054054054}
{"step": 297881, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.401251051161024, "train/action_min": 0.0, "train/action_std": 3.2949348986148834, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04640373204731279, "train/actor_opt_grad_steps": 148035.0, "train/actor_opt_loss": -14.309422127074665, "train/adv_mag": 0.5046960479683347, "train/adv_max": 0.46010946275459397, "train/adv_mean": 0.001589286545418468, "train/adv_min": -0.4086782539056407, "train/adv_std": 0.0518669362904297, "train/cont_avg": 0.9946967230902778, "train/cont_loss_mean": 1.6827420737620792e-05, "train/cont_loss_std": 0.00048336621918170723, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.002793518192431874, "train/cont_pos_acc": 0.9999999817874696, "train/cont_pos_loss": 2.7179429369855116e-06, "train/cont_pred": 0.9947052465544807, "train/cont_rate": 0.9946967230902778, "train/dyn_loss_mean": 4.720432798067729, "train/dyn_loss_std": 8.545602705743578, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0148011520504951, "train/extr_critic_critic_opt_grad_steps": 148035.0, "train/extr_critic_critic_opt_loss": 15680.642700195312, "train/extr_critic_mag": 8.52013517750634, "train/extr_critic_max": 8.52013517750634, "train/extr_critic_mean": 2.044101339247492, "train/extr_critic_min": -0.6025322477022806, "train/extr_critic_std": 1.9256210972865422, "train/extr_return_normed_mag": 1.535826661520534, "train/extr_return_normed_max": 1.535826661520534, "train/extr_return_normed_mean": 0.3717365591890282, "train/extr_return_normed_min": -0.12008054549288419, "train/extr_return_normed_std": 0.3233895082440641, "train/extr_return_rate": 0.7128662467002869, "train/extr_return_raw_mag": 9.087132387691074, "train/extr_return_raw_max": 9.087132387691074, "train/extr_return_raw_mean": 2.053742657105128, "train/extr_return_raw_min": -0.9176992716060745, "train/extr_return_raw_std": 1.953880907760726, "train/extr_reward_mag": 1.0289192994435628, "train/extr_reward_max": 1.0289192994435628, "train/extr_reward_mean": 0.039031901836602226, "train/extr_reward_min": -0.6462355289194319, "train/extr_reward_std": 0.19467884819540712, "train/image_loss_mean": 2.773759717742602, "train/image_loss_std": 8.118620779779222, "train/model_loss_mean": 5.651086211204529, "train/model_loss_std": 12.18781394428677, "train/model_opt_grad_norm": 34.02285503016578, "train/model_opt_grad_steps": 147913.61111111112, "train/model_opt_loss": 8562.094882541232, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1510.4166666666667, "train/policy_entropy_mag": 2.406941145658493, "train/policy_entropy_max": 2.406941145658493, "train/policy_entropy_mean": 0.34912387364440495, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.44311512178844875, "train/policy_logprob_mag": 7.438384195168813, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3493194927771886, "train/policy_logprob_min": -7.438384195168813, "train/policy_logprob_std": 0.9605330146021314, "train/policy_randomness_mag": 0.8495445988244481, "train/policy_randomness_max": 0.8495445988244481, "train/policy_randomness_mean": 0.12322540601922406, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15640019221852222, "train/post_ent_mag": 54.30815479490492, "train/post_ent_max": 54.30815479490492, "train/post_ent_mean": 40.5685436990526, "train/post_ent_min": 19.194860829247368, "train/post_ent_std": 5.616971115271251, "train/prior_ent_mag": 75.95866976843939, "train/prior_ent_max": 75.95866976843939, "train/prior_ent_mean": 45.24919944339328, "train/prior_ent_min": 27.511604600482517, "train/prior_ent_std": 7.176429145865971, "train/rep_loss_mean": 4.720432798067729, "train/rep_loss_std": 8.545602705743578, "train/reward_avg": 0.027773708493138354, "train/reward_loss_mean": 0.045050017432206206, "train/reward_loss_std": 0.18883037587834728, "train/reward_max_data": 1.0111111137602065, "train/reward_max_pred": 1.0102543764644198, "train/reward_neg_acc": 0.9948247306876712, "train/reward_neg_loss": 0.022007892425689433, "train/reward_pos_acc": 0.9879143585761389, "train/reward_pos_loss": 0.7282633342676692, "train/reward_pred": 0.02761405320941574, "train/reward_rate": 0.03271484375, "stats/sum_log_reward": 7.4750001430511475, "stats/max_log_achievement_collect_coal": 0.125, "stats/max_log_achievement_collect_drink": 2.125, "stats/max_log_achievement_collect_sapling": 1.75, "stats/max_log_achievement_collect_stone": 2.625, "stats/max_log_achievement_collect_wood": 10.125, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.25, "stats/max_log_achievement_make_wood_sword": 1.75, "stats/max_log_achievement_place_furnace": 0.25, "stats/max_log_achievement_place_plant": 1.625, "stats/max_log_achievement_place_stone": 0.625, "stats/max_log_achievement_place_table": 2.875, "stats/max_log_achievement_wake_up": 1.375, "stats/mean_log_entropy": 0.35762015730142593, "replay/size": 297818.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.7502151256460755e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.286646033457678e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3405110836029, "timer/env.step_count": 1442.0, "timer/env.step_total": 20.348430395126343, "timer/env.step_frac": 0.06775120120063371, "timer/env.step_avg": 0.01411125547512229, "timer/env.step_min": 0.0031061172485351562, "timer/env.step_max": 1.6842007637023926, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.2588043212890625, "timer/replay.add_frac": 0.0008617030062155739, "timer/replay.add_avg": 0.00017947595096328884, "timer/replay.add_min": 7.557868957519531e-05, "timer/replay.add_max": 0.00176239013671875, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027364730834960938, "timer/logger.write_frac": 9.111235356239932e-05, "timer/logger.write_avg": 0.027364730834960938, "timer/logger.write_min": 0.027364730834960938, "timer/logger.write_max": 0.027364730834960938, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 10.457367181777954, "timer/agent.policy_frac": 0.03481837046906748, "timer/agent.policy_avg": 0.007251988336877915, "timer/agent.policy_min": 0.005603313446044922, "timer/agent.policy_max": 0.0171816349029541, "timer/dataset_count": 721.0, "timer/dataset_total": 0.06610655784606934, "timer/dataset_frac": 0.00022010536509897558, "timer/dataset_avg": 9.168732017485345e-05, "timer/dataset_min": 6.842613220214844e-05, "timer/dataset_max": 0.00023555755615234375, "timer/agent.train_count": 721.0, "timer/agent.train_total": 268.4909007549286, "timer/agent.train_frac": 0.8939549972337609, "timer/agent.train_avg": 0.37238682490281355, "timer/agent.train_min": 0.36539459228515625, "timer/agent.train_max": 0.386629581451416, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22230839729309082, "timer/agent.report_frac": 0.0007401878504202483, "timer/agent.report_avg": 0.22230839729309082, "timer/agent.report_min": 0.22230839729309082, "timer/agent.report_max": 0.22230839729309082, "fps": 4.801126129128669}
{"step": 298148, "episode/length": 304.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.036065573770491806}
{"step": 298325, "episode/length": 176.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.04519774011299435}
{"step": 298473, "episode/length": 147.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.05405405405405406}
{"step": 298625, "episode/length": 151.0, "episode/score": 7.0999999940395355, "episode/sum_abs_reward": 9.700000017881393, "episode/reward_rate": 0.05921052631578947}
{"step": 298701, "episode/length": 75.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.05263157894736842}
{"step": 298918, "episode/length": 216.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.04608294930875576}
{"step": 299274, "episode/length": 355.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.016853932584269662}
{"step": 299309, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.492053394586268, "train/action_min": 0.0, "train/action_std": 3.359816490764349, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04798192777474162, "train/actor_opt_grad_steps": 148750.0, "train/actor_opt_loss": -12.665163878403918, "train/adv_mag": 0.4973606891195539, "train/adv_max": 0.45465853012783425, "train/adv_mean": 0.002784670079422604, "train/adv_min": -0.4233388040267246, "train/adv_std": 0.052921820222072195, "train/cont_avg": 0.9947458186619719, "train/cont_loss_mean": 6.420659458383302e-05, "train/cont_loss_std": 0.0019845230542950704, "train/cont_neg_acc": 0.998435054866361, "train/cont_neg_loss": 0.006385049842047523, "train/cont_pos_acc": 0.9999999756544409, "train/cont_pos_loss": 9.93237341937959e-06, "train/cont_pred": 0.9947537485982331, "train/cont_rate": 0.9947458186619719, "train/dyn_loss_mean": 4.691547833697896, "train/dyn_loss_std": 8.548197934325312, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0672950534753396, "train/extr_critic_critic_opt_grad_steps": 148750.0, "train/extr_critic_critic_opt_loss": 15914.803738446302, "train/extr_critic_mag": 8.653467943970586, "train/extr_critic_max": 8.653467943970586, "train/extr_critic_mean": 2.0510478237984886, "train/extr_critic_min": -0.6202840721103507, "train/extr_critic_std": 1.9369409940612148, "train/extr_return_normed_mag": 1.5616540102891519, "train/extr_return_normed_max": 1.5616540102891519, "train/extr_return_normed_mean": 0.37894943965152955, "train/extr_return_normed_min": -0.12408588039623179, "train/extr_return_normed_std": 0.32747677682151255, "train/extr_return_rate": 0.7200264477393996, "train/extr_return_raw_mag": 9.17319342116235, "train/extr_return_raw_max": 9.17319342116235, "train/extr_return_raw_mean": 2.0677549536799043, "train/extr_return_raw_min": -0.9531247154088087, "train/extr_return_raw_std": 1.967411566788042, "train/extr_reward_mag": 1.0347246217056059, "train/extr_reward_max": 1.0347246217056059, "train/extr_reward_mean": 0.04003013489426861, "train/extr_reward_min": -0.653248731519135, "train/extr_reward_std": 0.19694543808278903, "train/image_loss_mean": 2.810791185204412, "train/image_loss_std": 7.454784944023885, "train/model_loss_mean": 5.6716257954987, "train/model_loss_std": 11.556559320906517, "train/model_opt_grad_norm": 33.15936647334569, "train/model_opt_grad_steps": 148628.0, "train/model_opt_loss": 7089.532219685299, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.3907182921826, "train/policy_entropy_max": 2.3907182921826, "train/policy_entropy_mean": 0.35734326297968205, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.45012681794838166, "train/policy_logprob_mag": 7.438384183695619, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.35581323252597324, "train/policy_logprob_min": -7.438384183695619, "train/policy_logprob_std": 0.9609620495581291, "train/policy_randomness_mag": 0.8438186385262181, "train/policy_randomness_max": 0.8438186385262181, "train/policy_randomness_mean": 0.1261264909531029, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15887501447553365, "train/post_ent_mag": 54.606693321550395, "train/post_ent_max": 54.606693321550395, "train/post_ent_mean": 40.5319855918347, "train/post_ent_min": 18.35206955923161, "train/post_ent_std": 5.610631680824388, "train/prior_ent_mag": 76.06843910754567, "train/prior_ent_max": 76.06843910754567, "train/prior_ent_mean": 45.149320091999755, "train/prior_ent_min": 27.69486505212918, "train/prior_ent_std": 7.16005587242019, "train/rep_loss_mean": 4.691547833697896, "train/rep_loss_std": 8.548197934325312, "train/reward_avg": 0.027610585145967106, "train/reward_loss_mean": 0.04584169810191846, "train/reward_loss_std": 0.20648619154809225, "train/reward_max_data": 1.015492961440288, "train/reward_max_pred": 1.0126810409653355, "train/reward_neg_acc": 0.9954706799816078, "train/reward_neg_loss": 0.02227345435604663, "train/reward_pos_acc": 0.9818886149097497, "train/reward_pos_loss": 0.754186383435424, "train/reward_pred": 0.027194123374114573, "train/reward_rate": 0.03226782570422535, "stats/sum_log_reward": 6.957142932074411, "stats/max_log_achievement_collect_coal": 0.0, "stats/max_log_achievement_collect_drink": 3.5714285714285716, "stats/max_log_achievement_collect_sapling": 1.8571428571428572, "stats/max_log_achievement_collect_stone": 3.0, "stats/max_log_achievement_collect_wood": 9.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.4285714285714286, "stats/max_log_achievement_place_furnace": 0.0, "stats/max_log_achievement_place_plant": 1.8571428571428572, "stats/max_log_achievement_place_stone": 1.7142857142857142, "stats/max_log_achievement_place_table": 2.857142857142857, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.38125175876276834, "replay/size": 299246.0, "replay/inserts": 1428.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 3.953440850522338e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2424104020041244e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 301.8632621765137, "timer/env.step_count": 1428.0, "timer/env.step_total": 18.93921136856079, "timer/env.step_frac": 0.06274102794756833, "timer/env.step_avg": 0.01326275305921624, "timer/env.step_min": 0.003229379653930664, "timer/env.step_max": 1.7385759353637695, "timer/replay.add_count": 1428.0, "timer/replay.add_total": 0.28470897674560547, "timer/replay.add_frac": 0.0009431720001062027, "timer/replay.add_avg": 0.00019937603413557807, "timer/replay.add_min": 7.581710815429688e-05, "timer/replay.add_max": 0.006887197494506836, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027493953704833984, "timer/logger.write_frac": 9.108082085443366e-05, "timer/logger.write_avg": 0.027493953704833984, "timer/logger.write_min": 0.027493953704833984, "timer/logger.write_max": 0.027493953704833984, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0005095005035400391, "timer/checkpoint.save_frac": 1.687851975978813e-06, "timer/checkpoint.save_avg": 0.0005095005035400391, "timer/checkpoint.save_min": 0.0005095005035400391, "timer/checkpoint.save_max": 0.0005095005035400391, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.533085584640503, "timer/agent.save_frac": 0.0050787418567816165, "timer/agent.save_avg": 1.533085584640503, "timer/agent.save_min": 1.533085584640503, "timer/agent.save_max": 1.533085584640503, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.58306884765625e-05, "timer/replay.save_frac": 2.84336317900034e-07, "timer/replay.save_avg": 8.58306884765625e-05, "timer/replay.save_min": 8.58306884765625e-05, "timer/replay.save_max": 8.58306884765625e-05, "timer/agent.policy_count": 1428.0, "timer/agent.policy_total": 12.183016061782837, "timer/agent.policy_frac": 0.040359386478301736, "timer/agent.policy_avg": 0.0085315238527891, "timer/agent.policy_min": 0.0057489871978759766, "timer/agent.policy_max": 1.5316624641418457, "timer/dataset_count": 714.0, "timer/dataset_total": 0.06810712814331055, "timer/dataset_frac": 0.00022562244789988754, "timer/dataset_avg": 9.538813465449657e-05, "timer/dataset_min": 7.2479248046875e-05, "timer/dataset_max": 0.00021767616271972656, "timer/agent.train_count": 714.0, "timer/agent.train_total": 268.9514391422272, "timer/agent.train_frac": 0.8909710880450189, "timer/agent.train_avg": 0.37668268787426773, "timer/agent.train_min": 0.36629438400268555, "timer/agent.train_max": 3.043524980545044, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22659754753112793, "timer/agent.report_frac": 0.0007506628858950901, "timer/agent.report_avg": 0.22659754753112793, "timer/agent.report_min": 0.22659754753112793, "timer/agent.report_max": 0.22659754753112793, "fps": 4.730548417646296}
{"step": 299433, "episode/length": 158.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 11.500000037252903, "episode/reward_rate": 0.06289308176100629}
{"step": 299590, "episode/length": 156.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 7.700000025331974, "episode/reward_rate": 0.044585987261146494}
{"step": 299863, "episode/length": 272.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.03663003663003663}
{"step": 300147, "episode/length": 283.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.04225352112676056}
{"step": 300330, "episode/length": 182.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.0546448087431694}
{"step": 300547, "episode/length": 216.0, "episode/score": 1.1000000089406967, "episode/sum_abs_reward": 3.0999999940395355, "episode/reward_rate": 0.013824884792626729}
{"step": 300711, "episode/length": 163.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.04878048780487805}
{"step": 300755, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.493838840060764, "train/action_min": 0.0, "train/action_std": 3.3091627756754556, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04575207415554258, "train/actor_opt_grad_steps": 149465.0, "train/actor_opt_loss": -13.720080971717834, "train/adv_mag": 0.4587732557621267, "train/adv_max": 0.41494636982679367, "train/adv_mean": 0.0028943009665454156, "train/adv_min": -0.40051910736494595, "train/adv_std": 0.0509582316606409, "train/cont_avg": 0.9942084418402778, "train/cont_loss_mean": 0.00011420611638681934, "train/cont_loss_std": 0.003634616904597444, "train/cont_neg_acc": 0.9945436517397562, "train/cont_neg_loss": 0.009165992003720666, "train/cont_pos_acc": 0.9999863339795007, "train/cont_pos_loss": 5.916935407501711e-05, "train/cont_pred": 0.9942130595445633, "train/cont_rate": 0.9942084418402778, "train/dyn_loss_mean": 4.787739551729626, "train/dyn_loss_std": 8.610344184769524, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0225299580229654, "train/extr_critic_critic_opt_grad_steps": 149465.0, "train/extr_critic_critic_opt_loss": 15854.828084309896, "train/extr_critic_mag": 8.417457752757603, "train/extr_critic_max": 8.417457752757603, "train/extr_critic_mean": 2.0842044750849404, "train/extr_critic_min": -0.6374807125992246, "train/extr_critic_std": 2.001129256354438, "train/extr_return_normed_mag": 1.5258917990658019, "train/extr_return_normed_max": 1.5258917990658019, "train/extr_return_normed_mean": 0.37966501630014843, "train/extr_return_normed_min": -0.10872373978296916, "train/extr_return_normed_std": 0.33000420530637103, "train/extr_return_rate": 0.699367986785041, "train/extr_return_raw_mag": 9.166546185811361, "train/extr_return_raw_max": 9.166546185811361, "train/extr_return_raw_mean": 2.102052080962393, "train/extr_return_raw_min": -0.9084588322374556, "train/extr_return_raw_std": 2.0340315534008875, "train/extr_reward_mag": 1.0307279924551647, "train/extr_reward_max": 1.0307279924551647, "train/extr_reward_mean": 0.04062960552982986, "train/extr_reward_min": -0.6622782879405551, "train/extr_reward_std": 0.19827446838219961, "train/image_loss_mean": 2.8642515109644995, "train/image_loss_std": 7.682644724845886, "train/model_loss_mean": 5.784762389130062, "train/model_loss_std": 11.789526760578156, "train/model_opt_grad_norm": 34.14462208747864, "train/model_opt_grad_steps": 149342.16666666666, "train/model_opt_loss": 8396.277262369791, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1440.9722222222222, "train/policy_entropy_mag": 2.4042907092306347, "train/policy_entropy_max": 2.4042907092306347, "train/policy_entropy_mean": 0.365605167630646, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.46191806056433254, "train/policy_logprob_mag": 7.438384195168813, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36414528224203324, "train/policy_logprob_min": -7.438384195168813, "train/policy_logprob_std": 0.9704970419406891, "train/policy_randomness_mag": 0.8486091097195944, "train/policy_randomness_max": 0.8486091097195944, "train/policy_randomness_mean": 0.12904258186204565, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16303680361145073, "train/post_ent_mag": 54.8469828499688, "train/post_ent_max": 54.8469828499688, "train/post_ent_mean": 40.53871070014106, "train/post_ent_min": 18.727904121081036, "train/post_ent_std": 5.623314314418369, "train/prior_ent_mag": 76.0699126985338, "train/prior_ent_max": 76.0699126985338, "train/prior_ent_mean": 45.299574322170685, "train/prior_ent_min": 27.651222255494858, "train/prior_ent_std": 7.25886650217904, "train/rep_loss_mean": 4.787739551729626, "train/rep_loss_std": 8.610344184769524, "train/reward_avg": 0.029387749343489606, "train/reward_loss_mean": 0.04775298785211311, "train/reward_loss_std": 0.20217086498936018, "train/reward_max_data": 1.0152777814202838, "train/reward_max_pred": 1.014144207040469, "train/reward_neg_acc": 0.9952230784628127, "train/reward_neg_loss": 0.023175117197550006, "train/reward_pos_acc": 0.984441357354323, "train/reward_pos_loss": 0.7402596871058146, "train/reward_pred": 0.029093380318954587, "train/reward_rate": 0.03441026475694445, "stats/sum_log_reward": 7.528571605682373, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 5.428571428571429, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 6.714285714285714, "stats/max_log_achievement_collect_wood": 8.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.14285714285714285, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.2857142857142858, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.14285714285714285, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 4.571428571428571, "stats/max_log_achievement_place_table": 2.857142857142857, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.43732739772115437, "replay/size": 300692.0, "replay/inserts": 1446.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.815686554334965e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2381566510655574e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 299.62505316734314, "timer/env.step_count": 1446.0, "timer/env.step_total": 18.44499683380127, "timer/env.step_frac": 0.06156026219709866, "timer/env.step_avg": 0.01275587609529825, "timer/env.step_min": 0.002888202667236328, "timer/env.step_max": 1.7126731872558594, "timer/replay.add_count": 1446.0, "timer/replay.add_total": 0.28209972381591797, "timer/replay.add_frac": 0.0009415091322766086, "timer/replay.add_avg": 0.00019508971218251588, "timer/replay.add_min": 8.273124694824219e-05, "timer/replay.add_max": 0.0077626705169677734, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030571460723876953, "timer/logger.write_frac": 0.00010203239148631051, "timer/logger.write_avg": 0.030571460723876953, "timer/logger.write_min": 0.030571460723876953, "timer/logger.write_max": 0.030571460723876953, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1446.0, "timer/agent.policy_total": 10.83379602432251, "timer/agent.policy_frac": 0.036157844311742994, "timer/agent.policy_avg": 0.007492251745727877, "timer/agent.policy_min": 0.005651712417602539, "timer/agent.policy_max": 0.015634775161743164, "timer/dataset_count": 723.0, "timer/dataset_total": 0.0672156810760498, "timer/dataset_frac": 0.00022433264630414358, "timer/dataset_avg": 9.296774699315325e-05, "timer/dataset_min": 6.818771362304688e-05, "timer/dataset_max": 0.00022101402282714844, "timer/agent.train_count": 723.0, "timer/agent.train_total": 269.2925064563751, "timer/agent.train_frac": 0.8987649851361827, "timer/agent.train_avg": 0.3724654307833681, "timer/agent.train_min": 0.36345839500427246, "timer/agent.train_max": 0.3880348205566406, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20143985748291016, "timer/agent.report_frac": 0.000672306455529953, "timer/agent.report_avg": 0.20143985748291016, "timer/agent.report_min": 0.20143985748291016, "timer/agent.report_max": 0.20143985748291016, "fps": 4.8259647853799805}
{"step": 300924, "episode/length": 212.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.051643192488262914}
{"step": 300975, "episode/length": 50.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 6.0999999940395355, "episode/reward_rate": 0.11764705882352941}
{"step": 301168, "episode/length": 192.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 11.899999991059303, "episode/reward_rate": 0.06217616580310881}
{"step": 301404, "episode/length": 235.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.0423728813559322}
{"step": 301663, "episode/length": 258.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.700000040233135, "episode/reward_rate": 0.04247104247104247}
{"step": 301889, "episode/length": 225.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.035398230088495575}
{"step": 302080, "episode/length": 190.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.05235602094240838}
{"step": 302203, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4144178416630995, "train/action_min": 0.0, "train/action_std": 3.3041586908575606, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.045666539352642345, "train/actor_opt_grad_steps": 150190.0, "train/actor_opt_loss": -13.482090968791752, "train/adv_mag": 0.4778067935002993, "train/adv_max": 0.43582435258447305, "train/adv_mean": 0.0024572166464155365, "train/adv_min": -0.39004108146445393, "train/adv_std": 0.05146086899793311, "train/cont_avg": 0.994488441780822, "train/cont_loss_mean": 4.6475200549965684e-05, "train/cont_loss_std": 0.0014640291846595972, "train/cont_neg_acc": 0.9980430537707186, "train/cont_neg_loss": 0.0068268808234136, "train/cont_pos_acc": 0.9999999787709485, "train/cont_pos_loss": 2.186303424011855e-06, "train/cont_pred": 0.9945061647728698, "train/cont_rate": 0.994488441780822, "train/dyn_loss_mean": 4.609645693269495, "train/dyn_loss_std": 8.50630077597213, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0401142802956986, "train/extr_critic_critic_opt_grad_steps": 150190.0, "train/extr_critic_critic_opt_loss": 15743.092265089897, "train/extr_critic_mag": 8.420220427317162, "train/extr_critic_max": 8.420220427317162, "train/extr_critic_mean": 2.1866902602862006, "train/extr_critic_min": -0.607516688843296, "train/extr_critic_std": 2.0046789058267254, "train/extr_return_normed_mag": 1.494924930677022, "train/extr_return_normed_max": 1.494924930677022, "train/extr_return_normed_mean": 0.3909536957332533, "train/extr_return_normed_min": -0.11555260705621276, "train/extr_return_normed_std": 0.3285899758338928, "train/extr_return_rate": 0.7125526568660997, "train/extr_return_raw_mag": 9.033792678623984, "train/extr_return_raw_max": 9.033792678623984, "train/extr_return_raw_mean": 2.2019551339214796, "train/extr_return_raw_min": -0.9316589603685352, "train/extr_return_raw_std": 2.033002407583472, "train/extr_reward_mag": 1.032285788287855, "train/extr_reward_max": 1.032285788287855, "train/extr_reward_mean": 0.04188056573373814, "train/extr_reward_min": -0.6631848599812756, "train/extr_reward_std": 0.20106745970575776, "train/image_loss_mean": 2.7108345342009037, "train/image_loss_std": 7.433703834063386, "train/model_loss_mean": 5.523018386266003, "train/model_loss_std": 11.495618310693192, "train/model_opt_grad_norm": 33.95644888159347, "train/model_opt_grad_steps": 150067.0, "train/model_opt_loss": 10055.156537617722, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1815.0684931506848, "train/policy_entropy_mag": 2.37993217167789, "train/policy_entropy_max": 2.37993217167789, "train/policy_entropy_mean": 0.3336181495695898, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4257620985377325, "train/policy_logprob_mag": 7.438384212859689, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.33289744633517854, "train/policy_logprob_min": -7.438384212859689, "train/policy_logprob_std": 0.945182204246521, "train/policy_randomness_mag": 0.840011617908739, "train/policy_randomness_max": 0.840011617908739, "train/policy_randomness_mean": 0.11775256713775739, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1502753364509099, "train/post_ent_mag": 55.0798462123087, "train/post_ent_max": 55.0798462123087, "train/post_ent_mean": 40.64212391474476, "train/post_ent_min": 18.904422825329924, "train/post_ent_std": 5.650590628793795, "train/prior_ent_mag": 76.03183735886665, "train/prior_ent_max": 76.03183735886665, "train/prior_ent_mean": 45.19160539809972, "train/prior_ent_min": 27.55744382779892, "train/prior_ent_std": 7.176950787844723, "train/rep_loss_mean": 4.609645693269495, "train/rep_loss_std": 8.50630077597213, "train/reward_avg": 0.02962863863739249, "train/reward_loss_mean": 0.04634994225040691, "train/reward_loss_std": 0.2017979828053958, "train/reward_max_data": 1.0109589067223954, "train/reward_max_pred": 1.0117836243485752, "train/reward_neg_acc": 0.9951897998378701, "train/reward_neg_loss": 0.02147423228478595, "train/reward_pos_acc": 0.9826464906130752, "train/reward_pos_loss": 0.7413690139169562, "train/reward_pred": 0.029345715520520732, "train/reward_rate": 0.03455425941780822, "stats/sum_log_reward": 8.385714394705635, "stats/max_log_achievement_collect_coal": 0.14285714285714285, "stats/max_log_achievement_collect_drink": 3.4285714285714284, "stats/max_log_achievement_collect_sapling": 1.8571428571428572, "stats/max_log_achievement_collect_stone": 14.142857142857142, "stats/max_log_achievement_collect_wood": 10.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.5714285714285714, "stats/max_log_achievement_place_furnace": 0.0, "stats/max_log_achievement_place_plant": 1.7142857142857142, "stats/max_log_achievement_place_stone": 10.428571428571429, "stats/max_log_achievement_place_table": 3.5714285714285716, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.3905416450330189, "replay/size": 302140.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.9413159723439926e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2529530248589278e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3582332134247, "timer/env.step_count": 1448.0, "timer/env.step_total": 18.892356157302856, "timer/env.step_frac": 0.06289941166313416, "timer/env.step_avg": 0.013047207290955012, "timer/env.step_min": 0.002955198287963867, "timer/env.step_max": 1.6612019538879395, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.2776973247528076, "timer/replay.add_frac": 0.0009245537296641541, "timer/replay.add_avg": 0.00019177992040939754, "timer/replay.add_min": 6.890296936035156e-05, "timer/replay.add_max": 0.004052639007568359, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02846503257751465, "timer/logger.write_frac": 9.477027572368336e-05, "timer/logger.write_avg": 0.02846503257751465, "timer/logger.write_min": 0.02846503257751465, "timer/logger.write_max": 0.02846503257751465, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 10.760814428329468, "timer/agent.policy_frac": 0.035826600500353814, "timer/agent.policy_avg": 0.007431501677023113, "timer/agent.policy_min": 0.005590200424194336, "timer/agent.policy_max": 0.02023911476135254, "timer/dataset_count": 724.0, "timer/dataset_total": 0.06743407249450684, "timer/dataset_frac": 0.0002245121492860507, "timer/dataset_avg": 9.314098410843486e-05, "timer/dataset_min": 7.05718994140625e-05, "timer/dataset_max": 0.0001697540283203125, "timer/agent.train_count": 724.0, "timer/agent.train_total": 269.63817501068115, "timer/agent.train_frac": 0.8977219373210427, "timer/agent.train_avg": 0.37242841852304026, "timer/agent.train_min": 0.36575913429260254, "timer/agent.train_max": 0.3877708911895752, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20366525650024414, "timer/agent.report_frac": 0.0006780744923197304, "timer/agent.report_avg": 0.20366525650024414, "timer/agent.report_min": 0.20366525650024414, "timer/agent.report_max": 0.20366525650024414, "fps": 4.820844958561779}
{"step": 302276, "episode/length": 195.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.04591836734693878}
{"step": 302455, "episode/length": 178.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.061452513966480445}
{"step": 302716, "episode/length": 260.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.038314176245210725}
{"step": 302971, "episode/length": 254.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.0392156862745098}
{"step": 303219, "episode/length": 247.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.05241935483870968}
{"step": 303396, "episode/length": 176.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.05649717514124294}
{"step": 303551, "episode/length": 154.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.07096774193548387}
{"step": 303649, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.431015862358941, "train/action_min": 0.0, "train/action_std": 3.314408974515067, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04522111779078841, "train/actor_opt_grad_steps": 150915.0, "train/actor_opt_loss": -13.498204066935513, "train/adv_mag": 0.49343502355946434, "train/adv_max": 0.4560334732135137, "train/adv_mean": 0.002329484712946497, "train/adv_min": -0.37805057544675136, "train/adv_std": 0.05075395821283261, "train/cont_avg": 0.9945203993055556, "train/cont_loss_mean": 3.36859550649709e-05, "train/cont_loss_std": 0.0010646078219367855, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.000481690909987745, "train/cont_pos_acc": 0.9999863132834435, "train/cont_pos_loss": 3.1073997168778395e-05, "train/cont_pred": 0.9945050825675329, "train/cont_rate": 0.9945203993055556, "train/dyn_loss_mean": 4.628197885221905, "train/dyn_loss_std": 8.593147032790714, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0495727707942326, "train/extr_critic_critic_opt_grad_steps": 150915.0, "train/extr_critic_critic_opt_loss": 15945.54066297743, "train/extr_critic_mag": 8.730846563975016, "train/extr_critic_max": 8.730846563975016, "train/extr_critic_mean": 2.162728488445282, "train/extr_critic_min": -0.6366076171398163, "train/extr_critic_std": 2.07577485177252, "train/extr_return_normed_mag": 1.5271322859658136, "train/extr_return_normed_max": 1.5271322859658136, "train/extr_return_normed_mean": 0.3806174960401323, "train/extr_return_normed_min": -0.11095397241620554, "train/extr_return_normed_std": 0.33409542880124515, "train/extr_return_rate": 0.6986870989203453, "train/extr_return_raw_mag": 9.411108997133043, "train/extr_return_raw_max": 9.411108997133043, "train/extr_return_raw_mean": 2.1774082945452795, "train/extr_return_raw_min": -0.9216898936364386, "train/extr_return_raw_std": 2.106958284974098, "train/extr_reward_mag": 1.0306709971692827, "train/extr_reward_max": 1.0306709971692827, "train/extr_reward_mean": 0.04066724648388723, "train/extr_reward_min": -0.6572296321392059, "train/extr_reward_std": 0.1987760276016262, "train/image_loss_mean": 2.7514746801720724, "train/image_loss_std": 7.518306507004632, "train/model_loss_mean": 5.573675165573756, "train/model_loss_std": 11.667874813079834, "train/model_opt_grad_norm": 32.38819204436408, "train/model_opt_grad_steps": 150791.47222222222, "train/model_opt_loss": 10250.861707899305, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1840.2777777777778, "train/policy_entropy_mag": 2.4262139565414853, "train/policy_entropy_max": 2.4262139565414853, "train/policy_entropy_mean": 0.3519070694843928, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.452496519105302, "train/policy_logprob_mag": 7.43838416867786, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3505896180868149, "train/policy_logprob_min": -7.43838416867786, "train/policy_logprob_std": 0.9612377848890092, "train/policy_randomness_mag": 0.8563470567266146, "train/policy_randomness_max": 0.8563470567266146, "train/policy_randomness_mean": 0.1242077521358927, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1597114136028621, "train/post_ent_mag": 54.76830657323202, "train/post_ent_max": 54.76830657323202, "train/post_ent_mean": 40.61505227618747, "train/post_ent_min": 18.73615511258443, "train/post_ent_std": 5.628507905536228, "train/prior_ent_mag": 76.01897610558404, "train/prior_ent_max": 76.01897610558404, "train/prior_ent_mean": 45.15373044543796, "train/prior_ent_min": 27.79062803586324, "train/prior_ent_std": 7.197486731741163, "train/rep_loss_mean": 4.628197885221905, "train/rep_loss_std": 8.593147032790714, "train/reward_avg": 0.0283148870156664, "train/reward_loss_mean": 0.045248056632570095, "train/reward_loss_std": 0.19059345353808668, "train/reward_max_data": 1.0097222245401807, "train/reward_max_pred": 1.010173522763782, "train/reward_neg_acc": 0.9951759394672182, "train/reward_neg_loss": 0.02164283216310044, "train/reward_pos_acc": 0.9880923446681764, "train/reward_pos_loss": 0.7309327241447237, "train/reward_pred": 0.02811972393343846, "train/reward_rate": 0.03323025173611111, "stats/sum_log_reward": 9.528571810041155, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_sapling": 2.142857142857143, "stats/max_log_achievement_collect_stone": 11.428571428571429, "stats/max_log_achievement_collect_wood": 9.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.2857142857142857, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.4285714285714286, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 0.0, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 8.857142857142858, "stats/max_log_achievement_place_table": 2.857142857142857, "stats/max_log_achievement_wake_up": 1.5714285714285714, "stats/mean_log_entropy": 0.43257204975400654, "replay/size": 303586.0, "replay/inserts": 1446.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.859215257573424e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2652178193193913e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.24874901771545, "timer/env.step_count": 1446.0, "timer/env.step_total": 18.873193979263306, "timer/env.step_frac": 0.06285852660838144, "timer/env.step_avg": 0.013052001368785135, "timer/env.step_min": 0.003043651580810547, "timer/env.step_max": 1.6958324909210205, "timer/replay.add_count": 1446.0, "timer/replay.add_total": 0.27481818199157715, "timer/replay.add_frac": 0.0009153016719991801, "timer/replay.add_avg": 0.00019005406776734243, "timer/replay.add_min": 7.700920104980469e-05, "timer/replay.add_max": 0.003108978271484375, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028464794158935547, "timer/logger.write_frac": 9.480403915773201e-05, "timer/logger.write_avg": 0.028464794158935547, "timer/logger.write_min": 0.028464794158935547, "timer/logger.write_max": 0.028464794158935547, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1446.0, "timer/agent.policy_total": 10.907442808151245, "timer/agent.policy_frac": 0.03632802082884841, "timer/agent.policy_avg": 0.007543183131501553, "timer/agent.policy_min": 0.005651712417602539, "timer/agent.policy_max": 0.01662302017211914, "timer/dataset_count": 723.0, "timer/dataset_total": 0.06839561462402344, "timer/dataset_frac": 0.00022779650156007117, "timer/dataset_avg": 9.459974360169216e-05, "timer/dataset_min": 6.628036499023438e-05, "timer/dataset_max": 0.00022149085998535156, "timer/agent.train_count": 723.0, "timer/agent.train_total": 269.40473318099976, "timer/agent.train_frac": 0.8972717923467657, "timer/agent.train_avg": 0.3726206544688793, "timer/agent.train_min": 0.36353087425231934, "timer/agent.train_max": 0.38918399810791016, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2024695873260498, "timer/agent.report_frac": 0.0006743394868036688, "timer/agent.report_avg": 0.2024695873260498, "timer/agent.report_min": 0.2024695873260498, "timer/agent.report_max": 0.2024695873260498, "fps": 4.815911196586235}
{"step": 303790, "episode/length": 238.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.900000013411045, "episode/reward_rate": 0.03765690376569038}
{"step": 303913, "episode/length": 122.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.04065040650406504}
{"step": 303992, "episode/length": 78.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.06329113924050633}
{"step": 304172, "episode/length": 179.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.05555555555555555}
{"step": 304391, "episode/length": 218.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.0502283105022831}
{"step": 304588, "episode/length": 196.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.050761421319796954}
{"step": 304648, "episode/length": 59.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.08333333333333333}
{"step": 304869, "episode/length": 220.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 13.500000059604645, "episode/reward_rate": 0.049773755656108594}
{"step": 305057, "episode/length": 187.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.031914893617021274}
{"step": 305058, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.394774518694196, "train/action_min": 0.0, "train/action_std": 3.260423742021833, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04558851069637707, "train/actor_opt_grad_steps": 151625.0, "train/actor_opt_loss": -13.971243063041141, "train/adv_mag": 0.4346707650593349, "train/adv_max": 0.37296280690601896, "train/adv_mean": 0.0018637972878683025, "train/adv_min": -0.38793576317174094, "train/adv_std": 0.0508773431714092, "train/cont_avg": 0.994140625, "train/cont_loss_mean": 0.0001293748399560154, "train/cont_loss_std": 0.00397799656670017, "train/cont_neg_acc": 0.998412698507309, "train/cont_neg_loss": 0.01376637488857081, "train/cont_pos_acc": 0.9999999829701015, "train/cont_pos_loss": 1.0916417012702644e-05, "train/cont_pred": 0.9941484783376966, "train/cont_rate": 0.994140625, "train/dyn_loss_mean": 4.709166370119367, "train/dyn_loss_std": 8.598029954092842, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0432775574071067, "train/extr_critic_critic_opt_grad_steps": 151625.0, "train/extr_critic_critic_opt_loss": 15956.597446986607, "train/extr_critic_mag": 8.66006338936942, "train/extr_critic_max": 8.66006338936942, "train/extr_critic_mean": 2.2026417238371714, "train/extr_critic_min": -0.618546724319458, "train/extr_critic_std": 2.1032979164804733, "train/extr_return_normed_mag": 1.4998445681163244, "train/extr_return_normed_max": 1.4998445681163244, "train/extr_return_normed_mean": 0.38840573600360323, "train/extr_return_normed_min": -0.11386320782559259, "train/extr_return_normed_std": 0.3381201294916017, "train/extr_return_rate": 0.6952269715922219, "train/extr_return_raw_mag": 9.221411269051687, "train/extr_return_raw_max": 9.221411269051687, "train/extr_return_raw_mean": 2.2143645252500264, "train/extr_return_raw_min": -0.9527872383594513, "train/extr_return_raw_std": 2.131846238885607, "train/extr_reward_mag": 1.0235517978668214, "train/extr_reward_max": 1.0235517978668214, "train/extr_reward_mean": 0.04199076419962304, "train/extr_reward_min": -0.6558736426489694, "train/extr_reward_std": 0.20146255940198898, "train/image_loss_mean": 2.840647307464055, "train/image_loss_std": 8.031128794806344, "train/model_loss_mean": 5.7131971870149885, "train/model_loss_std": 12.123576750074115, "train/model_opt_grad_norm": 38.04006178719657, "train/model_opt_grad_steps": 151501.0, "train/model_opt_loss": 7924.495556640625, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1392.857142857143, "train/policy_entropy_mag": 2.3803208691733224, "train/policy_entropy_max": 2.3803208691733224, "train/policy_entropy_mean": 0.34930498280695504, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.44382364068712504, "train/policy_logprob_mag": 7.438384240014212, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.348957470698016, "train/policy_logprob_min": -7.438384240014212, "train/policy_logprob_std": 0.9600600847176143, "train/policy_randomness_mag": 0.8401488099779402, "train/policy_randomness_max": 0.8401488099779402, "train/policy_randomness_mean": 0.12328932923930032, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15665026871221407, "train/post_ent_mag": 54.86191433497837, "train/post_ent_max": 54.86191433497837, "train/post_ent_mean": 40.49588236127581, "train/post_ent_min": 18.367679268973216, "train/post_ent_std": 5.66264363016401, "train/prior_ent_mag": 76.05167214529855, "train/prior_ent_max": 76.05167214529855, "train/prior_ent_mean": 45.154532950265065, "train/prior_ent_min": 27.521260479518347, "train/prior_ent_std": 7.233377483912877, "train/rep_loss_mean": 4.709166370119367, "train/rep_loss_std": 8.598029954092842, "train/reward_avg": 0.029977678254778897, "train/reward_loss_mean": 0.04692059281681265, "train/reward_loss_std": 0.19211027877671377, "train/reward_max_data": 1.007142858845847, "train/reward_max_pred": 1.0079307249614171, "train/reward_neg_acc": 0.9954466036387852, "train/reward_neg_loss": 0.02223397425508925, "train/reward_pos_acc": 0.9892346509865352, "train/reward_pos_loss": 0.7292002218110221, "train/reward_pred": 0.029655822605959007, "train/reward_rate": 0.03507254464285714, "stats/sum_log_reward": 7.100000275505914, "stats/max_log_achievement_collect_coal": 0.1111111111111111, "stats/max_log_achievement_collect_drink": 1.4444444444444444, "stats/max_log_achievement_collect_sapling": 1.5555555555555556, "stats/max_log_achievement_collect_stone": 7.222222222222222, "stats/max_log_achievement_collect_wood": 7.555555555555555, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.1111111111111111, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1111111111111112, "stats/max_log_achievement_make_wood_sword": 0.5555555555555556, "stats/max_log_achievement_place_furnace": 0.0, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 5.444444444444445, "stats/max_log_achievement_place_table": 2.111111111111111, "stats/max_log_achievement_wake_up": 0.7777777777777778, "stats/mean_log_entropy": 0.37649264103836483, "replay/size": 304995.0, "replay/inserts": 1409.0, "replay/samples": 11264.0, "replay/insert_wait_avg": 3.8060674944864763e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2170904400673779e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.8760070800781, "timer/env.step_count": 1409.0, "timer/env.step_total": 22.542112350463867, "timer/env.step_frac": 0.07492160165653981, "timer/env.step_avg": 0.015998660291315733, "timer/env.step_min": 0.0029048919677734375, "timer/env.step_max": 1.7458977699279785, "timer/replay.add_count": 1409.0, "timer/replay.add_total": 0.2967081069946289, "timer/replay.add_frac": 0.0009861474494895835, "timer/replay.add_avg": 0.00021058062952067347, "timer/replay.add_min": 7.796287536621094e-05, "timer/replay.add_max": 0.00574803352355957, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02837681770324707, "timer/logger.write_frac": 9.431399325800871e-05, "timer/logger.write_avg": 0.02837681770324707, "timer/logger.write_min": 0.02837681770324707, "timer/logger.write_max": 0.02837681770324707, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00041794776916503906, "timer/checkpoint.save_frac": 1.3891030169574216e-06, "timer/checkpoint.save_avg": 0.00041794776916503906, "timer/checkpoint.save_min": 0.00041794776916503906, "timer/checkpoint.save_max": 0.00041794776916503906, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4195621013641357, "timer/agent.save_frac": 0.004718096717450519, "timer/agent.save_avg": 1.4195621013641357, "timer/agent.save_min": 1.4195621013641357, "timer/agent.save_max": 1.4195621013641357, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.726119995117188e-05, "timer/replay.save_frac": 2.900237901919089e-07, "timer/replay.save_avg": 8.726119995117188e-05, "timer/replay.save_min": 8.726119995117188e-05, "timer/replay.save_max": 8.726119995117188e-05, "timer/agent.policy_count": 1409.0, "timer/agent.policy_total": 14.809016466140747, "timer/agent.policy_frac": 0.049219665635217395, "timer/agent.policy_avg": 0.010510302672917493, "timer/agent.policy_min": 0.00571751594543457, "timer/agent.policy_max": 2.756869316101074, "timer/dataset_count": 704.0, "timer/dataset_total": 0.06542181968688965, "timer/dataset_frac": 0.00021743780875647435, "timer/dataset_avg": 9.292872114615007e-05, "timer/dataset_min": 7.319450378417969e-05, "timer/dataset_max": 0.00016069412231445312, "timer/agent.train_count": 704.0, "timer/agent.train_total": 262.4582185745239, "timer/agent.train_frac": 0.8723135524218476, "timer/agent.train_avg": 0.37280996956608514, "timer/agent.train_min": 0.3660714626312256, "timer/agent.train_max": 0.44274163246154785, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2028944492340088, "timer/agent.report_frac": 0.0006743457253472805, "timer/agent.report_avg": 0.2028944492340088, "timer/agent.report_min": 0.2028944492340088, "timer/agent.report_max": 0.2028944492340088, "fps": 4.682925798911835}
{"step": 305257, "episode/length": 199.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.05}
{"step": 305320, "episode/length": 62.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.07936507936507936}
{"step": 305529, "episode/length": 208.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.05741626794258373}
{"step": 305793, "episode/length": 263.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 12.500000014901161, "episode/reward_rate": 0.041666666666666664}
{"step": 305946, "episode/length": 152.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.05228758169934641}
{"step": 306143, "episode/length": 196.0, "episode/score": 6.099999979138374, "episode/sum_abs_reward": 7.900000020861626, "episode/reward_rate": 0.03553299492385787}
{"step": 306248, "episode/length": 104.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.10476190476190476}
{"step": 306406, "episode/length": 157.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.06329113924050633}
{"step": 306493, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.499590555826823, "train/action_min": 0.0, "train/action_std": 3.352647433678309, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0470448395030366, "train/actor_opt_grad_steps": 152335.0, "train/actor_opt_loss": -14.125345403949419, "train/adv_mag": 0.5133502669632435, "train/adv_max": 0.4803797871702247, "train/adv_mean": 0.0023432730592200337, "train/adv_min": -0.3961992408666346, "train/adv_std": 0.05340260143081347, "train/cont_avg": 0.9940456814236112, "train/cont_loss_mean": 2.0586821674347295e-05, "train/cont_loss_std": 0.000549758141087548, "train/cont_neg_acc": 0.9982638888888888, "train/cont_neg_loss": 0.0017057289508962804, "train/cont_pos_acc": 0.9999999809596274, "train/cont_pos_loss": 7.376463338223023e-06, "train/cont_pred": 0.994047101173136, "train/cont_rate": 0.9940456814236112, "train/dyn_loss_mean": 4.584598746564653, "train/dyn_loss_std": 8.503115283118355, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.063975479039881, "train/extr_critic_critic_opt_grad_steps": 152335.0, "train/extr_critic_critic_opt_loss": 15948.160685221354, "train/extr_critic_mag": 9.010677390628391, "train/extr_critic_max": 9.010677390628391, "train/extr_critic_mean": 2.180254509051641, "train/extr_critic_min": -0.583673338095347, "train/extr_critic_std": 2.1659395976199045, "train/extr_return_normed_mag": 1.584858195649253, "train/extr_return_normed_max": 1.584858195649253, "train/extr_return_normed_mean": 0.3860088694426749, "train/extr_return_normed_min": -0.10586447868910101, "train/extr_return_normed_std": 0.35049233999517226, "train/extr_return_rate": 0.6893102948864301, "train/extr_return_raw_mag": 9.707467834154764, "train/extr_return_raw_max": 9.707467834154764, "train/extr_return_raw_mean": 2.194945154918565, "train/extr_return_raw_min": -0.8865107744932175, "train/extr_return_raw_std": 2.195926187766923, "train/extr_reward_mag": 1.0290649599499173, "train/extr_reward_max": 1.0290649599499173, "train/extr_reward_mean": 0.04255669483811491, "train/extr_reward_min": -0.658429698811637, "train/extr_reward_std": 0.20315663143992424, "train/image_loss_mean": 2.803447205159399, "train/image_loss_std": 7.742063158088261, "train/model_loss_mean": 5.601146827141444, "train/model_loss_std": 11.765260345406002, "train/model_opt_grad_norm": 36.116816918055214, "train/model_opt_grad_steps": 152211.0, "train/model_opt_loss": 14002.867038302951, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.3887894054253898, "train/policy_entropy_max": 2.3887894054253898, "train/policy_entropy_mean": 0.36370426499181324, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4659056170947022, "train/policy_logprob_mag": 7.438384221659766, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3638620927102036, "train/policy_logprob_min": -7.438384221659766, "train/policy_logprob_std": 0.9745790428585477, "train/policy_randomness_mag": 0.8431378313236766, "train/policy_randomness_max": 0.8431378313236766, "train/policy_randomness_mean": 0.12837164600690207, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16444424043099085, "train/post_ent_mag": 54.53727361891005, "train/post_ent_max": 54.53727361891005, "train/post_ent_mean": 40.513668643103706, "train/post_ent_min": 19.116193215052288, "train/post_ent_std": 5.6157663398318824, "train/prior_ent_mag": 76.12146229214139, "train/prior_ent_max": 76.12146229214139, "train/prior_ent_mean": 45.08412509494357, "train/prior_ent_min": 27.51985438664754, "train/prior_ent_std": 7.268774840566847, "train/rep_loss_mean": 4.584598746564653, "train/rep_loss_std": 8.503115283118355, "train/reward_avg": 0.029254828476243548, "train/reward_loss_mean": 0.046919750386021204, "train/reward_loss_std": 0.19234016879151264, "train/reward_max_data": 1.0166666706403096, "train/reward_max_pred": 1.0155311392413244, "train/reward_neg_acc": 0.9950144150190883, "train/reward_neg_loss": 0.022800018571110234, "train/reward_pos_acc": 0.9904123163885541, "train/reward_pos_loss": 0.7216776551471816, "train/reward_pred": 0.029184115171018574, "train/reward_rate": 0.034505208333333336, "stats/sum_log_reward": 8.100000202655792, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 2.125, "stats/max_log_achievement_collect_sapling": 1.125, "stats/max_log_achievement_collect_stone": 7.625, "stats/max_log_achievement_collect_wood": 11.625, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.25, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.375, "stats/max_log_achievement_make_wood_sword": 1.25, "stats/max_log_achievement_place_furnace": 0.25, "stats/max_log_achievement_place_plant": 1.125, "stats/max_log_achievement_place_stone": 4.5, "stats/max_log_achievement_place_table": 3.625, "stats/max_log_achievement_wake_up": 0.875, "stats/mean_log_entropy": 0.3504709415137768, "replay/size": 306430.0, "replay/inserts": 1435.0, "replay/samples": 11488.0, "replay/insert_wait_avg": 3.897603795918854e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.237252960630114e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.02605509757996, "timer/env.step_count": 1435.0, "timer/env.step_total": 20.22706127166748, "timer/env.step_frac": 0.06741768232458632, "timer/env.step_avg": 0.01409551308130138, "timer/env.step_min": 0.0028171539306640625, "timer/env.step_max": 1.7301664352416992, "timer/replay.add_count": 1435.0, "timer/replay.add_total": 0.28769707679748535, "timer/replay.add_frac": 0.0009589069746089727, "timer/replay.add_avg": 0.0002004857678031257, "timer/replay.add_min": 7.653236389160156e-05, "timer/replay.add_max": 0.005753040313720703, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030034542083740234, "timer/logger.write_frac": 0.00010010644600173758, "timer/logger.write_avg": 0.030034542083740234, "timer/logger.write_min": 0.030034542083740234, "timer/logger.write_max": 0.030034542083740234, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1435.0, "timer/agent.policy_total": 10.882884740829468, "timer/agent.policy_frac": 0.036273132136107104, "timer/agent.policy_avg": 0.007583891805456075, "timer/agent.policy_min": 0.0056324005126953125, "timer/agent.policy_max": 0.017875194549560547, "timer/dataset_count": 718.0, "timer/dataset_total": 0.06826591491699219, "timer/dataset_frac": 0.00022753328838320225, "timer/dataset_avg": 9.507787592895847e-05, "timer/dataset_min": 6.985664367675781e-05, "timer/dataset_max": 0.0006358623504638672, "timer/agent.train_count": 718.0, "timer/agent.train_total": 267.832505941391, "timer/agent.train_frac": 0.8926974887373752, "timer/agent.train_avg": 0.3730257742916309, "timer/agent.train_min": 0.3665196895599365, "timer/agent.train_max": 0.3886528015136719, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2220010757446289, "timer/agent.report_frac": 0.00073993932184465, "timer/agent.report_avg": 0.2220010757446289, "timer/agent.report_min": 0.2220010757446289, "timer/agent.report_max": 0.2220010757446289, "fps": 4.782865496408703}
{"step": 306643, "episode/length": 236.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.04219409282700422}
{"step": 307043, "episode/length": 399.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.03}
{"step": 307223, "episode/length": 179.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.05555555555555555}
{"step": 307428, "episode/length": 204.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06341463414634146}
{"step": 307493, "episode/length": 64.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 4.899999991059303, "episode/reward_rate": 0.07692307692307693}
{"step": 307700, "episode/length": 206.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.03864734299516908}
{"step": 307940, "episode/length": 239.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.900000013411045, "episode/reward_rate": 0.041666666666666664}
{"step": 307941, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.45276882223887, "train/action_min": 0.0, "train/action_std": 3.3390271500365376, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04758191323035384, "train/actor_opt_grad_steps": 153060.0, "train/actor_opt_loss": -8.11511689281627, "train/adv_mag": 0.5100319442683703, "train/adv_max": 0.47373173661427953, "train/adv_mean": 0.00409476725969261, "train/adv_min": -0.43163985463037885, "train/adv_std": 0.053695876406480186, "train/cont_avg": 0.9948763912671232, "train/cont_loss_mean": 3.456121842487248e-05, "train/cont_loss_std": 0.0010557967373667034, "train/cont_neg_acc": 0.9980430537707186, "train/cont_neg_loss": 0.005116060636280836, "train/cont_pos_acc": 0.9999999828534584, "train/cont_pos_loss": 4.3567649723403e-06, "train/cont_pred": 0.9948890674604128, "train/cont_rate": 0.9948763912671232, "train/dyn_loss_mean": 4.766541193609369, "train/dyn_loss_std": 8.53071882300181, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1134389148999566, "train/extr_critic_critic_opt_grad_steps": 153060.0, "train/extr_critic_critic_opt_loss": 16212.793851669521, "train/extr_critic_mag": 8.93502389568172, "train/extr_critic_max": 8.93502389568172, "train/extr_critic_mean": 2.1986471104295284, "train/extr_critic_min": -0.609045340590281, "train/extr_critic_std": 2.1105004875627285, "train/extr_return_normed_mag": 1.5418467717627957, "train/extr_return_normed_max": 1.5418467717627957, "train/extr_return_normed_mean": 0.3840892570067758, "train/extr_return_normed_min": -0.10708617572098562, "train/extr_return_normed_std": 0.3383140729306495, "train/extr_return_rate": 0.6962882039481646, "train/extr_return_raw_mag": 9.57548230314908, "train/extr_return_raw_max": 9.57548230314908, "train/extr_return_raw_mean": 2.2247694453147995, "train/extr_return_raw_min": -0.8985381722450256, "train/extr_return_raw_std": 2.1496389483752316, "train/extr_reward_mag": 1.035614065928002, "train/extr_reward_max": 1.035614065928002, "train/extr_reward_mean": 0.04093895066682607, "train/extr_reward_min": -0.6536355034945762, "train/extr_reward_std": 0.19822397726039365, "train/image_loss_mean": 3.0567501669060695, "train/image_loss_std": 7.92879872126122, "train/model_loss_mean": 5.960719186965734, "train/model_loss_std": 11.96070241274899, "train/model_opt_grad_norm": 37.02469325392214, "train/model_opt_grad_steps": 152934.19178082192, "train/model_opt_loss": 4700.556092144692, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 804.7945205479452, "train/policy_entropy_mag": 2.3695467628844797, "train/policy_entropy_max": 2.3695467628844797, "train/policy_entropy_mean": 0.3774730371285791, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.47276624547292107, "train/policy_logprob_mag": 7.438384206327673, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37821794209414966, "train/policy_logprob_min": -7.438384206327673, "train/policy_logprob_std": 0.9833893212553573, "train/policy_randomness_mag": 0.8363460228867727, "train/policy_randomness_max": 0.8363460228867727, "train/policy_randomness_mean": 0.13323141685495637, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16686573726673648, "train/post_ent_mag": 55.096335789928695, "train/post_ent_max": 55.096335789928695, "train/post_ent_mean": 40.61995482771364, "train/post_ent_min": 18.905981076906805, "train/post_ent_std": 5.686760745636405, "train/prior_ent_mag": 76.07292478378506, "train/prior_ent_max": 76.07292478378506, "train/prior_ent_mean": 45.31696387513043, "train/prior_ent_min": 27.312916193922906, "train/prior_ent_std": 7.269315726136508, "train/rep_loss_mean": 4.766541193609369, "train/rep_loss_std": 8.53071882300181, "train/reward_avg": 0.02848351890961193, "train/reward_loss_mean": 0.04400975685821821, "train/reward_loss_std": 0.1852249219401242, "train/reward_max_data": 1.0164383600835931, "train/reward_max_pred": 1.0166691949922744, "train/reward_neg_acc": 0.9953084073654593, "train/reward_neg_loss": 0.02076966879404571, "train/reward_pos_acc": 0.9890380665047528, "train/reward_pos_loss": 0.7249913689208357, "train/reward_pred": 0.028329767860880452, "train/reward_rate": 0.0331496147260274, "stats/sum_log_reward": 8.52857140132359, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 2.5714285714285716, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 11.857142857142858, "stats/max_log_achievement_collect_wood": 6.142857142857143, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.14285714285714285, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.7142857142857143, "stats/max_log_achievement_make_wood_sword": 0.7142857142857143, "stats/max_log_achievement_place_furnace": 0.5714285714285714, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 8.285714285714286, "stats/max_log_achievement_place_table": 2.142857142857143, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.5152431385857719, "replay/size": 307878.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.8018542758667665e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2045448326932792e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.8998634815216, "timer/env.step_count": 1448.0, "timer/env.step_total": 18.948029041290283, "timer/env.step_frac": 0.06297121182460719, "timer/env.step_avg": 0.01308565541525572, "timer/env.step_min": 0.0032291412353515625, "timer/env.step_max": 1.7512454986572266, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.30692338943481445, "timer/replay.add_frac": 0.0010200183738324055, "timer/replay.add_avg": 0.0002119636667367503, "timer/replay.add_min": 7.271766662597656e-05, "timer/replay.add_max": 0.008137226104736328, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027953386306762695, "timer/logger.write_frac": 9.289929873457495e-05, "timer/logger.write_avg": 0.027953386306762695, "timer/logger.write_min": 0.027953386306762695, "timer/logger.write_max": 0.027953386306762695, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 10.925934791564941, "timer/agent.policy_frac": 0.036310866562543016, "timer/agent.policy_avg": 0.007545535077047611, "timer/agent.policy_min": 0.005600452423095703, "timer/agent.policy_max": 0.018174409866333008, "timer/dataset_count": 724.0, "timer/dataset_total": 0.06812644004821777, "timer/dataset_frac": 0.0002264090094956173, "timer/dataset_avg": 9.40972928842787e-05, "timer/dataset_min": 7.081031799316406e-05, "timer/dataset_max": 0.00020051002502441406, "timer/agent.train_count": 724.0, "timer/agent.train_total": 269.91509461402893, "timer/agent.train_frac": 0.8970263113150416, "timer/agent.train_avg": 0.37281090416302337, "timer/agent.train_min": 0.36478233337402344, "timer/agent.train_max": 0.3886997699737549, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21863698959350586, "timer/agent.report_frac": 0.0007266104645704914, "timer/agent.report_avg": 0.21863698959350586, "timer/agent.report_min": 0.21863698959350586, "timer/agent.report_max": 0.21863698959350586, "fps": 4.812157480155694}
{"step": 308178, "episode/length": 237.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.899999976158142, "episode/reward_rate": 0.05042016806722689}
{"step": 308428, "episode/length": 249.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.04}
{"step": 308838, "episode/length": 409.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.01951219512195122}
{"step": 309172, "episode/length": 333.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.038922155688622756}
{"step": 309387, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.446985032823351, "train/action_min": 0.0, "train/action_std": 3.28278828991784, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04736439480135838, "train/actor_opt_grad_steps": 153785.0, "train/actor_opt_loss": -13.085766502759522, "train/adv_mag": 0.5231145723826356, "train/adv_max": 0.4897009577188227, "train/adv_mean": 0.0028409455463689584, "train/adv_min": -0.37283660885360503, "train/adv_std": 0.05205458588898182, "train/cont_avg": 0.9943033854166666, "train/cont_loss_mean": 0.00027671769977328294, "train/cont_loss_std": 0.00866773237073125, "train/cont_neg_acc": 0.9952380963497691, "train/cont_neg_loss": 0.0073863745453250675, "train/cont_pos_acc": 0.9999726795487933, "train/cont_pos_loss": 0.0002394261352078628, "train/cont_pred": 0.9942852863007121, "train/cont_rate": 0.9943033854166666, "train/dyn_loss_mean": 4.833785742521286, "train/dyn_loss_std": 8.681944595442879, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1060835760500696, "train/extr_critic_critic_opt_grad_steps": 153785.0, "train/extr_critic_critic_opt_loss": 16154.431532118055, "train/extr_critic_mag": 9.495351195335388, "train/extr_critic_max": 9.495351195335388, "train/extr_critic_mean": 2.3096773011816873, "train/extr_critic_min": -0.6141893714666367, "train/extr_critic_std": 2.2556940929757223, "train/extr_return_normed_mag": 1.547277773420016, "train/extr_return_normed_max": 1.547277773420016, "train/extr_return_normed_mean": 0.3793005479706658, "train/extr_return_normed_min": -0.10288959736418393, "train/extr_return_normed_std": 0.34242462118466693, "train/extr_return_rate": 0.6936261533863015, "train/extr_return_raw_mag": 10.141514579455057, "train/extr_return_raw_max": 10.141514579455057, "train/extr_return_raw_mean": 2.3286488122410245, "train/extr_return_raw_min": -0.895975686609745, "train/extr_return_raw_std": 2.290154423978594, "train/extr_reward_mag": 1.0316325161192152, "train/extr_reward_max": 1.0316325161192152, "train/extr_reward_mean": 0.04270486797516545, "train/extr_reward_min": -0.6582590606477525, "train/extr_reward_std": 0.20320681151416567, "train/image_loss_mean": 3.082881165875329, "train/image_loss_std": 8.13631671667099, "train/model_loss_mean": 6.030785501003265, "train/model_loss_std": 12.258478800455729, "train/model_opt_grad_norm": 33.735106613900925, "train/model_opt_grad_steps": 153659.0, "train/model_opt_loss": 5810.401394314236, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 954.8611111111111, "train/policy_entropy_mag": 2.365539535880089, "train/policy_entropy_max": 2.365539535880089, "train/policy_entropy_mean": 0.3596038429273499, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.45028553861710763, "train/policy_logprob_mag": 7.438384195168813, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36025287873215145, "train/policy_logprob_min": -7.438384195168813, "train/policy_logprob_std": 0.9695909470319748, "train/policy_randomness_mag": 0.8349316451284621, "train/policy_randomness_max": 0.8349316451284621, "train/policy_randomness_mean": 0.12692437765912878, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15893103399624428, "train/post_ent_mag": 54.622040059831406, "train/post_ent_max": 54.622040059831406, "train/post_ent_mean": 40.64236174689399, "train/post_ent_min": 18.751417358716328, "train/post_ent_std": 5.6805183092753095, "train/prior_ent_mag": 76.10446940528021, "train/prior_ent_max": 76.10446940528021, "train/prior_ent_mean": 45.4332537121243, "train/prior_ent_min": 27.767910321553547, "train/prior_ent_std": 7.30993045700921, "train/rep_loss_mean": 4.833785742521286, "train/rep_loss_std": 8.681944595442879, "train/reward_avg": 0.029077148349541757, "train/reward_loss_mean": 0.04735616180631849, "train/reward_loss_std": 0.19693449243075317, "train/reward_max_data": 1.008333335320155, "train/reward_max_pred": 1.008134361770418, "train/reward_neg_acc": 0.9954061905543009, "train/reward_neg_loss": 0.02287716696607984, "train/reward_pos_acc": 0.9881950302256478, "train/reward_pos_loss": 0.7353830188512802, "train/reward_pred": 0.028830406695811286, "train/reward_rate": 0.03427463107638889, "stats/sum_log_reward": 9.600000262260437, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 4.0, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 16.25, "stats/max_log_achievement_collect_wood": 11.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.25, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 2.25, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 10.5, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.6525781750679016, "replay/size": 309324.0, "replay/inserts": 1446.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.8066180744936193e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.206684903979796e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.12085580825806, "timer/env.step_count": 1446.0, "timer/env.step_total": 14.354527235031128, "timer/env.step_frac": 0.04782915601240983, "timer/env.step_avg": 0.009927058945388055, "timer/env.step_min": 0.00264739990234375, "timer/env.step_max": 1.65732741355896, "timer/replay.add_count": 1446.0, "timer/replay.add_total": 0.29123902320861816, "timer/replay.add_frac": 0.0009704058134323249, "timer/replay.add_avg": 0.00020141011286903054, "timer/replay.add_min": 7.772445678710938e-05, "timer/replay.add_max": 0.009330034255981445, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027918338775634766, "timer/logger.write_frac": 9.302365442230813e-05, "timer/logger.write_avg": 0.027918338775634766, "timer/logger.write_min": 0.027918338775634766, "timer/logger.write_max": 0.027918338775634766, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002593994140625, "timer/checkpoint.save_frac": 8.64316521302424e-07, "timer/checkpoint.save_avg": 0.0002593994140625, "timer/checkpoint.save_min": 0.0002593994140625, "timer/checkpoint.save_max": 0.0002593994140625, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3744657039642334, "timer/agent.save_frac": 0.004579707399083106, "timer/agent.save_avg": 1.3744657039642334, "timer/agent.save_min": 1.3744657039642334, "timer/agent.save_max": 1.3744657039642334, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.700920104980469e-05, "timer/replay.save_frac": 2.5659396726165715e-07, "timer/replay.save_avg": 7.700920104980469e-05, "timer/replay.save_min": 7.700920104980469e-05, "timer/replay.save_max": 7.700920104980469e-05, "timer/agent.policy_count": 1446.0, "timer/agent.policy_total": 15.027129888534546, "timer/agent.policy_frac": 0.05007026202182735, "timer/agent.policy_avg": 0.010392206008668428, "timer/agent.policy_min": 0.0056915283203125, "timer/agent.policy_max": 2.8516488075256348, "timer/dataset_count": 723.0, "timer/dataset_total": 0.06694650650024414, "timer/dataset_frac": 0.000223065159267089, "timer/dataset_avg": 9.25954446753031e-05, "timer/dataset_min": 6.67572021484375e-05, "timer/dataset_max": 0.00017309188842773438, "timer/agent.train_count": 723.0, "timer/agent.train_total": 269.65489530563354, "timer/agent.train_frac": 0.8984876928310218, "timer/agent.train_avg": 0.372966660173767, "timer/agent.train_min": 0.3662447929382324, "timer/agent.train_max": 0.4735264778137207, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22623896598815918, "timer/agent.report_frac": 0.0007538262057092736, "timer/agent.report_avg": 0.22623896598815918, "timer/agent.report_min": 0.22623896598815918, "timer/agent.report_max": 0.22623896598815918, "fps": 4.817980393255247}
{"step": 309405, "episode/length": 232.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.05150214592274678}
{"step": 309663, "episode/length": 257.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.900000013411045, "episode/reward_rate": 0.03488372093023256}
{"step": 309704, "episode/length": 40.0, "episode/score": 3.100000001490116, "episode/sum_abs_reward": 4.700000025331974, "episode/reward_rate": 0.0975609756097561}
{"step": 309959, "episode/length": 254.0, "episode/score": 9.099999979138374, "episode/sum_abs_reward": 10.900000020861626, "episode/reward_rate": 0.0392156862745098}
{"step": 310157, "episode/length": 197.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.05555555555555555}
{"step": 310452, "episode/length": 294.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.020338983050847456}
{"step": 310623, "episode/length": 170.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.04678362573099415}
{"step": 310670, "episode/length": 46.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.10638297872340426}
{"step": 310827, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.384295993381077, "train/action_min": 0.0, "train/action_std": 3.270093457566367, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04520375840365887, "train/actor_opt_grad_steps": 154505.0, "train/actor_opt_loss": -14.560275137424469, "train/adv_mag": 0.46427803486585617, "train/adv_max": 0.43078568536374306, "train/adv_mean": 0.0013260064583341267, "train/adv_min": -0.36826067024634945, "train/adv_std": 0.049973734033604465, "train/cont_avg": 0.9945882161458334, "train/cont_loss_mean": 1.756399092814023e-05, "train/cont_loss_std": 0.0004947673178084718, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0001916301998032092, "train/cont_pos_acc": 0.999999980131785, "train/cont_pos_loss": 1.6706926451269686e-05, "train/cont_pred": 0.9945752364065912, "train/cont_rate": 0.9945882161458334, "train/dyn_loss_mean": 4.6564269595676, "train/dyn_loss_std": 8.585980587535435, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1076947136057749, "train/extr_critic_critic_opt_grad_steps": 154505.0, "train/extr_critic_critic_opt_loss": 15934.925740559896, "train/extr_critic_mag": 9.330178088612026, "train/extr_critic_max": 9.330178088612026, "train/extr_critic_mean": 2.275888442993164, "train/extr_critic_min": -0.615553112493621, "train/extr_critic_std": 2.220913029379315, "train/extr_return_normed_mag": 1.5101478182607226, "train/extr_return_normed_max": 1.5101478182607226, "train/extr_return_normed_mean": 0.374891411099169, "train/extr_return_normed_min": -0.1120865698903799, "train/extr_return_normed_std": 0.33849870910247165, "train/extr_return_rate": 0.6918927646345563, "train/extr_return_raw_mag": 9.8173944817649, "train/extr_return_raw_max": 9.8173944817649, "train/extr_return_raw_mean": 2.2847028457456164, "train/extr_return_raw_min": -0.9463618588116434, "train/extr_return_raw_std": 2.245823403199514, "train/extr_reward_mag": 1.0338764753606584, "train/extr_reward_max": 1.0338764753606584, "train/extr_reward_mean": 0.04122114290172855, "train/extr_reward_min": -0.6866069055265851, "train/extr_reward_std": 0.19952291270924938, "train/image_loss_mean": 2.985212489962578, "train/image_loss_std": 7.725793318616019, "train/model_loss_mean": 5.8251876466804084, "train/model_loss_std": 11.831150737073687, "train/model_opt_grad_norm": 34.55544373724196, "train/model_opt_grad_steps": 154379.0, "train/model_opt_loss": 8137.097737630208, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1423.611111111111, "train/policy_entropy_mag": 2.3849829965167575, "train/policy_entropy_max": 2.3849829965167575, "train/policy_entropy_mean": 0.3671061127550072, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4667552175621192, "train/policy_logprob_mag": 7.438384228282505, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3667486268613074, "train/policy_logprob_min": -7.438384228282505, "train/policy_logprob_std": 0.9757745431529151, "train/policy_randomness_mag": 0.8417943393190702, "train/policy_randomness_max": 0.8417943393190702, "train/policy_randomness_mean": 0.12957234763436848, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.164744109639691, "train/post_ent_mag": 54.94499058193631, "train/post_ent_max": 54.94499058193631, "train/post_ent_mean": 40.74972587161594, "train/post_ent_min": 18.936430229081047, "train/post_ent_std": 5.65110029776891, "train/prior_ent_mag": 76.00322945912679, "train/prior_ent_max": 76.00322945912679, "train/prior_ent_mean": 45.3688563240899, "train/prior_ent_min": 27.781697750091553, "train/prior_ent_std": 7.298257304562463, "train/rep_loss_mean": 4.6564269595676, "train/rep_loss_std": 8.585980587535435, "train/reward_avg": 0.028672959862483874, "train/reward_loss_mean": 0.04610140606140097, "train/reward_loss_std": 0.19516538435386288, "train/reward_max_data": 1.022222227520413, "train/reward_max_pred": 1.0205227351850934, "train/reward_neg_acc": 0.994524305065473, "train/reward_neg_loss": 0.02225771138910204, "train/reward_pos_acc": 0.9863228094246652, "train/reward_pos_loss": 0.7351896795961592, "train/reward_pred": 0.028409204665674932, "train/reward_rate": 0.033447265625, "stats/sum_log_reward": 7.225000202655792, "stats/max_log_achievement_collect_coal": 0.625, "stats/max_log_achievement_collect_drink": 2.625, "stats/max_log_achievement_collect_sapling": 1.625, "stats/max_log_achievement_collect_stone": 5.0, "stats/max_log_achievement_collect_wood": 8.375, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.125, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 0.0, "stats/max_log_achievement_place_plant": 1.375, "stats/max_log_achievement_place_stone": 4.375, "stats/max_log_achievement_place_table": 2.25, "stats/max_log_achievement_wake_up": 1.125, "stats/mean_log_entropy": 0.45457392930984497, "replay/size": 310764.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.7547614839341907e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2275452415148417e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.13767766952515, "timer/env.step_count": 1440.0, "timer/env.step_total": 20.027501344680786, "timer/env.step_frac": 0.06672771476139899, "timer/env.step_avg": 0.013907987044917212, "timer/env.step_min": 0.002874612808227539, "timer/env.step_max": 1.6514663696289062, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.2927556037902832, "timer/replay.add_frac": 0.0009754043746304648, "timer/replay.add_avg": 0.0002033025026321411, "timer/replay.add_min": 7.82012939453125e-05, "timer/replay.add_max": 0.005571603775024414, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029196977615356445, "timer/logger.write_frac": 9.72786150744612e-05, "timer/logger.write_avg": 0.029196977615356445, "timer/logger.write_min": 0.029196977615356445, "timer/logger.write_max": 0.029196977615356445, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 10.752542495727539, "timer/agent.policy_frac": 0.03582536714223171, "timer/agent.policy_avg": 0.007467043399810791, "timer/agent.policy_min": 0.0056192874908447266, "timer/agent.policy_max": 0.01676774024963379, "timer/dataset_count": 720.0, "timer/dataset_total": 0.066864013671875, "timer/dataset_frac": 0.00022277780714188595, "timer/dataset_avg": 9.286668565538195e-05, "timer/dataset_min": 6.937980651855469e-05, "timer/dataset_max": 0.00020265579223632812, "timer/agent.train_count": 720.0, "timer/agent.train_total": 268.2723298072815, "timer/agent.train_frac": 0.8938308975078768, "timer/agent.train_avg": 0.3726004580656687, "timer/agent.train_min": 0.3659989833831787, "timer/agent.train_max": 0.447742223739624, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22167301177978516, "timer/agent.report_frac": 0.0007385710901110668, "timer/agent.report_avg": 0.22167301177978516, "timer/agent.report_min": 0.22167301177978516, "timer/agent.report_max": 0.22167301177978516, "fps": 4.7977375819096055}
{"step": 310938, "episode/length": 267.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.048507462686567165}
{"step": 311301, "episode/length": 362.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.03581267217630854}
{"step": 311490, "episode/length": 188.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.042328042328042326}
{"step": 311645, "episode/length": 154.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.900000005960464, "episode/reward_rate": 0.06451612903225806}
{"step": 311836, "episode/length": 190.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06282722513089005}
{"step": 312024, "episode/length": 187.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.03723404255319149}
{"step": 312065, "episode/length": 40.0, "episode/score": -0.9000000283122063, "episode/sum_abs_reward": 0.9000000283122063, "episode/reward_rate": 0.024390243902439025}
{"step": 312271, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.416439480251736, "train/action_min": 0.0, "train/action_std": 3.3050553136401706, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04581831116229296, "train/actor_opt_grad_steps": 155225.0, "train/actor_opt_loss": -12.01251189203726, "train/adv_mag": 0.5136326104402542, "train/adv_max": 0.4660281203687191, "train/adv_mean": 0.0028426657319060825, "train/adv_min": -0.417551479405827, "train/adv_std": 0.051516243618809514, "train/cont_avg": 0.9944661458333334, "train/cont_loss_mean": 7.123107240640063e-06, "train/cont_loss_std": 0.00012534002083460413, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00044704468672939076, "train/cont_pos_acc": 0.9999999817874696, "train/cont_pos_loss": 4.142851932126885e-06, "train/cont_pred": 0.9944649868541293, "train/cont_rate": 0.9944661458333334, "train/dyn_loss_mean": 4.754360321495268, "train/dyn_loss_std": 8.5698089533382, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.084986001253128, "train/extr_critic_critic_opt_grad_steps": 155225.0, "train/extr_critic_critic_opt_loss": 15974.955200195312, "train/extr_critic_mag": 9.239934669600594, "train/extr_critic_max": 9.239934669600594, "train/extr_critic_mean": 2.2224548872974186, "train/extr_critic_min": -0.6250044736597273, "train/extr_critic_std": 2.1919402927160263, "train/extr_return_normed_mag": 1.5269065035714044, "train/extr_return_normed_max": 1.5269065035714044, "train/extr_return_normed_mean": 0.37676642400523025, "train/extr_return_normed_min": -0.10576417167774504, "train/extr_return_normed_std": 0.3421100146240658, "train/extr_return_rate": 0.6857566891445054, "train/extr_return_raw_mag": 9.707986076672872, "train/extr_return_raw_max": 9.707986076672872, "train/extr_return_raw_mean": 2.2409205502933927, "train/extr_return_raw_min": -0.8918928081790606, "train/extr_return_raw_std": 2.2211118506060705, "train/extr_reward_mag": 1.0376886890994177, "train/extr_reward_max": 1.0376886890994177, "train/extr_reward_mean": 0.04180456625504626, "train/extr_reward_min": -0.6179005006949106, "train/extr_reward_std": 0.1998467513670524, "train/image_loss_mean": 2.9519746055205665, "train/image_loss_std": 7.494026442368825, "train/model_loss_mean": 5.851709342665142, "train/model_loss_std": 11.608516375223795, "train/model_opt_grad_norm": 36.55057059393989, "train/model_opt_grad_steps": 155099.0, "train/model_opt_loss": 14629.273328993055, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.370068109697766, "train/policy_entropy_max": 2.370068109697766, "train/policy_entropy_mean": 0.37096335159407723, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.47039901672138107, "train/policy_logprob_mag": 7.438384188546075, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37155666885276634, "train/policy_logprob_min": -7.438384188546075, "train/policy_logprob_std": 0.9793330331643423, "train/policy_randomness_mag": 0.8365300363964505, "train/policy_randomness_max": 0.8365300363964505, "train/policy_randomness_mean": 0.13093378394842148, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16603021127068335, "train/post_ent_mag": 54.92087120480008, "train/post_ent_max": 54.92087120480008, "train/post_ent_mean": 40.77991331948174, "train/post_ent_min": 19.114227030012344, "train/post_ent_std": 5.633243785964118, "train/prior_ent_mag": 76.02434582180447, "train/prior_ent_max": 76.02434582180447, "train/prior_ent_mean": 45.497665564219155, "train/prior_ent_min": 27.415374093585545, "train/prior_ent_std": 7.26735536257426, "train/rep_loss_mean": 4.754360321495268, "train/rep_loss_std": 8.5698089533382, "train/reward_avg": 0.028743489490201075, "train/reward_loss_mean": 0.047111354121524424, "train/reward_loss_std": 0.2103919384794103, "train/reward_max_data": 1.0194444490803614, "train/reward_max_pred": 1.0176086127758026, "train/reward_neg_acc": 0.9948796869979964, "train/reward_neg_loss": 0.022353138412452407, "train/reward_pos_acc": 0.9802587280670801, "train/reward_pos_loss": 0.759775747027662, "train/reward_pred": 0.028346137738683157, "train/reward_rate": 0.033650716145833336, "stats/sum_log_reward": 7.957142974649157, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 1.8571428571428572, "stats/max_log_achievement_collect_sapling": 1.1428571428571428, "stats/max_log_achievement_collect_stone": 13.428571428571429, "stats/max_log_achievement_collect_wood": 8.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.2857142857142857, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.2857142857142858, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 0.5714285714285714, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 9.714285714285714, "stats/max_log_achievement_place_table": 2.142857142857143, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.41182294487953186, "replay/size": 312208.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.8270805020741806e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2562586990419848e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3762757778168, "timer/env.step_count": 1444.0, "timer/env.step_total": 19.392137050628662, "timer/env.step_frac": 0.06455948293657085, "timer/env.step_avg": 0.013429457791294088, "timer/env.step_min": 0.0033309459686279297, "timer/env.step_max": 1.7118737697601318, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.29662656784057617, "timer/replay.add_frac": 0.0009875166308406654, "timer/replay.add_avg": 0.00020542006083142393, "timer/replay.add_min": 7.224082946777344e-05, "timer/replay.add_max": 0.0048639774322509766, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02676987648010254, "timer/logger.write_frac": 8.912114117795296e-05, "timer/logger.write_avg": 0.02676987648010254, "timer/logger.write_min": 0.02676987648010254, "timer/logger.write_max": 0.02676987648010254, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.861364841461182, "timer/agent.policy_frac": 0.03615919670531886, "timer/agent.policy_avg": 0.007521720804335998, "timer/agent.policy_min": 0.005648374557495117, "timer/agent.policy_max": 0.02102184295654297, "timer/dataset_count": 722.0, "timer/dataset_total": 0.06839346885681152, "timer/dataset_frac": 0.00022769264543182833, "timer/dataset_avg": 9.472779620056998e-05, "timer/dataset_min": 6.747245788574219e-05, "timer/dataset_max": 0.0002117156982421875, "timer/agent.train_count": 722.0, "timer/agent.train_total": 269.02847027778625, "timer/agent.train_frac": 0.8956382110442772, "timer/agent.train_avg": 0.37261560980302805, "timer/agent.train_min": 0.3659520149230957, "timer/agent.train_max": 0.41957545280456543, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22221088409423828, "timer/agent.report_frac": 0.000739775082165956, "timer/agent.report_avg": 0.22221088409423828, "timer/agent.report_min": 0.22221088409423828, "timer/agent.report_max": 0.22221088409423828, "fps": 4.8072237535287226}
{"step": 312292, "episode/length": 226.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.04405286343612335}
{"step": 312489, "episode/length": 196.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.025380710659898477}
{"step": 312771, "episode/length": 281.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.900000043213367, "episode/reward_rate": 0.0425531914893617}
{"step": 313038, "episode/length": 266.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.03745318352059925}
{"step": 313364, "episode/length": 325.0, "episode/score": 11.099999979138374, "episode/sum_abs_reward": 14.100000038743019, "episode/reward_rate": 0.03680981595092025}
{"step": 313515, "episode/length": 150.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.700000025331974, "episode/reward_rate": 0.059602649006622516}
{"step": 313571, "episode/length": 55.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.08928571428571429}
{"step": 313628, "episode/length": 56.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.100000038743019, "episode/reward_rate": 0.10526315789473684}
{"step": 313679, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.428595744388204, "train/action_min": 0.0, "train/action_std": 3.251463312498281, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.048072993230651805, "train/actor_opt_grad_steps": 155940.0, "train/actor_opt_loss": -11.623640306398903, "train/adv_mag": 0.45963016740033324, "train/adv_max": 0.4227696778908582, "train/adv_mean": 0.0034578593371355658, "train/adv_min": -0.3835863189798006, "train/adv_std": 0.05251827615667397, "train/cont_avg": 0.994264414612676, "train/cont_loss_mean": 3.687090219913648e-05, "train/cont_loss_std": 0.0011109271471929827, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.002282975950281621, "train/cont_pos_acc": 0.999986149055857, "train/cont_pos_loss": 2.5324294367964554e-05, "train/cont_pred": 0.9942596722656573, "train/cont_rate": 0.994264414612676, "train/dyn_loss_mean": 4.763523168966803, "train/dyn_loss_std": 8.605277632323789, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.097302690358229, "train/extr_critic_critic_opt_grad_steps": 155940.0, "train/extr_critic_critic_opt_loss": 16186.176221390846, "train/extr_critic_mag": 9.001226653515452, "train/extr_critic_max": 9.001226653515452, "train/extr_critic_mean": 2.391963826098912, "train/extr_critic_min": -0.5986070347503877, "train/extr_critic_std": 2.2149436910387497, "train/extr_return_normed_mag": 1.48387903226933, "train/extr_return_normed_max": 1.48387903226933, "train/extr_return_normed_mean": 0.3938368791845483, "train/extr_return_normed_min": -0.10462794342721013, "train/extr_return_normed_std": 0.3384562369803308, "train/extr_return_rate": 0.7131960051999965, "train/extr_return_raw_mag": 9.663845330896512, "train/extr_return_raw_max": 9.663845330896512, "train/extr_return_raw_mean": 2.4149232061815935, "train/extr_return_raw_min": -0.9005353501145269, "train/extr_return_raw_std": 2.2510071707443453, "train/extr_reward_mag": 1.0285534455742635, "train/extr_reward_max": 1.0285534455742635, "train/extr_reward_mean": 0.04590800958095302, "train/extr_reward_min": -0.6316910579170979, "train/extr_reward_std": 0.20933142325408022, "train/image_loss_mean": 2.953229158696994, "train/image_loss_std": 8.048304967477288, "train/model_loss_mean": 5.860787593143087, "train/model_loss_std": 12.119928830106494, "train/model_opt_grad_norm": 36.875513376508444, "train/model_opt_grad_steps": 155813.1690140845, "train/model_opt_loss": 8665.878858109596, "train/model_opt_model_opt_grad_overflow": 0.014084507042253521, "train/model_opt_model_opt_grad_scale": 1461.2676056338028, "train/policy_entropy_mag": 2.3847077060753192, "train/policy_entropy_max": 2.3847077060753192, "train/policy_entropy_mean": 0.35966783237289374, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4624068779005131, "train/policy_logprob_mag": 7.438384183695619, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36123496944635686, "train/policy_logprob_min": -7.438384183695619, "train/policy_logprob_std": 0.9731322778782374, "train/policy_randomness_mag": 0.8416971732193316, "train/policy_randomness_max": 0.8416971732193316, "train/policy_randomness_mean": 0.12694695917233614, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16320933527509932, "train/post_ent_mag": 54.51327246007785, "train/post_ent_max": 54.51327246007785, "train/post_ent_mean": 40.44270706176758, "train/post_ent_min": 18.22344719524115, "train/post_ent_std": 5.628525827971982, "train/prior_ent_mag": 76.15694373762103, "train/prior_ent_max": 76.15694373762103, "train/prior_ent_mean": 45.17611887757207, "train/prior_ent_min": 27.393093082266795, "train/prior_ent_std": 7.340472335546789, "train/rep_loss_mean": 4.763523168966803, "train/rep_loss_std": 8.605277632323789, "train/reward_avg": 0.03120048393980718, "train/reward_loss_mean": 0.04940767756755084, "train/reward_loss_std": 0.2052628733742405, "train/reward_max_data": 1.0140845104002616, "train/reward_max_pred": 1.012213431613546, "train/reward_neg_acc": 0.9945920378389493, "train/reward_neg_loss": 0.02361046459893106, "train/reward_pos_acc": 0.9877823515677117, "train/reward_pos_loss": 0.7344103203692907, "train/reward_pred": 0.030807334732946376, "train/reward_rate": 0.03614656690140845, "stats/sum_log_reward": 7.725000202655792, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_sapling": 2.125, "stats/max_log_achievement_collect_stone": 13.375, "stats/max_log_achievement_collect_wood": 5.75, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.875, "stats/max_log_achievement_make_wood_sword": 0.375, "stats/max_log_achievement_place_furnace": 0.625, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 10.0, "stats/max_log_achievement_place_table": 1.875, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.38945891708135605, "replay/size": 313616.0, "replay/inserts": 1408.0, "replay/samples": 11264.0, "replay/insert_wait_avg": 3.896314989436757e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2240330265326933e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 299.97820353507996, "timer/env.step_count": 1408.0, "timer/env.step_total": 21.17915678024292, "timer/env.step_frac": 0.07060231887069819, "timer/env.step_avg": 0.015042014758695255, "timer/env.step_min": 0.0030388832092285156, "timer/env.step_max": 1.7503418922424316, "timer/replay.add_count": 1408.0, "timer/replay.add_total": 0.32458925247192383, "timer/replay.add_frac": 0.001082042790598837, "timer/replay.add_avg": 0.00023053213953971863, "timer/replay.add_min": 7.82012939453125e-05, "timer/replay.add_max": 0.005540132522583008, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027422666549682617, "timer/logger.write_frac": 9.141553028360531e-05, "timer/logger.write_avg": 0.027422666549682617, "timer/logger.write_min": 0.027422666549682617, "timer/logger.write_max": 0.027422666549682617, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00019097328186035156, "timer/checkpoint.save_frac": 6.366238600332802e-07, "timer/checkpoint.save_avg": 0.00019097328186035156, "timer/checkpoint.save_min": 0.00019097328186035156, "timer/checkpoint.save_max": 0.00019097328186035156, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.5548176765441895, "timer/agent.save_frac": 0.005183102166162437, "timer/agent.save_avg": 1.5548176765441895, "timer/agent.save_min": 1.5548176765441895, "timer/agent.save_max": 1.5548176765441895, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.628036499023438e-05, "timer/replay.save_frac": 2.2095060310768025e-07, "timer/replay.save_avg": 6.628036499023438e-05, "timer/replay.save_min": 6.628036499023438e-05, "timer/replay.save_max": 6.628036499023438e-05, "timer/agent.policy_count": 1408.0, "timer/agent.policy_total": 14.974908351898193, "timer/agent.policy_frac": 0.049919988103892365, "timer/agent.policy_avg": 0.010635588318109512, "timer/agent.policy_min": 0.00571441650390625, "timer/agent.policy_max": 2.82589054107666, "timer/dataset_count": 704.0, "timer/dataset_total": 0.06670618057250977, "timer/dataset_frac": 0.00022237009151469578, "timer/dataset_avg": 9.475309740413319e-05, "timer/dataset_min": 6.413459777832031e-05, "timer/dataset_max": 0.00023627281188964844, "timer/agent.train_count": 704.0, "timer/agent.train_total": 262.7210373878479, "timer/agent.train_frac": 0.8758004224701108, "timer/agent.train_avg": 0.37318329174410214, "timer/agent.train_min": 0.36632537841796875, "timer/agent.train_max": 0.47966861724853516, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20284485816955566, "timer/agent.report_frac": 0.0006761986563661605, "timer/agent.report_avg": 0.20284485816955566, "timer/agent.report_min": 0.20284485816955566, "timer/agent.report_max": 0.20284485816955566, "fps": 4.693602858359125}
{"step": 314013, "episode/length": 384.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.03116883116883117}
{"step": 314123, "episode/length": 109.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.05454545454545454}
{"step": 314304, "episode/length": 180.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.049723756906077346}
{"step": 314495, "episode/length": 190.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.05759162303664921}
{"step": 314673, "episode/length": 177.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.056179775280898875}
{"step": 314874, "episode/length": 200.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.05472636815920398}
{"step": 315054, "episode/length": 179.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.05555555555555555}
{"step": 315123, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.39347669813368, "train/action_min": 0.0, "train/action_std": 3.280315786600113, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.044768938329070807, "train/actor_opt_grad_steps": 156655.0, "train/actor_opt_loss": -12.729617885003487, "train/adv_mag": 0.47727800036470097, "train/adv_max": 0.4366861374841796, "train/adv_mean": 0.0022495051210474535, "train/adv_min": -0.38181001755098504, "train/adv_std": 0.04982022806588146, "train/cont_avg": 0.9946967230902778, "train/cont_loss_mean": 1.813748245480282e-05, "train/cont_loss_std": 0.00041057061207538936, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.001082236980841521, "train/cont_pos_acc": 0.9999999759925736, "train/cont_pos_loss": 1.3716320135396623e-05, "train/cont_pred": 0.9946890696883202, "train/cont_rate": 0.9946967230902778, "train/dyn_loss_mean": 4.814042942391501, "train/dyn_loss_std": 8.64296148882972, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0792189952399995, "train/extr_critic_critic_opt_grad_steps": 156655.0, "train/extr_critic_critic_opt_loss": 16223.167914496527, "train/extr_critic_mag": 9.263245516353184, "train/extr_critic_max": 9.263245516353184, "train/extr_critic_mean": 2.3181637906365924, "train/extr_critic_min": -0.5904072291321225, "train/extr_critic_std": 2.255991647640864, "train/extr_return_normed_mag": 1.4859821961985693, "train/extr_return_normed_max": 1.4859821961985693, "train/extr_return_normed_mean": 0.370796637609601, "train/extr_return_normed_min": -0.10203830426972774, "train/extr_return_normed_std": 0.33591365151935154, "train/extr_return_rate": 0.6933178181449572, "train/extr_return_raw_mag": 9.93493926525116, "train/extr_return_raw_max": 9.93493926525116, "train/extr_return_raw_mean": 2.333478015330103, "train/extr_return_raw_min": -0.8891392971078554, "train/extr_return_raw_std": 2.2897282242774963, "train/extr_reward_mag": 1.0328919755087957, "train/extr_reward_max": 1.0328919755087957, "train/extr_reward_mean": 0.041340160752750106, "train/extr_reward_min": -0.6462030890915129, "train/extr_reward_std": 0.19936755837665665, "train/image_loss_mean": 2.8278772317700915, "train/image_loss_std": 7.743211487929027, "train/model_loss_mean": 5.762434350119697, "train/model_loss_std": 11.917839659584892, "train/model_opt_grad_norm": 34.5878783331977, "train/model_opt_grad_steps": 156528.0, "train/model_opt_loss": 10208.792236328125, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1770.8333333333333, "train/policy_entropy_mag": 2.3818588885996075, "train/policy_entropy_max": 2.3818588885996075, "train/policy_entropy_mean": 0.35398297384381294, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4462919835415151, "train/policy_logprob_mag": 7.4383842084142895, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3547015395015478, "train/policy_logprob_min": -7.4383842084142895, "train/policy_logprob_std": 0.9657821042670144, "train/policy_randomness_mag": 0.8406916641526752, "train/policy_randomness_max": 0.8406916641526752, "train/policy_randomness_mean": 0.12494045413202709, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15752148235009777, "train/post_ent_mag": 54.685671170552574, "train/post_ent_max": 54.685671170552574, "train/post_ent_mean": 40.679482301076256, "train/post_ent_min": 18.992558227645027, "train/post_ent_std": 5.61030638217926, "train/prior_ent_mag": 76.15796555413141, "train/prior_ent_max": 76.15796555413141, "train/prior_ent_mean": 45.41026067733765, "train/prior_ent_min": 27.549546003341675, "train/prior_ent_std": 7.23410650756624, "train/rep_loss_mean": 4.814042942391501, "train/rep_loss_std": 8.64296148882972, "train/reward_avg": 0.02867024694569409, "train/reward_loss_mean": 0.04611319929568304, "train/reward_loss_std": 0.19482050960262617, "train/reward_max_data": 1.008333335320155, "train/reward_max_pred": 1.0088431239128113, "train/reward_neg_acc": 0.9955374946196874, "train/reward_neg_loss": 0.022352987525260284, "train/reward_pos_acc": 0.987097890012794, "train/reward_pos_loss": 0.7296003020471997, "train/reward_pred": 0.028441233793273568, "train/reward_rate": 0.033623589409722224, "stats/sum_log_reward": 8.957143102373395, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 1.2857142857142858, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 11.714285714285714, "stats/max_log_achievement_collect_wood": 7.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.7142857142857143, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 7.0, "stats/max_log_achievement_place_table": 2.142857142857143, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.47791709644453867, "replay/size": 315060.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.841775275993876e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.22443378136759e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.13659858703613, "timer/env.step_count": 1444.0, "timer/env.step_total": 18.940935611724854, "timer/env.step_frac": 0.06310771728904031, "timer/env.step_avg": 0.013116991420862086, "timer/env.step_min": 0.0029904842376708984, "timer/env.step_max": 1.7431526184082031, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.29376935958862305, "timer/replay.add_frac": 0.000978785529560912, "timer/replay.add_avg": 0.00020344138475666417, "timer/replay.add_min": 7.510185241699219e-05, "timer/replay.add_max": 0.005045413970947266, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03041529655456543, "timer/logger.write_frac": 0.00010133817967469684, "timer/logger.write_avg": 0.03041529655456543, "timer/logger.write_min": 0.03041529655456543, "timer/logger.write_max": 0.03041529655456543, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.891858100891113, "timer/agent.policy_frac": 0.03628966994417577, "timer/agent.policy_avg": 0.0075428380200076965, "timer/agent.policy_min": 0.005672931671142578, "timer/agent.policy_max": 0.017893314361572266, "timer/dataset_count": 722.0, "timer/dataset_total": 0.06794953346252441, "timer/dataset_frac": 0.00022639536058718888, "timer/dataset_avg": 9.411292723341331e-05, "timer/dataset_min": 7.152557373046875e-05, "timer/dataset_max": 0.0001842975616455078, "timer/agent.train_count": 722.0, "timer/agent.train_total": 269.21382236480713, "timer/agent.train_frac": 0.8969709913159366, "timer/agent.train_avg": 0.37287233014516225, "timer/agent.train_min": 0.36600804328918457, "timer/agent.train_max": 0.3865954875946045, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20352816581726074, "timer/agent.report_frac": 0.0006781184526492857, "timer/agent.report_avg": 0.20352816581726074, "timer/agent.report_min": 0.20352816581726074, "timer/agent.report_max": 0.20352816581726074, "fps": 4.811080731575739}
{"step": 315439, "episode/length": 384.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.02857142857142857}
{"step": 315595, "episode/length": 155.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.0641025641025641}
{"step": 315705, "episode/length": 109.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 9.899999976158142, "episode/reward_rate": 0.09090909090909091}
{"step": 315877, "episode/length": 171.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.5, "episode/reward_rate": 0.05232558139534884}
{"step": 316061, "episode/length": 183.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.059782608695652176}
{"step": 316342, "episode/length": 280.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 13.300000056624413, "episode/reward_rate": 0.03914590747330961}
{"step": 316543, "episode/length": 200.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.03980099502487562}
{"step": 316567, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.491690741644965, "train/action_min": 0.0, "train/action_std": 3.3549357453982034, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04715690006398492, "train/actor_opt_grad_steps": 157375.0, "train/actor_opt_loss": -9.757300728311142, "train/adv_mag": 0.4835035349759791, "train/adv_max": 0.4526864468223519, "train/adv_mean": 0.0037444512107261594, "train/adv_min": -0.3914589335521062, "train/adv_std": 0.052458379831579, "train/cont_avg": 0.9946017795138888, "train/cont_loss_mean": 1.7748305287865504e-05, "train/cont_loss_std": 0.00046955045236371816, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0005265841835150948, "train/cont_pos_acc": 0.9999999776482582, "train/cont_pos_loss": 1.5207149605345194e-05, "train/cont_pred": 0.994590797358089, "train/cont_rate": 0.9946017795138888, "train/dyn_loss_mean": 4.794912732309765, "train/dyn_loss_std": 8.609037657578787, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0833441962798436, "train/extr_critic_critic_opt_grad_steps": 157375.0, "train/extr_critic_critic_opt_loss": 16438.441012912328, "train/extr_critic_mag": 9.469917151663038, "train/extr_critic_max": 9.469917151663038, "train/extr_critic_mean": 2.421573869056172, "train/extr_critic_min": -0.6161304099692239, "train/extr_critic_std": 2.333004375298818, "train/extr_return_normed_mag": 1.4942134353849623, "train/extr_return_normed_max": 1.4942134353849623, "train/extr_return_normed_mean": 0.37851699586543774, "train/extr_return_normed_min": -0.10246329200971457, "train/extr_return_normed_std": 0.3402234932614697, "train/extr_return_rate": 0.7086959663364623, "train/extr_return_raw_mag": 10.223966492546928, "train/extr_return_raw_max": 10.223966492546928, "train/extr_return_raw_mean": 2.4476758423778744, "train/extr_return_raw_min": -0.9024007415605916, "train/extr_return_raw_std": 2.370576621757613, "train/extr_reward_mag": 1.03805015484492, "train/extr_reward_max": 1.03805015484492, "train/extr_reward_mean": 0.04350606344329814, "train/extr_reward_min": -0.671724753247367, "train/extr_reward_std": 0.20348093596597513, "train/image_loss_mean": 2.8673366887701883, "train/image_loss_std": 7.634810070196788, "train/model_loss_mean": 5.789828469355901, "train/model_loss_std": 11.786095261573792, "train/model_opt_grad_norm": 37.70089634259542, "train/model_opt_grad_steps": 157247.48611111112, "train/model_opt_loss": 10664.779947916666, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1857.638888888889, "train/policy_entropy_mag": 2.4053975409931607, "train/policy_entropy_max": 2.4053975409931607, "train/policy_entropy_mean": 0.3696254752576351, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.46470964493023026, "train/policy_logprob_mag": 7.438384188546075, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36962996754381394, "train/policy_logprob_min": -7.438384188546075, "train/policy_logprob_std": 0.9738078150484297, "train/policy_randomness_mag": 0.8489997718069289, "train/policy_randomness_max": 0.8489997718069289, "train/policy_randomness_mean": 0.1304615694615576, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16402211123042637, "train/post_ent_mag": 54.69588751263089, "train/post_ent_max": 54.69588751263089, "train/post_ent_mean": 40.70138035880195, "train/post_ent_min": 18.782666590478684, "train/post_ent_std": 5.633206897311741, "train/prior_ent_mag": 76.05551931593153, "train/prior_ent_max": 76.05551931593153, "train/prior_ent_mean": 45.463543521033394, "train/prior_ent_min": 27.595047129525078, "train/prior_ent_std": 7.278346485561794, "train/rep_loss_mean": 4.794912732309765, "train/rep_loss_std": 8.609037657578787, "train/reward_avg": 0.028827582304883335, "train/reward_loss_mean": 0.04552641272958782, "train/reward_loss_std": 0.1920951164017121, "train/reward_max_data": 1.0180555598603354, "train/reward_max_pred": 1.0180522948503494, "train/reward_neg_acc": 0.99523114413023, "train/reward_neg_loss": 0.02184885406556229, "train/reward_pos_acc": 0.9913656777805753, "train/reward_pos_loss": 0.7232605392734209, "train/reward_pred": 0.028731865860107873, "train/reward_rate": 0.03370496961805555, "stats/sum_log_reward": 8.814286027635847, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 4.0, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 9.857142857142858, "stats/max_log_achievement_collect_wood": 7.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 2.5714285714285716, "stats/max_log_achievement_place_table": 2.2857142857142856, "stats/max_log_achievement_wake_up": 0.8571428571428571, "stats/mean_log_entropy": 0.4924080286707197, "replay/size": 316504.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.7686316260340473e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2281074748475136e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0346348285675, "timer/env.step_count": 1444.0, "timer/env.step_total": 18.71796178817749, "timer/env.step_frac": 0.06238600353213381, "timer/env.step_avg": 0.012962577415635381, "timer/env.step_min": 0.0031211376190185547, "timer/env.step_max": 1.712031602859497, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.29190635681152344, "timer/replay.add_frac": 0.0009729088675989411, "timer/replay.add_avg": 0.00020215121662847882, "timer/replay.add_min": 7.772445678710938e-05, "timer/replay.add_max": 0.006094217300415039, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026878833770751953, "timer/logger.write_frac": 8.958576994322627e-05, "timer/logger.write_avg": 0.026878833770751953, "timer/logger.write_min": 0.026878833770751953, "timer/logger.write_max": 0.026878833770751953, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.870333671569824, "timer/agent.policy_frac": 0.036230262808761626, "timer/agent.policy_avg": 0.007527931905519269, "timer/agent.policy_min": 0.005715608596801758, "timer/agent.policy_max": 0.024091243743896484, "timer/dataset_count": 722.0, "timer/dataset_total": 0.06793618202209473, "timer/dataset_frac": 0.0002264277991136317, "timer/dataset_avg": 9.40944349336492e-05, "timer/dataset_min": 6.747245788574219e-05, "timer/dataset_max": 0.00023937225341796875, "timer/agent.train_count": 722.0, "timer/agent.train_total": 269.36743927001953, "timer/agent.train_frac": 0.8977878151431735, "timer/agent.train_avg": 0.3730850959418553, "timer/agent.train_min": 0.36348485946655273, "timer/agent.train_max": 0.4341704845428467, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20505380630493164, "timer/agent.report_frac": 0.0006834337856430955, "timer/agent.report_avg": 0.20505380630493164, "timer/agent.report_min": 0.20505380630493164, "timer/agent.report_max": 0.20505380630493164, "fps": 4.812705011424655}
{"step": 316687, "episode/length": 143.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.500000044703484, "episode/reward_rate": 0.0625}
{"step": 316900, "episode/length": 212.0, "episode/score": 10.099999979138374, "episode/sum_abs_reward": 11.900000020861626, "episode/reward_rate": 0.051643192488262914}
{"step": 317147, "episode/length": 246.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.04048582995951417}
{"step": 317346, "episode/length": 198.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 9.10000005364418, "episode/reward_rate": 0.035175879396984924}
{"step": 317536, "episode/length": 189.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.500000044703484, "episode/reward_rate": 0.05789473684210526}
{"step": 317735, "episode/length": 198.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06030150753768844}
{"step": 317866, "episode/length": 130.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.06870229007633588}
{"step": 317976, "episode/length": 109.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.1}
{"step": 317977, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.529338727678572, "train/action_min": 0.0, "train/action_std": 3.36413882119315, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04575308406991618, "train/actor_opt_grad_steps": 158085.0, "train/actor_opt_loss": -13.454286914212362, "train/adv_mag": 0.4760342321225575, "train/adv_max": 0.43968076578208376, "train/adv_mean": 0.0019053150237076416, "train/adv_min": -0.3841322430542537, "train/adv_std": 0.050961185991764066, "train/cont_avg": 0.9945172991071428, "train/cont_loss_mean": 3.424687430262046e-05, "train/cont_loss_std": 0.0009998725633717446, "train/cont_neg_acc": 0.9979591846466065, "train/cont_neg_loss": 0.004560672420224624, "train/cont_pos_acc": 0.9999999795641218, "train/cont_pos_loss": 3.2020961344057597e-06, "train/cont_pred": 0.9945272045476096, "train/cont_rate": 0.9945172991071428, "train/dyn_loss_mean": 4.835618216650826, "train/dyn_loss_std": 8.68782217161996, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1179662312780108, "train/extr_critic_critic_opt_grad_steps": 158085.0, "train/extr_critic_critic_opt_loss": 16373.87060546875, "train/extr_critic_mag": 9.361002009255545, "train/extr_critic_max": 9.361002009255545, "train/extr_critic_mean": 2.414030533177512, "train/extr_critic_min": -0.6101475204740252, "train/extr_critic_std": 2.3247132216181075, "train/extr_return_normed_mag": 1.4528462733541216, "train/extr_return_normed_max": 1.4528462733541216, "train/extr_return_normed_mean": 0.37096805827958246, "train/extr_return_normed_min": -0.1078257574566773, "train/extr_return_normed_std": 0.3347514241933823, "train/extr_return_rate": 0.7042011129004615, "train/extr_return_raw_mag": 10.034547996520995, "train/extr_return_raw_max": 10.034547996520995, "train/extr_return_raw_mean": 2.4274031281471253, "train/extr_return_raw_min": -0.9386079754148211, "train/extr_return_raw_std": 2.3535332219941276, "train/extr_reward_mag": 1.0392789466040475, "train/extr_reward_max": 1.0392789466040475, "train/extr_reward_mean": 0.042229997712586606, "train/extr_reward_min": -0.6621998344148908, "train/extr_reward_std": 0.2012308499642781, "train/image_loss_mean": 3.1713905692100526, "train/image_loss_std": 8.339810562133788, "train/model_loss_mean": 6.119399315970284, "train/model_loss_std": 12.48511656352452, "train/model_opt_grad_norm": 34.525546836853025, "train/model_opt_grad_steps": 157957.0, "train/model_opt_loss": 8384.315129743303, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1375.0, "train/policy_entropy_mag": 2.4180584566933767, "train/policy_entropy_max": 2.4180584566933767, "train/policy_entropy_mean": 0.3664129450917244, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4569156161376408, "train/policy_logprob_mag": 7.438384246826172, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3668468360389982, "train/policy_logprob_min": -7.438384246826172, "train/policy_logprob_std": 0.9718570096152169, "train/policy_randomness_mag": 0.853468519449234, "train/policy_randomness_max": 0.853468519449234, "train/policy_randomness_mean": 0.1293276896434171, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1612711607345513, "train/post_ent_mag": 54.779500470842635, "train/post_ent_max": 54.779500470842635, "train/post_ent_mean": 40.62765601021903, "train/post_ent_min": 18.89678395135062, "train/post_ent_std": 5.560292993273054, "train/prior_ent_mag": 76.08054558890207, "train/prior_ent_max": 76.08054558890207, "train/prior_ent_mean": 45.41987653459822, "train/prior_ent_min": 27.081999288286482, "train/prior_ent_std": 7.33308025768825, "train/rep_loss_mean": 4.835618216650826, "train/rep_loss_std": 8.68782217161996, "train/reward_avg": 0.028254743053444793, "train/reward_loss_mean": 0.046603542566299436, "train/reward_loss_std": 0.1949827994619097, "train/reward_max_data": 1.021428576537541, "train/reward_max_pred": 1.0182121293885367, "train/reward_neg_acc": 0.994631028175354, "train/reward_neg_loss": 0.02301043574033039, "train/reward_pos_acc": 0.9875479195799146, "train/reward_pos_loss": 0.7324479579925537, "train/reward_pred": 0.02809243935293385, "train/reward_rate": 0.03318917410714286, "stats/sum_log_reward": 8.850000202655792, "stats/max_log_achievement_collect_coal": 0.625, "stats/max_log_achievement_collect_drink": 0.75, "stats/max_log_achievement_collect_sapling": 0.875, "stats/max_log_achievement_collect_stone": 17.0, "stats/max_log_achievement_collect_wood": 8.375, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.25, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.25, "stats/max_log_achievement_make_wood_sword": 0.75, "stats/max_log_achievement_place_furnace": 1.125, "stats/max_log_achievement_place_plant": 0.75, "stats/max_log_achievement_place_stone": 10.25, "stats/max_log_achievement_place_table": 2.375, "stats/max_log_achievement_wake_up": 0.875, "stats/mean_log_entropy": 0.4270855449140072, "replay/size": 317914.0, "replay/inserts": 1410.0, "replay/samples": 11280.0, "replay/insert_wait_avg": 3.874555547186669e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.1921985775020951e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0107524394989, "timer/env.step_count": 1410.0, "timer/env.step_total": 23.116721153259277, "timer/env.step_frac": 0.07705297548600717, "timer/env.step_avg": 0.016394837697347005, "timer/env.step_min": 0.003123044967651367, "timer/env.step_max": 2.7917137145996094, "timer/replay.add_count": 1410.0, "timer/replay.add_total": 0.29566121101379395, "timer/replay.add_frac": 0.000985502048208815, "timer/replay.add_avg": 0.00020968880213744252, "timer/replay.add_min": 7.200241088867188e-05, "timer/replay.add_max": 0.009655952453613281, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02736949920654297, "timer/logger.write_frac": 9.122839426251027e-05, "timer/logger.write_avg": 0.02736949920654297, "timer/logger.write_min": 0.02736949920654297, "timer/logger.write_max": 0.02736949920654297, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004029273986816406, "timer/checkpoint.save_frac": 1.3430431923032366e-06, "timer/checkpoint.save_avg": 0.0004029273986816406, "timer/checkpoint.save_min": 0.0004029273986816406, "timer/checkpoint.save_max": 0.0004029273986816406, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4113779067993164, "timer/agent.save_frac": 0.0047044244092015975, "timer/agent.save_avg": 1.4113779067993164, "timer/agent.save_min": 1.4113779067993164, "timer/agent.save_max": 1.4113779067993164, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.937980651855469e-05, "timer/replay.save_frac": 2.3125773311256915e-07, "timer/replay.save_avg": 6.937980651855469e-05, "timer/replay.save_min": 6.937980651855469e-05, "timer/replay.save_max": 6.937980651855469e-05, "timer/agent.policy_count": 1410.0, "timer/agent.policy_total": 12.82234525680542, "timer/agent.policy_frac": 0.04273961900545953, "timer/agent.policy_avg": 0.009093861884259162, "timer/agent.policy_min": 0.005669116973876953, "timer/agent.policy_max": 1.3978948593139648, "timer/dataset_count": 705.0, "timer/dataset_total": 0.06633472442626953, "timer/dataset_frac": 0.00022110782325925735, "timer/dataset_avg": 9.409180769683622e-05, "timer/dataset_min": 7.033348083496094e-05, "timer/dataset_max": 0.0002231597900390625, "timer/agent.train_count": 705.0, "timer/agent.train_total": 262.9992697238922, "timer/agent.train_frac": 0.8766328126087063, "timer/agent.train_avg": 0.37304860953743574, "timer/agent.train_min": 0.36595702171325684, "timer/agent.train_max": 0.43343639373779297, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2010653018951416, "timer/agent.report_frac": 0.0006701936522614771, "timer/agent.report_avg": 0.2010653018951416, "timer/agent.report_min": 0.2010653018951416, "timer/agent.report_max": 0.2010653018951416, "fps": 4.699676510745468}
{"step": 318129, "episode/length": 152.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.026143790849673203}
{"step": 318290, "episode/length": 160.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.062111801242236024}
{"step": 318497, "episode/length": 206.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.05314009661835749}
{"step": 318875, "episode/length": 377.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.700000047683716, "episode/reward_rate": 0.031746031746031744}
{"step": 319064, "episode/length": 188.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.042328042328042326}
{"step": 319136, "episode/length": 71.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.1111111111111111}
{"step": 319294, "episode/length": 157.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.0379746835443038}
{"step": 319423, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.434220823523116, "train/action_min": 0.0, "train/action_std": 3.336770318958857, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.045777975900532446, "train/actor_opt_grad_steps": 158800.0, "train/actor_opt_loss": -13.59537633294112, "train/adv_mag": 0.4782495245541612, "train/adv_max": 0.4128588719727242, "train/adv_mean": 0.001974504274772225, "train/adv_min": -0.39478696821487114, "train/adv_std": 0.050649977557054936, "train/cont_avg": 0.9943412885273972, "train/cont_loss_mean": 8.143757999003929e-05, "train/cont_loss_std": 0.0025296248121564643, "train/cont_neg_acc": 0.9953300128244373, "train/cont_neg_loss": 0.013851707476570569, "train/cont_pos_acc": 0.9999865481298263, "train/cont_pos_loss": 2.0200169035122176e-05, "train/cont_pred": 0.9943487807495953, "train/cont_rate": 0.9943412885273972, "train/dyn_loss_mean": 4.716160336585894, "train/dyn_loss_std": 8.615813608038914, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1050811352795118, "train/extr_critic_critic_opt_grad_steps": 158800.0, "train/extr_critic_critic_opt_loss": 16248.443372752568, "train/extr_critic_mag": 9.570669161130304, "train/extr_critic_max": 9.570669161130304, "train/extr_critic_mean": 2.4664186533183265, "train/extr_critic_min": -0.5787028972416708, "train/extr_critic_std": 2.337732680856365, "train/extr_return_normed_mag": 1.4813433820254183, "train/extr_return_normed_max": 1.4813433820254183, "train/extr_return_normed_mean": 0.37942982046571494, "train/extr_return_normed_min": -0.10045280644338425, "train/extr_return_normed_std": 0.3375520759249387, "train/extr_return_rate": 0.708695455364985, "train/extr_return_raw_mag": 10.195650636333308, "train/extr_return_raw_max": 10.195650636333308, "train/extr_return_raw_mean": 2.4802694500309146, "train/extr_return_raw_min": -0.8801021135016663, "train/extr_return_raw_std": 2.3638006040494735, "train/extr_reward_mag": 1.0366316396896154, "train/extr_reward_max": 1.0366316396896154, "train/extr_reward_mean": 0.04246529490265944, "train/extr_reward_min": -0.649993602543661, "train/extr_reward_std": 0.20176554542698272, "train/image_loss_mean": 2.934536530546946, "train/image_loss_std": 7.897860402930273, "train/model_loss_mean": 5.812018776593143, "train/model_loss_std": 12.025443103215466, "train/model_opt_grad_norm": 34.005089629186344, "train/model_opt_grad_steps": 158672.0, "train/model_opt_loss": 14530.046928510274, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.3980227888446963, "train/policy_entropy_max": 2.3980227888446963, "train/policy_entropy_mean": 0.3552255953011447, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.45251570172505834, "train/policy_logprob_mag": 7.438384271647832, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3566712351286248, "train/policy_logprob_min": -7.438384271647832, "train/policy_logprob_std": 0.9675419183626567, "train/policy_randomness_mag": 0.8463968079384059, "train/policy_randomness_max": 0.8463968079384059, "train/policy_randomness_mean": 0.12537904706311553, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15971818474465854, "train/post_ent_mag": 54.98418969977392, "train/post_ent_max": 54.98418969977392, "train/post_ent_mean": 40.78287270950945, "train/post_ent_min": 19.047689816723132, "train/post_ent_std": 5.639612080299691, "train/prior_ent_mag": 76.02382576302307, "train/prior_ent_max": 76.02382576302307, "train/prior_ent_mean": 45.4519029382157, "train/prior_ent_min": 27.62749695451292, "train/prior_ent_std": 7.271321166051577, "train/rep_loss_mean": 4.716160336585894, "train/rep_loss_std": 8.615813608038914, "train/reward_avg": 0.02859722820353018, "train/reward_loss_mean": 0.04770459732270404, "train/reward_loss_std": 0.20247222605633408, "train/reward_max_data": 1.0219178134447908, "train/reward_max_pred": 1.0183327002068088, "train/reward_neg_acc": 0.9951405859973332, "train/reward_neg_loss": 0.023318509928473872, "train/reward_pos_acc": 0.9850546627828519, "train/reward_pos_loss": 0.7469671482909216, "train/reward_pred": 0.028246859522306756, "train/reward_rate": 0.033831870719178085, "stats/sum_log_reward": 7.528571401323591, "stats/max_log_achievement_collect_coal": 1.1428571428571428, "stats/max_log_achievement_collect_drink": 2.2857142857142856, "stats/max_log_achievement_collect_sapling": 0.7142857142857143, "stats/max_log_achievement_collect_stone": 9.285714285714286, "stats/max_log_achievement_collect_wood": 6.142857142857143, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.7142857142857143, "stats/max_log_achievement_make_wood_sword": 0.5714285714285714, "stats/max_log_achievement_place_furnace": 1.1428571428571428, "stats/max_log_achievement_place_plant": 0.7142857142857143, "stats/max_log_achievement_place_stone": 3.4285714285714284, "stats/max_log_achievement_place_table": 1.8571428571428572, "stats/max_log_achievement_wake_up": 0.8571428571428571, "stats/mean_log_entropy": 0.3854760250874928, "replay/size": 319360.0, "replay/inserts": 1446.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.816016317238287e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2137335860382967e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0831878185272, "timer/env.step_count": 1446.0, "timer/env.step_total": 18.614782571792603, "timer/env.step_frac": 0.062032074196205, "timer/env.step_avg": 0.012873293618113834, "timer/env.step_min": 0.002916574478149414, "timer/env.step_max": 1.731684923171997, "timer/replay.add_count": 1446.0, "timer/replay.add_total": 0.2781951427459717, "timer/replay.add_frac": 0.0009270600754688325, "timer/replay.add_avg": 0.00019238944864866645, "timer/replay.add_min": 6.842613220214844e-05, "timer/replay.add_max": 0.0028510093688964844, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02813434600830078, "timer/logger.write_frac": 9.375515573806417e-05, "timer/logger.write_avg": 0.02813434600830078, "timer/logger.write_min": 0.02813434600830078, "timer/logger.write_max": 0.02813434600830078, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1446.0, "timer/agent.policy_total": 10.887301683425903, "timer/agent.policy_frac": 0.03628094516914392, "timer/agent.policy_avg": 0.007529254276228149, "timer/agent.policy_min": 0.0057146549224853516, "timer/agent.policy_max": 0.01702404022216797, "timer/dataset_count": 723.0, "timer/dataset_total": 0.06726264953613281, "timer/dataset_frac": 0.0002241466775433262, "timer/dataset_avg": 9.303271028510763e-05, "timer/dataset_min": 6.723403930664062e-05, "timer/dataset_max": 0.0001595020294189453, "timer/agent.train_count": 723.0, "timer/agent.train_total": 269.5241997241974, "timer/agent.train_frac": 0.8981649444726303, "timer/agent.train_avg": 0.3727858917347128, "timer/agent.train_min": 0.36617469787597656, "timer/agent.train_max": 0.3909127712249756, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2035057544708252, "timer/agent.report_frac": 0.0006781644648279783, "timer/agent.report_avg": 0.2035057544708252, "timer/agent.report_min": 0.2035057544708252, "timer/agent.report_max": 0.2035057544708252, "fps": 4.818564465200602}
{"step": 319502, "episode/length": 207.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.04326923076923077}
{"step": 319687, "episode/length": 184.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.032432432432432434}
{"step": 319877, "episode/length": 189.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.900000028312206, "episode/reward_rate": 0.04736842105263158}
{"step": 320078, "episode/length": 200.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.04975124378109453}
{"step": 320274, "episode/length": 195.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.05102040816326531}
{"step": 320410, "episode/length": 135.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.08088235294117647}
{"step": 320837, "episode/length": 426.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.02107728337236534}
{"step": 320863, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.41998291015625, "train/action_min": 0.0, "train/action_std": 3.2839694950315685, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04587863473635581, "train/actor_opt_grad_steps": 159525.0, "train/actor_opt_loss": -9.437339239443341, "train/adv_mag": 0.43822669237852097, "train/adv_max": 0.403968411601252, "train/adv_mean": 0.0033271310148342715, "train/adv_min": -0.3741307213074631, "train/adv_std": 0.05095354550414615, "train/cont_avg": 0.9946153428819444, "train/cont_loss_mean": 0.00015987129794107582, "train/cont_loss_std": 0.005015916589008561, "train/cont_neg_acc": 0.987020504143503, "train/cont_neg_loss": 0.03201780852461727, "train/cont_pos_acc": 0.9999999875823656, "train/cont_pos_loss": 1.1564601355750091e-05, "train/cont_pred": 0.9946653586294916, "train/cont_rate": 0.9946153428819444, "train/dyn_loss_mean": 4.643903755479389, "train/dyn_loss_std": 8.555595298608145, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0305528764923413, "train/extr_critic_critic_opt_grad_steps": 159525.0, "train/extr_critic_critic_opt_loss": 16234.906643337674, "train/extr_critic_mag": 9.226358996497261, "train/extr_critic_max": 9.226358996497261, "train/extr_critic_mean": 2.5204927408032947, "train/extr_critic_min": -0.5612433436844084, "train/extr_critic_std": 2.272842288017273, "train/extr_return_normed_mag": 1.4511275986830394, "train/extr_return_normed_max": 1.4511275986830394, "train/extr_return_normed_mean": 0.3894602623250749, "train/extr_return_normed_min": -0.09837947087362409, "train/extr_return_normed_std": 0.3318808724482854, "train/extr_return_rate": 0.7331253993842337, "train/extr_return_raw_mag": 9.922128253512913, "train/extr_return_raw_max": 9.922128253512913, "train/extr_return_raw_mean": 2.543598257833057, "train/extr_return_raw_min": -0.8470394983887672, "train/extr_return_raw_std": 2.306831176082293, "train/extr_reward_mag": 1.0297008156776428, "train/extr_reward_max": 1.0297008156776428, "train/extr_reward_mean": 0.045348713976434536, "train/extr_reward_min": -0.6600985924402872, "train/extr_reward_std": 0.20743007502622074, "train/image_loss_mean": 2.8167329016658993, "train/image_loss_std": 7.777694278293186, "train/model_loss_mean": 5.650946689976586, "train/model_loss_std": 11.890856557422214, "train/model_opt_grad_norm": 33.04398589664035, "train/model_opt_grad_steps": 159396.29166666666, "train/model_opt_loss": 14279.853176540799, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2534.722222222222, "train/policy_entropy_mag": 2.3866745034853616, "train/policy_entropy_max": 2.3866745034853616, "train/policy_entropy_mean": 0.3428148101601336, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.44315053812331623, "train/policy_logprob_mag": 7.438384228282505, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.34352738451626563, "train/policy_logprob_min": -7.438384228282505, "train/policy_logprob_std": 0.9581635975175433, "train/policy_randomness_mag": 0.8423913634485669, "train/policy_randomness_max": 0.8423913634485669, "train/policy_randomness_mean": 0.1209985829061932, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15641269377536243, "train/post_ent_mag": 55.059896575080025, "train/post_ent_max": 55.059896575080025, "train/post_ent_mean": 40.79875606960721, "train/post_ent_min": 19.20939422978295, "train/post_ent_std": 5.598838223351373, "train/prior_ent_mag": 76.03712039523654, "train/prior_ent_max": 76.03712039523654, "train/prior_ent_mean": 45.40763415230645, "train/prior_ent_min": 27.763981342315674, "train/prior_ent_std": 7.229619774553511, "train/rep_loss_mean": 4.643903755479389, "train/rep_loss_std": 8.555595298608145, "train/reward_avg": 0.031164550713987813, "train/reward_loss_mean": 0.04771166077504555, "train/reward_loss_std": 0.20043440266615814, "train/reward_max_data": 1.0097222245401807, "train/reward_max_pred": 1.010845210817125, "train/reward_neg_acc": 0.9951160343156921, "train/reward_neg_loss": 0.0215666046521316, "train/reward_pos_acc": 0.9858598700828023, "train/reward_pos_loss": 0.7450666154424349, "train/reward_pred": 0.03075624272848169, "train/reward_rate": 0.036092122395833336, "stats/sum_log_reward": 8.100000177110944, "stats/max_log_achievement_collect_coal": 0.0, "stats/max_log_achievement_collect_drink": 4.285714285714286, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 3.0, "stats/max_log_achievement_collect_wood": 12.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5714285714285714, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.5714285714285714, "stats/max_log_achievement_make_wood_sword": 2.142857142857143, "stats/max_log_achievement_place_furnace": 0.14285714285714285, "stats/max_log_achievement_place_plant": 1.8571428571428572, "stats/max_log_achievement_place_stone": 1.7142857142857142, "stats/max_log_achievement_place_table": 3.5714285714285716, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.3873083846909659, "replay/size": 320800.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.858241770002577e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2273175848854913e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.216744184494, "timer/env.step_count": 1440.0, "timer/env.step_total": 18.452332019805908, "timer/env.step_frac": 0.06146336730794164, "timer/env.step_avg": 0.012814119458198547, "timer/env.step_min": 0.0027103424072265625, "timer/env.step_max": 1.714268445968628, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.29486584663391113, "timer/replay.add_frac": 0.000982176551927115, "timer/replay.add_avg": 0.00020476794905132718, "timer/replay.add_min": 7.033348083496094e-05, "timer/replay.add_max": 0.008823871612548828, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028352737426757812, "timer/logger.write_frac": 9.444089304137557e-05, "timer/logger.write_avg": 0.028352737426757812, "timer/logger.write_min": 0.028352737426757812, "timer/logger.write_max": 0.028352737426757812, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 10.776063680648804, "timer/agent.policy_frac": 0.03589427934781187, "timer/agent.policy_avg": 0.007483377556006114, "timer/agent.policy_min": 0.0056324005126953125, "timer/agent.policy_max": 0.021296977996826172, "timer/dataset_count": 720.0, "timer/dataset_total": 0.06751894950866699, "timer/dataset_frac": 0.00022490067864827074, "timer/dataset_avg": 9.37763187620375e-05, "timer/dataset_min": 7.009506225585938e-05, "timer/dataset_max": 0.00018525123596191406, "timer/agent.train_count": 720.0, "timer/agent.train_total": 269.92280101776123, "timer/agent.train_frac": 0.8990930927286452, "timer/agent.train_avg": 0.37489277919133507, "timer/agent.train_min": 0.36649155616760254, "timer/agent.train_max": 1.9480946063995361, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20196056365966797, "timer/agent.report_frac": 0.0006727158547011486, "timer/agent.report_avg": 0.20196056365966797, "timer/agent.report_min": 0.20196056365966797, "timer/agent.report_max": 0.20196056365966797, "fps": 4.796464432460295}
{"step": 321043, "episode/length": 205.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.04854368932038835}
{"step": 321236, "episode/length": 192.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06217616580310881}
{"step": 321464, "episode/length": 227.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.05701754385964912}
{"step": 321628, "episode/length": 163.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.036585365853658534}
{"step": 321816, "episode/length": 187.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.05851063829787234}
{"step": 322036, "episode/length": 219.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.04090909090909091}
{"step": 322297, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.505383128851232, "train/action_min": 0.0, "train/action_std": 3.3597037087024098, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04457489721162219, "train/actor_opt_grad_steps": 160240.0, "train/actor_opt_loss": -12.395509601583782, "train/adv_mag": 0.45049675879344137, "train/adv_max": 0.4162104003865954, "train/adv_mean": 0.0020650200807927244, "train/adv_min": -0.3686845508259787, "train/adv_std": 0.049693104456847825, "train/cont_avg": 0.9944707306338029, "train/cont_loss_mean": 6.740208762183511e-05, "train/cont_loss_std": 0.0018847228107118316, "train/cont_neg_acc": 0.9971428573131561, "train/cont_neg_loss": 0.006884832905208376, "train/cont_pos_acc": 0.9999861221917918, "train/cont_pos_loss": 3.3873955791138325e-05, "train/cont_pred": 0.9944633396578507, "train/cont_rate": 0.9944707306338029, "train/dyn_loss_mean": 4.764447061108871, "train/dyn_loss_std": 8.597209782667562, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.050300230442638, "train/extr_critic_critic_opt_grad_steps": 160240.0, "train/extr_critic_critic_opt_loss": 16056.852910431338, "train/extr_critic_mag": 9.367660267252317, "train/extr_critic_max": 9.367660267252317, "train/extr_critic_mean": 2.5225299260985685, "train/extr_critic_min": -0.5813298947374586, "train/extr_critic_std": 2.3039660856757367, "train/extr_return_normed_mag": 1.4415482047577979, "train/extr_return_normed_max": 1.4415482047577979, "train/extr_return_normed_mean": 0.38570908089758643, "train/extr_return_normed_min": -0.10488889146019036, "train/extr_return_normed_std": 0.33177376779871925, "train/extr_return_rate": 0.7312738761095934, "train/extr_return_raw_mag": 9.951026097149915, "train/extr_return_raw_max": 9.951026097149915, "train/extr_return_raw_mean": 2.5370288046313005, "train/extr_return_raw_min": -0.9074917175400425, "train/extr_return_raw_std": 2.3296722240850958, "train/extr_reward_mag": 1.03281891849679, "train/extr_reward_max": 1.03281891849679, "train/extr_reward_mean": 0.04453024506883722, "train/extr_reward_min": -0.6757321508837418, "train/extr_reward_std": 0.20638603580669618, "train/image_loss_mean": 2.9479784528974076, "train/image_loss_std": 7.801739961328641, "train/model_loss_mean": 5.853286756596095, "train/model_loss_std": 11.913962014963928, "train/model_opt_grad_norm": 33.227531298785145, "train/model_opt_grad_steps": 160110.70422535212, "train/model_opt_loss": 14633.21689315581, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2535.211267605634, "train/policy_entropy_mag": 2.3847449329537405, "train/policy_entropy_max": 2.3847449329537405, "train/policy_entropy_mean": 0.36093923407541195, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.45812465271479647, "train/policy_logprob_mag": 7.438384190411635, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36107246388851755, "train/policy_logprob_min": -7.438384190411635, "train/policy_logprob_std": 0.9706905719260095, "train/policy_randomness_mag": 0.8417103097472393, "train/policy_randomness_max": 0.8417103097472393, "train/policy_randomness_mean": 0.12739570984538173, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16169789769280124, "train/post_ent_mag": 54.40288463108976, "train/post_ent_max": 54.40288463108976, "train/post_ent_mean": 40.669883674299214, "train/post_ent_min": 18.653317129108267, "train/post_ent_std": 5.584054248433717, "train/prior_ent_mag": 76.03165113422233, "train/prior_ent_max": 76.03165113422233, "train/prior_ent_mean": 45.40508092960841, "train/prior_ent_min": 27.414524454466054, "train/prior_ent_std": 7.298398508152491, "train/rep_loss_mean": 4.764447061108871, "train/rep_loss_std": 8.597209782667562, "train/reward_avg": 0.030073998469701956, "train/reward_loss_mean": 0.0465726627325508, "train/reward_loss_std": 0.19381978719587056, "train/reward_max_data": 1.0112676083202092, "train/reward_max_pred": 1.0142274373014208, "train/reward_neg_acc": 0.9949524192742898, "train/reward_neg_loss": 0.021595313279351717, "train/reward_pos_acc": 0.9876779989457466, "train/reward_pos_loss": 0.7343789926716979, "train/reward_pred": 0.029752864699128648, "train/reward_rate": 0.03508747799295775, "stats/sum_log_reward": 9.266666968663534, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 2.8333333333333335, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 11.666666666666666, "stats/max_log_achievement_collect_wood": 8.166666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.3333333333333333, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_wood_sword": 0.6666666666666666, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 5.666666666666667, "stats/max_log_achievement_place_table": 2.8333333333333335, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.41638416051864624, "replay/size": 322234.0, "replay/inserts": 1434.0, "replay/samples": 11472.0, "replay/insert_wait_avg": 3.790755650987186e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2467928345067065e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3450655937195, "timer/env.step_count": 1434.0, "timer/env.step_total": 17.34800148010254, "timer/env.step_frac": 0.057760234701406406, "timer/env.step_avg": 0.01209763004191251, "timer/env.step_min": 0.002761363983154297, "timer/env.step_max": 1.6543042659759521, "timer/replay.add_count": 1434.0, "timer/replay.add_total": 0.28326892852783203, "timer/replay.add_frac": 0.00094314493886513, "timer/replay.add_avg": 0.00019753760706264436, "timer/replay.add_min": 7.534027099609375e-05, "timer/replay.add_max": 0.004885673522949219, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02869129180908203, "timer/logger.write_frac": 9.552776155108571e-05, "timer/logger.write_avg": 0.02869129180908203, "timer/logger.write_min": 0.02869129180908203, "timer/logger.write_max": 0.02869129180908203, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00018858909606933594, "timer/checkpoint.save_frac": 6.279080886397607e-07, "timer/checkpoint.save_avg": 0.00018858909606933594, "timer/checkpoint.save_min": 0.00018858909606933594, "timer/checkpoint.save_max": 0.00018858909606933594, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.299628734588623, "timer/agent.save_frac": 0.0043271186494092334, "timer/agent.save_avg": 1.299628734588623, "timer/agent.save_min": 1.299628734588623, "timer/agent.save_max": 1.299628734588623, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.67572021484375e-05, "timer/replay.save_frac": 2.222683499609772e-07, "timer/replay.save_avg": 6.67572021484375e-05, "timer/replay.save_min": 6.67572021484375e-05, "timer/replay.save_max": 6.67572021484375e-05, "timer/agent.policy_count": 1434.0, "timer/agent.policy_total": 14.740857601165771, "timer/agent.policy_frac": 0.04907973957230219, "timer/agent.policy_avg": 0.010279538076126759, "timer/agent.policy_min": 0.0056760311126708984, "timer/agent.policy_max": 2.75437331199646, "timer/dataset_count": 717.0, "timer/dataset_total": 0.06682586669921875, "timer/dataset_frac": 0.0002224969688352228, "timer/dataset_avg": 9.320204560560495e-05, "timer/dataset_min": 6.937980651855469e-05, "timer/dataset_max": 0.00017309188842773438, "timer/agent.train_count": 717.0, "timer/agent.train_total": 267.20966243743896, "timer/agent.train_frac": 0.8896755533813124, "timer/agent.train_avg": 0.3726773534692315, "timer/agent.train_min": 0.3654663562774658, "timer/agent.train_max": 0.44121479988098145, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2019362449645996, "timer/agent.report_frac": 0.0006723474699523158, "timer/agent.report_avg": 0.2019362449645996, "timer/agent.report_min": 0.2019362449645996, "timer/agent.report_max": 0.2019362449645996, "fps": 4.7744332291802865}
{"step": 322324, "episode/length": 287.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.30000003427267, "episode/reward_rate": 0.041666666666666664}
{"step": 322595, "episode/length": 270.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.03690036900369004}
{"step": 322638, "episode/length": 42.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.13953488372093023}
{"step": 322929, "episode/length": 290.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.044673539518900345}
{"step": 323122, "episode/length": 192.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.031088082901554404}
{"step": 323434, "episode/length": 311.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.038461538461538464}
{"step": 323609, "episode/length": 174.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.05142857142857143}
{"step": 323743, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.507719693118578, "train/action_min": 0.0, "train/action_std": 3.3175404333088494, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04441699339714769, "train/actor_opt_grad_steps": 160960.0, "train/actor_opt_loss": -11.967934900767183, "train/adv_mag": 0.44627846838676766, "train/adv_max": 0.3868595304554456, "train/adv_mean": 0.0025122447031245515, "train/adv_min": -0.39686341338778197, "train/adv_std": 0.04958996875849489, "train/cont_avg": 0.9943680436643836, "train/cont_loss_mean": 4.8330111913444806e-05, "train/cont_loss_std": 0.0014497569127779073, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0015218365047761312, "train/cont_pos_acc": 0.9999864991397074, "train/cont_pos_loss": 3.68559278640322e-05, "train/cont_pred": 0.9943525039986388, "train/cont_rate": 0.9943680436643836, "train/dyn_loss_mean": 4.9094871952109145, "train/dyn_loss_std": 8.681872420115013, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1052135302595896, "train/extr_critic_critic_opt_grad_steps": 160960.0, "train/extr_critic_critic_opt_loss": 16060.900216716609, "train/extr_critic_mag": 9.339129369552822, "train/extr_critic_max": 9.339129369552822, "train/extr_critic_mean": 2.4931372698039223, "train/extr_critic_min": -0.5784620618166989, "train/extr_critic_std": 2.299523755295636, "train/extr_return_normed_mag": 1.439064473321993, "train/extr_return_normed_max": 1.439064473321993, "train/extr_return_normed_mean": 0.3795014642281075, "train/extr_return_normed_min": -0.09445059493388215, "train/extr_return_normed_std": 0.32990317271180347, "train/extr_return_rate": 0.7294556625085334, "train/extr_return_raw_mag": 9.988393182623875, "train/extr_return_raw_max": 9.988393182623875, "train/extr_return_raw_mean": 2.5108663741856407, "train/extr_return_raw_min": -0.8337151571495892, "train/extr_return_raw_std": 2.3282328223528928, "train/extr_reward_mag": 1.0389928393167993, "train/extr_reward_max": 1.0389928393167993, "train/extr_reward_mean": 0.044205372004884565, "train/extr_reward_min": -0.6550160858729114, "train/extr_reward_std": 0.20551515054212857, "train/image_loss_mean": 3.036224473012637, "train/image_loss_std": 7.85753451308159, "train/model_loss_mean": 6.03010292575784, "train/model_loss_std": 12.024505628298407, "train/model_opt_grad_norm": 35.43417272175828, "train/model_opt_grad_steps": 160829.86301369863, "train/model_opt_loss": 14075.272173319778, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2328.7671232876714, "train/policy_entropy_mag": 2.380207799885371, "train/policy_entropy_max": 2.380207799885371, "train/policy_entropy_mean": 0.35341532793763564, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4510172760649903, "train/policy_logprob_mag": 7.438384193263642, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3530149553736595, "train/policy_logprob_min": -7.438384193263642, "train/policy_logprob_std": 0.9640153262713184, "train/policy_randomness_mag": 0.8401089041200402, "train/policy_randomness_max": 0.8401089041200402, "train/policy_randomness_mean": 0.12474010149910025, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15918930630161338, "train/post_ent_mag": 54.775165139812316, "train/post_ent_max": 54.775165139812316, "train/post_ent_mean": 40.57713443285798, "train/post_ent_min": 18.733556603732175, "train/post_ent_std": 5.61486933329334, "train/prior_ent_mag": 76.0753637862532, "train/prior_ent_max": 76.0753637862532, "train/prior_ent_mean": 45.42130561724101, "train/prior_ent_min": 27.881290252894573, "train/prior_ent_std": 7.387610330973586, "train/rep_loss_mean": 4.9094871952109145, "train/rep_loss_std": 8.681872420115013, "train/reward_avg": 0.0293182786809255, "train/reward_loss_mean": 0.04813783330051866, "train/reward_loss_std": 0.20363762096999444, "train/reward_max_data": 1.0136986334029943, "train/reward_max_pred": 1.0136390516202745, "train/reward_neg_acc": 0.9949963109133995, "train/reward_neg_loss": 0.02345080052387633, "train/reward_pos_acc": 0.9843760810486258, "train/reward_pos_loss": 0.7400898157733761, "train/reward_pred": 0.028991669429185456, "train/reward_rate": 0.034500749143835614, "stats/sum_log_reward": 8.81428589139666, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 2.857142857142857, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 10.714285714285714, "stats/max_log_achievement_collect_wood": 8.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.7142857142857143, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 0.7142857142857143, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 6.571428571428571, "stats/max_log_achievement_place_table": 2.857142857142857, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3995868819100516, "replay/size": 323680.0, "replay/inserts": 1446.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.859215257573424e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2269653225340785e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.33708000183105, "timer/env.step_count": 1446.0, "timer/env.step_total": 18.881752729415894, "timer/env.step_frac": 0.06286853667652618, "timer/env.step_avg": 0.013057920283136857, "timer/env.step_min": 0.0030775070190429688, "timer/env.step_max": 1.7742180824279785, "timer/replay.add_count": 1446.0, "timer/replay.add_total": 0.2934873104095459, "timer/replay.add_frac": 0.000977193060569666, "timer/replay.add_avg": 0.00020296494495819218, "timer/replay.add_min": 7.843971252441406e-05, "timer/replay.add_max": 0.006651878356933594, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03150629997253418, "timer/logger.write_frac": 0.00010490313075009618, "timer/logger.write_avg": 0.03150629997253418, "timer/logger.write_min": 0.03150629997253418, "timer/logger.write_max": 0.03150629997253418, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1446.0, "timer/agent.policy_total": 10.873412132263184, "timer/agent.policy_frac": 0.036204028261168725, "timer/agent.policy_avg": 0.007519648777498744, "timer/agent.policy_min": 0.0056743621826171875, "timer/agent.policy_max": 0.01704859733581543, "timer/dataset_count": 723.0, "timer/dataset_total": 0.0680687427520752, "timer/dataset_frac": 0.00022664115517025138, "timer/dataset_avg": 9.414763866123817e-05, "timer/dataset_min": 6.985664367675781e-05, "timer/dataset_max": 0.0002071857452392578, "timer/agent.train_count": 723.0, "timer/agent.train_total": 269.4900555610657, "timer/agent.train_frac": 0.8972919879204482, "timer/agent.train_avg": 0.37273866605956524, "timer/agent.train_min": 0.36335301399230957, "timer/agent.train_max": 0.38889384269714355, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21251654624938965, "timer/agent.report_frac": 0.0007075934355095082, "timer/agent.report_avg": 0.21251654624938965, "timer/agent.report_min": 0.21251654624938965, "timer/agent.report_max": 0.21251654624938965, "fps": 4.814520736342319}
{"step": 323806, "episode/length": 196.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.05583756345177665}
{"step": 324000, "episode/length": 193.0, "episode/score": 10.099999979138374, "episode/sum_abs_reward": 11.900000020861626, "episode/reward_rate": 0.05670103092783505}
{"step": 324226, "episode/length": 225.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.899999976158142, "episode/reward_rate": 0.05309734513274336}
{"step": 324435, "episode/length": 208.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.900000028312206, "episode/reward_rate": 0.04784688995215311}
{"step": 324481, "episode/length": 45.0, "episode/score": 3.100000001490116, "episode/sum_abs_reward": 5.100000001490116, "episode/reward_rate": 0.10869565217391304}
{"step": 324689, "episode/length": 207.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.03365384615384615}
{"step": 324855, "episode/length": 165.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06626506024096386}
{"step": 324894, "episode/length": 38.0, "episode/score": 2.1000000089406967, "episode/sum_abs_reward": 4.100000038743019, "episode/reward_rate": 0.07692307692307693}
{"step": 325057, "episode/length": 162.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.04294478527607362}
{"step": 325173, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.522120516065141, "train/action_min": 0.0, "train/action_std": 3.3780859792736213, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.046593903340923955, "train/actor_opt_grad_steps": 161680.0, "train/actor_opt_loss": -11.033160209026136, "train/adv_mag": 0.4860284991667304, "train/adv_max": 0.434213808304827, "train/adv_mean": 0.002819862377909373, "train/adv_min": -0.41067949630005257, "train/adv_std": 0.05275344355425365, "train/cont_avg": 0.9944019586267606, "train/cont_loss_mean": 5.48405062366962e-06, "train/cont_loss_std": 0.00011360473662611646, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0002380555270833675, "train/cont_pos_acc": 0.9999999798519511, "train/cont_pos_loss": 4.047859728408163e-06, "train/cont_pred": 0.9943994611081942, "train/cont_rate": 0.9944019586267606, "train/dyn_loss_mean": 4.829471655294928, "train/dyn_loss_std": 8.603256138277725, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.134399522358263, "train/extr_critic_critic_opt_grad_steps": 161680.0, "train/extr_critic_critic_opt_loss": 16208.739134022888, "train/extr_critic_mag": 9.497691584305025, "train/extr_critic_max": 9.497691584305025, "train/extr_critic_mean": 2.575629066413557, "train/extr_critic_min": -0.5531507881594376, "train/extr_critic_std": 2.317041496155967, "train/extr_return_normed_mag": 1.4652873781365408, "train/extr_return_normed_max": 1.4652873781365408, "train/extr_return_normed_mean": 0.39115822273240963, "train/extr_return_normed_min": -0.09281685759483928, "train/extr_return_normed_std": 0.3338868571838862, "train/extr_return_rate": 0.7453868137279027, "train/extr_return_raw_mag": 10.157272258274991, "train/extr_return_raw_max": 10.157272258274991, "train/extr_return_raw_mean": 2.5954983805266902, "train/extr_return_raw_min": -0.812241944628702, "train/extr_return_raw_std": 2.3508814741188373, "train/extr_reward_mag": 1.0385211387150723, "train/extr_reward_max": 1.0385211387150723, "train/extr_reward_mean": 0.04404897221796949, "train/extr_reward_min": -0.6475198017039769, "train/extr_reward_std": 0.20441117798778372, "train/image_loss_mean": 2.9153629541397095, "train/image_loss_std": 7.910088354433086, "train/model_loss_mean": 5.860545255768467, "train/model_loss_std": 12.047519408481222, "train/model_opt_grad_norm": 34.86620678700192, "train/model_opt_grad_steps": 161549.0, "train/model_opt_loss": 7325.681606238996, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.38219016370639, "train/policy_entropy_max": 2.38219016370639, "train/policy_entropy_mean": 0.3479193793216222, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.44213505446071355, "train/policy_logprob_mag": 7.438384163547569, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3478627935261794, "train/policy_logprob_min": -7.438384163547569, "train/policy_logprob_std": 0.9591579193800268, "train/policy_randomness_mag": 0.8408085896935261, "train/policy_randomness_max": 0.8408085896935261, "train/policy_randomness_mean": 0.12280027295502138, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15605426967983516, "train/post_ent_mag": 54.76678482915314, "train/post_ent_max": 54.76678482915314, "train/post_ent_mean": 40.53432367888974, "train/post_ent_min": 18.768089240705464, "train/post_ent_std": 5.558415177842261, "train/prior_ent_mag": 76.07275036019338, "train/prior_ent_max": 76.07275036019338, "train/prior_ent_mean": 45.333723363742024, "train/prior_ent_min": 27.345291701840683, "train/prior_ent_std": 7.303898441959435, "train/rep_loss_mean": 4.829471655294928, "train/rep_loss_std": 8.603256138277725, "train/reward_avg": 0.030068496661916584, "train/reward_loss_mean": 0.04749381820290861, "train/reward_loss_std": 0.19663330702714518, "train/reward_max_data": 1.0183098635203403, "train/reward_max_pred": 1.0183499161626253, "train/reward_neg_acc": 0.9952656542751152, "train/reward_neg_loss": 0.022092898612395977, "train/reward_pos_acc": 0.9849444971957677, "train/reward_pos_loss": 0.743141770362854, "train/reward_pred": 0.029688084393110072, "train/reward_rate": 0.0351287411971831, "stats/sum_log_reward": 7.322222391764323, "stats/max_log_achievement_collect_coal": 0.1111111111111111, "stats/max_log_achievement_collect_drink": 1.6666666666666667, "stats/max_log_achievement_collect_sapling": 1.5555555555555556, "stats/max_log_achievement_collect_stone": 6.333333333333333, "stats/max_log_achievement_collect_wood": 8.444444444444445, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.1111111111111111, "stats/max_log_achievement_eat_cow": 0.1111111111111111, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.7777777777777778, "stats/max_log_achievement_make_wood_sword": 1.1111111111111112, "stats/max_log_achievement_place_furnace": 0.5555555555555556, "stats/max_log_achievement_place_plant": 1.4444444444444444, "stats/max_log_achievement_place_stone": 3.4444444444444446, "stats/max_log_achievement_place_table": 2.888888888888889, "stats/max_log_achievement_wake_up": 0.7777777777777778, "stats/mean_log_entropy": 0.34031996462080216, "replay/size": 325110.0, "replay/inserts": 1430.0, "replay/samples": 11440.0, "replay/insert_wait_avg": 3.827701915394176e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2507180233935376e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2264971733093, "timer/env.step_count": 1430.0, "timer/env.step_total": 21.74653911590576, "timer/env.step_frac": 0.07243377690061885, "timer/env.step_avg": 0.01520737001112291, "timer/env.step_min": 0.0027687549591064453, "timer/env.step_max": 1.7116985321044922, "timer/replay.add_count": 1430.0, "timer/replay.add_total": 0.2877511978149414, "timer/replay.add_frac": 0.0009584470408980377, "timer/replay.add_avg": 0.0002012246138566024, "timer/replay.add_min": 7.62939453125e-05, "timer/replay.add_max": 0.003615856170654297, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027456045150756836, "timer/logger.write_frac": 9.145110577933935e-05, "timer/logger.write_avg": 0.027456045150756836, "timer/logger.write_min": 0.027456045150756836, "timer/logger.write_max": 0.027456045150756836, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1430.0, "timer/agent.policy_total": 10.917370080947876, "timer/agent.policy_frac": 0.03636377929242433, "timer/agent.policy_avg": 0.007634524532131382, "timer/agent.policy_min": 0.005691051483154297, "timer/agent.policy_max": 0.01750493049621582, "timer/dataset_count": 715.0, "timer/dataset_total": 0.06743264198303223, "timer/dataset_frac": 0.00022460589794013393, "timer/dataset_avg": 9.431138738885626e-05, "timer/dataset_min": 6.914138793945312e-05, "timer/dataset_max": 0.00023436546325683594, "timer/agent.train_count": 715.0, "timer/agent.train_total": 266.49209475517273, "timer/agent.train_frac": 0.8876368250778911, "timer/agent.train_avg": 0.372716216440801, "timer/agent.train_min": 0.366138219833374, "timer/agent.train_max": 0.38503408432006836, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20909905433654785, "timer/agent.report_frac": 0.0006964710187317109, "timer/agent.report_avg": 0.20909905433654785, "timer/agent.report_min": 0.20909905433654785, "timer/agent.report_max": 0.20909905433654785, "fps": 4.762984970500642}
{"step": 325216, "episode/length": 158.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.0440251572327044}
{"step": 325383, "episode/length": 166.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.04790419161676647}
{"step": 325549, "episode/length": 165.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06626506024096386}
{"step": 325718, "episode/length": 168.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 8.500000022351742, "episode/reward_rate": 0.047337278106508875}
{"step": 325884, "episode/length": 165.0, "episode/score": 9.099999971687794, "episode/sum_abs_reward": 11.100000031292439, "episode/reward_rate": 0.06626506024096386}
{"step": 326049, "episode/length": 164.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.900000028312206, "episode/reward_rate": 0.06060606060606061}
{"step": 326244, "episode/length": 194.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.05128205128205128}
{"step": 326340, "episode/length": 95.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.700000025331974, "episode/reward_rate": 0.041666666666666664}
{"step": 326493, "episode/length": 152.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.058823529411764705}
{"step": 326575, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.467740304129464, "train/action_min": 0.0, "train/action_std": 3.2934697457722257, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.045685892605355806, "train/actor_opt_grad_steps": 162385.0, "train/actor_opt_loss": -12.205971104758126, "train/adv_mag": 0.4985086108957018, "train/adv_max": 0.4321890102965491, "train/adv_mean": 0.002546127556810721, "train/adv_min": -0.41953806025641305, "train/adv_std": 0.05168082985494818, "train/cont_avg": 0.9945033482142858, "train/cont_loss_mean": 2.0955809089124547e-05, "train/cont_loss_std": 0.0006087706731152918, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.001380732989790496, "train/cont_pos_acc": 0.9999999812671116, "train/cont_pos_loss": 1.4396124355187112e-05, "train/cont_pred": 0.9944957579885211, "train/cont_rate": 0.9945033482142858, "train/dyn_loss_mean": 4.76354523726872, "train/dyn_loss_std": 8.531223685400827, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0860374510288238, "train/extr_critic_critic_opt_grad_steps": 162385.0, "train/extr_critic_critic_opt_loss": 16315.765694754464, "train/extr_critic_mag": 9.592430523463658, "train/extr_critic_max": 9.592430523463658, "train/extr_critic_mean": 2.566126237596784, "train/extr_critic_min": -0.5470867225102016, "train/extr_critic_std": 2.301299088341849, "train/extr_return_normed_mag": 1.463556740965162, "train/extr_return_normed_max": 1.463556740965162, "train/extr_return_normed_mean": 0.3893834846360343, "train/extr_return_normed_min": -0.09210513292678765, "train/extr_return_normed_std": 0.32888527831860953, "train/extr_return_rate": 0.7439695315701621, "train/extr_return_raw_mag": 10.197548866271973, "train/extr_return_raw_max": 10.197548866271973, "train/extr_return_raw_mean": 2.584139975479671, "train/extr_return_raw_min": -0.8313590475491115, "train/extr_return_raw_std": 2.33238353899547, "train/extr_reward_mag": 1.026381506238665, "train/extr_reward_max": 1.026381506238665, "train/extr_reward_mean": 0.04428688987557377, "train/extr_reward_min": -0.6445346151079451, "train/extr_reward_std": 0.20427792157445634, "train/image_loss_mean": 2.755595249789102, "train/image_loss_std": 7.736325740814209, "train/model_loss_mean": 5.661195087432861, "train/model_loss_std": 11.829796273367746, "train/model_opt_grad_norm": 34.2861590385437, "train/model_opt_grad_steps": 162253.82857142857, "train/model_opt_loss": 10946.135023716517, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1946.4285714285713, "train/policy_entropy_mag": 2.3651647703988212, "train/policy_entropy_max": 2.3651647703988212, "train/policy_entropy_mean": 0.33610704711505346, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4255322286060878, "train/policy_logprob_mag": 7.438384199142456, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.33659540372235436, "train/policy_logprob_min": -7.438384199142456, "train/policy_logprob_std": 0.9515381608690534, "train/policy_randomness_mag": 0.834799371446882, "train/policy_randomness_max": 0.834799371446882, "train/policy_randomness_mean": 0.11863103913409369, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15019420204418046, "train/post_ent_mag": 54.44880322047642, "train/post_ent_max": 54.44880322047642, "train/post_ent_mean": 40.70806100027902, "train/post_ent_min": 19.13348595755441, "train/post_ent_std": 5.546669381005423, "train/prior_ent_mag": 76.13654992239816, "train/prior_ent_max": 76.13654992239816, "train/prior_ent_mean": 45.475019563947406, "train/prior_ent_min": 28.100188664027623, "train/prior_ent_std": 7.2026434421539305, "train/rep_loss_mean": 4.76354523726872, "train/rep_loss_std": 8.531223685400827, "train/reward_avg": 0.029665178300014566, "train/reward_loss_mean": 0.04745175194527421, "train/reward_loss_std": 0.1960956716111728, "train/reward_max_data": 1.0171428612300328, "train/reward_max_pred": 1.0162643602916173, "train/reward_neg_acc": 0.9950443889413562, "train/reward_neg_loss": 0.022772712021001746, "train/reward_pos_acc": 0.9878187886306218, "train/reward_pos_loss": 0.732817770753588, "train/reward_pred": 0.029392038538519825, "train/reward_rate": 0.03475167410714286, "stats/sum_log_reward": 7.655555672115749, "stats/max_log_achievement_collect_coal": 0.1111111111111111, "stats/max_log_achievement_collect_drink": 4.222222222222222, "stats/max_log_achievement_collect_sapling": 1.5555555555555556, "stats/max_log_achievement_collect_stone": 4.444444444444445, "stats/max_log_achievement_collect_wood": 7.333333333333333, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.1111111111111111, "stats/max_log_achievement_eat_cow": 0.1111111111111111, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.8888888888888888, "stats/max_log_achievement_make_wood_sword": 1.1111111111111112, "stats/max_log_achievement_place_furnace": 0.0, "stats/max_log_achievement_place_plant": 1.5555555555555556, "stats/max_log_achievement_place_stone": 3.4444444444444446, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3328486515416039, "replay/size": 326512.0, "replay/inserts": 1402.0, "replay/samples": 11216.0, "replay/insert_wait_avg": 3.8934332157847885e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.21568817214857e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.19832706451416, "timer/env.step_count": 1402.0, "timer/env.step_total": 24.664642095565796, "timer/env.step_frac": 0.082161157714464, "timer/env.step_avg": 0.01759246939769315, "timer/env.step_min": 0.003095388412475586, "timer/env.step_max": 2.7726423740386963, "timer/replay.add_count": 1402.0, "timer/replay.add_total": 0.280620813369751, "timer/replay.add_frac": 0.0009347847341915537, "timer/replay.add_avg": 0.00020015749883719756, "timer/replay.add_min": 7.700920104980469e-05, "timer/replay.add_max": 0.0071184635162353516, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.031203269958496094, "timer/logger.write_frac": 0.00010394218470041757, "timer/logger.write_avg": 0.031203269958496094, "timer/logger.write_min": 0.031203269958496094, "timer/logger.write_max": 0.031203269958496094, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00023365020751953125, "timer/checkpoint.save_frac": 7.783194856689479e-07, "timer/checkpoint.save_avg": 0.00023365020751953125, "timer/checkpoint.save_min": 0.00023365020751953125, "timer/checkpoint.save_max": 0.00023365020751953125, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.5051805973052979, "timer/agent.save_frac": 0.005013953981768282, "timer/agent.save_avg": 1.5051805973052979, "timer/agent.save_min": 1.5051805973052979, "timer/agent.save_max": 1.5051805973052979, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.152557373046875e-05, "timer/replay.save_frac": 2.3826106704151464e-07, "timer/replay.save_avg": 7.152557373046875e-05, "timer/replay.save_min": 7.152557373046875e-05, "timer/replay.save_max": 7.152557373046875e-05, "timer/agent.policy_count": 1402.0, "timer/agent.policy_total": 12.765724420547485, "timer/agent.policy_frac": 0.042524302334982916, "timer/agent.policy_avg": 0.009105366919078092, "timer/agent.policy_min": 0.005767107009887695, "timer/agent.policy_max": 1.5025246143341064, "timer/dataset_count": 701.0, "timer/dataset_total": 0.06478381156921387, "timer/dataset_frac": 0.00021580337306573828, "timer/dataset_avg": 9.241627898603976e-05, "timer/dataset_min": 7.152557373046875e-05, "timer/dataset_max": 0.0002658367156982422, "timer/agent.train_count": 701.0, "timer/agent.train_total": 261.7255918979645, "timer/agent.train_frac": 0.8718422732639622, "timer/agent.train_avg": 0.37336033081022035, "timer/agent.train_min": 0.3660130500793457, "timer/agent.train_max": 0.5504775047302246, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20211172103881836, "timer/agent.report_frac": 0.0006732606507676624, "timer/agent.report_avg": 0.20211172103881836, "timer/agent.report_min": 0.20211172103881836, "timer/agent.report_max": 0.20211172103881836, "fps": 4.670184230912938}
{"step": 326641, "episode/length": 147.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 9.899999976158142, "episode/reward_rate": 0.06756756756756757}
{"step": 326785, "episode/length": 143.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.0625}
{"step": 326959, "episode/length": 173.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.899999976158142, "episode/reward_rate": 0.06896551724137931}
{"step": 327120, "episode/length": 160.0, "episode/score": 6.0999999940395355, "episode/sum_abs_reward": 7.9000000059604645, "episode/reward_rate": 0.049689440993788817}
{"step": 327316, "episode/length": 195.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.061224489795918366}
{"step": 327535, "episode/length": 218.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.0410958904109589}
{"step": 327722, "episode/length": 186.0, "episode/score": 9.099999964237213, "episode/sum_abs_reward": 10.699999988079071, "episode/reward_rate": 0.053475935828877004}
{"step": 327880, "episode/length": 157.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.05063291139240506}
{"step": 327978, "episode/length": 97.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.3000000193715096, "episode/reward_rate": 0.04081632653061224}
{"step": 328007, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.44405280219184, "train/action_min": 0.0, "train/action_std": 3.3064113590452404, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04645148514666491, "train/actor_opt_grad_steps": 163095.0, "train/actor_opt_loss": -11.903185734318363, "train/adv_mag": 0.44559158343407845, "train/adv_max": 0.40584979351196027, "train/adv_mean": 0.002280285410557149, "train/adv_min": -0.36134020632339847, "train/adv_std": 0.050672842655330896, "train/cont_avg": 0.9946424696180556, "train/cont_loss_mean": 3.422290822483218e-06, "train/cont_loss_std": 6.0640245654515944e-05, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00010335222406057356, "train/cont_pos_acc": 0.9999999842709966, "train/cont_pos_loss": 2.836160570199e-06, "train/cont_pred": 0.9946402832865715, "train/cont_rate": 0.9946424696180556, "train/dyn_loss_mean": 4.782484508223003, "train/dyn_loss_std": 8.569214211569893, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0443384100993474, "train/extr_critic_critic_opt_grad_steps": 163095.0, "train/extr_critic_critic_opt_loss": 16068.400594075521, "train/extr_critic_mag": 9.444230768415663, "train/extr_critic_max": 9.444230768415663, "train/extr_critic_mean": 2.5921308630042605, "train/extr_critic_min": -0.5584644575913748, "train/extr_critic_std": 2.3131896009047828, "train/extr_return_normed_mag": 1.449484748972787, "train/extr_return_normed_max": 1.449484748972787, "train/extr_return_normed_mean": 0.39440693540705574, "train/extr_return_normed_min": -0.09333604832904206, "train/extr_return_normed_std": 0.3307236666894621, "train/extr_return_rate": 0.7463478744029999, "train/extr_return_raw_mag": 10.080281178156534, "train/extr_return_raw_max": 10.080281178156534, "train/extr_return_raw_mean": 2.608290867673026, "train/extr_return_raw_min": -0.8457162326408757, "train/extr_return_raw_std": 2.3418593870268927, "train/extr_reward_mag": 1.0281980666849349, "train/extr_reward_max": 1.0281980666849349, "train/extr_reward_mean": 0.04380655681921376, "train/extr_reward_min": -0.6351917038361231, "train/extr_reward_std": 0.2031631442821688, "train/image_loss_mean": 2.8786718116866217, "train/image_loss_std": 7.56119837363561, "train/model_loss_mean": 5.795060555140178, "train/model_loss_std": 11.705172909630669, "train/model_opt_grad_norm": 33.32759277025858, "train/model_opt_grad_steps": 162963.0, "train/model_opt_loss": 7243.825690375434, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.4041369921631284, "train/policy_entropy_max": 2.4041369921631284, "train/policy_entropy_mean": 0.3533165028525723, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4469708266357581, "train/policy_logprob_mag": 7.438384181923336, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3538019967575868, "train/policy_logprob_min": -7.438384181923336, "train/policy_logprob_std": 0.9662527350915803, "train/policy_randomness_mag": 0.8485548554195298, "train/policy_randomness_max": 0.8485548554195298, "train/policy_randomness_mean": 0.124705220055249, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15776108536455366, "train/post_ent_mag": 54.49295128716363, "train/post_ent_max": 54.49295128716363, "train/post_ent_mean": 40.63474231296115, "train/post_ent_min": 18.876417226261562, "train/post_ent_std": 5.5703478587998285, "train/prior_ent_mag": 76.18489593929715, "train/prior_ent_max": 76.18489593929715, "train/prior_ent_mean": 45.39591439565023, "train/prior_ent_min": 27.61485719680786, "train/prior_ent_std": 7.287706712881724, "train/rep_loss_mean": 4.782484508223003, "train/rep_loss_std": 8.569214211569893, "train/reward_avg": 0.02943793372509794, "train/reward_loss_mean": 0.04689471159751216, "train/reward_loss_std": 0.20011515894697773, "train/reward_max_data": 1.0194444490803614, "train/reward_max_pred": 1.0179619325531855, "train/reward_neg_acc": 0.9953759734829267, "train/reward_neg_loss": 0.02199395751166675, "train/reward_pos_acc": 0.9860975013838874, "train/reward_pos_loss": 0.7423860761854384, "train/reward_pred": 0.02909224494619088, "train/reward_rate": 0.0345458984375, "stats/sum_log_reward": 7.877778026792738, "stats/max_log_achievement_collect_coal": 0.1111111111111111, "stats/max_log_achievement_collect_drink": 3.3333333333333335, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 5.222222222222222, "stats/max_log_achievement_collect_wood": 9.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.2222222222222222, "stats/max_log_achievement_eat_cow": 0.1111111111111111, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.8888888888888888, "stats/max_log_achievement_make_wood_sword": 0.7777777777777778, "stats/max_log_achievement_place_furnace": 0.2222222222222222, "stats/max_log_achievement_place_plant": 1.4444444444444444, "stats/max_log_achievement_place_stone": 3.3333333333333335, "stats/max_log_achievement_place_table": 2.2222222222222223, "stats/max_log_achievement_wake_up": 1.2222222222222223, "stats/mean_log_entropy": 0.2824610273043315, "replay/size": 327944.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.842335173537611e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2395018971832104e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.293555021286, "timer/env.step_count": 1432.0, "timer/env.step_total": 21.52325439453125, "timer/env.step_frac": 0.07167404706040259, "timer/env.step_avg": 0.01503020558277322, "timer/env.step_min": 0.002939462661743164, "timer/env.step_max": 1.6735122203826904, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.27942991256713867, "timer/replay.add_frac": 0.0009305225100396563, "timer/replay.add_avg": 0.0001951326205077784, "timer/replay.add_min": 7.271766662597656e-05, "timer/replay.add_max": 0.00534510612487793, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029597043991088867, "timer/logger.write_frac": 9.856037033159406e-05, "timer/logger.write_avg": 0.029597043991088867, "timer/logger.write_min": 0.029597043991088867, "timer/logger.write_max": 0.029597043991088867, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 10.831144332885742, "timer/agent.policy_frac": 0.03606852079165664, "timer/agent.policy_avg": 0.007563648277154848, "timer/agent.policy_min": 0.0057048797607421875, "timer/agent.policy_max": 0.02547430992126465, "timer/dataset_count": 716.0, "timer/dataset_total": 0.0673067569732666, "timer/dataset_frac": 0.00022413653522632422, "timer/dataset_avg": 9.400385052132207e-05, "timer/dataset_min": 6.699562072753906e-05, "timer/dataset_max": 0.00018858909606933594, "timer/agent.train_count": 716.0, "timer/agent.train_total": 266.8708369731903, "timer/agent.train_frac": 0.8886998489004315, "timer/agent.train_avg": 0.37272463264412053, "timer/agent.train_min": 0.3654763698577881, "timer/agent.train_max": 0.3849642276763916, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20184683799743652, "timer/agent.report_frac": 0.000672165068554764, "timer/agent.report_avg": 0.20184683799743652, "timer/agent.report_min": 0.20184683799743652, "timer/agent.report_max": 0.20184683799743652, "fps": 4.768584899190682}
{"step": 328122, "episode/length": 143.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.0763888888888889}
{"step": 328407, "episode/length": 284.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.042105263157894736}
{"step": 328573, "episode/length": 165.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.04819277108433735}
{"step": 328639, "episode/length": 65.0, "episode/score": 4.100000023841858, "episode/sum_abs_reward": 5.5, "episode/reward_rate": 0.09090909090909091}
{"step": 328822, "episode/length": 182.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.500000022351742, "episode/reward_rate": 0.04371584699453552}
{"step": 329122, "episode/length": 299.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.700000025331974, "episode/reward_rate": 0.02}
{"step": 329359, "episode/length": 236.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.0379746835443038}
{"step": 329453, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.442139519585504, "train/action_min": 0.0, "train/action_std": 3.2929556137985654, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04409569388048516, "train/actor_opt_grad_steps": 163815.0, "train/actor_opt_loss": -12.844160853574673, "train/adv_mag": 0.44067293364140725, "train/adv_max": 0.3958438274761041, "train/adv_mean": 0.0022648949918928135, "train/adv_min": -0.3583532470381922, "train/adv_std": 0.049056201707571745, "train/cont_avg": 0.9946560329861112, "train/cont_loss_mean": 3.8067800358692556e-05, "train/cont_loss_std": 0.0010417297704524093, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0005777413611175083, "train/cont_pos_acc": 0.9999863538477156, "train/cont_pos_loss": 3.448769292290087e-05, "train/cont_pred": 0.9946369727452596, "train/cont_rate": 0.9946560329861112, "train/dyn_loss_mean": 4.762419597970115, "train/dyn_loss_std": 8.556576000319588, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.028362134264575, "train/extr_critic_critic_opt_grad_steps": 163815.0, "train/extr_critic_critic_opt_loss": 15929.916164822049, "train/extr_critic_mag": 9.502313084072536, "train/extr_critic_max": 9.502313084072536, "train/extr_critic_mean": 2.634854934281773, "train/extr_critic_min": -0.5645064363876978, "train/extr_critic_std": 2.386128548118803, "train/extr_return_normed_mag": 1.4373254477977753, "train/extr_return_normed_max": 1.4373254477977753, "train/extr_return_normed_mean": 0.39193805928031605, "train/extr_return_normed_min": -0.09263884312369758, "train/extr_return_normed_std": 0.335940664427148, "train/extr_return_rate": 0.7459662920898862, "train/extr_return_raw_mag": 10.182371894518534, "train/extr_return_raw_max": 10.182371894518534, "train/extr_return_raw_mean": 2.6511554386880665, "train/extr_return_raw_min": -0.8400085808502303, "train/extr_return_raw_std": 2.4199753171867795, "train/extr_reward_mag": 1.0365076031949785, "train/extr_reward_max": 1.0365076031949785, "train/extr_reward_mean": 0.044669374668349825, "train/extr_reward_min": -0.6555212173197005, "train/extr_reward_std": 0.2059272862970829, "train/image_loss_mean": 2.8280556036366358, "train/image_loss_std": 7.766964932282765, "train/model_loss_mean": 5.73118711842431, "train/model_loss_std": 11.863980253537497, "train/model_opt_grad_norm": 32.19887864589691, "train/model_opt_grad_steps": 163683.0, "train/model_opt_loss": 12683.012213812934, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2222.222222222222, "train/policy_entropy_mag": 2.4321860803498163, "train/policy_entropy_max": 2.4321860803498163, "train/policy_entropy_mean": 0.35386387734777397, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.45439683232042527, "train/policy_logprob_mag": 7.4383842084142895, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3539037872105837, "train/policy_logprob_min": -7.4383842084142895, "train/policy_logprob_std": 0.9669065723816553, "train/policy_randomness_mag": 0.8584549501538277, "train/policy_randomness_max": 0.8584549501538277, "train/policy_randomness_mean": 0.12489841878414154, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16038214249743354, "train/post_ent_mag": 54.5624418258667, "train/post_ent_max": 54.5624418258667, "train/post_ent_mean": 40.62103917863634, "train/post_ent_min": 18.7064833773507, "train/post_ent_std": 5.599168207910326, "train/prior_ent_mag": 76.02676465776231, "train/prior_ent_max": 76.02676465776231, "train/prior_ent_mean": 45.32180722554525, "train/prior_ent_min": 27.473976135253906, "train/prior_ent_std": 7.255989280011919, "train/rep_loss_mean": 4.762419597970115, "train/rep_loss_std": 8.556576000319588, "train/reward_avg": 0.03015001066442993, "train/reward_loss_mean": 0.04564174502674076, "train/reward_loss_std": 0.186844775142769, "train/reward_max_data": 1.0208333383003871, "train/reward_max_pred": 1.0221402032507791, "train/reward_neg_acc": 0.9949527283509573, "train/reward_neg_loss": 0.021057330951508548, "train/reward_pos_acc": 0.9885433912277222, "train/reward_pos_loss": 0.725962364839183, "train/reward_pred": 0.029863271293126874, "train/reward_rate": 0.03493923611111111, "stats/sum_log_reward": 7.385714394705636, "stats/max_log_achievement_collect_coal": 0.2857142857142857, "stats/max_log_achievement_collect_drink": 3.857142857142857, "stats/max_log_achievement_collect_sapling": 2.142857142857143, "stats/max_log_achievement_collect_stone": 2.4285714285714284, "stats/max_log_achievement_collect_wood": 8.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.2857142857142857, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.7142857142857143, "stats/max_log_achievement_place_furnace": 0.2857142857142857, "stats/max_log_achievement_place_plant": 2.142857142857143, "stats/max_log_achievement_place_stone": 0.5714285714285714, "stats/max_log_achievement_place_table": 2.2857142857142856, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.32899200703416553, "replay/size": 329390.0, "replay/inserts": 1446.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.815027028528322e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2211326411815765e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1659073829651, "timer/env.step_count": 1446.0, "timer/env.step_total": 18.659541368484497, "timer/env.step_frac": 0.06216409295502644, "timer/env.step_avg": 0.012904247142797025, "timer/env.step_min": 0.002953052520751953, "timer/env.step_max": 1.8391318321228027, "timer/replay.add_count": 1446.0, "timer/replay.add_total": 0.28158044815063477, "timer/replay.add_frac": 0.0009380827110101542, "timer/replay.add_avg": 0.0001947306003807986, "timer/replay.add_min": 7.700920104980469e-05, "timer/replay.add_max": 0.004528522491455078, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02715921401977539, "timer/logger.write_frac": 9.048067535905885e-05, "timer/logger.write_avg": 0.02715921401977539, "timer/logger.write_min": 0.02715921401977539, "timer/logger.write_max": 0.02715921401977539, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1446.0, "timer/agent.policy_total": 10.828933238983154, "timer/agent.policy_frac": 0.0360764929415089, "timer/agent.policy_avg": 0.007488888823639802, "timer/agent.policy_min": 0.0056650638580322266, "timer/agent.policy_max": 0.02022409439086914, "timer/dataset_count": 723.0, "timer/dataset_total": 0.06734132766723633, "timer/dataset_frac": 0.00022434702279935893, "timer/dataset_avg": 9.314153204320377e-05, "timer/dataset_min": 7.104873657226562e-05, "timer/dataset_max": 0.0001811981201171875, "timer/agent.train_count": 723.0, "timer/agent.train_total": 269.6147246360779, "timer/agent.train_frac": 0.8982190115684635, "timer/agent.train_avg": 0.37291109908171216, "timer/agent.train_min": 0.36609482765197754, "timer/agent.train_max": 0.38980937004089355, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20337510108947754, "timer/agent.report_frac": 0.0006775423060621021, "timer/agent.report_avg": 0.20337510108947754, "timer/agent.report_min": 0.20337510108947754, "timer/agent.report_max": 0.20337510108947754, "fps": 4.8172526613572515}
{"step": 329509, "episode/length": 149.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.900000028312206, "episode/reward_rate": 0.06}
{"step": 329702, "episode/length": 192.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.04145077720207254}
{"step": 329951, "episode/length": 248.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 8.899999991059303, "episode/reward_rate": 0.03614457831325301}
{"step": 330062, "episode/length": 110.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.07207207207207207}
{"step": 330309, "episode/length": 246.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.900000013411045, "episode/reward_rate": 0.03643724696356275}
{"step": 330434, "episode/length": 124.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.088}
{"step": 330618, "episode/length": 183.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.05434782608695652}
{"step": 330803, "episode/length": 184.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.500000022351742, "episode/reward_rate": 0.02702702702702703}
{"step": 330869, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.404809226452465, "train/action_min": 0.0, "train/action_std": 3.2755402578434474, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.043352157612081985, "train/actor_opt_grad_steps": 164530.0, "train/actor_opt_loss": -13.803209810189799, "train/adv_mag": 0.4335376414614664, "train/adv_max": 0.40205736269413583, "train/adv_mean": 0.0015286992549436932, "train/adv_min": -0.35028287957251913, "train/adv_std": 0.04761902583946644, "train/cont_avg": 0.9946632922535211, "train/cont_loss_mean": 6.134247442486425e-05, "train/cont_loss_std": 0.0018338236322224602, "train/cont_neg_acc": 0.9982394366197183, "train/cont_neg_loss": 0.002369017275066679, "train/cont_pos_acc": 0.9999723375683099, "train/cont_pos_loss": 4.321793172969489e-05, "train/cont_pred": 0.9946453101198438, "train/cont_rate": 0.9946632922535211, "train/dyn_loss_mean": 4.80692848017518, "train/dyn_loss_std": 8.59178275793371, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0553395051351735, "train/extr_critic_critic_opt_grad_steps": 164530.0, "train/extr_critic_critic_opt_loss": 15974.124917473591, "train/extr_critic_mag": 9.642631759106273, "train/extr_critic_max": 9.642631759106273, "train/extr_critic_mean": 2.542284500431007, "train/extr_critic_min": -0.5696948833868537, "train/extr_critic_std": 2.3862477893560703, "train/extr_return_normed_mag": 1.4203528400877832, "train/extr_return_normed_max": 1.4203528400877832, "train/extr_return_normed_mean": 0.37504498030937894, "train/extr_return_normed_min": -0.08913225433985952, "train/extr_return_normed_std": 0.32948011621622975, "train/extr_return_rate": 0.7256721686309492, "train/extr_return_raw_mag": 10.209916101375097, "train/extr_return_raw_max": 10.209916101375097, "train/extr_return_raw_mean": 2.5535002510312577, "train/extr_return_raw_min": -0.8467742943427932, "train/extr_return_raw_std": 2.413368673391745, "train/extr_reward_mag": 1.0346031222544925, "train/extr_reward_max": 1.0346031222544925, "train/extr_reward_mean": 0.044367407855223605, "train/extr_reward_min": -0.6296652857686432, "train/extr_reward_std": 0.20493231818709576, "train/image_loss_mean": 2.8818239880279757, "train/image_loss_std": 7.774015104266959, "train/model_loss_mean": 5.8136458934192925, "train/model_loss_std": 11.888357041587293, "train/model_opt_grad_norm": 33.466597839140555, "train/model_opt_grad_steps": 164397.5915492958, "train/model_opt_loss": 11555.036504181338, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1989.4366197183099, "train/policy_entropy_mag": 2.4014958764465764, "train/policy_entropy_max": 2.4014958764465764, "train/policy_entropy_mean": 0.34810466413766566, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4434315654593454, "train/policy_logprob_mag": 7.438384150115537, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.34683210455196006, "train/policy_logprob_min": -7.438384150115537, "train/policy_logprob_std": 0.9575355926030119, "train/policy_randomness_mag": 0.8476226531283956, "train/policy_randomness_max": 0.8476226531283956, "train/policy_randomness_mean": 0.12286566942930222, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.15651188161171659, "train/post_ent_mag": 54.74044869651257, "train/post_ent_max": 54.74044869651257, "train/post_ent_mean": 40.68966771515323, "train/post_ent_min": 18.839895651374064, "train/post_ent_std": 5.586792260828153, "train/prior_ent_mag": 76.11603825528857, "train/prior_ent_max": 76.11603825528857, "train/prior_ent_mean": 45.45809076873349, "train/prior_ent_min": 28.10851365747586, "train/prior_ent_std": 7.258145909913829, "train/rep_loss_mean": 4.80692848017518, "train/rep_loss_std": 8.59178275793371, "train/reward_avg": 0.03009325458707524, "train/reward_loss_mean": 0.04760341718792915, "train/reward_loss_std": 0.20017214119434357, "train/reward_max_data": 1.0197183145603663, "train/reward_max_pred": 1.0188179016113281, "train/reward_neg_acc": 0.9952338405058417, "train/reward_neg_loss": 0.02233724234442056, "train/reward_pos_acc": 0.9847332675692061, "train/reward_pos_loss": 0.7435967376534368, "train/reward_pred": 0.029681212413059155, "train/reward_rate": 0.03497744278169014, "stats/sum_log_reward": 7.475000023841858, "stats/max_log_achievement_collect_coal": 0.25, "stats/max_log_achievement_collect_drink": 2.375, "stats/max_log_achievement_collect_sapling": 1.75, "stats/max_log_achievement_collect_stone": 4.75, "stats/max_log_achievement_collect_wood": 8.25, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.125, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.75, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 0.25, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 3.125, "stats/max_log_achievement_place_table": 2.75, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.34468158334493637, "replay/size": 330806.0, "replay/inserts": 1416.0, "replay/samples": 11328.0, "replay/insert_wait_avg": 3.846688459148515e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2032266727275094e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 299.9900996685028, "timer/env.step_count": 1416.0, "timer/env.step_total": 20.29236364364624, "timer/env.step_frac": 0.06764344445389982, "timer/env.step_avg": 0.014330765285060904, "timer/env.step_min": 0.0030808448791503906, "timer/env.step_max": 2.1893253326416016, "timer/replay.add_count": 1416.0, "timer/replay.add_total": 0.293093204498291, "timer/replay.add_frac": 0.0009770095907237172, "timer/replay.add_avg": 0.000206986726340601, "timer/replay.add_min": 7.843971252441406e-05, "timer/replay.add_max": 0.00531315803527832, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030879497528076172, "timer/logger.write_frac": 0.00010293505539749096, "timer/logger.write_avg": 0.030879497528076172, "timer/logger.write_min": 0.030879497528076172, "timer/logger.write_max": 0.030879497528076172, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00046181678771972656, "timer/checkpoint.save_frac": 1.5394400956233111e-06, "timer/checkpoint.save_avg": 0.00046181678771972656, "timer/checkpoint.save_min": 0.00046181678771972656, "timer/checkpoint.save_max": 0.00046181678771972656, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.356532096862793, "timer/agent.save_frac": 0.004521922884661187, "timer/agent.save_avg": 1.356532096862793, "timer/agent.save_min": 1.356532096862793, "timer/agent.save_max": 1.356532096862793, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.605552673339844e-05, "timer/replay.save_frac": 2.5352678910884677e-07, "timer/replay.save_avg": 7.605552673339844e-05, "timer/replay.save_min": 7.605552673339844e-05, "timer/replay.save_max": 7.605552673339844e-05, "timer/agent.policy_count": 1416.0, "timer/agent.policy_total": 14.844614267349243, "timer/agent.policy_frac": 0.04948368057396876, "timer/agent.policy_avg": 0.010483484652082799, "timer/agent.policy_min": 0.005650997161865234, "timer/agent.policy_max": 2.9068799018859863, "timer/dataset_count": 708.0, "timer/dataset_total": 0.06525278091430664, "timer/dataset_frac": 0.00021751644799749303, "timer/dataset_avg": 9.216494479421841e-05, "timer/dataset_min": 6.461143493652344e-05, "timer/dataset_max": 0.00021409988403320312, "timer/agent.train_count": 708.0, "timer/agent.train_total": 263.7875702381134, "timer/agent.train_frac": 0.8793209193556915, "timer/agent.train_avg": 0.3725813138956404, "timer/agent.train_min": 0.3656806945800781, "timer/agent.train_max": 0.38462162017822266, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2014777660369873, "timer/agent.report_frac": 0.0006716147174844294, "timer/agent.report_avg": 0.2014777660369873, "timer/agent.report_min": 0.2014777660369873, "timer/agent.report_max": 0.2014777660369873, "fps": 4.7200762389735225}
{"step": 331222, "episode/length": 418.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.028639618138424822}
{"step": 331467, "episode/length": 244.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.700000002980232, "episode/reward_rate": 0.04897959183673469}
{"step": 331629, "episode/length": 161.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.07407407407407407}
{"step": 331678, "episode/length": 48.0, "episode/score": 3.0999999940395355, "episode/sum_abs_reward": 4.9000000059604645, "episode/reward_rate": 0.10204081632653061}
{"step": 331875, "episode/length": 196.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 10.500000037252903, "episode/reward_rate": 0.04060913705583756}
{"step": 332087, "episode/length": 211.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.900000028312206, "episode/reward_rate": 0.04716981132075472}
{"step": 332325, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.468735786333476, "train/action_min": 0.0, "train/action_std": 3.3134841886285233, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.044253860944754454, "train/actor_opt_grad_steps": 165250.0, "train/actor_opt_loss": -13.62138633205466, "train/adv_mag": 0.42935750255845995, "train/adv_max": 0.39527227862240516, "train/adv_mean": 0.0012971106856365286, "train/adv_min": -0.3605777539619028, "train/adv_std": 0.04845422138906505, "train/cont_avg": 0.9944750642123288, "train/cont_loss_mean": 3.0853998986433545e-05, "train/cont_loss_std": 0.0008249489307504581, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00021317879929471292, "train/cont_pos_acc": 0.9999865285337788, "train/cont_pos_loss": 2.965449581036609e-05, "train/cont_pred": 0.9944578049934074, "train/cont_rate": 0.9944750642123288, "train/dyn_loss_mean": 4.843832858621258, "train/dyn_loss_std": 8.687017120727122, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0501738353951338, "train/extr_critic_critic_opt_grad_steps": 165250.0, "train/extr_critic_critic_opt_loss": 15847.273183326199, "train/extr_critic_mag": 9.743588421442738, "train/extr_critic_max": 9.743588421442738, "train/extr_critic_mean": 2.467767452540463, "train/extr_critic_min": -0.5548593720344648, "train/extr_critic_std": 2.3686501244976097, "train/extr_return_normed_mag": 1.4731597786080348, "train/extr_return_normed_max": 1.4731597786080348, "train/extr_return_normed_mean": 0.3664890723685696, "train/extr_return_normed_min": -0.09147932666213546, "train/extr_return_normed_std": 0.3306370357128039, "train/extr_return_rate": 0.7185056719877948, "train/extr_return_raw_mag": 10.500337025890612, "train/extr_return_raw_max": 10.500337025890612, "train/extr_return_raw_mean": 2.4771931138757157, "train/extr_return_raw_min": -0.8416412840150806, "train/extr_return_raw_std": 2.396525077623864, "train/extr_reward_mag": 1.036921791834374, "train/extr_reward_max": 1.036921791834374, "train/extr_reward_mean": 0.04295217682135432, "train/extr_reward_min": -0.644177498882764, "train/extr_reward_std": 0.2027504707444204, "train/image_loss_mean": 2.9602034091949463, "train/image_loss_std": 7.794533109011716, "train/model_loss_mean": 5.9123394325987935, "train/model_loss_std": 11.983978023267772, "train/model_opt_grad_norm": 34.88609121923577, "train/model_opt_grad_steps": 165117.0, "train/model_opt_loss": 7565.452676851455, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1284.2465753424658, "train/policy_entropy_mag": 2.421697779877545, "train/policy_entropy_max": 2.421697779877545, "train/policy_entropy_mean": 0.3644154030982762, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.46302650726004824, "train/policy_logprob_mag": 7.438384206327673, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36350776357193515, "train/policy_logprob_min": -7.438384206327673, "train/policy_logprob_std": 0.9730650260023874, "train/policy_randomness_mag": 0.8547530419205966, "train/policy_randomness_max": 0.8547530419205966, "train/policy_randomness_mean": 0.12862264630320955, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16342803621537064, "train/post_ent_mag": 55.03545405766735, "train/post_ent_max": 55.03545405766735, "train/post_ent_mean": 40.790003214796926, "train/post_ent_min": 18.79394795143441, "train/post_ent_std": 5.627177088227991, "train/prior_ent_mag": 76.0296442737318, "train/prior_ent_max": 76.0296442737318, "train/prior_ent_mean": 45.6028938293457, "train/prior_ent_min": 27.62094103146906, "train/prior_ent_std": 7.279144143405026, "train/rep_loss_mean": 4.843832858621258, "train/rep_loss_std": 8.687017120727122, "train/reward_avg": 0.0284045908268388, "train/reward_loss_mean": 0.045805475330107835, "train/reward_loss_std": 0.18630863481188473, "train/reward_max_data": 1.0178082234238925, "train/reward_max_pred": 1.019171309797731, "train/reward_neg_acc": 0.995199154501092, "train/reward_neg_loss": 0.02237856172484486, "train/reward_pos_acc": 0.9903384055176826, "train/reward_pos_loss": 0.7230809306445187, "train/reward_pred": 0.028198573814883623, "train/reward_rate": 0.03345729880136986, "stats/sum_log_reward": 8.600000301996866, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 3.1666666666666665, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 6.833333333333333, "stats/max_log_achievement_collect_wood": 9.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.16666666666666666, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 0.8333333333333334, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 2.0, "stats/max_log_achievement_place_table": 1.8333333333333333, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.37612706422805786, "replay/size": 332262.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.967147607069749e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2140147961102998e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.288804769516, "timer/env.step_count": 1456.0, "timer/env.step_total": 16.877313375473022, "timer/env.step_frac": 0.05620360502092995, "timer/env.step_avg": 0.011591561384253449, "timer/env.step_min": 0.0028123855590820312, "timer/env.step_max": 1.6541833877563477, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.28667712211608887, "timer/replay.add_frac": 0.0009546713615784823, "timer/replay.add_avg": 0.0001968936278269841, "timer/replay.add_min": 7.605552673339844e-05, "timer/replay.add_max": 0.006843090057373047, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030306577682495117, "timer/logger.write_frac": 0.00010092476709465297, "timer/logger.write_avg": 0.030306577682495117, "timer/logger.write_min": 0.030306577682495117, "timer/logger.write_max": 0.030306577682495117, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 11.006680488586426, "timer/agent.policy_frac": 0.036653649132988846, "timer/agent.policy_avg": 0.007559533302600567, "timer/agent.policy_min": 0.005733013153076172, "timer/agent.policy_max": 0.017309188842773438, "timer/dataset_count": 728.0, "timer/dataset_total": 0.06820988655090332, "timer/dataset_frac": 0.00022714761745199662, "timer/dataset_avg": 9.369489910838368e-05, "timer/dataset_min": 7.05718994140625e-05, "timer/dataset_max": 0.00020647048950195312, "timer/agent.train_count": 728.0, "timer/agent.train_total": 271.33359384536743, "timer/agent.train_frac": 0.9035754564797284, "timer/agent.train_avg": 0.3727109805568234, "timer/agent.train_min": 0.36599278450012207, "timer/agent.train_max": 0.3887593746185303, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20067214965820312, "timer/agent.report_frac": 0.0006682638395801244, "timer/agent.report_avg": 0.20067214965820312, "timer/agent.report_min": 0.20067214965820312, "timer/agent.report_max": 0.20067214965820312, "fps": 4.8485634625714225}
{"step": 332325, "episode/length": 237.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.05042016806722689}
{"step": 332448, "episode/length": 122.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.30000001937151, "episode/reward_rate": 0.056910569105691054}
{"step": 332603, "episode/length": 154.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.04516129032258064}
{"step": 332778, "episode/length": 174.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.05142857142857143}
{"step": 332977, "episode/length": 198.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.06030150753768844}
{"step": 333131, "episode/length": 153.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.06493506493506493}
{"step": 333303, "episode/length": 171.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06395348837209303}
{"step": 333499, "episode/length": 195.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.05102040816326531}
{"step": 333763, "stats/sum_log_reward": 8.850000202655792, "stats/max_log_achievement_collect_coal": 0.75, "stats/max_log_achievement_collect_drink": 2.25, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 6.875, "stats/max_log_achievement_collect_wood": 7.875, "stats/max_log_achievement_defeat_skeleton": 0.25, "stats/max_log_achievement_defeat_zombie": 0.25, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.125, "stats/max_log_achievement_make_wood_sword": 0.625, "stats/max_log_achievement_place_furnace": 0.625, "stats/max_log_achievement_place_plant": 1.25, "stats/max_log_achievement_place_stone": 3.5, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.2928117383271456, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.3563791910807295, "train/action_min": 0.0, "train/action_std": 3.241534130440818, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.043986045082824096, "train/actor_opt_grad_steps": 165975.0, "train/actor_opt_loss": -14.583865287817186, "train/adv_mag": 0.42599355967508423, "train/adv_max": 0.3926847324603134, "train/adv_mean": 0.0015296064822097025, "train/adv_min": -0.3574953021274673, "train/adv_std": 0.048570103529426784, "train/cont_avg": 0.9944118923611112, "train/cont_loss_mean": 6.294062045755468e-05, "train/cont_loss_std": 0.0019125900843022237, "train/cont_neg_acc": 0.9982394366197183, "train/cont_neg_loss": 0.002387451173586336, "train/cont_pos_acc": 0.9999863786829842, "train/cont_pos_loss": 4.5117180953605875e-05, "train/cont_pred": 0.9943940134512054, "train/cont_rate": 0.9944118923611112, "train/dyn_loss_mean": 4.786817298995124, "train/dyn_loss_std": 8.628693872027927, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0190732379754384, "train/extr_critic_critic_opt_grad_steps": 165975.0, "train/extr_critic_critic_opt_loss": 15836.648844401041, "train/extr_critic_mag": 9.341225193606483, "train/extr_critic_max": 9.341225193606483, "train/extr_critic_mean": 2.4335619625118046, "train/extr_critic_min": -0.5791696988874011, "train/extr_critic_std": 2.26472640534242, "train/extr_return_normed_mag": 1.437349842654334, "train/extr_return_normed_max": 1.437349842654334, "train/extr_return_normed_mean": 0.37686435216002995, "train/extr_return_normed_min": -0.09779725244475736, "train/extr_return_normed_std": 0.32819216408663326, "train/extr_return_rate": 0.7292779270145628, "train/extr_return_raw_mag": 9.842643148369259, "train/extr_return_raw_max": 9.842643148369259, "train/extr_return_raw_mean": 2.4442466613319187, "train/extr_return_raw_min": -0.8692331661780676, "train/extr_return_raw_std": 2.290238357252545, "train/extr_reward_mag": 1.0345014896657732, "train/extr_reward_max": 1.0345014896657732, "train/extr_reward_mean": 0.04213969952737292, "train/extr_reward_min": -0.6490551994906532, "train/extr_reward_std": 0.20124306405584017, "train/image_loss_mean": 2.9294215655989118, "train/image_loss_std": 7.3530395395225945, "train/model_loss_mean": 5.849151531855266, "train/model_loss_std": 11.508705291483137, "train/model_opt_grad_norm": 33.06476782427894, "train/model_opt_grad_steps": 165841.86111111112, "train/model_opt_loss": 13568.65872531467, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2326.3888888888887, "train/policy_entropy_mag": 2.452557020717197, "train/policy_entropy_max": 2.452557020717197, "train/policy_entropy_mean": 0.34830430812305874, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4558006872733434, "train/policy_logprob_mag": 7.438384234905243, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.34838552876479095, "train/policy_logprob_min": -7.438384234905243, "train/policy_logprob_std": 0.9633044575651487, "train/policy_randomness_mag": 0.8656449996762805, "train/policy_randomness_max": 0.8656449996762805, "train/policy_randomness_mean": 0.12293613433010048, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16087763911734024, "train/post_ent_mag": 55.05272187127007, "train/post_ent_max": 55.05272187127007, "train/post_ent_mean": 40.82087988323636, "train/post_ent_min": 19.140124771330093, "train/post_ent_std": 5.616715715991126, "train/prior_ent_mag": 76.0738951365153, "train/prior_ent_max": 76.0738951365153, "train/prior_ent_mean": 45.55968613094754, "train/prior_ent_min": 27.75360992219713, "train/prior_ent_std": 7.285024497244093, "train/rep_loss_mean": 4.786817298995124, "train/rep_loss_std": 8.628693872027927, "train/reward_avg": 0.02930908189672563, "train/reward_loss_mean": 0.04757665312435064, "train/reward_loss_std": 0.20109746046364307, "train/reward_max_data": 1.0111111137602065, "train/reward_max_pred": 1.012611107693778, "train/reward_neg_acc": 0.995079807109303, "train/reward_neg_loss": 0.02297308011394408, "train/reward_pos_acc": 0.9861962969104449, "train/reward_pos_loss": 0.7388665667838521, "train/reward_pred": 0.028968003927730024, "train/reward_rate": 0.03431532118055555, "replay/size": 333700.0, "replay/inserts": 1438.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.791817040370469e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.259510805610158e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0166988372803, "timer/env.step_count": 1438.0, "timer/env.step_total": 20.267175674438477, "timer/env.step_frac": 0.06755349203222438, "timer/env.step_avg": 0.014094002555242334, "timer/env.step_min": 0.002856731414794922, "timer/env.step_max": 1.7119643688201904, "timer/replay.add_count": 1438.0, "timer/replay.add_total": 0.25700855255126953, "timer/replay.add_frac": 0.0008566474917806591, "timer/replay.add_avg": 0.00017872639259476324, "timer/replay.add_min": 8.034706115722656e-05, "timer/replay.add_max": 0.002421855926513672, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028756380081176758, "timer/logger.write_frac": 9.584926503298846e-05, "timer/logger.write_avg": 0.028756380081176758, "timer/logger.write_min": 0.028756380081176758, "timer/logger.write_max": 0.028756380081176758, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1438.0, "timer/agent.policy_total": 10.709948539733887, "timer/agent.policy_frac": 0.03569784142429562, "timer/agent.policy_avg": 0.007447808442095888, "timer/agent.policy_min": 0.00555419921875, "timer/agent.policy_max": 0.01860332489013672, "timer/dataset_count": 719.0, "timer/dataset_total": 0.06626701354980469, "timer/dataset_frac": 0.00022087775049396785, "timer/dataset_avg": 9.216552649486048e-05, "timer/dataset_min": 6.699562072753906e-05, "timer/dataset_max": 0.00019741058349609375, "timer/agent.train_count": 719.0, "timer/agent.train_total": 267.98620343208313, "timer/agent.train_frac": 0.8932376246744536, "timer/agent.train_avg": 0.37272072800011563, "timer/agent.train_min": 0.36649060249328613, "timer/agent.train_max": 0.38689374923706055, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20287489891052246, "timer/agent.report_frac": 0.000676212023186601, "timer/agent.report_avg": 0.20287489891052246, "timer/agent.report_min": 0.20287489891052246, "timer/agent.report_max": 0.20287489891052246, "fps": 4.792988074271638}
{"step": 333823, "episode/length": 323.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.030864197530864196}
{"step": 334080, "episode/length": 256.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.023346303501945526}
{"step": 334248, "episode/length": 167.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.047619047619047616}
{"step": 334457, "episode/length": 208.0, "episode/score": 8.099999971687794, "episode/sum_abs_reward": 10.500000037252903, "episode/reward_rate": 0.04784688995215311}
{"step": 334615, "episode/length": 157.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.056962025316455694}
{"step": 334787, "episode/length": 171.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.700000025331974, "episode/reward_rate": 0.05232558139534884}
{"step": 334956, "episode/length": 168.0, "episode/score": 10.099999994039536, "episode/sum_abs_reward": 11.900000005960464, "episode/reward_rate": 0.07100591715976332}
{"step": 335185, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.359929474306778, "train/action_min": 0.0, "train/action_std": 3.3052185958539937, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04524494681349942, "train/actor_opt_grad_steps": 166690.0, "train/actor_opt_loss": -13.695142083604571, "train/adv_mag": 0.4430611330858419, "train/adv_max": 0.3857211327888596, "train/adv_mean": 0.00245830796351148, "train/adv_min": -0.3902704633877311, "train/adv_std": 0.04961074589633606, "train/cont_avg": 0.9944707306338029, "train/cont_loss_mean": 6.748871418973838e-05, "train/cont_loss_std": 0.002137808524244353, "train/cont_neg_acc": 0.9966465469817041, "train/cont_neg_loss": 0.007147574277701417, "train/cont_pos_acc": 0.9999861347843224, "train/cont_pos_loss": 1.880254881619992e-05, "train/cont_pred": 0.9944813385815687, "train/cont_rate": 0.9944707306338029, "train/dyn_loss_mean": 4.767782392636152, "train/dyn_loss_std": 8.573071191008662, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0118214832225316, "train/extr_critic_critic_opt_grad_steps": 166690.0, "train/extr_critic_critic_opt_loss": 15918.590751540492, "train/extr_critic_mag": 9.40669356601339, "train/extr_critic_max": 9.40669356601339, "train/extr_critic_mean": 2.492123477895495, "train/extr_critic_min": -0.5799097595080523, "train/extr_critic_std": 2.3318972470055166, "train/extr_return_normed_mag": 1.4388353102643725, "train/extr_return_normed_max": 1.4388353102643725, "train/extr_return_normed_mean": 0.3794057155159158, "train/extr_return_normed_min": -0.09274773966048805, "train/extr_return_normed_std": 0.3325598336441416, "train/extr_return_rate": 0.7241041668703858, "train/extr_return_raw_mag": 10.06164228412467, "train/extr_return_raw_max": 10.06164228412467, "train/extr_return_raw_mean": 2.509593574094101, "train/extr_return_raw_min": -0.8558080800822083, "train/extr_return_raw_std": 2.3712077124018065, "train/extr_reward_mag": 1.0345034129183057, "train/extr_reward_max": 1.0345034129183057, "train/extr_reward_mean": 0.04238251580948561, "train/extr_reward_min": -0.6589424929148714, "train/extr_reward_std": 0.20031074298099733, "train/image_loss_mean": 2.8862240314483643, "train/image_loss_std": 8.001269897944491, "train/model_loss_mean": 5.793551337551063, "train/model_loss_std": 12.109358250255315, "train/model_opt_grad_norm": 30.394641124026876, "train/model_opt_grad_steps": 166556.0, "train/model_opt_loss": 7241.93916428257, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.4319225499327755, "train/policy_entropy_max": 2.4319225499327755, "train/policy_entropy_mean": 0.3546364359872442, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4645482969116157, "train/policy_logprob_mag": 7.438384230707733, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.35417835141571474, "train/policy_logprob_min": -7.438384230707733, "train/policy_logprob_std": 0.9660604226757104, "train/policy_randomness_mag": 0.8583619359513404, "train/policy_randomness_max": 0.8583619359513404, "train/policy_randomness_mean": 0.12517110069452878, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16396516194226038, "train/post_ent_mag": 54.52694240086515, "train/post_ent_max": 54.52694240086515, "train/post_ent_mean": 40.718850901429086, "train/post_ent_min": 19.018275690750336, "train/post_ent_std": 5.565419385130976, "train/prior_ent_mag": 76.21760935178945, "train/prior_ent_max": 76.21760935178945, "train/prior_ent_mean": 45.46041853998749, "train/prior_ent_min": 28.147297818895797, "train/prior_ent_std": 7.248652149254168, "train/rep_loss_mean": 4.767782392636152, "train/rep_loss_std": 8.573071191008662, "train/reward_avg": 0.029504566414045617, "train/reward_loss_mean": 0.04659044884250198, "train/reward_loss_std": 0.20068803450591127, "train/reward_max_data": 1.015492961440288, "train/reward_max_pred": 1.014502528687598, "train/reward_neg_acc": 0.9955118029889926, "train/reward_neg_loss": 0.02169366524567906, "train/reward_pos_acc": 0.9860469715695985, "train/reward_pos_loss": 0.7460111900114678, "train/reward_pred": 0.029095082635610874, "train/reward_rate": 0.03439975792253521, "stats/sum_log_reward": 7.95714317049299, "stats/max_log_achievement_collect_coal": 0.14285714285714285, "stats/max_log_achievement_collect_drink": 3.4285714285714284, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 7.428571428571429, "stats/max_log_achievement_collect_wood": 7.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.2857142857142857, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.7142857142857143, "stats/max_log_achievement_place_furnace": 0.5714285714285714, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 3.857142857142857, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.36034759879112244, "replay/size": 335122.0, "replay/inserts": 1422.0, "replay/samples": 11376.0, "replay/insert_wait_avg": 3.810505659100711e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2077066298107894e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0282566547394, "timer/env.step_count": 1422.0, "timer/env.step_total": 21.388723134994507, "timer/env.step_frac": 0.07128902915170354, "timer/env.step_avg": 0.015041296156817515, "timer/env.step_min": 0.003021717071533203, "timer/env.step_max": 2.8334720134735107, "timer/replay.add_count": 1422.0, "timer/replay.add_total": 0.2904324531555176, "timer/replay.add_frac": 0.0009680170007778158, "timer/replay.add_avg": 0.00020424223147364105, "timer/replay.add_min": 7.2479248046875e-05, "timer/replay.add_max": 0.008502483367919922, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02903580665588379, "timer/logger.write_frac": 9.677690688079771e-05, "timer/logger.write_avg": 0.02903580665588379, "timer/logger.write_min": 0.02903580665588379, "timer/logger.write_max": 0.02903580665588379, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00019860267639160156, "timer/checkpoint.save_frac": 6.619465733194112e-07, "timer/checkpoint.save_avg": 0.00019860267639160156, "timer/checkpoint.save_min": 0.00019860267639160156, "timer/checkpoint.save_max": 0.00019860267639160156, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.375366449356079, "timer/agent.save_frac": 0.00458412305791183, "timer/agent.save_avg": 1.375366449356079, "timer/agent.save_min": 1.375366449356079, "timer/agent.save_max": 1.375366449356079, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.341934204101562e-05, "timer/replay.save_frac": 2.1137789736250106e-07, "timer/replay.save_avg": 6.341934204101562e-05, "timer/replay.save_min": 6.341934204101562e-05, "timer/replay.save_max": 6.341934204101562e-05, "timer/agent.policy_count": 1422.0, "timer/agent.policy_total": 12.033329963684082, "timer/agent.policy_frac": 0.040107322216425635, "timer/agent.policy_avg": 0.008462257358427625, "timer/agent.policy_min": 0.005645751953125, "timer/agent.policy_max": 1.3659508228302002, "timer/dataset_count": 711.0, "timer/dataset_total": 0.06714200973510742, "timer/dataset_frac": 0.00022378562100692996, "timer/dataset_avg": 9.443320637849145e-05, "timer/dataset_min": 7.104873657226562e-05, "timer/dataset_max": 0.0011324882507324219, "timer/agent.train_count": 711.0, "timer/agent.train_total": 265.55070519447327, "timer/agent.train_frac": 0.8850856521159555, "timer/agent.train_avg": 0.37348903684173457, "timer/agent.train_min": 0.36603522300720215, "timer/agent.train_max": 0.938164234161377, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20105814933776855, "timer/agent.report_frac": 0.0006701307122853375, "timer/agent.report_avg": 0.20105814933776855, "timer/agent.report_min": 0.20105814933776855, "timer/agent.report_max": 0.20105814933776855, "fps": 4.739449575166529}
{"step": 335186, "episode/length": 229.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.034782608695652174}
{"step": 335419, "episode/length": 232.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.04291845493562232}
{"step": 335659, "episode/length": 239.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.0375}
{"step": 335822, "episode/length": 162.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.06748466257668712}
{"step": 335932, "episode/length": 109.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.05454545454545454}
{"step": 336128, "episode/length": 195.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.030612244897959183}
{"step": 336548, "episode/length": 419.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.02857142857142857}
{"step": 336633, "stats/sum_log_reward": 7.957143102373395, "stats/max_log_achievement_collect_coal": 0.8571428571428571, "stats/max_log_achievement_collect_drink": 4.571428571428571, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 10.285714285714286, "stats/max_log_achievement_collect_wood": 11.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.2857142857142857, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.2857142857142858, "stats/max_log_achievement_place_furnace": 0.7142857142857143, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 6.714285714285714, "stats/max_log_achievement_place_table": 2.5714285714285716, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.3964629130704062, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.439606560601129, "train/action_min": 0.0, "train/action_std": 3.375918404923545, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0433543402598136, "train/actor_opt_grad_steps": 167405.0, "train/actor_opt_loss": -15.386053777403301, "train/adv_mag": 0.46674873265955186, "train/adv_max": 0.42912942295273143, "train/adv_mean": 0.0010160930230287907, "train/adv_min": -0.351972668328219, "train/adv_std": 0.04837593244802621, "train/cont_avg": 0.9945068359375, "train/cont_loss_mean": 8.983004532719323e-06, "train/cont_loss_std": 0.00023529779489292777, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0003882095428669648, "train/cont_pos_acc": 0.9999999784761004, "train/cont_pos_loss": 6.7532689107036644e-06, "train/cont_pred": 0.994502472380797, "train/cont_rate": 0.9945068359375, "train/dyn_loss_mean": 4.768180297480689, "train/dyn_loss_std": 8.66024030579461, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0036566994256444, "train/extr_critic_critic_opt_grad_steps": 167405.0, "train/extr_critic_critic_opt_loss": 16010.083984375, "train/extr_critic_mag": 9.769385245111254, "train/extr_critic_max": 9.769385245111254, "train/extr_critic_mean": 2.4086153689357968, "train/extr_critic_min": -0.5634588781330321, "train/extr_critic_std": 2.379494610759947, "train/extr_return_normed_mag": 1.459292588962449, "train/extr_return_normed_max": 1.459292588962449, "train/extr_return_normed_mean": 0.361474610451195, "train/extr_return_normed_min": -0.09676550551214153, "train/extr_return_normed_std": 0.33388128048843807, "train/extr_return_rate": 0.6966878618631098, "train/extr_return_raw_mag": 10.319943851894802, "train/extr_return_raw_max": 10.319943851894802, "train/extr_return_raw_mean": 2.4159319400787354, "train/extr_return_raw_min": -0.8836796830097834, "train/extr_return_raw_std": 2.403791591525078, "train/extr_reward_mag": 1.0368125471803877, "train/extr_reward_max": 1.0368125471803877, "train/extr_reward_mean": 0.04238378225515286, "train/extr_reward_min": -0.6606407513221105, "train/extr_reward_std": 0.20112104465564093, "train/image_loss_mean": 2.9223244703478284, "train/image_loss_std": 7.996538996696472, "train/model_loss_mean": 5.830644885698955, "train/model_loss_std": 12.133957438998753, "train/model_opt_grad_norm": 33.58537071281009, "train/model_opt_grad_steps": 167271.0, "train/model_opt_loss": 12619.079481336805, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2170.1388888888887, "train/policy_entropy_mag": 2.4143914911482067, "train/policy_entropy_max": 2.4143914911482067, "train/policy_entropy_mean": 0.3623717572126124, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4721814700298839, "train/policy_logprob_mag": 7.438384201791552, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3628936799036132, "train/policy_logprob_min": -7.438384201791552, "train/policy_logprob_std": 0.9755266764097743, "train/policy_randomness_mag": 0.8521742439932294, "train/policy_randomness_max": 0.8521742439932294, "train/policy_randomness_mean": 0.12790132862412268, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.166659338089327, "train/post_ent_mag": 54.6883438428243, "train/post_ent_max": 54.6883438428243, "train/post_ent_mean": 40.78487459818522, "train/post_ent_min": 18.88863678773244, "train/post_ent_std": 5.647618412971497, "train/prior_ent_mag": 76.0475336710612, "train/prior_ent_max": 76.0475336710612, "train/prior_ent_mean": 45.481172773573135, "train/prior_ent_min": 27.309532907274033, "train/prior_ent_std": 7.287552376588185, "train/rep_loss_mean": 4.768180297480689, "train/rep_loss_std": 8.66024030579461, "train/reward_avg": 0.0305541992549681, "train/reward_loss_mean": 0.047403269809567265, "train/reward_loss_std": 0.19445923467477164, "train/reward_max_data": 1.0180555598603354, "train/reward_max_pred": 1.0220868471595976, "train/reward_neg_acc": 0.9952062732643552, "train/reward_neg_loss": 0.022106159284400444, "train/reward_pos_acc": 0.9892807395921813, "train/reward_pos_loss": 0.732769096063243, "train/reward_pred": 0.030259400062883895, "train/reward_rate": 0.03561740451388889, "replay/size": 336570.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.7839070209482097e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.201663392683419e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1840445995331, "timer/env.step_count": 1448.0, "timer/env.step_total": 18.592925786972046, "timer/env.step_frac": 0.061938421183498724, "timer/env.step_avg": 0.01284041836116854, "timer/env.step_min": 0.0030481815338134766, "timer/env.step_max": 1.6957345008850098, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.2838890552520752, "timer/replay.add_frac": 0.0009457166706871561, "timer/replay.add_avg": 0.00019605597738402982, "timer/replay.add_min": 7.748603820800781e-05, "timer/replay.add_max": 0.005155086517333984, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030636072158813477, "timer/logger.write_frac": 0.00010205763001056295, "timer/logger.write_avg": 0.030636072158813477, "timer/logger.write_min": 0.030636072158813477, "timer/logger.write_max": 0.030636072158813477, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 10.710683345794678, "timer/agent.policy_frac": 0.03568038854324684, "timer/agent.policy_avg": 0.007396880763670358, "timer/agent.policy_min": 0.005648374557495117, "timer/agent.policy_max": 0.01879405975341797, "timer/dataset_count": 724.0, "timer/dataset_total": 0.06605672836303711, "timer/dataset_frac": 0.00022005409531729607, "timer/dataset_avg": 9.123857508706783e-05, "timer/dataset_min": 7.104873657226562e-05, "timer/dataset_max": 0.00017976760864257812, "timer/agent.train_count": 724.0, "timer/agent.train_total": 269.7995684146881, "timer/agent.train_frac": 0.8987805090527712, "timer/agent.train_avg": 0.3726513375893482, "timer/agent.train_min": 0.36636781692504883, "timer/agent.train_max": 0.38840556144714355, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2053236961364746, "timer/agent.report_frac": 0.0006839927032444081, "timer/agent.report_avg": 0.2053236961364746, "timer/agent.report_min": 0.2053236961364746, "timer/agent.report_max": 0.2053236961364746, "fps": 4.823628162186603}
{"step": 336717, "episode/length": 168.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.047337278106508875}
{"step": 336840, "episode/length": 122.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.899999976158142, "episode/reward_rate": 0.0975609756097561}
{"step": 337105, "episode/length": 264.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.045283018867924525}
{"step": 337152, "episode/length": 46.0, "episode/score": 4.0999999940395355, "episode/sum_abs_reward": 5.9000000059604645, "episode/reward_rate": 0.1276595744680851}
{"step": 337302, "episode/length": 149.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.06666666666666667}
{"step": 337463, "episode/length": 160.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.700000025331974, "episode/reward_rate": 0.055900621118012424}
{"step": 337627, "episode/length": 163.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.06097560975609756}
{"step": 337772, "episode/length": 144.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.06896551724137931}
{"step": 337927, "episode/length": 154.0, "episode/score": 5.100000001490116, "episode/sum_abs_reward": 6.700000025331974, "episode/reward_rate": 0.03870967741935484}
{"step": 338065, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.560730828179254, "train/action_min": 0.0, "train/action_std": 3.424637347459793, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04531084875472718, "train/actor_opt_grad_steps": 168125.0, "train/actor_opt_loss": -14.634907672388685, "train/adv_mag": 0.43840452863110435, "train/adv_max": 0.39986416200796765, "train/adv_mean": 0.0016054748155309223, "train/adv_min": -0.37352099021275836, "train/adv_std": 0.05036147037107083, "train/cont_avg": 0.9946017795138888, "train/cont_loss_mean": 7.465398936466903e-06, "train/cont_loss_std": 0.00019273438249298478, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 9.41845050685212e-05, "train/cont_pos_acc": 0.9999999809596274, "train/cont_pos_loss": 6.988044398939211e-06, "train/cont_pred": 0.9945956452025307, "train/cont_rate": 0.9946017795138888, "train/dyn_loss_mean": 4.83254587981436, "train/dyn_loss_std": 8.537234597735935, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.030558538933595, "train/extr_critic_critic_opt_grad_steps": 168125.0, "train/extr_critic_critic_opt_loss": 16195.430894639758, "train/extr_critic_mag": 9.319881796836853, "train/extr_critic_max": 9.319881796836853, "train/extr_critic_mean": 2.281944680545065, "train/extr_critic_min": -0.5843716892931197, "train/extr_critic_std": 2.281953642765681, "train/extr_return_normed_mag": 1.4521990517775218, "train/extr_return_normed_max": 1.4521990517775218, "train/extr_return_normed_mean": 0.35819970774981713, "train/extr_return_normed_min": -0.09929377109640175, "train/extr_return_normed_std": 0.3310248661372397, "train/extr_return_rate": 0.672704204916954, "train/extr_return_raw_mag": 9.922907167010838, "train/extr_return_raw_max": 9.922907167010838, "train/extr_return_raw_mean": 2.293180829948849, "train/extr_return_raw_min": -0.8971373736858368, "train/extr_return_raw_std": 2.308831754657957, "train/extr_reward_mag": 1.0341325137350295, "train/extr_reward_max": 1.0341325137350295, "train/extr_reward_mean": 0.04331878151020242, "train/extr_reward_min": -0.6417471236652799, "train/extr_reward_std": 0.2038524562699927, "train/image_loss_mean": 3.058119078477224, "train/image_loss_std": 7.65447876850764, "train/model_loss_mean": 6.004717396365272, "train/model_loss_std": 11.694341739018759, "train/model_opt_grad_norm": 32.41167510880364, "train/model_opt_grad_steps": 167990.27777777778, "train/model_opt_loss": 9703.631727430555, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1597.2222222222222, "train/policy_entropy_mag": 2.4702806141641407, "train/policy_entropy_max": 2.4702806141641407, "train/policy_entropy_mean": 0.3855068799522188, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5026213572257094, "train/policy_logprob_mag": 7.438384221659766, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38584678599403965, "train/policy_logprob_min": -7.438384221659766, "train/policy_logprob_std": 0.9963405364089541, "train/policy_randomness_mag": 0.8719006478786469, "train/policy_randomness_max": 0.8719006478786469, "train/policy_randomness_mean": 0.1360670095309615, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.17740328434026903, "train/post_ent_mag": 54.651823944515655, "train/post_ent_max": 54.651823944515655, "train/post_ent_mean": 40.82981559965346, "train/post_ent_min": 19.349956393241882, "train/post_ent_std": 5.580246349175771, "train/prior_ent_mag": 76.07096004486084, "train/prior_ent_max": 76.07096004486084, "train/prior_ent_mean": 45.64468166563246, "train/prior_ent_min": 27.939944240781998, "train/prior_ent_std": 7.233818418449825, "train/rep_loss_mean": 4.83254587981436, "train/rep_loss_std": 8.537234597735935, "train/reward_avg": 0.02951388882421371, "train/reward_loss_mean": 0.04706337939326962, "train/reward_loss_std": 0.19880647584795952, "train/reward_max_data": 1.0125000029802322, "train/reward_max_pred": 1.011425322956509, "train/reward_neg_acc": 0.9950717190901438, "train/reward_neg_loss": 0.022682137037109997, "train/reward_pos_acc": 0.9908040314912796, "train/reward_pos_loss": 0.7293927330109808, "train/reward_pred": 0.029281282991481323, "train/reward_rate": 0.034383138020833336, "stats/sum_log_reward": 8.100000275505913, "stats/max_log_achievement_collect_coal": 0.4444444444444444, "stats/max_log_achievement_collect_drink": 0.7777777777777778, "stats/max_log_achievement_collect_sapling": 2.111111111111111, "stats/max_log_achievement_collect_stone": 10.222222222222221, "stats/max_log_achievement_collect_wood": 9.0, "stats/max_log_achievement_defeat_skeleton": 0.1111111111111111, "stats/max_log_achievement_defeat_zombie": 0.2222222222222222, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.8888888888888888, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.7777777777777778, "stats/max_log_achievement_place_plant": 1.7777777777777777, "stats/max_log_achievement_place_stone": 5.444444444444445, "stats/max_log_achievement_place_table": 2.888888888888889, "stats/max_log_achievement_wake_up": 0.8888888888888888, "stats/mean_log_entropy": 0.28958211839199066, "replay/size": 338002.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.8018772721956563e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2181074925641107e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1625757217407, "timer/env.step_count": 1432.0, "timer/env.step_total": 21.644567728042603, "timer/env.step_frac": 0.07210948159009581, "timer/env.step_avg": 0.015114921597795114, "timer/env.step_min": 0.00310516357421875, "timer/env.step_max": 1.7056145668029785, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.2793142795562744, "timer/replay.add_frac": 0.0009305433193484012, "timer/replay.add_avg": 0.00019505187119851566, "timer/replay.add_min": 7.081031799316406e-05, "timer/replay.add_max": 0.005303621292114258, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026531696319580078, "timer/logger.write_frac": 8.839108691609749e-05, "timer/logger.write_avg": 0.026531696319580078, "timer/logger.write_min": 0.026531696319580078, "timer/logger.write_max": 0.026531696319580078, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 10.66642165184021, "timer/agent.policy_frac": 0.035535481484301655, "timer/agent.policy_avg": 0.007448618471955454, "timer/agent.policy_min": 0.005699872970581055, "timer/agent.policy_max": 0.014502525329589844, "timer/dataset_count": 716.0, "timer/dataset_total": 0.06653952598571777, "timer/dataset_frac": 0.00022167828826003216, "timer/dataset_avg": 9.293229886273432e-05, "timer/dataset_min": 6.628036499023438e-05, "timer/dataset_max": 0.0003464221954345703, "timer/agent.train_count": 716.0, "timer/agent.train_total": 266.79089069366455, "timer/agent.train_frac": 0.8888212997645227, "timer/agent.train_avg": 0.37261297582914044, "timer/agent.train_min": 0.3654787540435791, "timer/agent.train_max": 0.38671278953552246, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2120361328125, "timer/agent.report_frac": 0.0007064042954144408, "timer/agent.report_avg": 0.2120361328125, "timer/agent.report_min": 0.2120361328125, "timer/agent.report_max": 0.2120361328125, "fps": 4.770667291554813}
{"step": 338225, "episode/length": 297.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.03691275167785235}
{"step": 338524, "episode/length": 298.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 12.300000049173832, "episode/reward_rate": 0.033444816053511704}
{"step": 338691, "episode/length": 166.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.300000056624413, "episode/reward_rate": 0.05389221556886228}
{"step": 338884, "episode/length": 192.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.900000013411045, "episode/reward_rate": 0.046632124352331605}
{"step": 339081, "episode/length": 196.0, "episode/score": 8.100000016391277, "episode/sum_abs_reward": 9.500000037252903, "episode/reward_rate": 0.04568527918781726}
{"step": 339297, "episode/length": 215.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.05092592592592592}
{"step": 339491, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.469241719850352, "train/action_min": 0.0, "train/action_std": 3.3595512014039803, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.046621716830512167, "train/actor_opt_grad_steps": 168840.0, "train/actor_opt_loss": -13.463344373333623, "train/adv_mag": 0.42376707179445616, "train/adv_max": 0.3834989666938782, "train/adv_mean": 0.002092626908333713, "train/adv_min": -0.37907795062367344, "train/adv_std": 0.050513091798819285, "train/cont_avg": 0.994567011443662, "train/cont_loss_mean": 3.197904148527106e-05, "train/cont_loss_std": 0.0008735172407981941, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0008660844945629385, "train/cont_pos_acc": 0.9999999848889632, "train/cont_pos_loss": 2.609293716865279e-05, "train/cont_pred": 0.994550559722202, "train/cont_rate": 0.994567011443662, "train/dyn_loss_mean": 4.857302850400898, "train/dyn_loss_std": 8.646739019474513, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0613827310817343, "train/extr_critic_critic_opt_grad_steps": 168840.0, "train/extr_critic_critic_opt_loss": 16179.038746148768, "train/extr_critic_mag": 9.102962614784778, "train/extr_critic_max": 9.102962614784778, "train/extr_critic_mean": 2.244288506642194, "train/extr_critic_min": -0.5709658928320441, "train/extr_critic_std": 2.2057876217533163, "train/extr_return_normed_mag": 1.4590276378980824, "train/extr_return_normed_max": 1.4590276378980824, "train/extr_return_normed_mean": 0.3625054338448484, "train/extr_return_normed_min": -0.09712259314009841, "train/extr_return_normed_std": 0.3296025768971779, "train/extr_return_rate": 0.6796719457062197, "train/extr_return_raw_mag": 9.678996045824508, "train/extr_return_raw_max": 9.678996045824508, "train/extr_return_raw_mean": 2.2584199804655265, "train/extr_return_raw_min": -0.8516789414513279, "train/extr_return_raw_std": 2.230680119823402, "train/extr_reward_mag": 1.0433751529371236, "train/extr_reward_max": 1.0433751529371236, "train/extr_reward_mean": 0.043623129535518904, "train/extr_reward_min": -0.6622101605778009, "train/extr_reward_std": 0.20369661651866536, "train/image_loss_mean": 3.010665216916044, "train/image_loss_std": 8.033664488456619, "train/model_loss_mean": 5.972646585652526, "train/model_loss_std": 12.154933445890185, "train/model_opt_grad_norm": 35.87408534573837, "train/model_opt_grad_steps": 168705.0, "train/model_opt_loss": 9888.361149317781, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1654.9295774647887, "train/policy_entropy_mag": 2.453180494442792, "train/policy_entropy_max": 2.453180494442792, "train/policy_entropy_mean": 0.367669713958888, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4808654558490699, "train/policy_logprob_mag": 7.438384210559684, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3673761306514203, "train/policy_logprob_min": -7.438384210559684, "train/policy_logprob_std": 0.977127278354806, "train/policy_randomness_mag": 0.8658650593018867, "train/policy_randomness_max": 0.8658650593018867, "train/policy_randomness_mean": 0.1297712732158916, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16972440113903772, "train/post_ent_mag": 55.027938305492135, "train/post_ent_max": 55.027938305492135, "train/post_ent_mean": 40.83907516909317, "train/post_ent_min": 18.84511759583379, "train/post_ent_std": 5.594362816340487, "train/prior_ent_mag": 76.03564109264964, "train/prior_ent_max": 76.03564109264964, "train/prior_ent_mean": 45.643150222133585, "train/prior_ent_min": 28.18474476773974, "train/prior_ent_std": 7.261317474741332, "train/rep_loss_mean": 4.857302850400898, "train/rep_loss_std": 8.646739019474513, "train/reward_avg": 0.029764524477363472, "train/reward_loss_mean": 0.04756764222828435, "train/reward_loss_std": 0.20409512121072956, "train/reward_max_data": 1.0211267656003926, "train/reward_max_pred": 1.018487937013868, "train/reward_neg_acc": 0.9953694385541997, "train/reward_neg_loss": 0.022731871068687508, "train/reward_pos_acc": 0.987489038789776, "train/reward_pos_loss": 0.7398616092305788, "train/reward_pred": 0.02959866341675671, "train/reward_rate": 0.03479863556338028, "stats/sum_log_reward": 8.93333355585734, "stats/max_log_achievement_collect_coal": 0.0, "stats/max_log_achievement_collect_drink": 4.333333333333333, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 10.0, "stats/max_log_achievement_collect_wood": 10.0, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 0.3333333333333333, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.5, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_stone": 2.6666666666666665, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.373592014114062, "replay/size": 339428.0, "replay/inserts": 1426.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 3.823725739167415e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2047578375603675e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.01904797554016, "timer/env.step_count": 1426.0, "timer/env.step_total": 20.042399406433105, "timer/env.step_frac": 0.06680375643371522, "timer/env.step_avg": 0.014054978545885768, "timer/env.step_min": 0.003194093704223633, "timer/env.step_max": 2.8297102451324463, "timer/replay.add_count": 1426.0, "timer/replay.add_total": 0.2783808708190918, "timer/replay.add_frac": 0.0009278773221151862, "timer/replay.add_avg": 0.0001952180019769227, "timer/replay.add_min": 7.62939453125e-05, "timer/replay.add_max": 0.004778861999511719, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02791881561279297, "timer/logger.write_frac": 9.305681022982622e-05, "timer/logger.write_avg": 0.02791881561279297, "timer/logger.write_min": 0.02791881561279297, "timer/logger.write_max": 0.02791881561279297, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00043582916259765625, "timer/checkpoint.save_frac": 1.4526716404792683e-06, "timer/checkpoint.save_avg": 0.00043582916259765625, "timer/checkpoint.save_min": 0.00043582916259765625, "timer/checkpoint.save_max": 0.00043582916259765625, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.5344209671020508, "timer/agent.save_frac": 0.005114411826368933, "timer/agent.save_avg": 1.5344209671020508, "timer/agent.save_min": 1.5344209671020508, "timer/agent.save_max": 1.5344209671020508, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.298324584960938e-05, "timer/replay.save_frac": 3.0992447471931874e-07, "timer/replay.save_avg": 9.298324584960938e-05, "timer/replay.save_min": 9.298324584960938e-05, "timer/replay.save_max": 9.298324584960938e-05, "timer/agent.policy_count": 1426.0, "timer/agent.policy_total": 12.319522142410278, "timer/agent.policy_frac": 0.0410624666185017, "timer/agent.policy_avg": 0.008639216088646758, "timer/agent.policy_min": 0.005652189254760742, "timer/agent.policy_max": 1.5300350189208984, "timer/dataset_count": 713.0, "timer/dataset_total": 0.06735491752624512, "timer/dataset_frac": 0.00022450213738341173, "timer/dataset_avg": 9.44669250017463e-05, "timer/dataset_min": 7.033348083496094e-05, "timer/dataset_max": 0.00022530555725097656, "timer/agent.train_count": 713.0, "timer/agent.train_total": 266.6134490966797, "timer/agent.train_frac": 0.8886550733885938, "timer/agent.train_avg": 0.37393190616645117, "timer/agent.train_min": 0.3662991523742676, "timer/agent.train_max": 1.051576852798462, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20018243789672852, "timer/agent.report_frac": 0.0006672324282325198, "timer/agent.report_avg": 0.20018243789672852, "timer/agent.report_min": 0.20018243789672852, "timer/agent.report_max": 0.20018243789672852, "fps": 4.752964229065094}
{"step": 339521, "episode/length": 223.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.049107142857142856}
{"step": 339615, "episode/length": 93.0, "episode/score": 9.099999971687794, "episode/sum_abs_reward": 10.900000028312206, "episode/reward_rate": 0.11702127659574468}
{"step": 339776, "episode/length": 160.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 12.100000031292439, "episode/reward_rate": 0.062111801242236024}
{"step": 339974, "episode/length": 197.0, "episode/score": 10.099999979138374, "episode/sum_abs_reward": 12.30000002682209, "episode/reward_rate": 0.05555555555555555}
{"step": 340259, "episode/length": 284.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.042105263157894736}
{"step": 340400, "episode/length": 140.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.04964539007092199}
{"step": 340714, "episode/length": 313.0, "episode/score": 8.099999979138374, "episode/sum_abs_reward": 9.900000020861626, "episode/reward_rate": 0.028662420382165606}
{"step": 340862, "episode/length": 147.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.060810810810810814}
{"step": 340930, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.495548672146267, "train/action_min": 0.0, "train/action_std": 3.44534660047955, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04602946651478609, "train/actor_opt_grad_steps": 169555.0, "train/actor_opt_loss": -12.192467658056152, "train/adv_mag": 0.48479485346211326, "train/adv_max": 0.4521694133679072, "train/adv_mean": 0.0025164746454417277, "train/adv_min": -0.36937974993553424, "train/adv_std": 0.051176711399522096, "train/cont_avg": 0.9943440755208334, "train/cont_loss_mean": 0.0001776609673436427, "train/cont_loss_std": 0.005599973034902759, "train/cont_neg_acc": 0.9954861112766795, "train/cont_neg_loss": 0.029001788887316908, "train/cont_pos_acc": 0.9999863223897086, "train/cont_pos_loss": 1.829528234075105e-05, "train/cont_pred": 0.9943643692466948, "train/cont_rate": 0.9943440755208334, "train/dyn_loss_mean": 4.688180135356055, "train/dyn_loss_std": 8.559155172771877, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9994000436531173, "train/extr_critic_critic_opt_grad_steps": 169555.0, "train/extr_critic_critic_opt_loss": 16061.835232204861, "train/extr_critic_mag": 9.247750944561428, "train/extr_critic_max": 9.247750944561428, "train/extr_critic_mean": 2.2575003802776337, "train/extr_critic_min": -0.5875315732426114, "train/extr_critic_std": 2.167264176739587, "train/extr_return_normed_mag": 1.5052600238058302, "train/extr_return_normed_max": 1.5052600238058302, "train/extr_return_normed_mean": 0.3722311370074749, "train/extr_return_normed_min": -0.10505410827075441, "train/extr_return_normed_std": 0.333050219135152, "train/extr_return_rate": 0.691214589195119, "train/extr_return_raw_mag": 9.736264639430576, "train/extr_return_raw_max": 9.736264639430576, "train/extr_return_raw_mean": 2.2740696801079645, "train/extr_return_raw_min": -0.8692399660746256, "train/extr_return_raw_std": 2.193523089090983, "train/extr_reward_mag": 1.0428980423344507, "train/extr_reward_max": 1.0428980423344507, "train/extr_reward_mean": 0.043149773212563663, "train/extr_reward_min": -0.6619509309530258, "train/extr_reward_std": 0.20310464998086294, "train/image_loss_mean": 2.873325796590911, "train/image_loss_std": 7.793178624576992, "train/model_loss_mean": 5.734815292888218, "train/model_loss_std": 11.866728782653809, "train/model_opt_grad_norm": 34.543374644385445, "train/model_opt_grad_steps": 169419.88888888888, "train/model_opt_loss": 13559.694844563803, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2361.1111111111113, "train/policy_entropy_mag": 2.4466156131691403, "train/policy_entropy_max": 2.4466156131691403, "train/policy_entropy_mean": 0.37271731967727345, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4850654618607627, "train/policy_logprob_mag": 7.438384228282505, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37289073649379945, "train/policy_logprob_min": -7.438384228282505, "train/policy_logprob_std": 0.9845709494418569, "train/policy_randomness_mag": 0.8635479468438361, "train/policy_randomness_max": 0.8635479468438361, "train/policy_randomness_mean": 0.13155285651899046, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.17120682023879555, "train/post_ent_mag": 54.59252198537191, "train/post_ent_max": 54.59252198537191, "train/post_ent_mean": 40.741118590037026, "train/post_ent_min": 18.71134208308326, "train/post_ent_std": 5.554937872621748, "train/prior_ent_mag": 76.05037964714899, "train/prior_ent_max": 76.05037964714899, "train/prior_ent_mean": 45.42348305384318, "train/prior_ent_min": 27.94609196980794, "train/prior_ent_std": 7.223262806733449, "train/rep_loss_mean": 4.688180135356055, "train/rep_loss_std": 8.559155172771877, "train/reward_avg": 0.03035074863065448, "train/reward_loss_mean": 0.04840373889439636, "train/reward_loss_std": 0.20318421804242665, "train/reward_max_data": 1.0166666706403096, "train/reward_max_pred": 1.01653586824735, "train/reward_neg_acc": 0.9955572196178966, "train/reward_neg_loss": 0.022723534112123564, "train/reward_pos_acc": 0.9842338098420037, "train/reward_pos_loss": 0.7468701832824283, "train/reward_pred": 0.02994736240038441, "train/reward_rate": 0.03553602430555555, "stats/sum_log_reward": 8.975000083446503, "stats/max_log_achievement_collect_coal": 0.75, "stats/max_log_achievement_collect_drink": 1.75, "stats/max_log_achievement_collect_sapling": 1.375, "stats/max_log_achievement_collect_stone": 10.0, "stats/max_log_achievement_collect_wood": 11.25, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 0.125, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.125, "stats/max_log_achievement_make_wood_sword": 1.5, "stats/max_log_achievement_place_furnace": 1.125, "stats/max_log_achievement_place_plant": 1.125, "stats/max_log_achievement_place_stone": 4.125, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.125, "stats/mean_log_entropy": 0.34996485710144043, "replay/size": 340867.0, "replay/inserts": 1439.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.8085669755438616e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.226433958231325e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0273633003235, "timer/env.step_count": 1439.0, "timer/env.step_total": 19.94246768951416, "timer/env.step_frac": 0.06646882960989131, "timer/env.step_avg": 0.013858559895423322, "timer/env.step_min": 0.0026726722717285156, "timer/env.step_max": 1.706920862197876, "timer/replay.add_count": 1439.0, "timer/replay.add_total": 0.3107130527496338, "timer/replay.add_frac": 0.0010356157162858977, "timer/replay.add_avg": 0.00021592289975652104, "timer/replay.add_min": 7.724761962890625e-05, "timer/replay.add_max": 0.0067594051361083984, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029176712036132812, "timer/logger.write_frac": 9.724683680577262e-05, "timer/logger.write_avg": 0.029176712036132812, "timer/logger.write_min": 0.029176712036132812, "timer/logger.write_max": 0.029176712036132812, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1439.0, "timer/agent.policy_total": 10.87918734550476, "timer/agent.policy_frac": 0.03626065044812208, "timer/agent.policy_avg": 0.007560241379780932, "timer/agent.policy_min": 0.005648374557495117, "timer/agent.policy_max": 0.017670154571533203, "timer/dataset_count": 719.0, "timer/dataset_total": 0.06659460067749023, "timer/dataset_frac": 0.00022196175690425245, "timer/dataset_avg": 9.262114141514636e-05, "timer/dataset_min": 6.604194641113281e-05, "timer/dataset_max": 0.00021505355834960938, "timer/agent.train_count": 719.0, "timer/agent.train_total": 268.0962224006653, "timer/agent.train_frac": 0.8935725710201454, "timer/agent.train_avg": 0.37287374464626605, "timer/agent.train_min": 0.36457347869873047, "timer/agent.train_max": 0.3884408473968506, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22232747077941895, "timer/agent.report_frac": 0.000741023979725716, "timer/agent.report_avg": 0.22232747077941895, "timer/agent.report_min": 0.22232747077941895, "timer/agent.report_max": 0.22232747077941895, "fps": 4.796151519875477}
{"step": 341083, "episode/length": 220.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.05429864253393665}
{"step": 341334, "episode/length": 250.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.035856573705179286}
{"step": 341620, "episode/length": 285.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.038461538461538464}
{"step": 341780, "episode/length": 159.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.0625}
{"step": 341955, "episode/length": 174.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 8.899999991059303, "episode/reward_rate": 0.05142857142857143}
{"step": 342169, "episode/length": 213.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.299999997019768, "episode/reward_rate": 0.04672897196261682}
{"step": 342385, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.517295523865582, "train/action_min": 0.0, "train/action_std": 3.403277962175134, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04709812707892836, "train/actor_opt_grad_steps": 170280.0, "train/actor_opt_loss": -12.16565139407981, "train/adv_mag": 0.5160336976181971, "train/adv_max": 0.4572251659550079, "train/adv_mean": 0.003034229424510196, "train/adv_min": -0.42912946457732215, "train/adv_std": 0.05268678951957454, "train/cont_avg": 0.994675727739726, "train/cont_loss_mean": 7.193776477693873e-06, "train/cont_loss_std": 0.00013373815701383236, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00017426961642441922, "train/cont_pos_acc": 0.9999999836699603, "train/cont_pos_loss": 6.432684250473532e-06, "train/cont_pred": 0.9946702604424463, "train/cont_rate": 0.994675727739726, "train/dyn_loss_mean": 4.859783329375802, "train/dyn_loss_std": 8.622585126798446, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0414200629273507, "train/extr_critic_critic_opt_grad_steps": 170280.0, "train/extr_critic_critic_opt_loss": 16161.803042059075, "train/extr_critic_mag": 9.159822673013766, "train/extr_critic_max": 9.159822673013766, "train/extr_critic_mean": 2.358882433747592, "train/extr_critic_min": -0.5655066656739745, "train/extr_critic_std": 2.1653097410724587, "train/extr_return_normed_mag": 1.505160739977066, "train/extr_return_normed_max": 1.505160739977066, "train/extr_return_normed_mean": 0.3867760968126663, "train/extr_return_normed_min": -0.1064159738997074, "train/extr_return_normed_std": 0.33246793240717015, "train/extr_return_rate": 0.715972852625259, "train/extr_return_raw_mag": 9.777460908236568, "train/extr_return_raw_max": 9.777460908236568, "train/extr_return_raw_mean": 2.378980679054783, "train/extr_return_raw_min": -0.8849173245364672, "train/extr_return_raw_std": 2.2000200683123445, "train/extr_reward_mag": 1.041308389951105, "train/extr_reward_max": 1.041308389951105, "train/extr_reward_mean": 0.045710988240699246, "train/extr_reward_min": -0.6708648825344974, "train/extr_reward_std": 0.20852073394272425, "train/image_loss_mean": 2.874463283852355, "train/image_loss_std": 7.755928163659083, "train/model_loss_mean": 5.837603536370683, "train/model_loss_std": 11.91867854497204, "train/model_opt_grad_norm": 37.028320586844664, "train/model_opt_grad_steps": 170144.0, "train/model_opt_loss": 7297.004421286387, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.4313362461246855, "train/policy_entropy_max": 2.4313362461246855, "train/policy_entropy_mean": 0.3565535208542053, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.46516187509445295, "train/policy_logprob_mag": 7.4383842324557365, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.35744594996922635, "train/policy_logprob_min": -7.4383842324557365, "train/policy_logprob_std": 0.9707769963839282, "train/policy_randomness_mag": 0.8581549974337016, "train/policy_randomness_max": 0.8581549974337016, "train/policy_randomness_mean": 0.12584774675842833, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16418172735465716, "train/post_ent_mag": 54.28337300966864, "train/post_ent_max": 54.28337300966864, "train/post_ent_mean": 40.66734371446584, "train/post_ent_min": 18.981796695761485, "train/post_ent_std": 5.598862785182587, "train/prior_ent_mag": 76.16349165406946, "train/prior_ent_max": 76.16349165406946, "train/prior_ent_mean": 45.46359550789611, "train/prior_ent_min": 27.799021237517056, "train/prior_ent_std": 7.282403475617709, "train/rep_loss_mean": 4.859783329375802, "train/rep_loss_std": 8.622585126798446, "train/reward_avg": 0.031406517076778086, "train/reward_loss_mean": 0.04726307333944595, "train/reward_loss_std": 0.19150025285270117, "train/reward_max_data": 1.0205479501044914, "train/reward_max_pred": 1.0197901137887615, "train/reward_neg_acc": 0.9945307627116164, "train/reward_neg_loss": 0.022123701398401228, "train/reward_pos_acc": 0.9919359038953912, "train/reward_pos_loss": 0.716892856441132, "train/reward_pred": 0.031334933658985244, "train/reward_rate": 0.03619970034246575, "stats/sum_log_reward": 8.9333336353302, "stats/max_log_achievement_collect_coal": 0.0, "stats/max_log_achievement_collect_drink": 3.5, "stats/max_log_achievement_collect_sapling": 2.5, "stats/max_log_achievement_collect_stone": 6.5, "stats/max_log_achievement_collect_wood": 11.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 0.6666666666666666, "stats/max_log_achievement_place_plant": 2.3333333333333335, "stats/max_log_achievement_place_stone": 3.3333333333333335, "stats/max_log_achievement_place_table": 2.8333333333333335, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.39115748802820843, "replay/size": 342322.0, "replay/inserts": 1455.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.812730926828286e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.21297089608161e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2567207813263, "timer/env.step_count": 1455.0, "timer/env.step_total": 16.854915380477905, "timer/env.step_frac": 0.05613501451896944, "timer/env.step_avg": 0.011584134282115398, "timer/env.step_min": 0.0030488967895507812, "timer/env.step_max": 1.6341989040374756, "timer/replay.add_count": 1455.0, "timer/replay.add_total": 0.28412890434265137, "timer/replay.add_frac": 0.0009462865763780168, "timer/replay.add_avg": 0.00019527759748635832, "timer/replay.add_min": 7.653236389160156e-05, "timer/replay.add_max": 0.006785154342651367, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.033731937408447266, "timer/logger.write_frac": 0.00011234365485864967, "timer/logger.write_avg": 0.033731937408447266, "timer/logger.write_min": 0.033731937408447266, "timer/logger.write_max": 0.033731937408447266, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1455.0, "timer/agent.policy_total": 10.929585695266724, "timer/agent.policy_frac": 0.036400802842400395, "timer/agent.policy_avg": 0.007511742745887782, "timer/agent.policy_min": 0.0056304931640625, "timer/agent.policy_max": 0.01686263084411621, "timer/dataset_count": 728.0, "timer/dataset_total": 0.06730175018310547, "timer/dataset_frac": 0.000224147356328855, "timer/dataset_avg": 9.24474590427273e-05, "timer/dataset_min": 7.224082946777344e-05, "timer/dataset_max": 0.0001633167266845703, "timer/agent.train_count": 728.0, "timer/agent.train_total": 271.38455295562744, "timer/agent.train_frac": 0.9038417266712037, "timer/agent.train_avg": 0.3727809793346531, "timer/agent.train_min": 0.3664405345916748, "timer/agent.train_max": 0.38660097122192383, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2230236530303955, "timer/agent.report_frac": 0.0007427765561751446, "timer/agent.report_avg": 0.2230236530303955, "timer/agent.report_min": 0.2230236530303955, "timer/agent.report_max": 0.2230236530303955, "fps": 4.845787004880546}
{"step": 342391, "episode/length": 221.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.036036036036036036}
{"step": 342663, "episode/length": 271.0, "episode/score": 5.0999999940395355, "episode/sum_abs_reward": 6.9000000059604645, "episode/reward_rate": 0.025735294117647058}
{"step": 342848, "episode/length": 184.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.05405405405405406}
{"step": 343143, "episode/length": 294.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.03728813559322034}
{"step": 343410, "episode/length": 266.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.04868913857677903}
{"step": 343528, "episode/length": 117.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.0847457627118644}
{"step": 343685, "episode/length": 156.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 13.10000005364418, "episode/reward_rate": 0.07643312101910828}
{"step": 343807, "stats/sum_log_reward": 9.100000040871757, "stats/max_log_achievement_collect_coal": 0.2857142857142857, "stats/max_log_achievement_collect_drink": 1.4285714285714286, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 13.0, "stats/max_log_achievement_collect_wood": 8.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.14285714285714285, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.4285714285714286, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 6.285714285714286, "stats/max_log_achievement_place_table": 2.2857142857142856, "stats/max_log_achievement_wake_up": 1.7142857142857142, "stats/mean_log_entropy": 0.4763787729399545, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.634097676881602, "train/action_min": 0.0, "train/action_std": 3.4389784503990497, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.046208056240854126, "train/actor_opt_grad_steps": 171000.0, "train/actor_opt_loss": -11.669369872187225, "train/adv_mag": 0.4594617418839898, "train/adv_max": 0.4110472924272779, "train/adv_mean": 0.0022957430608098357, "train/adv_min": -0.3927354390772296, "train/adv_std": 0.05129598857651294, "train/cont_avg": 0.994264414612676, "train/cont_loss_mean": 4.720101021920092e-05, "train/cont_loss_std": 0.0014841688771155815, "train/cont_neg_acc": 0.9936619719988863, "train/cont_neg_loss": 0.008515636950276748, "train/cont_pos_acc": 0.9999999832099592, "train/cont_pos_loss": 7.327796555060418e-06, "train/cont_pred": 0.9942834133833227, "train/cont_rate": 0.994264414612676, "train/dyn_loss_mean": 4.971318557228841, "train/dyn_loss_std": 8.645350503249906, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0956190387967606, "train/extr_critic_critic_opt_grad_steps": 171000.0, "train/extr_critic_critic_opt_loss": 16141.949287522008, "train/extr_critic_mag": 9.302614332924426, "train/extr_critic_max": 9.302614332924426, "train/extr_critic_mean": 2.383150730334537, "train/extr_critic_min": -0.5961624098495698, "train/extr_critic_std": 2.2189788146757743, "train/extr_return_normed_mag": 1.4811132508264462, "train/extr_return_normed_max": 1.4811132508264462, "train/extr_return_normed_mean": 0.3840459560004758, "train/extr_return_normed_min": -0.10933642335970636, "train/extr_return_normed_std": 0.3322989428547067, "train/extr_return_rate": 0.708378298181883, "train/extr_return_raw_mag": 9.811327316391637, "train/extr_return_raw_max": 9.811327316391637, "train/extr_return_raw_mean": 2.3986553155200583, "train/extr_return_raw_min": -0.9349173215073598, "train/extr_return_raw_std": 2.245376691012315, "train/extr_reward_mag": 1.0407518836813914, "train/extr_reward_max": 1.0407518836813914, "train/extr_reward_mean": 0.04499539352533683, "train/extr_reward_min": -0.6847663966702743, "train/extr_reward_std": 0.20686760628727122, "train/image_loss_mean": 2.95233455678107, "train/image_loss_std": 7.918325357034173, "train/model_loss_mean": 5.983796482354823, "train/model_loss_std": 12.076434901062871, "train/model_opt_grad_norm": 28.986635637954926, "train/model_opt_grad_steps": 170864.0, "train/model_opt_loss": 12936.329823668573, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2165.492957746479, "train/policy_entropy_mag": 2.4392806644171054, "train/policy_entropy_max": 2.4392806644171054, "train/policy_entropy_mean": 0.3668566190860641, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4759009623191726, "train/policy_logprob_mag": 7.4383842172757, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36693653716167934, "train/policy_logprob_min": -7.4383842172757, "train/policy_logprob_std": 0.9787798339212445, "train/policy_randomness_mag": 0.8609590286939917, "train/policy_randomness_max": 0.8609590286939917, "train/policy_randomness_mean": 0.1294842892339532, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16797215460051954, "train/post_ent_mag": 54.78559461781676, "train/post_ent_max": 54.78559461781676, "train/post_ent_mean": 40.73483894240688, "train/post_ent_min": 18.943507167654978, "train/post_ent_std": 5.624134097300785, "train/prior_ent_mag": 76.13847232872331, "train/prior_ent_max": 76.13847232872331, "train/prior_ent_mean": 45.68485410448531, "train/prior_ent_min": 28.269696490865357, "train/prior_ent_std": 7.354520280596236, "train/rep_loss_mean": 4.971318557228841, "train/rep_loss_std": 8.645350503249906, "train/reward_avg": 0.030633802433878605, "train/reward_loss_mean": 0.0486236352630904, "train/reward_loss_std": 0.2098629417973505, "train/reward_max_data": 1.0126760593602355, "train/reward_max_pred": 1.0133587676034848, "train/reward_neg_acc": 0.9956591255228284, "train/reward_neg_loss": 0.022997315933691784, "train/reward_pos_acc": 0.9874276863017553, "train/reward_pos_loss": 0.7432084049977047, "train/reward_pred": 0.03030661931654937, "train/reward_rate": 0.035678917253521125, "replay/size": 343744.0, "replay/inserts": 1422.0, "replay/samples": 11376.0, "replay/insert_wait_avg": 3.816373908234716e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2066587281797171e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.049124956131, "timer/env.step_count": 1422.0, "timer/env.step_total": 19.048989057540894, "timer/env.step_frac": 0.063486234330215, "timer/env.step_avg": 0.013395913542574469, "timer/env.step_min": 0.0030324459075927734, "timer/env.step_max": 1.6990759372711182, "timer/replay.add_count": 1422.0, "timer/replay.add_total": 0.2716062068939209, "timer/replay.add_frac": 0.0009052057956630648, "timer/replay.add_avg": 0.00019100295843454352, "timer/replay.add_min": 7.2479248046875e-05, "timer/replay.add_max": 0.0033817291259765625, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027594327926635742, "timer/logger.write_frac": 9.19660336642215e-05, "timer/logger.write_avg": 0.027594327926635742, "timer/logger.write_min": 0.027594327926635742, "timer/logger.write_max": 0.027594327926635742, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004265308380126953, "timer/checkpoint.save_frac": 1.4215366836182466e-06, "timer/checkpoint.save_avg": 0.0004265308380126953, "timer/checkpoint.save_min": 0.0004265308380126953, "timer/checkpoint.save_max": 0.0004265308380126953, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3534438610076904, "timer/agent.save_frac": 0.004510740903528955, "timer/agent.save_avg": 1.3534438610076904, "timer/agent.save_min": 1.3534438610076904, "timer/agent.save_max": 1.3534438610076904, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.200241088867188e-05, "timer/replay.save_frac": 2.399687414492512e-07, "timer/replay.save_avg": 7.200241088867188e-05, "timer/replay.save_min": 7.200241088867188e-05, "timer/replay.save_max": 7.200241088867188e-05, "timer/agent.policy_count": 1422.0, "timer/agent.policy_total": 14.791284799575806, "timer/agent.policy_frac": 0.049296210418005325, "timer/agent.policy_avg": 0.010401747397732634, "timer/agent.policy_min": 0.005726337432861328, "timer/agent.policy_max": 2.819406747817993, "timer/dataset_count": 711.0, "timer/dataset_total": 0.06546497344970703, "timer/dataset_frac": 0.00021818085108322983, "timer/dataset_avg": 9.20745055551435e-05, "timer/dataset_min": 6.794929504394531e-05, "timer/dataset_max": 0.00016260147094726562, "timer/agent.train_count": 711.0, "timer/agent.train_total": 265.1461126804352, "timer/agent.train_frac": 0.8836756738390794, "timer/agent.train_avg": 0.3729199897052534, "timer/agent.train_min": 0.3650166988372803, "timer/agent.train_max": 0.49729442596435547, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22390508651733398, "timer/agent.report_frac": 0.0007462280936498991, "timer/agent.report_avg": 0.22390508651733398, "timer/agent.report_min": 0.22390508651733398, "timer/agent.report_max": 0.22390508651733398, "fps": 4.739158967593685}
{"step": 343869, "episode/length": 183.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.099999994039536, "episode/reward_rate": 0.043478260869565216}
{"step": 344126, "episode/length": 256.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 13.500000037252903, "episode/reward_rate": 0.042801556420233464}
{"step": 344315, "episode/length": 188.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.05291005291005291}
{"step": 344442, "episode/length": 126.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 9.899999976158142, "episode/reward_rate": 0.07874015748031496}
{"step": 344546, "episode/length": 103.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.10576923076923077}
{"step": 344721, "episode/length": 174.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06285714285714286}
{"step": 344895, "episode/length": 173.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.05747126436781609}
{"step": 345124, "episode/length": 228.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.5, "episode/reward_rate": 0.05240174672489083}
{"step": 345247, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.526451958550347, "train/action_min": 0.0, "train/action_std": 3.3444089194138846, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.045882990376816854, "train/actor_opt_grad_steps": 171715.0, "train/actor_opt_loss": -11.839385480516487, "train/adv_mag": 0.4595119431614876, "train/adv_max": 0.4136152205367883, "train/adv_mean": 0.0026362629836664078, "train/adv_min": -0.38664089515805244, "train/adv_std": 0.05083504567543665, "train/cont_avg": 0.9945882161458334, "train/cont_loss_mean": 5.92378402461217e-05, "train/cont_loss_std": 0.0018459794369244757, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0004520902104903573, "train/cont_pos_acc": 0.9999862735470136, "train/cont_pos_loss": 5.725302406281132e-05, "train/cont_pred": 0.9945689373546176, "train/cont_rate": 0.9945882161458334, "train/dyn_loss_mean": 4.864425490299861, "train/dyn_loss_std": 8.587046510643429, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0745998066332605, "train/extr_critic_critic_opt_grad_steps": 171715.0, "train/extr_critic_critic_opt_loss": 16037.339667426215, "train/extr_critic_mag": 9.243202103508843, "train/extr_critic_max": 9.243202103508843, "train/extr_critic_mean": 2.4239667074547873, "train/extr_critic_min": -0.5836731973621581, "train/extr_critic_std": 2.267180477579435, "train/extr_return_normed_mag": 1.4864239361551073, "train/extr_return_normed_max": 1.4864239361551073, "train/extr_return_normed_mean": 0.3892532106902864, "train/extr_return_normed_min": -0.09810058446601033, "train/extr_return_normed_std": 0.3390870400600963, "train/extr_return_rate": 0.7049624241060681, "train/extr_return_raw_mag": 9.868871715333727, "train/extr_return_raw_max": 9.868871715333727, "train/extr_return_raw_mean": 2.441765727268325, "train/extr_return_raw_min": -0.8580891961852709, "train/extr_return_raw_std": 2.2959820098347135, "train/extr_reward_mag": 1.0349418454700046, "train/extr_reward_max": 1.0349418454700046, "train/extr_reward_mean": 0.04650131781171593, "train/extr_reward_min": -0.6409709768162833, "train/extr_reward_std": 0.21019520589874852, "train/image_loss_mean": 2.8060016747978, "train/image_loss_std": 7.587420029772653, "train/model_loss_mean": 5.773445639345381, "train/model_loss_std": 11.732129249307844, "train/model_opt_grad_norm": 34.40087310473124, "train/model_opt_grad_steps": 171578.0, "train/model_opt_loss": 7216.80706108941, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.438521103726493, "train/policy_entropy_max": 2.438521103726493, "train/policy_entropy_mean": 0.35413030203845763, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.46291610019074547, "train/policy_logprob_mag": 7.4383842547734575, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3549301309718026, "train/policy_logprob_min": -7.4383842547734575, "train/policy_logprob_std": 0.9705548733472824, "train/policy_randomness_mag": 0.8606909397575591, "train/policy_randomness_max": 0.8606909397575591, "train/policy_randomness_mean": 0.12499245659758647, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16338906820035642, "train/post_ent_mag": 54.78665849897597, "train/post_ent_max": 54.78665849897597, "train/post_ent_mean": 40.80689451429579, "train/post_ent_min": 18.82410184542338, "train/post_ent_std": 5.582665946748522, "train/prior_ent_mag": 76.12084409925673, "train/prior_ent_max": 76.12084409925673, "train/prior_ent_mean": 45.654592196146645, "train/prior_ent_min": 28.07158046298557, "train/prior_ent_std": 7.271552602450053, "train/rep_loss_mean": 4.864425490299861, "train/rep_loss_std": 8.587046510643429, "train/reward_avg": 0.031131998234842386, "train/reward_loss_mean": 0.048729440197348595, "train/reward_loss_std": 0.20363680004245704, "train/reward_max_data": 1.0125000029802322, "train/reward_max_pred": 1.0142025550206502, "train/reward_neg_acc": 0.9949331664376788, "train/reward_neg_loss": 0.02296256057969812, "train/reward_pos_acc": 0.9867370782627, "train/reward_pos_loss": 0.7390893076856931, "train/reward_pred": 0.03081120742071006, "train/reward_rate": 0.03602430555555555, "stats/sum_log_reward": 8.975000083446503, "stats/max_log_achievement_collect_coal": 0.25, "stats/max_log_achievement_collect_drink": 2.625, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 7.5, "stats/max_log_achievement_collect_wood": 7.75, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.125, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.25, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.375, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 4.625, "stats/max_log_achievement_place_table": 2.25, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3467382900416851, "replay/size": 345184.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.852446873982748e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2048416667514377e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3163139820099, "timer/env.step_count": 1440.0, "timer/env.step_total": 20.140592098236084, "timer/env.step_frac": 0.06706459543001245, "timer/env.step_avg": 0.013986522290441726, "timer/env.step_min": 0.0030705928802490234, "timer/env.step_max": 1.725778341293335, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.3059406280517578, "timer/replay.add_frac": 0.0010187279671729217, "timer/replay.add_avg": 0.00021245876948038737, "timer/replay.add_min": 7.43865966796875e-05, "timer/replay.add_max": 0.00616145133972168, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028551101684570312, "timer/logger.write_frac": 9.50700989433449e-05, "timer/logger.write_avg": 0.028551101684570312, "timer/logger.write_min": 0.028551101684570312, "timer/logger.write_max": 0.028551101684570312, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 10.743464469909668, "timer/agent.policy_frac": 0.03577382902532975, "timer/agent.policy_avg": 0.007460739215215047, "timer/agent.policy_min": 0.005781888961791992, "timer/agent.policy_max": 0.020332813262939453, "timer/dataset_count": 720.0, "timer/dataset_total": 0.06780314445495605, "timer/dataset_frac": 0.0002257724315936354, "timer/dataset_avg": 9.417103396521674e-05, "timer/dataset_min": 7.271766662597656e-05, "timer/dataset_max": 0.0002129077911376953, "timer/agent.train_count": 720.0, "timer/agent.train_total": 268.33385467529297, "timer/agent.train_frac": 0.8935040894627096, "timer/agent.train_avg": 0.37268590927124023, "timer/agent.train_min": 0.36601924896240234, "timer/agent.train_max": 0.38617372512817383, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22208547592163086, "timer/agent.report_frac": 0.0007395052002900337, "timer/agent.report_avg": 0.22208547592163086, "timer/agent.report_min": 0.22208547592163086, "timer/agent.report_max": 0.22208547592163086, "fps": 4.794822622315266}
{"step": 345299, "episode/length": 174.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 13.10000005364418, "episode/reward_rate": 0.06857142857142857}
{"step": 345491, "episode/length": 191.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 11.500000044703484, "episode/reward_rate": 0.052083333333333336}
{"step": 345618, "episode/length": 126.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 9.899999976158142, "episode/reward_rate": 0.07874015748031496}
{"step": 345817, "episode/length": 198.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.035175879396984924}
{"step": 346037, "episode/length": 219.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.05909090909090909}
{"step": 346201, "episode/length": 163.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.054878048780487805}
{"step": 346378, "episode/length": 176.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06779661016949153}
{"step": 346528, "episode/length": 149.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.06666666666666667}
{"step": 346687, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.686307271321614, "train/action_min": 0.0, "train/action_std": 3.5515501267380185, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.044611083498845495, "train/actor_opt_grad_steps": 172435.0, "train/actor_opt_loss": -12.460243395633167, "train/adv_mag": 0.5008117548293538, "train/adv_max": 0.44817155599594116, "train/adv_mean": 0.0025417383724794084, "train/adv_min": -0.4113766791092025, "train/adv_std": 0.05126127621365918, "train/cont_avg": 0.9944390190972222, "train/cont_loss_mean": 0.0001492830967519707, "train/cont_loss_std": 0.0046920859130909305, "train/cont_neg_acc": 0.9929232820868492, "train/cont_neg_loss": 0.023341614942204103, "train/cont_pos_acc": 0.999999985926681, "train/cont_pos_loss": 1.2153386273262691e-05, "train/cont_pred": 0.9944664753145642, "train/cont_rate": 0.9944390190972222, "train/dyn_loss_mean": 4.837516668770048, "train/dyn_loss_std": 8.69305388795005, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0779883133040533, "train/extr_critic_critic_opt_grad_steps": 172435.0, "train/extr_critic_critic_opt_loss": 16022.610866970486, "train/extr_critic_mag": 9.373924122916328, "train/extr_critic_max": 9.373924122916328, "train/extr_critic_mean": 2.3340944382879467, "train/extr_critic_min": -0.5883322887950473, "train/extr_critic_std": 2.232236554225286, "train/extr_return_normed_mag": 1.5294731441471312, "train/extr_return_normed_max": 1.5294731441471312, "train/extr_return_normed_mean": 0.37980154943135047, "train/extr_return_normed_min": -0.10231336723599169, "train/extr_return_normed_std": 0.3389365749640597, "train/extr_return_rate": 0.6896430510613654, "train/extr_return_raw_mag": 10.037437266773647, "train/extr_return_raw_max": 10.037437266773647, "train/extr_return_raw_mean": 2.3510957625177173, "train/extr_return_raw_min": -0.8720162941349877, "train/extr_return_raw_std": 2.2664325303501553, "train/extr_reward_mag": 1.0315218501620822, "train/extr_reward_max": 1.0315218501620822, "train/extr_reward_mean": 0.043294771393347115, "train/extr_reward_min": -0.6582080490059323, "train/extr_reward_std": 0.20328957421912086, "train/image_loss_mean": 3.012393290797869, "train/image_loss_std": 7.883741451634301, "train/model_loss_mean": 5.9616471197870045, "train/model_loss_std": 12.034509976704916, "train/model_opt_grad_norm": 33.0321102142334, "train/model_opt_grad_steps": 172297.45833333334, "train/model_opt_loss": 7931.079210069444, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1336.8055555555557, "train/policy_entropy_mag": 2.452579392327203, "train/policy_entropy_max": 2.452579392327203, "train/policy_entropy_mean": 0.38311371248629356, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5006542172696855, "train/policy_logprob_mag": 7.4383842084142895, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38230272175537217, "train/policy_logprob_min": -7.4383842084142895, "train/policy_logprob_std": 0.9895632705754704, "train/policy_randomness_mag": 0.8656528972917132, "train/policy_randomness_max": 0.8656528972917132, "train/policy_randomness_mean": 0.13522232810242307, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.17670896877017286, "train/post_ent_mag": 54.9232923189799, "train/post_ent_max": 54.9232923189799, "train/post_ent_mean": 40.978321976131866, "train/post_ent_min": 18.920556558503044, "train/post_ent_std": 5.733905924691094, "train/prior_ent_mag": 76.21415371365018, "train/prior_ent_max": 76.21415371365018, "train/prior_ent_mean": 45.79685793982612, "train/prior_ent_min": 27.728814045588177, "train/prior_ent_std": 7.315053058995141, "train/rep_loss_mean": 4.837516668770048, "train/rep_loss_std": 8.69305388795005, "train/reward_avg": 0.028831651292016938, "train/reward_loss_mean": 0.046594521703405514, "train/reward_loss_std": 0.19552500483890375, "train/reward_max_data": 1.013888892200258, "train/reward_max_pred": 1.014146672354804, "train/reward_neg_acc": 0.9954374631245931, "train/reward_neg_loss": 0.02262050966318283, "train/reward_pos_acc": 0.9864550042483542, "train/reward_pos_loss": 0.734604488644335, "train/reward_pred": 0.028511020122095942, "train/reward_rate": 0.03378634982638889, "stats/sum_log_reward": 9.225000202655792, "stats/max_log_achievement_collect_coal": 0.625, "stats/max_log_achievement_collect_drink": 1.5, "stats/max_log_achievement_collect_sapling": 1.625, "stats/max_log_achievement_collect_stone": 8.125, "stats/max_log_achievement_collect_wood": 9.25, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.375, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.375, "stats/max_log_achievement_make_wood_sword": 1.125, "stats/max_log_achievement_place_furnace": 0.625, "stats/max_log_achievement_place_plant": 1.375, "stats/max_log_achievement_place_stone": 3.75, "stats/max_log_achievement_place_table": 2.75, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.315520191565156, "replay/size": 346624.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.7820802794562445e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.218107839425405e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2014901638031, "timer/env.step_count": 1440.0, "timer/env.step_total": 19.91792345046997, "timer/env.step_frac": 0.06634851625687094, "timer/env.step_avg": 0.013831891285048591, "timer/env.step_min": 0.0028972625732421875, "timer/env.step_max": 1.676928997039795, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.28473353385925293, "timer/replay.add_frac": 0.0009484747517538631, "timer/replay.add_avg": 0.0001977316207355923, "timer/replay.add_min": 7.319450378417969e-05, "timer/replay.add_max": 0.004355907440185547, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02687382698059082, "timer/logger.write_frac": 8.951929907452252e-05, "timer/logger.write_avg": 0.02687382698059082, "timer/logger.write_min": 0.02687382698059082, "timer/logger.write_max": 0.02687382698059082, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 10.741147994995117, "timer/agent.policy_frac": 0.03577979572697749, "timer/agent.policy_avg": 0.007459130552079942, "timer/agent.policy_min": 0.0057599544525146484, "timer/agent.policy_max": 0.018191099166870117, "timer/dataset_count": 720.0, "timer/dataset_total": 0.06656217575073242, "timer/dataset_frac": 0.00022172500114644062, "timer/dataset_avg": 9.24474663204617e-05, "timer/dataset_min": 6.771087646484375e-05, "timer/dataset_max": 0.0001690387725830078, "timer/agent.train_count": 720.0, "timer/agent.train_total": 268.4675841331482, "timer/agent.train_frac": 0.8942913107681794, "timer/agent.train_avg": 0.3728716446293725, "timer/agent.train_min": 0.3628661632537842, "timer/agent.train_max": 0.3843960762023926, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22204828262329102, "timer/agent.report_frac": 0.0007396641585694052, "timer/agent.report_avg": 0.22204828262329102, "timer/agent.report_min": 0.22204828262329102, "timer/agent.report_max": 0.22204828262329102, "fps": 4.796681396026583}
{"step": 346799, "episode/length": 270.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.04059040590405904}
{"step": 346990, "episode/length": 190.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.05759162303664921}
{"step": 347108, "episode/length": 117.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.07627118644067797}
{"step": 347500, "episode/length": 391.0, "episode/score": 7.100000023841858, "episode/sum_abs_reward": 9.700000062584877, "episode/reward_rate": 0.02040816326530612}
{"step": 347703, "episode/length": 202.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 10.100000031292439, "episode/reward_rate": 0.03940886699507389}
{"step": 347885, "episode/length": 181.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.054945054945054944}
{"step": 348060, "episode/length": 174.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.099999994039536, "episode/reward_rate": 0.06857142857142857}
{"step": 348109, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.465742943992077, "train/action_min": 0.0, "train/action_std": 3.3023066184890104, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04594516051067433, "train/actor_opt_grad_steps": 173150.0, "train/actor_opt_loss": -12.138068514425163, "train/adv_mag": 0.44377767494027043, "train/adv_max": 0.3912994210988703, "train/adv_mean": 0.0026366781481479387, "train/adv_min": -0.3879950357155061, "train/adv_std": 0.0504395895650689, "train/cont_avg": 0.9945532570422535, "train/cont_loss_mean": 0.00012116763466757464, "train/cont_loss_std": 0.0038235664712536798, "train/cont_neg_acc": 0.9956405112441157, "train/cont_neg_loss": 0.016598645077611846, "train/cont_pos_acc": 0.999999979012449, "train/cont_pos_loss": 1.0969649770151565e-05, "train/cont_pred": 0.9945713634222326, "train/cont_rate": 0.9945532570422535, "train/dyn_loss_mean": 4.848135028086918, "train/dyn_loss_std": 8.652872099003321, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.040570209563618, "train/extr_critic_critic_opt_grad_steps": 173150.0, "train/extr_critic_critic_opt_loss": 16036.866829885563, "train/extr_critic_mag": 9.25654063426273, "train/extr_critic_max": 9.25654063426273, "train/extr_critic_mean": 2.399751238419976, "train/extr_critic_min": -0.5704257068499713, "train/extr_critic_std": 2.2609607132387834, "train/extr_return_normed_mag": 1.4543128550892146, "train/extr_return_normed_max": 1.4543128550892146, "train/extr_return_normed_mean": 0.3777291632034409, "train/extr_return_normed_min": -0.09828355714259013, "train/extr_return_normed_std": 0.33394691956714845, "train/extr_return_rate": 0.6956316425766743, "train/extr_return_raw_mag": 9.822171412723165, "train/extr_return_raw_max": 9.822171412723165, "train/extr_return_raw_mean": 2.417817619484915, "train/extr_return_raw_min": -0.8558379974163753, "train/extr_return_raw_std": 2.2970798468925584, "train/extr_reward_mag": 1.046942563124106, "train/extr_reward_max": 1.046942563124106, "train/extr_reward_mean": 0.043631094757100225, "train/extr_reward_min": -0.6297146921426477, "train/extr_reward_std": 0.20393979381507552, "train/image_loss_mean": 2.92900524844586, "train/image_loss_std": 7.860665912359533, "train/model_loss_mean": 5.885197599169234, "train/model_loss_std": 12.011042245676819, "train/model_opt_grad_norm": 33.89322186859561, "train/model_opt_grad_steps": 173012.0, "train/model_opt_loss": 8381.76114106514, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1426.056338028169, "train/policy_entropy_mag": 2.504924797675979, "train/policy_entropy_max": 2.504924797675979, "train/policy_entropy_mean": 0.3770432866794962, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4996846931081423, "train/policy_logprob_mag": 7.438384197127651, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3771127395226922, "train/policy_logprob_min": -7.438384197127651, "train/policy_logprob_std": 0.9886387108077466, "train/policy_randomness_mag": 0.8841285243840284, "train/policy_randomness_max": 0.8841285243840284, "train/policy_randomness_mean": 0.13307973427671782, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1763667682526817, "train/post_ent_mag": 55.08056855537522, "train/post_ent_max": 55.08056855537522, "train/post_ent_mean": 40.94360254851865, "train/post_ent_min": 18.997396334795884, "train/post_ent_std": 5.649151600582499, "train/prior_ent_mag": 76.19180652457224, "train/prior_ent_max": 76.19180652457224, "train/prior_ent_mean": 45.778848674935354, "train/prior_ent_min": 27.825565176950374, "train/prior_ent_std": 7.26493545317314, "train/rep_loss_mean": 4.848135028086918, "train/rep_loss_std": 8.652872099003321, "train/reward_avg": 0.029847050649704228, "train/reward_loss_mean": 0.04719018070420749, "train/reward_loss_std": 0.1962666801163848, "train/reward_max_data": 1.016901412480314, "train/reward_max_pred": 1.0200073920505148, "train/reward_neg_acc": 0.9945607176968749, "train/reward_neg_loss": 0.022671110646038408, "train/reward_pos_acc": 0.9908434496798986, "train/reward_pos_loss": 0.725818588700093, "train/reward_pred": 0.029749209035030554, "train/reward_rate": 0.034812389964788734, "stats/sum_log_reward": 8.814286027635847, "stats/max_log_achievement_collect_coal": 0.2857142857142857, "stats/max_log_achievement_collect_drink": 3.4285714285714284, "stats/max_log_achievement_collect_sapling": 0.8571428571428571, "stats/max_log_achievement_collect_stone": 9.857142857142858, "stats/max_log_achievement_collect_wood": 10.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.14285714285714285, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.7142857142857143, "stats/max_log_achievement_place_plant": 0.8571428571428571, "stats/max_log_achievement_place_stone": 5.428571428571429, "stats/max_log_achievement_place_table": 2.5714285714285716, "stats/max_log_achievement_wake_up": 1.7142857142857142, "stats/mean_log_entropy": 0.40597144620759146, "replay/size": 348046.0, "replay/inserts": 1422.0, "replay/samples": 11376.0, "replay/insert_wait_avg": 3.823751135717464e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.198799465946675e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.09093022346497, "timer/env.step_count": 1422.0, "timer/env.step_total": 18.589106798171997, "timer/env.step_frac": 0.06194491377773223, "timer/env.step_avg": 0.013072508296886073, "timer/env.step_min": 0.0028738975524902344, "timer/env.step_max": 1.6500415802001953, "timer/replay.add_count": 1422.0, "timer/replay.add_total": 0.32028722763061523, "timer/replay.add_frac": 0.0010673005924974506, "timer/replay.add_avg": 0.00022523715023250017, "timer/replay.add_min": 8.535385131835938e-05, "timer/replay.add_max": 0.007856607437133789, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028154373168945312, "timer/logger.write_frac": 9.381947381075446e-05, "timer/logger.write_avg": 0.028154373168945312, "timer/logger.write_min": 0.028154373168945312, "timer/logger.write_max": 0.028154373168945312, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0001857280731201172, "timer/checkpoint.save_frac": 6.189059862016269e-07, "timer/checkpoint.save_avg": 0.0001857280731201172, "timer/checkpoint.save_min": 0.0001857280731201172, "timer/checkpoint.save_max": 0.0001857280731201172, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.5120656490325928, "timer/agent.save_frac": 0.005038691598931769, "timer/agent.save_avg": 1.5120656490325928, "timer/agent.save_min": 1.5120656490325928, "timer/agent.save_max": 1.5120656490325928, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.29425048828125e-05, "timer/replay.save_frac": 2.0974477581159114e-07, "timer/replay.save_avg": 6.29425048828125e-05, "timer/replay.save_min": 6.29425048828125e-05, "timer/replay.save_max": 6.29425048828125e-05, "timer/agent.policy_count": 1422.0, "timer/agent.policy_total": 14.946450471878052, "timer/agent.policy_frac": 0.0498064052144064, "timer/agent.policy_avg": 0.010510865310744058, "timer/agent.policy_min": 0.0055696964263916016, "timer/agent.policy_max": 2.775736093521118, "timer/dataset_count": 711.0, "timer/dataset_total": 0.06619811058044434, "timer/dataset_frac": 0.00022059350654533082, "timer/dataset_avg": 9.310564076011861e-05, "timer/dataset_min": 7.176399230957031e-05, "timer/dataset_max": 0.00019073486328125, "timer/agent.train_count": 711.0, "timer/agent.train_total": 265.4435694217682, "timer/agent.train_frac": 0.8845437921902659, "timer/agent.train_avg": 0.3733383536171142, "timer/agent.train_min": 0.3666393756866455, "timer/agent.train_max": 0.42627859115600586, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22417330741882324, "timer/agent.report_frac": 0.0007470179363697893, "timer/agent.report_avg": 0.22417330741882324, "timer/agent.report_min": 0.22417330741882324, "timer/agent.report_max": 0.22417330741882324, "fps": 4.7384799740169585}
{"step": 348163, "episode/length": 102.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.899999976158142, "episode/reward_rate": 0.11650485436893204}
{"step": 348544, "episode/length": 380.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.031496062992125984}
{"step": 348727, "episode/length": 182.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.060109289617486336}
{"step": 348795, "episode/length": 67.0, "episode/score": 7.100000023841858, "episode/sum_abs_reward": 8.899999976158142, "episode/reward_rate": 0.1323529411764706}
{"step": 348949, "episode/length": 153.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 7.700000025331974, "episode/reward_rate": 0.045454545454545456}
{"step": 349162, "episode/length": 212.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.500000037252903, "episode/reward_rate": 0.051643192488262914}
{"step": 349356, "episode/length": 193.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.06701030927835051}
{"step": 349536, "episode/length": 179.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.06111111111111111}
{"step": 349547, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.451135423448351, "train/action_min": 0.0, "train/action_std": 3.294043709834417, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.047005693066037364, "train/actor_opt_grad_steps": 173865.0, "train/actor_opt_loss": -11.2877318740098, "train/adv_mag": 0.4589388705790043, "train/adv_max": 0.41133194665114087, "train/adv_mean": 0.0030373393348984085, "train/adv_min": -0.3956701055996948, "train/adv_std": 0.051455007348623544, "train/cont_avg": 0.9942626953125, "train/cont_loss_mean": 0.000304068184612384, "train/cont_loss_std": 0.00960989637386294, "train/cont_neg_acc": 0.9972222223877907, "train/cont_neg_loss": 0.013030074954342928, "train/cont_pos_acc": 0.9999591468109025, "train/cont_pos_loss": 0.00023777753582344808, "train/cont_pred": 0.9942397624254227, "train/cont_rate": 0.9942626953125, "train/dyn_loss_mean": 4.911441220177545, "train/dyn_loss_std": 8.677511639065212, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0300652095013194, "train/extr_critic_critic_opt_grad_steps": 173865.0, "train/extr_critic_critic_opt_loss": 16357.44489203559, "train/extr_critic_mag": 9.332782626152039, "train/extr_critic_max": 9.332782626152039, "train/extr_critic_mean": 2.5010773407088385, "train/extr_critic_min": -0.5900511824422412, "train/extr_critic_std": 2.3462681935893164, "train/extr_return_normed_mag": 1.4250963578621547, "train/extr_return_normed_max": 1.4250963578621547, "train/extr_return_normed_mean": 0.38193969801068306, "train/extr_return_normed_min": -0.10396808349630898, "train/extr_return_normed_std": 0.3359903697338369, "train/extr_return_rate": 0.7072573428352674, "train/extr_return_raw_mag": 9.917367060979208, "train/extr_return_raw_max": 9.917367060979208, "train/extr_return_raw_mean": 2.522600425614251, "train/extr_return_raw_min": -0.9219166156318452, "train/extr_return_raw_std": 2.3817713575230703, "train/extr_reward_mag": 1.0405948460102081, "train/extr_reward_max": 1.0405948460102081, "train/extr_reward_mean": 0.04624935288706587, "train/extr_reward_min": -0.655794522828526, "train/extr_reward_std": 0.20970003348257807, "train/image_loss_mean": 2.9640858272711434, "train/image_loss_std": 7.993249952793121, "train/model_loss_mean": 5.95938057369656, "train/model_loss_std": 12.066388580534193, "train/model_opt_grad_norm": 36.13009934955173, "train/model_opt_grad_steps": 173727.0, "train/model_opt_loss": 14898.451456705729, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.4938525127040014, "train/policy_entropy_max": 2.4938525127040014, "train/policy_entropy_mean": 0.35666125847233665, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.46983959194686675, "train/policy_logprob_mag": 7.438384215037028, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.356458281684253, "train/policy_logprob_min": -7.438384215037028, "train/policy_logprob_std": 0.9708771738741133, "train/policy_randomness_mag": 0.8802205001314481, "train/policy_randomness_max": 0.8802205001314481, "train/policy_randomness_mean": 0.12588577231185305, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16583275846723053, "train/post_ent_mag": 54.930569118923614, "train/post_ent_max": 54.930569118923614, "train/post_ent_mean": 40.817472298940025, "train/post_ent_min": 18.867059893078274, "train/post_ent_std": 5.671864284409417, "train/prior_ent_mag": 76.10136678483751, "train/prior_ent_max": 76.10136678483751, "train/prior_ent_mean": 45.708903577592636, "train/prior_ent_min": 28.01450726721022, "train/prior_ent_std": 7.26961436536577, "train/rep_loss_mean": 4.911441220177545, "train/rep_loss_std": 8.677511639065212, "train/reward_avg": 0.031108940641085308, "train/reward_loss_mean": 0.048125978300554886, "train/reward_loss_std": 0.20115214958786964, "train/reward_max_data": 1.0194444490803614, "train/reward_max_pred": 1.0161309987306595, "train/reward_neg_acc": 0.9952820820940865, "train/reward_neg_loss": 0.022602215758524835, "train/reward_pos_acc": 0.9885228996475538, "train/reward_pos_loss": 0.7242483579450183, "train/reward_pred": 0.030885578107295766, "train/reward_rate": 0.036322699652777776, "stats/sum_log_reward": 9.600000143051147, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 0.75, "stats/max_log_achievement_collect_sapling": 1.25, "stats/max_log_achievement_collect_stone": 13.375, "stats/max_log_achievement_collect_wood": 6.875, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 0.25, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.125, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.125, "stats/max_log_achievement_place_stone": 6.375, "stats/max_log_achievement_place_table": 1.875, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.33675065264105797, "replay/size": 349484.0, "replay/inserts": 1438.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.83111134026412e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2139368786765405e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3160729408264, "timer/env.step_count": 1438.0, "timer/env.step_total": 20.064327478408813, "timer/env.step_frac": 0.06681070141178305, "timer/env.step_avg": 0.013952939831995002, "timer/env.step_min": 0.0027921199798583984, "timer/env.step_max": 1.6423325538635254, "timer/replay.add_count": 1438.0, "timer/replay.add_total": 0.3031647205352783, "timer/replay.add_frac": 0.0010094854982837138, "timer/replay.add_avg": 0.000210823866853462, "timer/replay.add_min": 7.367134094238281e-05, "timer/replay.add_max": 0.004493236541748047, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03380846977233887, "timer/logger.write_frac": 0.00011257629150938055, "timer/logger.write_avg": 0.03380846977233887, "timer/logger.write_min": 0.03380846977233887, "timer/logger.write_max": 0.03380846977233887, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1438.0, "timer/agent.policy_total": 10.839654684066772, "timer/agent.policy_frac": 0.03609415432853836, "timer/agent.policy_avg": 0.007538007429809995, "timer/agent.policy_min": 0.0056209564208984375, "timer/agent.policy_max": 0.018981218338012695, "timer/dataset_count": 719.0, "timer/dataset_total": 0.06667184829711914, "timer/dataset_frac": 0.00022200559445333454, "timer/dataset_avg": 9.272857899460242e-05, "timer/dataset_min": 6.318092346191406e-05, "timer/dataset_max": 0.0001590251922607422, "timer/agent.train_count": 719.0, "timer/agent.train_total": 268.3054361343384, "timer/agent.train_frac": 0.8934101778402139, "timer/agent.train_avg": 0.37316472341354434, "timer/agent.train_min": 0.36615705490112305, "timer/agent.train_max": 0.39060544967651367, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22085046768188477, "timer/agent.report_frac": 0.0007353934323901493, "timer/agent.report_avg": 0.22085046768188477, "timer/agent.report_min": 0.22085046768188477, "timer/agent.report_max": 0.22085046768188477, "fps": 4.7882164206614855}
{"step": 349822, "episode/length": 285.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.04195804195804196}
{"step": 349974, "episode/length": 151.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 13.699999988079071, "episode/reward_rate": 0.08552631578947369}
{"step": 350411, "episode/length": 436.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.02517162471395881}
{"step": 350452, "episode/length": 40.0, "episode/score": -0.9000000134110451, "episode/sum_abs_reward": 0.9000000134110451, "episode/reward_rate": 0.0}
{"step": 350644, "episode/length": 191.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.0625}
{"step": 350800, "episode/length": 155.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.05128205128205128}
{"step": 350938, "episode/length": 137.0, "episode/score": 6.100000023841858, "episode/sum_abs_reward": 8.300000011920929, "episode/reward_rate": 0.057971014492753624}
{"step": 350993, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.560667249891493, "train/action_min": 0.0, "train/action_std": 3.408495691087511, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04623899334627721, "train/actor_opt_grad_steps": 174585.0, "train/actor_opt_loss": -10.42074497209655, "train/adv_mag": 0.4651726538108455, "train/adv_max": 0.41784793842169976, "train/adv_mean": 0.003121077661969846, "train/adv_min": -0.4009377604557408, "train/adv_std": 0.05180795428653558, "train/cont_avg": 0.9947781032986112, "train/cont_loss_mean": 5.789560750615566e-05, "train/cont_loss_std": 0.0017913407393553233, "train/cont_neg_acc": 0.9976851857370801, "train/cont_neg_loss": 0.007305933129815558, "train/cont_pos_acc": 0.999999985926681, "train/cont_pos_loss": 1.1286157224787985e-05, "train/cont_pred": 0.9947866143451797, "train/cont_rate": 0.9947781032986112, "train/dyn_loss_mean": 4.855327708853616, "train/dyn_loss_std": 8.580014089743296, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0696192449993558, "train/extr_critic_critic_opt_grad_steps": 174585.0, "train/extr_critic_critic_opt_loss": 16300.217013888889, "train/extr_critic_mag": 9.730103453000387, "train/extr_critic_max": 9.730103453000387, "train/extr_critic_mean": 2.5704477263821497, "train/extr_critic_min": -0.5833466880851321, "train/extr_critic_std": 2.373946393529574, "train/extr_return_normed_mag": 1.455843758251932, "train/extr_return_normed_max": 1.455843758251932, "train/extr_return_normed_mean": 0.3838402434355683, "train/extr_return_normed_min": -0.10184460593801406, "train/extr_return_normed_std": 0.33336881134245133, "train/extr_return_rate": 0.7322048967083296, "train/extr_return_raw_mag": 10.346963538063896, "train/extr_return_raw_max": 10.346963538063896, "train/extr_return_raw_mean": 2.593036487698555, "train/extr_return_raw_min": -0.9191180388960574, "train/extr_return_raw_std": 2.4110854549540415, "train/extr_reward_mag": 1.0442768004205492, "train/extr_reward_max": 1.0442768004205492, "train/extr_reward_mean": 0.047193750739097595, "train/extr_reward_min": -0.6673606485128403, "train/extr_reward_std": 0.21148162686990368, "train/image_loss_mean": 3.1084252430333033, "train/image_loss_std": 8.320184383127424, "train/model_loss_mean": 6.068731115923987, "train/model_loss_std": 12.35791958702935, "train/model_opt_grad_norm": 32.563824428452385, "train/model_opt_grad_steps": 174446.26388888888, "train/model_opt_loss": 15409.78801812066, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2534.722222222222, "train/policy_entropy_mag": 2.514152384466595, "train/policy_entropy_max": 2.514152384466595, "train/policy_entropy_mean": 0.3650762513279915, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.47882918640971184, "train/policy_logprob_mag": 7.43838424815072, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3655646737251017, "train/policy_logprob_min": -7.43838424815072, "train/policy_logprob_std": 0.9802358936932352, "train/policy_randomness_mag": 0.8873854610655043, "train/policy_randomness_max": 0.8873854610655043, "train/policy_randomness_mean": 0.12885589556147656, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16900569086687434, "train/post_ent_mag": 55.027101304796005, "train/post_ent_max": 55.027101304796005, "train/post_ent_mean": 40.86898035473294, "train/post_ent_min": 18.87214257982042, "train/post_ent_std": 5.683540026346843, "train/prior_ent_mag": 76.14801332685683, "train/prior_ent_max": 76.14801332685683, "train/prior_ent_mean": 45.730980449252655, "train/prior_ent_min": 27.529818269941543, "train/prior_ent_std": 7.26618492603302, "train/rep_loss_mean": 4.855327708853616, "train/rep_loss_std": 8.580014089743296, "train/reward_avg": 0.03006049230073889, "train/reward_loss_mean": 0.04705134489470058, "train/reward_loss_std": 0.20203611420260537, "train/reward_max_data": 1.0194444490803614, "train/reward_max_pred": 1.0209072364701166, "train/reward_neg_acc": 0.9954632487561967, "train/reward_neg_loss": 0.021940614562481642, "train/reward_pos_acc": 0.9843326608339945, "train/reward_pos_loss": 0.7409989196393225, "train/reward_pred": 0.02972307933184008, "train/reward_rate": 0.034979926215277776, "stats/sum_log_reward": 7.957143042768751, "stats/max_log_achievement_collect_coal": 0.42857142857142855, "stats/max_log_achievement_collect_drink": 1.7142857142857142, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 10.0, "stats/max_log_achievement_collect_wood": 6.0, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.14285714285714285, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_wood_sword": 0.42857142857142855, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 4.714285714285714, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.5714285714285714, "stats/mean_log_entropy": 0.37667628271239145, "replay/size": 350930.0, "replay/inserts": 1446.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.8062883115902976e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.1982141194007208e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.23722290992737, "timer/env.step_count": 1446.0, "timer/env.step_total": 18.704242944717407, "timer/env.step_frac": 0.06229821460321984, "timer/env.step_avg": 0.012935161095931817, "timer/env.step_min": 0.002973794937133789, "timer/env.step_max": 1.7432057857513428, "timer/replay.add_count": 1446.0, "timer/replay.add_total": 0.34192419052124023, "timer/replay.add_frac": 0.0011388467665910272, "timer/replay.add_avg": 0.00023646209579615508, "timer/replay.add_min": 7.390975952148438e-05, "timer/replay.add_max": 0.042609214782714844, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0274503231048584, "timer/logger.write_frac": 9.142878034511274e-05, "timer/logger.write_avg": 0.0274503231048584, "timer/logger.write_min": 0.0274503231048584, "timer/logger.write_max": 0.0274503231048584, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1446.0, "timer/agent.policy_total": 10.716828107833862, "timer/agent.policy_frac": 0.035694535154453394, "timer/agent.policy_avg": 0.007411361070424525, "timer/agent.policy_min": 0.0056650638580322266, "timer/agent.policy_max": 0.014837265014648438, "timer/dataset_count": 723.0, "timer/dataset_total": 0.06619119644165039, "timer/dataset_frac": 0.00022046299189727074, "timer/dataset_avg": 9.155075579758007e-05, "timer/dataset_min": 7.009506225585938e-05, "timer/dataset_max": 0.00019693374633789062, "timer/agent.train_count": 723.0, "timer/agent.train_total": 269.68030834198, "timer/agent.train_frac": 0.8982240966933184, "timer/agent.train_avg": 0.37300180960163204, "timer/agent.train_min": 0.36664628982543945, "timer/agent.train_max": 0.38838696479797363, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22297263145446777, "timer/agent.report_frac": 0.0007426548556950936, "timer/agent.report_avg": 0.22297263145446777, "timer/agent.report_min": 0.22297263145446777, "timer/agent.report_max": 0.22297263145446777, "fps": 4.816118624466271}
{"step": 351085, "episode/length": 146.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.05442176870748299}
{"step": 351256, "episode/length": 170.0, "episode/score": 10.099999971687794, "episode/sum_abs_reward": 12.100000031292439, "episode/reward_rate": 0.07017543859649122}
{"step": 351313, "episode/length": 56.0, "episode/score": 5.0999999940395355, "episode/sum_abs_reward": 6.900000035762787, "episode/reward_rate": 0.10526315789473684}
{"step": 351482, "episode/length": 168.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.0650887573964497}
{"step": 351640, "episode/length": 157.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.06329113924050633}
{"step": 351836, "episode/length": 195.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.04591836734693878}
{"step": 352071, "episode/length": 234.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.04680851063829787}
{"step": 352248, "episode/length": 176.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.700000025331974, "episode/reward_rate": 0.05084745762711865}
{"step": 352407, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.427479058923856, "train/action_min": 0.0, "train/action_std": 3.3788653058065496, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04477538798056858, "train/actor_opt_grad_steps": 175300.0, "train/actor_opt_loss": -13.368488310088575, "train/adv_mag": 0.44759943619580334, "train/adv_max": 0.397104220071309, "train/adv_mean": 0.001790701481759627, "train/adv_min": -0.37429760522405864, "train/adv_std": 0.04954480699880023, "train/cont_avg": 0.9941681338028169, "train/cont_loss_mean": 2.9721173509530454e-06, "train/cont_loss_std": 8.47920832263337e-05, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00022062307175154172, "train/cont_pos_acc": 0.9999999806914531, "train/cont_pos_loss": 1.5037708897445658e-06, "train/cont_pred": 0.9941681480743516, "train/cont_rate": 0.9941681338028169, "train/dyn_loss_mean": 4.988847437039228, "train/dyn_loss_std": 8.748324904643313, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0340130371107181, "train/extr_critic_critic_opt_grad_steps": 175300.0, "train/extr_critic_critic_opt_loss": 16144.438050176057, "train/extr_critic_mag": 9.617906798779124, "train/extr_critic_max": 9.617906798779124, "train/extr_critic_mean": 2.600535537155581, "train/extr_critic_min": -0.5666524373309713, "train/extr_critic_std": 2.4376076795685457, "train/extr_return_normed_mag": 1.4171700863771035, "train/extr_return_normed_max": 1.4171700863771035, "train/extr_return_normed_mean": 0.37628234188321613, "train/extr_return_normed_min": -0.09656218428846816, "train/extr_return_normed_std": 0.3329158370763483, "train/extr_return_rate": 0.7377723766044831, "train/extr_return_raw_mag": 10.325254749244367, "train/extr_return_raw_max": 10.325254749244367, "train/extr_return_raw_mean": 2.6137930389860986, "train/extr_return_raw_min": -0.8886295708132462, "train/extr_return_raw_std": 2.46640515495354, "train/extr_reward_mag": 1.0365384699593128, "train/extr_reward_max": 1.0365384699593128, "train/extr_reward_mean": 0.04463262383786725, "train/extr_reward_min": -0.6570290578922755, "train/extr_reward_std": 0.20558744962786285, "train/image_loss_mean": 3.0498094206124966, "train/image_loss_std": 8.26108517445309, "train/model_loss_mean": 6.091037320419097, "train/model_loss_std": 12.427241929819886, "train/model_opt_grad_norm": 35.9333356937892, "train/model_opt_grad_steps": 175160.338028169, "train/model_opt_loss": 10226.864973041373, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1672.5352112676057, "train/policy_entropy_mag": 2.4851889341649875, "train/policy_entropy_max": 2.4851889341649875, "train/policy_entropy_mean": 0.3555712326311729, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.471023484015129, "train/policy_logprob_mag": 7.4383842172757, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.35693767876692223, "train/policy_logprob_min": -7.4383842172757, "train/policy_logprob_std": 0.974541530642711, "train/policy_randomness_mag": 0.8771626328078794, "train/policy_randomness_max": 0.8771626328078794, "train/policy_randomness_mean": 0.12550104052667888, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1662506183058443, "train/post_ent_mag": 54.318925024757924, "train/post_ent_max": 54.318925024757924, "train/post_ent_mean": 40.82296403696839, "train/post_ent_min": 19.120755437394262, "train/post_ent_std": 5.491226572385976, "train/prior_ent_mag": 76.07726814377476, "train/prior_ent_max": 76.07726814377476, "train/prior_ent_mean": 45.761521137936015, "train/prior_ent_min": 28.173504654790314, "train/prior_ent_std": 7.258808337466817, "train/rep_loss_mean": 4.988847437039228, "train/rep_loss_std": 8.748324904643313, "train/reward_avg": 0.030426110901778013, "train/reward_loss_mean": 0.047916389345912865, "train/reward_loss_std": 0.19947204539473629, "train/reward_max_data": 1.0183098635203403, "train/reward_max_pred": 1.0158523942383242, "train/reward_neg_acc": 0.9948466495728828, "train/reward_neg_loss": 0.0228993346075147, "train/reward_pos_acc": 0.9894193687909086, "train/reward_pos_loss": 0.7259624432510053, "train/reward_pred": 0.030327612888330305, "train/reward_rate": 0.035500110035211266, "stats/sum_log_reward": 8.350000262260437, "stats/max_log_achievement_collect_coal": 0.125, "stats/max_log_achievement_collect_drink": 1.75, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 7.625, "stats/max_log_achievement_collect_wood": 8.25, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.375, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.375, "stats/max_log_achievement_make_wood_sword": 0.625, "stats/max_log_achievement_place_furnace": 0.375, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 4.625, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.29178585670888424, "replay/size": 352344.0, "replay/inserts": 1414.0, "replay/samples": 11312.0, "replay/insert_wait_avg": 3.7789513400454165e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2395152614005385e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2828986644745, "timer/env.step_count": 1414.0, "timer/env.step_total": 22.8045551776886, "timer/env.step_frac": 0.07594356947769311, "timer/env.step_avg": 0.016127691073329984, "timer/env.step_min": 0.0030460357666015625, "timer/env.step_max": 2.6817798614501953, "timer/replay.add_count": 1414.0, "timer/replay.add_total": 0.2905762195587158, "timer/replay.add_frac": 0.00096767488541995, "timer/replay.add_avg": 0.0002054994480613266, "timer/replay.add_min": 7.796287536621094e-05, "timer/replay.add_max": 0.0035698413848876953, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0277707576751709, "timer/logger.write_frac": 9.24819821531061e-05, "timer/logger.write_avg": 0.0277707576751709, "timer/logger.write_min": 0.0277707576751709, "timer/logger.write_max": 0.0277707576751709, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003750324249267578, "timer/checkpoint.save_frac": 1.2489303473315868e-06, "timer/checkpoint.save_avg": 0.0003750324249267578, "timer/checkpoint.save_min": 0.0003750324249267578, "timer/checkpoint.save_max": 0.0003750324249267578, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.375354528427124, "timer/agent.save_frac": 0.004580195990328096, "timer/agent.save_avg": 1.375354528427124, "timer/agent.save_min": 1.375354528427124, "timer/agent.save_max": 1.375354528427124, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.939338684082031e-05, "timer/replay.save_frac": 2.6439529921259913e-07, "timer/replay.save_avg": 7.939338684082031e-05, "timer/replay.save_min": 7.939338684082031e-05, "timer/replay.save_max": 7.939338684082031e-05, "timer/agent.policy_count": 1414.0, "timer/agent.policy_total": 12.698641061782837, "timer/agent.policy_frac": 0.04228892527100536, "timer/agent.policy_avg": 0.00898065138739946, "timer/agent.policy_min": 0.005649566650390625, "timer/agent.policy_max": 1.374107837677002, "timer/dataset_count": 707.0, "timer/dataset_total": 0.0666961669921875, "timer/dataset_frac": 0.00022211110685564362, "timer/dataset_avg": 9.433686986165135e-05, "timer/dataset_min": 6.818771362304688e-05, "timer/dataset_max": 0.0002224445343017578, "timer/agent.train_count": 707.0, "timer/agent.train_total": 263.69076108932495, "timer/agent.train_frac": 0.878141120463752, "timer/agent.train_avg": 0.37297137353511306, "timer/agent.train_min": 0.3626260757446289, "timer/agent.train_max": 0.4193432331085205, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22341156005859375, "timer/agent.report_frac": 0.0007440036081049888, "timer/agent.report_avg": 0.22341156005859375, "timer/agent.report_min": 0.22341156005859375, "timer/agent.report_max": 0.22341156005859375, "fps": 4.708733303187839}
{"step": 352442, "episode/length": 193.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.061855670103092786}
{"step": 352710, "episode/length": 267.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 13.100000008940697, "episode/reward_rate": 0.04477611940298507}
{"step": 352938, "episode/length": 227.0, "episode/score": 11.100000016391277, "episode/sum_abs_reward": 12.30000003427267, "episode/reward_rate": 0.05263157894736842}
{"step": 353226, "episode/length": 287.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 14.300000056624413, "episode/reward_rate": 0.041666666666666664}
{"step": 353393, "episode/length": 166.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.059880239520958084}
{"step": 353600, "episode/length": 206.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.900000005960464, "episode/reward_rate": 0.05314009661835749}
{"step": 353800, "episode/length": 199.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 12.299999982118607, "episode/reward_rate": 0.06}
{"step": 353853, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.416940477159288, "train/action_min": 0.0, "train/action_std": 3.2876918613910675, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.046030869293544024, "train/actor_opt_grad_steps": 176015.0, "train/actor_opt_loss": -10.68820125837293, "train/adv_mag": 0.4584004663758808, "train/adv_max": 0.42333517885870403, "train/adv_mean": 0.0029719676632440598, "train/adv_min": -0.3689837252928151, "train/adv_std": 0.051402882776326604, "train/cont_avg": 0.9947781032986112, "train/cont_loss_mean": 2.6768738779776096e-05, "train/cont_loss_std": 0.0006495213279558401, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00039603584243271445, "train/cont_pos_acc": 0.9999863530198733, "train/cont_pos_loss": 2.5251949723569132e-05, "train/cont_pred": 0.9947629728251033, "train/cont_rate": 0.9947781032986112, "train/dyn_loss_mean": 5.039798736572266, "train/dyn_loss_std": 8.651122642887962, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.102900341980987, "train/extr_critic_critic_opt_grad_steps": 176015.0, "train/extr_critic_critic_opt_loss": 16511.742865668402, "train/extr_critic_mag": 9.633411831325954, "train/extr_critic_max": 9.633411831325954, "train/extr_critic_mean": 2.5476836231019764, "train/extr_critic_min": -0.5561802287896475, "train/extr_critic_std": 2.3985476427608066, "train/extr_return_normed_mag": 1.4209328989187877, "train/extr_return_normed_max": 1.4209328989187877, "train/extr_return_normed_mean": 0.37158349094291526, "train/extr_return_normed_min": -0.09592671951072083, "train/extr_return_normed_std": 0.33078765413827366, "train/extr_return_rate": 0.7327600883113013, "train/extr_return_raw_mag": 10.275003949801127, "train/extr_return_raw_max": 10.275003949801127, "train/extr_return_raw_mean": 2.5694715264770718, "train/extr_return_raw_min": -0.8637355466683706, "train/extr_return_raw_std": 2.4292464935117297, "train/extr_reward_mag": 1.0388871000872717, "train/extr_reward_max": 1.0388871000872717, "train/extr_reward_mean": 0.04582281604719659, "train/extr_reward_min": -0.6564117289251752, "train/extr_reward_std": 0.2075262237340212, "train/image_loss_mean": 3.125021603372362, "train/image_loss_std": 7.914894812636906, "train/model_loss_mean": 6.197106884585486, "train/model_loss_std": 12.062440223164028, "train/model_opt_grad_norm": 33.87924944029914, "train/model_opt_grad_steps": 175874.98611111112, "train/model_opt_loss": 9576.180548773871, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1562.5, "train/policy_entropy_mag": 2.4994256529543133, "train/policy_entropy_max": 2.4994256529543133, "train/policy_entropy_mean": 0.3627150747925043, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4768565462695228, "train/policy_logprob_mag": 7.438384175300598, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36188970216446453, "train/policy_logprob_min": -7.438384175300598, "train/policy_logprob_std": 0.9744179223974546, "train/policy_randomness_mag": 0.882187570962641, "train/policy_randomness_max": 0.882187570962641, "train/policy_randomness_mean": 0.12802250331474674, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16830943307528892, "train/post_ent_mag": 54.980591244167755, "train/post_ent_max": 54.980591244167755, "train/post_ent_mean": 40.907625410291885, "train/post_ent_min": 18.95272085401747, "train/post_ent_std": 5.60070479578442, "train/prior_ent_mag": 76.17416434817844, "train/prior_ent_max": 76.17416434817844, "train/prior_ent_mean": 45.92784039179484, "train/prior_ent_min": 28.133602115843033, "train/prior_ent_std": 7.242002891169654, "train/rep_loss_mean": 5.039798736572266, "train/rep_loss_std": 8.651122642887962, "train/reward_avg": 0.031197102468771238, "train/reward_loss_mean": 0.04817927245878511, "train/reward_loss_std": 0.20127106809781659, "train/reward_max_data": 1.0097222245401807, "train/reward_max_pred": 1.01103362109926, "train/reward_neg_acc": 0.9949351946512858, "train/reward_neg_loss": 0.02259096670119713, "train/reward_pos_acc": 0.987799254556497, "train/reward_pos_loss": 0.7357959821820259, "train/reward_pred": 0.030836734377468627, "train/reward_rate": 0.03587510850694445, "stats/sum_log_reward": 10.242857251848493, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 1.5714285714285714, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 13.142857142857142, "stats/max_log_achievement_collect_wood": 8.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.7142857142857142, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 5.285714285714286, "stats/max_log_achievement_place_table": 2.5714285714285716, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.41995153043951305, "replay/size": 353790.0, "replay/inserts": 1446.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.845530097085576e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2562111700224184e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.24246764183044, "timer/env.step_count": 1446.0, "timer/env.step_total": 18.633910655975342, "timer/env.step_frac": 0.06206287472365293, "timer/env.step_avg": 0.01288652189209913, "timer/env.step_min": 0.002873659133911133, "timer/env.step_max": 1.6695716381072998, "timer/replay.add_count": 1446.0, "timer/replay.add_total": 0.31137609481811523, "timer/replay.add_frac": 0.0010370821198737497, "timer/replay.add_avg": 0.00021533616515775604, "timer/replay.add_min": 7.963180541992188e-05, "timer/replay.add_max": 0.010035037994384766, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030628442764282227, "timer/logger.write_frac": 0.00010201236022620207, "timer/logger.write_avg": 0.030628442764282227, "timer/logger.write_min": 0.030628442764282227, "timer/logger.write_max": 0.030628442764282227, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1446.0, "timer/agent.policy_total": 10.874449253082275, "timer/agent.policy_frac": 0.03621889114652088, "timer/agent.policy_avg": 0.007520366011813468, "timer/agent.policy_min": 0.00568699836730957, "timer/agent.policy_max": 0.01708245277404785, "timer/dataset_count": 723.0, "timer/dataset_total": 0.06754207611083984, "timer/dataset_frac": 0.0002249584365640543, "timer/dataset_avg": 9.341919240780061e-05, "timer/dataset_min": 7.224082946777344e-05, "timer/dataset_max": 0.00020194053649902344, "timer/agent.train_count": 723.0, "timer/agent.train_total": 269.6121118068695, "timer/agent.train_frac": 0.8979812680213481, "timer/agent.train_avg": 0.3729074852100546, "timer/agent.train_min": 0.36359143257141113, "timer/agent.train_max": 0.38517332077026367, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21885251998901367, "timer/agent.report_frac": 0.0007289192688427087, "timer/agent.report_avg": 0.21885251998901367, "timer/agent.report_min": 0.21885251998901367, "timer/agent.report_max": 0.21885251998901367, "fps": 4.816007148881056}
{"step": 354207, "episode/length": 406.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.029484029484029485}
{"step": 354391, "episode/length": 183.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.059782608695652176}
{"step": 354478, "episode/length": 86.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.12643678160919541}
{"step": 354631, "episode/length": 152.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.058823529411764705}
{"step": 354881, "episode/length": 249.0, "episode/score": 12.099999979138374, "episode/sum_abs_reward": 14.300000011920929, "episode/reward_rate": 0.052}
{"step": 355020, "episode/length": 138.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.06474820143884892}
{"step": 355307, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.526771858946918, "train/action_min": 0.0, "train/action_std": 3.3298309371895987, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04530130969743206, "train/actor_opt_grad_steps": 176740.0, "train/actor_opt_loss": -15.34418724661004, "train/adv_mag": 0.4624244007345748, "train/adv_max": 0.42047259089064926, "train/adv_mean": 0.0013714187087515873, "train/adv_min": -0.3929552754310712, "train/adv_std": 0.05031451664558829, "train/cont_avg": 0.9938596960616438, "train/cont_loss_mean": 3.9114956216029404e-05, "train/cont_loss_std": 0.0012425419761693277, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0021118418138665793, "train/cont_pos_acc": 0.9999865415978105, "train/cont_pos_loss": 2.5774730010545643e-05, "train/cont_pred": 0.9938552199977718, "train/cont_rate": 0.9938596960616438, "train/dyn_loss_mean": 4.854694085578396, "train/dyn_loss_std": 8.619693841019721, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0363714188745576, "train/extr_critic_critic_opt_grad_steps": 176740.0, "train/extr_critic_critic_opt_loss": 16227.543784781677, "train/extr_critic_mag": 9.83996860295126, "train/extr_critic_max": 9.83996860295126, "train/extr_critic_mean": 2.616578330732372, "train/extr_critic_min": -0.5994295224751511, "train/extr_critic_std": 2.476990067795531, "train/extr_return_normed_mag": 1.4534487332383248, "train/extr_return_normed_max": 1.4534487332383248, "train/extr_return_normed_mean": 0.38218346401436687, "train/extr_return_normed_min": -0.09801616300254652, "train/extr_return_normed_std": 0.3406220274428799, "train/extr_return_rate": 0.724386454445042, "train/extr_return_raw_mag": 10.500818801252809, "train/extr_return_raw_max": 10.500818801252809, "train/extr_return_raw_mean": 2.626595325665931, "train/extr_return_raw_min": -0.904318147326169, "train/extr_return_raw_std": 2.504158238842063, "train/extr_reward_mag": 1.0376896368314141, "train/extr_reward_max": 1.0376896368314141, "train/extr_reward_mean": 0.047665970323428716, "train/extr_reward_min": -0.6677600880191751, "train/extr_reward_std": 0.21327088834488228, "train/image_loss_mean": 2.8661971500475114, "train/image_loss_std": 7.467928406310408, "train/model_loss_mean": 5.827601609164721, "train/model_loss_std": 11.572209795860395, "train/model_opt_grad_norm": 33.320636801523705, "train/model_opt_grad_steps": 176599.0, "train/model_opt_loss": 7284.501986568921, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.4673568385921114, "train/policy_entropy_max": 2.4673568385921114, "train/policy_entropy_mean": 0.36146715732469953, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.47310111702304997, "train/policy_logprob_mag": 7.4383842324557365, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36162836176075347, "train/policy_logprob_min": -7.4383842324557365, "train/policy_logprob_std": 0.9758400606782469, "train/policy_randomness_mag": 0.870868688576842, "train/policy_randomness_max": 0.870868688576842, "train/policy_randomness_mean": 0.1275820431031593, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16698393327732608, "train/post_ent_mag": 54.94623320070031, "train/post_ent_max": 54.94623320070031, "train/post_ent_mean": 40.65580096310132, "train/post_ent_min": 18.78352444792447, "train/post_ent_std": 5.57756614031857, "train/prior_ent_mag": 76.06323336248528, "train/prior_ent_max": 76.06323336248528, "train/prior_ent_mean": 45.50379745274374, "train/prior_ent_min": 27.85723393583951, "train/prior_ent_std": 7.325313881651996, "train/rep_loss_mean": 4.854694085578396, "train/rep_loss_std": 8.619693841019721, "train/reward_avg": 0.03160985653633124, "train/reward_loss_mean": 0.04854891362459692, "train/reward_loss_std": 0.19860973362236806, "train/reward_max_data": 1.0150684967432937, "train/reward_max_pred": 1.015878974574886, "train/reward_neg_acc": 0.9950722921384524, "train/reward_neg_loss": 0.022361789881060384, "train/reward_pos_acc": 0.9877683495822018, "train/reward_pos_loss": 0.7350113522516538, "train/reward_pred": 0.03123963741611128, "train/reward_rate": 0.03672142551369863, "stats/sum_log_reward": 9.766667048136393, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 1.1666666666666667, "stats/max_log_achievement_collect_sapling": 0.8333333333333334, "stats/max_log_achievement_collect_stone": 10.833333333333334, "stats/max_log_achievement_collect_wood": 6.166666666666667, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.16666666666666666, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.3333333333333333, "stats/max_log_achievement_place_plant": 0.6666666666666666, "stats/max_log_achievement_place_stone": 4.166666666666667, "stats/max_log_achievement_place_table": 1.8333333333333333, "stats/max_log_achievement_wake_up": 1.6666666666666667, "stats/mean_log_entropy": 0.4183073192834854, "replay/size": 355244.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.810761883301453e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.222797076344654e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0202946662903, "timer/env.step_count": 1454.0, "timer/env.step_total": 16.92676877975464, "timer/env.step_frac": 0.056418745933777985, "timer/env.step_avg": 0.011641519105745969, "timer/env.step_min": 0.0026967525482177734, "timer/env.step_max": 1.752331018447876, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.30887460708618164, "timer/replay.add_frac": 0.0010295123782534108, "timer/replay.add_avg": 0.0002124309539794922, "timer/replay.add_min": 7.653236389160156e-05, "timer/replay.add_max": 0.007907629013061523, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026655197143554688, "timer/logger.write_frac": 8.8844646903647e-05, "timer/logger.write_avg": 0.026655197143554688, "timer/logger.write_min": 0.026655197143554688, "timer/logger.write_max": 0.026655197143554688, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 10.88132381439209, "timer/agent.policy_frac": 0.03626862584911225, "timer/agent.policy_avg": 0.007483716516088095, "timer/agent.policy_min": 0.005671024322509766, "timer/agent.policy_max": 0.018915891647338867, "timer/dataset_count": 727.0, "timer/dataset_total": 0.06734395027160645, "timer/dataset_frac": 0.0002244646494548393, "timer/dataset_avg": 9.263266887428672e-05, "timer/dataset_min": 6.794929504394531e-05, "timer/dataset_max": 0.0001506805419921875, "timer/agent.train_count": 727.0, "timer/agent.train_total": 271.1104464530945, "timer/agent.train_frac": 0.9036403579119474, "timer/agent.train_avg": 0.3729167076383693, "timer/agent.train_min": 0.3661174774169922, "timer/agent.train_max": 0.38983583450317383, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22228264808654785, "timer/agent.report_frac": 0.0007408920397661456, "timer/agent.report_avg": 0.22228264808654785, "timer/agent.report_min": 0.22228264808654785, "timer/agent.report_max": 0.22228264808654785, "fps": 4.846273731757274}
{"step": 355342, "episode/length": 321.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.024844720496894408}
{"step": 355509, "episode/length": 166.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.04790419161676647}
{"step": 355676, "episode/length": 166.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.059880239520958084}
{"step": 355868, "episode/length": 191.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.299999997019768, "episode/reward_rate": 0.052083333333333336}
{"step": 356097, "episode/length": 228.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.700000002980232, "episode/reward_rate": 0.043668122270742356}
{"step": 356261, "episode/length": 163.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.06707317073170732}
{"step": 356539, "episode/length": 277.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.039568345323741004}
{"step": 356601, "episode/length": 61.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.3000000193715096, "episode/reward_rate": 0.08064516129032258}
{"step": 356717, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.558101109095982, "train/action_min": 0.0, "train/action_std": 3.4037674461092267, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04598038036908422, "train/actor_opt_grad_steps": 177455.0, "train/actor_opt_loss": -12.254481978980559, "train/adv_mag": 0.4549905845097133, "train/adv_max": 0.3984582620007651, "train/adv_mean": 0.0026442003982083406, "train/adv_min": -0.3962146343929427, "train/adv_std": 0.05049501268991402, "train/cont_avg": 0.9942940848214286, "train/cont_loss_mean": 0.00012214416671102617, "train/cont_loss_std": 0.0038043999077485425, "train/cont_neg_acc": 0.9948412699358804, "train/cont_neg_loss": 0.019410223834724353, "train/cont_pos_acc": 0.9999999821186065, "train/cont_pos_loss": 1.2504039985802454e-05, "train/cont_pred": 0.9943113718714033, "train/cont_rate": 0.9942940848214286, "train/dyn_loss_mean": 4.818998054095677, "train/dyn_loss_std": 8.612401628494263, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0252301752567292, "train/extr_critic_critic_opt_grad_steps": 177455.0, "train/extr_critic_critic_opt_loss": 16320.707575334822, "train/extr_critic_mag": 9.696993391854422, "train/extr_critic_max": 9.696993391854422, "train/extr_critic_mean": 2.604939067363739, "train/extr_critic_min": -0.5780646800994873, "train/extr_critic_std": 2.408025760310037, "train/extr_return_normed_mag": 1.4490724563598634, "train/extr_return_normed_max": 1.4490724563598634, "train/extr_return_normed_mean": 0.38561262339353564, "train/extr_return_normed_min": -0.10108369418552944, "train/extr_return_normed_std": 0.3348340570926666, "train/extr_return_rate": 0.7329836692128863, "train/extr_return_raw_mag": 10.37713805607387, "train/extr_return_raw_max": 10.37713805607387, "train/extr_return_raw_mean": 2.624219158717564, "train/extr_return_raw_min": -0.9241947105952671, "train/extr_return_raw_std": 2.441291454860142, "train/extr_reward_mag": 1.035415141923087, "train/extr_reward_max": 1.035415141923087, "train/extr_reward_mean": 0.04954308590718678, "train/extr_reward_min": -0.6742552331515721, "train/extr_reward_std": 0.21644977778196334, "train/image_loss_mean": 2.892471740927015, "train/image_loss_std": 7.922629547119141, "train/model_loss_mean": 5.83390064239502, "train/model_loss_std": 12.039055476869855, "train/model_opt_grad_norm": 33.65627726146153, "train/model_opt_grad_steps": 177313.45714285714, "train/model_opt_loss": 7830.259256417411, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1357.142857142857, "train/policy_entropy_mag": 2.473171366964068, "train/policy_entropy_max": 2.473171366964068, "train/policy_entropy_mean": 0.3592765869838851, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4765570878982544, "train/policy_logprob_mag": 7.438384212766375, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.35981641156332833, "train/policy_logprob_min": -7.438384212766375, "train/policy_logprob_std": 0.9743342518806457, "train/policy_randomness_mag": 0.8729209576334273, "train/policy_randomness_max": 0.8729209576334273, "train/policy_randomness_mean": 0.1268088688807828, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16820373886397907, "train/post_ent_mag": 54.613259070260185, "train/post_ent_max": 54.613259070260185, "train/post_ent_mean": 40.71457524980818, "train/post_ent_min": 18.7048718724932, "train/post_ent_std": 5.5299211365836, "train/prior_ent_mag": 76.3109130859375, "train/prior_ent_max": 76.3109130859375, "train/prior_ent_mean": 45.525236402239116, "train/prior_ent_min": 27.816246822902134, "train/prior_ent_std": 7.248107051849365, "train/rep_loss_mean": 4.818998054095677, "train/rep_loss_std": 8.612401628494263, "train/reward_avg": 0.03321847058832646, "train/reward_loss_mean": 0.04990786771689142, "train/reward_loss_std": 0.20071268784148352, "train/reward_max_data": 1.0200000047683715, "train/reward_max_pred": 1.0170067174094064, "train/reward_neg_acc": 0.9950995291982379, "train/reward_neg_loss": 0.022845221304201652, "train/reward_pos_acc": 0.9888092177254814, "train/reward_pos_loss": 0.7313928195408412, "train/reward_pred": 0.03290877935609647, "train/reward_rate": 0.038267299107142855, "stats/sum_log_reward": 7.975000083446503, "stats/max_log_achievement_collect_coal": 0.375, "stats/max_log_achievement_collect_drink": 3.25, "stats/max_log_achievement_collect_sapling": 1.125, "stats/max_log_achievement_collect_stone": 6.75, "stats/max_log_achievement_collect_wood": 7.25, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.125, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.125, "stats/max_log_achievement_make_wood_sword": 0.75, "stats/max_log_achievement_place_furnace": 0.75, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 3.25, "stats/max_log_achievement_place_table": 2.25, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.4461880251765251, "replay/size": 356654.0, "replay/inserts": 1410.0, "replay/samples": 11280.0, "replay/insert_wait_avg": 3.8103008946628433e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.206698147117669e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2747404575348, "timer/env.step_count": 1410.0, "timer/env.step_total": 23.28231906890869, "timer/env.step_frac": 0.07753672198145253, "timer/env.step_avg": 0.016512283027594818, "timer/env.step_min": 0.0030236244201660156, "timer/env.step_max": 2.698164463043213, "timer/replay.add_count": 1410.0, "timer/replay.add_total": 0.32335805892944336, "timer/replay.add_frac": 0.0010768739935857943, "timer/replay.add_avg": 0.00022933195668754848, "timer/replay.add_min": 8.034706115722656e-05, "timer/replay.add_max": 0.008357048034667969, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026598691940307617, "timer/logger.write_frac": 8.858118368457715e-05, "timer/logger.write_avg": 0.026598691940307617, "timer/logger.write_min": 0.026598691940307617, "timer/logger.write_max": 0.026598691940307617, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00036644935607910156, "timer/checkpoint.save_frac": 1.2203802275234178e-06, "timer/checkpoint.save_avg": 0.00036644935607910156, "timer/checkpoint.save_min": 0.00036644935607910156, "timer/checkpoint.save_max": 0.00036644935607910156, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4278345108032227, "timer/agent.save_frac": 0.004755093647329782, "timer/agent.save_avg": 1.4278345108032227, "timer/agent.save_min": 1.4278345108032227, "timer/agent.save_max": 1.4278345108032227, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.557868957519531e-05, "timer/replay.save_frac": 2.5169845941764704e-07, "timer/replay.save_avg": 7.557868957519531e-05, "timer/replay.save_min": 7.557868957519531e-05, "timer/replay.save_max": 7.557868957519531e-05, "timer/agent.policy_count": 1410.0, "timer/agent.policy_total": 12.748071193695068, "timer/agent.policy_frac": 0.04245469057527307, "timer/agent.policy_avg": 0.009041185243755367, "timer/agent.policy_min": 0.005708932876586914, "timer/agent.policy_max": 1.4179816246032715, "timer/dataset_count": 705.0, "timer/dataset_total": 0.06629443168640137, "timer/dataset_frac": 0.0002207792489817398, "timer/dataset_avg": 9.403465487432817e-05, "timer/dataset_min": 7.128715515136719e-05, "timer/dataset_max": 0.0001900196075439453, "timer/agent.train_count": 705.0, "timer/agent.train_total": 263.12876868247986, "timer/agent.train_frac": 0.8762933847900265, "timer/agent.train_avg": 0.37323229600351754, "timer/agent.train_min": 0.36631202697753906, "timer/agent.train_max": 0.4593789577484131, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22159409523010254, "timer/agent.report_frac": 0.0007379711489965992, "timer/agent.report_avg": 0.22159409523010254, "timer/agent.report_min": 0.22159409523010254, "timer/agent.report_max": 0.22159409523010254, "fps": 4.695634138042095}
{"step": 356825, "episode/length": 223.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.049107142857142856}
{"step": 357035, "episode/length": 209.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.299999997019768, "episode/reward_rate": 0.04285714285714286}
{"step": 357189, "episode/length": 153.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.045454545454545456}
{"step": 357453, "episode/length": 263.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 9.899999991059303, "episode/reward_rate": 0.03787878787878788}
{"step": 357607, "episode/length": 153.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03896103896103896}
{"step": 357776, "episode/length": 168.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.05917159763313609}
{"step": 357920, "episode/length": 143.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 10.10000005364418, "episode/reward_rate": 0.0625}
{"step": 358092, "episode/length": 171.0, "episode/score": 10.099999971687794, "episode/sum_abs_reward": 12.500000037252903, "episode/reward_rate": 0.06976744186046512}
{"step": 358157, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.435062832302517, "train/action_min": 0.0, "train/action_std": 3.3334021965662637, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04452054916570584, "train/actor_opt_grad_steps": 178165.0, "train/actor_opt_loss": -13.300645836525494, "train/adv_mag": 0.4748219706945949, "train/adv_max": 0.42574697567356956, "train/adv_mean": 0.001965365477777444, "train/adv_min": -0.38650193189581233, "train/adv_std": 0.050469215855830245, "train/cont_avg": 0.9942762586805556, "train/cont_loss_mean": 4.985567176597606e-05, "train/cont_loss_std": 0.0014995793463804653, "train/cont_neg_acc": 0.9982638888888888, "train/cont_neg_loss": 0.005132688029757699, "train/cont_pos_acc": 0.9999999817874696, "train/cont_pos_loss": 9.861845803982305e-06, "train/cont_pred": 0.9942827133668793, "train/cont_rate": 0.9942762586805556, "train/dyn_loss_mean": 4.886370867490768, "train/dyn_loss_std": 8.717350039217207, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0572491453753576, "train/extr_critic_critic_opt_grad_steps": 178165.0, "train/extr_critic_critic_opt_loss": 16099.316867404514, "train/extr_critic_mag": 9.941633502642313, "train/extr_critic_max": 9.941633502642313, "train/extr_critic_mean": 2.5226016127400928, "train/extr_critic_min": -0.6004653208785586, "train/extr_critic_std": 2.4032390216986337, "train/extr_return_normed_mag": 1.4819068196747038, "train/extr_return_normed_max": 1.4819068196747038, "train/extr_return_normed_mean": 0.3756677893300851, "train/extr_return_normed_min": -0.09883895123170482, "train/extr_return_normed_std": 0.3362678976522552, "train/extr_return_rate": 0.730585435198413, "train/extr_return_raw_mag": 10.529174579514397, "train/extr_return_raw_max": 10.529174579514397, "train/extr_return_raw_mean": 2.536748338076803, "train/extr_return_raw_min": -0.895154368546274, "train/extr_return_raw_std": 2.4312388367123074, "train/extr_reward_mag": 1.0330158405833774, "train/extr_reward_max": 1.0330158405833774, "train/extr_reward_mean": 0.046044489161835775, "train/extr_reward_min": -0.6526461790005366, "train/extr_reward_std": 0.20914525290330252, "train/image_loss_mean": 2.974193634258376, "train/image_loss_std": 7.701571173138088, "train/model_loss_mean": 5.953191598256429, "train/model_loss_std": 11.863384882609049, "train/model_opt_grad_norm": 33.54285158051385, "train/model_opt_grad_steps": 178023.0, "train/model_opt_loss": 8440.308180067273, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1423.611111111111, "train/policy_entropy_mag": 2.514991177452935, "train/policy_entropy_max": 2.514991177452935, "train/policy_entropy_mean": 0.36948295103179085, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.49379679850406116, "train/policy_logprob_mag": 7.438384268018934, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36888805238737, "train/policy_logprob_min": -7.438384268018934, "train/policy_logprob_std": 0.9806502246194415, "train/policy_randomness_mag": 0.8876815198196305, "train/policy_randomness_max": 0.8876815198196305, "train/policy_randomness_mean": 0.13041126769449976, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.17428860006233057, "train/post_ent_mag": 54.78697888056437, "train/post_ent_max": 54.78697888056437, "train/post_ent_mean": 40.84308237499661, "train/post_ent_min": 19.0371427403556, "train/post_ent_std": 5.528593003749847, "train/prior_ent_mag": 76.2588399251302, "train/prior_ent_max": 76.2588399251302, "train/prior_ent_mean": 45.721498542361786, "train/prior_ent_min": 27.873740355173748, "train/prior_ent_std": 7.253886428144243, "train/rep_loss_mean": 4.886370867490768, "train/rep_loss_std": 8.717350039217207, "train/reward_avg": 0.031262206793245345, "train/reward_loss_mean": 0.0471255303774443, "train/reward_loss_std": 0.19019180536270142, "train/reward_max_data": 1.0152777814202838, "train/reward_max_pred": 1.0109718607531653, "train/reward_neg_acc": 0.9952719542715285, "train/reward_neg_loss": 0.021718400491711993, "train/reward_pos_acc": 0.9880151641037729, "train/reward_pos_loss": 0.7269646558496687, "train/reward_pred": 0.031055671654434666, "train/reward_rate": 0.036214192708333336, "stats/sum_log_reward": 7.975000202655792, "stats/max_log_achievement_collect_coal": 0.125, "stats/max_log_achievement_collect_drink": 2.25, "stats/max_log_achievement_collect_sapling": 1.375, "stats/max_log_achievement_collect_stone": 9.375, "stats/max_log_achievement_collect_wood": 9.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.25, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.125, "stats/max_log_achievement_make_wood_sword": 1.25, "stats/max_log_achievement_place_furnace": 0.625, "stats/max_log_achievement_place_plant": 1.25, "stats/max_log_achievement_place_stone": 4.875, "stats/max_log_achievement_place_table": 2.625, "stats/max_log_achievement_wake_up": 0.875, "stats/mean_log_entropy": 0.34183498844504356, "replay/size": 358094.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.7574105792575414e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3382070594363743e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.19931149482727, "timer/env.step_count": 1440.0, "timer/env.step_total": 20.046135663986206, "timer/env.step_frac": 0.06677608807351186, "timer/env.step_avg": 0.013920927544434865, "timer/env.step_min": 0.002905607223510742, "timer/env.step_max": 1.671617031097412, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.28426504135131836, "timer/replay.add_frac": 0.0009469210303509191, "timer/replay.add_avg": 0.00019740627871619331, "timer/replay.add_min": 7.295608520507812e-05, "timer/replay.add_max": 0.004054069519042969, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03207898139953613, "timer/logger.write_frac": 0.0001068589439456089, "timer/logger.write_avg": 0.03207898139953613, "timer/logger.write_min": 0.03207898139953613, "timer/logger.write_max": 0.03207898139953613, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 10.734387636184692, "timer/agent.policy_frac": 0.03575753582755854, "timer/agent.policy_avg": 0.007454435858461592, "timer/agent.policy_min": 0.005694866180419922, "timer/agent.policy_max": 0.016244173049926758, "timer/dataset_count": 720.0, "timer/dataset_total": 0.06569075584411621, "timer/dataset_frac": 0.00021882380581425193, "timer/dataset_avg": 9.123716089460585e-05, "timer/dataset_min": 6.437301635742188e-05, "timer/dataset_max": 0.00017762184143066406, "timer/agent.train_count": 720.0, "timer/agent.train_total": 268.3400032520294, "timer/agent.train_frac": 0.8938728137511174, "timer/agent.train_avg": 0.37269444896115195, "timer/agent.train_min": 0.36674928665161133, "timer/agent.train_max": 0.3865830898284912, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21815228462219238, "timer/agent.report_frac": 0.0007266914888509042, "timer/agent.report_avg": 0.21815228462219238, "timer/agent.report_min": 0.21815228462219238, "timer/agent.report_max": 0.21815228462219238, "fps": 4.796729208587681}
{"step": 358562, "episode/length": 469.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 15.1000000461936, "episode/reward_rate": 0.027659574468085105}
{"step": 358738, "episode/length": 175.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.056818181818181816}
{"step": 358917, "episode/length": 178.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.055865921787709494}
{"step": 359162, "episode/length": 244.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.04897959183673469}
{"step": 359331, "episode/length": 168.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.047337278106508875}
{"step": 359501, "episode/length": 169.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 12.10000005364418, "episode/reward_rate": 0.06470588235294118}
{"step": 359611, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.501289263163527, "train/action_min": 0.0, "train/action_std": 3.344777953134824, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04528029329360348, "train/actor_opt_grad_steps": 178890.0, "train/actor_opt_loss": -12.770180171483183, "train/adv_mag": 0.44225730430589966, "train/adv_max": 0.39251848116312943, "train/adv_mean": 0.002938480624417112, "train/adv_min": -0.3918188771564666, "train/adv_std": 0.05074792421639782, "train/cont_avg": 0.9945553296232876, "train/cont_loss_mean": 0.00018438171739427624, "train/cont_loss_std": 0.005880452377186573, "train/cont_neg_acc": 0.9972602741359031, "train/cont_neg_loss": 0.004488269935442475, "train/cont_pos_acc": 0.9999865513958343, "train/cont_pos_loss": 0.00016016629105532635, "train/cont_pred": 0.9945578281193563, "train/cont_rate": 0.9945553296232876, "train/dyn_loss_mean": 4.943293901338969, "train/dyn_loss_std": 8.701815637823653, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0545234549535465, "train/extr_critic_critic_opt_grad_steps": 178890.0, "train/extr_critic_critic_opt_loss": 16170.246949914384, "train/extr_critic_mag": 9.555983608716154, "train/extr_critic_max": 9.555983608716154, "train/extr_critic_mean": 2.496199612748133, "train/extr_critic_min": -0.5717006072606126, "train/extr_critic_std": 2.3365198994336063, "train/extr_return_normed_mag": 1.4474437955307633, "train/extr_return_normed_max": 1.4474437955307633, "train/extr_return_normed_mean": 0.37754584603930175, "train/extr_return_normed_min": -0.09313872476963148, "train/extr_return_normed_std": 0.33092213166903145, "train/extr_return_rate": 0.7212275629990721, "train/extr_return_raw_mag": 10.19641377174691, "train/extr_return_raw_max": 10.19641377174691, "train/extr_return_raw_mean": 2.517261023390783, "train/extr_return_raw_min": -0.8620153420592007, "train/extr_return_raw_std": 2.375595561445576, "train/extr_reward_mag": 1.045495039796176, "train/extr_reward_max": 1.045495039796176, "train/extr_reward_mean": 0.04745958735273309, "train/extr_reward_min": -0.6521587192195736, "train/extr_reward_std": 0.21163326950922404, "train/image_loss_mean": 3.0301109813664056, "train/image_loss_std": 7.777033570694597, "train/model_loss_mean": 6.045976756370231, "train/model_loss_std": 11.946700801588085, "train/model_opt_grad_norm": 33.367119044473725, "train/model_opt_grad_steps": 178747.16438356164, "train/model_opt_loss": 8748.87815041738, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1455.4794520547946, "train/policy_entropy_mag": 2.4991913886919415, "train/policy_entropy_max": 2.4991913886919415, "train/policy_entropy_mean": 0.368137681729173, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.49225094138759456, "train/policy_logprob_mag": 7.438384238987753, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36739437016722276, "train/policy_logprob_min": -7.438384238987753, "train/policy_logprob_std": 0.9798918921653539, "train/policy_randomness_mag": 0.8821048834552504, "train/policy_randomness_max": 0.8821048834552504, "train/policy_randomness_mean": 0.12993644473895635, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.17374298109175407, "train/post_ent_mag": 54.72731932548628, "train/post_ent_max": 54.72731932548628, "train/post_ent_mean": 40.80296863921701, "train/post_ent_min": 18.61353129556734, "train/post_ent_std": 5.602081716877141, "train/prior_ent_mag": 76.21935167704542, "train/prior_ent_max": 76.21935167704542, "train/prior_ent_mean": 45.731443065486545, "train/prior_ent_min": 27.533321145462665, "train/prior_ent_std": 7.350043277217917, "train/rep_loss_mean": 4.943293901338969, "train/rep_loss_std": 8.701815637823653, "train/reward_avg": 0.03136237141714521, "train/reward_loss_mean": 0.04970508489808808, "train/reward_loss_std": 0.20671115284913208, "train/reward_max_data": 1.0219178134447908, "train/reward_max_pred": 1.0216347093451512, "train/reward_neg_acc": 0.9946109538208948, "train/reward_neg_loss": 0.023857383325389805, "train/reward_pos_acc": 0.9857475275862707, "train/reward_pos_loss": 0.7381901014341067, "train/reward_pred": 0.031038212475098977, "train/reward_rate": 0.0362398330479452, "stats/sum_log_reward": 9.766666809717814, "stats/max_log_achievement_collect_coal": 0.16666666666666666, "stats/max_log_achievement_collect_drink": 5.166666666666667, "stats/max_log_achievement_collect_sapling": 2.3333333333333335, "stats/max_log_achievement_collect_stone": 9.666666666666666, "stats/max_log_achievement_collect_wood": 8.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.3333333333333333, "stats/max_log_achievement_place_furnace": 0.5, "stats/max_log_achievement_place_plant": 2.1666666666666665, "stats/max_log_achievement_place_stone": 5.5, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 0.8333333333333334, "stats/mean_log_entropy": 0.28544137130180997, "replay/size": 359548.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.783214207036623e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2123232202647969e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.32442450523376, "timer/env.step_count": 1454.0, "timer/env.step_total": 17.050961017608643, "timer/env.step_frac": 0.056775139237173484, "timer/env.step_avg": 0.01172693329959329, "timer/env.step_min": 0.002969026565551758, "timer/env.step_max": 1.867708683013916, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.2999894618988037, "timer/replay.add_frac": 0.0009988846641195372, "timer/replay.add_avg": 0.00020632012510234094, "timer/replay.add_min": 6.461143493652344e-05, "timer/replay.add_max": 0.009500503540039062, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02856135368347168, "timer/logger.write_frac": 9.510166790638082e-05, "timer/logger.write_avg": 0.02856135368347168, "timer/logger.write_min": 0.02856135368347168, "timer/logger.write_max": 0.02856135368347168, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 11.034961462020874, "timer/agent.policy_frac": 0.036743469933224054, "timer/agent.policy_avg": 0.007589382023398125, "timer/agent.policy_min": 0.005631923675537109, "timer/agent.policy_max": 0.022880077362060547, "timer/dataset_count": 727.0, "timer/dataset_total": 0.06818032264709473, "timer/dataset_frac": 0.00022702223690070384, "timer/dataset_avg": 9.378311230687033e-05, "timer/dataset_min": 7.295608520507812e-05, "timer/dataset_max": 0.000164031982421875, "timer/agent.train_count": 727.0, "timer/agent.train_total": 271.1362729072571, "timer/agent.train_frac": 0.9028112627001205, "timer/agent.train_avg": 0.37295223233460395, "timer/agent.train_min": 0.36598873138427734, "timer/agent.train_max": 0.3850517272949219, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22366547584533691, "timer/agent.report_frac": 0.0007447462064193154, "timer/agent.report_avg": 0.22366547584533691, "timer/agent.report_min": 0.22366547584533691, "timer/agent.report_max": 0.22366547584533691, "fps": 4.841329812528537}
{"step": 359672, "episode/length": 170.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.04678362573099415}
{"step": 359904, "episode/length": 231.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.05172413793103448}
{"step": 360064, "episode/length": 159.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.05}
{"step": 360496, "episode/length": 431.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.027777777777777776}
{"step": 360679, "episode/length": 182.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.04371584699453552}
{"step": 360847, "episode/length": 167.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.05952380952380952}
{"step": 361018, "episode/length": 170.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06432748538011696}
{"step": 361033, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.452174227002641, "train/action_min": 0.0, "train/action_std": 3.3485438084938157, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04431107540575551, "train/actor_opt_grad_steps": 179610.0, "train/actor_opt_loss": -13.169916133645554, "train/adv_mag": 0.4810629959257556, "train/adv_max": 0.445622024611688, "train/adv_mean": 0.002150392552926271, "train/adv_min": -0.3683820925128292, "train/adv_std": 0.05006246079861278, "train/cont_avg": 0.9945119938380281, "train/cont_loss_mean": 2.332477207850113e-05, "train/cont_loss_std": 0.0005806084131954392, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0005105085868013754, "train/cont_pos_acc": 0.9999999748149389, "train/cont_pos_loss": 2.1032000829499865e-05, "train/cont_pred": 0.9944953549076134, "train/cont_rate": 0.9945119938380281, "train/dyn_loss_mean": 4.9683890040491665, "train/dyn_loss_std": 8.66535859040811, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0339448284095443, "train/extr_critic_critic_opt_grad_steps": 179610.0, "train/extr_critic_critic_opt_loss": 16073.750728983274, "train/extr_critic_mag": 9.84377650140037, "train/extr_critic_max": 9.84377650140037, "train/extr_critic_mean": 2.5258326362556134, "train/extr_critic_min": -0.560103114222137, "train/extr_critic_std": 2.3928606963493455, "train/extr_return_normed_mag": 1.471831612184014, "train/extr_return_normed_max": 1.471831612184014, "train/extr_return_normed_mean": 0.3739316138163419, "train/extr_return_normed_min": -0.09696213428823042, "train/extr_return_normed_std": 0.3319054279528873, "train/extr_return_rate": 0.7291391970406116, "train/extr_return_raw_mag": 10.556513638563558, "train/extr_return_raw_max": 10.556513638563558, "train/extr_return_raw_mean": 2.541535412761527, "train/extr_return_raw_min": -0.8975975790493925, "train/extr_return_raw_std": 2.42395534985502, "train/extr_reward_mag": 1.03521187540511, "train/extr_reward_max": 1.03521187540511, "train/extr_reward_mean": 0.045551854959675966, "train/extr_reward_min": -0.6670196610437312, "train/extr_reward_std": 0.20728731722059385, "train/image_loss_mean": 2.9348131116007417, "train/image_loss_std": 7.980171277489461, "train/model_loss_mean": 5.964074450479427, "train/model_loss_std": 12.156146815125371, "train/model_opt_grad_norm": 33.21301882031938, "train/model_opt_grad_steps": 179467.0, "train/model_opt_loss": 10927.78076859595, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1813.380281690141, "train/policy_entropy_mag": 2.484783622580515, "train/policy_entropy_max": 2.484783622580515, "train/policy_entropy_mean": 0.36159413843087745, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4810753817289648, "train/policy_logprob_mag": 7.438384197127651, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36080484071248015, "train/policy_logprob_min": -7.438384197127651, "train/policy_logprob_std": 0.9741229683580533, "train/policy_randomness_mag": 0.8770195741049001, "train/policy_randomness_max": 0.8770195741049001, "train/policy_randomness_mean": 0.12762686138001966, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16979849653344758, "train/post_ent_mag": 54.90027382004429, "train/post_ent_max": 54.90027382004429, "train/post_ent_mean": 40.801273453403525, "train/post_ent_min": 18.881452493264643, "train/post_ent_std": 5.560575364341198, "train/prior_ent_mag": 76.11769942162742, "train/prior_ent_max": 76.11769942162742, "train/prior_ent_mean": 45.72826535936812, "train/prior_ent_min": 27.859991825802226, "train/prior_ent_std": 7.299378865201708, "train/rep_loss_mean": 4.9683890040491665, "train/rep_loss_std": 8.66535859040811, "train/reward_avg": 0.030532019934289053, "train/reward_loss_mean": 0.048204596351150056, "train/reward_loss_std": 0.20717816338152953, "train/reward_max_data": 1.0140845104002616, "train/reward_max_pred": 1.011465952429973, "train/reward_neg_acc": 0.9952819028370817, "train/reward_neg_loss": 0.02251132506824715, "train/reward_pos_acc": 0.986862708984966, "train/reward_pos_loss": 0.7449485122317999, "train/reward_pred": 0.030206636578159432, "train/reward_rate": 0.035500110035211266, "stats/sum_log_reward": 8.81428589139666, "stats/max_log_achievement_collect_coal": 0.42857142857142855, "stats/max_log_achievement_collect_drink": 5.571428571428571, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 7.714285714285714, "stats/max_log_achievement_collect_wood": 8.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.14285714285714285, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 0.7142857142857143, "stats/max_log_achievement_place_furnace": 0.7142857142857143, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 4.0, "stats/max_log_achievement_place_table": 2.5714285714285716, "stats/max_log_achievement_wake_up": 1.7142857142857142, "stats/mean_log_entropy": 0.3989273011684418, "replay/size": 360970.0, "replay/inserts": 1422.0, "replay/samples": 11376.0, "replay/insert_wait_avg": 3.7845176986501185e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2100748874970126e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3161082267761, "timer/env.step_count": 1422.0, "timer/env.step_total": 21.804539680480957, "timer/env.step_frac": 0.07260529516457309, "timer/env.step_avg": 0.01533371285547184, "timer/env.step_min": 0.0027980804443359375, "timer/env.step_max": 3.3814804553985596, "timer/replay.add_count": 1422.0, "timer/replay.add_total": 0.30423402786254883, "timer/replay.add_frac": 0.0010130459856412836, "timer/replay.add_avg": 0.00021394798021276288, "timer/replay.add_min": 7.62939453125e-05, "timer/replay.add_max": 0.013806581497192383, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.031461477279663086, "timer/logger.write_frac": 0.00010476120467006633, "timer/logger.write_avg": 0.031461477279663086, "timer/logger.write_min": 0.031461477279663086, "timer/logger.write_max": 0.031461477279663086, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0009768009185791016, "timer/checkpoint.save_frac": 3.2525758419907833e-06, "timer/checkpoint.save_avg": 0.0009768009185791016, "timer/checkpoint.save_min": 0.0009768009185791016, "timer/checkpoint.save_max": 0.0009768009185791016, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.528881549835205, "timer/agent.save_frac": 0.005090907573564815, "timer/agent.save_avg": 1.528881549835205, "timer/agent.save_min": 1.528881549835205, "timer/agent.save_max": 1.528881549835205, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.606910705566406e-05, "timer/replay.save_frac": 2.8659504001920255e-07, "timer/replay.save_avg": 8.606910705566406e-05, "timer/replay.save_min": 8.606910705566406e-05, "timer/replay.save_max": 8.606910705566406e-05, "timer/agent.policy_count": 1422.0, "timer/agent.policy_total": 12.254530191421509, "timer/agent.policy_frac": 0.040805437523077547, "timer/agent.policy_avg": 0.008617813074136083, "timer/agent.policy_min": 0.005717754364013672, "timer/agent.policy_max": 1.513282060623169, "timer/dataset_count": 711.0, "timer/dataset_total": 0.06658101081848145, "timer/dataset_frac": 0.00022170309548698758, "timer/dataset_avg": 9.364417836635928e-05, "timer/dataset_min": 6.508827209472656e-05, "timer/dataset_max": 0.00022268295288085938, "timer/agent.train_count": 711.0, "timer/agent.train_total": 265.14647674560547, "timer/agent.train_frac": 0.8828912918163777, "timer/agent.train_avg": 0.37292050175190644, "timer/agent.train_min": 0.3653748035430908, "timer/agent.train_max": 0.442535400390625, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2234477996826172, "timer/agent.report_frac": 0.0007440420062778858, "timer/agent.report_avg": 0.2234477996826172, "timer/agent.report_min": 0.2234477996826172, "timer/agent.report_max": 0.2234477996826172, "fps": 4.734928623802482}
{"step": 361230, "episode/length": 211.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.05660377358490566}
{"step": 361351, "episode/length": 120.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.900000013411045, "episode/reward_rate": 0.08264462809917356}
{"step": 361398, "episode/length": 46.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 5.299999997019768, "episode/reward_rate": 0.10638297872340426}
{"step": 361623, "episode/length": 224.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.05333333333333334}
{"step": 361800, "episode/length": 176.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.05649717514124294}
{"step": 361960, "episode/length": 159.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.700000047683716, "episode/reward_rate": 0.06875}
{"step": 362081, "episode/length": 120.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 12.899999976158142, "episode/reward_rate": 0.10743801652892562}
{"step": 362277, "episode/length": 195.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.05102040816326531}
{"step": 362471, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.562598334418403, "train/action_min": 0.0, "train/action_std": 3.3902882006433277, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04533232764030496, "train/actor_opt_grad_steps": 180325.0, "train/actor_opt_loss": -11.710057233770689, "train/adv_mag": 0.45029711143838036, "train/adv_max": 0.4153740294277668, "train/adv_mean": 0.0027156015998520567, "train/adv_min": -0.3800005769977967, "train/adv_std": 0.05037579338790642, "train/cont_avg": 0.9943983289930556, "train/cont_loss_mean": 1.032789726293812e-05, "train/cont_loss_std": 0.0002446177442341953, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00015865816836389647, "train/cont_pos_acc": 0.999999976820416, "train/cont_pos_loss": 9.453216030408385e-06, "train/cont_pred": 0.9943901780578825, "train/cont_rate": 0.9943983289930556, "train/dyn_loss_mean": 4.901248362329271, "train/dyn_loss_std": 8.645071427027384, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0173517498705122, "train/extr_critic_critic_opt_grad_steps": 180325.0, "train/extr_critic_critic_opt_loss": 16140.086452907986, "train/extr_critic_mag": 9.753647062513563, "train/extr_critic_max": 9.753647062513563, "train/extr_critic_mean": 2.4826673600408764, "train/extr_critic_min": -0.6096053421497345, "train/extr_critic_std": 2.3902975436713962, "train/extr_return_normed_mag": 1.4621465785635843, "train/extr_return_normed_max": 1.4621465785635843, "train/extr_return_normed_mean": 0.36693089952071506, "train/extr_return_normed_min": -0.1011050475968255, "train/extr_return_normed_std": 0.33086616918444633, "train/extr_return_rate": 0.7108498281902738, "train/extr_return_raw_mag": 10.538346396552193, "train/extr_return_raw_max": 10.538346396552193, "train/extr_return_raw_mean": 2.502557247877121, "train/extr_return_raw_min": -0.931378349247906, "train/extr_return_raw_std": 2.4276236875189676, "train/extr_reward_mag": 1.0406687160332997, "train/extr_reward_max": 1.0406687160332997, "train/extr_reward_mean": 0.046828003108708396, "train/extr_reward_min": -0.6685145845015844, "train/extr_reward_std": 0.2100832551303837, "train/image_loss_mean": 2.9837142328421273, "train/image_loss_std": 7.999757846196492, "train/model_loss_mean": 5.973613818486531, "train/model_loss_std": 12.117346154318916, "train/model_opt_grad_norm": 33.08254192935096, "train/model_opt_grad_steps": 180181.97222222222, "train/model_opt_loss": 15456.823499891492, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2569.4444444444443, "train/policy_entropy_mag": 2.4870988527933755, "train/policy_entropy_max": 2.4870988527933755, "train/policy_entropy_mean": 0.3670087137983905, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.48670993372797966, "train/policy_logprob_mag": 7.438384195168813, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36705898286567795, "train/policy_logprob_min": -7.438384195168813, "train/policy_logprob_std": 0.9802201886971792, "train/policy_randomness_mag": 0.8778367522690032, "train/policy_randomness_max": 0.8778367522690032, "train/policy_randomness_mean": 0.1295379718972577, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.17178724664780828, "train/post_ent_mag": 54.7734572092692, "train/post_ent_max": 54.7734572092692, "train/post_ent_mean": 40.82768641577827, "train/post_ent_min": 19.08395481109619, "train/post_ent_std": 5.567227145036061, "train/prior_ent_mag": 76.18664752112494, "train/prior_ent_max": 76.18664752112494, "train/prior_ent_mean": 45.71384308073256, "train/prior_ent_min": 27.46839581595527, "train/prior_ent_std": 7.296625415484111, "train/rep_loss_mean": 4.901248362329271, "train/rep_loss_std": 8.645071427027384, "train/reward_avg": 0.03153076165148781, "train/reward_loss_mean": 0.049140239807052746, "train/reward_loss_std": 0.20276275277137756, "train/reward_max_data": 1.0166666706403096, "train/reward_max_pred": 1.0152941015031602, "train/reward_neg_acc": 0.9949855224953758, "train/reward_neg_loss": 0.022963200475917094, "train/reward_pos_acc": 0.9879716957608858, "train/reward_pos_loss": 0.7371498718857765, "train/reward_pred": 0.031101873066897195, "train/reward_rate": 0.03660753038194445, "stats/sum_log_reward": 9.10000017285347, "stats/max_log_achievement_collect_coal": 0.25, "stats/max_log_achievement_collect_drink": 1.625, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 9.25, "stats/max_log_achievement_collect_wood": 7.5, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 0.125, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.875, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 0.625, "stats/max_log_achievement_place_plant": 1.375, "stats/max_log_achievement_place_stone": 5.875, "stats/max_log_achievement_place_table": 2.25, "stats/max_log_achievement_wake_up": 0.875, "stats/mean_log_entropy": 0.28144325502216816, "replay/size": 362408.0, "replay/inserts": 1438.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.86393948954236e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2247966957357564e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.35951018333435, "timer/env.step_count": 1438.0, "timer/env.step_total": 20.15792417526245, "timer/env.step_frac": 0.06711265497456163, "timer/env.step_avg": 0.014018027938290996, "timer/env.step_min": 0.0028443336486816406, "timer/env.step_max": 1.8116743564605713, "timer/replay.add_count": 1438.0, "timer/replay.add_total": 0.31444597244262695, "timer/replay.add_frac": 0.0010468986723633105, "timer/replay.add_avg": 0.00021866896553729274, "timer/replay.add_min": 7.295608520507812e-05, "timer/replay.add_max": 0.006780862808227539, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03509831428527832, "timer/logger.write_frac": 0.00011685434652578473, "timer/logger.write_avg": 0.03509831428527832, "timer/logger.write_min": 0.03509831428527832, "timer/logger.write_max": 0.03509831428527832, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1438.0, "timer/agent.policy_total": 10.88345980644226, "timer/agent.policy_frac": 0.036234776783991895, "timer/agent.policy_avg": 0.007568469962755397, "timer/agent.policy_min": 0.005574226379394531, "timer/agent.policy_max": 0.017787694931030273, "timer/dataset_count": 719.0, "timer/dataset_total": 0.06898379325866699, "timer/dataset_frac": 0.00022967074762027828, "timer/dataset_avg": 9.594407963653267e-05, "timer/dataset_min": 7.200241088867188e-05, "timer/dataset_max": 0.0016887187957763672, "timer/agent.train_count": 719.0, "timer/agent.train_total": 268.1990647315979, "timer/agent.train_frac": 0.8929268281463562, "timer/agent.train_avg": 0.37301677987704857, "timer/agent.train_min": 0.3648412227630615, "timer/agent.train_max": 0.3888967037200928, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21953582763671875, "timer/agent.report_frac": 0.0007309101932637918, "timer/agent.report_avg": 0.21953582763671875, "timer/agent.report_min": 0.21953582763671875, "timer/agent.report_max": 0.21953582763671875, "fps": 4.787515485412991}
{"step": 362482, "episode/length": 204.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.04878048780487805}
{"step": 362731, "episode/length": 248.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.099999994039536, "episode/reward_rate": 0.04819277108433735}
{"step": 362915, "episode/length": 183.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.059782608695652176}
{"step": 363271, "episode/length": 355.0, "episode/score": 9.099999979138374, "episode/sum_abs_reward": 11.30000002682209, "episode/reward_rate": 0.028089887640449437}
{"step": 363472, "episode/length": 200.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 9.899999991059303, "episode/reward_rate": 0.04975124378109453}
{"step": 363698, "episode/length": 225.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.04424778761061947}
{"step": 363923, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.468831101508989, "train/action_min": 0.0, "train/action_std": 3.340445495631597, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04583057143712697, "train/actor_opt_grad_steps": 181050.0, "train/actor_opt_loss": -13.852644505566113, "train/adv_mag": 0.522140234300535, "train/adv_max": 0.4675903259074851, "train/adv_mean": 0.0021566980741064908, "train/adv_min": -0.4133034442385582, "train/adv_std": 0.05179197703526445, "train/cont_avg": 0.9941807577054794, "train/cont_loss_mean": 1.4628727236080124e-05, "train/cont_loss_std": 0.000368665546808213, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 7.198684188427263e-05, "train/cont_pos_acc": 0.9999999804039524, "train/cont_pos_loss": 1.4348790648610914e-05, "train/cont_pred": 0.9941689314907545, "train/cont_rate": 0.9941807577054794, "train/dyn_loss_mean": 4.804503293886577, "train/dyn_loss_std": 8.576304840714965, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.04552521525997, "train/extr_critic_critic_opt_grad_steps": 181050.0, "train/extr_critic_critic_opt_loss": 16108.515103274829, "train/extr_critic_mag": 10.039658611767912, "train/extr_critic_max": 10.039658611767912, "train/extr_critic_mean": 2.5521374336660725, "train/extr_critic_min": -0.6027705604082918, "train/extr_critic_std": 2.461277857218703, "train/extr_return_normed_mag": 1.4874925335792646, "train/extr_return_normed_max": 1.4874925335792646, "train/extr_return_normed_mean": 0.3772139230819598, "train/extr_return_normed_min": -0.0958217770779786, "train/extr_return_normed_std": 0.3390458826332876, "train/extr_return_rate": 0.7144335447108909, "train/extr_return_raw_mag": 10.730386838521042, "train/extr_return_raw_max": 10.730386838521042, "train/extr_return_raw_mean": 2.568017007553414, "train/extr_return_raw_min": -0.9095725466127265, "train/extr_return_raw_std": 2.493094705555537, "train/extr_reward_mag": 1.0425857746437803, "train/extr_reward_max": 1.0425857746437803, "train/extr_reward_mean": 0.04622529977804994, "train/extr_reward_min": -0.6642248450893246, "train/extr_reward_std": 0.21000655015853986, "train/image_loss_mean": 2.9252844379372793, "train/image_loss_std": 7.815401946028618, "train/model_loss_mean": 5.857612965858146, "train/model_loss_std": 11.886725412656183, "train/model_opt_grad_norm": 30.95598287451757, "train/model_opt_grad_steps": 180906.0, "train/model_opt_loss": 14644.032400470891, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.5085210571550345, "train/policy_entropy_max": 2.5085210571550345, "train/policy_entropy_mean": 0.37599880360577204, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5118084035507621, "train/policy_logprob_mag": 7.438384252051785, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3764787206094559, "train/policy_logprob_min": -7.438384252051785, "train/policy_logprob_std": 0.9928270137473328, "train/policy_randomness_mag": 0.8853978498341286, "train/policy_randomness_max": 0.8853978498341286, "train/policy_randomness_mean": 0.13271107534839682, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18064590757840301, "train/post_ent_mag": 54.52313274226776, "train/post_ent_max": 54.52313274226776, "train/post_ent_mean": 40.95633321265652, "train/post_ent_min": 18.89297263263023, "train/post_ent_std": 5.559847655361646, "train/prior_ent_mag": 76.21682551135756, "train/prior_ent_max": 76.21682551135756, "train/prior_ent_mean": 45.71496383457968, "train/prior_ent_min": 27.55581179057082, "train/prior_ent_std": 7.226106780849091, "train/rep_loss_mean": 4.804503293886577, "train/rep_loss_std": 8.576304840714965, "train/reward_avg": 0.031403841910092795, "train/reward_loss_mean": 0.049611985504831355, "train/reward_loss_std": 0.2021683391234646, "train/reward_max_data": 1.0178082234238925, "train/reward_max_pred": 1.0135204449091872, "train/reward_neg_acc": 0.9951793281999353, "train/reward_neg_loss": 0.02346026221264715, "train/reward_pos_acc": 0.9870811553850566, "train/reward_pos_loss": 0.7371601911440288, "train/reward_pred": 0.031184387916367347, "train/reward_rate": 0.03673480308219178, "stats/sum_log_reward": 9.266667048136393, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 3.3333333333333335, "stats/max_log_achievement_collect_sapling": 0.6666666666666666, "stats/max_log_achievement_collect_stone": 17.5, "stats/max_log_achievement_collect_wood": 9.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.6666666666666665, "stats/max_log_achievement_place_plant": 0.6666666666666666, "stats/max_log_achievement_place_stone": 5.5, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.4985481798648834, "replay/size": 363860.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.8754513112638276e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2188985656444035e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2641553878784, "timer/env.step_count": 1452.0, "timer/env.step_total": 17.247998476028442, "timer/env.step_frac": 0.05744274888138959, "timer/env.step_avg": 0.011878786829220691, "timer/env.step_min": 0.003094196319580078, "timer/env.step_max": 1.6393568515777588, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.30265355110168457, "timer/replay.add_frac": 0.001007957645529549, "timer/replay.add_avg": 0.0002084390847807745, "timer/replay.add_min": 7.62939453125e-05, "timer/replay.add_max": 0.004998207092285156, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030463218688964844, "timer/logger.write_frac": 0.000101454729585064, "timer/logger.write_avg": 0.030463218688964844, "timer/logger.write_min": 0.030463218688964844, "timer/logger.write_max": 0.030463218688964844, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 11.00007700920105, "timer/agent.policy_frac": 0.03663466588274999, "timer/agent.policy_avg": 0.007575810612397417, "timer/agent.policy_min": 0.00565791130065918, "timer/agent.policy_max": 0.01941704750061035, "timer/dataset_count": 726.0, "timer/dataset_total": 0.06827473640441895, "timer/dataset_frac": 0.0002273822405349126, "timer/dataset_avg": 9.404233664520515e-05, "timer/dataset_min": 7.176399230957031e-05, "timer/dataset_max": 0.00017404556274414062, "timer/agent.train_count": 726.0, "timer/agent.train_total": 270.8910641670227, "timer/agent.train_frac": 0.9021758318674041, "timer/agent.train_avg": 0.3731281875578825, "timer/agent.train_min": 0.366243839263916, "timer/agent.train_max": 0.3884408473968506, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22323036193847656, "timer/agent.report_frac": 0.0007434465883885131, "timer/agent.report_avg": 0.22323036193847656, "timer/agent.report_min": 0.22323036193847656, "timer/agent.report_max": 0.22323036193847656, "fps": 4.83559726607778}
{"step": 363953, "episode/length": 254.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.043137254901960784}
{"step": 364054, "episode/length": 100.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 9.899999976158142, "episode/reward_rate": 0.09900990099009901}
{"step": 364192, "episode/length": 137.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.07971014492753623}
{"step": 364346, "episode/length": 153.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.07142857142857142}
{"step": 364573, "episode/length": 226.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.048458149779735685}
{"step": 364849, "episode/length": 275.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 12.100000031292439, "episode/reward_rate": 0.036231884057971016}
{"step": 364996, "episode/length": 146.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 11.699999988079071, "episode/reward_rate": 0.07482993197278912}
{"step": 365102, "episode/length": 105.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.11320754716981132}
{"step": 365339, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.503026827959947, "train/action_min": 0.0, "train/action_std": 3.34303806869077, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04494227385017234, "train/actor_opt_grad_steps": 181770.0, "train/actor_opt_loss": -11.882146454193222, "train/adv_mag": 0.49034096195664206, "train/adv_max": 0.44029349256569233, "train/adv_mean": 0.0023497759082115217, "train/adv_min": -0.4390197530598708, "train/adv_std": 0.05110282797208974, "train/cont_avg": 0.9948833626760564, "train/cont_loss_mean": 1.716293881830571e-05, "train/cont_loss_std": 0.00035399270925320794, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0007289276186960526, "train/cont_pos_acc": 0.9999999798519511, "train/cont_pos_loss": 1.4548271557612064e-05, "train/cont_pred": 0.9948718933991982, "train/cont_rate": 0.9948833626760564, "train/dyn_loss_mean": 4.9045956235536385, "train/dyn_loss_std": 8.584845066070557, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0463700093014139, "train/extr_critic_critic_opt_grad_steps": 181770.0, "train/extr_critic_critic_opt_loss": 16185.621079995599, "train/extr_critic_mag": 9.811373885248749, "train/extr_critic_max": 9.811373885248749, "train/extr_critic_mean": 2.4573165698790214, "train/extr_critic_min": -0.5773646294231146, "train/extr_critic_std": 2.328014587012815, "train/extr_return_normed_mag": 1.478186115412645, "train/extr_return_normed_max": 1.478186115412645, "train/extr_return_normed_mean": 0.37025116132178776, "train/extr_return_normed_min": -0.08957528768920563, "train/extr_return_normed_std": 0.3260829037343952, "train/extr_return_rate": 0.7189049989404813, "train/extr_return_raw_mag": 10.479094424717863, "train/extr_return_raw_max": 10.479094424717863, "train/extr_return_raw_mean": 2.47429096698761, "train/extr_return_raw_min": -0.8475917128609939, "train/extr_return_raw_std": 2.3558779635899505, "train/extr_reward_mag": 1.036651030392714, "train/extr_reward_max": 1.036651030392714, "train/extr_reward_mean": 0.046843669101805756, "train/extr_reward_min": -0.6406367882876329, "train/extr_reward_std": 0.20947345818432284, "train/image_loss_mean": 3.051125341737774, "train/image_loss_std": 8.140540599822998, "train/model_loss_mean": 6.04290427288539, "train/model_loss_std": 12.26740438165799, "train/model_opt_grad_norm": 35.34974835624158, "train/model_opt_grad_steps": 181624.8028169014, "train/model_opt_loss": 10965.824101837588, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1813.380281690141, "train/policy_entropy_mag": 2.4963250227377447, "train/policy_entropy_max": 2.4963250227377447, "train/policy_entropy_mean": 0.36758327337218005, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.49497395124233945, "train/policy_logprob_mag": 7.438384176979603, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36814473947169074, "train/policy_logprob_min": -7.438384176979603, "train/policy_logprob_std": 0.9829396714626903, "train/policy_randomness_mag": 0.8810931830339028, "train/policy_randomness_max": 0.8810931830339028, "train/policy_randomness_mean": 0.1297407632982227, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.17470408178551097, "train/post_ent_mag": 54.83499005814673, "train/post_ent_max": 54.83499005814673, "train/post_ent_mean": 40.77595138549805, "train/post_ent_min": 18.749936950038855, "train/post_ent_std": 5.585966875855352, "train/prior_ent_mag": 76.19184617593255, "train/prior_ent_max": 76.19184617593255, "train/prior_ent_mean": 45.67694107915314, "train/prior_ent_min": 27.48045161072637, "train/prior_ent_std": 7.291061549119546, "train/rep_loss_mean": 4.9045956235536385, "train/rep_loss_std": 8.584845066070557, "train/reward_avg": 0.031314645500355204, "train/reward_loss_mean": 0.049004375357443175, "train/reward_loss_std": 0.20255325797577978, "train/reward_max_data": 1.0098591572801832, "train/reward_max_pred": 1.0095833674283095, "train/reward_neg_acc": 0.9945892641242121, "train/reward_neg_loss": 0.023244606514631862, "train/reward_pos_acc": 0.9856086725920019, "train/reward_pos_loss": 0.7381328109284522, "train/reward_pred": 0.03107104074000053, "train/reward_rate": 0.03611905809859155, "stats/sum_log_reward": 9.475000143051147, "stats/max_log_achievement_collect_coal": 0.375, "stats/max_log_achievement_collect_drink": 3.125, "stats/max_log_achievement_collect_sapling": 1.625, "stats/max_log_achievement_collect_stone": 9.375, "stats/max_log_achievement_collect_wood": 7.75, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.375, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.125, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.875, "stats/max_log_achievement_place_plant": 1.375, "stats/max_log_achievement_place_stone": 4.375, "stats/max_log_achievement_place_table": 2.25, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3165602572262287, "replay/size": 365276.0, "replay/inserts": 1416.0, "replay/samples": 11328.0, "replay/insert_wait_avg": 3.824968122493076e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.205983808485128e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.37488174438477, "timer/env.step_count": 1416.0, "timer/env.step_total": 20.5560085773468, "timer/env.step_frac": 0.06843451242650744, "timer/env.step_avg": 0.01451695520999068, "timer/env.step_min": 0.0030717849731445312, "timer/env.step_max": 1.6825168132781982, "timer/replay.add_count": 1416.0, "timer/replay.add_total": 0.29720520973205566, "timer/replay.add_frac": 0.0009894476129497856, "timer/replay.add_avg": 0.00020989068483902236, "timer/replay.add_min": 8.106231689453125e-05, "timer/replay.add_max": 0.005454063415527344, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028583288192749023, "timer/logger.write_frac": 9.515871642380884e-05, "timer/logger.write_avg": 0.028583288192749023, "timer/logger.write_min": 0.028583288192749023, "timer/logger.write_max": 0.028583288192749023, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00022912025451660156, "timer/checkpoint.save_frac": 7.627810061414523e-07, "timer/checkpoint.save_avg": 0.00022912025451660156, "timer/checkpoint.save_min": 0.00022912025451660156, "timer/checkpoint.save_max": 0.00022912025451660156, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4718382358551025, "timer/agent.save_frac": 0.0049000043788868415, "timer/agent.save_avg": 1.4718382358551025, "timer/agent.save_min": 1.4718382358551025, "timer/agent.save_max": 1.4718382358551025, "timer/replay.save_count": 1.0, "timer/replay.save_total": 5.91278076171875e-05, "timer/replay.save_frac": 1.9684671126231027e-07, "timer/replay.save_avg": 5.91278076171875e-05, "timer/replay.save_min": 5.91278076171875e-05, "timer/replay.save_max": 5.91278076171875e-05, "timer/agent.policy_count": 1416.0, "timer/agent.policy_total": 14.859586000442505, "timer/agent.policy_frac": 0.049470135166254765, "timer/agent.policy_avg": 0.010494057909917023, "timer/agent.policy_min": 0.005552530288696289, "timer/agent.policy_max": 2.8740692138671875, "timer/dataset_count": 708.0, "timer/dataset_total": 0.06432771682739258, "timer/dataset_frac": 0.00021415810953904813, "timer/dataset_avg": 9.085835710083697e-05, "timer/dataset_min": 6.818771362304688e-05, "timer/dataset_max": 0.00019598007202148438, "timer/agent.train_count": 708.0, "timer/agent.train_total": 263.882652759552, "timer/agent.train_frac": 0.8785110500155363, "timer/agent.train_avg": 0.37271561124230507, "timer/agent.train_min": 0.36622071266174316, "timer/agent.train_max": 0.3863379955291748, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22030067443847656, "timer/agent.report_frac": 0.0007334190966938097, "timer/agent.report_avg": 0.22030067443847656, "timer/agent.report_min": 0.22030067443847656, "timer/agent.report_max": 0.22030067443847656, "fps": 4.7140233161648855}
{"step": 365346, "episode/length": 243.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 11.900000043213367, "episode/reward_rate": 0.040983606557377046}
{"step": 365610, "episode/length": 263.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.041666666666666664}
{"step": 365786, "episode/length": 175.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.06818181818181818}
{"step": 365957, "episode/length": 170.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.500000022351742, "episode/reward_rate": 0.04093567251461988}
{"step": 366108, "episode/length": 150.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.06622516556291391}
{"step": 366262, "episode/length": 153.0, "episode/score": 10.100000016391277, "episode/sum_abs_reward": 12.1000000461936, "episode/reward_rate": 0.07142857142857142}
{"step": 366471, "episode/length": 208.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.06698564593301436}
{"step": 366655, "episode/length": 183.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.059782608695652176}
{"step": 366775, "stats/sum_log_reward": 9.850000083446503, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 1.625, "stats/max_log_achievement_collect_sapling": 2.25, "stats/max_log_achievement_collect_stone": 9.0, "stats/max_log_achievement_collect_wood": 9.875, "stats/max_log_achievement_defeat_skeleton": 0.25, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.375, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.125, "stats/max_log_achievement_make_wood_sword": 1.125, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.875, "stats/max_log_achievement_place_stone": 2.875, "stats/max_log_achievement_place_table": 2.875, "stats/max_log_achievement_wake_up": 1.125, "stats/mean_log_entropy": 0.33046925626695156, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.476381113831426, "train/action_min": 0.0, "train/action_std": 3.350533814497397, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04568844949695426, "train/actor_opt_grad_steps": 182480.0, "train/actor_opt_loss": -10.935185943690824, "train/adv_mag": 0.46070803512989633, "train/adv_max": 0.4062912632042254, "train/adv_mean": 0.0031518984003373013, "train/adv_min": -0.3834199477249468, "train/adv_std": 0.05138752714429103, "train/cont_avg": 0.9943744498239436, "train/cont_loss_mean": 0.00020695535000544958, "train/cont_loss_std": 0.006465987347738378, "train/cont_neg_acc": 0.9956181536258106, "train/cont_neg_loss": 0.03136564667725189, "train/cont_pos_acc": 0.9999999865679674, "train/cont_pos_loss": 1.3570615287405839e-05, "train/cont_pred": 0.9943963935677435, "train/cont_rate": 0.9943744498239436, "train/dyn_loss_mean": 4.798043331629794, "train/dyn_loss_std": 8.663889166334984, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0626398744717451, "train/extr_critic_critic_opt_grad_steps": 182480.0, "train/extr_critic_critic_opt_loss": 16149.813008912852, "train/extr_critic_mag": 9.512257132731692, "train/extr_critic_max": 9.512257132731692, "train/extr_critic_mean": 2.5170762757180443, "train/extr_critic_min": -0.5737731272066143, "train/extr_critic_std": 2.377567616986557, "train/extr_return_normed_mag": 1.4443092833102589, "train/extr_return_normed_max": 1.4443092833102589, "train/extr_return_normed_mean": 0.38113222365647975, "train/extr_return_normed_min": -0.0987551035490674, "train/extr_return_normed_std": 0.33800284333632025, "train/extr_return_rate": 0.7115693214073987, "train/extr_return_raw_mag": 10.121287869735502, "train/extr_return_raw_max": 10.121287869735502, "train/extr_return_raw_mean": 2.5395119643547166, "train/extr_return_raw_min": -0.88184070503208, "train/extr_return_raw_std": 2.4101622272545185, "train/extr_reward_mag": 1.045207913492767, "train/extr_reward_max": 1.045207913492767, "train/extr_reward_mean": 0.04747439461799575, "train/extr_reward_min": -0.6720161874529341, "train/extr_reward_std": 0.21229770045045396, "train/image_loss_mean": 2.9672008887143204, "train/image_loss_std": 7.737281389639411, "train/model_loss_mean": 5.894516985181352, "train/model_loss_std": 11.866533601787728, "train/model_opt_grad_norm": 32.969577937059, "train/model_opt_grad_steps": 182334.0, "train/model_opt_loss": 8411.760707801497, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1426.056338028169, "train/policy_entropy_mag": 2.5296449896315454, "train/policy_entropy_max": 2.5296449896315454, "train/policy_entropy_mean": 0.37261933277190573, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.505053139068711, "train/policy_logprob_mag": 7.438384271003831, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37312522719443686, "train/policy_logprob_min": -7.438384271003831, "train/policy_logprob_std": 0.9891233393843745, "train/policy_randomness_mag": 0.8928536713962824, "train/policy_randomness_max": 0.8928536713962824, "train/policy_randomness_mean": 0.13151827318147874, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.17826159550270565, "train/post_ent_mag": 54.757941984794506, "train/post_ent_max": 54.757941984794506, "train/post_ent_mean": 40.933183374539226, "train/post_ent_min": 19.047407042812292, "train/post_ent_std": 5.62059687224912, "train/prior_ent_mag": 76.2273031960071, "train/prior_ent_max": 76.2273031960071, "train/prior_ent_mean": 45.713859074552296, "train/prior_ent_min": 27.164484400144765, "train/prior_ent_std": 7.312766565403468, "train/rep_loss_mean": 4.798043331629794, "train/rep_loss_std": 8.663889166334984, "train/reward_avg": 0.03110007674131595, "train/reward_loss_mean": 0.048283162093918086, "train/reward_loss_std": 0.1965974082409496, "train/reward_max_data": 1.0183098635203403, "train/reward_max_pred": 1.0143990080121537, "train/reward_neg_acc": 0.9949298349904342, "train/reward_neg_loss": 0.023083199655086224, "train/reward_pos_acc": 0.9891298421671693, "train/reward_pos_loss": 0.7206326756678837, "train/reward_pred": 0.030875561089897658, "train/reward_rate": 0.0360502860915493, "replay/size": 366712.0, "replay/inserts": 1436.0, "replay/samples": 11488.0, "replay/insert_wait_avg": 3.832960527255342e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2113730887516627e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0066125392914, "timer/env.step_count": 1436.0, "timer/env.step_total": 20.241297721862793, "timer/env.step_frac": 0.0674695052570277, "timer/env.step_avg": 0.014095611226923951, "timer/env.step_min": 0.003017902374267578, "timer/env.step_max": 1.697584867477417, "timer/replay.add_count": 1436.0, "timer/replay.add_total": 0.29564332962036133, "timer/replay.add_frac": 0.0009854560441784975, "timer/replay.add_avg": 0.00020587975600303715, "timer/replay.add_min": 7.700920104980469e-05, "timer/replay.add_max": 0.0035164356231689453, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030092954635620117, "timer/logger.write_frac": 0.00010030763782474591, "timer/logger.write_avg": 0.030092954635620117, "timer/logger.write_min": 0.030092954635620117, "timer/logger.write_max": 0.030092954635620117, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1436.0, "timer/agent.policy_total": 10.82424259185791, "timer/agent.policy_frac": 0.036080013371172864, "timer/agent.policy_avg": 0.007537773392658712, "timer/agent.policy_min": 0.005640268325805664, "timer/agent.policy_max": 0.015337705612182617, "timer/dataset_count": 718.0, "timer/dataset_total": 0.06914353370666504, "timer/dataset_frac": 0.00023047336564159705, "timer/dataset_avg": 9.630018622098195e-05, "timer/dataset_min": 6.961822509765625e-05, "timer/dataset_max": 0.0025746822357177734, "timer/agent.train_count": 718.0, "timer/agent.train_total": 267.8452899456024, "timer/agent.train_frac": 0.8927979542801683, "timer/agent.train_avg": 0.37304357931142396, "timer/agent.train_min": 0.3665494918823242, "timer/agent.train_max": 0.39011120796203613, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21863126754760742, "timer/agent.report_frac": 0.0007287548287588949, "timer/agent.report_avg": 0.21863126754760742, "timer/agent.report_min": 0.21863126754760742, "timer/agent.report_max": 0.21863126754760742, "fps": 4.786499120907958}
{"step": 366905, "episode/length": 249.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.048}
{"step": 366952, "episode/length": 46.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.10638297872340426}
{"step": 367148, "episode/length": 195.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 11.299999997019768, "episode/reward_rate": 0.05612244897959184}
{"step": 367438, "episode/length": 289.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.700000040233135, "episode/reward_rate": 0.041379310344827586}
{"step": 367676, "episode/length": 237.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.046218487394957986}
{"step": 367845, "episode/length": 168.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.05325443786982249}
{"step": 368091, "episode/length": 245.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 7.1000000312924385, "episode/reward_rate": 0.02032520325203252}
{"step": 368219, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.532915507277397, "train/action_min": 0.0, "train/action_std": 3.3292592551610243, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04512102871316753, "train/actor_opt_grad_steps": 183200.0, "train/actor_opt_loss": -13.031512331472685, "train/adv_mag": 0.45931604014684074, "train/adv_max": 0.3976274863497852, "train/adv_mean": 0.0022715797318123305, "train/adv_min": -0.39831217143633596, "train/adv_std": 0.0504540645912902, "train/cont_avg": 0.994314533390411, "train/cont_loss_mean": 2.520745908273119e-05, "train/cont_loss_std": 0.0006753753244150749, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00061270115346105, "train/cont_pos_acc": 0.9999865244512689, "train/cont_pos_loss": 2.2680700679953365e-05, "train/cont_pred": 0.9943014448636198, "train/cont_rate": 0.994314533390411, "train/dyn_loss_mean": 4.918311063557455, "train/dyn_loss_std": 8.699812190173423, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0257921488317725, "train/extr_critic_critic_opt_grad_steps": 183200.0, "train/extr_critic_critic_opt_loss": 16209.937981592466, "train/extr_critic_mag": 9.528377663599302, "train/extr_critic_max": 9.528377663599302, "train/extr_critic_mean": 2.508448973093947, "train/extr_critic_min": -0.5810364893037979, "train/extr_critic_std": 2.362805918471454, "train/extr_return_normed_mag": 1.4367226411218512, "train/extr_return_normed_max": 1.4367226411218512, "train/extr_return_normed_mean": 0.37463478356191554, "train/extr_return_normed_min": -0.09323325054082152, "train/extr_return_normed_std": 0.33286412366449014, "train/extr_return_rate": 0.7213916615264057, "train/extr_return_raw_mag": 10.17199231500495, "train/extr_return_raw_max": 10.17199231500495, "train/extr_return_raw_mean": 2.5248068734391094, "train/extr_return_raw_min": -0.8443031637635949, "train/extr_return_raw_std": 2.396848252374832, "train/extr_reward_mag": 1.0368198662588042, "train/extr_reward_max": 1.0368198662588042, "train/extr_reward_mean": 0.046831933909083065, "train/extr_reward_min": -0.6364972330119512, "train/extr_reward_std": 0.21090760827064514, "train/image_loss_mean": 2.9803614877674676, "train/image_loss_std": 7.857951131585526, "train/model_loss_mean": 5.9813744793199515, "train/model_loss_std": 12.004617553867705, "train/model_opt_grad_norm": 29.627332360777135, "train/model_opt_grad_steps": 183054.0, "train/model_opt_loss": 14953.436135488013, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.5347641690136635, "train/policy_entropy_max": 2.5347641690136635, "train/policy_entropy_mean": 0.3689803117758607, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5016891821606518, "train/policy_logprob_mag": 7.438384173667594, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3686486498950279, "train/policy_logprob_min": -7.438384173667594, "train/policy_logprob_std": 0.9838702466389905, "train/policy_randomness_mag": 0.8946605153279762, "train/policy_randomness_max": 0.8946605153279762, "train/policy_randomness_mean": 0.1302338596688558, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.17707426315301086, "train/post_ent_mag": 55.19871949496334, "train/post_ent_max": 55.19871949496334, "train/post_ent_mean": 40.75335782194791, "train/post_ent_min": 18.634904312760863, "train/post_ent_std": 5.6078255339844585, "train/prior_ent_mag": 76.22366625642124, "train/prior_ent_max": 76.22366625642124, "train/prior_ent_mean": 45.64987412544146, "train/prior_ent_min": 27.685698391640024, "train/prior_ent_std": 7.329583377054293, "train/rep_loss_mean": 4.918311063557455, "train/rep_loss_std": 8.699812190173423, "train/reward_avg": 0.03188142086034768, "train/reward_loss_mean": 0.050001131192053835, "train/reward_loss_std": 0.2038678083926031, "train/reward_max_data": 1.0136986334029943, "train/reward_max_pred": 1.0122196739667082, "train/reward_neg_acc": 0.9948581963369291, "train/reward_neg_loss": 0.02392144815052209, "train/reward_pos_acc": 0.9907487042962688, "train/reward_pos_loss": 0.72907272675266, "train/reward_pred": 0.03164023262997196, "train/reward_rate": 0.0370023544520548, "stats/sum_log_reward": 8.242857456207275, "stats/max_log_achievement_collect_coal": 0.42857142857142855, "stats/max_log_achievement_collect_drink": 3.142857142857143, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 10.428571428571429, "stats/max_log_achievement_collect_wood": 7.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.14285714285714285, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_wood_sword": 0.7142857142857143, "stats/max_log_achievement_place_furnace": 1.2857142857142858, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 4.857142857142857, "stats/max_log_achievement_place_table": 2.142857142857143, "stats/max_log_achievement_wake_up": 2.0, "stats/mean_log_entropy": 0.4934528853212084, "replay/size": 368156.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.831373357376564e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2075513023418733e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.20896553993225, "timer/env.step_count": 1444.0, "timer/env.step_total": 18.83416175842285, "timer/env.step_frac": 0.0627368397361125, "timer/env.step_avg": 0.013043048309157099, "timer/env.step_min": 0.003000020980834961, "timer/env.step_max": 1.7234697341918945, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.2802083492279053, "timer/replay.add_frac": 0.0009333776848534306, "timer/replay.add_avg": 0.0001940501033434247, "timer/replay.add_min": 7.724761962890625e-05, "timer/replay.add_max": 0.0029172897338867188, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027462244033813477, "timer/logger.write_frac": 9.147709491094659e-05, "timer/logger.write_avg": 0.027462244033813477, "timer/logger.write_min": 0.027462244033813477, "timer/logger.write_max": 0.027462244033813477, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.87262511253357, "timer/agent.policy_frac": 0.036216856791664837, "timer/agent.policy_avg": 0.007529518775992777, "timer/agent.policy_min": 0.005633831024169922, "timer/agent.policy_max": 0.01503443717956543, "timer/dataset_count": 722.0, "timer/dataset_total": 0.06705403327941895, "timer/dataset_frac": 0.0002233578639426069, "timer/dataset_avg": 9.287262227066336e-05, "timer/dataset_min": 6.699562072753906e-05, "timer/dataset_max": 0.00020694732666015625, "timer/agent.train_count": 722.0, "timer/agent.train_total": 269.4162132740021, "timer/agent.train_frac": 0.897428938504389, "timer/agent.train_avg": 0.3731526499639918, "timer/agent.train_min": 0.36663198471069336, "timer/agent.train_max": 0.3874225616455078, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22351336479187012, "timer/agent.report_frac": 0.0007445259484168854, "timer/agent.report_avg": 0.22351336479187012, "timer/agent.report_min": 0.22351336479187012, "timer/agent.report_max": 0.22351336479187012, "fps": 4.809916151274297}
{"step": 368530, "episode/length": 438.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.025056947608200455}
{"step": 368731, "episode/length": 200.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.04975124378109453}
{"step": 368956, "episode/length": 224.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.04888888888888889}
{"step": 369139, "episode/length": 182.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.0546448087431694}
{"step": 369371, "episode/length": 231.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.03879310344827586}
{"step": 369655, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.574285802706866, "train/action_min": 0.0, "train/action_std": 3.4433000893659993, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.046038234685088546, "train/actor_opt_grad_steps": 183920.0, "train/actor_opt_loss": -15.317086532082357, "train/adv_mag": 0.5637523741789268, "train/adv_max": 0.5117876198090298, "train/adv_mean": 0.0013265868061276245, "train/adv_min": -0.38879030481190746, "train/adv_std": 0.0501586500502808, "train/cont_avg": 0.9946495378521126, "train/cont_loss_mean": 7.2388293023656114e-06, "train/cont_loss_std": 0.0001948044824741732, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0005034976167453479, "train/cont_pos_acc": 0.9999999840494612, "train/cont_pos_loss": 4.597294073464878e-06, "train/cont_pred": 0.994647956230271, "train/cont_rate": 0.9946495378521126, "train/dyn_loss_mean": 4.97801320989367, "train/dyn_loss_std": 8.762680510400047, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9798944869511564, "train/extr_critic_critic_opt_grad_steps": 183920.0, "train/extr_critic_critic_opt_loss": 16017.338454555458, "train/extr_critic_mag": 10.272167313266808, "train/extr_critic_max": 10.272167313266808, "train/extr_critic_mean": 2.506996080908977, "train/extr_critic_min": -0.5733341079362682, "train/extr_critic_std": 2.4235446973585746, "train/extr_return_normed_mag": 1.5324759802348178, "train/extr_return_normed_max": 1.5324759802348178, "train/extr_return_normed_mean": 0.37158925957243205, "train/extr_return_normed_min": -0.1015768311393093, "train/extr_return_normed_std": 0.3384593578291611, "train/extr_return_rate": 0.7177459664747748, "train/extr_return_raw_mag": 10.942449596566213, "train/extr_return_raw_max": 10.942449596566213, "train/extr_return_raw_mean": 2.516619126561662, "train/extr_return_raw_min": -0.9172895399617477, "train/extr_return_raw_std": 2.4563229352655545, "train/extr_reward_mag": 1.0327954157977037, "train/extr_reward_max": 1.0327954157977037, "train/extr_reward_mean": 0.0464220504788026, "train/extr_reward_min": -0.6433959846765223, "train/extr_reward_std": 0.21031214569655943, "train/image_loss_mean": 3.0070502606915754, "train/image_loss_std": 7.852725371508531, "train/model_loss_mean": 6.0425999399641865, "train/model_loss_std": 12.06820007780908, "train/model_opt_grad_norm": 35.866569330994515, "train/model_opt_grad_steps": 183773.21126760563, "train/model_opt_loss": 9126.800526793573, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1514.0845070422536, "train/policy_entropy_mag": 2.5170516296171805, "train/policy_entropy_max": 2.5170516296171805, "train/policy_entropy_mean": 0.3853198550116848, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5092988051998784, "train/policy_logprob_mag": 7.438384197127651, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.386215070603599, "train/policy_logprob_min": -7.438384197127651, "train/policy_logprob_std": 0.9960557088046007, "train/policy_randomness_mag": 0.8884087658264268, "train/policy_randomness_max": 0.8884087658264268, "train/policy_randomness_mean": 0.13600099768856883, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.17976012909916086, "train/post_ent_mag": 55.06395313101755, "train/post_ent_max": 55.06395313101755, "train/post_ent_mean": 40.79458231321523, "train/post_ent_min": 18.983094255689164, "train/post_ent_std": 5.569432285470023, "train/prior_ent_mag": 76.24353629098812, "train/prior_ent_max": 76.24353629098812, "train/prior_ent_mean": 45.715446042342926, "train/prior_ent_min": 28.369252110870793, "train/prior_ent_std": 7.318055676742339, "train/rep_loss_mean": 4.97801320989367, "train/rep_loss_std": 8.762680510400047, "train/reward_avg": 0.03116197165259173, "train/reward_loss_mean": 0.04873460625678721, "train/reward_loss_std": 0.20774900913238525, "train/reward_max_data": 1.0183098635203403, "train/reward_max_pred": 1.0130664647465022, "train/reward_neg_acc": 0.9949504867405958, "train/reward_neg_loss": 0.02271064784063, "train/reward_pos_acc": 0.9869729339236945, "train/reward_pos_loss": 0.7441750915957169, "train/reward_pred": 0.030869534895033905, "train/reward_rate": 0.036077794894366196, "stats/sum_log_reward": 9.300000381469726, "stats/max_log_achievement_collect_coal": 0.0, "stats/max_log_achievement_collect_drink": 3.4, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 13.6, "stats/max_log_achievement_collect_wood": 11.4, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.2, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.4, "stats/max_log_achievement_make_wood_sword": 1.4, "stats/max_log_achievement_place_furnace": 1.2, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 5.8, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.8, "stats/mean_log_entropy": 0.53026362657547, "replay/size": 369592.0, "replay/inserts": 1436.0, "replay/samples": 11488.0, "replay/insert_wait_avg": 3.8651702795852194e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2104599256701457e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.25024819374084, "timer/env.step_count": 1436.0, "timer/env.step_total": 18.485116720199585, "timer/env.step_frac": 0.0615657000498857, "timer/env.step_avg": 0.012872643955570742, "timer/env.step_min": 0.0030231475830078125, "timer/env.step_max": 2.764045000076294, "timer/replay.add_count": 1436.0, "timer/replay.add_total": 0.31664371490478516, "timer/replay.add_frac": 0.001054599344412419, "timer/replay.add_avg": 0.00022050397973870833, "timer/replay.add_min": 7.033348083496094e-05, "timer/replay.add_max": 0.005948781967163086, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027689218521118164, "timer/logger.write_frac": 9.222046838492967e-05, "timer/logger.write_avg": 0.027689218521118164, "timer/logger.write_min": 0.027689218521118164, "timer/logger.write_max": 0.027689218521118164, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00023818016052246094, "timer/checkpoint.save_frac": 7.932721519975955e-07, "timer/checkpoint.save_avg": 0.00023818016052246094, "timer/checkpoint.save_min": 0.00023818016052246094, "timer/checkpoint.save_max": 0.00023818016052246094, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4458692073822021, "timer/agent.save_frac": 0.004815547084741239, "timer/agent.save_avg": 1.4458692073822021, "timer/agent.save_min": 1.4458692073822021, "timer/agent.save_max": 1.4458692073822021, "timer/replay.save_count": 1.0, "timer/replay.save_total": 5.91278076171875e-05, "timer/replay.save_frac": 1.9692842211752119e-07, "timer/replay.save_avg": 5.91278076171875e-05, "timer/replay.save_min": 5.91278076171875e-05, "timer/replay.save_max": 5.91278076171875e-05, "timer/agent.policy_count": 1436.0, "timer/agent.policy_total": 12.261835098266602, "timer/agent.policy_frac": 0.04083871760983349, "timer/agent.policy_avg": 0.008538882380408497, "timer/agent.policy_min": 0.005670785903930664, "timer/agent.policy_max": 1.4456088542938232, "timer/dataset_count": 718.0, "timer/dataset_total": 0.06649088859558105, "timer/dataset_frac": 0.0002214515691346801, "timer/dataset_avg": 9.260569442281484e-05, "timer/dataset_min": 7.128715515136719e-05, "timer/dataset_max": 0.0001494884490966797, "timer/agent.train_count": 718.0, "timer/agent.train_total": 268.38821482658386, "timer/agent.train_frac": 0.8938817417842814, "timer/agent.train_avg": 0.37379974209830624, "timer/agent.train_min": 0.36603856086730957, "timer/agent.train_max": 0.9840829372406006, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2238607406616211, "timer/agent.report_frac": 0.0007455805349315538, "timer/agent.report_avg": 0.2238607406616211, "timer/agent.report_min": 0.2238607406616211, "timer/agent.report_max": 0.2238607406616211, "fps": 4.782560910322831}
{"step": 369676, "episode/length": 304.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.04262295081967213}
{"step": 369861, "episode/length": 184.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.04864864864864865}
{"step": 369962, "episode/length": 100.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.500000044703484, "episode/reward_rate": 0.06930693069306931}
{"step": 370104, "episode/length": 141.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 12.299999982118607, "episode/reward_rate": 0.08450704225352113}
{"step": 370535, "episode/length": 430.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.027842227378190254}
{"step": 370598, "episode/length": 62.0, "episode/score": 6.099999971687794, "episode/sum_abs_reward": 8.100000031292439, "episode/reward_rate": 0.12698412698412698}
{"step": 370871, "episode/length": 272.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.040293040293040296}
{"step": 371047, "episode/length": 175.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.0625}
{"step": 371093, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.544981214735243, "train/action_min": 0.0, "train/action_std": 3.3744940956433616, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04508251448472341, "train/actor_opt_grad_steps": 184635.0, "train/actor_opt_loss": -14.14078438282013, "train/adv_mag": 0.4489302225410938, "train/adv_max": 0.4153851568698883, "train/adv_mean": 0.0016116993629111676, "train/adv_min": -0.3707625199523237, "train/adv_std": 0.05071553225732512, "train/cont_avg": 0.9949679904513888, "train/cont_loss_mean": 5.344125528081476e-06, "train/cont_loss_std": 0.00013628844214963465, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0002028761533539283, "train/cont_pos_acc": 0.9999999809596274, "train/cont_pos_loss": 4.39944258465472e-06, "train/cont_pred": 0.9949646873606576, "train/cont_rate": 0.9949679904513888, "train/dyn_loss_mean": 5.021831032302645, "train/dyn_loss_std": 8.642210317982567, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0129843486679926, "train/extr_critic_critic_opt_grad_steps": 184635.0, "train/extr_critic_critic_opt_loss": 15995.691094292535, "train/extr_critic_mag": 9.600454078780281, "train/extr_critic_max": 9.600454078780281, "train/extr_critic_mean": 2.4122534510162144, "train/extr_critic_min": -0.5462998731268777, "train/extr_critic_std": 2.2695775396294064, "train/extr_return_normed_mag": 1.4694710125525792, "train/extr_return_normed_max": 1.4694710125525792, "train/extr_return_normed_mean": 0.3702628057863977, "train/extr_return_normed_min": -0.09406261228852802, "train/extr_return_normed_std": 0.3260316674908002, "train/extr_return_rate": 0.7098479453060362, "train/extr_return_raw_mag": 10.16400040520562, "train/extr_return_raw_max": 10.16400040520562, "train/extr_return_raw_mean": 2.42358508043819, "train/extr_return_raw_min": -0.8445484870009952, "train/extr_return_raw_std": 2.2949123630921044, "train/extr_reward_mag": 1.048586282465193, "train/extr_reward_max": 1.048586282465193, "train/extr_reward_mean": 0.04666858432917959, "train/extr_reward_min": -0.6297098563777076, "train/extr_reward_std": 0.20975366007122728, "train/image_loss_mean": 3.137342646718025, "train/image_loss_std": 8.247231788105434, "train/model_loss_mean": 6.198344727357228, "train/model_loss_std": 12.343042069011265, "train/model_opt_grad_norm": 30.550517254405552, "train/model_opt_grad_steps": 184488.0, "train/model_opt_loss": 10680.769354926215, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1736.111111111111, "train/policy_entropy_mag": 2.54750218656328, "train/policy_entropy_max": 2.54750218656328, "train/policy_entropy_mean": 0.39068134211831623, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5264983139932156, "train/policy_logprob_mag": 7.438384215037028, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3902569990605116, "train/policy_logprob_min": -7.438384215037028, "train/policy_logprob_std": 0.9998761183685727, "train/policy_randomness_mag": 0.8991564793719186, "train/policy_randomness_max": 0.8991564793719186, "train/policy_randomness_mean": 0.13789336921440232, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18583079810357755, "train/post_ent_mag": 54.486076566908096, "train/post_ent_max": 54.486076566908096, "train/post_ent_mean": 40.73832209904989, "train/post_ent_min": 18.740502927038406, "train/post_ent_std": 5.651823931270176, "train/prior_ent_mag": 76.20225705040826, "train/prior_ent_max": 76.20225705040826, "train/prior_ent_mean": 45.7031577428182, "train/prior_ent_min": 27.61214542388916, "train/prior_ent_std": 7.33982656399409, "train/rep_loss_mean": 5.021831032302645, "train/rep_loss_std": 8.642210317982567, "train/reward_avg": 0.031571451535758875, "train/reward_loss_mean": 0.04789810050796303, "train/reward_loss_std": 0.2042366878853904, "train/reward_max_data": 1.0250000059604645, "train/reward_max_pred": 1.0256878750191794, "train/reward_neg_acc": 0.9951347211996714, "train/reward_neg_loss": 0.021466925061152626, "train/reward_pos_acc": 0.9823418267899089, "train/reward_pos_loss": 0.7508744498093923, "train/reward_pred": 0.031178451880502205, "train/reward_rate": 0.0361328125, "stats/sum_log_reward": 9.225000143051147, "stats/max_log_achievement_collect_coal": 1.625, "stats/max_log_achievement_collect_drink": 1.75, "stats/max_log_achievement_collect_sapling": 1.25, "stats/max_log_achievement_collect_stone": 11.625, "stats/max_log_achievement_collect_wood": 7.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.25, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.25, "stats/max_log_achievement_make_wood_sword": 0.75, "stats/max_log_achievement_place_furnace": 1.125, "stats/max_log_achievement_place_plant": 1.25, "stats/max_log_achievement_place_stone": 6.125, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 2.375, "stats/mean_log_entropy": 0.43772316724061966, "replay/size": 371030.0, "replay/inserts": 1438.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.843048849092571e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2318224170775009e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2581088542938, "timer/env.step_count": 1438.0, "timer/env.step_total": 20.2951762676239, "timer/env.step_frac": 0.06759243354014641, "timer/env.step_avg": 0.014113474455927609, "timer/env.step_min": 0.003060579299926758, "timer/env.step_max": 1.7957301139831543, "timer/replay.add_count": 1438.0, "timer/replay.add_total": 0.3034391403198242, "timer/replay.add_frac": 0.001010594323256309, "timer/replay.add_avg": 0.00021101470119598347, "timer/replay.add_min": 7.414817810058594e-05, "timer/replay.add_max": 0.0074558258056640625, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02908635139465332, "timer/logger.write_frac": 9.687116030151261e-05, "timer/logger.write_avg": 0.02908635139465332, "timer/logger.write_min": 0.02908635139465332, "timer/logger.write_max": 0.02908635139465332, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1438.0, "timer/agent.policy_total": 10.822288990020752, "timer/agent.policy_frac": 0.036043286328938016, "timer/agent.policy_avg": 0.007525931147441413, "timer/agent.policy_min": 0.005692243576049805, "timer/agent.policy_max": 0.015539407730102539, "timer/dataset_count": 719.0, "timer/dataset_total": 0.0679159164428711, "timer/dataset_frac": 0.00022619178113796965, "timer/dataset_avg": 9.44588545797929e-05, "timer/dataset_min": 6.985664367675781e-05, "timer/dataset_max": 0.00020384788513183594, "timer/agent.train_count": 719.0, "timer/agent.train_total": 268.03588676452637, "timer/agent.train_frac": 0.8926849229394037, "timer/agent.train_avg": 0.37278982860156656, "timer/agent.train_min": 0.36623406410217285, "timer/agent.train_max": 0.3894972801208496, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22209644317626953, "timer/agent.report_frac": 0.000739685079692706, "timer/agent.report_avg": 0.22209644317626953, "timer/agent.report_min": 0.22209644317626953, "timer/agent.report_max": 0.22209644317626953, "fps": 4.789143661591361}
{"step": 371320, "episode/length": 272.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.04395604395604396}
{"step": 371552, "episode/length": 231.0, "episode/score": 10.099999994039536, "episode/sum_abs_reward": 12.500000014901161, "episode/reward_rate": 0.05172413793103448}
{"step": 371767, "episode/length": 214.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.05116279069767442}
{"step": 371903, "episode/length": 135.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 11.30000003427267, "episode/reward_rate": 0.07352941176470588}
{"step": 372117, "episode/length": 213.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.700000002980232, "episode/reward_rate": 0.04205607476635514}
{"step": 372331, "episode/length": 213.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.04672897196261682}
{"step": 372544, "episode/length": 212.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.051643192488262914}
{"step": 372545, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.505347683005137, "train/action_min": 0.0, "train/action_std": 3.348146196914046, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04745747123474944, "train/actor_opt_grad_steps": 185360.0, "train/actor_opt_loss": -10.875624986544047, "train/adv_mag": 0.48189333407846213, "train/adv_max": 0.4457529068809666, "train/adv_mean": 0.003549489829958774, "train/adv_min": -0.372920278000505, "train/adv_std": 0.05280208853009629, "train/cont_avg": 0.9945419520547946, "train/cont_loss_mean": 5.87151317617635e-05, "train/cont_loss_std": 0.0017655097430216387, "train/cont_neg_acc": 0.9954337902265052, "train/cont_neg_loss": 0.014846776641879592, "train/cont_pos_acc": 0.9999999795874505, "train/cont_pos_loss": 9.147371914712942e-06, "train/cont_pred": 0.9945550667096491, "train/cont_rate": 0.9945419520547946, "train/dyn_loss_mean": 4.79472145315719, "train/dyn_loss_std": 8.601235938398805, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0660084616648007, "train/extr_critic_critic_opt_grad_steps": 185360.0, "train/extr_critic_critic_opt_loss": 16197.80131635274, "train/extr_critic_mag": 9.615821511778114, "train/extr_critic_max": 9.615821511778114, "train/extr_critic_mean": 2.416833165573747, "train/extr_critic_min": -0.5731887556102178, "train/extr_critic_std": 2.328417082355447, "train/extr_return_normed_mag": 1.5033180713653564, "train/extr_return_normed_max": 1.5033180713653564, "train/extr_return_normed_mean": 0.3758446643613789, "train/extr_return_normed_min": -0.09479154125876622, "train/extr_return_normed_std": 0.3402665212546309, "train/extr_return_rate": 0.7105156975249721, "train/extr_return_raw_mag": 10.279662654824453, "train/extr_return_raw_max": 10.279662654824453, "train/extr_return_raw_mean": 2.441527200071779, "train/extr_return_raw_min": -0.827926124611946, "train/extr_return_raw_std": 2.3648004972771424, "train/extr_reward_mag": 1.0427143051199717, "train/extr_reward_max": 1.0427143051199717, "train/extr_reward_mean": 0.048215303008687004, "train/extr_reward_min": -0.6491758382483704, "train/extr_reward_std": 0.2130556382136802, "train/image_loss_mean": 3.0483328544930237, "train/image_loss_std": 7.732489239679624, "train/model_loss_mean": 5.9730143938979054, "train/model_loss_std": 11.799478138962836, "train/model_opt_grad_norm": 28.432290325426077, "train/model_opt_grad_steps": 185213.0, "train/model_opt_loss": 14932.536025791953, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.5751972263806486, "train/policy_entropy_max": 2.5751972263806486, "train/policy_entropy_mean": 0.3965617726518683, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5339472677609692, "train/policy_logprob_mag": 7.438384225923721, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3942861885648884, "train/policy_logprob_min": -7.438384225923721, "train/policy_logprob_std": 1.0030105922320118, "train/policy_randomness_mag": 0.9089316097024369, "train/policy_randomness_max": 0.9089316097024369, "train/policy_randomness_mean": 0.13996890248501137, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18845995301253174, "train/post_ent_mag": 55.13251249757531, "train/post_ent_max": 55.13251249757531, "train/post_ent_mean": 40.97007777592907, "train/post_ent_min": 18.840427790602593, "train/post_ent_std": 5.60495191730865, "train/prior_ent_mag": 76.41120513497967, "train/prior_ent_max": 76.41120513497967, "train/prior_ent_mean": 45.761841604154405, "train/prior_ent_min": 27.698063602186227, "train/prior_ent_std": 7.348255582051735, "train/rep_loss_mean": 4.79472145315719, "train/rep_loss_std": 8.601235938398805, "train/reward_avg": 0.031054687239739993, "train/reward_loss_mean": 0.04778997962401338, "train/reward_loss_std": 0.18987829391270467, "train/reward_max_data": 1.0164383600835931, "train/reward_max_pred": 1.0161806198015606, "train/reward_neg_acc": 0.9950476876676899, "train/reward_neg_loss": 0.02275946040395392, "train/reward_pos_acc": 0.9917644368459101, "train/reward_pos_loss": 0.7168455572977458, "train/reward_pred": 0.030932018711958845, "train/reward_rate": 0.03609267979452055, "stats/sum_log_reward": 9.528571810041155, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 5.285714285714286, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 12.0, "stats/max_log_achievement_collect_wood": 9.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.2857142857142857, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.2857142857142858, "stats/max_log_achievement_place_furnace": 0.7142857142857143, "stats/max_log_achievement_place_plant": 1.7142857142857142, "stats/max_log_achievement_place_stone": 7.714285714285714, "stats/max_log_achievement_place_table": 2.5714285714285716, "stats/max_log_achievement_wake_up": 1.7142857142857142, "stats/mean_log_entropy": 0.4380476347037724, "replay/size": 372482.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 4.216659167581353e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2050441802369006e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 301.66221737861633, "timer/env.step_count": 1452.0, "timer/env.step_total": 18.933248043060303, "timer/env.step_frac": 0.06276307390294482, "timer/env.step_avg": 0.013039427026901034, "timer/env.step_min": 0.003253459930419922, "timer/env.step_max": 1.6824777126312256, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.2984309196472168, "timer/replay.add_frac": 0.000989288357821278, "timer/replay.add_avg": 0.0002055309363961548, "timer/replay.add_min": 8.344650268554688e-05, "timer/replay.add_max": 0.0070726871490478516, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030560731887817383, "timer/logger.write_frac": 0.00010130778774148107, "timer/logger.write_avg": 0.030560731887817383, "timer/logger.write_min": 0.030560731887817383, "timer/logger.write_max": 0.030560731887817383, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 10.937062978744507, "timer/agent.policy_frac": 0.03625599212849846, "timer/agent.policy_avg": 0.007532412519796492, "timer/agent.policy_min": 0.0056476593017578125, "timer/agent.policy_max": 0.018679141998291016, "timer/dataset_count": 726.0, "timer/dataset_total": 0.06952428817749023, "timer/dataset_frac": 0.0002304706528435753, "timer/dataset_avg": 9.576348233814082e-05, "timer/dataset_min": 7.176399230957031e-05, "timer/dataset_max": 0.00027942657470703125, "timer/agent.train_count": 726.0, "timer/agent.train_total": 270.6850688457489, "timer/agent.train_frac": 0.8973118052301923, "timer/agent.train_avg": 0.37284444744593515, "timer/agent.train_min": 0.36572265625, "timer/agent.train_max": 0.3866696357727051, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21964240074157715, "timer/agent.report_frac": 0.0007281070949163777, "timer/agent.report_avg": 0.21964240074157715, "timer/agent.report_min": 0.21964240074157715, "timer/agent.report_max": 0.21964240074157715, "fps": 4.81323992023191}
{"step": 372766, "episode/length": 221.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.05405405405405406}
{"step": 373013, "episode/length": 246.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.900000050663948, "episode/reward_rate": 0.044534412955465584}
{"step": 373193, "episode/length": 179.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.100000031292439, "episode/reward_rate": 0.06111111111111111}
{"step": 373478, "episode/length": 284.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.042105263157894736}
{"step": 373692, "episode/length": 213.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 9.899999991059303, "episode/reward_rate": 0.04672897196261682}
{"step": 373845, "episode/length": 152.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.0718954248366013}
{"step": 373973, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.436279296875, "train/action_min": 0.0, "train/action_std": 3.249765819227192, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04677201907189799, "train/actor_opt_grad_steps": 186080.0, "train/actor_opt_loss": -11.800218867584013, "train/adv_mag": 0.46647724425288994, "train/adv_max": 0.41596166474718443, "train/adv_mean": 0.0031096549814783815, "train/adv_min": -0.3974054993038446, "train/adv_std": 0.05252276654814331, "train/cont_avg": 0.9946770466549296, "train/cont_loss_mean": 1.1974337570924151e-05, "train/cont_loss_std": 0.00027090173747778797, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 2.7796063720966806e-05, "train/cont_pos_acc": 0.9999999815309552, "train/cont_pos_loss": 1.1892722766469567e-05, "train/cont_pred": 0.9946657142169039, "train/cont_rate": 0.9946770466549296, "train/dyn_loss_mean": 4.905764462242664, "train/dyn_loss_std": 8.701213426992927, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.049985175401392, "train/extr_critic_critic_opt_grad_steps": 186080.0, "train/extr_critic_critic_opt_loss": 16354.10615647007, "train/extr_critic_mag": 9.56326336927817, "train/extr_critic_max": 9.56326336927817, "train/extr_critic_mean": 2.575619323152891, "train/extr_critic_min": -0.5409606510484722, "train/extr_critic_std": 2.3641658601626543, "train/extr_return_normed_mag": 1.4528237379772562, "train/extr_return_normed_max": 1.4528237379772562, "train/extr_return_normed_mean": 0.38331245410610254, "train/extr_return_normed_min": -0.09269702859537703, "train/extr_return_normed_std": 0.3324157406746502, "train/extr_return_rate": 0.7292758259974735, "train/extr_return_raw_mag": 10.333167196999133, "train/extr_return_raw_max": 10.333167196999133, "train/extr_return_raw_mean": 2.5981063288702093, "train/extr_return_raw_min": -0.8425091509248169, "train/extr_return_raw_std": 2.403536536324192, "train/extr_reward_mag": 1.0352430108567359, "train/extr_reward_max": 1.0352430108567359, "train/extr_reward_mean": 0.0487366704348947, "train/extr_reward_min": -0.6524975350205328, "train/extr_reward_std": 0.21408076458413836, "train/image_loss_mean": 3.056838265607055, "train/image_loss_std": 7.963172476056596, "train/model_loss_mean": 6.049352575355853, "train/model_loss_std": 12.152444785749408, "train/model_opt_grad_norm": 32.45845832287426, "train/model_opt_grad_steps": 185932.0, "train/model_opt_loss": 15123.381464568662, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.5746774975682647, "train/policy_entropy_max": 2.5746774975682647, "train/policy_entropy_mean": 0.36966547034156155, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5043043418669365, "train/policy_logprob_mag": 7.4383842172757, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37148170907732464, "train/policy_logprob_min": -7.4383842172757, "train/policy_logprob_std": 0.9926684565947089, "train/policy_randomness_mag": 0.908748169180373, "train/policy_randomness_max": 0.908748169180373, "train/policy_randomness_mean": 0.13047568919792982, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.17799730294607055, "train/post_ent_mag": 54.86544842787192, "train/post_ent_max": 54.86544842787192, "train/post_ent_mean": 40.81194428994622, "train/post_ent_min": 18.650926912334604, "train/post_ent_std": 5.502761706499986, "train/prior_ent_mag": 76.32942489838936, "train/prior_ent_max": 76.32942489838936, "train/prior_ent_mean": 45.69184848624216, "train/prior_ent_min": 27.71887596560196, "train/prior_ent_std": 7.380388958353392, "train/rep_loss_mean": 4.905764462242664, "train/rep_loss_std": 8.701213426992927, "train/reward_avg": 0.03195422507402763, "train/reward_loss_mean": 0.04904370413909496, "train/reward_loss_std": 0.20387887891749262, "train/reward_max_data": 1.0070422552001308, "train/reward_max_pred": 1.0092767325925156, "train/reward_neg_acc": 0.9946005495501237, "train/reward_neg_loss": 0.022710016364572753, "train/reward_pos_acc": 0.9854749970033135, "train/reward_pos_loss": 0.7368235042397405, "train/reward_pred": 0.031723893444303056, "train/reward_rate": 0.03693056778169014, "stats/sum_log_reward": 10.100000381469727, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 1.8333333333333333, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 18.666666666666668, "stats/max_log_achievement_collect_wood": 10.0, "stats/max_log_achievement_defeat_skeleton": 0.3333333333333333, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 2.6666666666666665, "stats/max_log_achievement_place_plant": 0.8333333333333334, "stats/max_log_achievement_place_stone": 5.833333333333333, "stats/max_log_achievement_place_table": 2.8333333333333335, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.4310290639599164, "replay/size": 373910.0, "replay/inserts": 1428.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 3.7923246538605677e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.207745375753451e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.21505999565125, "timer/env.step_count": 1428.0, "timer/env.step_total": 19.93413782119751, "timer/env.step_frac": 0.06639952646441609, "timer/env.step_avg": 0.013959480266945035, "timer/env.step_min": 0.0030434131622314453, "timer/env.step_max": 2.7227470874786377, "timer/replay.add_count": 1428.0, "timer/replay.add_total": 0.3166084289550781, "timer/replay.add_frac": 0.0010546054183946147, "timer/replay.add_avg": 0.0002217145861029959, "timer/replay.add_min": 7.2479248046875e-05, "timer/replay.add_max": 0.008090019226074219, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03202247619628906, "timer/logger.write_frac": 0.00010666512265158492, "timer/logger.write_avg": 0.03202247619628906, "timer/logger.write_min": 0.03202247619628906, "timer/logger.write_max": 0.03202247619628906, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004591941833496094, "timer/checkpoint.save_frac": 1.5295507938751007e-06, "timer/checkpoint.save_avg": 0.0004591941833496094, "timer/checkpoint.save_min": 0.0004591941833496094, "timer/checkpoint.save_max": 0.0004591941833496094, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.5622656345367432, "timer/agent.save_frac": 0.005203821668904196, "timer/agent.save_avg": 1.5622656345367432, "timer/agent.save_min": 1.5622656345367432, "timer/agent.save_max": 1.5622656345367432, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.796287536621094e-05, "timer/replay.save_frac": 2.59690088056676e-07, "timer/replay.save_avg": 7.796287536621094e-05, "timer/replay.save_min": 7.796287536621094e-05, "timer/replay.save_max": 7.796287536621094e-05, "timer/agent.policy_count": 1428.0, "timer/agent.policy_total": 12.88510799407959, "timer/agent.policy_frac": 0.042919592355780675, "timer/agent.policy_avg": 0.009023184869803634, "timer/agent.policy_min": 0.005715370178222656, "timer/agent.policy_max": 1.5453221797943115, "timer/dataset_count": 714.0, "timer/dataset_total": 0.0677032470703125, "timer/dataset_frac": 0.00022551582545956626, "timer/dataset_avg": 9.482247488839286e-05, "timer/dataset_min": 6.508827209472656e-05, "timer/dataset_max": 0.00022840499877929688, "timer/agent.train_count": 714.0, "timer/agent.train_total": 266.2765562534332, "timer/agent.train_frac": 0.8869526940363697, "timer/agent.train_avg": 0.37293635329612496, "timer/agent.train_min": 0.3663325309753418, "timer/agent.train_max": 0.3926880359649658, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2195453643798828, "timer/agent.report_frac": 0.0007312936412419252, "timer/agent.report_avg": 0.2195453643798828, "timer/agent.report_min": 0.2195453643798828, "timer/agent.report_max": 0.2195453643798828, "fps": 4.756514950494834}
{"step": 373992, "episode/length": 146.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.061224489795918366}
{"step": 374243, "episode/length": 250.0, "episode/score": 7.099999971687794, "episode/sum_abs_reward": 8.900000028312206, "episode/reward_rate": 0.035856573705179286}
{"step": 374481, "episode/length": 237.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 10.899999991059303, "episode/reward_rate": 0.046218487394957986}
{"step": 374618, "episode/length": 136.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.08029197080291971}
{"step": 374803, "episode/length": 184.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.05945945945945946}
{"step": 375161, "episode/length": 357.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.030726256983240222}
{"step": 375408, "episode/length": 246.0, "episode/score": 11.099999979138374, "episode/sum_abs_reward": 12.900000020861626, "episode/reward_rate": 0.048582995951417005}
{"step": 375417, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.643501281738281, "train/action_min": 0.0, "train/action_std": 3.414928396542867, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04595608305599955, "train/actor_opt_grad_steps": 186795.0, "train/actor_opt_loss": -15.280101888709599, "train/adv_mag": 0.4597003749675221, "train/adv_max": 0.4035409026675754, "train/adv_mean": 0.0014278775871490426, "train/adv_min": -0.40645466765595806, "train/adv_std": 0.05134632521205478, "train/cont_avg": 0.9940592447916666, "train/cont_loss_mean": 5.749176411187465e-05, "train/cont_loss_std": 0.0017039783447927448, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 1.9479728595999608e-05, "train/cont_pos_acc": 0.9999726605084207, "train/cont_pos_loss": 5.778430115160265e-05, "train/cont_pred": 0.9940268107586436, "train/cont_rate": 0.9940592447916666, "train/dyn_loss_mean": 4.899803863631354, "train/dyn_loss_std": 8.626149965657127, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0845532682206895, "train/extr_critic_critic_opt_grad_steps": 186795.0, "train/extr_critic_critic_opt_loss": 16231.751247829861, "train/extr_critic_mag": 9.70760707060496, "train/extr_critic_max": 9.70760707060496, "train/extr_critic_mean": 2.55911356707414, "train/extr_critic_min": -0.546479786435763, "train/extr_critic_std": 2.429470499356588, "train/extr_return_normed_mag": 1.4366241031222873, "train/extr_return_normed_max": 1.4366241031222873, "train/extr_return_normed_mean": 0.37137787375185227, "train/extr_return_normed_min": -0.09320069316567646, "train/extr_return_normed_std": 0.33392080706026817, "train/extr_return_rate": 0.7113869372341368, "train/extr_return_raw_mag": 10.39740186267429, "train/extr_return_raw_max": 10.39740186267429, "train/extr_return_raw_mean": 2.5696313861343594, "train/extr_return_raw_min": -0.8438538478480445, "train/extr_return_raw_std": 2.4539887325631247, "train/extr_reward_mag": 1.0423878365092807, "train/extr_reward_max": 1.0423878365092807, "train/extr_reward_mean": 0.04777476465743449, "train/extr_reward_min": -0.6626339703798294, "train/extr_reward_std": 0.21265475265681744, "train/image_loss_mean": 3.0585641976859836, "train/image_loss_std": 7.879269540309906, "train/model_loss_mean": 6.047510590818193, "train/model_loss_std": 11.956800705856747, "train/model_opt_grad_norm": 31.7618408203125, "train/model_opt_grad_steps": 186646.05555555556, "train/model_opt_loss": 7977.946539984809, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1319.4444444444443, "train/policy_entropy_mag": 2.5260232587655387, "train/policy_entropy_max": 2.5260232587655387, "train/policy_entropy_mean": 0.38709022146132255, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5214599333703518, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3885228919486205, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 1.0023533494936094, "train/policy_randomness_mag": 0.8915753612915674, "train/policy_randomness_max": 0.8915753612915674, "train/policy_randomness_mean": 0.13662585936900642, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1840524741758903, "train/post_ent_mag": 54.96311828825209, "train/post_ent_max": 54.96311828825209, "train/post_ent_mean": 40.922912226782906, "train/post_ent_min": 18.740348908636307, "train/post_ent_std": 5.516807291242811, "train/prior_ent_mag": 76.28888448079427, "train/prior_ent_max": 76.28888448079427, "train/prior_ent_mean": 45.79217825995551, "train/prior_ent_min": 28.029613786273533, "train/prior_ent_std": 7.372323883904351, "train/rep_loss_mean": 4.899803863631354, "train/rep_loss_std": 8.626149965657127, "train/reward_avg": 0.031812879619085126, "train/reward_loss_mean": 0.04900664779254132, "train/reward_loss_std": 0.2023634873330593, "train/reward_max_data": 1.0194444490803614, "train/reward_max_pred": 1.0166433619128332, "train/reward_neg_acc": 0.994843045870463, "train/reward_neg_loss": 0.02280776066860805, "train/reward_pos_acc": 0.9870500241716703, "train/reward_pos_loss": 0.7347334557109408, "train/reward_pred": 0.03140967879961762, "train/reward_rate": 0.03696017795138889, "stats/sum_log_reward": 9.242857456207275, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 1.7142857142857142, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 15.571428571428571, "stats/max_log_achievement_collect_wood": 6.142857142857143, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.14285714285714285, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.5714285714285714, "stats/max_log_achievement_place_furnace": 1.7142857142857142, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 6.571428571428571, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.8571428571428572, "stats/mean_log_entropy": 0.5229224009173257, "replay/size": 375354.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.78662859634019e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2044761319569933e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0034987926483, "timer/env.step_count": 1444.0, "timer/env.step_total": 18.933804750442505, "timer/env.step_frac": 0.06311194644942748, "timer/env.step_avg": 0.013112053151275973, "timer/env.step_min": 0.0030133724212646484, "timer/env.step_max": 1.8437552452087402, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.284517765045166, "timer/replay.add_frac": 0.000948381489516609, "timer/replay.add_avg": 0.0001970344633276773, "timer/replay.add_min": 7.62939453125e-05, "timer/replay.add_max": 0.006512641906738281, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030121326446533203, "timer/logger.write_frac": 0.00010040325052126138, "timer/logger.write_avg": 0.030121326446533203, "timer/logger.write_min": 0.030121326446533203, "timer/logger.write_max": 0.030121326446533203, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.839253902435303, "timer/agent.policy_frac": 0.03613042496523351, "timer/agent.policy_avg": 0.007506408519692038, "timer/agent.policy_min": 0.005652904510498047, "timer/agent.policy_max": 0.01853656768798828, "timer/dataset_count": 722.0, "timer/dataset_total": 0.06741809844970703, "timer/dataset_frac": 0.0002247243739523985, "timer/dataset_avg": 9.337686765887401e-05, "timer/dataset_min": 7.05718994140625e-05, "timer/dataset_max": 0.00020194053649902344, "timer/agent.train_count": 722.0, "timer/agent.train_total": 269.1440579891205, "timer/agent.train_frac": 0.8971363969829673, "timer/agent.train_avg": 0.37277570358603945, "timer/agent.train_min": 0.3640172481536865, "timer/agent.train_max": 0.38780736923217773, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22247576713562012, "timer/agent.report_frac": 0.0007415772417020623, "timer/agent.report_avg": 0.22247576713562012, "timer/agent.report_min": 0.22247576713562012, "timer/agent.report_max": 0.22247576713562012, "fps": 4.813170056212863}
{"step": 375629, "episode/length": 220.0, "episode/score": 12.099999979138374, "episode/sum_abs_reward": 14.30000002682209, "episode/reward_rate": 0.058823529411764705}
{"step": 375938, "episode/length": 308.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.042071197411003236}
{"step": 376118, "episode/length": 179.0, "episode/score": 11.099999971687794, "episode/sum_abs_reward": 14.300000049173832, "episode/reward_rate": 0.07222222222222222}
{"step": 376363, "episode/length": 244.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.700000002980232, "episode/reward_rate": 0.04897959183673469}
{"step": 376515, "episode/length": 151.0, "episode/score": 9.099999971687794, "episode/sum_abs_reward": 11.500000037252903, "episode/reward_rate": 0.07236842105263158}
{"step": 376782, "episode/length": 266.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.04868913857677903}
{"step": 376869, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.529801042112585, "train/action_min": 0.0, "train/action_std": 3.312541083113788, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.045686758748472556, "train/actor_opt_grad_steps": 187520.0, "train/actor_opt_loss": -10.943325358302626, "train/adv_mag": 0.46339976052715354, "train/adv_max": 0.4272344500234682, "train/adv_mean": 0.002283336421074537, "train/adv_min": -0.3765683059823023, "train/adv_std": 0.05094397496687223, "train/cont_avg": 0.9948095034246576, "train/cont_loss_mean": 0.00025012332142143525, "train/cont_loss_std": 0.00790544396583244, "train/cont_neg_acc": 0.9954337902265052, "train/cont_neg_loss": 0.03148615622651723, "train/cont_pos_acc": 0.9999865530288383, "train/cont_pos_loss": 0.00015644378224930722, "train/cont_pred": 0.9948083693034029, "train/cont_rate": 0.9948095034246576, "train/dyn_loss_mean": 4.799037280148023, "train/dyn_loss_std": 8.563328533956449, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0456653033217338, "train/extr_critic_critic_opt_grad_steps": 187520.0, "train/extr_critic_critic_opt_loss": 16133.199191994863, "train/extr_critic_mag": 9.43127946984278, "train/extr_critic_max": 9.43127946984278, "train/extr_critic_mean": 2.4252701017954577, "train/extr_critic_min": -0.5544246288195048, "train/extr_critic_std": 2.2373715018572873, "train/extr_return_normed_mag": 1.4480036742066684, "train/extr_return_normed_max": 1.4480036742066684, "train/extr_return_normed_mean": 0.36798362862573913, "train/extr_return_normed_min": -0.09866459876911281, "train/extr_return_normed_std": 0.320417753841779, "train/extr_return_rate": 0.7392016592091077, "train/extr_return_raw_mag": 10.073208887283116, "train/extr_return_raw_max": 10.073208887283116, "train/extr_return_raw_mean": 2.4413982809406436, "train/extr_return_raw_min": -0.8558267289645052, "train/extr_return_raw_std": 2.2641393811735386, "train/extr_reward_mag": 1.0375617105666906, "train/extr_reward_max": 1.0375617105666906, "train/extr_reward_mean": 0.046607035224976605, "train/extr_reward_min": -0.6539559364318848, "train/extr_reward_std": 0.20975304568467074, "train/image_loss_mean": 2.8865413616781366, "train/image_loss_std": 7.489200670425206, "train/model_loss_mean": 5.813503644237779, "train/model_loss_std": 11.569618956683433, "train/model_opt_grad_norm": 29.671974025360527, "train/model_opt_grad_steps": 187370.6301369863, "train/model_opt_loss": 8703.092592840325, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1489.7260273972602, "train/policy_entropy_mag": 2.5304374760144377, "train/policy_entropy_max": 2.5304374760144377, "train/policy_entropy_mean": 0.36283545849257953, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4850442727951154, "train/policy_logprob_mag": 7.438384212859689, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3627311260732886, "train/policy_logprob_min": -7.438384212859689, "train/policy_logprob_std": 0.9773363291400753, "train/policy_randomness_mag": 0.89313338227468, "train/policy_randomness_max": 0.89313338227468, "train/policy_randomness_mean": 0.12806499575915403, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.17119934175112475, "train/post_ent_mag": 54.55342859764622, "train/post_ent_max": 54.55342859764622, "train/post_ent_mean": 40.92142617212583, "train/post_ent_min": 18.901112817738156, "train/post_ent_std": 5.615896989221442, "train/prior_ent_mag": 76.32897907413849, "train/prior_ent_max": 76.32897907413849, "train/prior_ent_mean": 45.69694095768341, "train/prior_ent_min": 27.52945440109462, "train/prior_ent_std": 7.252438185966178, "train/rep_loss_mean": 4.799037280148023, "train/rep_loss_std": 8.563328533956449, "train/reward_avg": 0.03156437278304198, "train/reward_loss_mean": 0.047289736875116006, "train/reward_loss_std": 0.18895882531388164, "train/reward_max_data": 1.0136986334029943, "train/reward_max_pred": 1.0128318528606468, "train/reward_neg_acc": 0.9949375815587501, "train/reward_neg_loss": 0.021929874697266375, "train/reward_pos_acc": 0.9896929876445091, "train/reward_pos_loss": 0.722638286139867, "train/reward_pred": 0.03135910880279868, "train/reward_rate": 0.03626658818493151, "stats/sum_log_reward": 11.100000222524008, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 4.0, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 13.0, "stats/max_log_achievement_collect_wood": 8.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.5, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_stone": 4.166666666666667, "stats/max_log_achievement_place_table": 2.1666666666666665, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.4021989554166794, "replay/size": 376806.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.8051736584708054e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2345181023778993e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0340452194214, "timer/env.step_count": 1452.0, "timer/env.step_total": 17.26631784439087, "timer/env.step_frac": 0.057547862049333896, "timer/env.step_avg": 0.011891403474098394, "timer/env.step_min": 0.0030336380004882812, "timer/env.step_max": 1.723567247390747, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.29249072074890137, "timer/replay.add_frac": 0.0009748584382648862, "timer/replay.add_avg": 0.00020143989032293482, "timer/replay.add_min": 8.034706115722656e-05, "timer/replay.add_max": 0.004416704177856445, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027384281158447266, "timer/logger.write_frac": 9.127057943847855e-05, "timer/logger.write_avg": 0.027384281158447266, "timer/logger.write_min": 0.027384281158447266, "timer/logger.write_max": 0.027384281158447266, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 10.957642078399658, "timer/agent.policy_frac": 0.03652132900580032, "timer/agent.policy_avg": 0.0075465854534432905, "timer/agent.policy_min": 0.005697727203369141, "timer/agent.policy_max": 0.020917415618896484, "timer/dataset_count": 726.0, "timer/dataset_total": 0.07071495056152344, "timer/dataset_frac": 0.00023568975484034843, "timer/dataset_avg": 9.740351317014248e-05, "timer/dataset_min": 6.389617919921875e-05, "timer/dataset_max": 0.0012652873992919922, "timer/agent.train_count": 726.0, "timer/agent.train_total": 270.6959481239319, "timer/agent.train_frac": 0.9022174397774295, "timer/agent.train_avg": 0.37285943267759214, "timer/agent.train_min": 0.36513566970825195, "timer/agent.train_max": 0.38854384422302246, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22193622589111328, "timer/agent.report_frac": 0.0007397034750799914, "timer/agent.report_avg": 0.22193622589111328, "timer/agent.report_min": 0.22193622589111328, "timer/agent.report_max": 0.22193622589111328, "fps": 4.839385524888586}
{"step": 376976, "episode/length": 193.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.041237113402061855}
{"step": 377153, "episode/length": 176.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.06779661016949153}
{"step": 377353, "episode/length": 199.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 9.900000005960464, "episode/reward_rate": 0.05}
{"step": 377741, "episode/length": 387.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.028350515463917526}
{"step": 377831, "episode/length": 89.0, "episode/score": 7.100000023841858, "episode/sum_abs_reward": 8.899999976158142, "episode/reward_rate": 0.1}
{"step": 377995, "episode/length": 163.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.042682926829268296}
{"step": 378277, "episode/length": 281.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 13.700000040233135, "episode/reward_rate": 0.03900709219858156}
{"step": 378291, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.553098866637324, "train/action_min": 0.0, "train/action_std": 3.3619669558296743, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04690727292441986, "train/actor_opt_grad_steps": 188240.0, "train/actor_opt_loss": -10.960392839052307, "train/adv_mag": 0.4652935875133729, "train/adv_max": 0.4328264380005044, "train/adv_mean": 0.0032605480006731996, "train/adv_min": -0.37303372650918826, "train/adv_std": 0.05262261608117063, "train/cont_avg": 0.9951446963028169, "train/cont_loss_mean": 0.00011848139671764983, "train/cont_loss_std": 0.003665224695383509, "train/cont_neg_acc": 0.9976525827192925, "train/cont_neg_loss": 0.018900740025907307, "train/cont_pos_acc": 0.999999979012449, "train/cont_pos_loss": 7.880254244096058e-06, "train/cont_pred": 0.9951514114796276, "train/cont_rate": 0.9951446963028169, "train/dyn_loss_mean": 4.928768463537726, "train/dyn_loss_std": 8.622708481802068, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.055141183691965, "train/extr_critic_critic_opt_grad_steps": 188240.0, "train/extr_critic_critic_opt_loss": 16335.179701254401, "train/extr_critic_mag": 9.324856153676208, "train/extr_critic_max": 9.324856153676208, "train/extr_critic_mean": 2.486498626185135, "train/extr_critic_min": -0.5317181180900251, "train/extr_critic_std": 2.212947111734202, "train/extr_return_normed_mag": 1.4427402254561303, "train/extr_return_normed_max": 1.4427402254561303, "train/extr_return_normed_mean": 0.3809148518132492, "train/extr_return_normed_min": -0.10224683724448715, "train/extr_return_normed_std": 0.3206742825642438, "train/extr_return_rate": 0.7594483998459829, "train/extr_return_raw_mag": 9.958815211981115, "train/extr_return_raw_max": 9.958815211981115, "train/extr_return_raw_mean": 2.5093341394209525, "train/extr_return_raw_min": -0.8800151457249279, "train/extr_return_raw_std": 2.2495356680641714, "train/extr_reward_mag": 1.0420204182745705, "train/extr_reward_max": 1.0420204182745705, "train/extr_reward_mean": 0.049259723151023956, "train/extr_reward_min": -0.6619181800896013, "train/extr_reward_std": 0.21505345760936467, "train/image_loss_mean": 3.053649818393546, "train/image_loss_std": 7.9837287983424226, "train/model_loss_mean": 6.058560734063807, "train/model_loss_std": 12.076282353468343, "train/model_opt_grad_norm": 35.69034291656924, "train/model_opt_grad_steps": 188090.0, "train/model_opt_loss": 7573.200869278169, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.5873867625921543, "train/policy_entropy_max": 2.5873867625921543, "train/policy_entropy_mean": 0.3724477064441627, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5097372347200421, "train/policy_logprob_mag": 7.438384264287814, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.371846079826355, "train/policy_logprob_min": -7.438384264287814, "train/policy_logprob_std": 0.9860639798809105, "train/policy_randomness_mag": 0.9132339828450915, "train/policy_randomness_max": 0.9132339828450915, "train/policy_randomness_mean": 0.13145769628840434, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1799148754544661, "train/post_ent_mag": 55.02425110508019, "train/post_ent_max": 55.02425110508019, "train/post_ent_mean": 40.74903122807892, "train/post_ent_min": 18.81727434883655, "train/post_ent_std": 5.503038628000609, "train/prior_ent_mag": 76.38377455590476, "train/prior_ent_max": 76.38377455590476, "train/prior_ent_mean": 45.65517371808979, "train/prior_ent_min": 28.008273675408162, "train/prior_ent_std": 7.28044971278016, "train/rep_loss_mean": 4.928768463537726, "train/rep_loss_std": 8.622708481802068, "train/reward_avg": 0.03217291998558901, "train/reward_loss_mean": 0.047531393422207364, "train/reward_loss_std": 0.1988646858175036, "train/reward_max_data": 1.0197183145603663, "train/reward_max_pred": 1.016027376685344, "train/reward_neg_acc": 0.9948543755101485, "train/reward_neg_loss": 0.02127578648620508, "train/reward_pos_acc": 0.9862506498753185, "train/reward_pos_loss": 0.739983942307217, "train/reward_pred": 0.0317419659818562, "train/reward_rate": 0.03657295334507042, "stats/sum_log_reward": 8.528571469443184, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 3.857142857142857, "stats/max_log_achievement_collect_sapling": 2.2857142857142856, "stats/max_log_achievement_collect_stone": 10.714285714285714, "stats/max_log_achievement_collect_wood": 8.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.42857142857142855, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.42857142857142855, "stats/max_log_achievement_place_furnace": 1.1428571428571428, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 5.285714285714286, "stats/max_log_achievement_place_table": 2.4285714285714284, "stats/max_log_achievement_wake_up": 1.8571428571428572, "stats/mean_log_entropy": 0.37908537472997395, "replay/size": 378228.0, "replay/inserts": 1422.0, "replay/samples": 11376.0, "replay/insert_wait_avg": 3.798936825093673e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.225898202126204e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1188304424286, "timer/env.step_count": 1422.0, "timer/env.step_total": 21.989051580429077, "timer/env.step_frac": 0.07326781711102, "timer/env.step_avg": 0.015463468059373472, "timer/env.step_min": 0.0031142234802246094, "timer/env.step_max": 3.3588640689849854, "timer/replay.add_count": 1422.0, "timer/replay.add_total": 0.29592013359069824, "timer/replay.add_frac": 0.0009860098853326173, "timer/replay.add_avg": 0.00020810135976842353, "timer/replay.add_min": 7.700920104980469e-05, "timer/replay.add_max": 0.0054779052734375, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03014206886291504, "timer/logger.write_frac": 0.00010043378090765002, "timer/logger.write_avg": 0.03014206886291504, "timer/logger.write_min": 0.03014206886291504, "timer/logger.write_max": 0.03014206886291504, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004229545593261719, "timer/checkpoint.save_frac": 1.4092903091174304e-06, "timer/checkpoint.save_avg": 0.0004229545593261719, "timer/checkpoint.save_min": 0.0004229545593261719, "timer/checkpoint.save_max": 0.0004229545593261719, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3731131553649902, "timer/agent.save_frac": 0.004575231595234384, "timer/agent.save_avg": 1.3731131553649902, "timer/agent.save_min": 1.3731131553649902, "timer/agent.save_max": 1.3731131553649902, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.893013000488281e-05, "timer/replay.save_frac": 2.963163953217596e-07, "timer/replay.save_avg": 8.893013000488281e-05, "timer/replay.save_min": 8.893013000488281e-05, "timer/replay.save_max": 8.893013000488281e-05, "timer/agent.policy_count": 1422.0, "timer/agent.policy_total": 11.952466249465942, "timer/agent.policy_frac": 0.03982577911504546, "timer/agent.policy_avg": 0.008405391174026682, "timer/agent.policy_min": 0.005592823028564453, "timer/agent.policy_max": 1.377302885055542, "timer/dataset_count": 711.0, "timer/dataset_total": 0.06645035743713379, "timer/dataset_frac": 0.0002214134892474895, "timer/dataset_avg": 9.346041833633445e-05, "timer/dataset_min": 7.081031799316406e-05, "timer/dataset_max": 0.00018405914306640625, "timer/agent.train_count": 711.0, "timer/agent.train_total": 265.1104054450989, "timer/agent.train_frac": 0.8833514546697351, "timer/agent.train_avg": 0.37286976855850756, "timer/agent.train_min": 0.366832971572876, "timer/agent.train_max": 0.40358948707580566, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20047330856323242, "timer/agent.report_frac": 0.0006679797741038077, "timer/agent.report_avg": 0.20047330856323242, "timer/agent.report_min": 0.20047330856323242, "timer/agent.report_max": 0.20047330856323242, "fps": 4.738045409867338}
{"step": 378517, "episode/length": 239.0, "episode/score": 10.099999994039536, "episode/sum_abs_reward": 11.900000005960464, "episode/reward_rate": 0.05}
{"step": 378770, "episode/length": 252.0, "episode/score": 10.100000031292439, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.04743083003952569}
{"step": 379120, "episode/length": 349.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.03428571428571429}
{"step": 379399, "episode/length": 278.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.03942652329749104}
{"step": 379624, "episode/length": 224.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.06222222222222222}
{"step": 379723, "episode/length": 98.0, "episode/score": 5.100000023841858, "episode/sum_abs_reward": 6.899999976158142, "episode/reward_rate": 0.0707070707070707}
{"step": 379743, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.473061757544949, "train/action_min": 0.0, "train/action_std": 3.352784858991022, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04488237860472235, "train/actor_opt_grad_steps": 188960.0, "train/actor_opt_loss": -13.475801935751145, "train/adv_mag": 0.48113846942170024, "train/adv_max": 0.41950678376302325, "train/adv_mean": 0.0017876156479397737, "train/adv_min": -0.4005740370652447, "train/adv_std": 0.05037620658539746, "train/cont_avg": 0.994582084760274, "train/cont_loss_mean": 1.2822284846506964e-05, "train/cont_loss_std": 0.00032258706679473006, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.000678409294130389, "train/cont_pos_acc": 0.9999999820369564, "train/cont_pos_loss": 9.175161195166579e-06, "train/cont_pred": 0.9945771841153707, "train/cont_rate": 0.994582084760274, "train/dyn_loss_mean": 4.883845410934867, "train/dyn_loss_std": 8.57342687371659, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0228769191323894, "train/extr_critic_critic_opt_grad_steps": 188960.0, "train/extr_critic_critic_opt_loss": 16019.290841716609, "train/extr_critic_mag": 9.550712507065029, "train/extr_critic_max": 9.550712507065029, "train/extr_critic_mean": 2.5348366890868097, "train/extr_critic_min": -0.5523931065650836, "train/extr_critic_std": 2.3429813336019647, "train/extr_return_normed_mag": 1.447220171967598, "train/extr_return_normed_max": 1.447220171967598, "train/extr_return_normed_mean": 0.3751176697750614, "train/extr_return_normed_min": -0.09282982405530263, "train/extr_return_normed_std": 0.3293255306270024, "train/extr_return_rate": 0.746047411062946, "train/extr_return_raw_mag": 10.279450416564941, "train/extr_return_raw_max": 10.279450416564941, "train/extr_return_raw_mean": 2.547692115992716, "train/extr_return_raw_min": -0.826301346902978, "train/extr_return_raw_std": 2.3746842341880274, "train/extr_reward_mag": 1.0464850059927326, "train/extr_reward_max": 1.0464850059927326, "train/extr_reward_mean": 0.047153991685338216, "train/extr_reward_min": -0.6773383062179774, "train/extr_reward_std": 0.21177641332966007, "train/image_loss_mean": 2.990508453486717, "train/image_loss_std": 8.082610894555915, "train/model_loss_mean": 5.969951306303886, "train/model_loss_std": 12.121246141930149, "train/model_opt_grad_norm": 31.79367830981947, "train/model_opt_grad_steps": 188810.0, "train/model_opt_loss": 14708.091663099314, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2465.753424657534, "train/policy_entropy_mag": 2.558103675711645, "train/policy_entropy_max": 2.558103675711645, "train/policy_entropy_mean": 0.3775050785035303, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5085562528812722, "train/policy_logprob_mag": 7.4383841997956575, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37661712157399685, "train/policy_logprob_min": -7.4383841997956575, "train/policy_logprob_std": 0.9896271432915779, "train/policy_randomness_mag": 0.9028983377430537, "train/policy_randomness_max": 0.9028983377430537, "train/policy_randomness_mean": 0.13324272418267105, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.17949804092106753, "train/post_ent_mag": 54.576056807008506, "train/post_ent_max": 54.576056807008506, "train/post_ent_mean": 40.74299088569536, "train/post_ent_min": 18.77622038697543, "train/post_ent_std": 5.53300979692642, "train/prior_ent_mag": 76.35145297115797, "train/prior_ent_max": 76.35145297115797, "train/prior_ent_mean": 45.65168547956911, "train/prior_ent_min": 27.95088984868298, "train/prior_ent_std": 7.289307633491411, "train/rep_loss_mean": 4.883845410934867, "train/rep_loss_std": 8.57342687371659, "train/reward_avg": 0.0324593319570365, "train/reward_loss_mean": 0.0491227011055979, "train/reward_loss_std": 0.19844382307300829, "train/reward_max_data": 1.026027403465689, "train/reward_max_pred": 1.0249535547543878, "train/reward_neg_acc": 0.9944526357193516, "train/reward_neg_loss": 0.023073114518535463, "train/reward_pos_acc": 0.9903138998436601, "train/reward_pos_loss": 0.7236450461492147, "train/reward_pred": 0.03228192643760002, "train/reward_rate": 0.03731003852739726, "stats/sum_log_reward": 9.933333476384481, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 3.1666666666666665, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 14.0, "stats/max_log_achievement_collect_wood": 8.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_wood_sword": 1.3333333333333333, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_stone": 5.666666666666667, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 2.1666666666666665, "stats/mean_log_entropy": 0.5399616161982218, "replay/size": 379680.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.81830966833866e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2029301036487927e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.21328473091125, "timer/env.step_count": 1452.0, "timer/env.step_total": 17.608476638793945, "timer/env.step_frac": 0.05865322267326333, "timer/env.step_avg": 0.012127050026717594, "timer/env.step_min": 0.0031402111053466797, "timer/env.step_max": 1.7886378765106201, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.2898387908935547, "timer/replay.add_frac": 0.0009654429221989443, "timer/replay.add_avg": 0.000199613492350933, "timer/replay.add_min": 8.296966552734375e-05, "timer/replay.add_max": 0.003245115280151367, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0287015438079834, "timer/logger.write_frac": 9.560384322668903e-05, "timer/logger.write_avg": 0.0287015438079834, "timer/logger.write_min": 0.0287015438079834, "timer/logger.write_max": 0.0287015438079834, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 10.855261325836182, "timer/agent.policy_frac": 0.03615849756804076, "timer/agent.policy_avg": 0.007476075293275607, "timer/agent.policy_min": 0.0056078433990478516, "timer/agent.policy_max": 0.01587510108947754, "timer/dataset_count": 726.0, "timer/dataset_total": 0.06748294830322266, "timer/dataset_frac": 0.00022478335148862357, "timer/dataset_avg": 9.295171942592652e-05, "timer/dataset_min": 6.818771362304688e-05, "timer/dataset_max": 0.00018334388732910156, "timer/agent.train_count": 726.0, "timer/agent.train_total": 270.639452457428, "timer/agent.train_frac": 0.9014905942620393, "timer/agent.train_avg": 0.37278161495513495, "timer/agent.train_min": 0.3663442134857178, "timer/agent.train_max": 0.3885025978088379, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22053742408752441, "timer/agent.report_frac": 0.0007346024819827599, "timer/agent.report_avg": 0.22053742408752441, "timer/agent.report_min": 0.22053742408752441, "timer/agent.report_max": 0.22053742408752441, "fps": 4.836448446879535}
{"step": 379921, "episode/length": 197.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 9.899999991059303, "episode/reward_rate": 0.050505050505050504}
{"step": 380086, "episode/length": 164.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.06060606060606061}
{"step": 380483, "episode/length": 396.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.0327455919395466}
{"step": 380678, "episode/length": 194.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.100000031292439, "episode/reward_rate": 0.05641025641025641}
{"step": 380974, "episode/length": 295.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.037162162162162164}
{"step": 381194, "episode/length": 219.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 10.899999991059303, "episode/reward_rate": 0.05}
{"step": 381195, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.596861945258246, "train/action_min": 0.0, "train/action_std": 3.4289221929179297, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04651111943854226, "train/actor_opt_grad_steps": 189685.0, "train/actor_opt_loss": -12.539800297882822, "train/adv_mag": 0.531311210244894, "train/adv_max": 0.46714085506068337, "train/adv_mean": 0.0030245158291614237, "train/adv_min": -0.4072830018897851, "train/adv_std": 0.05202201805594894, "train/cont_avg": 0.9943983289930556, "train/cont_loss_mean": 1.4012147032597492e-05, "train/cont_loss_std": 0.0003578068512797788, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0011389364785507393, "train/cont_pos_acc": 0.999999982615312, "train/cont_pos_loss": 7.772899781599563e-06, "train/cont_pred": 0.9943965880407227, "train/cont_rate": 0.9943983289930556, "train/dyn_loss_mean": 4.9734699792332115, "train/dyn_loss_std": 8.671958499484592, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0497263272603352, "train/extr_critic_critic_opt_grad_steps": 189685.0, "train/extr_critic_critic_opt_loss": 16235.363199869791, "train/extr_critic_mag": 10.004998286565145, "train/extr_critic_max": 10.004998286565145, "train/extr_critic_mean": 2.4381669478283987, "train/extr_critic_min": -0.550565297404925, "train/extr_critic_std": 2.352461031741566, "train/extr_return_normed_mag": 1.5299018108182483, "train/extr_return_normed_max": 1.5299018108182483, "train/extr_return_normed_mean": 0.3643744925243987, "train/extr_return_normed_min": -0.09593857819628385, "train/extr_return_normed_std": 0.3324150952200095, "train/extr_return_rate": 0.7319318246510294, "train/extr_return_raw_mag": 10.848022818565369, "train/extr_return_raw_max": 10.848022818565369, "train/extr_return_raw_mean": 2.459895667102602, "train/extr_return_raw_min": -0.8525920969744524, "train/extr_return_raw_std": 2.39171368877093, "train/extr_reward_mag": 1.0451757179366217, "train/extr_reward_max": 1.0451757179366217, "train/extr_reward_mean": 0.0477059752576881, "train/extr_reward_min": -0.6451617065403197, "train/extr_reward_std": 0.2122908505714602, "train/image_loss_mean": 3.1417139801714153, "train/image_loss_std": 8.23352501127455, "train/model_loss_mean": 6.176592439413071, "train/model_loss_std": 12.364227645927006, "train/model_opt_grad_norm": 31.026628269089592, "train/model_opt_grad_steps": 189534.41666666666, "train/model_opt_loss": 15609.55413140191, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2534.722222222222, "train/policy_entropy_mag": 2.577722324265374, "train/policy_entropy_max": 2.577722324265374, "train/policy_entropy_mean": 0.3941981484078699, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.531932050983111, "train/policy_logprob_mag": 7.4383842084142895, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39333323513468105, "train/policy_logprob_min": -7.4383842084142895, "train/policy_logprob_std": 1.0044493650396664, "train/policy_randomness_mag": 0.909822860525714, "train/policy_randomness_max": 0.909822860525714, "train/policy_randomness_mean": 0.13913464660031927, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18774866902579865, "train/post_ent_mag": 54.556456353929306, "train/post_ent_max": 54.556456353929306, "train/post_ent_mean": 40.9065113597446, "train/post_ent_min": 19.166125774383545, "train/post_ent_std": 5.5379411644405785, "train/prior_ent_mag": 76.40700319078233, "train/prior_ent_max": 76.40700319078233, "train/prior_ent_mean": 45.87543461057875, "train/prior_ent_min": 28.11720781856113, "train/prior_ent_std": 7.286949442492591, "train/rep_loss_mean": 4.9734699792332115, "train/rep_loss_std": 8.671958499484592, "train/reward_avg": 0.03211941188460009, "train/reward_loss_mean": 0.05078247036888368, "train/reward_loss_std": 0.20601313447372782, "train/reward_max_data": 1.0208333383003871, "train/reward_max_pred": 1.0210613012313843, "train/reward_neg_acc": 0.9943372077412076, "train/reward_neg_loss": 0.024462902129420802, "train/reward_pos_acc": 0.9860475212335587, "train/reward_pos_loss": 0.734762751393848, "train/reward_pred": 0.03191928482717938, "train/reward_rate": 0.037353515625, "stats/sum_log_reward": 9.766667048136393, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 2.5, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 14.833333333333334, "stats/max_log_achievement_collect_wood": 11.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.3333333333333333, "stats/max_log_achievement_place_furnace": 2.1666666666666665, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 4.666666666666667, "stats/max_log_achievement_place_table": 3.1666666666666665, "stats/max_log_achievement_wake_up": 2.6666666666666665, "stats/mean_log_entropy": 0.5287826930483183, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "replay/size": 381132.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.921098945554623e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2043052796818336e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0949738025665, "timer/env.step_count": 1452.0, "timer/env.step_total": 17.297815561294556, "timer/env.step_frac": 0.057641137211031215, "timer/env.step_avg": 0.011913096116594047, "timer/env.step_min": 0.002939462661743164, "timer/env.step_max": 1.8156654834747314, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.2888932228088379, "timer/replay.add_frac": 0.0009626726470897233, "timer/replay.add_avg": 0.0001989622746617341, "timer/replay.add_min": 8.344650268554688e-05, "timer/replay.add_max": 0.0033833980560302734, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027384281158447266, "timer/logger.write_frac": 9.125204868130672e-05, "timer/logger.write_avg": 0.027384281158447266, "timer/logger.write_min": 0.027384281158447266, "timer/logger.write_max": 0.027384281158447266, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 10.865056276321411, "timer/agent.policy_frac": 0.036205392375113776, "timer/agent.policy_avg": 0.007482821126943121, "timer/agent.policy_min": 0.005530357360839844, "timer/agent.policy_max": 0.015806198120117188, "timer/dataset_count": 726.0, "timer/dataset_total": 0.06785845756530762, "timer/dataset_frac": 0.00022612327259420185, "timer/dataset_avg": 9.346894981447331e-05, "timer/dataset_min": 7.271766662597656e-05, "timer/dataset_max": 0.0001888275146484375, "timer/agent.train_count": 726.0, "timer/agent.train_total": 270.8360946178436, "timer/agent.train_frac": 0.9025012688017481, "timer/agent.train_avg": 0.37305247192540447, "timer/agent.train_min": 0.36669349670410156, "timer/agent.train_max": 0.3876926898956299, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2214956283569336, "timer/agent.report_frac": 0.0007380850986949761, "timer/agent.report_avg": 0.2214956283569336, "timer/agent.report_min": 0.2214956283569336, "timer/agent.report_max": 0.2214956283569336, "fps": 4.838393548284688}
{"step": 381494, "episode/length": 299.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.043333333333333335}
{"step": 381735, "episode/length": 240.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.04149377593360996}
{"step": 381978, "episode/length": 242.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.299999997019768, "episode/reward_rate": 0.0411522633744856}
{"step": 382218, "episode/length": 239.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 13.300000049173832, "episode/reward_rate": 0.04583333333333333}
{"step": 382383, "episode/length": 164.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 12.100000008940697, "episode/reward_rate": 0.06666666666666667}
{"step": 382629, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.488375345865886, "train/action_min": 0.0, "train/action_std": 3.3671290112866297, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04673229752936297, "train/actor_opt_grad_steps": 190405.0, "train/actor_opt_loss": -13.652017061081198, "train/adv_mag": 0.5288691131605042, "train/adv_max": 0.4807389916645156, "train/adv_mean": 0.002129592290253236, "train/adv_min": -0.39618247002363205, "train/adv_std": 0.051945881348931126, "train/cont_avg": 0.9943712022569444, "train/cont_loss_mean": 1.481183581120149e-05, "train/cont_loss_std": 0.0003903882249195097, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0005680010619168266, "train/cont_pos_acc": 0.9999999834431542, "train/cont_pos_loss": 1.1839659537216107e-05, "train/cont_pred": 0.9943637632661395, "train/cont_rate": 0.9943712022569444, "train/dyn_loss_mean": 4.807482129997677, "train/dyn_loss_std": 8.668136265542772, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0623153638508585, "train/extr_critic_critic_opt_grad_steps": 190405.0, "train/extr_critic_critic_opt_loss": 16075.984781901041, "train/extr_critic_mag": 9.999464750289917, "train/extr_critic_max": 9.999464750289917, "train/extr_critic_mean": 2.601360989941491, "train/extr_critic_min": -0.5677039755715264, "train/extr_critic_std": 2.399644762277603, "train/extr_return_normed_mag": 1.5294102148877249, "train/extr_return_normed_max": 1.5294102148877249, "train/extr_return_normed_mean": 0.3870299586819278, "train/extr_return_normed_min": -0.10125031115280257, "train/extr_return_normed_std": 0.33842578944232726, "train/extr_return_rate": 0.748521631790532, "train/extr_return_raw_mag": 10.828138245476616, "train/extr_return_raw_max": 10.828138245476616, "train/extr_return_raw_mean": 2.616660553548071, "train/extr_return_raw_min": -0.8928957142763667, "train/extr_return_raw_std": 2.4325183729330697, "train/extr_reward_mag": 1.04995177520646, "train/extr_reward_max": 1.04995177520646, "train/extr_reward_mean": 0.047562135849148035, "train/extr_reward_min": -0.6735862592856089, "train/extr_reward_std": 0.21229209336969587, "train/image_loss_mean": 2.882284477353096, "train/image_loss_std": 7.832959764533573, "train/model_loss_mean": 5.81570827960968, "train/model_loss_std": 12.000804000430637, "train/model_opt_grad_norm": 32.97921159233845, "train/model_opt_grad_steps": 190253.80555555556, "train/model_opt_loss": 14726.86126030816, "train/model_opt_model_opt_grad_overflow": 0.013888888888888888, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.5414249863889484, "train/policy_entropy_max": 2.5414249863889484, "train/policy_entropy_mean": 0.36956328857276177, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.49921059153146213, "train/policy_logprob_mag": 7.438384268018934, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3702426416178544, "train/policy_logprob_min": -7.438384268018934, "train/policy_logprob_std": 0.9857049981753031, "train/policy_randomness_mag": 0.8970114936431249, "train/policy_randomness_max": 0.8970114936431249, "train/policy_randomness_mean": 0.1304396227416065, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.17619943308333555, "train/post_ent_mag": 54.71437030368381, "train/post_ent_max": 54.71437030368381, "train/post_ent_mean": 40.7847834693061, "train/post_ent_min": 18.635805659823948, "train/post_ent_std": 5.48296226395501, "train/prior_ent_mag": 76.26647726694743, "train/prior_ent_max": 76.26647726694743, "train/prior_ent_mean": 45.557690938313804, "train/prior_ent_min": 27.48602792951796, "train/prior_ent_std": 7.3030277954207525, "train/rep_loss_mean": 4.807482129997677, "train/rep_loss_std": 8.668136265542772, "train/reward_avg": 0.031465657288208604, "train/reward_loss_mean": 0.048919676130430564, "train/reward_loss_std": 0.2030105505966478, "train/reward_max_data": 1.0208333383003871, "train/reward_max_pred": 1.023029926750395, "train/reward_neg_acc": 0.9947032208244005, "train/reward_neg_loss": 0.023416894643257063, "train/reward_pos_acc": 0.9904242323504554, "train/reward_pos_loss": 0.7255697995424271, "train/reward_pred": 0.03131374346816705, "train/reward_rate": 0.036431206597222224, "stats/sum_log_reward": 9.700000190734864, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 11.8, "stats/max_log_achievement_collect_wood": 9.8, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.6, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.4, "stats/max_log_achievement_make_wood_sword": 1.6, "stats/max_log_achievement_place_furnace": 1.8, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 4.0, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.6, "stats/mean_log_entropy": 0.5218988597393036, "replay/size": 382566.0, "replay/inserts": 1434.0, "replay/samples": 11472.0, "replay/insert_wait_avg": 3.895333953814859e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.208656668829286e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.06112718582153, "timer/env.step_count": 1434.0, "timer/env.step_total": 18.35931944847107, "timer/env.step_frac": 0.06118526455145098, "timer/env.step_avg": 0.01280287269767857, "timer/env.step_min": 0.003202199935913086, "timer/env.step_max": 2.6647567749023438, "timer/replay.add_count": 1434.0, "timer/replay.add_total": 0.2967700958251953, "timer/replay.add_frac": 0.0009890321302479538, "timer/replay.add_avg": 0.00020695264701896466, "timer/replay.add_min": 7.152557373046875e-05, "timer/replay.add_max": 0.007588624954223633, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027496337890625, "timer/logger.write_frac": 9.163578817591089e-05, "timer/logger.write_avg": 0.027496337890625, "timer/logger.write_min": 0.027496337890625, "timer/logger.write_max": 0.027496337890625, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0005009174346923828, "timer/checkpoint.save_frac": 1.6693846330257076e-06, "timer/checkpoint.save_avg": 0.0005009174346923828, "timer/checkpoint.save_min": 0.0005009174346923828, "timer/checkpoint.save_max": 0.0005009174346923828, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.445343255996704, "timer/agent.save_frac": 0.004816829389238525, "timer/agent.save_avg": 1.445343255996704, "timer/agent.save_min": 1.445343255996704, "timer/agent.save_max": 1.445343255996704, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.437301635742188e-05, "timer/replay.save_frac": 2.145330085278158e-07, "timer/replay.save_avg": 6.437301635742188e-05, "timer/replay.save_min": 6.437301635742188e-05, "timer/replay.save_max": 6.437301635742188e-05, "timer/agent.policy_count": 1434.0, "timer/agent.policy_total": 12.969573497772217, "timer/agent.policy_frac": 0.04322310463674434, "timer/agent.policy_avg": 0.009044332983104754, "timer/agent.policy_min": 0.005548238754272461, "timer/agent.policy_max": 1.434427261352539, "timer/dataset_count": 717.0, "timer/dataset_total": 0.06699371337890625, "timer/dataset_frac": 0.00022326688567499267, "timer/dataset_avg": 9.343614139317468e-05, "timer/dataset_min": 6.890296936035156e-05, "timer/dataset_max": 0.00017881393432617188, "timer/agent.train_count": 717.0, "timer/agent.train_total": 267.6451816558838, "timer/agent.train_frac": 0.891968860365364, "timer/agent.train_avg": 0.37328477218393835, "timer/agent.train_min": 0.36622190475463867, "timer/agent.train_max": 0.5173947811126709, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22060489654541016, "timer/agent.report_frac": 0.0007351998528246353, "timer/agent.report_avg": 0.22060489654541016, "timer/agent.report_min": 0.22060489654541016, "timer/agent.report_max": 0.22060489654541016, "fps": 4.778959966009353}
{"step": 382654, "episode/length": 270.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.500000022351742, "episode/reward_rate": 0.02952029520295203}
{"step": 383005, "episode/length": 350.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.03418803418803419}
{"step": 383201, "episode/length": 195.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.05612244897959184}
{"step": 383371, "episode/length": 169.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 9.899999976158142, "episode/reward_rate": 0.058823529411764705}
{"step": 383577, "episode/length": 205.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.043689320388349516}
{"step": 383850, "episode/length": 272.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.04395604395604396}
{"step": 384021, "episode/length": 170.0, "episode/score": 12.099999979138374, "episode/sum_abs_reward": 13.700000002980232, "episode/reward_rate": 0.07602339181286549}
{"step": 384073, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.6030078464084205, "train/action_min": 0.0, "train/action_std": 3.430582106113434, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04448134734088348, "train/actor_opt_grad_steps": 191125.0, "train/actor_opt_loss": -13.04274119105604, "train/adv_mag": 0.4387367508477635, "train/adv_max": 0.3896030696729819, "train/adv_mean": 0.0022026748484809864, "train/adv_min": -0.3838201788150602, "train/adv_std": 0.05023095808509323, "train/cont_avg": 0.9942084418402778, "train/cont_loss_mean": 2.1795827832546718e-05, "train/cont_loss_std": 0.0005391592409777798, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0012503530147946998, "train/cont_pos_acc": 0.9999999875823656, "train/cont_pos_loss": 1.3691706866738843e-05, "train/cont_pred": 0.9942026742630534, "train/cont_rate": 0.9942084418402778, "train/dyn_loss_mean": 4.921340654293696, "train/dyn_loss_std": 8.668208638827005, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.060276084476047, "train/extr_critic_critic_opt_grad_steps": 191125.0, "train/extr_critic_critic_opt_loss": 15993.878133138021, "train/extr_critic_mag": 9.558218055301243, "train/extr_critic_max": 9.558218055301243, "train/extr_critic_mean": 2.5555530223581524, "train/extr_critic_min": -0.5571241544352638, "train/extr_critic_std": 2.3497115770975747, "train/extr_return_normed_mag": 1.4446151653925579, "train/extr_return_normed_max": 1.4446151653925579, "train/extr_return_normed_mean": 0.38048172638648087, "train/extr_return_normed_min": -0.09698059389160739, "train/extr_return_normed_std": 0.33057941248019534, "train/extr_return_rate": 0.7367468178272247, "train/extr_return_raw_mag": 10.22426634364658, "train/extr_return_raw_max": 10.22426634364658, "train/extr_return_raw_mean": 2.5713863554928036, "train/extr_return_raw_min": -0.8630882874131203, "train/extr_return_raw_std": 2.3777945753600864, "train/extr_reward_mag": 1.0482038491302066, "train/extr_reward_max": 1.0482038491302066, "train/extr_reward_mean": 0.048754819901660085, "train/extr_reward_min": -0.7106350345744027, "train/extr_reward_std": 0.21459494820899433, "train/image_loss_mean": 3.0153401460912495, "train/image_loss_std": 8.021426664458382, "train/model_loss_mean": 6.017107675472896, "train/model_loss_std": 12.19340411822001, "train/model_opt_grad_norm": 34.77400308185153, "train/model_opt_grad_steps": 190972.58333333334, "train/model_opt_loss": 12243.531622992621, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1979.1666666666667, "train/policy_entropy_mag": 2.54139044880867, "train/policy_entropy_max": 2.54139044880867, "train/policy_entropy_mean": 0.37844713321990436, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5092883196969827, "train/policy_logprob_mag": 7.438384201791552, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37745796599321896, "train/policy_logprob_min": -7.438384201791552, "train/policy_logprob_std": 0.9906294850839509, "train/policy_randomness_mag": 0.8969993020097414, "train/policy_randomness_max": 0.8969993020097414, "train/policy_randomness_mean": 0.133575230009026, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.17975642676982614, "train/post_ent_mag": 54.68012200461494, "train/post_ent_max": 54.68012200461494, "train/post_ent_mean": 40.824604193369545, "train/post_ent_min": 18.936259057786728, "train/post_ent_std": 5.490007864104377, "train/prior_ent_mag": 76.3749025132921, "train/prior_ent_max": 76.3749025132921, "train/prior_ent_mean": 45.70642699135674, "train/prior_ent_min": 27.732009437349106, "train/prior_ent_std": 7.3834140168295965, "train/rep_loss_mean": 4.921340654293696, "train/rep_loss_std": 8.668208638827005, "train/reward_avg": 0.03264024486351344, "train/reward_loss_mean": 0.048941387639691435, "train/reward_loss_std": 0.19708369113504887, "train/reward_max_data": 1.0166666706403096, "train/reward_max_pred": 1.017195959885915, "train/reward_neg_acc": 0.9954753228359752, "train/reward_neg_loss": 0.02251413759465019, "train/reward_pos_acc": 0.9892061236831877, "train/reward_pos_loss": 0.7270297002461221, "train/reward_pred": 0.032327397648865976, "train/reward_rate": 0.037665473090277776, "stats/sum_log_reward": 9.671428748539515, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 3.5714285714285716, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 15.571428571428571, "stats/max_log_achievement_collect_wood": 9.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.42857142857142855, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.7142857142857142, "stats/max_log_achievement_place_plant": 0.8571428571428571, "stats/max_log_achievement_place_stone": 7.142857142857143, "stats/max_log_achievement_place_table": 2.2857142857142856, "stats/max_log_achievement_wake_up": 1.5714285714285714, "stats/mean_log_entropy": 0.41360398488385336, "replay/size": 384010.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.829887369002662e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2143827211163381e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.14284348487854, "timer/env.step_count": 1444.0, "timer/env.step_total": 18.772870302200317, "timer/env.step_frac": 0.06254645316287913, "timer/env.step_avg": 0.01300060270235479, "timer/env.step_min": 0.0032269954681396484, "timer/env.step_max": 1.6804823875427246, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.31140589714050293, "timer/replay.add_frac": 0.001037525644539287, "timer/replay.add_avg": 0.0002156550534214009, "timer/replay.add_min": 8.249282836914062e-05, "timer/replay.add_max": 0.00682377815246582, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0287020206451416, "timer/logger.write_frac": 9.562786942340551e-05, "timer/logger.write_avg": 0.0287020206451416, "timer/logger.write_min": 0.0287020206451416, "timer/logger.write_max": 0.0287020206451416, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.901968479156494, "timer/agent.policy_frac": 0.0363226001079241, "timer/agent.policy_avg": 0.007549839667005882, "timer/agent.policy_min": 0.0057485103607177734, "timer/agent.policy_max": 0.020119190216064453, "timer/dataset_count": 722.0, "timer/dataset_total": 0.06777620315551758, "timer/dataset_frac": 0.00022581315739061492, "timer/dataset_avg": 9.387285755611854e-05, "timer/dataset_min": 7.271766662597656e-05, "timer/dataset_max": 0.0002105236053466797, "timer/agent.train_count": 722.0, "timer/agent.train_total": 269.33593940734863, "timer/agent.train_frac": 0.897359191644088, "timer/agent.train_avg": 0.37304146732319754, "timer/agent.train_min": 0.3662576675415039, "timer/agent.train_max": 0.3864774703979492, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22574520111083984, "timer/agent.report_frac": 0.0007521258827622625, "timer/agent.report_avg": 0.22574520111083984, "timer/agent.report_min": 0.22574520111083984, "timer/agent.report_max": 0.22574520111083984, "fps": 4.810935438216441}
{"step": 384230, "episode/length": 208.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.05263157894736842}
{"step": 384432, "episode/length": 201.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.700000002980232, "episode/reward_rate": 0.06435643564356436}
{"step": 384634, "episode/length": 201.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.034653465346534656}
{"step": 384816, "episode/length": 181.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.04395604395604396}
{"step": 385088, "episode/length": 271.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.700000047683716, "episode/reward_rate": 0.04411764705882353}
{"step": 385259, "episode/length": 170.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.900000028312206, "episode/reward_rate": 0.05263157894736842}
{"step": 385460, "episode/length": 200.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 9.899999991059303, "episode/reward_rate": 0.04975124378109453}
{"step": 385517, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.594930860731337, "train/action_min": 0.0, "train/action_std": 3.4075243771076202, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.045787723993675575, "train/actor_opt_grad_steps": 191845.0, "train/actor_opt_loss": -11.859937119815084, "train/adv_mag": 0.4463536561363273, "train/adv_max": 0.4122152448528343, "train/adv_mean": 0.002913869210563765, "train/adv_min": -0.3746625410599841, "train/adv_std": 0.050582025251868695, "train/cont_avg": 0.9943983289930556, "train/cont_loss_mean": 5.111522933039699e-05, "train/cont_loss_std": 0.001476227963337351, "train/cont_neg_acc": 0.9976851857370801, "train/cont_neg_loss": 0.00502291306322099, "train/cont_pos_acc": 0.999999982615312, "train/cont_pos_loss": 2.1647830480099452e-05, "train/cont_pred": 0.9943926607569059, "train/cont_rate": 0.9943983289930556, "train/dyn_loss_mean": 5.022961318492889, "train/dyn_loss_std": 8.72937030924691, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0789026808407571, "train/extr_critic_critic_opt_grad_steps": 191845.0, "train/extr_critic_critic_opt_loss": 16313.0185546875, "train/extr_critic_mag": 9.65192691485087, "train/extr_critic_max": 9.65192691485087, "train/extr_critic_mean": 2.4931630028618708, "train/extr_critic_min": -0.5376098040077422, "train/extr_critic_std": 2.3774584747023053, "train/extr_return_normed_mag": 1.448018244571156, "train/extr_return_normed_max": 1.448018244571156, "train/extr_return_normed_mean": 0.3677321289562517, "train/extr_return_normed_min": -0.0987209247218238, "train/extr_return_normed_std": 0.33225563002957237, "train/extr_return_rate": 0.7154875960614946, "train/extr_return_raw_mag": 10.371442914009094, "train/extr_return_raw_max": 10.371442914009094, "train/extr_return_raw_mean": 2.5143526229593487, "train/extr_return_raw_min": -0.8795710934533013, "train/extr_return_raw_std": 2.417433695660697, "train/extr_reward_mag": 1.0402292940351698, "train/extr_reward_max": 1.0402292940351698, "train/extr_reward_mean": 0.048163483617827296, "train/extr_reward_min": -0.6755669729577171, "train/extr_reward_std": 0.21437089724673164, "train/image_loss_mean": 3.3857225560479693, "train/image_loss_std": 8.655918174319797, "train/model_loss_mean": 6.449823396073447, "train/model_loss_std": 12.757024791505602, "train/model_opt_grad_norm": 31.099262608422173, "train/model_opt_grad_steps": 191692.0, "train/model_opt_loss": 8298.436767578125, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1284.7222222222222, "train/policy_entropy_mag": 2.5741864144802094, "train/policy_entropy_max": 2.5741864144802094, "train/policy_entropy_mean": 0.38877802424960667, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5229343809187412, "train/policy_logprob_mag": 7.438384181923336, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3879452906548977, "train/policy_logprob_min": -7.438384181923336, "train/policy_logprob_std": 0.9994047474530008, "train/policy_randomness_mag": 0.9085748435722457, "train/policy_randomness_max": 0.9085748435722457, "train/policy_randomness_mean": 0.13722158150954378, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18457288729647794, "train/post_ent_mag": 54.8660741382175, "train/post_ent_max": 54.8660741382175, "train/post_ent_mean": 40.99023283852471, "train/post_ent_min": 19.153687357902527, "train/post_ent_std": 5.542384597990248, "train/prior_ent_mag": 76.40988254547119, "train/prior_ent_max": 76.40988254547119, "train/prior_ent_mean": 45.97167348861694, "train/prior_ent_min": 28.10451873143514, "train/prior_ent_std": 7.363024585776859, "train/rep_loss_mean": 5.022961318492889, "train/rep_loss_std": 8.72937030924691, "train/reward_avg": 0.03163113029828916, "train/reward_loss_mean": 0.05027285135454602, "train/reward_loss_std": 0.2036872590995497, "train/reward_max_data": 1.0125000029802322, "train/reward_max_pred": 1.0138116892841127, "train/reward_neg_acc": 0.9943562150001526, "train/reward_neg_loss": 0.024398201934268907, "train/reward_pos_acc": 0.9880880481666989, "train/reward_pos_loss": 0.7312651500105858, "train/reward_pred": 0.03154649562202394, "train/reward_rate": 0.03663465711805555, "stats/sum_log_reward": 8.67142881665911, "stats/max_log_achievement_collect_coal": 0.2857142857142857, "stats/max_log_achievement_collect_drink": 2.7142857142857144, "stats/max_log_achievement_collect_sapling": 1.1428571428571428, "stats/max_log_achievement_collect_stone": 11.857142857142858, "stats/max_log_achievement_collect_wood": 7.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.2857142857142857, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.2857142857142858, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 6.0, "stats/max_log_achievement_place_table": 2.142857142857143, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.3849627694913319, "replay/size": 385454.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.8526725240691546e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.234505480346257e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0854208469391, "timer/env.step_count": 1444.0, "timer/env.step_total": 18.848971843719482, "timer/env.step_frac": 0.06281202129220916, "timer/env.step_avg": 0.013053304600913768, "timer/env.step_min": 0.003093719482421875, "timer/env.step_max": 1.7107300758361816, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.291363000869751, "timer/replay.add_frac": 0.0009709335430139505, "timer/replay.add_avg": 0.00020177493135024307, "timer/replay.add_min": 7.176399230957031e-05, "timer/replay.add_max": 0.005092144012451172, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029592037200927734, "timer/logger.write_frac": 9.861204558825063e-05, "timer/logger.write_avg": 0.029592037200927734, "timer/logger.write_min": 0.029592037200927734, "timer/logger.write_max": 0.029592037200927734, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.88823914527893, "timer/agent.policy_frac": 0.03628379917474419, "timer/agent.policy_avg": 0.007540331818060201, "timer/agent.policy_min": 0.005632877349853516, "timer/agent.policy_max": 0.01901721954345703, "timer/dataset_count": 722.0, "timer/dataset_total": 0.06733441352844238, "timer/dataset_frac": 0.00022438415481299516, "timer/dataset_avg": 9.326096056570967e-05, "timer/dataset_min": 6.747245788574219e-05, "timer/dataset_max": 0.0001900196075439453, "timer/agent.train_count": 722.0, "timer/agent.train_total": 269.2506756782532, "timer/agent.train_frac": 0.8972467736631117, "timer/agent.train_avg": 0.37292337351558613, "timer/agent.train_min": 0.3660728931427002, "timer/agent.train_max": 0.4210083484649658, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21898198127746582, "timer/agent.report_frac": 0.0007297321564620738, "timer/agent.report_avg": 0.21898198127746582, "timer/agent.report_min": 0.21898198127746582, "timer/agent.report_max": 0.21898198127746582, "fps": 4.811860304102915}
{"step": 385661, "episode/length": 200.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.299999997019768, "episode/reward_rate": 0.05970149253731343}
{"step": 385826, "episode/length": 164.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.06060606060606061}
{"step": 386014, "episode/length": 187.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.700000040233135, "episode/reward_rate": 0.05851063829787234}
{"step": 386179, "episode/length": 164.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 8.899999991059303, "episode/reward_rate": 0.05454545454545454}
{"step": 386240, "episode/length": 60.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.08196721311475409}
{"step": 386416, "episode/length": 175.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.045454545454545456}
{"step": 386598, "episode/length": 181.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03296703296703297}
{"step": 386730, "episode/length": 131.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.08333333333333333}
{"step": 386885, "episode/length": 154.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.900000013411045, "episode/reward_rate": 0.05806451612903226}
{"step": 386921, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.588682362731074, "train/action_min": 0.0, "train/action_std": 3.401136636734009, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04595852947570908, "train/actor_opt_grad_steps": 192560.0, "train/actor_opt_loss": -13.945773635951566, "train/adv_mag": 0.5270580724931099, "train/adv_max": 0.48261431069441246, "train/adv_mean": 0.002109674959337752, "train/adv_min": -0.3838278500127121, "train/adv_std": 0.051379210879685173, "train/cont_avg": 0.994291923415493, "train/cont_loss_mean": 5.504314835296638e-05, "train/cont_loss_std": 0.0016798473203831672, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0023308074705966366, "train/cont_pos_acc": 0.999986104562249, "train/cont_pos_loss": 4.61492787095062e-05, "train/cont_pred": 0.9942703473735863, "train/cont_rate": 0.994291923415493, "train/dyn_loss_mean": 4.8629918770051335, "train/dyn_loss_std": 8.653755073816004, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0840507325991777, "train/extr_critic_critic_opt_grad_steps": 192560.0, "train/extr_critic_critic_opt_loss": 16219.543395136443, "train/extr_critic_mag": 10.25865916131248, "train/extr_critic_max": 10.25865916131248, "train/extr_critic_mean": 2.649408417688289, "train/extr_critic_min": -0.5483065054450237, "train/extr_critic_std": 2.464204172013511, "train/extr_return_normed_mag": 1.5232098555900682, "train/extr_return_normed_max": 1.5232098555900682, "train/extr_return_normed_mean": 0.3828748972483084, "train/extr_return_normed_min": -0.09774401159563535, "train/extr_return_normed_std": 0.340068410819685, "train/extr_return_rate": 0.7403050216150956, "train/extr_return_raw_mag": 11.042112780288912, "train/extr_return_raw_max": 11.042112780288912, "train/extr_return_raw_mean": 2.6649212098457444, "train/extr_return_raw_min": -0.8648635350482564, "train/extr_return_raw_std": 2.4980717947785283, "train/extr_reward_mag": 1.042018175125122, "train/extr_reward_max": 1.042018175125122, "train/extr_reward_mean": 0.05008025923875016, "train/extr_reward_min": -0.6559642368639019, "train/extr_reward_std": 0.2172186099727389, "train/image_loss_mean": 2.9980009676704946, "train/image_loss_std": 7.946691566789654, "train/model_loss_mean": 5.965706509603581, "train/model_loss_std": 12.079270806111081, "train/model_opt_grad_norm": 31.468244283971654, "train/model_opt_grad_steps": 192407.0, "train/model_opt_loss": 14914.266230193662, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.54062304026644, "train/policy_entropy_max": 2.54062304026644, "train/policy_entropy_mean": 0.36818964191725556, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5056444242806502, "train/policy_logprob_mag": 7.438384223991717, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36914113604686627, "train/policy_logprob_min": -7.438384223991717, "train/policy_logprob_std": 0.9873546177232769, "train/policy_randomness_mag": 0.8967284409093185, "train/policy_randomness_max": 0.8967284409093185, "train/policy_randomness_mean": 0.1299547853184418, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.17847029298124178, "train/post_ent_mag": 54.75324125692878, "train/post_ent_max": 54.75324125692878, "train/post_ent_mean": 40.9459519184811, "train/post_ent_min": 18.76684136457846, "train/post_ent_std": 5.5174446643238335, "train/prior_ent_mag": 76.27268401669784, "train/prior_ent_max": 76.27268401669784, "train/prior_ent_mean": 45.827044903392526, "train/prior_ent_min": 27.92742680831694, "train/prior_ent_std": 7.282053920584665, "train/rep_loss_mean": 4.8629918770051335, "train/rep_loss_std": 8.653755073816004, "train/reward_avg": 0.03305732797254139, "train/reward_loss_mean": 0.04985534557154481, "train/reward_loss_std": 0.2050863078362505, "train/reward_max_data": 1.015492961440288, "train/reward_max_pred": 1.0181834529822982, "train/reward_neg_acc": 0.9953642999622184, "train/reward_neg_loss": 0.022843625186614588, "train/reward_pos_acc": 0.9868402867250039, "train/reward_pos_loss": 0.7353597711509382, "train/reward_pred": 0.032748187328098526, "train/reward_rate": 0.03797590228873239, "stats/sum_log_reward": 7.877777947319879, "stats/max_log_achievement_collect_coal": 0.5555555555555556, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_sapling": 1.5555555555555556, "stats/max_log_achievement_collect_stone": 6.222222222222222, "stats/max_log_achievement_collect_wood": 6.777777777777778, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.6666666666666666, "stats/max_log_achievement_place_furnace": 0.5555555555555556, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 2.4444444444444446, "stats/max_log_achievement_place_table": 1.6666666666666667, "stats/max_log_achievement_wake_up": 1.1111111111111112, "stats/mean_log_entropy": 0.2899187323119905, "replay/size": 386858.0, "replay/inserts": 1404.0, "replay/samples": 11232.0, "replay/insert_wait_avg": 3.878377441667084e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2227442869094022e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0479431152344, "timer/env.step_count": 1404.0, "timer/env.step_total": 22.23581886291504, "timer/env.step_frac": 0.07410755305319758, "timer/env.step_avg": 0.01583747782258906, "timer/env.step_min": 0.0029790401458740234, "timer/env.step_max": 1.7767293453216553, "timer/replay.add_count": 1404.0, "timer/replay.add_total": 0.281299352645874, "timer/replay.add_frac": 0.0009375146842377789, "timer/replay.add_avg": 0.00020035566427768805, "timer/replay.add_min": 7.605552673339844e-05, "timer/replay.add_max": 0.005705118179321289, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029801368713378906, "timer/logger.write_frac": 9.932202302061305e-05, "timer/logger.write_avg": 0.029801368713378906, "timer/logger.write_min": 0.029801368713378906, "timer/logger.write_max": 0.029801368713378906, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002124309539794922, "timer/checkpoint.save_frac": 7.079900357720746e-07, "timer/checkpoint.save_avg": 0.0002124309539794922, "timer/checkpoint.save_min": 0.0002124309539794922, "timer/checkpoint.save_max": 0.0002124309539794922, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.5834689140319824, "timer/agent.save_frac": 0.005277386332303055, "timer/agent.save_avg": 1.5834689140319824, "timer/agent.save_min": 1.5834689140319824, "timer/agent.save_max": 1.5834689140319824, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.031990051269531e-05, "timer/replay.save_frac": 2.0103420768836685e-07, "timer/replay.save_avg": 6.031990051269531e-05, "timer/replay.save_min": 6.031990051269531e-05, "timer/replay.save_max": 6.031990051269531e-05, "timer/agent.policy_count": 1404.0, "timer/agent.policy_total": 14.926585674285889, "timer/agent.policy_frac": 0.049747335440167594, "timer/agent.policy_avg": 0.010631471277981402, "timer/agent.policy_min": 0.00561213493347168, "timer/agent.policy_max": 2.817143440246582, "timer/dataset_count": 702.0, "timer/dataset_total": 0.06565332412719727, "timer/dataset_frac": 0.00021880944573575328, "timer/dataset_avg": 9.352325374244625e-05, "timer/dataset_min": 6.818771362304688e-05, "timer/dataset_max": 0.00021409988403320312, "timer/agent.train_count": 702.0, "timer/agent.train_total": 261.8116865158081, "timer/agent.train_frac": 0.8725661765835151, "timer/agent.train_avg": 0.372951120392889, "timer/agent.train_min": 0.3661353588104248, "timer/agent.train_max": 0.4422605037689209, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.220383882522583, "timer/agent.report_frac": 0.0007344955617240938, "timer/agent.report_avg": 0.220383882522583, "timer/agent.report_min": 0.220383882522583, "timer/agent.report_max": 0.220383882522583, "fps": 4.6791856419699025}
{"step": 387078, "episode/length": 192.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 12.899999991059303, "episode/reward_rate": 0.06735751295336788}
{"step": 387278, "episode/length": 199.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.06}
{"step": 387526, "episode/length": 247.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.04435483870967742}
{"step": 387585, "episode/length": 58.0, "episode/score": 3.0999999716877937, "episode/sum_abs_reward": 5.1000000312924385, "episode/reward_rate": 0.0847457627118644}
{"step": 387765, "episode/length": 179.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06666666666666667}
{"step": 387921, "episode/length": 155.0, "episode/score": 7.100000023841858, "episode/sum_abs_reward": 8.899999976158142, "episode/reward_rate": 0.057692307692307696}
{"step": 388088, "episode/length": 166.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.05389221556886228}
{"step": 388179, "episode/length": 90.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.500000044703484, "episode/reward_rate": 0.08791208791208792}
{"step": 388357, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.60393427459287, "train/action_min": 0.0, "train/action_std": 3.4800041964356327, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0464839626785735, "train/actor_opt_grad_steps": 193270.0, "train/actor_opt_loss": -11.491391218044388, "train/adv_mag": 0.5600650008295623, "train/adv_max": 0.4867700565029198, "train/adv_mean": 0.002970070843832833, "train/adv_min": -0.47066302618510286, "train/adv_std": 0.052167788882490615, "train/cont_avg": 0.9946770466549296, "train/cont_loss_mean": 9.350336810698568e-05, "train/cont_loss_std": 0.002892469101579094, "train/cont_neg_acc": 0.9979879285248232, "train/cont_neg_loss": 0.002055735612820697, "train/cont_pos_acc": 0.9999861599693836, "train/cont_pos_loss": 7.986806471869456e-05, "train/cont_pred": 0.9946712095972517, "train/cont_rate": 0.9946770466549296, "train/dyn_loss_mean": 4.872110900744586, "train/dyn_loss_std": 8.651669119445371, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1149726325357463, "train/extr_critic_critic_opt_grad_steps": 193270.0, "train/extr_critic_critic_opt_loss": 16106.954211597711, "train/extr_critic_mag": 10.524269748741473, "train/extr_critic_max": 10.524269748741473, "train/extr_critic_mean": 2.585171304957967, "train/extr_critic_min": -0.5310643793831409, "train/extr_critic_std": 2.413228751907886, "train/extr_return_normed_mag": 1.5704562697612063, "train/extr_return_normed_max": 1.5704562697612063, "train/extr_return_normed_mean": 0.3791891793969651, "train/extr_return_normed_min": -0.09910675872799377, "train/extr_return_normed_std": 0.33724922865209445, "train/extr_return_rate": 0.7510591258465404, "train/extr_return_raw_mag": 11.243087687962491, "train/extr_return_raw_max": 11.243087687962491, "train/extr_return_raw_mean": 2.606732358395214, "train/extr_return_raw_min": -0.8615671270330187, "train/extr_return_raw_std": 2.4457811973464323, "train/extr_reward_mag": 1.0463542803912096, "train/extr_reward_max": 1.0463542803912096, "train/extr_reward_mean": 0.04813957314046336, "train/extr_reward_min": -0.6595794247909331, "train/extr_reward_std": 0.21337972812249628, "train/image_loss_mean": 2.9863673515722784, "train/image_loss_std": 7.528130773087622, "train/model_loss_mean": 5.957823810443072, "train/model_loss_std": 11.654912948608398, "train/model_opt_grad_norm": 31.169109048977703, "train/model_opt_grad_steps": 193116.39436619717, "train/model_opt_loss": 14894.559542803698, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2535.211267605634, "train/policy_entropy_mag": 2.5449710664614824, "train/policy_entropy_max": 2.5449710664614824, "train/policy_entropy_mean": 0.3892743079595163, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5223905956241447, "train/policy_logprob_mag": 7.438384230707733, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3897706832684262, "train/policy_logprob_min": -7.438384230707733, "train/policy_logprob_std": 0.9996110116931755, "train/policy_randomness_mag": 0.8982631035254035, "train/policy_randomness_max": 0.8982631035254035, "train/policy_randomness_mean": 0.13739674664299253, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18438095735832, "train/post_ent_mag": 54.53187330004195, "train/post_ent_max": 54.53187330004195, "train/post_ent_mean": 40.9190932797714, "train/post_ent_min": 18.89226848978392, "train/post_ent_std": 5.486439610870791, "train/prior_ent_mag": 76.30376874896842, "train/prior_ent_max": 76.30376874896842, "train/prior_ent_mean": 45.75997484234017, "train/prior_ent_min": 27.694582012337698, "train/prior_ent_std": 7.245704462830449, "train/rep_loss_mean": 4.872110900744586, "train/rep_loss_std": 8.651669119445371, "train/reward_avg": 0.03036834248407206, "train/reward_loss_mean": 0.048096411349907726, "train/reward_loss_std": 0.20031775282302372, "train/reward_max_data": 1.0239436676804448, "train/reward_max_pred": 1.0200053201594823, "train/reward_neg_acc": 0.9945795410115954, "train/reward_neg_loss": 0.02333640740712134, "train/reward_pos_acc": 0.9896272748288973, "train/reward_pos_loss": 0.7259826349540496, "train/reward_pred": 0.030278083264932667, "train/reward_rate": 0.035211267605633804, "stats/sum_log_reward": 8.600000262260437, "stats/max_log_achievement_collect_coal": 0.625, "stats/max_log_achievement_collect_drink": 3.125, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 7.0, "stats/max_log_achievement_collect_wood": 8.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.375, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 2.5, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.3224284779280424, "replay/size": 388294.0, "replay/inserts": 1436.0, "replay/samples": 11488.0, "replay/insert_wait_avg": 3.860023360398486e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2140088094642236e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0211970806122, "timer/env.step_count": 1436.0, "timer/env.step_total": 20.427063703536987, "timer/env.step_frac": 0.06808540163929976, "timer/env.step_avg": 0.014224974723911552, "timer/env.step_min": 0.002981901168823242, "timer/env.step_max": 1.781891107559204, "timer/replay.add_count": 1436.0, "timer/replay.add_total": 0.28584742546081543, "timer/replay.add_frac": 0.000952757432615708, "timer/replay.add_avg": 0.00019905809572480184, "timer/replay.add_min": 7.62939453125e-05, "timer/replay.add_max": 0.004758596420288086, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029882431030273438, "timer/logger.write_frac": 9.960106592816633e-05, "timer/logger.write_avg": 0.029882431030273438, "timer/logger.write_min": 0.029882431030273438, "timer/logger.write_max": 0.029882431030273438, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1436.0, "timer/agent.policy_total": 10.795929908752441, "timer/agent.policy_frac": 0.03598389051774799, "timer/agent.policy_avg": 0.007518057039521199, "timer/agent.policy_min": 0.0057163238525390625, "timer/agent.policy_max": 0.01756882667541504, "timer/dataset_count": 718.0, "timer/dataset_total": 0.06674075126647949, "timer/dataset_frac": 0.000222453453009012, "timer/dataset_avg": 9.295369257169845e-05, "timer/dataset_min": 7.200241088867188e-05, "timer/dataset_max": 0.00019216537475585938, "timer/agent.train_count": 718.0, "timer/agent.train_total": 267.7026879787445, "timer/agent.train_frac": 0.8922792475453524, "timer/agent.train_avg": 0.3728449693297277, "timer/agent.train_min": 0.36617112159729004, "timer/agent.train_max": 0.3871574401855469, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22534561157226562, "timer/agent.report_frac": 0.0007510989682229616, "timer/agent.report_avg": 0.22534561157226562, "timer/agent.report_min": 0.22534561157226562, "timer/agent.report_max": 0.22534561157226562, "fps": 4.7862564143345265}
{"step": 388364, "episode/length": 184.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 12.900000050663948, "episode/reward_rate": 0.06486486486486487}
{"step": 388571, "episode/length": 206.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.05314009661835749}
{"step": 388712, "episode/length": 140.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.07801418439716312}
{"step": 388935, "episode/length": 222.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.04932735426008968}
{"step": 389148, "episode/length": 212.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 11.899999991059303, "episode/reward_rate": 0.056338028169014086}
{"step": 389314, "episode/length": 165.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.04819277108433735}
{"step": 389518, "episode/length": 203.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.300000041723251, "episode/reward_rate": 0.05392156862745098}
{"step": 389661, "episode/length": 142.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.027972027972027972}
{"step": 389791, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.548207600911458, "train/action_min": 0.0, "train/action_std": 3.331751071744495, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04479809043308099, "train/actor_opt_grad_steps": 193985.0, "train/actor_opt_loss": -13.433623284515408, "train/adv_mag": 0.48449093517329955, "train/adv_max": 0.4508826740913921, "train/adv_mean": 0.001751025713461887, "train/adv_min": -0.3993005390382475, "train/adv_std": 0.050748076393372483, "train/cont_avg": 0.9940999348958334, "train/cont_loss_mean": 0.0001529218637238551, "train/cont_loss_std": 0.004710266989661704, "train/cont_neg_acc": 0.9954861112766795, "train/cont_neg_loss": 0.028053376046336273, "train/cont_pos_acc": 0.9999999809596274, "train/cont_pos_loss": 1.1726655969823696e-05, "train/cont_pred": 0.9941097928418053, "train/cont_rate": 0.9940999348958334, "train/dyn_loss_mean": 4.914060013161765, "train/dyn_loss_std": 8.646366516749064, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0320350295967526, "train/extr_critic_critic_opt_grad_steps": 193985.0, "train/extr_critic_critic_opt_loss": 15918.995727539062, "train/extr_critic_mag": 10.088411370913187, "train/extr_critic_max": 10.088411370913187, "train/extr_critic_mean": 2.6296600848436356, "train/extr_critic_min": -0.5330312367942598, "train/extr_critic_std": 2.4097927229271994, "train/extr_return_normed_mag": 1.4974311292171478, "train/extr_return_normed_max": 1.4974311292171478, "train/extr_return_normed_mean": 0.38615454195274246, "train/extr_return_normed_min": -0.09406738955941465, "train/extr_return_normed_std": 0.3359637933058871, "train/extr_return_rate": 0.7595857241087489, "train/extr_return_raw_mag": 10.71021130349901, "train/extr_return_raw_max": 10.71021130349901, "train/extr_return_raw_mean": 2.642381116747856, "train/extr_return_raw_min": -0.8439981229603291, "train/extr_return_raw_std": 2.438934965266122, "train/extr_reward_mag": 1.0354504850175645, "train/extr_reward_max": 1.0354504850175645, "train/extr_reward_mean": 0.04797710499001874, "train/extr_reward_min": -0.6724297089709176, "train/extr_reward_std": 0.21358982142474917, "train/image_loss_mean": 2.937087113658587, "train/image_loss_std": 7.821055471897125, "train/model_loss_mean": 5.935942875014411, "train/model_loss_std": 11.959469026989407, "train/model_opt_grad_norm": 31.333142585224575, "train/model_opt_grad_steps": 193830.79166666666, "train/model_opt_loss": 14839.857191297742, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.5532326334052615, "train/policy_entropy_max": 2.5532326334052615, "train/policy_entropy_mean": 0.3662445652816031, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5010660654968686, "train/policy_logprob_mag": 7.438384215037028, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3662615306675434, "train/policy_logprob_min": -7.438384215037028, "train/policy_logprob_std": 0.9806437566876411, "train/policy_randomness_mag": 0.9011790744132466, "train/policy_randomness_max": 0.9011790744132466, "train/policy_randomness_mean": 0.12926826098312935, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.17685433177070486, "train/post_ent_mag": 54.71065203348795, "train/post_ent_max": 54.71065203348795, "train/post_ent_mean": 40.833967473771835, "train/post_ent_min": 18.46358323097229, "train/post_ent_std": 5.539731707837847, "train/prior_ent_mag": 76.21171432071262, "train/prior_ent_max": 76.21171432071262, "train/prior_ent_mean": 45.73031531439887, "train/prior_ent_min": 28.05648159980774, "train/prior_ent_std": 7.307403239938948, "train/rep_loss_mean": 4.914060013161765, "train/rep_loss_std": 8.646366516749064, "train/reward_avg": 0.03283284462264015, "train/reward_loss_mean": 0.05026680510491133, "train/reward_loss_std": 0.20380921310020816, "train/reward_max_data": 1.013888892200258, "train/reward_max_pred": 1.012676055232684, "train/reward_neg_acc": 0.9944293830129836, "train/reward_neg_loss": 0.023079506690717407, "train/reward_pos_acc": 0.9875169744094213, "train/reward_pos_loss": 0.7396557248300977, "train/reward_pred": 0.03243038265241517, "train/reward_rate": 0.03797743055555555, "stats/sum_log_reward": 8.725000262260437, "stats/max_log_achievement_collect_coal": 0.125, "stats/max_log_achievement_collect_drink": 1.625, "stats/max_log_achievement_collect_sapling": 1.25, "stats/max_log_achievement_collect_stone": 10.5, "stats/max_log_achievement_collect_wood": 7.625, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.25, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 1.25, "stats/max_log_achievement_place_plant": 1.25, "stats/max_log_achievement_place_stone": 4.625, "stats/max_log_achievement_place_table": 2.375, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.33809105306863785, "replay/size": 389728.0, "replay/inserts": 1434.0, "replay/samples": 11472.0, "replay/insert_wait_avg": 3.8198513632206406e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2047910956325558e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1188781261444, "timer/env.step_count": 1434.0, "timer/env.step_total": 20.147138595581055, "timer/env.step_frac": 0.06713052748089014, "timer/env.step_avg": 0.014049608504589299, "timer/env.step_min": 0.002922534942626953, "timer/env.step_max": 1.7542808055877686, "timer/replay.add_count": 1434.0, "timer/replay.add_total": 0.3096480369567871, "timer/replay.add_frac": 0.001031751280992852, "timer/replay.add_avg": 0.0002159330801651235, "timer/replay.add_min": 7.748603820800781e-05, "timer/replay.add_max": 0.012259960174560547, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02894115447998047, "timer/logger.write_frac": 9.643230262848068e-05, "timer/logger.write_avg": 0.02894115447998047, "timer/logger.write_min": 0.02894115447998047, "timer/logger.write_max": 0.02894115447998047, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1434.0, "timer/agent.policy_total": 11.068936109542847, "timer/agent.policy_frac": 0.036881838885491264, "timer/agent.policy_avg": 0.007718923367882041, "timer/agent.policy_min": 0.0055768489837646484, "timer/agent.policy_max": 0.06302595138549805, "timer/dataset_count": 717.0, "timer/dataset_total": 0.06820034980773926, "timer/dataset_frac": 0.00022724445137727603, "timer/dataset_avg": 9.511903738875768e-05, "timer/dataset_min": 7.152557373046875e-05, "timer/dataset_max": 0.0004546642303466797, "timer/agent.train_count": 717.0, "timer/agent.train_total": 267.75845861434937, "timer/agent.train_frac": 0.8921746618745073, "timer/agent.train_avg": 0.37344275957370904, "timer/agent.train_min": 0.36292219161987305, "timer/agent.train_max": 0.4426584243774414, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22563576698303223, "timer/agent.report_frac": 0.0007518213062498326, "timer/agent.report_avg": 0.22563576698303223, "timer/agent.report_min": 0.22563576698303223, "timer/agent.report_max": 0.22563576698303223, "fps": 4.778028501707802}
{"step": 389833, "episode/length": 171.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.900000028312206, "episode/reward_rate": 0.046511627906976744}
{"step": 390007, "episode/length": 173.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.05747126436781609}
{"step": 390181, "episode/length": 173.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06896551724137931}
{"step": 390246, "episode/length": 64.0, "episode/score": 3.0999999791383743, "episode/sum_abs_reward": 5.30000002682209, "episode/reward_rate": 0.06153846153846154}
{"step": 390429, "episode/length": 182.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.060109289617486336}
{"step": 390599, "episode/length": 169.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.899999976158142, "episode/reward_rate": 0.07058823529411765}
{"step": 390807, "episode/length": 207.0, "episode/score": 11.099999994039536, "episode/sum_abs_reward": 13.700000017881393, "episode/reward_rate": 0.0625}
{"step": 391178, "episode/length": 370.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 11.700000047683716, "episode/reward_rate": 0.026954177897574125}
{"step": 391193, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.5551068987165175, "train/action_min": 0.0, "train/action_std": 3.3473321301596504, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.045216518587299755, "train/actor_opt_grad_steps": 194695.0, "train/actor_opt_loss": -11.510816013813018, "train/adv_mag": 0.43412271738052366, "train/adv_max": 0.3809660864727838, "train/adv_mean": 0.002779402220429412, "train/adv_min": -0.384982887336186, "train/adv_std": 0.05006746644420283, "train/cont_avg": 0.9945172991071428, "train/cont_loss_mean": 1.4986079191560617e-05, "train/cont_loss_std": 0.00025959984762786395, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 8.448947389427174e-05, "train/cont_pos_acc": 0.9999999821186065, "train/cont_pos_loss": 1.4642416625422682e-05, "train/cont_pred": 0.9945034188883645, "train/cont_rate": 0.9945172991071428, "train/dyn_loss_mean": 4.873889868600028, "train/dyn_loss_std": 8.576884882790702, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0710750545774188, "train/extr_critic_critic_opt_grad_steps": 194695.0, "train/extr_critic_critic_opt_loss": 16077.27134486607, "train/extr_critic_mag": 9.629340280805316, "train/extr_critic_max": 9.629340280805316, "train/extr_critic_mean": 2.554973232746124, "train/extr_critic_min": -0.556979935509818, "train/extr_critic_std": 2.349565511090415, "train/extr_return_normed_mag": 1.4389774015971593, "train/extr_return_normed_max": 1.4389774015971593, "train/extr_return_normed_mean": 0.3784188144973346, "train/extr_return_normed_min": -0.09407394469848701, "train/extr_return_normed_std": 0.3290034966809409, "train/extr_return_rate": 0.743409634062222, "train/extr_return_raw_mag": 10.273108877454485, "train/extr_return_raw_max": 10.273108877454485, "train/extr_return_raw_mean": 2.575167759827205, "train/extr_return_raw_min": -0.855323543718883, "train/extr_return_raw_std": 2.388401259694781, "train/extr_reward_mag": 1.0362047059195383, "train/extr_reward_max": 1.0362047059195383, "train/extr_reward_mean": 0.04868597915130002, "train/extr_reward_min": -0.6669547779219491, "train/extr_reward_std": 0.2139371265258108, "train/image_loss_mean": 2.8629533563341414, "train/image_loss_std": 7.762745210102627, "train/model_loss_mean": 5.837586225782122, "train/model_loss_std": 11.870129987171717, "train/model_opt_grad_norm": 31.545739269256593, "train/model_opt_grad_steps": 194540.0, "train/model_opt_loss": 14593.965541294643, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.549816884313311, "train/policy_entropy_max": 2.549816884313311, "train/policy_entropy_mean": 0.37930211829287663, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5179935446807317, "train/policy_logprob_mag": 7.4383841923304965, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37886786205427986, "train/policy_logprob_min": -7.4383841923304965, "train/policy_logprob_std": 0.9928845584392547, "train/policy_randomness_mag": 0.8999734648636409, "train/policy_randomness_max": 0.8999734648636409, "train/policy_randomness_mean": 0.13387700117060117, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1828289912215301, "train/post_ent_mag": 55.31835005623954, "train/post_ent_max": 55.31835005623954, "train/post_ent_mean": 40.77483400617327, "train/post_ent_min": 18.784797504970005, "train/post_ent_std": 5.575251000268119, "train/prior_ent_mag": 76.28422404697963, "train/prior_ent_max": 76.28422404697963, "train/prior_ent_mean": 45.63612343924386, "train/prior_ent_min": 27.358543150765556, "train/prior_ent_std": 7.330626848765782, "train/rep_loss_mean": 4.873889868600028, "train/rep_loss_std": 8.576884882790702, "train/reward_avg": 0.03334123867430857, "train/reward_loss_mean": 0.05028394529862063, "train/reward_loss_std": 0.20853320360183716, "train/reward_max_data": 1.014285717691694, "train/reward_max_pred": 1.0133722441537039, "train/reward_neg_acc": 0.9950552156993321, "train/reward_neg_loss": 0.022939495436315026, "train/reward_pos_acc": 0.9871773047106607, "train/reward_pos_loss": 0.7361563052449908, "train/reward_pred": 0.03290643636137247, "train/reward_rate": 0.03823939732142857, "stats/sum_log_reward": 8.850000143051147, "stats/max_log_achievement_collect_coal": 0.375, "stats/max_log_achievement_collect_drink": 2.625, "stats/max_log_achievement_collect_sapling": 1.125, "stats/max_log_achievement_collect_stone": 7.25, "stats/max_log_achievement_collect_wood": 10.625, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.125, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.125, "stats/max_log_achievement_make_wood_sword": 1.25, "stats/max_log_achievement_place_furnace": 1.125, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 2.5, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.34674547612667084, "replay/size": 391130.0, "replay/inserts": 1402.0, "replay/samples": 11216.0, "replay/insert_wait_avg": 3.927784537452774e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2599877726164421e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.05637669563293, "timer/env.step_count": 1402.0, "timer/env.step_total": 22.661264896392822, "timer/env.step_frac": 0.07552335713024905, "timer/env.step_avg": 0.01616352703023739, "timer/env.step_min": 0.0031638145446777344, "timer/env.step_max": 3.7872185707092285, "timer/replay.add_count": 1402.0, "timer/replay.add_total": 0.36834096908569336, "timer/replay.add_frac": 0.0012275725420070843, "timer/replay.add_avg": 0.0002627253702465716, "timer/replay.add_min": 7.176399230957031e-05, "timer/replay.add_max": 0.023386478424072266, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026672840118408203, "timer/logger.write_frac": 8.889276212737926e-05, "timer/logger.write_avg": 0.026672840118408203, "timer/logger.write_min": 0.026672840118408203, "timer/logger.write_max": 0.026672840118408203, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0001761913299560547, "timer/checkpoint.save_frac": 5.871940863125773e-07, "timer/checkpoint.save_avg": 0.0001761913299560547, "timer/checkpoint.save_min": 0.0001761913299560547, "timer/checkpoint.save_max": 0.0001761913299560547, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3530206680297852, "timer/agent.save_frac": 0.004509221510070568, "timer/agent.save_avg": 1.3530206680297852, "timer/agent.save_min": 1.3530206680297852, "timer/agent.save_max": 1.3530206680297852, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.0108642578125e-05, "timer/replay.save_frac": 2.6697863734915556e-07, "timer/replay.save_avg": 8.0108642578125e-05, "timer/replay.save_min": 8.0108642578125e-05, "timer/replay.save_max": 8.0108642578125e-05, "timer/agent.policy_count": 1402.0, "timer/agent.policy_total": 13.272811651229858, "timer/agent.policy_frac": 0.0442343928744209, "timer/agent.policy_avg": 0.009467055386041269, "timer/agent.policy_min": 0.005627632141113281, "timer/agent.policy_max": 1.3421437740325928, "timer/dataset_count": 701.0, "timer/dataset_total": 0.06811022758483887, "timer/dataset_frac": 0.0002269914351926191, "timer/dataset_avg": 9.716152294556187e-05, "timer/dataset_min": 7.033348083496094e-05, "timer/dataset_max": 0.0003886222839355469, "timer/agent.train_count": 701.0, "timer/agent.train_total": 262.9032824039459, "timer/agent.train_frac": 0.8761796209737817, "timer/agent.train_avg": 0.3750403457973551, "timer/agent.train_min": 0.36600756645202637, "timer/agent.train_max": 0.5789487361907959, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22196340560913086, "timer/agent.report_frac": 0.000739739005227951, "timer/agent.report_avg": 0.22196340560913086, "timer/agent.report_min": 0.22196340560913086, "timer/agent.report_max": 0.22196340560913086, "fps": 4.67237236929719}
{"step": 391361, "episode/length": 182.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.060109289617486336}
{"step": 391511, "episode/length": 149.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.06}
{"step": 391671, "episode/length": 159.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.06875}
{"step": 391905, "episode/length": 233.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.04700854700854701}
{"step": 392089, "episode/length": 183.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 14.099999994039536, "episode/reward_rate": 0.07065217391304347}
{"step": 392258, "episode/length": 168.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.07100591715976332}
{"step": 392285, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.613620827414772, "train/action_min": 0.0, "train/action_std": 3.456151164661754, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04360017884861339, "train/actor_opt_grad_steps": 195320.0, "train/actor_opt_loss": -13.522872918302363, "train/adv_mag": 0.44614100456237793, "train/adv_max": 0.41924940618601714, "train/adv_mean": 0.0011448048358777834, "train/adv_min": -0.36108755496415224, "train/adv_std": 0.048185391791842204, "train/cont_avg": 0.9945667613636363, "train/cont_loss_mean": 4.867427819952106e-05, "train/cont_loss_std": 0.001464292989498972, "train/cont_neg_acc": 0.9969696976921775, "train/cont_neg_loss": 0.006418334102533084, "train/cont_pos_acc": 0.9999999804930253, "train/cont_pos_loss": 9.449060592394496e-06, "train/cont_pred": 0.9945824872363698, "train/cont_rate": 0.9945667613636363, "train/dyn_loss_mean": 4.803084802627564, "train/dyn_loss_std": 8.564716313102029, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0755145246332343, "train/extr_critic_critic_opt_grad_steps": 195320.0, "train/extr_critic_critic_opt_loss": 16054.947318892046, "train/extr_critic_mag": 9.909367613358931, "train/extr_critic_max": 9.909367613358931, "train/extr_critic_mean": 2.5160426573319867, "train/extr_critic_min": -0.5710578246550126, "train/extr_critic_std": 2.4127161264419557, "train/extr_return_normed_mag": 1.4625370784239335, "train/extr_return_normed_max": 1.4625370784239335, "train/extr_return_normed_mean": 0.3678210274739699, "train/extr_return_normed_min": -0.08920202729376879, "train/extr_return_normed_std": 0.3310695458542217, "train/extr_return_rate": 0.734153687953949, "train/extr_return_raw_mag": 10.602430187572132, "train/extr_return_raw_max": 10.602430187572132, "train/extr_return_raw_mean": 2.524482922120528, "train/extr_return_raw_min": -0.8478315288370306, "train/extr_return_raw_std": 2.4430784225463866, "train/extr_reward_mag": 1.0465317422693425, "train/extr_reward_max": 1.0465317422693425, "train/extr_reward_mean": 0.04576887017623945, "train/extr_reward_min": -0.6452056668021462, "train/extr_reward_std": 0.20867605426094749, "train/image_loss_mean": 2.8656973470341076, "train/image_loss_std": 7.367746448516845, "train/model_loss_mean": 5.795533769780939, "train/model_loss_std": 11.51504003351385, "train/model_opt_grad_norm": 30.297781042619185, "train/model_opt_grad_steps": 195164.21818181817, "train/model_opt_loss": 8817.728471235796, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1522.7272727272727, "train/policy_entropy_mag": 2.5448845169760963, "train/policy_entropy_max": 2.5448845169760963, "train/policy_entropy_mean": 0.386885279417038, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5233689226887442, "train/policy_logprob_mag": 7.438384281505238, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3868004590272903, "train/policy_logprob_min": -7.438384281505238, "train/policy_logprob_std": 1.0007924470034513, "train/policy_randomness_mag": 0.8982325499708003, "train/policy_randomness_max": 0.8982325499708003, "train/policy_randomness_mean": 0.1365535242991014, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1847262608734044, "train/post_ent_mag": 55.05559109774503, "train/post_ent_max": 55.05559109774503, "train/post_ent_mean": 41.004642347856, "train/post_ent_min": 18.70875885703347, "train/post_ent_std": 5.525552203438499, "train/prior_ent_mag": 76.26941528320313, "train/prior_ent_max": 76.26941528320313, "train/prior_ent_mean": 45.79421476884322, "train/prior_ent_min": 28.99352316422896, "train/prior_ent_std": 7.287760777906938, "train/rep_loss_mean": 4.803084802627564, "train/rep_loss_std": 8.564716313102029, "train/reward_avg": 0.03138139175081795, "train/reward_loss_mean": 0.047936849025162785, "train/reward_loss_std": 0.1989204916087064, "train/reward_max_data": 1.0200000047683715, "train/reward_max_pred": 1.0224307537078858, "train/reward_neg_acc": 0.9950832757082853, "train/reward_neg_loss": 0.02207623396746137, "train/reward_pos_acc": 0.9873119202527133, "train/reward_pos_loss": 0.737124730240215, "train/reward_pred": 0.03111050618304448, "train/reward_rate": 0.036328125, "stats/sum_log_reward": 9.93333371480306, "stats/max_log_achievement_collect_coal": 0.16666666666666666, "stats/max_log_achievement_collect_drink": 1.6666666666666667, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 9.333333333333334, "stats/max_log_achievement_collect_wood": 11.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_wood_sword": 1.5, "stats/max_log_achievement_place_furnace": 0.8333333333333334, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 3.5, "stats/max_log_achievement_place_table": 3.1666666666666665, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.3530599921941757, "replay/size": 392222.0, "replay/inserts": 1092.0, "replay/samples": 8736.0, "replay/insert_wait_avg": 4.0149077391013124e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.1604347508468906e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1318883895874, "timer/env.step_count": 1092.0, "timer/env.step_total": 19.44050884246826, "timer/env.step_frac": 0.06477322002263695, "timer/env.step_avg": 0.017802663775154087, "timer/env.step_min": 0.003153085708618164, "timer/env.step_max": 1.6800487041473389, "timer/replay.add_count": 1092.0, "timer/replay.add_total": 0.4581122398376465, "timer/replay.add_frac": 0.0015263697646249173, "timer/replay.add_avg": 0.0004195167031480279, "timer/replay.add_min": 7.295608520507812e-05, "timer/replay.add_max": 0.01543426513671875, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030499935150146484, "timer/logger.write_frac": 0.00010162177472643601, "timer/logger.write_avg": 0.030499935150146484, "timer/logger.write_min": 0.030499935150146484, "timer/logger.write_max": 0.030499935150146484, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1092.0, "timer/agent.policy_total": 52.858187198638916, "timer/agent.policy_frac": 0.1761165315763653, "timer/agent.policy_avg": 0.04840493333208692, "timer/agent.policy_min": 0.005707740783691406, "timer/agent.policy_max": 15.901424169540405, "timer/dataset_count": 546.0, "timer/dataset_total": 0.05940866470336914, "timer/dataset_frac": 0.00019794186156671726, "timer/dataset_avg": 0.0001088070782112988, "timer/dataset_min": 7.152557373046875e-05, "timer/dataset_max": 0.002996683120727539, "timer/agent.train_count": 546.0, "timer/agent.train_total": 226.52074599266052, "timer/agent.train_frac": 0.7547373496635065, "timer/agent.train_avg": 0.4148731611587189, "timer/agent.train_min": 0.3624286651611328, "timer/agent.train_max": 8.1928870677948, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.24782919883728027, "timer/agent.report_frac": 0.0008257343135614587, "timer/agent.report_avg": 0.24782919883728027, "timer/agent.report_min": 0.24782919883728027, "timer/agent.report_max": 0.24782919883728027, "fps": 3.6383332772088197}
{"step": 392453, "episode/length": 194.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.035897435897435895}
{"step": 392750, "episode/length": 296.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 15.300000049173832, "episode/reward_rate": 0.04377104377104377}
{"step": 392875, "episode/length": 124.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.700000002980232, "episode/reward_rate": 0.08}
{"step": 392966, "episode/length": 90.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.0989010989010989}
{"step": 393124, "episode/length": 157.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.899999976158142, "episode/reward_rate": 0.0759493670886076}
{"step": 393386, "episode/length": 261.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.04580152671755725}
{"step": 393446, "episode/length": 59.0, "episode/score": 4.099999971687794, "episode/sum_abs_reward": 6.1000000312924385, "episode/reward_rate": 0.1}
{"step": 393589, "episode/length": 142.0, "episode/score": 8.100000068545341, "episode/sum_abs_reward": 10.300000056624413, "episode/reward_rate": 0.06993006993006994}
{"step": 393723, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.594800313313802, "train/action_min": 0.0, "train/action_std": 3.370401246680154, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04518880405359798, "train/actor_opt_grad_steps": 195955.0, "train/actor_opt_loss": -12.960052228636211, "train/adv_mag": 0.434255688968632, "train/adv_max": 0.40149037953880096, "train/adv_mean": 0.0024797295350759262, "train/adv_min": -0.36233944197495777, "train/adv_std": 0.05076533504244354, "train/cont_avg": 0.9946153428819444, "train/cont_loss_mean": 4.206879893242643e-05, "train/cont_loss_std": 0.0012940611201565212, "train/cont_neg_acc": 0.9972222223877907, "train/cont_neg_loss": 0.004492819467303535, "train/cont_pos_acc": 0.9999863497085042, "train/cont_pos_loss": 1.9865820643271013e-05, "train/cont_pred": 0.9946135125226445, "train/cont_rate": 0.9946153428819444, "train/dyn_loss_mean": 4.871426482995351, "train/dyn_loss_std": 8.618379957146114, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.058018506401115, "train/extr_critic_critic_opt_grad_steps": 195955.0, "train/extr_critic_critic_opt_loss": 16191.92027452257, "train/extr_critic_mag": 9.712806754642063, "train/extr_critic_max": 9.712806754642063, "train/extr_critic_mean": 2.5876579682032266, "train/extr_critic_min": -0.5640711817476485, "train/extr_critic_std": 2.3547273841169147, "train/extr_return_normed_mag": 1.427313130762842, "train/extr_return_normed_max": 1.427313130762842, "train/extr_return_normed_mean": 0.37731658418973285, "train/extr_return_normed_min": -0.09280538890096876, "train/extr_return_normed_std": 0.3227390373746554, "train/extr_return_rate": 0.7604275552762879, "train/extr_return_raw_mag": 10.378954105907017, "train/extr_return_raw_max": 10.378954105907017, "train/extr_return_raw_mean": 2.6059879014889398, "train/extr_return_raw_min": -0.8746712762448523, "train/extr_return_raw_std": 2.3892042537530265, "train/extr_reward_mag": 1.0454786088731554, "train/extr_reward_max": 1.0454786088731554, "train/extr_reward_mean": 0.049853980282528534, "train/extr_reward_min": -0.6864231642749574, "train/extr_reward_std": 0.216850523940391, "train/image_loss_mean": 2.9065741300582886, "train/image_loss_std": 7.894231140613556, "train/model_loss_mean": 5.877529988686244, "train/model_loss_std": 11.996383561028374, "train/model_opt_grad_norm": 30.580906907717388, "train/model_opt_grad_steps": 195799.0, "train/model_opt_loss": 8887.641330295139, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1510.4166666666667, "train/policy_entropy_mag": 2.533933791849348, "train/policy_entropy_max": 2.533933791849348, "train/policy_entropy_mean": 0.3733123545017507, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5113051301903195, "train/policy_logprob_mag": 7.438384234905243, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3734929950700866, "train/policy_logprob_min": -7.438384234905243, "train/policy_logprob_std": 0.9897408940725856, "train/policy_randomness_mag": 0.8943674332565732, "train/policy_randomness_max": 0.8943674332565732, "train/policy_randomness_mean": 0.13176287938323286, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18046827179690203, "train/post_ent_mag": 54.49015257093642, "train/post_ent_max": 54.49015257093642, "train/post_ent_mean": 40.727835761176216, "train/post_ent_min": 18.778070913420784, "train/post_ent_std": 5.475844045480092, "train/prior_ent_mag": 76.33098549313016, "train/prior_ent_max": 76.33098549313016, "train/prior_ent_mean": 45.59388732910156, "train/prior_ent_min": 28.10975636376275, "train/prior_ent_std": 7.250622020827399, "train/rep_loss_mean": 4.871426482995351, "train/rep_loss_std": 8.618379957146114, "train/reward_avg": 0.031979708880600005, "train/reward_loss_mean": 0.04805791569459769, "train/reward_loss_std": 0.20201509156160885, "train/reward_max_data": 1.027777784400516, "train/reward_max_pred": 1.0244451546006732, "train/reward_neg_acc": 0.9954075333144929, "train/reward_neg_loss": 0.02145600515521235, "train/reward_pos_acc": 0.9844882960120837, "train/reward_pos_loss": 0.741911332640383, "train/reward_pred": 0.03162912015492717, "train/reward_rate": 0.036905924479166664, "stats/sum_log_reward": 8.349999904632568, "stats/max_log_achievement_collect_coal": 0.375, "stats/max_log_achievement_collect_drink": 3.625, "stats/max_log_achievement_collect_sapling": 1.375, "stats/max_log_achievement_collect_stone": 7.625, "stats/max_log_achievement_collect_wood": 6.625, "stats/max_log_achievement_defeat_skeleton": 0.25, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.875, "stats/max_log_achievement_make_wood_sword": 0.5, "stats/max_log_achievement_place_furnace": 0.875, "stats/max_log_achievement_place_plant": 1.375, "stats/max_log_achievement_place_stone": 3.375, "stats/max_log_achievement_place_table": 1.875, "stats/max_log_achievement_wake_up": 1.375, "stats/mean_log_entropy": 0.36063444428145885, "replay/size": 393660.0, "replay/inserts": 1438.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.797951593518423e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2353663650109472e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1802887916565, "timer/env.step_count": 1438.0, "timer/env.step_total": 20.117198944091797, "timer/env.step_frac": 0.06701705506737775, "timer/env.step_avg": 0.013989707193387898, "timer/env.step_min": 0.0029456615447998047, "timer/env.step_max": 1.6489007472991943, "timer/replay.add_count": 1438.0, "timer/replay.add_total": 0.28109097480773926, "timer/replay.add_frac": 0.0009364071703016903, "timer/replay.add_avg": 0.00019547355688994384, "timer/replay.add_min": 7.939338684082031e-05, "timer/replay.add_max": 0.005229473114013672, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.04739856719970703, "timer/logger.write_frac": 0.00015790033179894947, "timer/logger.write_avg": 0.04739856719970703, "timer/logger.write_min": 0.04739856719970703, "timer/logger.write_max": 0.04739856719970703, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1438.0, "timer/agent.policy_total": 10.760332822799683, "timer/agent.policy_frac": 0.03584623382872422, "timer/agent.policy_avg": 0.007482846191098527, "timer/agent.policy_min": 0.00566554069519043, "timer/agent.policy_max": 0.027437925338745117, "timer/dataset_count": 719.0, "timer/dataset_total": 0.06868958473205566, "timer/dataset_frac": 0.00022882776550238595, "timer/dataset_avg": 9.553488836169077e-05, "timer/dataset_min": 6.937980651855469e-05, "timer/dataset_max": 0.00033211708068847656, "timer/agent.train_count": 719.0, "timer/agent.train_total": 268.20573687553406, "timer/agent.train_frac": 0.8934821735136822, "timer/agent.train_avg": 0.37302605963217533, "timer/agent.train_min": 0.3658578395843506, "timer/agent.train_max": 0.3862593173980713, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22178435325622559, "timer/agent.report_frac": 0.000738837163988997, "timer/agent.report_avg": 0.22178435325622559, "timer/agent.report_min": 0.22178435325622559, "timer/agent.report_max": 0.22178435325622559, "fps": 4.790407836733789}
{"step": 393773, "episode/length": 183.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.043478260869565216}
{"step": 393833, "episode/length": 59.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.11666666666666667}
{"step": 394152, "episode/length": 318.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.03761755485893417}
{"step": 394352, "episode/length": 199.0, "episode/score": 12.099999971687794, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.07}
{"step": 394605, "episode/length": 252.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.30000003427267, "episode/reward_rate": 0.043478260869565216}
{"step": 394782, "episode/length": 176.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.05084745762711865}
{"step": 394984, "episode/length": 201.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.099999994039536, "episode/reward_rate": 0.0594059405940594}
{"step": 395135, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.564837646484375, "train/action_min": 0.0, "train/action_std": 3.371036580630711, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.044827176683715414, "train/actor_opt_grad_steps": 196665.0, "train/actor_opt_loss": -12.490113603643008, "train/adv_mag": 0.44263455995491574, "train/adv_max": 0.3973908007144928, "train/adv_mean": 0.0023125244223462815, "train/adv_min": -0.38004920205899645, "train/adv_std": 0.05027163757809571, "train/cont_avg": 0.9942661830357142, "train/cont_loss_mean": 0.00011529600998585465, "train/cont_loss_std": 0.0035110324580240816, "train/cont_neg_acc": 0.9982142857142857, "train/cont_neg_loss": 0.007967948412338695, "train/cont_pos_acc": 0.9999719449451991, "train/cont_pos_loss": 5.500230494947443e-05, "train/cont_pred": 0.9942470669746399, "train/cont_rate": 0.9942661830357142, "train/dyn_loss_mean": 4.899956744057792, "train/dyn_loss_std": 8.720402956008911, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1072112211159297, "train/extr_critic_critic_opt_grad_steps": 196665.0, "train/extr_critic_critic_opt_loss": 16353.499567522322, "train/extr_critic_mag": 9.649023737226214, "train/extr_critic_max": 9.649023737226214, "train/extr_critic_mean": 2.405186075823648, "train/extr_critic_min": -0.5533673865454537, "train/extr_critic_std": 2.3629552040781294, "train/extr_return_normed_mag": 1.4309694017682757, "train/extr_return_normed_max": 1.4309694017682757, "train/extr_return_normed_mean": 0.3523139744997025, "train/extr_return_normed_min": -0.09504479036799499, "train/extr_return_normed_std": 0.32388373485633304, "train/extr_return_rate": 0.7162016753639494, "train/extr_return_raw_mag": 10.406851550510952, "train/extr_return_raw_max": 10.406851550510952, "train/extr_return_raw_mean": 2.4223027655056546, "train/extr_return_raw_min": -0.889270794391632, "train/extr_return_raw_std": 2.397390505245754, "train/extr_reward_mag": 1.0440452984401158, "train/extr_reward_max": 1.0440452984401158, "train/extr_reward_mean": 0.04655531368085316, "train/extr_reward_min": -0.6466063584600176, "train/extr_reward_std": 0.21080864540168218, "train/image_loss_mean": 3.1000287907464164, "train/image_loss_std": 8.05729662350246, "train/model_loss_mean": 6.089710991723197, "train/model_loss_std": 12.225279590061733, "train/model_opt_grad_norm": 31.685806478772843, "train/model_opt_grad_steps": 196509.0, "train/model_opt_loss": 15224.277469308036, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.5619937283652168, "train/policy_entropy_max": 2.5619937283652168, "train/policy_entropy_mean": 0.3889791258743831, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5265773794480733, "train/policy_logprob_mag": 7.438384219578334, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3894512121166502, "train/policy_logprob_min": -7.438384219578334, "train/policy_logprob_std": 1.0007378697395324, "train/policy_randomness_mag": 0.904271354845592, "train/policy_randomness_max": 0.904271354845592, "train/policy_randomness_mean": 0.13729256434100015, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18585870862007142, "train/post_ent_mag": 55.159208461216515, "train/post_ent_max": 55.159208461216515, "train/post_ent_mean": 41.002057157244, "train/post_ent_min": 18.95365586962019, "train/post_ent_std": 5.610262673241752, "train/prior_ent_mag": 76.30350843157088, "train/prior_ent_max": 76.30350843157088, "train/prior_ent_mean": 45.868824114118304, "train/prior_ent_min": 28.12428185599191, "train/prior_ent_std": 7.323702314921788, "train/rep_loss_mean": 4.899956744057792, "train/rep_loss_std": 8.720402956008911, "train/reward_avg": 0.031590401487691065, "train/reward_loss_mean": 0.049592834977166995, "train/reward_loss_std": 0.20112276204994747, "train/reward_max_data": 1.0171428612300328, "train/reward_max_pred": 1.0153964638710022, "train/reward_neg_acc": 0.9946844117982047, "train/reward_neg_loss": 0.023973960283079316, "train/reward_pos_acc": 0.9918424946921213, "train/reward_pos_loss": 0.7196544528007507, "train/reward_pred": 0.0313824700191617, "train/reward_rate": 0.036830357142857144, "stats/sum_log_reward": 9.242857388087682, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 12.0, "stats/max_log_achievement_collect_wood": 7.857142857142857, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.42857142857142855, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.8571428571428572, "stats/max_log_achievement_place_plant": 1.7142857142857142, "stats/max_log_achievement_place_stone": 3.5714285714285716, "stats/max_log_achievement_place_table": 2.142857142857143, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.3538968286343983, "replay/size": 395072.0, "replay/inserts": 1412.0, "replay/samples": 11296.0, "replay/insert_wait_avg": 4.680568705874867e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2315830833175702e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0616993904114, "timer/env.step_count": 1412.0, "timer/env.step_total": 19.53535556793213, "timer/env.step_frac": 0.06510446220766952, "timer/env.step_avg": 0.013835237654342868, "timer/env.step_min": 0.0027761459350585938, "timer/env.step_max": 1.7148826122283936, "timer/replay.add_count": 1412.0, "timer/replay.add_total": 0.3051598072052002, "timer/replay.add_frac": 0.0010169901984330085, "timer/replay.add_avg": 0.00021611884362974517, "timer/replay.add_min": 8.20159912109375e-05, "timer/replay.add_max": 0.006321907043457031, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024304866790771484, "timer/logger.write_frac": 8.099956389018624e-05, "timer/logger.write_avg": 0.024304866790771484, "timer/logger.write_min": 0.024304866790771484, "timer/logger.write_max": 0.024304866790771484, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00041937828063964844, "timer/checkpoint.save_frac": 1.3976401569798278e-06, "timer/checkpoint.save_avg": 0.00041937828063964844, "timer/checkpoint.save_min": 0.00041937828063964844, "timer/checkpoint.save_max": 0.00041937828063964844, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4807143211364746, "timer/agent.save_frac": 0.004934699510616021, "timer/agent.save_avg": 1.4807143211364746, "timer/agent.save_min": 1.4807143211364746, "timer/agent.save_max": 1.4807143211364746, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.320808410644531e-05, "timer/replay.save_frac": 2.773032488834337e-07, "timer/replay.save_avg": 8.320808410644531e-05, "timer/replay.save_min": 8.320808410644531e-05, "timer/replay.save_max": 8.320808410644531e-05, "timer/agent.policy_count": 1412.0, "timer/agent.policy_total": 14.782304763793945, "timer/agent.policy_frac": 0.049264217305390365, "timer/agent.policy_avg": 0.010469054365293162, "timer/agent.policy_min": 0.005753993988037109, "timer/agent.policy_max": 2.8304293155670166, "timer/dataset_count": 706.0, "timer/dataset_total": 0.06709527969360352, "timer/dataset_frac": 0.0002236049446827454, "timer/dataset_avg": 9.503580693144973e-05, "timer/dataset_min": 7.2479248046875e-05, "timer/dataset_max": 0.000232696533203125, "timer/agent.train_count": 706.0, "timer/agent.train_total": 264.64520144462585, "timer/agent.train_frac": 0.8819692815919669, "timer/agent.train_avg": 0.37485156011986664, "timer/agent.train_min": 0.3668231964111328, "timer/agent.train_max": 0.4790949821472168, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22320985794067383, "timer/agent.report_frac": 0.0007438798700205142, "timer/agent.report_avg": 0.22320985794067383, "timer/agent.report_min": 0.22320985794067383, "timer/agent.report_max": 0.22320985794067383, "fps": 4.705602829493114}
{"step": 395234, "episode/length": 249.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.048}
{"step": 395416, "episode/length": 181.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06043956043956044}
{"step": 395808, "episode/length": 391.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.030612244897959183}
{"step": 395976, "episode/length": 167.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.900000050663948, "episode/reward_rate": 0.06547619047619048}
{"step": 396153, "episode/length": 176.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.300000041723251, "episode/reward_rate": 0.062146892655367235}
{"step": 396361, "episode/length": 207.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.052884615384615384}
{"step": 396491, "episode/length": 129.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 9.899999976158142, "episode/reward_rate": 0.07692307692307693}
{"step": 396565, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.610568576388889, "train/action_min": 0.0, "train/action_std": 3.41607626941469, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.045548238015423216, "train/actor_opt_grad_steps": 197375.0, "train/actor_opt_loss": -10.874713556634056, "train/adv_mag": 0.44873077505164677, "train/adv_max": 0.41001612817247707, "train/adv_mean": 0.0026944614241731163, "train/adv_min": -0.37735258208380806, "train/adv_std": 0.050995506760146886, "train/cont_avg": 0.994873046875, "train/cont_loss_mean": 7.007499053912625e-05, "train/cont_loss_std": 0.0021570620402416, "train/cont_neg_acc": 0.9947916666666666, "train/cont_neg_loss": 0.010014535842376264, "train/cont_pos_acc": 0.9999999867545234, "train/cont_pos_loss": 1.2124618006481569e-05, "train/cont_pred": 0.9948871028092172, "train/cont_rate": 0.994873046875, "train/dyn_loss_mean": 4.875158856312434, "train/dyn_loss_std": 8.611437016063267, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0732589860757191, "train/extr_critic_critic_opt_grad_steps": 197375.0, "train/extr_critic_critic_opt_loss": 16480.208957248266, "train/extr_critic_mag": 9.69697728421953, "train/extr_critic_max": 9.69697728421953, "train/extr_critic_mean": 2.51700796186924, "train/extr_critic_min": -0.5940759579340616, "train/extr_critic_std": 2.3885671926869287, "train/extr_return_normed_mag": 1.4373634821838803, "train/extr_return_normed_max": 1.4373634821838803, "train/extr_return_normed_mean": 0.3671765861411889, "train/extr_return_normed_min": -0.09654733548975653, "train/extr_return_normed_std": 0.3268098346889019, "train/extr_return_rate": 0.7433187224798732, "train/extr_return_raw_mag": 10.481556389066908, "train/extr_return_raw_max": 10.481556389066908, "train/extr_return_raw_mean": 2.5370512704054513, "train/extr_return_raw_min": -0.905927257405387, "train/extr_return_raw_std": 2.4266691870159574, "train/extr_reward_mag": 1.0387553771336873, "train/extr_reward_max": 1.0387553771336873, "train/extr_reward_mean": 0.04716927511617541, "train/extr_reward_min": -0.690551393561893, "train/extr_reward_std": 0.21201377817326122, "train/image_loss_mean": 2.885209224290318, "train/image_loss_std": 7.576447500122918, "train/model_loss_mean": 5.857943018277486, "train/model_loss_std": 11.700445069207085, "train/model_opt_grad_norm": 31.88407254219055, "train/model_opt_grad_steps": 197218.22222222222, "train/model_opt_loss": 14833.063788519965, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2534.722222222222, "train/policy_entropy_mag": 2.5397939715120526, "train/policy_entropy_max": 2.5397939715120526, "train/policy_entropy_mean": 0.38060433521038955, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5213712371057935, "train/policy_logprob_mag": 7.438384195168813, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3802292911956708, "train/policy_logprob_min": -7.438384195168813, "train/policy_logprob_std": 0.9949056150184737, "train/policy_randomness_mag": 0.8964358162548807, "train/policy_randomness_max": 0.8964358162548807, "train/policy_randomness_mean": 0.13433662770936886, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.184021167560584, "train/post_ent_mag": 54.60545110702515, "train/post_ent_max": 54.60545110702515, "train/post_ent_mean": 40.96655559539795, "train/post_ent_min": 18.708342870076496, "train/post_ent_std": 5.519862870375316, "train/prior_ent_mag": 76.38653543260362, "train/prior_ent_max": 76.38653543260362, "train/prior_ent_mean": 45.83453602261014, "train/prior_ent_min": 27.797724591361153, "train/prior_ent_std": 7.25911631849077, "train/rep_loss_mean": 4.875158856312434, "train/rep_loss_std": 8.611437016063267, "train/reward_avg": 0.03096245635404355, "train/reward_loss_mean": 0.04756842403569155, "train/reward_loss_std": 0.2018018507709106, "train/reward_max_data": 1.0194444490803614, "train/reward_max_pred": 1.0178655882676442, "train/reward_neg_acc": 0.9951187993089358, "train/reward_neg_loss": 0.022006021566792495, "train/reward_pos_acc": 0.988413617014885, "train/reward_pos_loss": 0.7343223931060897, "train/reward_pred": 0.030792596814636555, "train/reward_rate": 0.03575303819444445, "stats/sum_log_reward": 10.100000245230538, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 1.8571428571428572, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 18.0, "stats/max_log_achievement_collect_wood": 11.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.2857142857142857, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.4285714285714286, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.7142857142857144, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 6.0, "stats/max_log_achievement_place_table": 2.4285714285714284, "stats/max_log_achievement_wake_up": 1.7142857142857142, "stats/mean_log_entropy": 0.42527732253074646, "replay/size": 396502.0, "replay/inserts": 1430.0, "replay/samples": 11440.0, "replay/insert_wait_avg": 3.956414602853201e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2922120261025595e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2384023666382, "timer/env.step_count": 1430.0, "timer/env.step_total": 19.954707860946655, "timer/env.step_frac": 0.0664628765129746, "timer/env.step_avg": 0.013954341161501158, "timer/env.step_min": 0.003189563751220703, "timer/env.step_max": 1.8876476287841797, "timer/replay.add_count": 1430.0, "timer/replay.add_total": 0.3025178909301758, "timer/replay.add_frac": 0.0010075922618344936, "timer/replay.add_avg": 0.0002115509726784446, "timer/replay.add_min": 7.486343383789062e-05, "timer/replay.add_max": 0.0032689571380615234, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02761983871459961, "timer/logger.write_frac": 9.199302453278929e-05, "timer/logger.write_avg": 0.02761983871459961, "timer/logger.write_min": 0.02761983871459961, "timer/logger.write_max": 0.02761983871459961, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1430.0, "timer/agent.policy_total": 10.773399353027344, "timer/agent.policy_frac": 0.03588281601589171, "timer/agent.policy_avg": 0.007533845701417723, "timer/agent.policy_min": 0.005845308303833008, "timer/agent.policy_max": 0.05504727363586426, "timer/dataset_count": 715.0, "timer/dataset_total": 0.07192540168762207, "timer/dataset_frac": 0.00023956096595461454, "timer/dataset_avg": 0.00010059496739527563, "timer/dataset_min": 6.389617919921875e-05, "timer/dataset_max": 0.000225067138671875, "timer/agent.train_count": 715.0, "timer/agent.train_total": 268.3883099555969, "timer/agent.train_frac": 0.8939173264979364, "timer/agent.train_avg": 0.3753682656721635, "timer/agent.train_min": 0.36667442321777344, "timer/agent.train_max": 1.7481465339660645, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22228217124938965, "timer/agent.report_frac": 0.0007403522317506481, "timer/agent.report_avg": 0.22228217124938965, "timer/agent.report_min": 0.22228217124938965, "timer/agent.report_max": 0.22228217124938965, "fps": 4.7627797675804056}
{"step": 396677, "episode/length": 185.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 11.299999982118607, "episode/reward_rate": 0.05913978494623656}
{"step": 396787, "episode/length": 109.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 9.899999976158142, "episode/reward_rate": 0.09090909090909091}
{"step": 396995, "episode/length": 207.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.700000002980232, "episode/reward_rate": 0.04807692307692308}
{"step": 397271, "episode/length": 275.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 12.300000011920929, "episode/reward_rate": 0.03985507246376811}
{"step": 397477, "episode/length": 205.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.05339805825242718}
{"step": 397669, "episode/length": 191.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.046875}
{"step": 397848, "episode/length": 178.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.900000050663948, "episode/reward_rate": 0.061452513966480445}
{"step": 397995, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.616114656690141, "train/action_min": 0.0, "train/action_std": 3.492120232380612, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04676081617953072, "train/actor_opt_grad_steps": 198090.0, "train/actor_opt_loss": -11.725877359037248, "train/adv_mag": 0.47131611008039664, "train/adv_max": 0.4330560976350811, "train/adv_mean": 0.0032576090064613825, "train/adv_min": -0.3898946806578569, "train/adv_std": 0.052315494071849634, "train/cont_avg": 0.9942781690140845, "train/cont_loss_mean": 2.365893615254042e-05, "train/cont_loss_std": 0.0005993104886678159, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0009232176183898664, "train/cont_pos_acc": 0.999999978172947, "train/cont_pos_loss": 1.7147545664111535e-05, "train/cont_pred": 0.9942678020034038, "train/cont_rate": 0.9942781690140845, "train/dyn_loss_mean": 4.984579922447742, "train/dyn_loss_std": 8.710398633715133, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0453950443737943, "train/extr_critic_critic_opt_grad_steps": 198090.0, "train/extr_critic_critic_opt_loss": 16493.191722601234, "train/extr_critic_mag": 10.337138283420616, "train/extr_critic_max": 10.337138283420616, "train/extr_critic_mean": 2.64300059936416, "train/extr_critic_min": -0.5888772883885344, "train/extr_critic_std": 2.5525351796351687, "train/extr_return_normed_mag": 1.475479562517623, "train/extr_return_normed_max": 1.475479562517623, "train/extr_return_normed_mean": 0.36544743914839245, "train/extr_return_normed_min": -0.09750302686867579, "train/extr_return_normed_std": 0.3342552592217083, "train/extr_return_rate": 0.7342494188899725, "train/extr_return_raw_mag": 11.293366848582952, "train/extr_return_raw_max": 11.293366848582952, "train/extr_return_raw_mean": 2.668345144097234, "train/extr_return_raw_min": -0.9302275306741956, "train/extr_return_raw_std": 2.597999891764681, "train/extr_reward_mag": 1.0540346662763138, "train/extr_reward_max": 1.0540346662763138, "train/extr_reward_mean": 0.049443046024567644, "train/extr_reward_min": -0.6854613028781514, "train/extr_reward_std": 0.21650019015224886, "train/image_loss_mean": 3.088979062899737, "train/image_loss_std": 7.963333183610943, "train/model_loss_mean": 6.128196924505099, "train/model_loss_std": 12.148359003201337, "train/model_opt_grad_norm": 33.35496534428126, "train/model_opt_grad_steps": 197932.32394366196, "train/model_opt_loss": 10135.601892605633, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1654.9295774647887, "train/policy_entropy_mag": 2.5571983095625757, "train/policy_entropy_max": 2.5571983095625757, "train/policy_entropy_mean": 0.39466617057021236, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5405393150490774, "train/policy_logprob_mag": 7.438384223991717, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3939775461462182, "train/policy_logprob_min": -7.438384223991717, "train/policy_logprob_std": 1.0053040813392318, "train/policy_randomness_mag": 0.902578785385884, "train/policy_randomness_max": 0.902578785385884, "train/policy_randomness_mean": 0.13929983921034236, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19078665803855574, "train/post_ent_mag": 54.81153719190141, "train/post_ent_max": 54.81153719190141, "train/post_ent_mean": 40.96693076550121, "train/post_ent_min": 19.32254752306871, "train/post_ent_std": 5.476873753776013, "train/prior_ent_mag": 76.34331824074329, "train/prior_ent_max": 76.34331824074329, "train/prior_ent_mean": 45.9063253805671, "train/prior_ent_min": 28.336219008539764, "train/prior_ent_std": 7.303740830488608, "train/rep_loss_mean": 4.984579922447742, "train/rep_loss_std": 8.710398633715133, "train/reward_avg": 0.031849691408201, "train/reward_loss_mean": 0.048446279806150516, "train/reward_loss_std": 0.2029009912635239, "train/reward_max_data": 1.025352118720471, "train/reward_max_pred": 1.0227707339004732, "train/reward_neg_acc": 0.9952891594927076, "train/reward_neg_loss": 0.0218903103344877, "train/reward_pos_acc": 0.9879364027103907, "train/reward_pos_loss": 0.7405813924023803, "train/reward_pred": 0.031447368346049755, "train/reward_rate": 0.03690305897887324, "stats/sum_log_reward": 8.957143102373395, "stats/max_log_achievement_collect_coal": 0.14285714285714285, "stats/max_log_achievement_collect_drink": 2.4285714285714284, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 12.714285714285714, "stats/max_log_achievement_collect_wood": 7.857142857142857, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.14285714285714285, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.2857142857142858, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 5.571428571428571, "stats/max_log_achievement_place_table": 2.5714285714285716, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.4050490068537848, "replay/size": 397932.0, "replay/inserts": 1430.0, "replay/samples": 11440.0, "replay/insert_wait_avg": 4.148816728925371e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2844175725550085e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2938175201416, "timer/env.step_count": 1430.0, "timer/env.step_total": 20.06068229675293, "timer/env.step_frac": 0.06680351417959979, "timer/env.step_avg": 0.014028449158568483, "timer/env.step_min": 0.002946138381958008, "timer/env.step_max": 1.873091697692871, "timer/replay.add_count": 1430.0, "timer/replay.add_total": 0.3158597946166992, "timer/replay.add_frac": 0.0010518358227455467, "timer/replay.add_avg": 0.00022088097525643302, "timer/replay.add_min": 7.462501525878906e-05, "timer/replay.add_max": 0.0010063648223876953, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.031319379806518555, "timer/logger.write_frac": 0.0001042957862574639, "timer/logger.write_avg": 0.031319379806518555, "timer/logger.write_min": 0.031319379806518555, "timer/logger.write_max": 0.031319379806518555, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1430.0, "timer/agent.policy_total": 11.21348762512207, "timer/agent.policy_frac": 0.037341719911932414, "timer/agent.policy_avg": 0.007841599737847602, "timer/agent.policy_min": 0.005894660949707031, "timer/agent.policy_max": 0.016570091247558594, "timer/dataset_count": 715.0, "timer/dataset_total": 0.07996344566345215, "timer/dataset_frac": 0.00026628402250768537, "timer/dataset_avg": 0.00011183698694189112, "timer/dataset_min": 7.343292236328125e-05, "timer/dataset_max": 0.0012984275817871094, "timer/agent.train_count": 715.0, "timer/agent.train_total": 267.8440761566162, "timer/agent.train_frac": 0.8919400284977599, "timer/agent.train_avg": 0.37460709951974297, "timer/agent.train_min": 0.36478710174560547, "timer/agent.train_max": 0.4009697437286377, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22328805923461914, "timer/agent.report_frac": 0.00074356528908439, "timer/agent.report_avg": 0.22328805923461914, "timer/agent.report_min": 0.22328805923461914, "timer/agent.report_max": 0.22328805923461914, "fps": 4.76191104609494}
{"step": 398048, "episode/length": 199.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.299999997019768, "episode/reward_rate": 0.04}
{"step": 398198, "episode/length": 149.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.08}
{"step": 398419, "episode/length": 220.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.049773755656108594}
{"step": 398599, "episode/length": 179.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06111111111111111}
{"step": 398812, "episode/length": 212.0, "episode/score": 12.099999971687794, "episode/sum_abs_reward": 14.30000003427267, "episode/reward_rate": 0.06572769953051644}
{"step": 398976, "episode/length": 163.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.06097560975609756}
{"step": 399404, "episode/length": 427.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.30000003427267, "episode/reward_rate": 0.028037383177570093}
{"step": 399405, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.530329314755722, "train/action_min": 0.0, "train/action_std": 3.436827924889578, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04460502268982605, "train/actor_opt_grad_steps": 198800.0, "train/actor_opt_loss": -14.42717345667557, "train/adv_mag": 0.4317685323701778, "train/adv_max": 0.3921573535657265, "train/adv_mean": 0.0015346492899124327, "train/adv_min": -0.3686923309111259, "train/adv_std": 0.05018358945216931, "train/cont_avg": 0.9942369058098591, "train/cont_loss_mean": 3.2229220261595556e-05, "train/cont_loss_std": 0.0009726542939941436, "train/cont_neg_acc": 0.9987195906504779, "train/cont_neg_loss": 0.002146348868567221, "train/cont_pos_acc": 0.9999999857284654, "train/cont_pos_loss": 1.090485945218954e-05, "train/cont_pred": 0.9942408892470347, "train/cont_rate": 0.9942369058098591, "train/dyn_loss_mean": 4.900946580188375, "train/dyn_loss_std": 8.687345283132204, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0431595108878444, "train/extr_critic_critic_opt_grad_steps": 198800.0, "train/extr_critic_critic_opt_loss": 16175.966948173416, "train/extr_critic_mag": 10.013461287592499, "train/extr_critic_max": 10.013461287592499, "train/extr_critic_mean": 2.5965630588397173, "train/extr_critic_min": -0.5719254604527648, "train/extr_critic_std": 2.4822187423706055, "train/extr_return_normed_mag": 1.4361696931677805, "train/extr_return_normed_max": 1.4361696931677805, "train/extr_return_normed_mean": 0.36649580845530605, "train/extr_return_normed_min": -0.10138721554212167, "train/extr_return_normed_std": 0.33071087237814784, "train/extr_return_rate": 0.7244040118136876, "train/extr_return_raw_mag": 10.730444330564687, "train/extr_return_raw_max": 10.730444330564687, "train/extr_return_raw_mean": 2.6082182719673908, "train/extr_return_raw_min": -0.9442888208678071, "train/extr_return_raw_std": 2.5113510867239723, "train/extr_reward_mag": 1.0419946086238807, "train/extr_reward_max": 1.0419946086238807, "train/extr_reward_mean": 0.04693634228282411, "train/extr_reward_min": -0.694649985138799, "train/extr_reward_std": 0.21178793214576344, "train/image_loss_mean": 3.0810655674464265, "train/image_loss_std": 7.799829516612308, "train/model_loss_mean": 6.071863553893398, "train/model_loss_std": 11.957022586338956, "train/model_opt_grad_norm": 30.771512286763794, "train/model_opt_grad_steps": 198642.0, "train/model_opt_loss": 9568.844960387323, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1584.5070422535211, "train/policy_entropy_mag": 2.5647084142120793, "train/policy_entropy_max": 2.5647084142120793, "train/policy_entropy_mean": 0.38756032351037145, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5304856166033678, "train/policy_logprob_mag": 7.438384244139765, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3881301065565835, "train/policy_logprob_min": -7.438384244139765, "train/policy_logprob_std": 1.0030443534045153, "train/policy_randomness_mag": 0.9052295239878373, "train/policy_randomness_max": 0.9052295239878373, "train/policy_randomness_mean": 0.13679178457864574, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18723814210421602, "train/post_ent_mag": 55.019504869487925, "train/post_ent_max": 55.019504869487925, "train/post_ent_mean": 41.03003783964775, "train/post_ent_min": 18.676161618299886, "train/post_ent_std": 5.534329985229062, "train/prior_ent_mag": 76.26314523186483, "train/prior_ent_max": 76.26314523186483, "train/prior_ent_mean": 45.91746553232972, "train/prior_ent_min": 28.214867309785227, "train/prior_ent_std": 7.297408480039785, "train/rep_loss_mean": 4.900946580188375, "train/rep_loss_std": 8.687345283132204, "train/reward_avg": 0.03216329193346097, "train/reward_loss_mean": 0.0501977957155503, "train/reward_loss_std": 0.20629419281449116, "train/reward_max_data": 1.0281690208005234, "train/reward_max_pred": 1.025510955864275, "train/reward_neg_acc": 0.9948008765637035, "train/reward_neg_loss": 0.023325030862445563, "train/reward_pos_acc": 0.9843454965403382, "train/reward_pos_loss": 0.7465635143535237, "train/reward_pred": 0.03179444014553873, "train/reward_rate": 0.03735695422535211, "stats/sum_log_reward": 9.957143102373395, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 2.5714285714285716, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 11.0, "stats/max_log_achievement_collect_wood": 10.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.14285714285714285, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.4285714285714286, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 0.8571428571428571, "stats/max_log_achievement_place_stone": 6.142857142857143, "stats/max_log_achievement_place_table": 2.5714285714285716, "stats/max_log_achievement_wake_up": 1.5714285714285714, "stats/mean_log_entropy": 0.3687568115336554, "replay/size": 399342.0, "replay/inserts": 1410.0, "replay/samples": 11280.0, "replay/insert_wait_avg": 4.248754352542526e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.279132585998968e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 301.920530796051, "timer/env.step_count": 1410.0, "timer/env.step_total": 22.36880850791931, "timer/env.step_frac": 0.07408839819187243, "timer/env.step_avg": 0.015864403197105893, "timer/env.step_min": 0.003018617630004883, "timer/env.step_max": 2.713310956954956, "timer/replay.add_count": 1410.0, "timer/replay.add_total": 0.3392188549041748, "timer/replay.add_frac": 0.0011235368923397891, "timer/replay.add_avg": 0.00024058074815898922, "timer/replay.add_min": 8.296966552734375e-05, "timer/replay.add_max": 0.011078596115112305, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030223608016967773, "timer/logger.write_frac": 0.00010010451404970531, "timer/logger.write_avg": 0.030223608016967773, "timer/logger.write_min": 0.030223608016967773, "timer/logger.write_max": 0.030223608016967773, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0008349418640136719, "timer/checkpoint.save_frac": 2.765435864239652e-06, "timer/checkpoint.save_avg": 0.0008349418640136719, "timer/checkpoint.save_min": 0.0008349418640136719, "timer/checkpoint.save_max": 0.0008349418640136719, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.5496559143066406, "timer/agent.save_frac": 0.005132661598801446, "timer/agent.save_avg": 1.5496559143066406, "timer/agent.save_min": 1.5496559143066406, "timer/agent.save_max": 1.5496559143066406, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.5367431640625e-05, "timer/replay.save_frac": 3.1586931630378666e-07, "timer/replay.save_avg": 9.5367431640625e-05, "timer/replay.save_min": 9.5367431640625e-05, "timer/replay.save_max": 9.5367431640625e-05, "timer/agent.policy_count": 1410.0, "timer/agent.policy_total": 13.268954038619995, "timer/agent.policy_frac": 0.04394849864510621, "timer/agent.policy_avg": 0.009410605701148933, "timer/agent.policy_min": 0.005592823028564453, "timer/agent.policy_max": 1.5352323055267334, "timer/dataset_count": 705.0, "timer/dataset_total": 0.07720804214477539, "timer/dataset_frac": 0.00025572306043980113, "timer/dataset_avg": 0.00010951495339684453, "timer/dataset_min": 7.534027099609375e-05, "timer/dataset_max": 0.00025725364685058594, "timer/agent.train_count": 705.0, "timer/agent.train_total": 265.0873429775238, "timer/agent.train_frac": 0.878003699445639, "timer/agent.train_avg": 0.37601041557095577, "timer/agent.train_min": 0.3670334815979004, "timer/agent.train_max": 0.5378992557525635, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22113656997680664, "timer/agent.report_frac": 0.0007324330326054759, "timer/agent.report_avg": 0.22113656997680664, "timer/agent.report_min": 0.22113656997680664, "timer/agent.report_max": 0.22113656997680664, "fps": 4.670014839741791}
{"step": 399548, "episode/length": 143.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.0763888888888889}
{"step": 399734, "episode/length": 185.0, "episode/score": 10.099999964237213, "episode/sum_abs_reward": 12.099999994039536, "episode/reward_rate": 0.05913978494623656}
{"step": 399927, "episode/length": 192.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 11.899999991059303, "episode/reward_rate": 0.06217616580310881}
{"step": 400098, "episode/length": 170.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.05847953216374269}
{"step": 400280, "episode/length": 181.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.054945054945054944}
{"step": 400439, "episode/length": 158.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.05660377358490566}
{"step": 400701, "episode/length": 261.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 13.700000017881393, "episode/reward_rate": 0.04961832061068702}
{"step": 400837, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.496741066516285, "train/action_min": 0.0, "train/action_std": 3.3842864976802343, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.045141119562404255, "train/actor_opt_grad_steps": 199510.0, "train/actor_opt_loss": -13.220466581868454, "train/adv_mag": 0.44017185459674246, "train/adv_max": 0.4048524729802575, "train/adv_mean": 0.0019223100059886273, "train/adv_min": -0.36172490346599634, "train/adv_std": 0.050242421020504455, "train/cont_avg": 0.9946082746478874, "train/cont_loss_mean": 0.00015056506777961056, "train/cont_loss_std": 0.0047016358161669465, "train/cont_neg_acc": 0.9982394366197183, "train/cont_neg_loss": 0.0170300735739352, "train/cont_pos_acc": 0.9999999722964327, "train/cont_pos_loss": 1.8489249862020995e-05, "train/cont_pred": 0.9946078951929657, "train/cont_rate": 0.9946082746478874, "train/dyn_loss_mean": 4.839938741334727, "train/dyn_loss_std": 8.6239456660311, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0205467376910464, "train/extr_critic_critic_opt_grad_steps": 199510.0, "train/extr_critic_critic_opt_loss": 16112.70858549736, "train/extr_critic_mag": 9.780390618552625, "train/extr_critic_max": 9.780390618552625, "train/extr_critic_mean": 2.5445602057685313, "train/extr_critic_min": -0.5598745799400437, "train/extr_critic_std": 2.3905015596201724, "train/extr_return_normed_mag": 1.4424778592418617, "train/extr_return_normed_max": 1.4424778592418617, "train/extr_return_normed_mean": 0.36963573874722067, "train/extr_return_normed_min": -0.10049071078988868, "train/extr_return_normed_std": 0.328753037561833, "train/extr_return_rate": 0.7390845451556461, "train/extr_return_raw_mag": 10.470814610870791, "train/extr_return_raw_max": 10.470814610870791, "train/extr_return_raw_mean": 2.558729022321567, "train/extr_return_raw_min": -0.9087039005588478, "train/extr_return_raw_std": 2.4246691599698136, "train/extr_reward_mag": 1.0408637221430388, "train/extr_reward_max": 1.0408637221430388, "train/extr_reward_mean": 0.048077018537991484, "train/extr_reward_min": -0.6730408550987781, "train/extr_reward_std": 0.21347848525349522, "train/image_loss_mean": 2.8987191294280574, "train/image_loss_std": 7.857321960825316, "train/model_loss_mean": 5.852344848740269, "train/model_loss_std": 11.942546643001933, "train/model_opt_grad_norm": 31.04699728522502, "train/model_opt_grad_steps": 199352.0, "train/model_opt_loss": 14630.862070862677, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.5405641643094343, "train/policy_entropy_max": 2.5405641643094343, "train/policy_entropy_mean": 0.3822816559966181, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5256453177458803, "train/policy_logprob_mag": 7.438384223991717, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3813016263531967, "train/policy_logprob_min": -7.438384223991717, "train/policy_logprob_std": 0.996312548576946, "train/policy_randomness_mag": 0.8967076590363409, "train/policy_randomness_max": 0.8967076590363409, "train/policy_randomness_mean": 0.13492864748121988, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18552972984985566, "train/post_ent_mag": 54.98386071433484, "train/post_ent_max": 54.98386071433484, "train/post_ent_mean": 41.02871929759711, "train/post_ent_min": 18.653610122035925, "train/post_ent_std": 5.57204184733646, "train/prior_ent_mag": 76.44879623198173, "train/prior_ent_max": 76.44879623198173, "train/prior_ent_mean": 45.83538512109031, "train/prior_ent_min": 28.276676070522253, "train/prior_ent_std": 7.275755224093585, "train/rep_loss_mean": 4.839938741334727, "train/rep_loss_std": 8.6239456660311, "train/reward_avg": 0.032972050699549664, "train/reward_loss_mean": 0.049511909957083176, "train/reward_loss_std": 0.20080561726026133, "train/reward_max_data": 1.0183098635203403, "train/reward_max_pred": 1.0174629553942613, "train/reward_neg_acc": 0.9948552914068732, "train/reward_neg_loss": 0.022848088477908726, "train/reward_pos_acc": 0.9884890477422258, "train/reward_pos_loss": 0.7307149818245794, "train/reward_pred": 0.03275330364704132, "train/reward_rate": 0.037742077464788734, "stats/sum_log_reward": 9.528571810041155, "stats/max_log_achievement_collect_coal": 0.0, "stats/max_log_achievement_collect_drink": 2.142857142857143, "stats/max_log_achievement_collect_sapling": 2.142857142857143, "stats/max_log_achievement_collect_stone": 10.285714285714286, "stats/max_log_achievement_collect_wood": 8.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.2857142857142857, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.8571428571428571, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 5.142857142857143, "stats/max_log_achievement_place_table": 2.2857142857142856, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.3458788756813322, "replay/size": 400774.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 4.086248035537464e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2918848898157728e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0219051837921, "timer/env.step_count": 1432.0, "timer/env.step_total": 19.503159284591675, "timer/env.step_frac": 0.06500578440312257, "timer/env.step_avg": 0.013619524640077985, "timer/env.step_min": 0.002897977828979492, "timer/env.step_max": 1.8841192722320557, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.31288862228393555, "timer/replay.add_frac": 0.0010428859255868712, "timer/replay.add_avg": 0.00021849764125973152, "timer/replay.add_min": 7.271766662597656e-05, "timer/replay.add_max": 0.0021538734436035156, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03268146514892578, "timer/logger.write_frac": 0.00010893026337162035, "timer/logger.write_avg": 0.03268146514892578, "timer/logger.write_min": 0.03268146514892578, "timer/logger.write_max": 0.03268146514892578, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 11.17048978805542, "timer/agent.policy_frac": 0.037232247362779816, "timer/agent.policy_avg": 0.007800621360373896, "timer/agent.policy_min": 0.0055332183837890625, "timer/agent.policy_max": 0.016945838928222656, "timer/dataset_count": 716.0, "timer/dataset_total": 0.07824230194091797, "timer/dataset_frac": 0.000260788631060079, "timer/dataset_avg": 0.00010927695801804185, "timer/dataset_min": 7.581710815429688e-05, "timer/dataset_max": 0.00023984909057617188, "timer/agent.train_count": 716.0, "timer/agent.train_total": 268.1732425689697, "timer/agent.train_frac": 0.8938455423936061, "timer/agent.train_avg": 0.37454363487286274, "timer/agent.train_min": 0.3661360740661621, "timer/agent.train_max": 0.43351316452026367, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22217249870300293, "timer/agent.report_frac": 0.0007405209248534737, "timer/agent.report_avg": 0.22217249870300293, "timer/agent.report_min": 0.22217249870300293, "timer/agent.report_max": 0.22217249870300293, "fps": 4.772915557109082}
{"step": 400877, "episode/length": 175.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.056818181818181816}
{"step": 401081, "episode/length": 203.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 9.900000043213367, "episode/reward_rate": 0.0392156862745098}
{"step": 401292, "episode/length": 210.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 9.30000003427267, "episode/reward_rate": 0.03317535545023697}
{"step": 401441, "episode/length": 148.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.500000022351742, "episode/reward_rate": 0.053691275167785234}
{"step": 401669, "episode/length": 227.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.039473684210526314}
{"step": 402097, "episode/length": 427.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.02102803738317757}
{"step": 402249, "episode/length": 151.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.07236842105263158}
{"step": 402273, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.523261176215278, "train/action_min": 0.0, "train/action_std": 3.3835161891248493, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04571673325780365, "train/actor_opt_grad_steps": 200225.0, "train/actor_opt_loss": -13.687392996624112, "train/adv_mag": 0.47313589768277275, "train/adv_max": 0.44007785825265777, "train/adv_mean": 0.0021790752295803234, "train/adv_min": -0.39153167770968544, "train/adv_std": 0.051237585643927254, "train/cont_avg": 0.9943305121527778, "train/cont_loss_mean": 3.0659313522147296e-05, "train/cont_loss_std": 0.0009029368609319022, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00018806347607854454, "train/cont_pos_acc": 0.9999863372908698, "train/cont_pos_loss": 2.9850383262185352e-05, "train/cont_pred": 0.9943121936586168, "train/cont_rate": 0.9943305121527778, "train/dyn_loss_mean": 5.257592876752217, "train/dyn_loss_std": 8.773697959052193, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0480267446902063, "train/extr_critic_critic_opt_grad_steps": 200225.0, "train/extr_critic_critic_opt_loss": 16178.327948676215, "train/extr_critic_mag": 9.871130731370714, "train/extr_critic_max": 9.871130731370714, "train/extr_critic_mean": 2.508812536795934, "train/extr_critic_min": -0.5576696611113019, "train/extr_critic_std": 2.401903748512268, "train/extr_return_normed_mag": 1.4804914726151361, "train/extr_return_normed_max": 1.4804914726151361, "train/extr_return_normed_mean": 0.37004339922633434, "train/extr_return_normed_min": -0.10024278647162849, "train/extr_return_normed_std": 0.3340048912084765, "train/extr_return_rate": 0.727043585644828, "train/extr_return_raw_mag": 10.615221407678392, "train/extr_return_raw_max": 10.615221407678392, "train/extr_return_raw_mean": 2.5247048570050135, "train/extr_return_raw_min": -0.9032963448100619, "train/extr_return_raw_std": 2.4342469854487314, "train/extr_reward_mag": 1.0446435477998521, "train/extr_reward_max": 1.0446435477998521, "train/extr_reward_mean": 0.047563749805299774, "train/extr_reward_min": -0.6806292798784044, "train/extr_reward_std": 0.2126396604710155, "train/image_loss_mean": 3.273657528890504, "train/image_loss_std": 8.656773183080885, "train/model_loss_mean": 6.4788722263442144, "train/model_loss_std": 12.791847745577494, "train/model_opt_grad_norm": 34.658884512053596, "train/model_opt_grad_steps": 200066.04166666666, "train/model_opt_loss": 8372.297892252604, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1302.0833333333333, "train/policy_entropy_mag": 2.5375852949089475, "train/policy_entropy_max": 2.5375852949089475, "train/policy_entropy_mean": 0.3800433944496844, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5176299417184459, "train/policy_logprob_mag": 7.438384261396196, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37976983437935513, "train/policy_logprob_min": -7.438384261396196, "train/policy_logprob_std": 0.9929524171683524, "train/policy_randomness_mag": 0.8956562487615479, "train/policy_randomness_max": 0.8956562487615479, "train/policy_randomness_mean": 0.13413864032675824, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18270065376742017, "train/post_ent_mag": 55.27467568715414, "train/post_ent_max": 55.27467568715414, "train/post_ent_mean": 40.80458275477091, "train/post_ent_min": 18.731571316719055, "train/post_ent_std": 5.625107016828325, "train/prior_ent_mag": 76.33598952823215, "train/prior_ent_max": 76.33598952823215, "train/prior_ent_mean": 46.03607442643907, "train/prior_ent_min": 28.060583459006416, "train/prior_ent_std": 7.319698486063215, "train/rep_loss_mean": 5.257592876752217, "train/rep_loss_std": 8.773697959052193, "train/reward_avg": 0.032294379003966846, "train/reward_loss_mean": 0.05062836775970128, "train/reward_loss_std": 0.2047445285651419, "train/reward_max_data": 1.0166666706403096, "train/reward_max_pred": 1.0157238725158904, "train/reward_neg_acc": 0.9941818515459696, "train/reward_neg_loss": 0.02415019439326392, "train/reward_pos_acc": 0.9890922837787204, "train/reward_pos_loss": 0.7310740144716369, "train/reward_pred": 0.03209548805736833, "train/reward_rate": 0.03732638888888889, "stats/sum_log_reward": 7.957142761775425, "stats/max_log_achievement_collect_coal": 0.14285714285714285, "stats/max_log_achievement_collect_drink": 1.2857142857142858, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 6.571428571428571, "stats/max_log_achievement_collect_wood": 9.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5714285714285714, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.8571428571428571, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 2.5714285714285716, "stats/max_log_achievement_place_table": 2.142857142857143, "stats/max_log_achievement_wake_up": 1.8571428571428572, "stats/mean_log_entropy": 0.3754609376192093, "replay/size": 402210.0, "replay/inserts": 1436.0, "replay/samples": 11488.0, "replay/insert_wait_avg": 4.156884376717145e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3072759660173591e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.258229970932, "timer/env.step_count": 1436.0, "timer/env.step_total": 18.825633764266968, "timer/env.step_frac": 0.06269814408114467, "timer/env.step_avg": 0.013109772816341899, "timer/env.step_min": 0.003275632858276367, "timer/env.step_max": 1.788236141204834, "timer/replay.add_count": 1436.0, "timer/replay.add_total": 0.3259294033050537, "timer/replay.add_frac": 0.0010854969848340442, "timer/replay.add_avg": 0.00022697033656340787, "timer/replay.add_min": 6.818771362304688e-05, "timer/replay.add_max": 0.0014977455139160156, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028618335723876953, "timer/logger.write_frac": 9.531241067612865e-05, "timer/logger.write_avg": 0.028618335723876953, "timer/logger.write_min": 0.028618335723876953, "timer/logger.write_max": 0.028618335723876953, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1436.0, "timer/agent.policy_total": 11.179558992385864, "timer/agent.policy_frac": 0.03723314759255111, "timer/agent.policy_avg": 0.007785208211967872, "timer/agent.policy_min": 0.005763053894042969, "timer/agent.policy_max": 0.015874624252319336, "timer/dataset_count": 718.0, "timer/dataset_total": 0.08105278015136719, "timer/dataset_frac": 0.0002699435754324333, "timer/dataset_avg": 0.00011288688043365903, "timer/dataset_min": 7.724761962890625e-05, "timer/dataset_max": 0.0012259483337402344, "timer/agent.train_count": 718.0, "timer/agent.train_total": 269.0553979873657, "timer/agent.train_frac": 0.8960800109073213, "timer/agent.train_avg": 0.3747289665562197, "timer/agent.train_min": 0.3668391704559326, "timer/agent.train_max": 0.4692375659942627, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22129392623901367, "timer/agent.report_frac": 0.000737012025483655, "timer/agent.report_avg": 0.22129392623901367, "timer/agent.report_min": 0.22129392623901367, "timer/agent.report_max": 0.22129392623901367, "fps": 4.782484139723208}
{"step": 402293, "episode/length": 43.0, "episode/score": 4.100000001490116, "episode/sum_abs_reward": 5.700000025331974, "episode/reward_rate": 0.11363636363636363}
{"step": 402439, "episode/length": 145.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 11.500000037252903, "episode/reward_rate": 0.0684931506849315}
{"step": 402640, "episode/length": 200.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.05970149253731343}
{"step": 402795, "episode/length": 154.0, "episode/score": 7.100000023841858, "episode/sum_abs_reward": 8.899999976158142, "episode/reward_rate": 0.05806451612903226}
{"step": 403063, "episode/length": 267.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.033582089552238806}
{"step": 403215, "episode/length": 151.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.05921052631578947}
{"step": 403395, "episode/length": 179.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.700000047683716, "episode/reward_rate": 0.06111111111111111}
{"step": 403570, "episode/length": 174.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.05714285714285714}
{"step": 403673, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.461534772600446, "train/action_min": 0.0, "train/action_std": 3.3651809079306467, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.047572787425347735, "train/actor_opt_grad_steps": 200935.0, "train/actor_opt_loss": -8.753666948846409, "train/adv_mag": 0.4702155317578997, "train/adv_max": 0.4346401687179293, "train/adv_mean": 0.003667316568524776, "train/adv_min": -0.39268409737518856, "train/adv_std": 0.05309344051139695, "train/cont_avg": 0.99453125, "train/cont_loss_mean": 1.907907147012468e-05, "train/cont_loss_std": 0.0005193885403863467, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0013071605805115333, "train/cont_pos_acc": 0.9999999787126269, "train/cont_pos_loss": 1.1660707287676684e-05, "train/cont_pred": 0.9945261691297803, "train/cont_rate": 0.99453125, "train/dyn_loss_mean": 5.005755220140729, "train/dyn_loss_std": 8.641573449543545, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0357658292566028, "train/extr_critic_critic_opt_grad_steps": 200935.0, "train/extr_critic_critic_opt_loss": 16473.837248883927, "train/extr_critic_mag": 9.876662308829172, "train/extr_critic_max": 9.876662308829172, "train/extr_critic_mean": 2.645663334642138, "train/extr_critic_min": -0.5486861194883074, "train/extr_critic_std": 2.3872966374669757, "train/extr_return_normed_mag": 1.450719198158809, "train/extr_return_normed_max": 1.450719198158809, "train/extr_return_normed_mean": 0.38389844702822823, "train/extr_return_normed_min": -0.09502351369176593, "train/extr_return_normed_std": 0.32923265397548673, "train/extr_return_rate": 0.7475065503801618, "train/extr_return_raw_mag": 10.530209405081612, "train/extr_return_raw_max": 10.530209405081612, "train/extr_return_raw_mean": 2.672620023999895, "train/extr_return_raw_min": -0.8545303549085345, "train/extr_return_raw_std": 2.4248423763683866, "train/extr_reward_mag": 1.042615042413984, "train/extr_reward_max": 1.042615042413984, "train/extr_reward_mean": 0.04993814645068986, "train/extr_reward_min": -0.6458970086915152, "train/extr_reward_std": 0.21709446949618202, "train/image_loss_mean": 2.950047208581652, "train/image_loss_std": 7.866733401162284, "train/model_loss_mean": 6.0048801217760355, "train/model_loss_std": 11.9974086693355, "train/model_opt_grad_norm": 30.821598829541887, "train/model_opt_grad_steps": 200776.0, "train/model_opt_loss": 11687.708091517858, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1946.4285714285713, "train/policy_entropy_mag": 2.495262428692409, "train/policy_entropy_max": 2.495262428692409, "train/policy_entropy_mean": 0.35010039061307907, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.47424097444329943, "train/policy_logprob_mag": 7.438384205954415, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3509171913777079, "train/policy_logprob_min": -7.438384205954415, "train/policy_logprob_std": 0.9683349634919848, "train/policy_randomness_mag": 0.8807181358337403, "train/policy_randomness_max": 0.8807181358337403, "train/policy_randomness_mean": 0.12357007467320986, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.16738625456179893, "train/post_ent_mag": 54.90827418736049, "train/post_ent_max": 54.90827418736049, "train/post_ent_mean": 40.97200339181082, "train/post_ent_min": 18.936735330309187, "train/post_ent_std": 5.609892266137259, "train/prior_ent_mag": 76.3786266871861, "train/prior_ent_max": 76.3786266871861, "train/prior_ent_mean": 46.01074970790318, "train/prior_ent_min": 28.12248627798898, "train/prior_ent_std": 7.264409194673811, "train/rep_loss_mean": 5.005755220140729, "train/rep_loss_std": 8.641573449543545, "train/reward_avg": 0.034122488488044056, "train/reward_loss_mean": 0.05136073412639754, "train/reward_loss_std": 0.20789111001150948, "train/reward_max_data": 1.0200000047683715, "train/reward_max_pred": 1.0195400255067009, "train/reward_neg_acc": 0.9946177227156503, "train/reward_neg_loss": 0.023738292657903264, "train/reward_pos_acc": 0.9882351611341749, "train/reward_pos_loss": 0.7291152732712882, "train/reward_pred": 0.03382594050573451, "train/reward_rate": 0.03921595982142857, "stats/sum_log_reward": 8.350000202655792, "stats/max_log_achievement_collect_coal": 0.375, "stats/max_log_achievement_collect_drink": 2.125, "stats/max_log_achievement_collect_sapling": 1.625, "stats/max_log_achievement_collect_stone": 11.875, "stats/max_log_achievement_collect_wood": 8.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.375, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.125, "stats/max_log_achievement_make_wood_sword": 0.625, "stats/max_log_achievement_place_furnace": 1.25, "stats/max_log_achievement_place_plant": 1.625, "stats/max_log_achievement_place_stone": 4.375, "stats/max_log_achievement_place_table": 1.875, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.27710239216685295, "replay/size": 403610.0, "replay/inserts": 1400.0, "replay/samples": 11200.0, "replay/insert_wait_avg": 4.102672849382673e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2883543968200683e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3385498523712, "timer/env.step_count": 1400.0, "timer/env.step_total": 21.456857204437256, "timer/env.step_frac": 0.0714422348212848, "timer/env.step_avg": 0.01532632657459804, "timer/env.step_min": 0.00290679931640625, "timer/env.step_max": 1.8413963317871094, "timer/replay.add_count": 1400.0, "timer/replay.add_total": 0.3238363265991211, "timer/replay.add_frac": 0.001078237631360676, "timer/replay.add_avg": 0.00023131166185651506, "timer/replay.add_min": 6.437301635742188e-05, "timer/replay.add_max": 0.013312101364135742, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02893805503845215, "timer/logger.write_frac": 9.635145089658453e-05, "timer/logger.write_avg": 0.02893805503845215, "timer/logger.write_min": 0.02893805503845215, "timer/logger.write_max": 0.02893805503845215, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00039005279541015625, "timer/checkpoint.save_frac": 1.2987103906637468e-06, "timer/checkpoint.save_avg": 0.00039005279541015625, "timer/checkpoint.save_min": 0.00039005279541015625, "timer/checkpoint.save_max": 0.00039005279541015625, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4203534126281738, "timer/agent.save_frac": 0.004729174504326321, "timer/agent.save_avg": 1.4203534126281738, "timer/agent.save_min": 1.4203534126281738, "timer/agent.save_max": 1.4203534126281738, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.58306884765625e-05, "timer/replay.save_frac": 2.857797925665947e-07, "timer/replay.save_avg": 8.58306884765625e-05, "timer/replay.save_min": 8.58306884765625e-05, "timer/replay.save_max": 8.58306884765625e-05, "timer/agent.policy_count": 1400.0, "timer/agent.policy_total": 15.165823459625244, "timer/agent.policy_frac": 0.05049576042462705, "timer/agent.policy_avg": 0.01083273104258946, "timer/agent.policy_min": 0.005663156509399414, "timer/agent.policy_max": 2.824086904525757, "timer/dataset_count": 700.0, "timer/dataset_total": 0.07680082321166992, "timer/dataset_frac": 0.00025571417072307466, "timer/dataset_avg": 0.00010971546173095703, "timer/dataset_min": 7.43865966796875e-05, "timer/dataset_max": 0.00022220611572265625, "timer/agent.train_count": 700.0, "timer/agent.train_total": 262.565021276474, "timer/agent.train_frac": 0.8742301692724278, "timer/agent.train_avg": 0.37509288753782, "timer/agent.train_min": 0.3669917583465576, "timer/agent.train_max": 0.5112555027008057, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2015843391418457, "timer/agent.report_frac": 0.0006711903591494756, "timer/agent.report_avg": 0.2015843391418457, "timer/agent.report_min": 0.2015843391418457, "timer/agent.report_max": 0.2015843391418457, "fps": 4.661304136414763}
{"step": 403757, "episode/length": 186.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.06417112299465241}
{"step": 403986, "episode/length": 228.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.048034934497816595}
{"step": 404129, "episode/length": 142.0, "episode/score": 9.099999949336052, "episode/sum_abs_reward": 11.500000014901161, "episode/reward_rate": 0.07692307692307693}
{"step": 404425, "episode/length": 295.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.900000043213367, "episode/reward_rate": 0.04054054054054054}
{"step": 404644, "episode/length": 218.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.0547945205479452}
{"step": 405127, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.539637735445205, "train/action_min": 0.0, "train/action_std": 3.37626491180838, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04617130552252678, "train/actor_opt_grad_steps": 201650.0, "train/actor_opt_loss": -10.557545348389509, "train/adv_mag": 0.46497055561575173, "train/adv_max": 0.4118981120521075, "train/adv_mean": 0.0035644882637289772, "train/adv_min": -0.38708657557017184, "train/adv_std": 0.051239424576498056, "train/cont_avg": 0.9946088398972602, "train/cont_loss_mean": 6.26635494629775e-05, "train/cont_loss_std": 0.0018704429204973005, "train/cont_neg_acc": 0.99041095906741, "train/cont_neg_loss": 0.01819100807504533, "train/cont_pos_acc": 0.9999999812204544, "train/cont_pos_loss": 1.756152313800631e-05, "train/cont_pred": 0.9946155482775545, "train/cont_rate": 0.9946088398972602, "train/dyn_loss_mean": 4.913668730487562, "train/dyn_loss_std": 8.733480335914926, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.046023615419048, "train/extr_critic_critic_opt_grad_steps": 201650.0, "train/extr_critic_critic_opt_loss": 16363.001096960616, "train/extr_critic_mag": 9.808792062001686, "train/extr_critic_max": 9.808792062001686, "train/extr_critic_mean": 2.6986401113745284, "train/extr_critic_min": -0.5092891536346854, "train/extr_critic_std": 2.416359885098183, "train/extr_return_normed_mag": 1.4189281006381935, "train/extr_return_normed_max": 1.4189281006381935, "train/extr_return_normed_mean": 0.3824703732173737, "train/extr_return_normed_min": -0.08897069683426047, "train/extr_return_normed_std": 0.32612653301186756, "train/extr_return_rate": 0.7636157310988805, "train/extr_return_raw_mag": 10.529176868804514, "train/extr_return_raw_max": 10.529176868804514, "train/extr_return_raw_mean": 2.725530363109014, "train/extr_return_raw_min": -0.8256598212947585, "train/extr_return_raw_std": 2.456125690512461, "train/extr_reward_mag": 1.0347933116024488, "train/extr_reward_max": 1.0347933116024488, "train/extr_reward_mean": 0.051115177673836276, "train/extr_reward_min": -0.6386059114377792, "train/extr_reward_std": 0.21870664986845564, "train/image_loss_mean": 2.9655598385693276, "train/image_loss_std": 8.144469143593149, "train/model_loss_mean": 5.961548824832864, "train/model_loss_std": 12.338620198916082, "train/model_opt_grad_norm": 32.71985459001097, "train/model_opt_grad_steps": 201490.84931506848, "train/model_opt_loss": 15058.662564212329, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2534.246575342466, "train/policy_entropy_mag": 2.545120461346352, "train/policy_entropy_max": 2.545120461346352, "train/policy_entropy_mean": 0.37611980470892503, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5204469443184055, "train/policy_logprob_mag": 7.4383842324557365, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.377675619843888, "train/policy_logprob_min": -7.4383842324557365, "train/policy_logprob_std": 0.9966488472402912, "train/policy_randomness_mag": 0.8983158346724837, "train/policy_randomness_max": 0.8983158346724837, "train/policy_randomness_mean": 0.13275378524032358, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18369493347732987, "train/post_ent_mag": 54.821987935941515, "train/post_ent_max": 54.821987935941515, "train/post_ent_mean": 40.963615156199836, "train/post_ent_min": 18.775815101519022, "train/post_ent_std": 5.526506018965212, "train/prior_ent_mag": 76.44260584164972, "train/prior_ent_max": 76.44260584164972, "train/prior_ent_mean": 45.867430543246336, "train/prior_ent_min": 28.48451828630003, "train/prior_ent_std": 7.268297626547618, "train/rep_loss_mean": 4.913668730487562, "train/rep_loss_std": 8.733480335914926, "train/reward_avg": 0.03282320188128785, "train/reward_loss_mean": 0.04772505204971522, "train/reward_loss_std": 0.19672228804189865, "train/reward_max_data": 1.0150684967432937, "train/reward_max_pred": 1.0142059146541438, "train/reward_neg_acc": 0.9953302210324431, "train/reward_neg_loss": 0.021720732702580216, "train/reward_pos_acc": 0.9908800451722863, "train/reward_pos_loss": 0.7221033744616051, "train/reward_pred": 0.03276306046300555, "train/reward_rate": 0.03724315068493151, "stats/sum_log_reward": 10.500000190734863, "stats/max_log_achievement_collect_coal": 0.6, "stats/max_log_achievement_collect_drink": 4.6, "stats/max_log_achievement_collect_sapling": 1.4, "stats/max_log_achievement_collect_stone": 11.4, "stats/max_log_achievement_collect_wood": 10.0, "stats/max_log_achievement_defeat_skeleton": 0.4, "stats/max_log_achievement_defeat_zombie": 0.2, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.4, "stats/max_log_achievement_place_stone": 5.2, "stats/max_log_achievement_place_table": 2.6, "stats/max_log_achievement_wake_up": 1.2, "stats/mean_log_entropy": 0.3434266746044159, "replay/size": 405064.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.914229643558045e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.260982582952822e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2016339302063, "timer/env.step_count": 1454.0, "timer/env.step_total": 16.59393310546875, "timer/env.step_frac": 0.055275958655597, "timer/env.step_avg": 0.011412608738286622, "timer/env.step_min": 0.0030517578125, "timer/env.step_max": 1.863631248474121, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.2966597080230713, "timer/replay.add_frac": 0.0009882015102290933, "timer/replay.add_avg": 0.00020403006053856348, "timer/replay.add_min": 6.937980651855469e-05, "timer/replay.add_max": 0.0016112327575683594, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02479839324951172, "timer/logger.write_frac": 8.260579039778672e-05, "timer/logger.write_avg": 0.02479839324951172, "timer/logger.write_min": 0.02479839324951172, "timer/logger.write_max": 0.02479839324951172, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 10.980593919754028, "timer/agent.policy_frac": 0.03657739558575121, "timer/agent.policy_avg": 0.007551990316199469, "timer/agent.policy_min": 0.00571894645690918, "timer/agent.policy_max": 0.08105278015136719, "timer/dataset_count": 727.0, "timer/dataset_total": 0.0721883773803711, "timer/dataset_frac": 0.00024046630404801238, "timer/dataset_avg": 9.929625499363286e-05, "timer/dataset_min": 7.2479248046875e-05, "timer/dataset_max": 0.00020933151245117188, "timer/agent.train_count": 727.0, "timer/agent.train_total": 271.5119638442993, "timer/agent.train_frac": 0.9044319988858655, "timer/agent.train_avg": 0.37346900116134707, "timer/agent.train_min": 0.36606884002685547, "timer/agent.train_max": 0.4461703300476074, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2177269458770752, "timer/agent.report_frac": 0.0007252690234447372, "timer/agent.report_avg": 0.2177269458770752, "timer/agent.report_min": 0.2177269458770752, "timer/agent.report_max": 0.2177269458770752, "fps": 4.843313217514412}
{"step": 405260, "episode/length": 615.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 13.300000049173832, "episode/reward_rate": 0.016233766233766232}
{"step": 405555, "episode/length": 294.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.03728813559322034}
{"step": 405949, "episode/length": 393.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.900000013411045, "episode/reward_rate": 0.02284263959390863}
{"step": 406005, "episode/length": 55.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.10714285714285714}
{"step": 406305, "episode/length": 299.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.043333333333333335}
{"step": 406471, "episode/length": 165.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.060240963855421686}
{"step": 406579, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.618638130083476, "train/action_min": 0.0, "train/action_std": 3.453346157727176, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04376593359733281, "train/actor_opt_grad_steps": 202380.0, "train/actor_opt_loss": -13.405398019372601, "train/adv_mag": 0.4397433779827536, "train/adv_max": 0.3925217226760028, "train/adv_mean": 0.0018087651509606623, "train/adv_min": -0.36227130502054133, "train/adv_std": 0.048664476263196504, "train/cont_avg": 0.9945954623287672, "train/cont_loss_mean": 4.9762555632908406e-05, "train/cont_loss_std": 0.0015278814866908836, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0004910064394233852, "train/cont_pos_acc": 0.9999865073047273, "train/cont_pos_loss": 4.667554980863452e-05, "train/cont_pred": 0.9945816291521673, "train/cont_rate": 0.9945954623287672, "train/dyn_loss_mean": 4.943709840513256, "train/dyn_loss_std": 8.66692405857452, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.031021091219497, "train/extr_critic_critic_opt_grad_steps": 202380.0, "train/extr_critic_critic_opt_loss": 16133.836887307363, "train/extr_critic_mag": 10.392077824840808, "train/extr_critic_max": 10.392077824840808, "train/extr_critic_mean": 2.7514489366583628, "train/extr_critic_min": -0.5297039485957524, "train/extr_critic_std": 2.539769381692965, "train/extr_return_normed_mag": 1.448407436070377, "train/extr_return_normed_max": 1.448407436070377, "train/extr_return_normed_mean": 0.375299481088168, "train/extr_return_normed_min": -0.09556289435657736, "train/extr_return_normed_std": 0.3314786394164987, "train/extr_return_rate": 0.74362785971328, "train/extr_return_raw_mag": 11.087873537246494, "train/extr_return_raw_max": 11.087873537246494, "train/extr_return_raw_mean": 2.76547109264217, "train/extr_return_raw_min": -0.885426789930422, "train/extr_return_raw_std": 2.570637670281815, "train/extr_reward_mag": 1.0464381387788955, "train/extr_reward_max": 1.0464381387788955, "train/extr_reward_mean": 0.049247081761490806, "train/extr_reward_min": -0.6829074441570125, "train/extr_reward_std": 0.2155601255697747, "train/image_loss_mean": 3.0033656734309786, "train/image_loss_std": 8.021398890508364, "train/model_loss_mean": 6.017964366364152, "train/model_loss_std": 12.14516076649705, "train/model_opt_grad_norm": 35.65295932717519, "train/model_opt_grad_steps": 202220.0, "train/model_opt_loss": 15044.910958904109, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.5364952087402344, "train/policy_entropy_max": 2.5364952087402344, "train/policy_entropy_mean": 0.38777797638553463, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5255803865929173, "train/policy_logprob_mag": 7.4383841997956575, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3867981891109519, "train/policy_logprob_min": -7.4383841997956575, "train/policy_logprob_std": 0.9986404972533657, "train/policy_randomness_mag": 0.8952714955970033, "train/policy_randomness_max": 0.8952714955970033, "train/policy_randomness_mean": 0.13686861077400103, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1855068133301931, "train/post_ent_mag": 54.47614884049925, "train/post_ent_max": 54.47614884049925, "train/post_ent_mean": 40.91039877068506, "train/post_ent_min": 18.71503483759214, "train/post_ent_std": 5.548390120676119, "train/prior_ent_mag": 76.24222899136478, "train/prior_ent_max": 76.24222899136478, "train/prior_ent_mean": 45.8668063438102, "train/prior_ent_min": 28.313823726079235, "train/prior_ent_std": 7.295095502513728, "train/rep_loss_mean": 4.943709840513256, "train/rep_loss_std": 8.66692405857452, "train/reward_avg": 0.03284594363035404, "train/reward_loss_mean": 0.048323020594169014, "train/reward_loss_std": 0.19457536303017237, "train/reward_max_data": 1.0205479501044914, "train/reward_max_pred": 1.0169677358784088, "train/reward_neg_acc": 0.9946900148914285, "train/reward_neg_loss": 0.021961133850559797, "train/reward_pos_acc": 0.9886056748155045, "train/reward_pos_loss": 0.7251779363579947, "train/reward_pred": 0.032677146874062, "train/reward_rate": 0.03752407962328767, "stats/sum_log_reward": 8.9333336353302, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 5.5, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 17.0, "stats/max_log_achievement_collect_wood": 10.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.16666666666666666, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.16666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.5, "stats/max_log_achievement_place_furnace": 2.6666666666666665, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_stone": 5.833333333333333, "stats/max_log_achievement_place_table": 3.1666666666666665, "stats/max_log_achievement_wake_up": 2.5, "stats/mean_log_entropy": 0.5401246609787146, "replay/size": 406516.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.7649446282505005e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2943485223228937e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.33763003349304, "timer/env.step_count": 1452.0, "timer/env.step_total": 17.969850540161133, "timer/env.step_frac": 0.05983216468131939, "timer/env.step_avg": 0.012375930124077915, "timer/env.step_min": 0.0030536651611328125, "timer/env.step_max": 1.796327829360962, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.2792501449584961, "timer/replay.add_frac": 0.0009297874026886165, "timer/replay.add_avg": 0.00019232103647279344, "timer/replay.add_min": 8.034706115722656e-05, "timer/replay.add_max": 0.0022537708282470703, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028752803802490234, "timer/logger.write_frac": 9.573493604275888e-05, "timer/logger.write_avg": 0.028752803802490234, "timer/logger.write_min": 0.028752803802490234, "timer/logger.write_max": 0.028752803802490234, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 10.54425311088562, "timer/agent.policy_frac": 0.035107998653747606, "timer/agent.policy_avg": 0.007261882307772465, "timer/agent.policy_min": 0.0057373046875, "timer/agent.policy_max": 0.014248847961425781, "timer/dataset_count": 726.0, "timer/dataset_total": 0.06766915321350098, "timer/dataset_frac": 0.00022531027232902733, "timer/dataset_avg": 9.320820001859639e-05, "timer/dataset_min": 6.556510925292969e-05, "timer/dataset_max": 0.0002319812774658203, "timer/agent.train_count": 726.0, "timer/agent.train_total": 270.7491834163666, "timer/agent.train_frac": 0.9014827192522401, "timer/agent.train_avg": 0.3729327595266757, "timer/agent.train_min": 0.36620402336120605, "timer/agent.train_max": 0.4347224235534668, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2186744213104248, "timer/agent.report_frac": 0.0007280953148829159, "timer/agent.report_avg": 0.2186744213104248, "timer/agent.report_min": 0.2186744213104248, "timer/agent.report_max": 0.2186744213104248, "fps": 4.834477349984444}
{"step": 406641, "episode/length": 169.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.058823529411764705}
{"step": 406804, "episode/length": 162.0, "episode/score": 10.099999994039536, "episode/sum_abs_reward": 12.500000014901161, "episode/reward_rate": 0.0736196319018405}
{"step": 406968, "episode/length": 163.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 11.700000002980232, "episode/reward_rate": 0.06707317073170732}
{"step": 407119, "episode/length": 150.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.900000028312206, "episode/reward_rate": 0.059602649006622516}
{"step": 407314, "episode/length": 194.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06666666666666667}
{"step": 407573, "episode/length": 258.0, "episode/score": 11.099999979138374, "episode/sum_abs_reward": 13.30000002682209, "episode/reward_rate": 0.04633204633204633}
{"step": 407754, "episode/length": 180.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.700000025331974, "episode/reward_rate": 0.03314917127071823}
{"step": 407880, "episode/length": 125.0, "episode/score": 7.100000023841858, "episode/sum_abs_reward": 8.899999976158142, "episode/reward_rate": 0.07142857142857142}
{"step": 407993, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.605275181361607, "train/action_min": 0.0, "train/action_std": 3.4559460060937064, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04459390318287271, "train/actor_opt_grad_steps": 203095.0, "train/actor_opt_loss": -12.114378444052168, "train/adv_mag": 0.4320520622389657, "train/adv_max": 0.398191522700446, "train/adv_mean": 0.0021531116275062753, "train/adv_min": -0.3532231809837478, "train/adv_std": 0.04926360962646348, "train/cont_avg": 0.9944614955357143, "train/cont_loss_mean": 0.00010386853185845471, "train/cont_loss_std": 0.0032512963521108013, "train/cont_neg_acc": 0.9979591846466065, "train/cont_neg_loss": 0.009060227538501359, "train/cont_pos_acc": 0.9999999821186065, "train/cont_pos_loss": 4.361945496092241e-05, "train/cont_pred": 0.9944410264492035, "train/cont_rate": 0.9944614955357143, "train/dyn_loss_mean": 5.063403167043414, "train/dyn_loss_std": 8.742065164021083, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1059542102473123, "train/extr_critic_critic_opt_grad_steps": 203095.0, "train/extr_critic_critic_opt_loss": 16124.185379464287, "train/extr_critic_mag": 10.004386029924666, "train/extr_critic_max": 10.004386029924666, "train/extr_critic_mean": 2.6581606422151838, "train/extr_critic_min": -0.529080103124891, "train/extr_critic_std": 2.4664233769689288, "train/extr_return_normed_mag": 1.4195566841534206, "train/extr_return_normed_max": 1.4195566841534206, "train/extr_return_normed_mean": 0.37376189657620024, "train/extr_return_normed_min": -0.08936323342578752, "train/extr_return_normed_std": 0.3280836101089205, "train/extr_return_rate": 0.7446149919714247, "train/extr_return_raw_mag": 10.626768698011126, "train/extr_return_raw_max": 10.626768698011126, "train/extr_return_raw_mean": 2.6745197909218925, "train/extr_return_raw_min": -0.8462122061422893, "train/extr_return_raw_std": 2.4945866874286104, "train/extr_reward_mag": 1.0341294050216674, "train/extr_reward_max": 1.0341294050216674, "train/extr_reward_mean": 0.048476385271974974, "train/extr_reward_min": -0.6762943863868713, "train/extr_reward_std": 0.2142269622002329, "train/image_loss_mean": 3.1528497508593967, "train/image_loss_std": 8.126498178073339, "train/model_loss_mean": 6.239072346687317, "train/model_loss_std": 12.283508716310774, "train/model_opt_grad_norm": 33.53318173544748, "train/model_opt_grad_steps": 202934.3142857143, "train/model_opt_loss": 16934.806752232143, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2714.285714285714, "train/policy_entropy_mag": 2.5508196558271137, "train/policy_entropy_max": 2.5508196558271137, "train/policy_entropy_mean": 0.4014644744140761, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5479547381401062, "train/policy_logprob_mag": 7.438384233202253, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4010572212082999, "train/policy_logprob_min": -7.438384233202253, "train/policy_logprob_std": 1.0128372669219972, "train/policy_randomness_mag": 0.9003273963928222, "train/policy_randomness_max": 0.9003273963928222, "train/policy_randomness_mean": 0.14169934423906463, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19340397481407437, "train/post_ent_mag": 54.91205024719238, "train/post_ent_max": 54.91205024719238, "train/post_ent_mean": 40.87741977146694, "train/post_ent_min": 19.119451495579312, "train/post_ent_std": 5.500860057558332, "train/prior_ent_mag": 76.35483714512416, "train/prior_ent_max": 76.35483714512416, "train/prior_ent_mean": 45.95537518092564, "train/prior_ent_min": 27.96422563280378, "train/prior_ent_std": 7.386193820408413, "train/rep_loss_mean": 5.063403167043414, "train/rep_loss_std": 8.742065164021083, "train/reward_avg": 0.03235351535092507, "train/reward_loss_mean": 0.04807684676987784, "train/reward_loss_std": 0.19686237424612046, "train/reward_max_data": 1.0171428612300328, "train/reward_max_pred": 1.0161663940974643, "train/reward_neg_acc": 0.9950262929712023, "train/reward_neg_loss": 0.021763931161590984, "train/reward_pos_acc": 0.9874058706419808, "train/reward_pos_loss": 0.72943640095847, "train/reward_pred": 0.032183396137718645, "train/reward_rate": 0.037360491071428574, "stats/sum_log_reward": 8.975000023841858, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 1.75, "stats/max_log_achievement_collect_sapling": 1.875, "stats/max_log_achievement_collect_stone": 6.625, "stats/max_log_achievement_collect_wood": 8.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.25, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.125, "stats/max_log_achievement_place_furnace": 0.75, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 2.875, "stats/max_log_achievement_place_table": 2.25, "stats/max_log_achievement_wake_up": 1.625, "stats/mean_log_entropy": 0.34922664426267147, "replay/size": 407930.0, "replay/inserts": 1414.0, "replay/samples": 11312.0, "replay/insert_wait_avg": 3.849768739778554e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.249505573148606e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2904050350189, "timer/env.step_count": 1414.0, "timer/env.step_total": 21.454511404037476, "timer/env.step_frac": 0.07144587720521912, "timer/env.step_avg": 0.015172921785033575, "timer/env.step_min": 0.003009319305419922, "timer/env.step_max": 1.757103443145752, "timer/replay.add_count": 1414.0, "timer/replay.add_total": 0.2644939422607422, "timer/replay.add_frac": 0.0008807938509720207, "timer/replay.add_avg": 0.0001870537073979789, "timer/replay.add_min": 7.152557373046875e-05, "timer/replay.add_max": 0.0020227432250976562, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023835420608520508, "timer/logger.write_frac": 7.937456611622638e-05, "timer/logger.write_avg": 0.023835420608520508, "timer/logger.write_min": 0.023835420608520508, "timer/logger.write_max": 0.023835420608520508, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00024819374084472656, "timer/checkpoint.save_frac": 8.265123916156529e-07, "timer/checkpoint.save_avg": 0.00024819374084472656, "timer/checkpoint.save_min": 0.00024819374084472656, "timer/checkpoint.save_max": 0.00024819374084472656, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3701045513153076, "timer/agent.save_frac": 0.00456259849912797, "timer/agent.save_avg": 1.3701045513153076, "timer/agent.save_min": 1.3701045513153076, "timer/agent.save_max": 1.3701045513153076, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.532669067382812e-05, "timer/replay.save_frac": 2.1754504832150707e-07, "timer/replay.save_avg": 6.532669067382812e-05, "timer/replay.save_min": 6.532669067382812e-05, "timer/replay.save_max": 6.532669067382812e-05, "timer/agent.policy_count": 1414.0, "timer/agent.policy_total": 14.351029872894287, "timer/agent.policy_frac": 0.047790504232796634, "timer/agent.policy_avg": 0.010149243191580119, "timer/agent.policy_min": 0.005559682846069336, "timer/agent.policy_max": 2.7641983032226562, "timer/dataset_count": 707.0, "timer/dataset_total": 0.06631708145141602, "timer/dataset_frac": 0.000220843158287666, "timer/dataset_avg": 9.380068097795759e-05, "timer/dataset_min": 7.104873657226562e-05, "timer/dataset_max": 0.00023555755615234375, "timer/agent.train_count": 707.0, "timer/agent.train_total": 263.41921496391296, "timer/agent.train_frac": 0.8772148911424388, "timer/agent.train_avg": 0.37258729132095186, "timer/agent.train_min": 0.36571478843688965, "timer/agent.train_max": 0.4526045322418213, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21975493431091309, "timer/agent.report_frac": 0.0007318080452330335, "timer/agent.report_avg": 0.21975493431091309, "timer/agent.report_min": 0.21975493431091309, "timer/agent.report_max": 0.21975493431091309, "fps": 4.708709238503905}
{"step": 408048, "episode/length": 167.0, "episode/score": 11.099999979138374, "episode/sum_abs_reward": 14.100000038743019, "episode/reward_rate": 0.07142857142857142}
{"step": 408214, "episode/length": 165.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.899999976158142, "episode/reward_rate": 0.07228915662650602}
{"step": 408369, "episode/length": 154.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.06451612903225806}
{"step": 408445, "episode/length": 75.0, "episode/score": 4.100000001490116, "episode/sum_abs_reward": 6.100000001490116, "episode/reward_rate": 0.07894736842105263}
{"step": 408704, "episode/length": 258.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 10.100000031292439, "episode/reward_rate": 0.03088803088803089}
{"step": 408889, "episode/length": 184.0, "episode/score": 8.100000031292439, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.05405405405405406}
{"step": 409039, "episode/length": 149.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.07333333333333333}
{"step": 409237, "episode/length": 197.0, "episode/score": 7.099999971687794, "episode/sum_abs_reward": 9.100000031292439, "episode/reward_rate": 0.045454545454545456}
{"step": 409405, "episode/length": 167.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.05357142857142857}
{"step": 409425, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.566759745279948, "train/action_min": 0.0, "train/action_std": 3.391959978474511, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04481304457618131, "train/actor_opt_grad_steps": 203805.0, "train/actor_opt_loss": -12.89917083322588, "train/adv_mag": 0.4334767709175746, "train/adv_max": 0.38087012784348595, "train/adv_mean": 0.0021322042684914777, "train/adv_min": -0.3804885558784008, "train/adv_std": 0.049888590454227395, "train/cont_avg": 0.9940999348958334, "train/cont_loss_mean": 2.751255864789452e-05, "train/cont_loss_std": 0.000803541139864213, "train/cont_neg_acc": 0.9980158739619784, "train/cont_neg_loss": 0.003103120549222164, "train/cont_pos_acc": 0.999999980131785, "train/cont_pos_loss": 8.114598237401398e-06, "train/cont_pred": 0.9941059889064895, "train/cont_rate": 0.9940999348958334, "train/dyn_loss_mean": 4.9694850709703235, "train/dyn_loss_std": 8.800291034910414, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0052638318803575, "train/extr_critic_critic_opt_grad_steps": 203805.0, "train/extr_critic_critic_opt_loss": 16083.546440972223, "train/extr_critic_mag": 9.979566640324062, "train/extr_critic_max": 9.979566640324062, "train/extr_critic_mean": 2.6262935532463922, "train/extr_critic_min": -0.5563040590948529, "train/extr_critic_std": 2.480505608850055, "train/extr_return_normed_mag": 1.429460561937756, "train/extr_return_normed_max": 1.429460561937756, "train/extr_return_normed_mean": 0.37369897816744113, "train/extr_return_normed_min": -0.08992657479312685, "train/extr_return_normed_std": 0.33355236012074685, "train/extr_return_rate": 0.7311921674344275, "train/extr_return_raw_mag": 10.598278297318352, "train/extr_return_raw_max": 10.598278297318352, "train/extr_return_raw_mean": 2.6423606938785977, "train/extr_return_raw_min": -0.8514884205328094, "train/extr_return_raw_std": 2.513690733247333, "train/extr_reward_mag": 1.0384940140777164, "train/extr_reward_max": 1.0384940140777164, "train/extr_reward_mean": 0.04844883415434095, "train/extr_reward_min": -0.6897562030288908, "train/extr_reward_std": 0.21445640259318882, "train/image_loss_mean": 3.110406504737006, "train/image_loss_std": 8.26104505856832, "train/model_loss_mean": 6.142094870408376, "train/model_loss_std": 12.41173968050215, "train/model_opt_grad_norm": 31.74766891532474, "train/model_opt_grad_steps": 203643.54166666666, "train/model_opt_loss": 14148.910549587674, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2291.6666666666665, "train/policy_entropy_mag": 2.5615517927540674, "train/policy_entropy_max": 2.5615517927540674, "train/policy_entropy_mean": 0.3917251576979955, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5358283565276198, "train/policy_logprob_mag": 7.438384221659766, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39186617359519005, "train/policy_logprob_min": -7.438384221659766, "train/policy_logprob_std": 1.0038228150871065, "train/policy_randomness_mag": 0.9041153722339206, "train/policy_randomness_max": 0.9041153722339206, "train/policy_randomness_mean": 0.138261790594293, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18912389605409569, "train/post_ent_mag": 54.73596265580919, "train/post_ent_max": 54.73596265580919, "train/post_ent_mean": 41.12970553504096, "train/post_ent_min": 19.002008040746052, "train/post_ent_std": 5.565493047237396, "train/prior_ent_mag": 76.36074786716037, "train/prior_ent_max": 76.36074786716037, "train/prior_ent_mean": 46.05815495385064, "train/prior_ent_min": 27.89041198624505, "train/prior_ent_std": 7.30120313167572, "train/rep_loss_mean": 4.9694850709703235, "train/rep_loss_std": 8.800291034910414, "train/reward_avg": 0.032284884907615684, "train/reward_loss_mean": 0.049969786415911384, "train/reward_loss_std": 0.2027607173141506, "train/reward_max_data": 1.0180555598603354, "train/reward_max_pred": 1.0141081826554403, "train/reward_neg_acc": 0.9947566067179044, "train/reward_neg_loss": 0.023452031710702512, "train/reward_pos_acc": 0.9869798835780885, "train/reward_pos_loss": 0.7311609726813104, "train/reward_pred": 0.032068417730948165, "train/reward_rate": 0.03750271267361111, "stats/sum_log_reward": 8.211111280653212, "stats/max_log_achievement_collect_coal": 0.3333333333333333, "stats/max_log_achievement_collect_drink": 2.4444444444444446, "stats/max_log_achievement_collect_sapling": 0.7777777777777778, "stats/max_log_achievement_collect_stone": 8.0, "stats/max_log_achievement_collect_wood": 8.11111111111111, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.1111111111111111, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.3333333333333333, "stats/max_log_achievement_place_furnace": 0.7777777777777778, "stats/max_log_achievement_place_plant": 0.7777777777777778, "stats/max_log_achievement_place_stone": 4.333333333333333, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.1111111111111112, "stats/mean_log_entropy": 0.31517592403623795, "replay/size": 409362.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.826518298527382e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2512188716973672e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.08200120925903, "timer/env.step_count": 1432.0, "timer/env.step_total": 22.157967567443848, "timer/env.step_frac": 0.07383970874011941, "timer/env.step_avg": 0.015473441038717771, "timer/env.step_min": 0.002925872802734375, "timer/env.step_max": 1.822587013244629, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.2829887866973877, "timer/replay.add_frac": 0.0009430381880852908, "timer/replay.add_avg": 0.00019761786780543832, "timer/replay.add_min": 7.319450378417969e-05, "timer/replay.add_max": 0.001543283462524414, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.033580780029296875, "timer/logger.write_frac": 0.00011190534551880594, "timer/logger.write_avg": 0.033580780029296875, "timer/logger.write_min": 0.033580780029296875, "timer/logger.write_max": 0.033580780029296875, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 10.31778597831726, "timer/agent.policy_frac": 0.0343832217085298, "timer/agent.policy_avg": 0.007205157806087472, "timer/agent.policy_min": 0.005658388137817383, "timer/agent.policy_max": 0.016919612884521484, "timer/dataset_count": 716.0, "timer/dataset_total": 0.06634879112243652, "timer/dataset_frac": 0.00022110220158178993, "timer/dataset_avg": 9.266590938887782e-05, "timer/dataset_min": 6.318092346191406e-05, "timer/dataset_max": 0.00019884109497070312, "timer/agent.train_count": 716.0, "timer/agent.train_total": 266.520480632782, "timer/agent.train_frac": 0.888158835114295, "timer/agent.train_avg": 0.37223530814634354, "timer/agent.train_min": 0.36354899406433105, "timer/agent.train_max": 0.3891937732696533, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2223801612854004, "timer/agent.report_frac": 0.0007410646436282792, "timer/agent.report_avg": 0.2223801612854004, "timer/agent.report_min": 0.2223801612854004, "timer/agent.report_max": 0.2223801612854004, "fps": 4.7719652908553}
{"step": 409829, "episode/length": 423.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.02830188679245283}
{"step": 409882, "episode/length": 52.0, "episode/score": 2.0999999940395355, "episode/sum_abs_reward": 4.300000011920929, "episode/reward_rate": 0.07547169811320754}
{"step": 410045, "episode/length": 162.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.899999976158142, "episode/reward_rate": 0.0736196319018405}
{"step": 410250, "episode/length": 204.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.05365853658536585}
{"step": 410426, "episode/length": 175.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 13.299999982118607, "episode/reward_rate": 0.07386363636363637}
{"step": 410730, "episode/length": 303.0, "episode/score": 10.099999979138374, "episode/sum_abs_reward": 13.100000038743019, "episode/reward_rate": 0.03618421052631579}
{"step": 410882, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.548353221318493, "train/action_min": 0.0, "train/action_std": 3.32572040819142, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04471106020963355, "train/actor_opt_grad_steps": 204530.0, "train/actor_opt_loss": -14.215516848106907, "train/adv_mag": 0.4404779660375151, "train/adv_max": 0.40367777563937723, "train/adv_mean": 0.0021134256178450177, "train/adv_min": -0.36438916399054333, "train/adv_std": 0.049483329516975844, "train/cont_avg": 0.9942610231164384, "train/cont_loss_mean": 3.332625909737769e-05, "train/cont_loss_std": 0.0010362965951831902, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 6.289321140373007e-05, "train/cont_pos_acc": 0.9999865130202411, "train/cont_pos_loss": 3.329653083028461e-05, "train/cont_pred": 0.994237970815946, "train/cont_rate": 0.9942610231164384, "train/dyn_loss_mean": 4.772707334936482, "train/dyn_loss_std": 8.643281296507952, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0719301888387498, "train/extr_critic_critic_opt_grad_steps": 204530.0, "train/extr_critic_critic_opt_loss": 16043.618939961472, "train/extr_critic_mag": 10.106547355651855, "train/extr_critic_max": 10.106547355651855, "train/extr_critic_mean": 2.5991852512098337, "train/extr_critic_min": -0.5655189736248696, "train/extr_critic_std": 2.4868429931875777, "train/extr_return_normed_mag": 1.4399721802097478, "train/extr_return_normed_max": 1.4399721802097478, "train/extr_return_normed_mean": 0.3682675439200989, "train/extr_return_normed_min": -0.09088345586437069, "train/extr_return_normed_std": 0.33355496354299047, "train/extr_return_rate": 0.7299907632070045, "train/extr_return_raw_mag": 10.72044155695667, "train/extr_return_raw_max": 10.72044155695667, "train/extr_return_raw_mean": 2.615171350844919, "train/extr_return_raw_min": -0.8584435141249879, "train/extr_return_raw_std": 2.52323968443152, "train/extr_reward_mag": 1.0383573460252318, "train/extr_reward_max": 1.0383573460252318, "train/extr_reward_mean": 0.04871992685206949, "train/extr_reward_min": -0.6752036271029955, "train/extr_reward_std": 0.21517239184412237, "train/image_loss_mean": 2.87559507317739, "train/image_loss_std": 7.507011256805838, "train/model_loss_mean": 5.788990295096619, "train/model_loss_std": 11.620989276938243, "train/model_opt_grad_norm": 30.14144380125281, "train/model_opt_grad_steps": 204367.0, "train/model_opt_loss": 7236.237859856593, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.562423967335322, "train/policy_entropy_max": 2.562423967335322, "train/policy_entropy_mean": 0.38320575552443936, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5256980988260818, "train/policy_logprob_mag": 7.4383841997956575, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38236596302626885, "train/policy_logprob_min": -7.4383841997956575, "train/policy_logprob_std": 0.9957727708228646, "train/policy_randomness_mag": 0.9044232107188603, "train/policy_randomness_max": 0.9044232107188603, "train/policy_randomness_mean": 0.1352548145063936, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18554836062535848, "train/post_ent_mag": 54.76332698456228, "train/post_ent_max": 54.76332698456228, "train/post_ent_mean": 41.07828192514916, "train/post_ent_min": 18.782432255679613, "train/post_ent_std": 5.52309369387692, "train/prior_ent_mag": 76.30196432871361, "train/prior_ent_max": 76.30196432871361, "train/prior_ent_mean": 45.836998821937875, "train/prior_ent_min": 28.216393222547556, "train/prior_ent_std": 7.252682679320035, "train/rep_loss_mean": 4.772707334936482, "train/rep_loss_std": 8.643281296507952, "train/reward_avg": 0.03290480492662077, "train/reward_loss_mean": 0.049737562336129686, "train/reward_loss_std": 0.20354235682585467, "train/reward_max_data": 1.0164383600835931, "train/reward_max_pred": 1.0142888549255997, "train/reward_neg_acc": 0.9950065710773207, "train/reward_neg_loss": 0.02277654327758371, "train/reward_pos_acc": 0.9888826388202302, "train/reward_pos_loss": 0.7319856939250475, "train/reward_pred": 0.032554403368434674, "train/reward_rate": 0.03799229452054795, "stats/sum_log_reward": 9.100000301996866, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 2.3333333333333335, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 10.666666666666666, "stats/max_log_achievement_collect_wood": 8.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.3333333333333333, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.8333333333333333, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 3.8333333333333335, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 1.8333333333333333, "stats/mean_log_entropy": 0.3930107057094574, "replay/size": 410819.0, "replay/inserts": 1457.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.834824571890952e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2646746504437793e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0087242126465, "timer/env.step_count": 1457.0, "timer/env.step_total": 17.200023412704468, "timer/env.step_frac": 0.05733174412792434, "timer/env.step_avg": 0.01180509499842448, "timer/env.step_min": 0.003084421157836914, "timer/env.step_max": 1.684861421585083, "timer/replay.add_count": 1457.0, "timer/replay.add_total": 0.28281164169311523, "timer/replay.add_frac": 0.0009426780585642505, "timer/replay.add_avg": 0.0001941054507159336, "timer/replay.add_min": 7.343292236328125e-05, "timer/replay.add_max": 0.0020093917846679688, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028326988220214844, "timer/logger.write_frac": 9.442054825091235e-05, "timer/logger.write_avg": 0.028326988220214844, "timer/logger.write_min": 0.028326988220214844, "timer/logger.write_max": 0.028326988220214844, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1457.0, "timer/agent.policy_total": 10.49439024925232, "timer/agent.policy_frac": 0.03498028357939979, "timer/agent.policy_avg": 0.007202738674847165, "timer/agent.policy_min": 0.0055849552154541016, "timer/agent.policy_max": 0.017628908157348633, "timer/dataset_count": 728.0, "timer/dataset_total": 0.06803750991821289, "timer/dataset_frac": 0.00022678510465578273, "timer/dataset_avg": 9.34581180195232e-05, "timer/dataset_min": 7.104873657226562e-05, "timer/dataset_max": 0.00020766258239746094, "timer/agent.train_count": 728.0, "timer/agent.train_total": 271.2336723804474, "timer/agent.train_frac": 0.9040859498079019, "timer/agent.train_avg": 0.37257372579731785, "timer/agent.train_min": 0.3648262023925781, "timer/agent.train_max": 0.38514208793640137, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22285246849060059, "timer/agent.report_frac": 0.0007428199599043744, "timer/agent.report_avg": 0.22285246849060059, "timer/agent.report_min": 0.22285246849060059, "timer/agent.report_max": 0.22285246849060059, "fps": 4.856444730646335}
{"step": 410898, "episode/length": 167.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.05952380952380952}
{"step": 411072, "episode/length": 173.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06896551724137931}
{"step": 411243, "episode/length": 170.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.05263157894736842}
{"step": 411411, "episode/length": 167.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06547619047619048}
{"step": 411617, "episode/length": 205.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.04854368932038835}
{"step": 411858, "episode/length": 240.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.04979253112033195}
{"step": 412313, "stats/sum_log_reward": 9.766667048136393, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 12.0, "stats/max_log_achievement_collect_wood": 11.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.3333333333333333, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.3333333333333333, "stats/max_log_achievement_place_furnace": 0.3333333333333333, "stats/max_log_achievement_place_plant": 1.1666666666666667, "stats/max_log_achievement_place_stone": 8.0, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.2636722922325134, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.56238652618838, "train/action_min": 0.0, "train/action_std": 3.3373115264194113, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.044995999357230226, "train/actor_opt_grad_steps": 205250.0, "train/actor_opt_loss": -11.968206659589015, "train/adv_mag": 0.435531692185872, "train/adv_max": 0.38981133699417114, "train/adv_mean": 0.0025544961896281472, "train/adv_min": -0.37753154274443507, "train/adv_std": 0.050445273938313336, "train/cont_avg": 0.9947320642605634, "train/cont_loss_mean": 0.00024215557318395703, "train/cont_loss_std": 0.007692663262088858, "train/cont_neg_acc": 0.9966269842215947, "train/cont_neg_loss": 0.008266160395971512, "train/cont_pos_acc": 0.9999861599693836, "train/cont_pos_loss": 0.00017710615984501793, "train/cont_pred": 0.9947347682966313, "train/cont_rate": 0.9947320642605634, "train/dyn_loss_mean": 5.030494548905064, "train/dyn_loss_std": 8.766497108298289, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.079969475806599, "train/extr_critic_critic_opt_grad_steps": 205250.0, "train/extr_critic_critic_opt_loss": 16260.392536861797, "train/extr_critic_mag": 9.936868304937658, "train/extr_critic_max": 9.936868304937658, "train/extr_critic_mean": 2.5337092574213593, "train/extr_critic_min": -0.5918403259465392, "train/extr_critic_std": 2.3880589948573583, "train/extr_return_normed_mag": 1.4379525570802285, "train/extr_return_normed_max": 1.4379525570802285, "train/extr_return_normed_mean": 0.3651638326930328, "train/extr_return_normed_min": -0.1075327122505282, "train/extr_return_normed_std": 0.32296454948438724, "train/extr_return_rate": 0.7377732941802119, "train/extr_return_raw_mag": 10.589318262019628, "train/extr_return_raw_max": 10.589318262019628, "train/extr_return_raw_mean": 2.5528449021594626, "train/extr_return_raw_min": -0.9888228455059965, "train/extr_return_raw_std": 2.4196660182845426, "train/extr_reward_mag": 1.0416897686434463, "train/extr_reward_max": 1.0416897686434463, "train/extr_reward_mean": 0.049376928864020696, "train/extr_reward_min": -0.70563122084443, "train/extr_reward_std": 0.21524219949480514, "train/image_loss_mean": 3.2090433298701972, "train/image_loss_std": 8.303256887785146, "train/model_loss_mean": 6.276671315582705, "train/model_loss_std": 12.498993846732127, "train/model_opt_grad_norm": 30.71293461490685, "train/model_opt_grad_steps": 205087.0, "train/model_opt_loss": 14206.735826089349, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2271.1267605633802, "train/policy_entropy_mag": 2.5521516128325126, "train/policy_entropy_max": 2.5521516128325126, "train/policy_entropy_mean": 0.39076658411764764, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5282646316877553, "train/policy_logprob_mag": 7.438384244139765, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39109274514124426, "train/policy_logprob_min": -7.438384244139765, "train/policy_logprob_std": 1.0026517485229063, "train/policy_randomness_mag": 0.9007975224038245, "train/policy_randomness_max": 0.9007975224038245, "train/policy_randomness_mean": 0.13792345714820942, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18645423115559026, "train/post_ent_mag": 55.121138505532706, "train/post_ent_max": 55.121138505532706, "train/post_ent_mean": 40.92353364111672, "train/post_ent_min": 19.05286799686056, "train/post_ent_std": 5.644524829488405, "train/prior_ent_mag": 76.4956850938394, "train/prior_ent_max": 76.4956850938394, "train/prior_ent_mean": 45.94268514069034, "train/prior_ent_min": 27.911815294077698, "train/prior_ent_std": 7.3594853777281, "train/rep_loss_mean": 5.030494548905064, "train/rep_loss_std": 8.766497108298289, "train/reward_avg": 0.032710717335133484, "train/reward_loss_mean": 0.04908917988584915, "train/reward_loss_std": 0.20151380984716014, "train/reward_max_data": 1.0140845104002616, "train/reward_max_pred": 1.0143816571840099, "train/reward_neg_acc": 0.9940654862094933, "train/reward_neg_loss": 0.022496802994692828, "train/reward_pos_acc": 0.9880816684642308, "train/reward_pos_loss": 0.7338324953132952, "train/reward_pred": 0.032457008564346274, "train/reward_rate": 0.03739821742957746, "replay/size": 412250.0, "replay/inserts": 1431.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.855516658972228e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2567755896285925e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2111647129059, "timer/env.step_count": 1431.0, "timer/env.step_total": 19.413679122924805, "timer/env.step_frac": 0.06466674596026516, "timer/env.step_avg": 0.013566512315111674, "timer/env.step_min": 0.0031654834747314453, "timer/env.step_max": 2.1157946586608887, "timer/replay.add_count": 1431.0, "timer/replay.add_total": 0.26322507858276367, "timer/replay.add_frac": 0.0008767997647072444, "timer/replay.add_avg": 0.00018394484876503402, "timer/replay.add_min": 6.771087646484375e-05, "timer/replay.add_max": 0.0028960704803466797, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029007673263549805, "timer/logger.write_frac": 9.662423211771638e-05, "timer/logger.write_avg": 0.029007673263549805, "timer/logger.write_min": 0.029007673263549805, "timer/logger.write_max": 0.029007673263549805, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004391670227050781, "timer/checkpoint.save_frac": 1.462860394033169e-06, "timer/checkpoint.save_avg": 0.0004391670227050781, "timer/checkpoint.save_min": 0.0004391670227050781, "timer/checkpoint.save_max": 0.0004391670227050781, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.5606470108032227, "timer/agent.save_frac": 0.005198497571853068, "timer/agent.save_avg": 1.5606470108032227, "timer/agent.save_min": 1.5606470108032227, "timer/agent.save_max": 1.5606470108032227, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.748603820800781e-05, "timer/replay.save_frac": 2.581051183826167e-07, "timer/replay.save_avg": 7.748603820800781e-05, "timer/replay.save_min": 7.748603820800781e-05, "timer/replay.save_max": 7.748603820800781e-05, "timer/agent.policy_count": 1431.0, "timer/agent.policy_total": 12.521129608154297, "timer/agent.policy_frac": 0.04170774134975408, "timer/agent.policy_avg": 0.008749915868731166, "timer/agent.policy_min": 0.00562286376953125, "timer/agent.policy_max": 1.5492947101593018, "timer/dataset_count": 716.0, "timer/dataset_total": 0.0645749568939209, "timer/dataset_frac": 0.00021509845230331255, "timer/dataset_avg": 9.018848728201243e-05, "timer/dataset_min": 6.008148193359375e-05, "timer/dataset_max": 0.0001385211944580078, "timer/agent.train_count": 716.0, "timer/agent.train_total": 267.22922444343567, "timer/agent.train_frac": 0.890137529358673, "timer/agent.train_avg": 0.3732251738036811, "timer/agent.train_min": 0.3661997318267822, "timer/agent.train_max": 0.9443118572235107, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22191524505615234, "timer/agent.report_frac": 0.0007391971756559138, "timer/agent.report_avg": 0.22191524505615234, "timer/agent.report_min": 0.22191524505615234, "timer/agent.report_max": 0.22191524505615234, "fps": 4.766550532011905}
{"step": 412313, "episode/length": 454.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.02857142857142857}
{"step": 412490, "episode/length": 176.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 11.500000037252903, "episode/reward_rate": 0.05649717514124294}
{"step": 412693, "episode/length": 202.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.299999997019768, "episode/reward_rate": 0.059113300492610835}
{"step": 412903, "episode/length": 209.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.05714285714285714}
{"step": 413049, "episode/length": 145.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.0821917808219178}
{"step": 413232, "episode/length": 182.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.900000013411045, "episode/reward_rate": 0.04918032786885246}
{"step": 413442, "episode/length": 209.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.06190476190476191}
{"step": 413622, "episode/length": 179.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 11.299999997019768, "episode/reward_rate": 0.06111111111111111}
{"step": 413755, "stats/sum_log_reward": 10.225000262260437, "stats/max_log_achievement_collect_coal": 1.75, "stats/max_log_achievement_collect_drink": 3.25, "stats/max_log_achievement_collect_sapling": 1.125, "stats/max_log_achievement_collect_stone": 15.5, "stats/max_log_achievement_collect_wood": 9.125, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.375, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.125, "stats/max_log_achievement_place_furnace": 1.25, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 8.25, "stats/max_log_achievement_place_table": 2.625, "stats/max_log_achievement_wake_up": 1.375, "stats/mean_log_entropy": 0.36935616098344326, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.532400343153212, "train/action_min": 0.0, "train/action_std": 3.3220776981777616, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04498228679100672, "train/actor_opt_grad_steps": 205965.0, "train/actor_opt_loss": -10.882033293859827, "train/adv_mag": 0.4379153711100419, "train/adv_max": 0.38290906076629955, "train/adv_mean": 0.002903707977616755, "train/adv_min": -0.3715407916655143, "train/adv_std": 0.0495651141843862, "train/cont_avg": 0.99462890625, "train/cont_loss_mean": 8.064744683010538e-05, "train/cont_loss_std": 0.002530444334774352, "train/cont_neg_acc": 0.9986111116078165, "train/cont_neg_loss": 0.007179608594273961, "train/cont_pos_acc": 0.9999999867545234, "train/cont_pos_loss": 1.309739901866891e-05, "train/cont_pred": 0.9946328534020318, "train/cont_rate": 0.99462890625, "train/dyn_loss_mean": 4.994717912541495, "train/dyn_loss_std": 8.705063117874992, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0178990877336926, "train/extr_critic_critic_opt_grad_steps": 205965.0, "train/extr_critic_critic_opt_loss": 16308.771633572049, "train/extr_critic_mag": 9.950979524188572, "train/extr_critic_max": 9.950979524188572, "train/extr_critic_mean": 2.6994961433940463, "train/extr_critic_min": -0.5969499548276266, "train/extr_critic_std": 2.4791537440485425, "train/extr_return_normed_mag": 1.422419947054651, "train/extr_return_normed_max": 1.422419947054651, "train/extr_return_normed_mean": 0.38140374256504905, "train/extr_return_normed_min": -0.09490092284977436, "train/extr_return_normed_std": 0.3294439659350448, "train/extr_return_rate": 0.753166632519828, "train/extr_return_raw_mag": 10.662275075912476, "train/extr_return_raw_max": 10.662275075912476, "train/extr_return_raw_mean": 2.7216721177101135, "train/extr_return_raw_min": -0.9136862829327583, "train/extr_return_raw_std": 2.5136669443713293, "train/extr_reward_mag": 1.0403963426748912, "train/extr_reward_max": 1.0403963426748912, "train/extr_reward_mean": 0.052405687462952405, "train/extr_reward_min": -0.6758545057641135, "train/extr_reward_std": 0.22211906272504064, "train/image_loss_mean": 3.023333269688818, "train/image_loss_std": 8.043164703581068, "train/model_loss_mean": 6.069768064551884, "train/model_loss_std": 12.179830220010546, "train/model_opt_grad_norm": 33.20671264330546, "train/model_opt_grad_steps": 205801.59722222222, "train/model_opt_loss": 15440.296020507812, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2534.722222222222, "train/policy_entropy_mag": 2.552698698308733, "train/policy_entropy_max": 2.552698698308733, "train/policy_entropy_mean": 0.36829350019494694, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4995325431227684, "train/policy_logprob_mag": 7.438384261396196, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36783563614719444, "train/policy_logprob_min": -7.438384261396196, "train/policy_logprob_std": 0.981642553375827, "train/policy_randomness_mag": 0.9009906202554703, "train/policy_randomness_max": 0.9009906202554703, "train/policy_randomness_mean": 0.12999144331034687, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1763130653028687, "train/post_ent_mag": 54.883631494310166, "train/post_ent_max": 54.883631494310166, "train/post_ent_mean": 41.0425066418118, "train/post_ent_min": 18.807753986782497, "train/post_ent_std": 5.559142437246111, "train/prior_ent_mag": 76.40831036037869, "train/prior_ent_max": 76.40831036037869, "train/prior_ent_mean": 46.011267768012154, "train/prior_ent_min": 28.13629566298591, "train/prior_ent_std": 7.27351215812895, "train/rep_loss_mean": 4.994717912541495, "train/rep_loss_std": 8.705063117874992, "train/reward_avg": 0.0334120008111414, "train/reward_loss_mean": 0.049523427694415055, "train/reward_loss_std": 0.19752257607049412, "train/reward_max_data": 1.0166666706403096, "train/reward_max_pred": 1.0169485873646207, "train/reward_neg_acc": 0.994583300418324, "train/reward_neg_loss": 0.022717979413250253, "train/reward_pos_acc": 0.9903574428624577, "train/reward_pos_loss": 0.7207756737867991, "train/reward_pred": 0.03326530115575426, "train/reward_rate": 0.038397894965277776, "replay/size": 413692.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.7948566071699463e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.237602405839092e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2132124900818, "timer/env.step_count": 1442.0, "timer/env.step_total": 20.262821435928345, "timer/env.step_frac": 0.06749476902718854, "timer/env.step_avg": 0.014051887264860155, "timer/env.step_min": 0.00298309326171875, "timer/env.step_max": 1.6536250114440918, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.270524263381958, "timer/replay.add_frac": 0.000901107120296697, "timer/replay.add_avg": 0.00018760351136058113, "timer/replay.add_min": 7.343292236328125e-05, "timer/replay.add_max": 0.0012524127960205078, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03340744972229004, "timer/logger.write_frac": 0.00011127907877603398, "timer/logger.write_avg": 0.03340744972229004, "timer/logger.write_min": 0.03340744972229004, "timer/logger.write_max": 0.03340744972229004, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 10.398848295211792, "timer/agent.policy_frac": 0.03463820998736137, "timer/agent.policy_avg": 0.007211406584751589, "timer/agent.policy_min": 0.00563359260559082, "timer/agent.policy_max": 0.011095762252807617, "timer/dataset_count": 721.0, "timer/dataset_total": 0.06674408912658691, "timer/dataset_frac": 0.0002223222907912221, "timer/dataset_avg": 9.257155218666702e-05, "timer/dataset_min": 7.152557373046875e-05, "timer/dataset_max": 0.000156402587890625, "timer/agent.train_count": 721.0, "timer/agent.train_total": 268.4546329975128, "timer/agent.train_frac": 0.8942132518780526, "timer/agent.train_avg": 0.3723365228814325, "timer/agent.train_min": 0.36419129371643066, "timer/agent.train_max": 0.3834106922149658, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21751189231872559, "timer/agent.report_frac": 0.0007245247153334785, "timer/agent.report_avg": 0.21751189231872559, "timer/agent.report_min": 0.21751189231872559, "timer/agent.report_max": 0.21751189231872559, "fps": 4.803181665455845}
{"step": 413799, "episode/length": 176.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 11.899999991059303, "episode/reward_rate": 0.06779661016949153}
{"step": 413851, "episode/length": 51.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 4.700000040233135, "episode/reward_rate": 0.09615384615384616}
{"step": 414030, "episode/length": 178.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.061452513966480445}
{"step": 414233, "episode/length": 202.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.1000000461936, "episode/reward_rate": 0.06403940886699508}
{"step": 414417, "episode/length": 183.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.043478260869565216}
{"step": 414607, "episode/length": 189.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 12.899999991059303, "episode/reward_rate": 0.06842105263157895}
{"step": 414811, "episode/length": 203.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.05392156862745098}
{"step": 414988, "episode/length": 176.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.06779661016949153}
{"step": 415195, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.562452528211805, "train/action_min": 0.0, "train/action_std": 3.424675782521566, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.043802364004982844, "train/actor_opt_grad_steps": 206685.0, "train/actor_opt_loss": -11.655167629114455, "train/adv_mag": 0.42206665956311756, "train/adv_max": 0.3748025877608193, "train/adv_mean": 0.002097252446775302, "train/adv_min": -0.3701929317580329, "train/adv_std": 0.04899891693558958, "train/cont_avg": 0.9950358072916666, "train/cont_loss_mean": 3.95778517806712e-05, "train/cont_loss_std": 0.0012175269672438402, "train/cont_neg_acc": 0.9976525827192925, "train/cont_neg_loss": 0.0057070361929771945, "train/cont_pos_acc": 0.9999999809596274, "train/cont_pos_loss": 6.208493060248325e-06, "train/cont_pred": 0.9950463192330466, "train/cont_rate": 0.9950358072916666, "train/dyn_loss_mean": 4.908846894900004, "train/dyn_loss_std": 8.589155819680956, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0457097788651784, "train/extr_critic_critic_opt_grad_steps": 206685.0, "train/extr_critic_critic_opt_loss": 16117.676866319445, "train/extr_critic_mag": 9.963933361901177, "train/extr_critic_max": 9.963933361901177, "train/extr_critic_mean": 2.65821320646339, "train/extr_critic_min": -0.558614194393158, "train/extr_critic_std": 2.4627112829022937, "train/extr_return_normed_mag": 1.4074169629149966, "train/extr_return_normed_max": 1.4074169629149966, "train/extr_return_normed_mean": 0.3689184888369507, "train/extr_return_normed_min": -0.08878340473812488, "train/extr_return_normed_std": 0.3225481710914109, "train/extr_return_rate": 0.7468623783853319, "train/extr_return_raw_mag": 10.706941776805454, "train/extr_return_raw_max": 10.706941776805454, "train/extr_return_raw_mean": 2.6744399103853436, "train/extr_return_raw_min": -0.8662622099121412, "train/extr_return_raw_std": 2.4951145317819385, "train/extr_reward_mag": 1.0448576940430536, "train/extr_reward_max": 1.0448576940430536, "train/extr_reward_mean": 0.0486735044978559, "train/extr_reward_min": -0.6566505564583672, "train/extr_reward_std": 0.2135593547589249, "train/image_loss_mean": 3.029774862858984, "train/image_loss_std": 7.847316748566097, "train/model_loss_mean": 6.023086508115132, "train/model_loss_std": 11.91850537723965, "train/model_opt_grad_norm": 31.95627992682987, "train/model_opt_grad_steps": 206520.77777777778, "train/model_opt_loss": 13344.136813693576, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2222.222222222222, "train/policy_entropy_mag": 2.582151903046502, "train/policy_entropy_max": 2.582151903046502, "train/policy_entropy_mean": 0.40622779892550576, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5584688062469164, "train/policy_logprob_mag": 7.438384261396196, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4068097294204765, "train/policy_logprob_min": -7.438384261396196, "train/policy_logprob_std": 1.0203004744317796, "train/policy_randomness_mag": 0.911386306087176, "train/policy_randomness_max": 0.911386306087176, "train/policy_randomness_mean": 0.14338058709270424, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19711498129698965, "train/post_ent_mag": 54.84809419843886, "train/post_ent_max": 54.84809419843886, "train/post_ent_mean": 41.222251415252686, "train/post_ent_min": 18.86128815015157, "train/post_ent_std": 5.556333661079407, "train/prior_ent_mag": 76.32914119296603, "train/prior_ent_max": 76.32914119296603, "train/prior_ent_mean": 46.10177103678385, "train/prior_ent_min": 28.178144878811306, "train/prior_ent_std": 7.247553077008989, "train/rep_loss_mean": 4.908846894900004, "train/rep_loss_std": 8.589155819680956, "train/reward_avg": 0.03203938800531129, "train/reward_loss_mean": 0.04796397660134567, "train/reward_loss_std": 0.20629062317311764, "train/reward_max_data": 1.0180555598603354, "train/reward_max_pred": 1.0152540355920792, "train/reward_neg_acc": 0.9953825506899092, "train/reward_neg_loss": 0.02129043087673684, "train/reward_pos_acc": 0.9846882058514489, "train/reward_pos_loss": 0.7462193411257532, "train/reward_pred": 0.031685878729654685, "train/reward_rate": 0.03664822048611111, "stats/sum_log_reward": 9.225000262260437, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 1.75, "stats/max_log_achievement_collect_sapling": 1.25, "stats/max_log_achievement_collect_stone": 11.5, "stats/max_log_achievement_collect_wood": 8.625, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.125, "stats/max_log_achievement_place_furnace": 1.375, "stats/max_log_achievement_place_plant": 1.125, "stats/max_log_achievement_place_stone": 4.0, "stats/max_log_achievement_place_table": 2.125, "stats/max_log_achievement_wake_up": 0.875, "stats/mean_log_entropy": 0.33281764201819897, "replay/size": 415132.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.787047333187527e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2554021345244515e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.08565521240234, "timer/env.step_count": 1440.0, "timer/env.step_total": 20.665050268173218, "timer/env.step_frac": 0.06886383907136906, "timer/env.step_avg": 0.014350729352898068, "timer/env.step_min": 0.0029828548431396484, "timer/env.step_max": 1.7285206317901611, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.26410531997680664, "timer/replay.add_frac": 0.000880099782809916, "timer/replay.add_avg": 0.00018340647220611573, "timer/replay.add_min": 7.104873657226562e-05, "timer/replay.add_max": 0.0010101795196533203, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027332544326782227, "timer/logger.write_frac": 9.10824754600019e-05, "timer/logger.write_avg": 0.027332544326782227, "timer/logger.write_min": 0.027332544326782227, "timer/logger.write_max": 0.027332544326782227, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 10.402882099151611, "timer/agent.policy_frac": 0.034666375811227605, "timer/agent.policy_avg": 0.007224223679966397, "timer/agent.policy_min": 0.005636453628540039, "timer/agent.policy_max": 0.019286155700683594, "timer/dataset_count": 720.0, "timer/dataset_total": 0.06710147857666016, "timer/dataset_frac": 0.0002236077513574094, "timer/dataset_avg": 9.31964980231391e-05, "timer/dataset_min": 6.4849853515625e-05, "timer/dataset_max": 0.00017595291137695312, "timer/agent.train_count": 720.0, "timer/agent.train_total": 267.9707441329956, "timer/agent.train_frac": 0.8929808522280893, "timer/agent.train_avg": 0.372181589073605, "timer/agent.train_min": 0.3619110584259033, "timer/agent.train_max": 0.38488316535949707, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21787691116333008, "timer/agent.report_frac": 0.0007260490709198197, "timer/agent.report_avg": 0.21787691116333008, "timer/agent.report_min": 0.21787691116333008, "timer/agent.report_max": 0.21787691116333008, "fps": 4.79855986900637}
{"step": 415195, "episode/length": 206.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.05314009661835749}
{"step": 415376, "episode/length": 180.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.055248618784530384}
{"step": 415688, "episode/length": 311.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.035256410256410256}
{"step": 415871, "episode/length": 182.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.0546448087431694}
{"step": 416028, "episode/length": 156.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 12.300000056624413, "episode/reward_rate": 0.07006369426751592}
{"step": 416199, "episode/length": 170.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.30000001937151, "episode/reward_rate": 0.04093567251461988}
{"step": 416467, "episode/length": 267.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.03731343283582089}
{"step": 416619, "stats/sum_log_reward": 9.100000177110944, "stats/max_log_achievement_collect_coal": 0.2857142857142857, "stats/max_log_achievement_collect_drink": 2.142857142857143, "stats/max_log_achievement_collect_sapling": 1.1428571428571428, "stats/max_log_achievement_collect_stone": 15.142857142857142, "stats/max_log_achievement_collect_wood": 10.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.14285714285714285, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.2857142857142858, "stats/max_log_achievement_make_wood_sword": 1.2857142857142858, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 8.285714285714286, "stats/max_log_achievement_place_table": 2.7142857142857144, "stats/max_log_achievement_wake_up": 0.8571428571428571, "stats/mean_log_entropy": 0.3460865787097386, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.5247344970703125, "train/action_min": 0.0, "train/action_std": 3.3225690291987524, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.043877167937656246, "train/actor_opt_grad_steps": 207405.0, "train/actor_opt_loss": -12.961871006422573, "train/adv_mag": 0.4226272255182266, "train/adv_max": 0.3939672029680676, "train/adv_mean": 0.0017389760519613952, "train/adv_min": -0.35587257912589443, "train/adv_std": 0.0495091889364024, "train/cont_avg": 0.9943983289930556, "train/cont_loss_mean": 8.708503904604943e-05, "train/cont_loss_std": 0.002717386519659865, "train/cont_neg_acc": 0.9957010596990585, "train/cont_neg_loss": 0.010972117789277844, "train/cont_pos_acc": 0.999999980131785, "train/cont_pos_loss": 1.4675512155060133e-05, "train/cont_pred": 0.9944069012999535, "train/cont_rate": 0.9943983289930556, "train/dyn_loss_mean": 5.187570419576433, "train/dyn_loss_std": 8.90119410223431, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0919821518990729, "train/extr_critic_critic_opt_grad_steps": 207405.0, "train/extr_critic_critic_opt_loss": 16244.769992404514, "train/extr_critic_mag": 10.049566838476393, "train/extr_critic_max": 10.049566838476393, "train/extr_critic_mean": 2.5948625206947327, "train/extr_critic_min": -0.5516519513395097, "train/extr_critic_std": 2.464287840657764, "train/extr_return_normed_mag": 1.4260449177689023, "train/extr_return_normed_max": 1.4260449177689023, "train/extr_return_normed_mean": 0.363101558552848, "train/extr_return_normed_min": -0.08606813532403773, "train/extr_return_normed_std": 0.3256816541155179, "train/extr_return_rate": 0.7446841042902734, "train/extr_return_raw_mag": 10.736406683921814, "train/extr_return_raw_max": 10.736406683921814, "train/extr_return_raw_mean": 2.608138574494256, "train/extr_return_raw_min": -0.827541901005639, "train/extr_return_raw_std": 2.4907657967673407, "train/extr_reward_mag": 1.0453112688329484, "train/extr_reward_max": 1.0453112688329484, "train/extr_reward_mean": 0.049330819553385176, "train/extr_reward_min": -0.6371088408761554, "train/extr_reward_std": 0.2155208287553655, "train/image_loss_mean": 3.293262160486645, "train/image_loss_std": 8.736258447170258, "train/model_loss_mean": 6.4556606610616045, "train/model_loss_std": 12.951492495006985, "train/model_opt_grad_norm": 29.63996174600389, "train/model_opt_grad_steps": 207240.0, "train/model_opt_loss": 8069.575792100694, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.568438433938556, "train/policy_entropy_max": 2.568438433938556, "train/policy_entropy_mean": 0.3895070737020837, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5361575380795531, "train/policy_logprob_mag": 7.4383842084142895, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39054733845922684, "train/policy_logprob_min": -7.4383842084142895, "train/policy_logprob_std": 1.0076323797305424, "train/policy_randomness_mag": 0.9065460529592302, "train/policy_randomness_max": 0.9065460529592302, "train/policy_randomness_mean": 0.13747890407426488, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18924008227056927, "train/post_ent_mag": 54.569479624430336, "train/post_ent_max": 54.569479624430336, "train/post_ent_mean": 40.94519244299995, "train/post_ent_min": 18.838476366466946, "train/post_ent_std": 5.604569772879283, "train/prior_ent_mag": 76.35134559207492, "train/prior_ent_max": 76.35134559207492, "train/prior_ent_mean": 46.112225691477455, "train/prior_ent_min": 27.76100688510471, "train/prior_ent_std": 7.298955420653026, "train/rep_loss_mean": 5.187570419576433, "train/rep_loss_std": 8.90119410223431, "train/reward_avg": 0.03309326166183584, "train/reward_loss_mean": 0.04976919153705239, "train/reward_loss_std": 0.19993879749543136, "train/reward_max_data": 1.0208333383003871, "train/reward_max_pred": 1.022597074508667, "train/reward_neg_acc": 0.9948692495624224, "train/reward_neg_loss": 0.02283337815768189, "train/reward_pos_acc": 0.9904976694120301, "train/reward_pos_loss": 0.7304978122313818, "train/reward_pred": 0.032744363985127874, "train/reward_rate": 0.03811306423611111, "replay/size": 416556.0, "replay/inserts": 1424.0, "replay/samples": 11392.0, "replay/insert_wait_avg": 3.793098953332794e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2636896264687014e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.25106287002563, "timer/env.step_count": 1424.0, "timer/env.step_total": 21.62172293663025, "timer/env.step_frac": 0.0720121445364874, "timer/env.step_avg": 0.015183794197071804, "timer/env.step_min": 0.0030503273010253906, "timer/env.step_max": 2.80275821685791, "timer/replay.add_count": 1424.0, "timer/replay.add_total": 0.2684769630432129, "timer/replay.add_frac": 0.0008941748964247055, "timer/replay.add_avg": 0.00018853719314832366, "timer/replay.add_min": 7.2479248046875e-05, "timer/replay.add_max": 0.0015444755554199219, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023246288299560547, "timer/logger.write_frac": 7.742283433522276e-05, "timer/logger.write_avg": 0.023246288299560547, "timer/logger.write_min": 0.023246288299560547, "timer/logger.write_max": 0.023246288299560547, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002570152282714844, "timer/checkpoint.save_frac": 8.560010606281936e-07, "timer/checkpoint.save_avg": 0.0002570152282714844, "timer/checkpoint.save_min": 0.0002570152282714844, "timer/checkpoint.save_max": 0.0002570152282714844, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.392592430114746, "timer/agent.save_frac": 0.004638093257033962, "timer/agent.save_avg": 1.392592430114746, "timer/agent.save_min": 1.392592430114746, "timer/agent.save_max": 1.392592430114746, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.033348083496094e-05, "timer/replay.save_frac": 2.3424889878044257e-07, "timer/replay.save_avg": 7.033348083496094e-05, "timer/replay.save_min": 7.033348083496094e-05, "timer/replay.save_max": 7.033348083496094e-05, "timer/agent.policy_count": 1424.0, "timer/agent.policy_total": 12.42350697517395, "timer/agent.policy_frac": 0.04137706243708422, "timer/agent.policy_avg": 0.008724372875824404, "timer/agent.policy_min": 0.005677700042724609, "timer/agent.policy_max": 1.3813433647155762, "timer/dataset_count": 712.0, "timer/dataset_total": 0.06616401672363281, "timer/dataset_frac": 0.0002203623064351125, "timer/dataset_avg": 9.292698978038317e-05, "timer/dataset_min": 6.389617919921875e-05, "timer/dataset_max": 0.00018858909606933594, "timer/agent.train_count": 712.0, "timer/agent.train_total": 265.14430832862854, "timer/agent.train_frac": 0.8830753363341322, "timer/agent.train_avg": 0.3723936914727929, "timer/agent.train_min": 0.36496663093566895, "timer/agent.train_max": 0.38568782806396484, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21737909317016602, "timer/agent.report_frac": 0.0007239910863005547, "timer/agent.report_avg": 0.21737909317016602, "timer/agent.report_min": 0.21737909317016602, "timer/agent.report_max": 0.21737909317016602, "fps": 4.742622631994974}
{"step": 416667, "episode/length": 199.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.500000044703484, "episode/reward_rate": 0.06}
{"step": 416851, "episode/length": 183.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.059782608695652176}
{"step": 417050, "episode/length": 198.0, "episode/score": 11.099999964237213, "episode/sum_abs_reward": 13.900000005960464, "episode/reward_rate": 0.06030150753768844}
{"step": 417232, "episode/length": 181.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.07692307692307693}
{"step": 417380, "episode/length": 147.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.899999976158142, "episode/reward_rate": 0.08108108108108109}
{"step": 417532, "episode/length": 151.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.05263157894736842}
{"step": 417589, "episode/length": 56.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.12280701754385964}
{"step": 417796, "episode/length": 206.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.05314009661835749}
{"step": 417837, "episode/length": 40.0, "episode/score": 3.0999999716877937, "episode/sum_abs_reward": 5.1000000312924385, "episode/reward_rate": 0.12195121951219512}
{"step": 418015, "episode/length": 177.0, "episode/score": 9.100000031292439, "episode/sum_abs_reward": 11.90000007301569, "episode/reward_rate": 0.056179775280898875}
{"step": 418043, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.519349004181338, "train/action_min": 0.0, "train/action_std": 3.365139121740637, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04406564556796786, "train/actor_opt_grad_steps": 208120.0, "train/actor_opt_loss": -12.312478459217179, "train/adv_mag": 0.42900756085422675, "train/adv_max": 0.3743247234485519, "train/adv_mean": 0.002198897793476417, "train/adv_min": -0.38463715516345603, "train/adv_std": 0.04941169497832446, "train/cont_avg": 0.9947183098591549, "train/cont_loss_mean": 1.605035859317378e-05, "train/cont_loss_std": 0.0004701861196393328, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.002108041232168034, "train/cont_pos_acc": 0.9999999874074694, "train/cont_pos_loss": 5.586153501183898e-06, "train/cont_pred": 0.9947219927546004, "train/cont_rate": 0.9947183098591549, "train/dyn_loss_mean": 4.969972939558432, "train/dyn_loss_std": 8.67643777417465, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0026992190052086, "train/extr_critic_critic_opt_grad_steps": 208120.0, "train/extr_critic_critic_opt_loss": 16107.093089788732, "train/extr_critic_mag": 9.892871453728475, "train/extr_critic_max": 9.892871453728475, "train/extr_critic_mean": 2.628901803997201, "train/extr_critic_min": -0.5420502340289909, "train/extr_critic_std": 2.4259954237602126, "train/extr_return_normed_mag": 1.4058362665310713, "train/extr_return_normed_max": 1.4058362665310713, "train/extr_return_normed_mean": 0.3726049835833026, "train/extr_return_normed_min": -0.08801542141173087, "train/extr_return_normed_std": 0.3253922982954643, "train/extr_return_rate": 0.7546802003618697, "train/extr_return_raw_mag": 10.459994235508878, "train/extr_return_raw_max": 10.459994235508878, "train/extr_return_raw_mean": 2.6455284911142267, "train/extr_return_raw_min": -0.8377973353359062, "train/extr_return_raw_std": 2.4608830247126834, "train/extr_reward_mag": 1.0430548090330312, "train/extr_reward_max": 1.0430548090330312, "train/extr_reward_mean": 0.049088442252135614, "train/extr_reward_min": -0.6511661150086094, "train/extr_reward_std": 0.2153796412995164, "train/image_loss_mean": 2.9570965699746576, "train/image_loss_std": 7.819486483721666, "train/model_loss_mean": 5.988559313223395, "train/model_loss_std": 11.987246473070602, "train/model_opt_grad_norm": 33.26894572083379, "train/model_opt_grad_steps": 207954.49295774646, "train/model_opt_loss": 9923.687245543573, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1654.9295774647887, "train/policy_entropy_mag": 2.570174600037051, "train/policy_entropy_max": 2.570174600037051, "train/policy_entropy_mean": 0.37996942686363006, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5272684227412855, "train/policy_logprob_mag": 7.438384244139765, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3810328501211086, "train/policy_logprob_min": -7.438384244139765, "train/policy_logprob_std": 0.9990094463590166, "train/policy_randomness_mag": 0.9071588491050291, "train/policy_randomness_max": 0.9071588491050291, "train/policy_randomness_mean": 0.13411253501831646, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18610261800423475, "train/post_ent_mag": 54.74880137913664, "train/post_ent_max": 54.74880137913664, "train/post_ent_mean": 40.963890612964896, "train/post_ent_min": 18.801887888303945, "train/post_ent_std": 5.547161995525092, "train/prior_ent_mag": 76.30745073775171, "train/prior_ent_max": 76.30745073775171, "train/prior_ent_mean": 45.89522273103956, "train/prior_ent_min": 27.462378837692906, "train/prior_ent_std": 7.303228042495083, "train/rep_loss_mean": 4.969972939558432, "train/rep_loss_std": 8.67643777417465, "train/reward_avg": 0.03215366415679455, "train/reward_loss_mean": 0.049463014682413826, "train/reward_loss_std": 0.20823117377052844, "train/reward_max_data": 1.015492961440288, "train/reward_max_pred": 1.0138780197627109, "train/reward_neg_acc": 0.9949421160657641, "train/reward_neg_loss": 0.022769961493011092, "train/reward_pos_acc": 0.985860525722235, "train/reward_pos_loss": 0.7452016657506916, "train/reward_pred": 0.03181680281397323, "train/reward_rate": 0.037013094190140844, "stats/sum_log_reward": 9.100000047683716, "stats/max_log_achievement_collect_coal": 0.8, "stats/max_log_achievement_collect_drink": 1.9, "stats/max_log_achievement_collect_sapling": 1.2, "stats/max_log_achievement_collect_stone": 11.6, "stats/max_log_achievement_collect_wood": 7.6, "stats/max_log_achievement_defeat_skeleton": 0.1, "stats/max_log_achievement_defeat_zombie": 0.2, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1, "stats/max_log_achievement_place_furnace": 1.2, "stats/max_log_achievement_place_plant": 1.2, "stats/max_log_achievement_place_stone": 5.8, "stats/max_log_achievement_place_table": 2.4, "stats/max_log_achievement_wake_up": 0.9, "stats/mean_log_entropy": 0.2519883170723915, "replay/size": 417980.0, "replay/inserts": 1424.0, "replay/samples": 11392.0, "replay/insert_wait_avg": 3.898244225577023e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2566366892182424e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0079884529114, "timer/env.step_count": 1424.0, "timer/env.step_total": 23.423494577407837, "timer/env.step_frac": 0.07807623623023738, "timer/env.step_avg": 0.01644908327065157, "timer/env.step_min": 0.00311279296875, "timer/env.step_max": 1.6851270198822021, "timer/replay.add_count": 1424.0, "timer/replay.add_total": 0.27303314208984375, "timer/replay.add_frac": 0.0009100862396959088, "timer/replay.add_avg": 0.00019173675708556443, "timer/replay.add_min": 7.867813110351562e-05, "timer/replay.add_max": 0.001886129379272461, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028852224349975586, "timer/logger.write_frac": 9.6171520294381e-05, "timer/logger.write_avg": 0.028852224349975586, "timer/logger.write_min": 0.028852224349975586, "timer/logger.write_max": 0.028852224349975586, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1424.0, "timer/agent.policy_total": 10.343656539916992, "timer/agent.policy_frac": 0.034477937048467994, "timer/agent.policy_avg": 0.007263803749941708, "timer/agent.policy_min": 0.005682229995727539, "timer/agent.policy_max": 0.015453577041625977, "timer/dataset_count": 712.0, "timer/dataset_total": 0.06614208221435547, "timer/dataset_frac": 0.00022046773672740715, "timer/dataset_avg": 9.289618288533071e-05, "timer/dataset_min": 7.152557373046875e-05, "timer/dataset_max": 0.00019621849060058594, "timer/agent.train_count": 712.0, "timer/agent.train_total": 265.180300951004, "timer/agent.train_frac": 0.8839107995706793, "timer/agent.train_avg": 0.37244424290871353, "timer/agent.train_min": 0.36589860916137695, "timer/agent.train_max": 0.44979429244995117, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21976065635681152, "timer/agent.report_frac": 0.0007325160156237129, "timer/agent.report_avg": 0.21976065635681152, "timer/agent.report_min": 0.21976065635681152, "timer/agent.report_max": 0.21976065635681152, "fps": 4.74647414322907}
{"step": 418244, "episode/length": 228.0, "episode/score": 11.099999979138374, "episode/sum_abs_reward": 12.700000002980232, "episode/reward_rate": 0.05240174672489083}
{"step": 418404, "episode/length": 159.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.075}
{"step": 418684, "episode/length": 279.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.039285714285714285}
{"step": 419004, "episode/length": 319.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.0375}
{"step": 419062, "episode/length": 57.0, "episode/score": 1.099999986588955, "episode/sum_abs_reward": 3.1000000163912773, "episode/reward_rate": 0.034482758620689655}
{"step": 419232, "episode/length": 169.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.058823529411764705}
{"step": 419384, "episode/length": 151.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.05263157894736842}
{"step": 419494, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.56520250108507, "train/action_min": 0.0, "train/action_std": 3.4232401284906597, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04487496785198649, "train/actor_opt_grad_steps": 208835.0, "train/actor_opt_loss": -12.1862885935439, "train/adv_mag": 0.42718952521681786, "train/adv_max": 0.39740773662924767, "train/adv_mean": 0.002423324462142773, "train/adv_min": -0.36492403596639633, "train/adv_std": 0.05016298845617308, "train/cont_avg": 0.9946153428819444, "train/cont_loss_mean": 2.5851922526637987e-05, "train/cont_loss_std": 0.0007379184872509844, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.004132290205297472, "train/cont_pos_acc": 0.9999999751647314, "train/cont_pos_loss": 9.177434386565943e-06, "train/cont_pred": 0.9946208182308409, "train/cont_rate": 0.9946153428819444, "train/dyn_loss_mean": 4.933749053213331, "train/dyn_loss_std": 8.638730433252123, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.007048613495297, "train/extr_critic_critic_opt_grad_steps": 208835.0, "train/extr_critic_critic_opt_loss": 16126.992838541666, "train/extr_critic_mag": 9.91673187414805, "train/extr_critic_max": 9.91673187414805, "train/extr_critic_mean": 2.6764321476221085, "train/extr_critic_min": -0.5435215731461843, "train/extr_critic_std": 2.4445540292395487, "train/extr_return_normed_mag": 1.4115093350410461, "train/extr_return_normed_max": 1.4115093350410461, "train/extr_return_normed_mean": 0.3752738235311376, "train/extr_return_normed_min": -0.08978177524275249, "train/extr_return_normed_std": 0.32463674743970233, "train/extr_return_rate": 0.7603398495250278, "train/extr_return_raw_mag": 10.605185588200888, "train/extr_return_raw_max": 10.605185588200888, "train/extr_return_raw_mean": 2.69496018687884, "train/extr_return_raw_min": -0.8555202947722541, "train/extr_return_raw_std": 2.478465348482132, "train/extr_reward_mag": 1.0363963213231828, "train/extr_reward_max": 1.0363963213231828, "train/extr_reward_mean": 0.050403457393662796, "train/extr_reward_min": -0.6577802863385942, "train/extr_reward_std": 0.21828306280076504, "train/image_loss_mean": 2.883197420173221, "train/image_loss_std": 7.457443184322781, "train/model_loss_mean": 5.892629616790348, "train/model_loss_std": 11.616502934032017, "train/model_opt_grad_norm": 32.90060969193777, "train/model_opt_grad_steps": 208669.0, "train/model_opt_loss": 8213.532708062066, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1388.888888888889, "train/policy_entropy_mag": 2.559248063299391, "train/policy_entropy_max": 2.559248063299391, "train/policy_entropy_mean": 0.3837849485377471, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5274505573842261, "train/policy_logprob_mag": 7.438384261396196, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3835861368311776, "train/policy_logprob_min": -7.438384261396196, "train/policy_logprob_std": 0.9992584420575036, "train/policy_randomness_mag": 0.9033022547761599, "train/policy_randomness_max": 0.9033022547761599, "train/policy_randomness_mean": 0.13545924538953436, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18616689989964166, "train/post_ent_mag": 55.3457031779819, "train/post_ent_max": 55.3457031779819, "train/post_ent_mean": 41.13272386127048, "train/post_ent_min": 18.783056749237907, "train/post_ent_std": 5.666116237640381, "train/prior_ent_mag": 76.28440984090169, "train/prior_ent_max": 76.28440984090169, "train/prior_ent_mean": 46.05624193615384, "train/prior_ent_min": 27.562060276667278, "train/prior_ent_std": 7.317520936330159, "train/rep_loss_mean": 4.933749053213331, "train/rep_loss_std": 8.638730433252123, "train/reward_avg": 0.0328776039597061, "train/reward_loss_mean": 0.04915692238137126, "train/reward_loss_std": 0.20096020959317684, "train/reward_max_data": 1.0166666706403096, "train/reward_max_pred": 1.012905842728085, "train/reward_neg_acc": 0.9948998317122459, "train/reward_neg_loss": 0.022677069982617266, "train/reward_pos_acc": 0.9880814701318741, "train/reward_pos_loss": 0.7254801119367281, "train/reward_pred": 0.0327409200835973, "train/reward_rate": 0.0377197265625, "stats/sum_log_reward": 8.671428833689008, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 1.8571428571428572, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 15.571428571428571, "stats/max_log_achievement_collect_wood": 8.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.14285714285714285, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.8571428571428572, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 6.285714285714286, "stats/max_log_achievement_place_table": 2.142857142857143, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.38442166575363707, "replay/size": 419431.0, "replay/inserts": 1451.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.82028391737514e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.252190820102034e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.00229811668396, "timer/env.step_count": 1451.0, "timer/env.step_total": 18.488361358642578, "timer/env.step_frac": 0.061627399105628346, "timer/env.step_avg": 0.012741806587624107, "timer/env.step_min": 0.0030553340911865234, "timer/env.step_max": 1.6466822624206543, "timer/replay.add_count": 1451.0, "timer/replay.add_total": 0.26866769790649414, "timer/replay.add_frac": 0.0008955521327439884, "timer/replay.add_avg": 0.0001851603707143309, "timer/replay.add_min": 7.176399230957031e-05, "timer/replay.add_max": 0.0009584426879882812, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026340961456298828, "timer/logger.write_frac": 8.780253225278188e-05, "timer/logger.write_avg": 0.026340961456298828, "timer/logger.write_min": 0.026340961456298828, "timer/logger.write_max": 0.026340961456298828, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1451.0, "timer/agent.policy_total": 10.485049486160278, "timer/agent.policy_frac": 0.034949897224061215, "timer/agent.policy_avg": 0.0072260851041766215, "timer/agent.policy_min": 0.005638837814331055, "timer/agent.policy_max": 0.014704465866088867, "timer/dataset_count": 725.0, "timer/dataset_total": 0.06728148460388184, "timer/dataset_frac": 0.00022426989735163007, "timer/dataset_avg": 9.280204772949219e-05, "timer/dataset_min": 6.437301635742188e-05, "timer/dataset_max": 0.0001819133758544922, "timer/agent.train_count": 725.0, "timer/agent.train_total": 269.9728605747223, "timer/agent.train_frac": 0.8999026416448253, "timer/agent.train_avg": 0.3723763594134101, "timer/agent.train_min": 0.3661072254180908, "timer/agent.train_max": 0.4038815498352051, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22166180610656738, "timer/agent.report_frac": 0.0007388670270130846, "timer/agent.report_avg": 0.22166180610656738, "timer/agent.report_min": 0.22166180610656738, "timer/agent.report_max": 0.22166180610656738, "fps": 4.836538132162778}
{"step": 419638, "episode/length": 253.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.051181102362204724}
{"step": 419806, "episode/length": 167.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.07142857142857142}
{"step": 420112, "episode/length": 305.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.042483660130718956}
{"step": 420351, "episode/length": 238.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.0502092050209205}
{"step": 420546, "episode/length": 194.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.299999997019768, "episode/reward_rate": 0.06153846153846154}
{"step": 420716, "episode/length": 169.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.041176470588235294}
{"step": 420928, "episode/length": 211.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.04245283018867924}
{"step": 420939, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.700125080265411, "train/action_min": 0.0, "train/action_std": 3.5075784742015683, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04390602094465739, "train/actor_opt_grad_steps": 209560.0, "train/actor_opt_loss": -11.946126622696445, "train/adv_mag": 0.45529677198357776, "train/adv_max": 0.416879217510354, "train/adv_mean": 0.0021141731582521397, "train/adv_min": -0.3569480844148218, "train/adv_std": 0.049628602315301765, "train/cont_avg": 0.9948630136986302, "train/cont_loss_mean": 8.348931207321634e-05, "train/cont_loss_std": 0.0025777755899887107, "train/cont_neg_acc": 0.9980158739619784, "train/cont_neg_loss": 0.011089334206354174, "train/cont_pos_acc": 0.9999999771379444, "train/cont_pos_loss": 9.153950765662496e-06, "train/cont_pred": 0.9948689537505581, "train/cont_rate": 0.9948630136986302, "train/dyn_loss_mean": 5.024665701879214, "train/dyn_loss_std": 8.736988511804032, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0154556493236595, "train/extr_critic_critic_opt_grad_steps": 209560.0, "train/extr_critic_critic_opt_loss": 16110.077121682363, "train/extr_critic_mag": 9.90027133732626, "train/extr_critic_max": 9.90027133732626, "train/extr_critic_mean": 2.5159275629749036, "train/extr_critic_min": -0.5468129948393939, "train/extr_critic_std": 2.383250731311432, "train/extr_return_normed_mag": 1.4452501796696284, "train/extr_return_normed_max": 1.4452501796696284, "train/extr_return_normed_mean": 0.3644657990295593, "train/extr_return_normed_min": -0.08635213414896024, "train/extr_return_normed_std": 0.32591669873832024, "train/extr_return_rate": 0.7380841888793527, "train/extr_return_raw_mag": 10.54262570159076, "train/extr_return_raw_max": 10.54262570159076, "train/extr_return_raw_mean": 2.531611576472243, "train/extr_return_raw_min": -0.8098769984016679, "train/extr_return_raw_std": 2.4158560870444936, "train/extr_reward_mag": 1.0440181052848085, "train/extr_reward_max": 1.0440181052848085, "train/extr_reward_mean": 0.049778008756980505, "train/extr_reward_min": -0.6442173245834978, "train/extr_reward_std": 0.21609031378406368, "train/image_loss_mean": 3.1302043738430494, "train/image_loss_std": 8.05640123968255, "train/model_loss_mean": 6.195463761891404, "train/model_loss_std": 12.230783488652477, "train/model_opt_grad_norm": 31.995857003616962, "train/model_opt_grad_steps": 209393.301369863, "train/model_opt_loss": 10178.679881474744, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1626.7123287671234, "train/policy_entropy_mag": 2.568253801293569, "train/policy_entropy_max": 2.568253801293569, "train/policy_entropy_mean": 0.40689746831377893, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5494870208714107, "train/policy_logprob_mag": 7.438384258583801, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40820943921396174, "train/policy_logprob_min": -7.438384258583801, "train/policy_logprob_std": 1.0204799983599415, "train/policy_randomness_mag": 0.9064808855318043, "train/policy_randomness_max": 0.9064808855318043, "train/policy_randomness_mean": 0.1436169502669818, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1939448059013445, "train/post_ent_mag": 54.63212789248114, "train/post_ent_max": 54.63212789248114, "train/post_ent_mean": 40.98051248837824, "train/post_ent_min": 18.482839127109475, "train/post_ent_std": 5.598727637774323, "train/prior_ent_mag": 76.44201148046206, "train/prior_ent_max": 76.44201148046206, "train/prior_ent_mean": 46.023704790089226, "train/prior_ent_min": 27.495848146203446, "train/prior_ent_std": 7.351595388699884, "train/rep_loss_mean": 5.024665701879214, "train/rep_loss_std": 8.736988511804032, "train/reward_avg": 0.03289276529868988, "train/reward_loss_mean": 0.050376385399331786, "train/reward_loss_std": 0.2106126750985237, "train/reward_max_data": 1.0178082234238925, "train/reward_max_pred": 1.017751986033296, "train/reward_neg_acc": 0.9945055646439122, "train/reward_neg_loss": 0.023220367716906005, "train/reward_pos_acc": 0.9852109861700502, "train/reward_pos_loss": 0.744428859998102, "train/reward_pred": 0.03262942394063081, "train/reward_rate": 0.037778253424657536, "stats/sum_log_reward": 10.100000313350133, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 2.857142857142857, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 12.285714285714286, "stats/max_log_achievement_collect_wood": 8.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.42857142857142855, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_wood_sword": 1.4285714285714286, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 5.142857142857143, "stats/max_log_achievement_place_table": 2.4285714285714284, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.4221901723316738, "replay/size": 420876.0, "replay/inserts": 1445.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.866670865913576e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2505639803030349e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0292532444, "timer/env.step_count": 1445.0, "timer/env.step_total": 19.23446750640869, "timer/env.step_frac": 0.06410864040227617, "timer/env.step_avg": 0.01331105017744546, "timer/env.step_min": 0.0030486583709716797, "timer/env.step_max": 1.8092951774597168, "timer/replay.add_count": 1445.0, "timer/replay.add_total": 0.27645325660705566, "timer/replay.add_frac": 0.0009214210068438239, "timer/replay.add_avg": 0.00019131713260003852, "timer/replay.add_min": 7.772445678710938e-05, "timer/replay.add_max": 0.0018463134765625, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02824997901916504, "timer/logger.write_frac": 9.415741536427104e-05, "timer/logger.write_avg": 0.02824997901916504, "timer/logger.write_min": 0.02824997901916504, "timer/logger.write_max": 0.02824997901916504, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1445.0, "timer/agent.policy_total": 10.540891170501709, "timer/agent.policy_frac": 0.03513287806611055, "timer/agent.policy_avg": 0.007294734374049625, "timer/agent.policy_min": 0.005712270736694336, "timer/agent.policy_max": 0.015798568725585938, "timer/dataset_count": 723.0, "timer/dataset_total": 0.06692838668823242, "timer/dataset_frac": 0.00022307287027679734, "timer/dataset_avg": 9.257038269465066e-05, "timer/dataset_min": 6.985664367675781e-05, "timer/dataset_max": 0.0001990795135498047, "timer/agent.train_count": 723.0, "timer/agent.train_total": 269.1852169036865, "timer/agent.train_frac": 0.897196569977167, "timer/agent.train_avg": 0.3723170358280588, "timer/agent.train_min": 0.36237144470214844, "timer/agent.train_max": 0.3841383457183838, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2174971103668213, "timer/agent.report_frac": 0.0007249196803808025, "timer/agent.report_avg": 0.2174971103668213, "timer/agent.report_min": 0.2174971103668213, "timer/agent.report_max": 0.2174971103668213, "fps": 4.8161305770231255}
{"step": 421162, "episode/length": 233.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.04700854700854701}
{"step": 421349, "episode/length": 186.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.300000041723251, "episode/reward_rate": 0.0481283422459893}
{"step": 421595, "episode/length": 245.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.500000037252903, "episode/reward_rate": 0.044715447154471545}
{"step": 421753, "episode/length": 157.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.06329113924050633}
{"step": 421940, "episode/length": 186.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.053475935828877004}
{"step": 422102, "episode/length": 161.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.700000025331974, "episode/reward_rate": 0.05555555555555555}
{"step": 422270, "episode/length": 167.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.06547619047619048}
{"step": 422363, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.537699954610475, "train/action_min": 0.0, "train/action_std": 3.403183957220803, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04532814812912068, "train/actor_opt_grad_steps": 210280.0, "train/actor_opt_loss": -12.166519655728004, "train/adv_mag": 0.4464911717764089, "train/adv_max": 0.39913926158152835, "train/adv_mean": 0.002278802379920999, "train/adv_min": -0.38857529889529857, "train/adv_std": 0.05020907348100568, "train/cont_avg": 0.9943606954225352, "train/cont_loss_mean": 1.0448712868323205e-05, "train/cont_loss_std": 0.0002546219941850851, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0004015251692641907, "train/cont_pos_acc": 0.9999999865679674, "train/cont_pos_loss": 7.926005149132334e-06, "train/cont_pred": 0.9943555853736232, "train/cont_rate": 0.9943606954225352, "train/dyn_loss_mean": 5.015467858650315, "train/dyn_loss_std": 8.743406114443927, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0261065884375236, "train/extr_critic_critic_opt_grad_steps": 210280.0, "train/extr_critic_critic_opt_loss": 16077.97334397007, "train/extr_critic_mag": 9.80126645531453, "train/extr_critic_max": 9.80126645531453, "train/extr_critic_mean": 2.5551776264754817, "train/extr_critic_min": -0.5775175816576246, "train/extr_critic_std": 2.3884763331480428, "train/extr_return_normed_mag": 1.42312263267141, "train/extr_return_normed_max": 1.42312263267141, "train/extr_return_normed_mean": 0.37008246086852653, "train/extr_return_normed_min": -0.09968170303274208, "train/extr_return_normed_std": 0.3266129453837032, "train/extr_return_rate": 0.7405782711337989, "train/extr_return_raw_mag": 10.369142089091556, "train/extr_return_raw_max": 10.369142089091556, "train/extr_return_raw_mean": 2.5720432022927513, "train/extr_return_raw_min": -0.906235375034977, "train/extr_return_raw_std": 2.4186109573068753, "train/extr_reward_mag": 1.047625568551077, "train/extr_reward_max": 1.047625568551077, "train/extr_reward_mean": 0.04813059831274227, "train/extr_reward_min": -0.6789085327739447, "train/extr_reward_std": 0.21339173656953891, "train/image_loss_mean": 3.1107645387380893, "train/image_loss_std": 8.183178122614471, "train/model_loss_mean": 6.170182805665782, "train/model_loss_std": 12.334097217506086, "train/model_opt_grad_norm": 32.55951287712849, "train/model_opt_grad_steps": 210113.0, "train/model_opt_loss": 10250.992139359596, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1637.3239436619717, "train/policy_entropy_mag": 2.5610947474627426, "train/policy_entropy_max": 2.5610947474627426, "train/policy_entropy_mean": 0.3892067723291021, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5273516996645592, "train/policy_logprob_mag": 7.438384244139765, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3881926200759243, "train/policy_logprob_min": -7.438384244139765, "train/policy_logprob_std": 0.9990763076594178, "train/policy_randomness_mag": 0.9039540551078151, "train/policy_randomness_max": 0.9039540551078151, "train/policy_randomness_mean": 0.1373729128652895, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18613200666199267, "train/post_ent_mag": 55.00646612677776, "train/post_ent_max": 55.00646612677776, "train/post_ent_mean": 41.09057724643761, "train/post_ent_min": 18.932237141568894, "train/post_ent_std": 5.550353701685516, "train/prior_ent_mag": 76.31298495010591, "train/prior_ent_max": 76.31298495010591, "train/prior_ent_mean": 46.11250315921407, "train/prior_ent_min": 28.458749529341578, "train/prior_ent_std": 7.2358796428626695, "train/rep_loss_mean": 5.015467858650315, "train/rep_loss_std": 8.743406114443927, "train/reward_avg": 0.03350297091397601, "train/reward_loss_mean": 0.05012709762848599, "train/reward_loss_std": 0.20556118412756583, "train/reward_max_data": 1.0309859228805758, "train/reward_max_pred": 1.0292912620893666, "train/reward_neg_acc": 0.9948097014091384, "train/reward_neg_loss": 0.022545716712172603, "train/reward_pos_acc": 0.9859658865861489, "train/reward_pos_loss": 0.7398613011333305, "train/reward_pred": 0.033114915634964555, "train/reward_rate": 0.03841604313380282, "stats/sum_log_reward": 9.100000381469727, "stats/max_log_achievement_collect_coal": 0.8571428571428571, "stats/max_log_achievement_collect_drink": 3.7142857142857144, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 11.0, "stats/max_log_achievement_collect_wood": 10.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2857142857142858, "stats/max_log_achievement_place_furnace": 0.8571428571428571, "stats/max_log_achievement_place_plant": 0.8571428571428571, "stats/max_log_achievement_place_stone": 5.714285714285714, "stats/max_log_achievement_place_table": 3.142857142857143, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.34022211177008493, "replay/size": 422300.0, "replay/inserts": 1424.0, "replay/samples": 11392.0, "replay/insert_wait_avg": 3.7684869230463265e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2553600447901178e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.15979838371277, "timer/env.step_count": 1424.0, "timer/env.step_total": 21.486189126968384, "timer/env.step_frac": 0.0715825011965835, "timer/env.step_avg": 0.015088615959949708, "timer/env.step_min": 0.0031867027282714844, "timer/env.step_max": 2.794851064682007, "timer/replay.add_count": 1424.0, "timer/replay.add_total": 0.28203749656677246, "timer/replay.add_frac": 0.0009396244869748565, "timer/replay.add_avg": 0.00019806003972385705, "timer/replay.add_min": 7.867813110351562e-05, "timer/replay.add_max": 0.0010082721710205078, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02889251708984375, "timer/logger.write_frac": 9.625711785996293e-05, "timer/logger.write_avg": 0.02889251708984375, "timer/logger.write_min": 0.02889251708984375, "timer/logger.write_max": 0.02889251708984375, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00020623207092285156, "timer/checkpoint.save_frac": 6.870742585561455e-07, "timer/checkpoint.save_avg": 0.00020623207092285156, "timer/checkpoint.save_min": 0.00020623207092285156, "timer/checkpoint.save_max": 0.00020623207092285156, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3720297813415527, "timer/agent.save_frac": 0.004570997810931371, "timer/agent.save_avg": 1.3720297813415527, "timer/agent.save_min": 1.3720297813415527, "timer/agent.save_max": 1.3720297813415527, "timer/replay.save_count": 1.0, "timer/replay.save_total": 5.9604644775390625e-05, "timer/replay.save_frac": 1.9857637530524436e-07, "timer/replay.save_avg": 5.9604644775390625e-05, "timer/replay.save_min": 5.9604644775390625e-05, "timer/replay.save_max": 5.9604644775390625e-05, "timer/agent.policy_count": 1424.0, "timer/agent.policy_total": 11.639062643051147, "timer/agent.policy_frac": 0.038776220885423894, "timer/agent.policy_avg": 0.00817349904708648, "timer/agent.policy_min": 0.0055544376373291016, "timer/agent.policy_max": 1.3621668815612793, "timer/dataset_count": 712.0, "timer/dataset_total": 0.06536364555358887, "timer/dataset_frac": 0.00021776282468723707, "timer/dataset_avg": 9.18028729685237e-05, "timer/dataset_min": 6.461143493652344e-05, "timer/dataset_max": 0.00020647048950195312, "timer/agent.train_count": 712.0, "timer/agent.train_total": 265.9748206138611, "timer/agent.train_frac": 0.8861107385001941, "timer/agent.train_avg": 0.37356014131160264, "timer/agent.train_min": 0.36530566215515137, "timer/agent.train_max": 0.9604678153991699, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22307372093200684, "timer/agent.report_frac": 0.000743183204856894, "timer/agent.report_avg": 0.22307372093200684, "timer/agent.report_min": 0.22307372093200684, "timer/agent.report_max": 0.22307372093200684, "fps": 4.744075669903797}
{"step": 422412, "episode/length": 141.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 11.700000047683716, "episode/reward_rate": 0.07042253521126761}
{"step": 422582, "episode/length": 169.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.06470588235294118}
{"step": 422806, "episode/length": 223.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.05357142857142857}
{"step": 423028, "episode/length": 221.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.05405405405405406}
{"step": 423225, "episode/length": 196.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.300000041723251, "episode/reward_rate": 0.06091370558375635}
{"step": 423380, "episode/length": 154.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.07096774193548387}
{"step": 423637, "episode/length": 256.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.042801556420233464}
{"step": 423809, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.606736924913195, "train/action_min": 0.0, "train/action_std": 3.4432291388511658, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04640057077631354, "train/actor_opt_grad_steps": 210995.0, "train/actor_opt_loss": -10.310337227251795, "train/adv_mag": 0.44355423872669536, "train/adv_max": 0.40821341756317353, "train/adv_mean": 0.0036032112038305465, "train/adv_min": -0.37033929199808174, "train/adv_std": 0.05160652349392573, "train/cont_avg": 0.994384765625, "train/cont_loss_mean": 8.784862551970541e-05, "train/cont_loss_std": 0.0027414212170510962, "train/cont_neg_acc": 0.9965277777777778, "train/cont_neg_loss": 0.01476922773857344, "train/cont_pos_acc": 0.9999863654375076, "train/cont_pos_loss": 2.965976996962796e-05, "train/cont_pred": 0.994379311800003, "train/cont_rate": 0.994384765625, "train/dyn_loss_mean": 4.8750282592243614, "train/dyn_loss_std": 8.652910576926338, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.000474616057343, "train/extr_critic_critic_opt_grad_steps": 210995.0, "train/extr_critic_critic_opt_loss": 16169.062269422742, "train/extr_critic_mag": 9.834898908933004, "train/extr_critic_max": 9.834898908933004, "train/extr_critic_mean": 2.6194753613736896, "train/extr_critic_min": -0.5442351020044751, "train/extr_critic_std": 2.4003170314762325, "train/extr_return_normed_mag": 1.4514246814780765, "train/extr_return_normed_max": 1.4514246814780765, "train/extr_return_normed_mean": 0.37564638753732044, "train/extr_return_normed_min": -0.08671823387137717, "train/extr_return_normed_std": 0.32790372437900966, "train/extr_return_rate": 0.747680701315403, "train/extr_return_raw_mag": 10.650037593311733, "train/extr_return_raw_max": 10.650037593311733, "train/extr_return_raw_mean": 2.646261261569129, "train/extr_return_raw_min": -0.7935802108711667, "train/extr_return_raw_std": 2.4394657678074307, "train/extr_reward_mag": 1.034618877702289, "train/extr_reward_max": 1.034618877702289, "train/extr_reward_mean": 0.0518420052766386, "train/extr_reward_min": -0.6593096339040332, "train/extr_reward_std": 0.2203835758070151, "train/image_loss_mean": 3.03244815270106, "train/image_loss_std": 7.941750910547045, "train/model_loss_mean": 6.007973300086127, "train/model_loss_std": 12.064048873053657, "train/model_opt_grad_norm": 28.422591580284966, "train/model_opt_grad_steps": 210828.0, "train/model_opt_loss": 15019.93324110243, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.564963804350959, "train/policy_entropy_max": 2.564963804350959, "train/policy_entropy_mean": 0.4053622902267509, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5514207738969061, "train/policy_logprob_mag": 7.438384241527981, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40556953888800407, "train/policy_logprob_min": -7.438384241527981, "train/policy_logprob_std": 1.0178974800639682, "train/policy_randomness_mag": 0.9053196650412347, "train/policy_randomness_max": 0.9053196650412347, "train/policy_randomness_mean": 0.14307509931839174, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19462733426027828, "train/post_ent_mag": 54.792026625739204, "train/post_ent_max": 54.792026625739204, "train/post_ent_mean": 41.018433782789444, "train/post_ent_min": 19.083367824554443, "train/post_ent_std": 5.53928483194775, "train/prior_ent_mag": 76.47546312544081, "train/prior_ent_max": 76.47546312544081, "train/prior_ent_mean": 45.87084436416626, "train/prior_ent_min": 27.856141222847832, "train/prior_ent_std": 7.343112263414595, "train/rep_loss_mean": 4.8750282592243614, "train/rep_loss_std": 8.652910576926338, "train/reward_avg": 0.03425835479154355, "train/reward_loss_mean": 0.0504204195458442, "train/reward_loss_std": 0.2023422254456414, "train/reward_max_data": 1.0152777814202838, "train/reward_max_pred": 1.013729648457633, "train/reward_neg_acc": 0.9949105464749866, "train/reward_neg_loss": 0.022806765421086714, "train/reward_pos_acc": 0.9888520489136378, "train/reward_pos_loss": 0.7277672969632678, "train/reward_pred": 0.034022171722931996, "train/reward_rate": 0.03927951388888889, "stats/sum_log_reward": 10.385714667184013, "stats/max_log_achievement_collect_coal": 1.7142857142857142, "stats/max_log_achievement_collect_drink": 2.2857142857142856, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 14.428571428571429, "stats/max_log_achievement_collect_wood": 8.0, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.2857142857142857, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.7142857142857142, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 6.285714285714286, "stats/max_log_achievement_place_table": 2.2857142857142856, "stats/max_log_achievement_wake_up": 1.5714285714285714, "stats/mean_log_entropy": 0.36417266939367565, "replay/size": 423746.0, "replay/inserts": 1446.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.7584726906086566e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2605186979470576e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1112656593323, "timer/env.step_count": 1446.0, "timer/env.step_total": 19.306918144226074, "timer/env.step_frac": 0.064332533808118, "timer/env.step_avg": 0.013351948924084422, "timer/env.step_min": 0.003040790557861328, "timer/env.step_max": 1.8761167526245117, "timer/replay.add_count": 1446.0, "timer/replay.add_total": 0.27115631103515625, "timer/replay.add_frac": 0.0009035192678936489, "timer/replay.add_avg": 0.0001875216535512837, "timer/replay.add_min": 7.581710815429688e-05, "timer/replay.add_max": 0.0020711421966552734, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030722856521606445, "timer/logger.write_frac": 0.00010237155361065695, "timer/logger.write_avg": 0.030722856521606445, "timer/logger.write_min": 0.030722856521606445, "timer/logger.write_max": 0.030722856521606445, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1446.0, "timer/agent.policy_total": 10.429991006851196, "timer/agent.policy_frac": 0.03475374702757968, "timer/agent.policy_avg": 0.0072129951637975075, "timer/agent.policy_min": 0.005651235580444336, "timer/agent.policy_max": 0.015222311019897461, "timer/dataset_count": 723.0, "timer/dataset_total": 0.06646513938903809, "timer/dataset_frac": 0.00022146832523269952, "timer/dataset_avg": 9.192965337349666e-05, "timer/dataset_min": 7.009506225585938e-05, "timer/dataset_max": 0.00014472007751464844, "timer/agent.train_count": 723.0, "timer/agent.train_total": 269.311564207077, "timer/agent.train_frac": 0.8973723915875349, "timer/agent.train_avg": 0.3724917900512822, "timer/agent.train_min": 0.3660576343536377, "timer/agent.train_max": 0.3880794048309326, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22058868408203125, "timer/agent.report_frac": 0.0007350230042094783, "timer/agent.report_avg": 0.22058868408203125, "timer/agent.report_min": 0.22058868408203125, "timer/agent.report_max": 0.22058868408203125, "fps": 4.818119759935603}
{"step": 423835, "episode/length": 197.0, "episode/score": 10.099999994039536, "episode/sum_abs_reward": 12.300000011920929, "episode/reward_rate": 0.06060606060606061}
{"step": 423997, "episode/length": 161.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.299999997019768, "episode/reward_rate": 0.08024691358024691}
{"step": 424166, "episode/length": 168.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.07692307692307693}
{"step": 424388, "episode/length": 221.0, "episode/score": 11.099999994039536, "episode/sum_abs_reward": 12.900000005960464, "episode/reward_rate": 0.05855855855855856}
{"step": 424558, "episode/length": 169.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.06470588235294118}
{"step": 424764, "episode/length": 205.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.05825242718446602}
{"step": 424932, "episode/length": 167.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 12.300000056624413, "episode/reward_rate": 0.05952380952380952}
{"step": 425128, "episode/length": 195.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.05612244897959184}
{"step": 425249, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.621934678819445, "train/action_min": 0.0, "train/action_std": 3.4706617659992642, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.044442772244413696, "train/actor_opt_grad_steps": 211715.0, "train/actor_opt_loss": -14.10186109940211, "train/adv_mag": 0.4596747292412652, "train/adv_max": 0.3945756314529313, "train/adv_mean": 0.002154552779100211, "train/adv_min": -0.40139955033858615, "train/adv_std": 0.050677268041504756, "train/cont_avg": 0.9946017795138888, "train/cont_loss_mean": 7.313453718103978e-05, "train/cont_loss_std": 0.002318311761796347, "train/cont_neg_acc": 0.9965277777777778, "train/cont_neg_loss": 0.006515291139865869, "train/cont_pos_acc": 0.99998632652892, "train/cont_pos_loss": 4.776086384497249e-05, "train/cont_pred": 0.9945986626876725, "train/cont_rate": 0.9946017795138888, "train/dyn_loss_mean": 4.862166000737084, "train/dyn_loss_std": 8.598689436912537, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0333846906820934, "train/extr_critic_critic_opt_grad_steps": 211715.0, "train/extr_critic_critic_opt_loss": 16099.205322265625, "train/extr_critic_mag": 9.875528256098429, "train/extr_critic_max": 9.875528256098429, "train/extr_critic_mean": 2.6430737707349987, "train/extr_critic_min": -0.5275239066945182, "train/extr_critic_std": 2.452712823947271, "train/extr_return_normed_mag": 1.4289952036407259, "train/extr_return_normed_max": 1.4289952036407259, "train/extr_return_normed_mean": 0.3724265204121669, "train/extr_return_normed_min": -0.0913861261991163, "train/extr_return_normed_std": 0.33067001609338653, "train/extr_return_rate": 0.7429434690210555, "train/extr_return_raw_mag": 10.61157578892178, "train/extr_return_raw_max": 10.61157578892178, "train/extr_return_raw_mean": 2.6593383186393313, "train/extr_return_raw_min": -0.8325283966130681, "train/extr_return_raw_std": 2.489018294546339, "train/extr_reward_mag": 1.034188061952591, "train/extr_reward_max": 1.034188061952591, "train/extr_reward_mean": 0.051460471055987805, "train/extr_reward_min": -0.6842475980520248, "train/extr_reward_std": 0.21976764665709603, "train/image_loss_mean": 2.8869692848788366, "train/image_loss_std": 7.4180382755067615, "train/model_loss_mean": 5.8543064792950945, "train/model_loss_std": 11.521013021469116, "train/model_opt_grad_norm": 29.361796842681038, "train/model_opt_grad_steps": 211547.08333333334, "train/model_opt_loss": 14635.76611328125, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.571521004041036, "train/policy_entropy_max": 2.571521004041036, "train/policy_entropy_mean": 0.40325153225825894, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5489060224758254, "train/policy_logprob_mag": 7.438384261396196, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40319042404492694, "train/policy_logprob_min": -7.438384261396196, "train/policy_logprob_std": 1.015543291138278, "train/policy_randomness_mag": 0.9076340637273259, "train/policy_randomness_max": 0.9076340637273259, "train/policy_randomness_mean": 0.14233009403364527, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19373973883274528, "train/post_ent_mag": 54.86227538850572, "train/post_ent_max": 54.86227538850572, "train/post_ent_mean": 41.02281194263034, "train/post_ent_min": 19.00109312269423, "train/post_ent_std": 5.519165323840247, "train/prior_ent_mag": 76.36622132195367, "train/prior_ent_max": 76.36622132195367, "train/prior_ent_mean": 45.873682234022354, "train/prior_ent_min": 28.264519479539658, "train/prior_ent_std": 7.292090402709113, "train/rep_loss_mean": 4.862166000737084, "train/rep_loss_std": 8.598689436912537, "train/reward_avg": 0.033733452424510486, "train/reward_loss_mean": 0.04996451011134519, "train/reward_loss_std": 0.20201857263843218, "train/reward_max_data": 1.013888892200258, "train/reward_max_pred": 1.0138680272632175, "train/reward_neg_acc": 0.9947532423668437, "train/reward_neg_loss": 0.02292730960632778, "train/reward_pos_acc": 0.9914411736859216, "train/reward_pos_loss": 0.7258151976598634, "train/reward_pred": 0.03355147098449783, "train/reward_rate": 0.03856065538194445, "stats/sum_log_reward": 10.600000381469727, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 1.875, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 11.625, "stats/max_log_achievement_collect_wood": 8.875, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.625, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.25, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 3.25, "stats/max_log_achievement_place_table": 2.375, "stats/max_log_achievement_wake_up": 1.125, "stats/mean_log_entropy": 0.3077733460813761, "replay/size": 425186.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.818174203236898e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2503109044498868e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1053538322449, "timer/env.step_count": 1440.0, "timer/env.step_total": 20.77502131462097, "timer/env.step_frac": 0.06922576038491451, "timer/env.step_avg": 0.014427098135153452, "timer/env.step_min": 0.0030202865600585938, "timer/env.step_max": 1.7500884532928467, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.2647111415863037, "timer/replay.add_frac": 0.000882060710367313, "timer/replay.add_avg": 0.00018382718165715534, "timer/replay.add_min": 8.034706115722656e-05, "timer/replay.add_max": 0.0023272037506103516, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03070974349975586, "timer/logger.write_frac": 0.00010232987551738987, "timer/logger.write_avg": 0.03070974349975586, "timer/logger.write_min": 0.03070974349975586, "timer/logger.write_max": 0.03070974349975586, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 10.294235467910767, "timer/agent.policy_frac": 0.03430207204389001, "timer/agent.policy_avg": 0.007148774630493588, "timer/agent.policy_min": 0.005615234375, "timer/agent.policy_max": 0.01703023910522461, "timer/dataset_count": 720.0, "timer/dataset_total": 0.0664212703704834, "timer/dataset_frac": 0.0002213265092485223, "timer/dataset_avg": 9.225176440344917e-05, "timer/dataset_min": 6.461143493652344e-05, "timer/dataset_max": 0.00020742416381835938, "timer/agent.train_count": 720.0, "timer/agent.train_total": 267.9834463596344, "timer/agent.train_frac": 0.8929645637359531, "timer/agent.train_avg": 0.37219923105504776, "timer/agent.train_min": 0.3651449680328369, "timer/agent.train_max": 0.38791656494140625, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21690058708190918, "timer/agent.report_frac": 0.00072274814265111, "timer/agent.report_avg": 0.21690058708190918, "timer/agent.report_min": 0.21690058708190918, "timer/agent.report_max": 0.21690058708190918, "fps": 4.798244935166899}
{"step": 425321, "episode/length": 192.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.046632124352331605}
{"step": 425494, "episode/length": 172.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06936416184971098}
{"step": 425542, "episode/length": 47.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.14583333333333334}
{"step": 425920, "episode/length": 377.0, "episode/score": 11.099999979138374, "episode/sum_abs_reward": 13.700000032782555, "episode/reward_rate": 0.031746031746031744}
{"step": 426076, "episode/length": 155.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.07051282051282051}
{"step": 426243, "episode/length": 166.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 12.899999976158142, "episode/reward_rate": 0.07784431137724551}
{"step": 426566, "episode/length": 322.0, "episode/score": 12.099999979138374, "episode/sum_abs_reward": 14.30000002682209, "episode/reward_rate": 0.04024767801857585}
{"step": 426667, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.600283340669014, "train/action_min": 0.0, "train/action_std": 3.432879236382498, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.046576211465076664, "train/actor_opt_grad_steps": 212430.0, "train/actor_opt_loss": -12.09537726556751, "train/adv_mag": 0.46907999062202343, "train/adv_max": 0.43072437022773313, "train/adv_mean": 0.003098592593770763, "train/adv_min": -0.3896523829497082, "train/adv_std": 0.053052815595563026, "train/cont_avg": 0.9944569762323944, "train/cont_loss_mean": 3.280678671997971e-05, "train/cont_loss_std": 0.0009708075516029589, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0007618680825243259, "train/cont_pos_acc": 0.9999861582903795, "train/cont_pos_loss": 2.8547217626615526e-05, "train/cont_pred": 0.994439379430153, "train/cont_rate": 0.9944569762323944, "train/dyn_loss_mean": 5.120412141504422, "train/dyn_loss_std": 8.70197369347156, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0373613187964534, "train/extr_critic_critic_opt_grad_steps": 212430.0, "train/extr_critic_critic_opt_loss": 16446.943428147006, "train/extr_critic_mag": 10.138682741514394, "train/extr_critic_max": 10.138682741514394, "train/extr_critic_mean": 2.705134181909158, "train/extr_critic_min": -0.5238484530381753, "train/extr_critic_std": 2.4752604121893222, "train/extr_return_normed_mag": 1.456086276282727, "train/extr_return_normed_max": 1.456086276282727, "train/extr_return_normed_mean": 0.3782517528030234, "train/extr_return_normed_min": -0.09241021272372192, "train/extr_return_normed_std": 0.33103790333573246, "train/extr_return_rate": 0.754737053118961, "train/extr_return_raw_mag": 10.913387795569191, "train/extr_return_raw_max": 10.913387795569191, "train/extr_return_raw_mean": 2.7286391476510277, "train/extr_return_raw_min": -0.8453123758376484, "train/extr_return_raw_std": 2.5138488890419546, "train/extr_reward_mag": 1.038328012949984, "train/extr_reward_max": 1.038328012949984, "train/extr_reward_mean": 0.052622558732687584, "train/extr_reward_min": -0.6667075173955568, "train/extr_reward_std": 0.22214298726807177, "train/image_loss_mean": 3.1157682848648287, "train/image_loss_std": 8.148780110856178, "train/model_loss_mean": 6.238015396494261, "train/model_loss_std": 12.24727296157622, "train/model_opt_grad_norm": 32.87906246453944, "train/model_opt_grad_steps": 212261.28169014084, "train/model_opt_loss": 14525.427665602992, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2341.549295774648, "train/policy_entropy_mag": 2.5483796260726286, "train/policy_entropy_max": 2.5483796260726286, "train/policy_entropy_mean": 0.384174515663738, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5267764258552605, "train/policy_logprob_mag": 7.438384257571798, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38544172804120563, "train/policy_logprob_min": -7.438384257571798, "train/policy_logprob_std": 1.002441984666905, "train/policy_randomness_mag": 0.8994661720705704, "train/policy_randomness_max": 0.8994661720705704, "train/policy_randomness_mean": 0.135596745765545, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18592896218031224, "train/post_ent_mag": 54.89100775920169, "train/post_ent_max": 54.89100775920169, "train/post_ent_mean": 40.94920864911147, "train/post_ent_min": 18.94026106176242, "train/post_ent_std": 5.594487029062191, "train/prior_ent_mag": 76.17027680303009, "train/prior_ent_max": 76.17027680303009, "train/prior_ent_mean": 46.04472259736397, "train/prior_ent_min": 27.931628079481527, "train/prior_ent_std": 7.287147864489488, "train/rep_loss_mean": 5.120412141504422, "train/rep_loss_std": 8.70197369347156, "train/reward_avg": 0.03417831200214339, "train/reward_loss_mean": 0.04996703100771132, "train/reward_loss_std": 0.20112013187206967, "train/reward_max_data": 1.0140845104002616, "train/reward_max_pred": 1.0160195693163805, "train/reward_neg_acc": 0.9946430904764525, "train/reward_neg_loss": 0.022857306669400612, "train/reward_pos_acc": 0.9905397497432332, "train/reward_pos_loss": 0.7164890740958738, "train/reward_pred": 0.03417673733242801, "train/reward_rate": 0.03913127200704225, "stats/sum_log_reward": 9.957143102373395, "stats/max_log_achievement_collect_coal": 2.4285714285714284, "stats/max_log_achievement_collect_drink": 2.857142857142857, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 14.0, "stats/max_log_achievement_collect_wood": 10.0, "stats/max_log_achievement_defeat_skeleton": 0.2857142857142857, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 4.285714285714286, "stats/max_log_achievement_place_table": 2.4285714285714284, "stats/max_log_achievement_wake_up": 1.5714285714285714, "stats/mean_log_entropy": 0.40411277966839926, "replay/size": 426604.0, "replay/inserts": 1418.0, "replay/samples": 11344.0, "replay/insert_wait_avg": 3.872368332361133e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2391713173332267e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0015685558319, "timer/env.step_count": 1418.0, "timer/env.step_total": 19.899510145187378, "timer/env.step_frac": 0.0663313536691858, "timer/env.step_avg": 0.014033505038919166, "timer/env.step_min": 0.0031938552856445312, "timer/env.step_max": 1.7198097705841064, "timer/replay.add_count": 1418.0, "timer/replay.add_total": 0.2863037586212158, "timer/replay.add_frac": 0.0009543408722809166, "timer/replay.add_avg": 0.00020190674091764163, "timer/replay.add_min": 7.772445678710938e-05, "timer/replay.add_max": 0.0009682178497314453, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02433323860168457, "timer/logger.write_frac": 8.111037125179572e-05, "timer/logger.write_avg": 0.02433323860168457, "timer/logger.write_min": 0.02433323860168457, "timer/logger.write_max": 0.02433323860168457, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0005037784576416016, "timer/checkpoint.save_frac": 1.6792527454663814e-06, "timer/checkpoint.save_avg": 0.0005037784576416016, "timer/checkpoint.save_min": 0.0005037784576416016, "timer/checkpoint.save_max": 0.0005037784576416016, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.5540189743041992, "timer/agent.save_frac": 0.005180036163760883, "timer/agent.save_avg": 1.5540189743041992, "timer/agent.save_min": 1.5540189743041992, "timer/agent.save_max": 1.5540189743041992, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.867813110351562e-05, "timer/replay.save_frac": 2.6225906578509506e-07, "timer/replay.save_avg": 7.867813110351562e-05, "timer/replay.save_min": 7.867813110351562e-05, "timer/replay.save_max": 7.867813110351562e-05, "timer/agent.policy_count": 1418.0, "timer/agent.policy_total": 14.680647373199463, "timer/agent.policy_frac": 0.04893523538516871, "timer/agent.policy_avg": 0.010353065848518661, "timer/agent.policy_min": 0.0056459903717041016, "timer/agent.policy_max": 2.7950246334075928, "timer/dataset_count": 709.0, "timer/dataset_total": 0.06730079650878906, "timer/dataset_frac": 0.00022433481542368677, "timer/dataset_avg": 9.492354937769966e-05, "timer/dataset_min": 6.961822509765625e-05, "timer/dataset_max": 0.0002739429473876953, "timer/agent.train_count": 709.0, "timer/agent.train_total": 264.3413863182068, "timer/agent.train_frac": 0.881133347371187, "timer/agent.train_avg": 0.37283693415826064, "timer/agent.train_min": 0.362119197845459, "timer/agent.train_max": 0.4174182415008545, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21956682205200195, "timer/agent.report_frac": 0.000731885580162023, "timer/agent.report_avg": 0.21956682205200195, "timer/agent.report_min": 0.21956682205200195, "timer/agent.report_max": 0.21956682205200195, "fps": 4.726566665444559}
{"step": 426913, "episode/length": 346.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.0345821325648415}
{"step": 427101, "episode/length": 187.0, "episode/score": 11.099999979138374, "episode/sum_abs_reward": 14.100000038743019, "episode/reward_rate": 0.06382978723404255}
{"step": 427259, "episode/length": 157.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.0379746835443038}
{"step": 427320, "episode/length": 60.0, "episode/score": 6.100000023841858, "episode/sum_abs_reward": 7.5, "episode/reward_rate": 0.13114754098360656}
{"step": 427495, "episode/length": 174.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 10.100000031292439, "episode/reward_rate": 0.045714285714285714}
{"step": 427747, "episode/length": 251.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.047619047619047616}
{"step": 427944, "episode/length": 196.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.06091370558375635}
{"step": 428113, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.654529147677952, "train/action_min": 0.0, "train/action_std": 3.449094888236788, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04565596834032072, "train/actor_opt_grad_steps": 213145.0, "train/actor_opt_loss": -11.201830284049114, "train/adv_mag": 0.44605162284440464, "train/adv_max": 0.4152221551371945, "train/adv_mean": 0.002582770595128952, "train/adv_min": -0.3684435048037105, "train/adv_std": 0.052183769177645445, "train/cont_avg": 0.9951171875, "train/cont_loss_mean": 4.1605019645550736e-05, "train/cont_loss_std": 0.001195742035867574, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.001105368607367849, "train/cont_pos_acc": 0.9999863306681315, "train/cont_pos_loss": 3.753053468910947e-05, "train/cont_pred": 0.9950953895847002, "train/cont_rate": 0.9951171875, "train/dyn_loss_mean": 5.008698758151796, "train/dyn_loss_std": 8.716268711619907, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.045105488763915, "train/extr_critic_critic_opt_grad_steps": 213145.0, "train/extr_critic_critic_opt_loss": 16404.131008572047, "train/extr_critic_mag": 10.080574048890007, "train/extr_critic_max": 10.080574048890007, "train/extr_critic_mean": 2.6303054210212498, "train/extr_critic_min": -0.4687640716632207, "train/extr_critic_std": 2.442942197124163, "train/extr_return_normed_mag": 1.4395978450775146, "train/extr_return_normed_max": 1.4395978450775146, "train/extr_return_normed_mean": 0.36344184581604266, "train/extr_return_normed_min": -0.08162017872867484, "train/extr_return_normed_std": 0.3241495183772511, "train/extr_return_rate": 0.7441334277391434, "train/extr_return_raw_mag": 10.898898614777458, "train/extr_return_raw_max": 10.898898614777458, "train/extr_return_raw_mean": 2.650112696819835, "train/extr_return_raw_min": -0.7613961986369557, "train/extr_return_raw_std": 2.4845929361051984, "train/extr_reward_mag": 1.0341132515006595, "train/extr_reward_max": 1.0341132515006595, "train/extr_reward_mean": 0.050800138204875916, "train/extr_reward_min": -0.6397908065054152, "train/extr_reward_std": 0.21711453484992185, "train/image_loss_mean": 3.079352809323205, "train/image_loss_std": 7.884276303980085, "train/model_loss_mean": 6.134413692686293, "train/model_loss_std": 12.02317358387841, "train/model_opt_grad_norm": 30.426820662286545, "train/model_opt_grad_steps": 212975.0, "train/model_opt_loss": 7668.017144097223, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.573782526784473, "train/policy_entropy_max": 2.573782526784473, "train/policy_entropy_mean": 0.4196226176702314, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5718647634817494, "train/policy_logprob_mag": 7.438384261396196, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4205061093800598, "train/policy_logprob_min": -7.438384261396196, "train/policy_logprob_std": 1.0304120340281062, "train/policy_randomness_mag": 0.9084322816795773, "train/policy_randomness_max": 0.9084322816795773, "train/policy_randomness_mean": 0.1481083682220843, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20184316765516996, "train/post_ent_mag": 55.16816838582357, "train/post_ent_max": 55.16816838582357, "train/post_ent_mean": 41.132222175598145, "train/post_ent_min": 18.596633116404217, "train/post_ent_std": 5.651551511552599, "train/prior_ent_mag": 76.50621435377333, "train/prior_ent_max": 76.50621435377333, "train/prior_ent_mean": 46.14026721318563, "train/prior_ent_min": 28.377978483835857, "train/prior_ent_std": 7.255259540345934, "train/rep_loss_mean": 5.008698758151796, "train/rep_loss_std": 8.716268711619907, "train/reward_avg": 0.033687336965360574, "train/reward_loss_mean": 0.04980003269803193, "train/reward_loss_std": 0.20210158762832484, "train/reward_max_data": 1.0152777814202838, "train/reward_max_pred": 1.0121983918878767, "train/reward_neg_acc": 0.9943256005644798, "train/reward_neg_loss": 0.02275061302093996, "train/reward_pos_acc": 0.9886224865913391, "train/reward_pos_loss": 0.7333080901039971, "train/reward_pred": 0.03330572790259288, "train/reward_rate": 0.0382080078125, "stats/sum_log_reward": 8.957142761775426, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 4.857142857142857, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 12.285714285714286, "stats/max_log_achievement_collect_wood": 7.142857142857143, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.14285714285714285, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_wood_sword": 0.5714285714285714, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 3.857142857142857, "stats/max_log_achievement_place_table": 2.142857142857143, "stats/max_log_achievement_wake_up": 1.5714285714285714, "stats/mean_log_entropy": 0.436724386044911, "replay/size": 428050.0, "replay/inserts": 1446.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.792108506747466e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2528723206262865e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1913161277771, "timer/env.step_count": 1446.0, "timer/env.step_total": 19.29574155807495, "timer/env.step_frac": 0.06427814703960882, "timer/env.step_avg": 0.013344219611393466, "timer/env.step_min": 0.002798318862915039, "timer/env.step_max": 1.8003108501434326, "timer/replay.add_count": 1446.0, "timer/replay.add_total": 0.27541446685791016, "timer/replay.add_frac": 0.0009174631378766445, "timer/replay.add_avg": 0.00019046643627794617, "timer/replay.add_min": 7.987022399902344e-05, "timer/replay.add_max": 0.010606527328491211, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02933645248413086, "timer/logger.write_frac": 9.772585317439274e-05, "timer/logger.write_avg": 0.02933645248413086, "timer/logger.write_min": 0.02933645248413086, "timer/logger.write_max": 0.02933645248413086, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1446.0, "timer/agent.policy_total": 10.51146149635315, "timer/agent.policy_frac": 0.03501587464934836, "timer/agent.policy_avg": 0.007269337134407434, "timer/agent.policy_min": 0.005638837814331055, "timer/agent.policy_max": 0.014326333999633789, "timer/dataset_count": 723.0, "timer/dataset_total": 0.06575489044189453, "timer/dataset_frac": 0.00021904327976598036, "timer/dataset_avg": 9.094728968450143e-05, "timer/dataset_min": 6.341934204101562e-05, "timer/dataset_max": 0.00016546249389648438, "timer/agent.train_count": 723.0, "timer/agent.train_total": 269.314950466156, "timer/agent.train_frac": 0.8971443742613844, "timer/agent.train_avg": 0.37249647367379807, "timer/agent.train_min": 0.3661532402038574, "timer/agent.train_max": 0.3836040496826172, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2217705249786377, "timer/agent.report_frac": 0.0007387639583959204, "timer/agent.report_avg": 0.2217705249786377, "timer/agent.report_min": 0.2217705249786377, "timer/agent.report_max": 0.2217705249786377, "fps": 4.816856893720842}
{"step": 428146, "episode/length": 201.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.700000002980232, "episode/reward_rate": 0.0594059405940594}
{"step": 428450, "episode/length": 303.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.04276315789473684}
{"step": 428590, "episode/length": 139.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.07142857142857142}
{"step": 428741, "episode/length": 150.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.059602649006622516}
{"step": 428919, "episode/length": 177.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.07303370786516854}
{"step": 429087, "episode/length": 167.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.06547619047619048}
{"step": 429499, "episode/length": 411.0, "episode/score": 12.100000016391277, "episode/sum_abs_reward": 14.500000052154064, "episode/reward_rate": 0.03155339805825243}
{"step": 429561, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.628962268568065, "train/action_min": 0.0, "train/action_std": 3.406499882266946, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04538279682499905, "train/actor_opt_grad_steps": 213870.0, "train/actor_opt_loss": -13.394077694579346, "train/adv_mag": 0.45760292427180566, "train/adv_max": 0.4170677955836466, "train/adv_mean": 0.002469308950684822, "train/adv_min": -0.3862004337245471, "train/adv_std": 0.05221586842855362, "train/cont_avg": 0.9945419520547946, "train/cont_loss_mean": 8.461487232397901e-05, "train/cont_loss_std": 0.0026435142008625766, "train/cont_neg_acc": 0.9954337902265052, "train/cont_neg_loss": 0.022831485053316475, "train/cont_pos_acc": 0.9999999877524702, "train/cont_pos_loss": 1.7594078194836224e-05, "train/cont_pred": 0.9945403182343261, "train/cont_rate": 0.9945419520547946, "train/dyn_loss_mean": 5.069223221034219, "train/dyn_loss_std": 8.769333414835472, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0674283871911976, "train/extr_critic_critic_opt_grad_steps": 213870.0, "train/extr_critic_critic_opt_loss": 16429.654163099316, "train/extr_critic_mag": 10.214790879863582, "train/extr_critic_max": 10.214790879863582, "train/extr_critic_mean": 2.6721924723011172, "train/extr_critic_min": -0.5645204112954336, "train/extr_critic_std": 2.490313954549293, "train/extr_return_normed_mag": 1.4499250601415765, "train/extr_return_normed_max": 1.4499250601415765, "train/extr_return_normed_mean": 0.3686463620564709, "train/extr_return_normed_min": -0.0942066089849766, "train/extr_return_normed_std": 0.3284806153953892, "train/extr_return_rate": 0.7457968061917448, "train/extr_return_raw_mag": 11.010146154116278, "train/extr_return_raw_max": 11.010146154116278, "train/extr_return_raw_mean": 2.6911927755564857, "train/extr_return_raw_min": -0.8698131099139175, "train/extr_return_raw_std": 2.527189790386043, "train/extr_reward_mag": 1.044934772465327, "train/extr_reward_max": 1.044934772465327, "train/extr_reward_mean": 0.05100044506053402, "train/extr_reward_min": -0.7063454111961469, "train/extr_reward_std": 0.21859314159987725, "train/image_loss_mean": 3.12059154902419, "train/image_loss_std": 8.030997537586787, "train/model_loss_mean": 6.212224359381689, "train/model_loss_std": 12.242591870974188, "train/model_opt_grad_norm": 29.00536709615629, "train/model_opt_grad_steps": 213700.0, "train/model_opt_loss": 14579.821616812927, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2345.890410958904, "train/policy_entropy_mag": 2.578191156256689, "train/policy_entropy_max": 2.578191156256689, "train/policy_entropy_mean": 0.39547648005289576, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5442165716053688, "train/policy_logprob_mag": 7.438384238987753, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39588745856938296, "train/policy_logprob_min": -7.438384238987753, "train/policy_logprob_std": 1.010860842384704, "train/policy_randomness_mag": 0.9099883412661618, "train/policy_randomness_max": 0.9099883412661618, "train/policy_randomness_mean": 0.1395858425187738, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19208456728964635, "train/post_ent_mag": 55.212885503899564, "train/post_ent_max": 55.212885503899564, "train/post_ent_mean": 41.12656444392792, "train/post_ent_min": 18.848678353714618, "train/post_ent_std": 5.652590790840044, "train/prior_ent_mag": 76.50770506140304, "train/prior_ent_max": 76.50770506140304, "train/prior_ent_mean": 46.207730123441515, "train/prior_ent_min": 28.153534536492334, "train/prior_ent_std": 7.361315786022029, "train/rep_loss_mean": 5.069223221034219, "train/rep_loss_std": 8.769333414835472, "train/reward_avg": 0.03348940473100911, "train/reward_loss_mean": 0.05001430463505118, "train/reward_loss_std": 0.20426470245400521, "train/reward_max_data": 1.0219178134447908, "train/reward_max_pred": 1.0225167339795256, "train/reward_neg_acc": 0.994989953628958, "train/reward_neg_loss": 0.022731404547413736, "train/reward_pos_acc": 0.9876545553338038, "train/reward_pos_loss": 0.7365263480029695, "train/reward_pred": 0.033261465138360244, "train/reward_rate": 0.03829997859589041, "stats/sum_log_reward": 10.242857524326869, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 2.142857142857143, "stats/max_log_achievement_collect_sapling": 1.8571428571428572, "stats/max_log_achievement_collect_stone": 12.428571428571429, "stats/max_log_achievement_collect_wood": 10.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.2857142857142857, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.14285714285714285, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.4285714285714286, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.7142857142857142, "stats/max_log_achievement_place_stone": 3.857142857142857, "stats/max_log_achievement_place_table": 2.4285714285714284, "stats/max_log_achievement_wake_up": 1.7142857142857142, "stats/mean_log_entropy": 0.44697787931987215, "replay/size": 429498.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.7848949432373047e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.256575406585609e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.06366515159607, "timer/env.step_count": 1448.0, "timer/env.step_total": 18.934185028076172, "timer/env.step_frac": 0.06310055907139031, "timer/env.step_avg": 0.01307609463264929, "timer/env.step_min": 0.0030269622802734375, "timer/env.step_max": 1.7763009071350098, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.2636597156524658, "timer/replay.add_frac": 0.0008786792480164551, "timer/replay.add_avg": 0.00018208543898650954, "timer/replay.add_min": 7.152557373046875e-05, "timer/replay.add_max": 0.0013802051544189453, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028465986251831055, "timer/logger.write_frac": 9.486648854152224e-05, "timer/logger.write_avg": 0.028465986251831055, "timer/logger.write_min": 0.028465986251831055, "timer/logger.write_max": 0.028465986251831055, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 10.491955280303955, "timer/agent.policy_frac": 0.03496576393214181, "timer/agent.policy_avg": 0.007245825469823173, "timer/agent.policy_min": 0.005624532699584961, "timer/agent.policy_max": 0.017634868621826172, "timer/dataset_count": 724.0, "timer/dataset_total": 0.06657886505126953, "timer/dataset_frac": 0.00022188246290210785, "timer/dataset_avg": 9.195975835810708e-05, "timer/dataset_min": 7.200241088867188e-05, "timer/dataset_max": 0.00019478797912597656, "timer/agent.train_count": 724.0, "timer/agent.train_total": 269.5846834182739, "timer/agent.train_frac": 0.8984249501920741, "timer/agent.train_avg": 0.37235453510811317, "timer/agent.train_min": 0.3661813735961914, "timer/agent.train_max": 0.3850283622741699, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21815705299377441, "timer/agent.report_frac": 0.0007270358871460116, "timer/agent.report_avg": 0.21815705299377441, "timer/agent.report_min": 0.21815705299377441, "timer/agent.report_max": 0.21815705299377441, "fps": 4.825573953957001}
{"step": 429839, "episode/length": 339.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.03529411764705882}
{"step": 429969, "episode/length": 129.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.07692307692307693}
{"step": 430173, "episode/length": 203.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.058823529411764705}
{"step": 430305, "episode/length": 131.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.899999976158142, "episode/reward_rate": 0.09090909090909091}
{"step": 430346, "episode/length": 40.0, "episode/score": 4.100000023841858, "episode/sum_abs_reward": 5.899999976158142, "episode/reward_rate": 0.14634146341463414}
{"step": 430688, "episode/length": 341.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.500000022351742, "episode/reward_rate": 0.023391812865497075}
{"step": 430993, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.551848935409331, "train/action_min": 0.0, "train/action_std": 3.360255973439821, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0459155308633623, "train/actor_opt_grad_steps": 214590.0, "train/actor_opt_loss": -13.685681822958966, "train/adv_mag": 0.45614088756937377, "train/adv_max": 0.42685404797674903, "train/adv_mean": 0.0021015114710418318, "train/adv_min": -0.36673023793059334, "train/adv_std": 0.05067423731088638, "train/cont_avg": 0.9945945202464789, "train/cont_loss_mean": 5.63811790655477e-05, "train/cont_loss_std": 0.0015923305499276927, "train/cont_neg_acc": 0.9982394366197183, "train/cont_neg_loss": 0.005143764609425156, "train/cont_pos_acc": 0.9999999832099592, "train/cont_pos_loss": 1.6916924573586547e-05, "train/cont_pred": 0.9945949240469597, "train/cont_rate": 0.9945945202464789, "train/dyn_loss_mean": 5.009455949487821, "train/dyn_loss_std": 8.760865251782914, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0173840623506358, "train/extr_critic_critic_opt_grad_steps": 214590.0, "train/extr_critic_critic_opt_loss": 16262.464582416373, "train/extr_critic_mag": 10.111536482690086, "train/extr_critic_max": 10.111536482690086, "train/extr_critic_mean": 2.6145777970972195, "train/extr_critic_min": -0.5673097959706481, "train/extr_critic_std": 2.4622840192955984, "train/extr_return_normed_mag": 1.4508031405193704, "train/extr_return_normed_max": 1.4508031405193704, "train/extr_return_normed_mean": 0.36760136548062444, "train/extr_return_normed_min": -0.09687521051563008, "train/extr_return_normed_std": 0.32980833422969763, "train/extr_return_rate": 0.7407442432054332, "train/extr_return_raw_mag": 10.827651440257757, "train/extr_return_raw_max": 10.827651440257757, "train/extr_return_raw_mean": 2.630475704099091, "train/extr_return_raw_min": -0.8844538532512288, "train/extr_return_raw_std": 2.495927778767868, "train/extr_reward_mag": 1.0356942566347793, "train/extr_reward_max": 1.0356942566347793, "train/extr_reward_mean": 0.0495169342193805, "train/extr_reward_min": -0.6839715091275497, "train/extr_reward_std": 0.21632533174165539, "train/image_loss_mean": 3.230579114296067, "train/image_loss_std": 8.339598857181173, "train/model_loss_mean": 6.285312840636347, "train/model_loss_std": 12.473040379269023, "train/model_opt_grad_norm": 33.98610064009546, "train/model_opt_grad_steps": 214419.52112676058, "train/model_opt_loss": 15713.28213028169, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.583479985384874, "train/policy_entropy_max": 2.583479985384874, "train/policy_entropy_mean": 0.39751191647119927, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5504376493709188, "train/policy_logprob_mag": 7.438384230707733, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39694186730284087, "train/policy_logprob_min": -7.438384230707733, "train/policy_logprob_std": 1.009486734027594, "train/policy_randomness_mag": 0.9118550621287923, "train/policy_randomness_max": 0.9118550621287923, "train/policy_randomness_mean": 0.14030426132007384, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1942803367552623, "train/post_ent_mag": 54.76865768432617, "train/post_ent_max": 54.76865768432617, "train/post_ent_mean": 41.128788048112895, "train/post_ent_min": 18.840610544446488, "train/post_ent_std": 5.547905048853915, "train/prior_ent_mag": 76.52427651848592, "train/prior_ent_max": 76.52427651848592, "train/prior_ent_mean": 46.129276383091025, "train/prior_ent_min": 28.398277148394516, "train/prior_ent_std": 7.296139985742704, "train/rep_loss_mean": 5.009455949487821, "train/rep_loss_std": 8.760865251782914, "train/reward_avg": 0.03195009850175448, "train/reward_loss_mean": 0.04900373350566541, "train/reward_loss_std": 0.19742652270155894, "train/reward_max_data": 1.016901412480314, "train/reward_max_pred": 1.0158631969505632, "train/reward_neg_acc": 0.9946585557830165, "train/reward_neg_loss": 0.022979428178407778, "train/reward_pos_acc": 0.9889024109907554, "train/reward_pos_loss": 0.7291794872619737, "train/reward_pred": 0.031652283605555415, "train/reward_rate": 0.036875550176056336, "stats/sum_log_reward": 8.766666730244955, "stats/max_log_achievement_collect_coal": 0.3333333333333333, "stats/max_log_achievement_collect_drink": 2.8333333333333335, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 14.166666666666666, "stats/max_log_achievement_collect_wood": 5.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.3333333333333333, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_stone": 4.0, "stats/max_log_achievement_place_table": 1.6666666666666667, "stats/max_log_achievement_wake_up": 1.8333333333333333, "stats/mean_log_entropy": 0.4427158596614997, "replay/size": 430930.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.7749053379676863e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2537370846924168e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.15803384780884, "timer/env.step_count": 1432.0, "timer/env.step_total": 19.82270836830139, "timer/env.step_frac": 0.06604090556627325, "timer/env.step_avg": 0.013842673441551252, "timer/env.step_min": 0.003359556198120117, "timer/env.step_max": 2.494781494140625, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.2647221088409424, "timer/replay.add_frac": 0.0008819424402785308, "timer/replay.add_avg": 0.0001848618078498201, "timer/replay.add_min": 7.224082946777344e-05, "timer/replay.add_max": 0.0011680126190185547, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03157806396484375, "timer/logger.write_frac": 0.00010520479348840281, "timer/logger.write_avg": 0.03157806396484375, "timer/logger.write_min": 0.03157806396484375, "timer/logger.write_max": 0.03157806396484375, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004436969757080078, "timer/checkpoint.save_frac": 1.478211227666085e-06, "timer/checkpoint.save_avg": 0.0004436969757080078, "timer/checkpoint.save_min": 0.0004436969757080078, "timer/checkpoint.save_max": 0.0004436969757080078, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3811047077178955, "timer/agent.save_frac": 0.004601258510435761, "timer/agent.save_avg": 1.3811047077178955, "timer/agent.save_min": 1.3811047077178955, "timer/agent.save_max": 1.3811047077178955, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.033348083496094e-05, "timer/replay.save_frac": 2.343215003554514e-07, "timer/replay.save_avg": 7.033348083496094e-05, "timer/replay.save_min": 7.033348083496094e-05, "timer/replay.save_max": 7.033348083496094e-05, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 12.370211124420166, "timer/agent.policy_frac": 0.041212327272547096, "timer/agent.policy_avg": 0.008638415589678887, "timer/agent.policy_min": 0.005713701248168945, "timer/agent.policy_max": 1.3747622966766357, "timer/dataset_count": 716.0, "timer/dataset_total": 0.0656132698059082, "timer/dataset_frac": 0.0002185957475960032, "timer/dataset_avg": 9.163864498031873e-05, "timer/dataset_min": 6.842613220214844e-05, "timer/dataset_max": 0.0001742839813232422, "timer/agent.train_count": 716.0, "timer/agent.train_total": 266.9073255062103, "timer/agent.train_frac": 0.8892226607585728, "timer/agent.train_avg": 0.37277559428241663, "timer/agent.train_min": 0.3650057315826416, "timer/agent.train_max": 0.5235166549682617, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22252368927001953, "timer/agent.report_frac": 0.0007413551002364548, "timer/agent.report_avg": 0.22252368927001953, "timer/agent.report_min": 0.22252368927001953, "timer/agent.report_max": 0.22252368927001953, "fps": 4.770744881870896}
{"step": 431130, "episode/length": 441.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.027149321266968326}
{"step": 431338, "episode/length": 207.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 11.899999991059303, "episode/reward_rate": 0.057692307692307696}
{"step": 431383, "episode/length": 44.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.15555555555555556}
{"step": 431554, "episode/length": 170.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.05847953216374269}
{"step": 431803, "episode/length": 248.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.040160642570281124}
{"step": 432013, "episode/length": 209.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.047619047619047616}
{"step": 432281, "episode/length": 267.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.04477611940298507}
{"step": 432336, "episode/length": 54.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.700000040233135, "episode/reward_rate": 0.14545454545454545}
{"step": 432433, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.557317945692274, "train/action_min": 0.0, "train/action_std": 3.351719558238983, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04648996858547131, "train/actor_opt_grad_steps": 215305.0, "train/actor_opt_loss": -13.987510845065117, "train/adv_mag": 0.4489429257810116, "train/adv_max": 0.4064668483204312, "train/adv_mean": 0.0021418960309852585, "train/adv_min": -0.3884061012003157, "train/adv_std": 0.052544940107812486, "train/cont_avg": 0.9947509765625, "train/cont_loss_mean": 6.347309186101786e-05, "train/cont_loss_std": 0.001979897988090013, "train/cont_neg_acc": 0.9972222223877907, "train/cont_neg_loss": 0.004310975638140412, "train/cont_pos_acc": 0.9999727192852232, "train/cont_pos_loss": 4.242282764790575e-05, "train/cont_pred": 0.9947372178236643, "train/cont_rate": 0.9947509765625, "train/dyn_loss_mean": 4.918756037950516, "train/dyn_loss_std": 8.679853399594625, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.031243894663122, "train/extr_critic_critic_opt_grad_steps": 215305.0, "train/extr_critic_critic_opt_loss": 16474.766628689234, "train/extr_critic_mag": 10.033882843123543, "train/extr_critic_max": 10.033882843123543, "train/extr_critic_mean": 2.663088606463538, "train/extr_critic_min": -0.5778980437252257, "train/extr_critic_std": 2.42098539074262, "train/extr_return_normed_mag": 1.456902371512519, "train/extr_return_normed_max": 1.456902371512519, "train/extr_return_normed_mean": 0.37673460216157967, "train/extr_return_normed_min": -0.09572162996563646, "train/extr_return_normed_std": 0.323683738294575, "train/extr_return_rate": 0.7516403024395307, "train/extr_return_raw_mag": 10.879572961065504, "train/extr_return_raw_max": 10.879572961065504, "train/extr_return_raw_mean": 2.679311700993114, "train/extr_return_raw_min": -0.9073474415474467, "train/extr_return_raw_std": 2.45751264029079, "train/extr_reward_mag": 1.045514891544978, "train/extr_reward_max": 1.045514891544978, "train/extr_reward_mean": 0.05234626794440879, "train/extr_reward_min": -0.6787228220038943, "train/extr_reward_std": 0.22251303038663334, "train/image_loss_mean": 2.94256748424636, "train/image_loss_std": 7.977402309576671, "train/model_loss_mean": 5.943242371082306, "train/model_loss_std": 12.100957327418858, "train/model_opt_grad_norm": 32.451827896965874, "train/model_opt_grad_steps": 215133.94444444444, "train/model_opt_loss": 15333.163859049479, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2569.4444444444443, "train/policy_entropy_mag": 2.5598472820387945, "train/policy_entropy_max": 2.5598472820387945, "train/policy_entropy_mean": 0.378903581864304, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5240355990827084, "train/policy_logprob_mag": 7.438384221659766, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3785521354940202, "train/policy_logprob_min": -7.438384221659766, "train/policy_logprob_std": 0.9951397362682555, "train/policy_randomness_mag": 0.9035137519240379, "train/policy_randomness_max": 0.9035137519240379, "train/policy_randomness_mean": 0.13373633794900444, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18496156928853857, "train/post_ent_mag": 54.832411766052246, "train/post_ent_max": 54.832411766052246, "train/post_ent_mean": 41.1453988287184, "train/post_ent_min": 18.824000106917488, "train/post_ent_std": 5.572474963135189, "train/prior_ent_mag": 76.40632661183675, "train/prior_ent_max": 76.40632661183675, "train/prior_ent_mean": 46.05035252041287, "train/prior_ent_min": 28.38506597942776, "train/prior_ent_std": 7.239929801887936, "train/rep_loss_mean": 4.918756037950516, "train/rep_loss_std": 8.679853399594625, "train/reward_avg": 0.03281928131925977, "train/reward_loss_mean": 0.04935778286825451, "train/reward_loss_std": 0.20150691746837562, "train/reward_max_data": 1.0263888951804903, "train/reward_max_pred": 1.0239567789766524, "train/reward_neg_acc": 0.9940855867332883, "train/reward_neg_loss": 0.022673121019680467, "train/reward_pos_acc": 0.9875096380710602, "train/reward_pos_loss": 0.7333962288167741, "train/reward_pred": 0.03248826349671516, "train/reward_rate": 0.037543402777777776, "stats/sum_log_reward": 8.975000381469727, "stats/max_log_achievement_collect_coal": 0.375, "stats/max_log_achievement_collect_drink": 3.5, "stats/max_log_achievement_collect_sapling": 1.625, "stats/max_log_achievement_collect_stone": 13.375, "stats/max_log_achievement_collect_wood": 7.25, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.125, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.75, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 5.625, "stats/max_log_achievement_place_table": 2.25, "stats/max_log_achievement_wake_up": 1.625, "stats/mean_log_entropy": 0.5054542608559132, "replay/size": 432370.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.829432858361138e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.251759628454844e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0253572463989, "timer/env.step_count": 1440.0, "timer/env.step_total": 20.608186721801758, "timer/env.step_frac": 0.06868814993153086, "timer/env.step_avg": 0.014311240779028999, "timer/env.step_min": 0.0029532909393310547, "timer/env.step_max": 1.6951231956481934, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.26635217666625977, "timer/replay.add_frac": 0.0008877655512547737, "timer/replay.add_avg": 0.00018496678935156927, "timer/replay.add_min": 7.700920104980469e-05, "timer/replay.add_max": 0.0018715858459472656, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028261899948120117, "timer/logger.write_frac": 9.41983711227106e-05, "timer/logger.write_avg": 0.028261899948120117, "timer/logger.write_min": 0.028261899948120117, "timer/logger.write_max": 0.028261899948120117, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 10.361533880233765, "timer/agent.policy_frac": 0.03453552718120505, "timer/agent.policy_avg": 0.007195509639051225, "timer/agent.policy_min": 0.0057299137115478516, "timer/agent.policy_max": 0.01636052131652832, "timer/dataset_count": 720.0, "timer/dataset_total": 0.0663759708404541, "timer/dataset_frac": 0.00022123453647266938, "timer/dataset_avg": 9.218884838951959e-05, "timer/dataset_min": 6.413459777832031e-05, "timer/dataset_max": 0.00018405914306640625, "timer/agent.train_count": 720.0, "timer/agent.train_total": 268.0068302154541, "timer/agent.train_frac": 0.8932805969308478, "timer/agent.train_avg": 0.37223170863257515, "timer/agent.train_min": 0.3627591133117676, "timer/agent.train_max": 0.38596415519714355, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21830272674560547, "timer/agent.report_frac": 0.0007276142548388739, "timer/agent.report_avg": 0.21830272674560547, "timer/agent.report_min": 0.21830272674560547, "timer/agent.report_max": 0.21830272674560547, "fps": 4.799521776165797}
{"step": 432610, "episode/length": 273.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.040145985401459854}
{"step": 432813, "episode/length": 202.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.054187192118226604}
{"step": 432928, "episode/length": 114.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.09565217391304348}
{"step": 433442, "episode/length": 513.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.500000037252903, "episode/reward_rate": 0.02529182879377432}
{"step": 433653, "episode/length": 210.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.299999997019768, "episode/reward_rate": 0.04739336492890995}
{"step": 433817, "episode/length": 163.0, "episode/score": 8.099999979138374, "episode/sum_abs_reward": 10.30000002682209, "episode/reward_rate": 0.054878048780487805}
{"step": 433891, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.565981512200342, "train/action_min": 0.0, "train/action_std": 3.3693246808770585, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04522932121810848, "train/actor_opt_grad_steps": 216030.0, "train/actor_opt_loss": -11.518745656495225, "train/adv_mag": 0.4564721886425802, "train/adv_max": 0.41984603911230006, "train/adv_mean": 0.002831564204102942, "train/adv_min": -0.38475784496085286, "train/adv_std": 0.051091029882839284, "train/cont_avg": 0.9948763912671232, "train/cont_loss_mean": 0.0001220488156337829, "train/cont_loss_std": 0.0038028185681889524, "train/cont_neg_acc": 0.9955479453687799, "train/cont_neg_loss": 0.02212984692956425, "train/cont_pos_acc": 0.9999999844864623, "train/cont_pos_loss": 6.229706130024986e-06, "train/cont_pred": 0.9948976097041613, "train/cont_rate": 0.9948763912671232, "train/dyn_loss_mean": 4.878065932286929, "train/dyn_loss_std": 8.677490332355237, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0849885181204912, "train/extr_critic_critic_opt_grad_steps": 216030.0, "train/extr_critic_critic_opt_loss": 16493.486528788526, "train/extr_critic_mag": 10.29425320559985, "train/extr_critic_max": 10.29425320559985, "train/extr_critic_mean": 2.6220496501008124, "train/extr_critic_min": -0.5899144770347908, "train/extr_critic_std": 2.4759298465023303, "train/extr_return_normed_mag": 1.468311713166433, "train/extr_return_normed_max": 1.468311713166433, "train/extr_return_normed_mean": 0.36666213180104346, "train/extr_return_normed_min": -0.0971976045570145, "train/extr_return_normed_std": 0.3266157816125922, "train/extr_return_rate": 0.7407623815209898, "train/extr_return_raw_mag": 11.133106323137675, "train/extr_return_raw_max": 11.133106323137675, "train/extr_return_raw_mean": 2.643839661389181, "train/extr_return_raw_min": -0.9314052135977027, "train/extr_return_raw_std": 2.5169292639379632, "train/extr_reward_mag": 1.0430332177305874, "train/extr_reward_max": 1.0430332177305874, "train/extr_reward_mean": 0.05146764563268995, "train/extr_reward_min": -0.6808697899726972, "train/extr_reward_std": 0.21906017175275985, "train/image_loss_mean": 2.988775751362108, "train/image_loss_std": 7.916722872485853, "train/model_loss_mean": 5.963232249429781, "train/model_loss_std": 12.068360145777872, "train/model_opt_grad_norm": 30.24449806997221, "train/model_opt_grad_steps": 215857.60273972602, "train/model_opt_loss": 11981.374337810359, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2003.4246575342465, "train/policy_entropy_mag": 2.585551229241776, "train/policy_entropy_max": 2.585551229241776, "train/policy_entropy_mean": 0.3893555092484984, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5389450829323024, "train/policy_logprob_mag": 7.438384258583801, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38979533682130785, "train/policy_logprob_min": -7.438384258583801, "train/policy_logprob_std": 1.005764268032492, "train/policy_randomness_mag": 0.912586119893479, "train/policy_randomness_max": 0.912586119893479, "train/policy_randomness_mean": 0.13742540786935858, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1902239639056872, "train/post_ent_mag": 55.16351213847121, "train/post_ent_max": 55.16351213847121, "train/post_ent_mean": 41.11577318792474, "train/post_ent_min": 18.754779332304654, "train/post_ent_std": 5.553744224652852, "train/prior_ent_mag": 76.37252410470623, "train/prior_ent_max": 76.37252410470623, "train/prior_ent_mean": 45.98104994264367, "train/prior_ent_min": 28.663084448200383, "train/prior_ent_std": 7.246755985364522, "train/rep_loss_mean": 4.878065932286929, "train/rep_loss_std": 8.677490332355237, "train/reward_avg": 0.03248742513664781, "train/reward_loss_mean": 0.0474949221139493, "train/reward_loss_std": 0.19586819655274693, "train/reward_max_data": 1.0205479501044914, "train/reward_max_pred": 1.0212388397896126, "train/reward_neg_acc": 0.9949472464927255, "train/reward_neg_loss": 0.021009400168000018, "train/reward_pos_acc": 0.9883842002855588, "train/reward_pos_loss": 0.7331169002676663, "train/reward_pred": 0.03219246832424239, "train/reward_rate": 0.03722977311643835, "stats/sum_log_reward": 9.600000381469727, "stats/max_log_achievement_collect_coal": 0.0, "stats/max_log_achievement_collect_drink": 4.333333333333333, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 15.166666666666666, "stats/max_log_achievement_collect_wood": 9.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.3333333333333333, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.3333333333333333, "stats/max_log_achievement_place_furnace": 1.1666666666666667, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 8.166666666666666, "stats/max_log_achievement_place_table": 2.3333333333333335, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.4929914226134618, "replay/size": 433828.0, "replay/inserts": 1458.0, "replay/samples": 11664.0, "replay/insert_wait_avg": 3.816659558457112e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2587699706989388e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2060959339142, "timer/env.step_count": 1458.0, "timer/env.step_total": 17.218523263931274, "timer/env.step_frac": 0.05735567497510667, "timer/env.step_avg": 0.01180968673795012, "timer/env.step_min": 0.002796649932861328, "timer/env.step_max": 1.695925235748291, "timer/replay.add_count": 1458.0, "timer/replay.add_total": 0.2693617343902588, "timer/replay.add_frac": 0.0008972560452255263, "timer/replay.add_avg": 0.0001847474172772694, "timer/replay.add_min": 7.534027099609375e-05, "timer/replay.add_max": 0.0012907981872558594, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024944067001342773, "timer/logger.write_frac": 8.308980843225059e-05, "timer/logger.write_avg": 0.024944067001342773, "timer/logger.write_min": 0.024944067001342773, "timer/logger.write_max": 0.024944067001342773, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1458.0, "timer/agent.policy_total": 10.528333187103271, "timer/agent.policy_frac": 0.035070351101134614, "timer/agent.policy_avg": 0.007221079003500186, "timer/agent.policy_min": 0.0056612491607666016, "timer/agent.policy_max": 0.019197702407836914, "timer/dataset_count": 729.0, "timer/dataset_total": 0.06814908981323242, "timer/dataset_frac": 0.00022700768151035283, "timer/dataset_avg": 9.348297642418713e-05, "timer/dataset_min": 6.747245788574219e-05, "timer/dataset_max": 0.00022172927856445312, "timer/agent.train_count": 729.0, "timer/agent.train_total": 271.40278697013855, "timer/agent.train_frac": 0.9040548831156439, "timer/agent.train_avg": 0.37229463233215165, "timer/agent.train_min": 0.36449098587036133, "timer/agent.train_max": 0.4014933109283447, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2201404571533203, "timer/agent.report_frac": 0.0007332977582233403, "timer/agent.report_avg": 0.2201404571533203, "timer/agent.report_min": 0.2201404571533203, "timer/agent.report_max": 0.2201404571533203, "fps": 4.856576921082154}
{"step": 433984, "episode/length": 166.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.0658682634730539}
{"step": 434148, "episode/length": 163.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06707317073170732}
{"step": 434329, "episode/length": 180.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.055248618784530384}
{"step": 434504, "episode/length": 174.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.300000041723251, "episode/reward_rate": 0.05142857142857143}
{"step": 434790, "episode/length": 285.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.038461538461538464}
{"step": 435076, "episode/length": 285.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.038461538461538464}
{"step": 435318, "episode/length": 241.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.299999997019768, "episode/reward_rate": 0.05371900826446281}
{"step": 435319, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.600847880045573, "train/action_min": 0.0, "train/action_std": 3.4391161832544537, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04662832064140174, "train/actor_opt_grad_steps": 216755.0, "train/actor_opt_loss": -13.89210762249099, "train/adv_mag": 0.5247086911565728, "train/adv_max": 0.48587945393390125, "train/adv_mean": 0.002210593412706253, "train/adv_min": -0.4119249729232656, "train/adv_std": 0.053090700776212744, "train/cont_avg": 0.9946017795138888, "train/cont_loss_mean": 9.858394223509019e-05, "train/cont_loss_std": 0.0030605652708936126, "train/cont_neg_acc": 0.9941578499144978, "train/cont_neg_loss": 0.013184587502160462, "train/cont_pos_acc": 0.999999980131785, "train/cont_pos_loss": 4.299990610295228e-06, "train/cont_pred": 0.9946385042534934, "train/cont_rate": 0.9946017795138888, "train/dyn_loss_mean": 5.0450667010413275, "train/dyn_loss_std": 8.75393521785736, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.064414247042603, "train/extr_critic_critic_opt_grad_steps": 216755.0, "train/extr_critic_critic_opt_loss": 16658.691379123266, "train/extr_critic_mag": 10.682205849223667, "train/extr_critic_max": 10.682205849223667, "train/extr_critic_mean": 2.778619017865923, "train/extr_critic_min": -0.5693019181489944, "train/extr_critic_std": 2.55600414176782, "train/extr_return_normed_mag": 1.5029368731710646, "train/extr_return_normed_max": 1.5029368731710646, "train/extr_return_normed_mean": 0.3799992052631246, "train/extr_return_normed_min": -0.0911816323382987, "train/extr_return_normed_std": 0.3313526271118058, "train/extr_return_rate": 0.757859554555681, "train/extr_return_raw_mag": 11.582459529240927, "train/extr_return_raw_max": 11.582459529240927, "train/extr_return_raw_mean": 2.7958973281913333, "train/extr_return_raw_min": -0.8893915249241723, "train/extr_return_raw_std": 2.592459743221601, "train/extr_reward_mag": 1.0456049243609111, "train/extr_reward_max": 1.0456049243609111, "train/extr_reward_mean": 0.054022304713726044, "train/extr_reward_min": -0.6834522502289878, "train/extr_reward_std": 0.22498248952130476, "train/image_loss_mean": 2.9825408111015954, "train/image_loss_std": 8.093678302235073, "train/model_loss_mean": 6.060285488764445, "train/model_loss_std": 12.30651448832618, "train/model_opt_grad_norm": 30.17854142189026, "train/model_opt_grad_steps": 216582.0, "train/model_opt_loss": 7692.528211805556, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1267.361111111111, "train/policy_entropy_mag": 2.552031377951304, "train/policy_entropy_max": 2.552031377951304, "train/policy_entropy_mean": 0.3606472013311254, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.4986310543285476, "train/policy_logprob_mag": 7.438384195168813, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3608495274351703, "train/policy_logprob_min": -7.438384195168813, "train/policy_logprob_std": 0.9789374876353476, "train/policy_randomness_mag": 0.900755085878902, "train/policy_randomness_max": 0.900755085878902, "train/policy_randomness_mean": 0.1272926354366872, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.17599488091137674, "train/post_ent_mag": 54.70184771219889, "train/post_ent_max": 54.70184771219889, "train/post_ent_mean": 41.09018140368991, "train/post_ent_min": 19.076258540153503, "train/post_ent_std": 5.500587562719981, "train/prior_ent_mag": 76.31748400794135, "train/prior_ent_max": 76.31748400794135, "train/prior_ent_mean": 46.124019622802734, "train/prior_ent_min": 28.483246114518906, "train/prior_ent_std": 7.197801808516185, "train/rep_loss_mean": 5.0450667010413275, "train/rep_loss_std": 8.75393521785736, "train/reward_avg": 0.035967339425244264, "train/reward_loss_mean": 0.050606073501209416, "train/reward_loss_std": 0.2046086127973265, "train/reward_max_data": 1.0194444490803614, "train/reward_max_pred": 1.0184868805938296, "train/reward_neg_acc": 0.9948957512776057, "train/reward_neg_loss": 0.02185848864933683, "train/reward_pos_acc": 0.9881062573856778, "train/reward_pos_loss": 0.7308237296011713, "train/reward_pred": 0.035705074538580246, "train/reward_rate": 0.04063585069444445, "stats/sum_log_reward": 9.81428609575544, "stats/max_log_achievement_collect_coal": 0.14285714285714285, "stats/max_log_achievement_collect_drink": 3.5714285714285716, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 11.714285714285714, "stats/max_log_achievement_collect_wood": 8.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.2857142857142857, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.4285714285714286, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 4.285714285714286, "stats/max_log_achievement_place_table": 2.857142857142857, "stats/max_log_achievement_wake_up": 1.8571428571428572, "stats/mean_log_entropy": 0.4997430145740509, "replay/size": 435256.0, "replay/inserts": 1428.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 3.88214902049687e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2504244718898912e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 301.1202528476715, "timer/env.step_count": 1428.0, "timer/env.step_total": 21.7784104347229, "timer/env.step_frac": 0.07232462854546022, "timer/env.step_avg": 0.015250987699385784, "timer/env.step_min": 0.0030884742736816406, "timer/env.step_max": 2.7318124771118164, "timer/replay.add_count": 1428.0, "timer/replay.add_total": 0.2935807704925537, "timer/replay.add_frac": 0.0009749618888672632, "timer/replay.add_avg": 0.0002055887748547295, "timer/replay.add_min": 7.891654968261719e-05, "timer/replay.add_max": 0.0014195442199707031, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02760601043701172, "timer/logger.write_frac": 9.167769413031426e-05, "timer/logger.write_avg": 0.02760601043701172, "timer/logger.write_min": 0.02760601043701172, "timer/logger.write_max": 0.02760601043701172, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00023484230041503906, "timer/checkpoint.save_frac": 7.798954012363936e-07, "timer/checkpoint.save_avg": 0.00023484230041503906, "timer/checkpoint.save_min": 0.00023484230041503906, "timer/checkpoint.save_max": 0.00023484230041503906, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3538262844085693, "timer/agent.save_frac": 0.004495965553978971, "timer/agent.save_avg": 1.3538262844085693, "timer/agent.save_min": 1.3538262844085693, "timer/agent.save_max": 1.3538262844085693, "timer/replay.save_count": 1.0, "timer/replay.save_total": 5.8650970458984375e-05, "timer/replay.save_frac": 1.9477590731386073e-07, "timer/replay.save_avg": 5.8650970458984375e-05, "timer/replay.save_min": 5.8650970458984375e-05, "timer/replay.save_max": 5.8650970458984375e-05, "timer/agent.policy_count": 1428.0, "timer/agent.policy_total": 12.445955991744995, "timer/agent.policy_frac": 0.04133217833753967, "timer/agent.policy_avg": 0.008715655456404058, "timer/agent.policy_min": 0.005732059478759766, "timer/agent.policy_max": 1.346891164779663, "timer/dataset_count": 714.0, "timer/dataset_total": 0.06668758392333984, "timer/dataset_frac": 0.00022146495724774536, "timer/dataset_avg": 9.339997748366925e-05, "timer/dataset_min": 6.699562072753906e-05, "timer/dataset_max": 0.00016880035400390625, "timer/agent.train_count": 714.0, "timer/agent.train_total": 265.81538105010986, "timer/agent.train_frac": 0.8827549078360352, "timer/agent.train_avg": 0.3722904496500138, "timer/agent.train_min": 0.3656330108642578, "timer/agent.train_max": 0.47371411323547363, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21965527534484863, "timer/agent.report_frac": 0.0007294603178218179, "timer/agent.report_avg": 0.21965527534484863, "timer/agent.report_min": 0.21965527534484863, "timer/agent.report_max": 0.21965527534484863, "fps": 4.742227196837065}
{"step": 435628, "episode/length": 309.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 11.700000047683716, "episode/reward_rate": 0.03225806451612903}
{"step": 435749, "episode/length": 120.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.09090909090909091}
{"step": 436047, "episode/length": 297.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.040268456375838924}
{"step": 436179, "episode/length": 131.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.899999976158142, "episode/reward_rate": 0.09090909090909091}
{"step": 436351, "episode/length": 171.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 9.899999976158142, "episode/reward_rate": 0.05813953488372093}
{"step": 436549, "episode/length": 197.0, "episode/score": 8.099999979138374, "episode/sum_abs_reward": 10.30000002682209, "episode/reward_rate": 0.045454545454545456}
{"step": 436754, "episode/length": 204.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.05365853658536585}
{"step": 436767, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4654541015625, "train/action_min": 0.0, "train/action_std": 3.2913994524214, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04510954995122221, "train/actor_opt_grad_steps": 217475.0, "train/actor_opt_loss": -14.1325337919924, "train/adv_mag": 0.46581118885013795, "train/adv_max": 0.4066615423394574, "train/adv_mean": 0.0013111246632383376, "train/adv_min": -0.4051141209072537, "train/adv_std": 0.050966229755431414, "train/cont_avg": 0.9947102864583334, "train/cont_loss_mean": 7.066724717377484e-05, "train/cont_loss_std": 0.0021661056257897826, "train/cont_neg_acc": 0.9952380963497691, "train/cont_neg_loss": 0.01139065778765295, "train/cont_pos_acc": 0.9999999784761004, "train/cont_pos_loss": 7.073763897993659e-06, "train/cont_pred": 0.9947313881582684, "train/cont_rate": 0.9947102864583334, "train/dyn_loss_mean": 5.251674956745571, "train/dyn_loss_std": 8.871439152293735, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.043971182571517, "train/extr_critic_critic_opt_grad_steps": 217475.0, "train/extr_critic_critic_opt_loss": 16530.00836859809, "train/extr_critic_mag": 10.247264583905539, "train/extr_critic_max": 10.247264583905539, "train/extr_critic_mean": 2.6414874444405236, "train/extr_critic_min": -0.5568381564484702, "train/extr_critic_std": 2.4901726179652743, "train/extr_return_normed_mag": 1.439608547422621, "train/extr_return_normed_max": 1.439608547422621, "train/extr_return_normed_mean": 0.3655272391107347, "train/extr_return_normed_min": -0.0849108259814481, "train/extr_return_normed_std": 0.32441453552908367, "train/extr_return_rate": 0.7313892857895957, "train/extr_return_raw_mag": 10.999796244833204, "train/extr_return_raw_max": 10.999796244833204, "train/extr_return_raw_mean": 2.651659299929937, "train/extr_return_raw_min": -0.8493017314208878, "train/extr_return_raw_std": 2.521475146214167, "train/extr_reward_mag": 1.0472328530417547, "train/extr_reward_max": 1.0472328530417547, "train/extr_reward_mean": 0.05027643389378985, "train/extr_reward_min": -0.6377576755152808, "train/extr_reward_std": 0.21717532662053904, "train/image_loss_mean": 3.297847110364172, "train/image_loss_std": 8.514570865366194, "train/model_loss_mean": 6.500638524691264, "train/model_loss_std": 12.736973722775778, "train/model_opt_grad_norm": 31.394927197032505, "train/model_opt_grad_steps": 217302.0, "train/model_opt_loss": 16251.596340603299, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.568461689684126, "train/policy_entropy_max": 2.568461689684126, "train/policy_entropy_mean": 0.37808026000857353, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5258264119426409, "train/policy_logprob_mag": 7.4383842084142895, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3774491221540504, "train/policy_logprob_min": -7.4383842084142895, "train/policy_logprob_std": 0.9955390832490392, "train/policy_randomness_mag": 0.906554263499048, "train/policy_randomness_max": 0.906554263499048, "train/policy_randomness_mean": 0.1334457393321726, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18559365005542836, "train/post_ent_mag": 55.26758591334025, "train/post_ent_max": 55.26758591334025, "train/post_ent_mean": 41.01718669467502, "train/post_ent_min": 19.145591590139603, "train/post_ent_std": 5.632385651270549, "train/prior_ent_mag": 76.4127443101671, "train/prior_ent_max": 76.4127443101671, "train/prior_ent_mean": 46.22360282474094, "train/prior_ent_min": 28.4640502664778, "train/prior_ent_std": 7.327979452080196, "train/rep_loss_mean": 5.251674956745571, "train/rep_loss_std": 8.871439152293735, "train/reward_avg": 0.03431125184417599, "train/reward_loss_mean": 0.0517157630270554, "train/reward_loss_std": 0.2132271302656995, "train/reward_max_data": 1.0194444490803614, "train/reward_max_pred": 1.0196491645442114, "train/reward_neg_acc": 0.9944836340016789, "train/reward_neg_loss": 0.023733810359974288, "train/reward_pos_acc": 0.9865682224432627, "train/reward_pos_loss": 0.7424439870648913, "train/reward_pred": 0.03388104975844423, "train/reward_rate": 0.03903537326388889, "stats/sum_log_reward": 9.385714667184013, "stats/max_log_achievement_collect_coal": 0.2857142857142857, "stats/max_log_achievement_collect_drink": 3.142857142857143, "stats/max_log_achievement_collect_sapling": 0.8571428571428571, "stats/max_log_achievement_collect_stone": 18.0, "stats/max_log_achievement_collect_wood": 8.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.14285714285714285, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 2.142857142857143, "stats/max_log_achievement_place_plant": 0.7142857142857143, "stats/max_log_achievement_place_stone": 7.714285714285714, "stats/max_log_achievement_place_table": 2.142857142857143, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.3306017816066742, "replay/size": 436704.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.83396175026235e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.260033134597441e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2176411151886, "timer/env.step_count": 1448.0, "timer/env.step_total": 18.858961820602417, "timer/env.step_frac": 0.06281763373580883, "timer/env.step_avg": 0.01302414490373095, "timer/env.step_min": 0.0028226375579833984, "timer/env.step_max": 1.6545147895812988, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.2636756896972656, "timer/replay.add_frac": 0.0008782817982241676, "timer/replay.add_avg": 0.00018209647078540445, "timer/replay.add_min": 7.081031799316406e-05, "timer/replay.add_max": 0.0019736289978027344, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028596162796020508, "timer/logger.write_frac": 9.525144055424987e-05, "timer/logger.write_avg": 0.028596162796020508, "timer/logger.write_min": 0.028596162796020508, "timer/logger.write_max": 0.028596162796020508, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 10.606337070465088, "timer/agent.policy_frac": 0.03532882688394587, "timer/agent.policy_avg": 0.007324818418829481, "timer/agent.policy_min": 0.005684614181518555, "timer/agent.policy_max": 0.01596379280090332, "timer/dataset_count": 724.0, "timer/dataset_total": 0.06737422943115234, "timer/dataset_frac": 0.00022441795618966293, "timer/dataset_avg": 9.305832794358059e-05, "timer/dataset_min": 7.2479248046875e-05, "timer/dataset_max": 0.00016307830810546875, "timer/agent.train_count": 724.0, "timer/agent.train_total": 269.6939649581909, "timer/agent.train_frac": 0.8983281727095902, "timer/agent.train_avg": 0.37250547646158966, "timer/agent.train_min": 0.36592650413513184, "timer/agent.train_max": 0.3925638198852539, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21677541732788086, "timer/agent.report_frac": 0.0007220608906346968, "timer/agent.report_avg": 0.21677541732788086, "timer/agent.report_min": 0.21677541732788086, "timer/agent.report_max": 0.21677541732788086, "fps": 4.823101938954338}
{"step": 436951, "episode/length": 196.0, "episode/score": 7.0999999940395355, "episode/sum_abs_reward": 9.700000017881393, "episode/reward_rate": 0.04568527918781726}
{"step": 437094, "episode/length": 142.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.06993006993006994}
{"step": 437344, "episode/length": 249.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.044}
{"step": 437643, "episode/length": 298.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 11.500000037252903, "episode/reward_rate": 0.030100334448160536}
{"step": 437959, "episode/length": 315.0, "episode/score": 8.099999979138374, "episode/sum_abs_reward": 10.700000032782555, "episode/reward_rate": 0.028481012658227847}
{"step": 438141, "episode/length": 181.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.06043956043956044}
{"step": 438221, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.471548420109161, "train/action_min": 0.0, "train/action_std": 3.2700984184056114, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0453432669276244, "train/actor_opt_grad_steps": 218200.0, "train/actor_opt_loss": -13.950491733746986, "train/adv_mag": 0.4346717628714156, "train/adv_max": 0.39078248241176344, "train/adv_mean": 0.0021260746747529618, "train/adv_min": -0.3677410899776302, "train/adv_std": 0.0509413141910344, "train/cont_avg": 0.994769370719178, "train/cont_loss_mean": 0.0001650770483887418, "train/cont_loss_std": 0.005048385699287543, "train/cont_neg_acc": 0.9931506857480088, "train/cont_neg_loss": 0.024987224177680654, "train/cont_pos_acc": 0.9999999853029643, "train/cont_pos_loss": 3.113428283151659e-05, "train/cont_pred": 0.994770831441226, "train/cont_rate": 0.994769370719178, "train/dyn_loss_mean": 5.156841728785267, "train/dyn_loss_std": 8.713266516385014, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0359740616524056, "train/extr_critic_critic_opt_grad_steps": 218200.0, "train/extr_critic_critic_opt_loss": 16341.713265196919, "train/extr_critic_mag": 9.887149758534889, "train/extr_critic_max": 9.887149758534889, "train/extr_critic_mean": 2.5745615616236646, "train/extr_critic_min": -0.5313197537644269, "train/extr_critic_std": 2.412615037944219, "train/extr_return_normed_mag": 1.446130148352009, "train/extr_return_normed_max": 1.446130148352009, "train/extr_return_normed_mean": 0.37211807153812826, "train/extr_return_normed_min": -0.08840643094010549, "train/extr_return_normed_std": 0.3263744446512771, "train/extr_return_rate": 0.731696852265972, "train/extr_return_raw_mag": 10.617491343250013, "train/extr_return_raw_max": 10.617491343250013, "train/extr_return_raw_mean": 2.590342355101076, "train/extr_return_raw_min": -0.8532118164513209, "train/extr_return_raw_std": 2.4399330044445926, "train/extr_reward_mag": 1.0474680090603763, "train/extr_reward_max": 1.0474680090603763, "train/extr_reward_mean": 0.051940677559947315, "train/extr_reward_min": -0.6540286181724235, "train/extr_reward_std": 0.22074531243272025, "train/image_loss_mean": 3.0850659804801417, "train/image_loss_std": 8.036036230113409, "train/model_loss_mean": 6.229931165094245, "train/model_loss_std": 12.215478609686029, "train/model_opt_grad_norm": 32.496981477084226, "train/model_opt_grad_steps": 218026.34246575343, "train/model_opt_loss": 15579.498896350598, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2517.123287671233, "train/policy_entropy_mag": 2.5684318313859915, "train/policy_entropy_max": 2.5684318313859915, "train/policy_entropy_mean": 0.3743778363074342, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5143309941847031, "train/policy_logprob_mag": 7.438384193263642, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37383378246059157, "train/policy_logprob_min": -7.438384193263642, "train/policy_logprob_std": 0.9887781739234924, "train/policy_randomness_mag": 0.9065437251574373, "train/policy_randomness_max": 0.9065437251574373, "train/policy_randomness_mean": 0.132138948122116, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18153627043309278, "train/post_ent_mag": 55.17231896805437, "train/post_ent_max": 55.17231896805437, "train/post_ent_mean": 41.09151416935333, "train/post_ent_min": 19.028467700905995, "train/post_ent_std": 5.555319008761889, "train/prior_ent_mag": 76.3312976784902, "train/prior_ent_max": 76.3312976784902, "train/prior_ent_mean": 46.25749624591984, "train/prior_ent_min": 28.42375901627214, "train/prior_ent_std": 7.253151109773818, "train/rep_loss_mean": 5.156841728785267, "train/rep_loss_std": 8.713266516385014, "train/reward_avg": 0.03506929560066902, "train/reward_loss_mean": 0.05059505976124169, "train/reward_loss_std": 0.20493936436633542, "train/reward_max_data": 1.0164383600835931, "train/reward_max_pred": 1.014584774840368, "train/reward_neg_acc": 0.9947334846405134, "train/reward_neg_loss": 0.02245307075216958, "train/reward_pos_acc": 0.9886440969493291, "train/reward_pos_loss": 0.7293444422826375, "train/reward_pred": 0.03475942403996644, "train/reward_rate": 0.039718000856164386, "stats/sum_log_reward": 8.766666650772095, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 2.8333333333333335, "stats/max_log_achievement_collect_sapling": 1.1666666666666667, "stats/max_log_achievement_collect_stone": 12.333333333333334, "stats/max_log_achievement_collect_wood": 8.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.8333333333333334, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.8333333333333333, "stats/max_log_achievement_place_plant": 1.1666666666666667, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 2.1666666666666665, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.4422703484694163, "replay/size": 438158.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.808466243612717e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2716409100790955e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2494168281555, "timer/env.step_count": 1454.0, "timer/env.step_total": 17.68702745437622, "timer/env.step_frac": 0.05890778287339422, "timer/env.step_avg": 0.012164393022267002, "timer/env.step_min": 0.0030679702758789062, "timer/env.step_max": 1.7288894653320312, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.26766324043273926, "timer/replay.add_frac": 0.000891469643006612, "timer/replay.add_avg": 0.0001840875106139885, "timer/replay.add_min": 7.367134094238281e-05, "timer/replay.add_max": 0.0010423660278320312, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02789759635925293, "timer/logger.write_frac": 9.29147395320998e-05, "timer/logger.write_avg": 0.02789759635925293, "timer/logger.write_min": 0.02789759635925293, "timer/logger.write_max": 0.02789759635925293, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 10.648243427276611, "timer/agent.policy_frac": 0.035464659814380316, "timer/agent.policy_avg": 0.007323413636366308, "timer/agent.policy_min": 0.0057125091552734375, "timer/agent.policy_max": 0.014686346054077148, "timer/dataset_count": 727.0, "timer/dataset_total": 0.06797194480895996, "timer/dataset_frac": 0.0002263849353214996, "timer/dataset_avg": 9.349648529430531e-05, "timer/dataset_min": 6.318092346191406e-05, "timer/dataset_max": 0.00016832351684570312, "timer/agent.train_count": 727.0, "timer/agent.train_total": 270.8430595397949, "timer/agent.train_frac": 0.9020602351238171, "timer/agent.train_avg": 0.3725489127094841, "timer/agent.train_min": 0.3662230968475342, "timer/agent.train_max": 0.38672327995300293, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22136473655700684, "timer/agent.report_frac": 0.0007372694971251269, "timer/agent.report_avg": 0.22136473655700684, "timer/agent.report_min": 0.22136473655700684, "timer/agent.report_max": 0.22136473655700684, "fps": 4.84255712226305}
{"step": 438462, "episode/length": 320.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 16.300000056624413, "episode/reward_rate": 0.04361370716510903}
{"step": 438607, "episode/length": 144.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.06896551724137931}
{"step": 438768, "episode/length": 160.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.031055900621118012}
{"step": 438979, "episode/length": 210.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.04265402843601896}
{"step": 439128, "episode/length": 148.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 11.500000059604645, "episode/reward_rate": 0.06711409395973154}
{"step": 439357, "episode/length": 228.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.056768558951965066}
{"step": 439657, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.508281868948063, "train/action_min": 0.0, "train/action_std": 3.328548404532419, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04475915542160961, "train/actor_opt_grad_steps": 218920.0, "train/actor_opt_loss": -10.874796924036993, "train/adv_mag": 0.4907893269834384, "train/adv_max": 0.4416772412582183, "train/adv_mean": 0.003018403081895626, "train/adv_min": -0.39996087844942657, "train/adv_std": 0.05255091809470889, "train/cont_avg": 0.9945257482394366, "train/cont_loss_mean": 0.00015075873875903327, "train/cont_loss_std": 0.004748176664534954, "train/cont_neg_acc": 0.9956405112441157, "train/cont_neg_loss": 0.02100382807117365, "train/cont_pos_acc": 0.9999999806914531, "train/cont_pos_loss": 1.2686381010771072e-05, "train/cont_pred": 0.9945430805985357, "train/cont_rate": 0.9945257482394366, "train/dyn_loss_mean": 5.051952979934048, "train/dyn_loss_std": 8.67509978925678, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0544184446334839, "train/extr_critic_critic_opt_grad_steps": 218920.0, "train/extr_critic_critic_opt_loss": 16369.311358384683, "train/extr_critic_mag": 9.81465229517977, "train/extr_critic_max": 9.81465229517977, "train/extr_critic_mean": 2.5115439253793634, "train/extr_critic_min": -0.5433086610176194, "train/extr_critic_std": 2.3844347285552763, "train/extr_return_normed_mag": 1.4637318513762783, "train/extr_return_normed_max": 1.4637318513762783, "train/extr_return_normed_mean": 0.37148554182388416, "train/extr_return_normed_min": -0.09644803425795595, "train/extr_return_normed_std": 0.3316219541388498, "train/extr_return_rate": 0.7363492527478178, "train/extr_return_raw_mag": 10.503726153306559, "train/extr_return_raw_max": 10.503726153306559, "train/extr_return_raw_mean": 2.5335716882222137, "train/extr_return_raw_min": -0.8809029653038777, "train/extr_return_raw_std": 2.4197209082858664, "train/extr_reward_mag": 1.0513337934520883, "train/extr_reward_max": 1.0513337934520883, "train/extr_reward_mean": 0.051834894344210625, "train/extr_reward_min": -0.6622625723691054, "train/extr_reward_std": 0.22011709318194592, "train/image_loss_mean": 3.151588570903724, "train/image_loss_std": 8.583426146440104, "train/model_loss_mean": 6.234055639992298, "train/model_loss_std": 12.643705529226384, "train/model_opt_grad_norm": 29.912726147074096, "train/model_opt_grad_steps": 218745.0, "train/model_opt_loss": 7792.569583516725, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.580494826948139, "train/policy_entropy_max": 2.580494826948139, "train/policy_entropy_mean": 0.3822299275599735, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5222598796998951, "train/policy_logprob_mag": 7.438384277719847, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38275402952247944, "train/policy_logprob_min": -7.438384277719847, "train/policy_logprob_std": 0.9995833123233956, "train/policy_randomness_mag": 0.9108014316625999, "train/policy_randomness_max": 0.9108014316625999, "train/policy_randomness_mean": 0.13491039020074924, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18433481958550466, "train/post_ent_mag": 55.04823201139208, "train/post_ent_max": 55.04823201139208, "train/post_ent_mean": 41.1635141507001, "train/post_ent_min": 19.155981735444406, "train/post_ent_std": 5.635514527979032, "train/prior_ent_mag": 76.43169327856789, "train/prior_ent_max": 76.43169327856789, "train/prior_ent_mean": 46.22869631270288, "train/prior_ent_min": 28.310381741590902, "train/prior_ent_std": 7.329312693904823, "train/rep_loss_mean": 5.051952979934048, "train/rep_loss_std": 8.67509978925678, "train/reward_avg": 0.03501182840481191, "train/reward_loss_mean": 0.05114449371754284, "train/reward_loss_std": 0.20304014061538267, "train/reward_max_data": 1.0239436676804448, "train/reward_max_pred": 1.0257310262868102, "train/reward_neg_acc": 0.9946666536196856, "train/reward_neg_loss": 0.022992589812673315, "train/reward_pos_acc": 0.9881121608572947, "train/reward_pos_loss": 0.7289746571594561, "train/reward_pred": 0.03488768592581783, "train/reward_rate": 0.0400115536971831, "stats/sum_log_reward": 9.266666968663534, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 2.8333333333333335, "stats/max_log_achievement_collect_sapling": 1.1666666666666667, "stats/max_log_achievement_collect_stone": 10.333333333333334, "stats/max_log_achievement_collect_wood": 8.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 1.1666666666666667, "stats/max_log_achievement_place_stone": 3.3333333333333335, "stats/max_log_achievement_place_table": 2.6666666666666665, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.3365667636195819, "replay/size": 439594.0, "replay/inserts": 1436.0, "replay/samples": 11488.0, "replay/insert_wait_avg": 3.831964349348233e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2425244020552356e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.15237832069397, "timer/env.step_count": 1436.0, "timer/env.step_total": 19.473592281341553, "timer/env.step_frac": 0.06487902041720703, "timer/env.step_avg": 0.01356099741040498, "timer/env.step_min": 0.0030596256256103516, "timer/env.step_max": 3.8707668781280518, "timer/replay.add_count": 1436.0, "timer/replay.add_total": 0.29530954360961914, "timer/replay.add_frac": 0.0009838654128340753, "timer/replay.add_avg": 0.00020564731449137824, "timer/replay.add_min": 8.0108642578125e-05, "timer/replay.add_max": 0.0032529830932617188, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028378725051879883, "timer/logger.write_frac": 9.454772676016912e-05, "timer/logger.write_avg": 0.028378725051879883, "timer/logger.write_min": 0.028378725051879883, "timer/logger.write_max": 0.028378725051879883, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00036716461181640625, "timer/checkpoint.save_frac": 1.223260711344802e-06, "timer/checkpoint.save_avg": 0.00036716461181640625, "timer/checkpoint.save_min": 0.00036716461181640625, "timer/checkpoint.save_max": 0.00036716461181640625, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.559572458267212, "timer/agent.save_frac": 0.005195935701035514, "timer/agent.save_avg": 1.559572458267212, "timer/agent.save_min": 1.559572458267212, "timer/agent.save_max": 1.559572458267212, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.2479248046875e-05, "timer/replay.save_frac": 2.414748417200129e-07, "timer/replay.save_avg": 7.2479248046875e-05, "timer/replay.save_min": 7.2479248046875e-05, "timer/replay.save_max": 7.2479248046875e-05, "timer/agent.policy_count": 1436.0, "timer/agent.policy_total": 11.963655710220337, "timer/agent.policy_frac": 0.03985860707536331, "timer/agent.policy_avg": 0.008331236567005806, "timer/agent.policy_min": 0.00571131706237793, "timer/agent.policy_max": 1.5547759532928467, "timer/dataset_count": 718.0, "timer/dataset_total": 0.06700730323791504, "timer/dataset_frac": 0.00022324428549528913, "timer/dataset_avg": 9.332493487174797e-05, "timer/dataset_min": 7.176399230957031e-05, "timer/dataset_max": 0.00015211105346679688, "timer/agent.train_count": 718.0, "timer/agent.train_total": 267.63636898994446, "timer/agent.train_frac": 0.8916683268922554, "timer/agent.train_avg": 0.3727526030500619, "timer/agent.train_min": 0.36643385887145996, "timer/agent.train_max": 0.5379741191864014, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2200007438659668, "timer/agent.report_frac": 0.0007329635203853351, "timer/agent.report_avg": 0.2200007438659668, "timer/agent.report_min": 0.2200007438659668, "timer/agent.report_max": 0.2200007438659668, "fps": 4.784156645491896}
{"step": 439796, "episode/length": 438.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.02733485193621868}
{"step": 439977, "episode/length": 180.0, "episode/score": 10.099999964237213, "episode/sum_abs_reward": 12.5, "episode/reward_rate": 0.06077348066298342}
{"step": 440264, "episode/length": 286.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 12.100000038743019, "episode/reward_rate": 0.041811846689895474}
{"step": 440453, "episode/length": 188.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.042328042328042326}
{"step": 440673, "episode/length": 219.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.299999997019768, "episode/reward_rate": 0.06363636363636363}
{"step": 440751, "episode/length": 77.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 9.899999976158142, "episode/reward_rate": 0.1282051282051282}
{"step": 440960, "episode/length": 208.0, "episode/score": 11.100000031292439, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.06220095693779904}
{"step": 441099, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.494210857234589, "train/action_min": 0.0, "train/action_std": 3.324803891247266, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.046507893614981276, "train/actor_opt_grad_steps": 219640.0, "train/actor_opt_loss": -12.107971679674437, "train/adv_mag": 0.49487452392708764, "train/adv_max": 0.444018108387516, "train/adv_mean": 0.003449435702151115, "train/adv_min": -0.40260029492312915, "train/adv_std": 0.052408038498195884, "train/cont_avg": 0.9946088398972602, "train/cont_loss_mean": 1.7604640555101182e-05, "train/cont_loss_std": 0.0004100212673894357, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0007164681301966919, "train/cont_pos_acc": 0.9999999795874505, "train/cont_pos_loss": 1.370372922960934e-05, "train/cont_pred": 0.9945994403264294, "train/cont_rate": 0.9946088398972602, "train/dyn_loss_mean": 5.023971097110069, "train/dyn_loss_std": 8.728934333749013, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0274563595040205, "train/extr_critic_critic_opt_grad_steps": 219640.0, "train/extr_critic_critic_opt_loss": 16298.651607983733, "train/extr_critic_mag": 9.994274583581376, "train/extr_critic_max": 9.994274583581376, "train/extr_critic_mean": 2.6282528540859484, "train/extr_critic_min": -0.5596175259106779, "train/extr_critic_std": 2.4385061247708046, "train/extr_return_normed_mag": 1.4766425482214314, "train/extr_return_normed_max": 1.4766425482214314, "train/extr_return_normed_mean": 0.382160240656709, "train/extr_return_normed_min": -0.09186692382783106, "train/extr_return_normed_std": 0.33382111012119137, "train/extr_return_rate": 0.7469133889838441, "train/extr_return_raw_mag": 10.77022444058771, "train/extr_return_raw_max": 10.77022444058771, "train/extr_return_raw_mean": 2.6538009692544806, "train/extr_return_raw_min": -0.8606076901906157, "train/extr_return_raw_std": 2.475323250848953, "train/extr_reward_mag": 1.0449206208529538, "train/extr_reward_max": 1.0449206208529538, "train/extr_reward_mean": 0.05152607831644685, "train/extr_reward_min": -0.6409323378785016, "train/extr_reward_std": 0.22013877168910145, "train/image_loss_mean": 3.0915724349348515, "train/image_loss_std": 8.503617051529558, "train/model_loss_mean": 6.155408820060835, "train/model_loss_std": 12.624816985979471, "train/model_opt_grad_norm": 34.7787817079727, "train/model_opt_grad_steps": 219464.49315068492, "train/model_opt_loss": 9581.891782159675, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1541.0958904109589, "train/policy_entropy_mag": 2.5916588665687876, "train/policy_entropy_max": 2.5916588665687876, "train/policy_entropy_mean": 0.38589410095998683, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5359211188473113, "train/policy_logprob_mag": 7.438384206327673, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3862313550629028, "train/policy_logprob_min": -7.438384206327673, "train/policy_logprob_std": 1.004824444039227, "train/policy_randomness_mag": 0.9147418476130864, "train/policy_randomness_max": 0.9147418476130864, "train/policy_randomness_mean": 0.13620368472925604, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18915663557509854, "train/post_ent_mag": 55.10475482679393, "train/post_ent_max": 55.10475482679393, "train/post_ent_mean": 41.29622190292567, "train/post_ent_min": 18.865788786378626, "train/post_ent_std": 5.630550874422674, "train/prior_ent_mag": 76.41169686513405, "train/prior_ent_max": 76.41169686513405, "train/prior_ent_mean": 46.31176454726964, "train/prior_ent_min": 28.675867603249745, "train/prior_ent_std": 7.28635990456359, "train/rep_loss_mean": 5.023971097110069, "train/rep_loss_std": 8.728934333749013, "train/reward_avg": 0.03464388870315192, "train/reward_loss_mean": 0.04943605752228058, "train/reward_loss_std": 0.19892990568729296, "train/reward_max_data": 1.0136986334029943, "train/reward_max_pred": 1.012450933456421, "train/reward_neg_acc": 0.9951263053776467, "train/reward_neg_loss": 0.022071223233966795, "train/reward_pos_acc": 0.9911826620363209, "train/reward_pos_loss": 0.7145351743044919, "train/reward_pred": 0.03454040733408438, "train/reward_rate": 0.03945044948630137, "stats/sum_log_reward": 10.100000313350133, "stats/max_log_achievement_collect_coal": 0.2857142857142857, "stats/max_log_achievement_collect_drink": 6.857142857142857, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 9.428571428571429, "stats/max_log_achievement_collect_wood": 10.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.42857142857142855, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.4285714285714286, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 0.7142857142857143, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 5.285714285714286, "stats/max_log_achievement_place_table": 2.2857142857142856, "stats/max_log_achievement_wake_up": 2.142857142857143, "stats/mean_log_entropy": 0.46000319506440845, "replay/size": 441036.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.898524047597602e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2882787543097085e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1025891304016, "timer/env.step_count": 1442.0, "timer/env.step_total": 19.270825624465942, "timer/env.step_frac": 0.06421412651022586, "timer/env.step_avg": 0.01336395674373505, "timer/env.step_min": 0.0027074813842773438, "timer/env.step_max": 1.8587629795074463, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.29241418838500977, "timer/replay.add_frac": 0.0009743807583677625, "timer/replay.add_avg": 0.00020278376448336322, "timer/replay.add_min": 7.271766662597656e-05, "timer/replay.add_max": 0.007222175598144531, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029273271560668945, "timer/logger.write_frac": 9.75442152814917e-05, "timer/logger.write_avg": 0.029273271560668945, "timer/logger.write_min": 0.029273271560668945, "timer/logger.write_max": 0.029273271560668945, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 10.818001747131348, "timer/agent.policy_frac": 0.03604767882369276, "timer/agent.policy_avg": 0.007502081655430893, "timer/agent.policy_min": 0.005694150924682617, "timer/agent.policy_max": 0.015238761901855469, "timer/dataset_count": 721.0, "timer/dataset_total": 0.07159686088562012, "timer/dataset_frac": 0.00023857461907637726, "timer/dataset_avg": 9.930216488990307e-05, "timer/dataset_min": 7.271766662597656e-05, "timer/dataset_max": 0.0002205371856689453, "timer/agent.train_count": 721.0, "timer/agent.train_total": 268.8980474472046, "timer/agent.train_frac": 0.8960204183055618, "timer/agent.train_avg": 0.37295152211817556, "timer/agent.train_min": 0.3660578727722168, "timer/agent.train_max": 0.3906211853027344, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2197275161743164, "timer/agent.report_frac": 0.0007321746767031045, "timer/agent.report_avg": 0.2197275161743164, "timer/agent.report_min": 0.2197275161743164, "timer/agent.report_max": 0.2197275161743164, "fps": 4.804933010425833}
{"step": 441124, "episode/length": 163.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.06097560975609756}
{"step": 441227, "episode/length": 102.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.07766990291262135}
{"step": 441403, "episode/length": 175.0, "episode/score": 9.099999979138374, "episode/sum_abs_reward": 11.30000002682209, "episode/reward_rate": 0.056818181818181816}
{"step": 441626, "episode/length": 222.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.299999997019768, "episode/reward_rate": 0.05829596412556054}
{"step": 441823, "episode/length": 196.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.05583756345177665}
{"step": 442076, "episode/length": 252.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.039525691699604744}
{"step": 442238, "episode/length": 161.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.06790123456790123}
{"step": 442528, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.44318486603213, "train/action_min": 0.0, "train/action_std": 3.3143664111553783, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04531918838620186, "train/actor_opt_grad_steps": 220360.0, "train/actor_opt_loss": -12.688430746256465, "train/adv_mag": 0.48670794510505566, "train/adv_max": 0.42660630504849933, "train/adv_mean": 0.002824908775206931, "train/adv_min": -0.4076585828418463, "train/adv_std": 0.05125289809116176, "train/cont_avg": 0.9943606954225352, "train/cont_loss_mean": 4.049175265173133e-05, "train/cont_loss_std": 0.001269261396930047, "train/cont_neg_acc": 0.9944668017642598, "train/cont_neg_loss": 0.005130951214016637, "train/cont_pos_acc": 0.9999861146362734, "train/cont_pos_loss": 1.553757018613201e-05, "train/cont_pred": 0.9943660346555038, "train/cont_rate": 0.9943606954225352, "train/dyn_loss_mean": 5.05704133275529, "train/dyn_loss_std": 8.74121725727135, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.062400759105951, "train/extr_critic_critic_opt_grad_steps": 220360.0, "train/extr_critic_critic_opt_loss": 16334.805526518487, "train/extr_critic_mag": 9.984725293978839, "train/extr_critic_max": 9.984725293978839, "train/extr_critic_mean": 2.6549746385762387, "train/extr_critic_min": -0.5327481518329029, "train/extr_critic_std": 2.4683926676360652, "train/extr_return_normed_mag": 1.4681893570322386, "train/extr_return_normed_max": 1.4681893570322386, "train/extr_return_normed_mean": 0.3802094814223303, "train/extr_return_normed_min": -0.08630319891995947, "train/extr_return_normed_std": 0.3334973500648015, "train/extr_return_rate": 0.7414823980398582, "train/extr_return_raw_mag": 10.85939991642052, "train/extr_return_raw_max": 10.85939991642052, "train/extr_return_raw_mean": 2.6762274033586744, "train/extr_return_raw_min": -0.833014533553325, "train/extr_return_raw_std": 2.5087051492341805, "train/extr_reward_mag": 1.0419084186285315, "train/extr_reward_max": 1.0419084186285315, "train/extr_reward_mean": 0.050808629440799565, "train/extr_reward_min": -0.6719629949247333, "train/extr_reward_std": 0.21840311376981333, "train/image_loss_mean": 3.0702699809007243, "train/image_loss_std": 8.142846147779007, "train/model_loss_mean": 6.155312242642255, "train/model_loss_std": 12.312586703770597, "train/model_opt_grad_norm": 27.572779655456543, "train/model_opt_grad_steps": 220183.0, "train/model_opt_loss": 3847.0701440085827, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 625.0, "train/policy_entropy_mag": 2.590360581035345, "train/policy_entropy_max": 2.590360581035345, "train/policy_entropy_mean": 0.38028339516948645, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.531558868330969, "train/policy_logprob_mag": 7.438384203843667, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37950338360289454, "train/policy_logprob_min": -7.438384203843667, "train/policy_logprob_std": 0.9979253142652377, "train/policy_randomness_mag": 0.9142836114050636, "train/policy_randomness_max": 0.9142836114050636, "train/policy_randomness_mean": 0.1342233517010447, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18761695249819418, "train/post_ent_mag": 55.08464265205491, "train/post_ent_max": 55.08464265205491, "train/post_ent_mean": 41.22769132802184, "train/post_ent_min": 18.71074922319869, "train/post_ent_std": 5.59020008839352, "train/prior_ent_mag": 76.28646549708407, "train/prior_ent_max": 76.28646549708407, "train/prior_ent_mean": 46.30123267375247, "train/prior_ent_min": 27.972746513259242, "train/prior_ent_std": 7.2441574083247655, "train/rep_loss_mean": 5.05704133275529, "train/rep_loss_std": 8.74121725727135, "train/reward_avg": 0.03356486553667297, "train/reward_loss_mean": 0.05077700080796027, "train/reward_loss_std": 0.21394933424365353, "train/reward_max_data": 1.0211267656003926, "train/reward_max_pred": 1.014887853407524, "train/reward_neg_acc": 0.9945915047551545, "train/reward_neg_loss": 0.023185117983482252, "train/reward_pos_acc": 0.989390705672788, "train/reward_pos_loss": 0.7401852842787622, "train/reward_pred": 0.03327739419756641, "train/reward_rate": 0.03849856954225352, "stats/sum_log_reward": 9.385714667184013, "stats/max_log_achievement_collect_coal": 0.14285714285714285, "stats/max_log_achievement_collect_drink": 3.7142857142857144, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 3.5714285714285716, "stats/max_log_achievement_collect_wood": 9.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.42857142857142855, "stats/max_log_achievement_eat_cow": 0.42857142857142855, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2857142857142858, "stats/max_log_achievement_place_furnace": 0.0, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 2.2857142857142856, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.5714285714285714, "stats/mean_log_entropy": 0.3237783227648054, "replay/size": 442465.0, "replay/inserts": 1429.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 4.088987079510912e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2870512756646849e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0146448612213, "timer/env.step_count": 1429.0, "timer/env.step_total": 20.4816837310791, "timer/env.step_frac": 0.06826894647277428, "timer/env.step_avg": 0.014332878748130932, "timer/env.step_min": 0.0032129287719726562, "timer/env.step_max": 1.932283639907837, "timer/replay.add_count": 1429.0, "timer/replay.add_total": 0.32138752937316895, "timer/replay.add_frac": 0.0010712394707326175, "timer/replay.add_avg": 0.00022490379942139183, "timer/replay.add_min": 8.0108642578125e-05, "timer/replay.add_max": 0.0016393661499023438, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028066396713256836, "timer/logger.write_frac": 9.355008895062304e-05, "timer/logger.write_avg": 0.028066396713256836, "timer/logger.write_min": 0.028066396713256836, "timer/logger.write_max": 0.028066396713256836, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1429.0, "timer/agent.policy_total": 11.202373027801514, "timer/agent.policy_frac": 0.03733942065722635, "timer/agent.policy_avg": 0.00783930932666306, "timer/agent.policy_min": 0.005658149719238281, "timer/agent.policy_max": 0.018845796585083008, "timer/dataset_count": 714.0, "timer/dataset_total": 0.07842659950256348, "timer/dataset_frac": 0.0002614092373352024, "timer/dataset_avg": 0.00010984117577389843, "timer/dataset_min": 7.605552673339844e-05, "timer/dataset_max": 0.00019598007202148438, "timer/agent.train_count": 714.0, "timer/agent.train_total": 267.1527714729309, "timer/agent.train_frac": 0.8904657690844011, "timer/agent.train_avg": 0.3741635454802954, "timer/agent.train_min": 0.3670783042907715, "timer/agent.train_max": 0.4191434383392334, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22167086601257324, "timer/agent.report_frac": 0.000738866818035207, "timer/agent.report_avg": 0.22167086601257324, "timer/agent.report_min": 0.22167086601257324, "timer/agent.report_max": 0.22167086601257324, "fps": 4.763033430089474}
{"step": 442530, "episode/length": 291.0, "episode/score": 10.099999979138374, "episode/sum_abs_reward": 11.900000020861626, "episode/reward_rate": 0.03767123287671233}
{"step": 442723, "episode/length": 192.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.04145077720207254}
{"step": 442908, "episode/length": 184.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.05405405405405406}
{"step": 443074, "episode/length": 165.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.700000025331974, "episode/reward_rate": 0.05421686746987952}
{"step": 443243, "episode/length": 168.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.047337278106508875}
{"step": 443395, "episode/length": 151.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.06578947368421052}
{"step": 443525, "episode/length": 129.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.1}
{"step": 443747, "episode/length": 221.0, "episode/score": 12.100000023841858, "episode/sum_abs_reward": 14.699999988079071, "episode/reward_rate": 0.06306306306306306}
{"step": 443885, "episode/length": 137.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.050724637681159424}
{"step": 443937, "stats/sum_log_reward": 8.766666889190674, "stats/max_log_achievement_collect_coal": 0.4444444444444444, "stats/max_log_achievement_collect_drink": 1.3333333333333333, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 8.555555555555555, "stats/max_log_achievement_collect_wood": 9.222222222222221, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.1111111111111111, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.1111111111111111, "stats/max_log_achievement_make_wood_pickaxe": 0.8888888888888888, "stats/max_log_achievement_make_wood_sword": 1.1111111111111112, "stats/max_log_achievement_place_furnace": 1.2222222222222223, "stats/max_log_achievement_place_plant": 1.2222222222222223, "stats/max_log_achievement_place_stone": 2.888888888888889, "stats/max_log_achievement_place_table": 2.111111111111111, "stats/max_log_achievement_wake_up": 1.2222222222222223, "stats/mean_log_entropy": 0.302294597029686, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.549585832868304, "train/action_min": 0.0, "train/action_std": 3.402978655270168, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04579819110887391, "train/actor_opt_grad_steps": 221065.0, "train/actor_opt_loss": -11.052844140359333, "train/adv_mag": 0.47612760961055756, "train/adv_max": 0.4210961020418576, "train/adv_mean": 0.0029410524297938017, "train/adv_min": -0.38268621734210423, "train/adv_std": 0.051381377769368033, "train/cont_avg": 0.9948521205357143, "train/cont_loss_mean": 0.00012026367420615104, "train/cont_loss_std": 0.0036820562605644875, "train/cont_neg_acc": 0.9952380955219269, "train/cont_neg_loss": 0.0367813723607404, "train/cont_pos_acc": 0.9999999838215964, "train/cont_pos_loss": 9.165892003589906e-06, "train/cont_pred": 0.9948661088943481, "train/cont_rate": 0.9948521205357143, "train/dyn_loss_mean": 4.9993644714355465, "train/dyn_loss_std": 8.722769219534738, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.065392656837191, "train/extr_critic_critic_opt_grad_steps": 221065.0, "train/extr_critic_critic_opt_loss": 16463.163406808035, "train/extr_critic_mag": 10.273701477050782, "train/extr_critic_max": 10.273701477050782, "train/extr_critic_mean": 2.645360064506531, "train/extr_critic_min": -0.5548080733844212, "train/extr_critic_std": 2.5099433047430857, "train/extr_return_normed_mag": 1.466075817176274, "train/extr_return_normed_max": 1.466075817176274, "train/extr_return_normed_mean": 0.3730154233319419, "train/extr_return_normed_min": -0.08809447123536042, "train/extr_return_normed_std": 0.3330481265272413, "train/extr_return_rate": 0.728282220023019, "train/extr_return_raw_mag": 11.034154088156564, "train/extr_return_raw_max": 11.034154088156564, "train/extr_return_raw_mean": 2.667853566578456, "train/extr_return_raw_min": -0.8622462144919805, "train/extr_return_raw_std": 2.5485941767692566, "train/extr_reward_mag": 1.0543602160045078, "train/extr_reward_max": 1.0543602160045078, "train/extr_reward_mean": 0.052149548381567004, "train/extr_reward_min": -0.647909883090428, "train/extr_reward_std": 0.22139517217874527, "train/image_loss_mean": 3.0634577444621494, "train/image_loss_std": 7.743565654754638, "train/model_loss_mean": 6.1146121604102, "train/model_loss_std": 11.909097630637033, "train/model_opt_grad_norm": 32.72103373663766, "train/model_opt_grad_steps": 220888.0, "train/model_opt_loss": 6552.85145438058, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1080.357142857143, "train/policy_entropy_mag": 2.6004393475396292, "train/policy_entropy_max": 2.6004393475396292, "train/policy_entropy_mean": 0.40319184469325203, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5600380735737936, "train/policy_logprob_mag": 7.438384212766375, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40385963384594237, "train/policy_logprob_min": -7.438384212766375, "train/policy_logprob_std": 1.0194539274488177, "train/policy_randomness_mag": 0.9178409695625305, "train/policy_randomness_max": 0.9178409695625305, "train/policy_randomness_mean": 0.14230902695230074, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19766886702605657, "train/post_ent_mag": 55.12707165309361, "train/post_ent_max": 55.12707165309361, "train/post_ent_mean": 41.20780301775251, "train/post_ent_min": 18.707553223201206, "train/post_ent_std": 5.644334513800485, "train/prior_ent_mag": 76.3925666809082, "train/prior_ent_max": 76.3925666809082, "train/prior_ent_mean": 46.18983132498605, "train/prior_ent_min": 28.450288663591657, "train/prior_ent_std": 7.261656066349574, "train/rep_loss_mean": 4.9993644714355465, "train/rep_loss_std": 8.722769219534738, "train/reward_avg": 0.033284039928444795, "train/reward_loss_mean": 0.051415484105902055, "train/reward_loss_std": 0.21777443843228475, "train/reward_max_data": 1.0171428612300328, "train/reward_max_pred": 1.0190488849367414, "train/reward_neg_acc": 0.9946468719414302, "train/reward_neg_loss": 0.023459868964606098, "train/reward_pos_acc": 0.9812708164964403, "train/reward_pos_loss": 0.755594973053251, "train/reward_pred": 0.032751111633011275, "train/reward_rate": 0.03819754464285714, "replay/size": 443874.0, "replay/inserts": 1409.0, "replay/samples": 11280.0, "replay/insert_wait_avg": 3.9016718218054136e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2695366609181074e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.27993869781494, "timer/env.step_count": 1409.0, "timer/env.step_total": 24.101311206817627, "timer/env.step_frac": 0.08026280846910605, "timer/env.step_avg": 0.017105259905477378, "timer/env.step_min": 0.0031633377075195312, "timer/env.step_max": 3.8164222240448, "timer/replay.add_count": 1409.0, "timer/replay.add_total": 0.2852017879486084, "timer/replay.add_frac": 0.0009497863533121993, "timer/replay.add_avg": 0.00020241432785564827, "timer/replay.add_min": 8.296966552734375e-05, "timer/replay.add_max": 0.0025305747985839844, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028503894805908203, "timer/logger.write_frac": 9.492440597103271e-05, "timer/logger.write_avg": 0.028503894805908203, "timer/logger.write_min": 0.028503894805908203, "timer/logger.write_max": 0.028503894805908203, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.000396728515625, "timer/checkpoint.save_frac": 1.3211955395536616e-06, "timer/checkpoint.save_avg": 0.000396728515625, "timer/checkpoint.save_min": 0.000396728515625, "timer/checkpoint.save_max": 0.000396728515625, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4398603439331055, "timer/agent.save_frac": 0.004795060070203694, "timer/agent.save_avg": 1.4398603439331055, "timer/agent.save_min": 1.4398603439331055, "timer/agent.save_max": 1.4398603439331055, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.608268737792969e-05, "timer/replay.save_frac": 3.199770447356524e-07, "timer/replay.save_avg": 9.608268737792969e-05, "timer/replay.save_min": 9.608268737792969e-05, "timer/replay.save_max": 9.608268737792969e-05, "timer/agent.policy_count": 1409.0, "timer/agent.policy_total": 11.927453517913818, "timer/agent.policy_frac": 0.03972111347044381, "timer/agent.policy_avg": 0.008465190573395186, "timer/agent.policy_min": 0.0056514739990234375, "timer/agent.policy_max": 1.4448070526123047, "timer/dataset_count": 705.0, "timer/dataset_total": 0.06797504425048828, "timer/dataset_frac": 0.0002263722463287652, "timer/dataset_avg": 9.64185024829621e-05, "timer/dataset_min": 6.747245788574219e-05, "timer/dataset_max": 0.00019669532775878906, "timer/agent.train_count": 705.0, "timer/agent.train_total": 263.1247034072876, "timer/agent.train_frac": 0.8762646767158218, "timer/agent.train_avg": 0.3732265296557271, "timer/agent.train_min": 0.3658483028411865, "timer/agent.train_max": 0.44391846656799316, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21773052215576172, "timer/agent.report_frac": 0.0007250918030021101, "timer/agent.report_avg": 0.21773052215576172, "timer/agent.report_min": 0.21773052215576172, "timer/agent.report_max": 0.21773052215576172, "fps": 4.692210772987487}
{"step": 444121, "episode/length": 235.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.05508474576271186}
{"step": 444357, "episode/length": 235.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.038135593220338986}
{"step": 444729, "episode/length": 371.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.02956989247311828}
{"step": 444876, "episode/length": 146.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.08163265306122448}
{"step": 445045, "episode/length": 168.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03550295857988166}
{"step": 445161, "episode/length": 115.0, "episode/score": 10.099999971687794, "episode/sum_abs_reward": 12.100000031292439, "episode/reward_rate": 0.10344827586206896}
{"step": 445372, "episode/length": 210.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.04265402843601896}
{"step": 445383, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.599830940978168, "train/action_min": 0.0, "train/action_std": 3.424312552360639, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04521461356788466, "train/actor_opt_grad_steps": 221780.0, "train/actor_opt_loss": -14.654465135646193, "train/adv_mag": 0.4661633956105742, "train/adv_max": 0.4010264008012536, "train/adv_mean": 0.0014184498637181081, "train/adv_min": -0.40124916091357193, "train/adv_std": 0.05034676245222353, "train/cont_avg": 0.9947426155821918, "train/cont_loss_mean": 9.124715353203237e-06, "train/cont_loss_std": 0.0002258187145116608, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0003192942198943269, "train/cont_pos_acc": 0.9999999755049405, "train/cont_pos_loss": 6.958918014763733e-06, "train/cont_pred": 0.9947379835664409, "train/cont_rate": 0.9947426155821918, "train/dyn_loss_mean": 5.081977569893615, "train/dyn_loss_std": 8.65189612401675, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0583867577657307, "train/extr_critic_critic_opt_grad_steps": 221780.0, "train/extr_critic_critic_opt_loss": 16482.317503210616, "train/extr_critic_mag": 10.170027314800105, "train/extr_critic_max": 10.170027314800105, "train/extr_critic_mean": 2.669190088363543, "train/extr_critic_min": -0.5475944590895143, "train/extr_critic_std": 2.4812895876087553, "train/extr_return_normed_mag": 1.4406659260188064, "train/extr_return_normed_max": 1.4406659260188064, "train/extr_return_normed_mean": 0.3714032389529764, "train/extr_return_normed_min": -0.09400524290865414, "train/extr_return_normed_std": 0.32567646160517655, "train/extr_return_rate": 0.7456264650984986, "train/extr_return_raw_mag": 10.915017010414438, "train/extr_return_raw_max": 10.915017010414438, "train/extr_return_raw_mean": 2.6800992766471756, "train/extr_return_raw_min": -0.904728406504409, "train/extr_return_raw_std": 2.5088353777584964, "train/extr_reward_mag": 1.0475589673813075, "train/extr_reward_max": 1.0475589673813075, "train/extr_reward_mean": 0.0514183128125047, "train/extr_reward_min": -0.6879311946973409, "train/extr_reward_std": 0.2195881282630032, "train/image_loss_mean": 2.9820300846883696, "train/image_loss_std": 7.438361958281635, "train/model_loss_mean": 6.079756664903196, "train/model_loss_std": 11.550575386987974, "train/model_opt_grad_norm": 34.63583478535691, "train/model_opt_grad_steps": 221603.0, "train/model_opt_loss": 10189.087429098887, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1660.958904109589, "train/policy_entropy_mag": 2.572555365627759, "train/policy_entropy_max": 2.572555365627759, "train/policy_entropy_mean": 0.3917563445355794, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5419708821055007, "train/policy_logprob_mag": 7.438384252051785, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39119823521947206, "train/policy_logprob_min": -7.438384252051785, "train/policy_logprob_std": 1.0070797596892265, "train/policy_randomness_mag": 0.9079991513735628, "train/policy_randomness_max": 0.9079991513735628, "train/policy_randomness_mean": 0.1382727989391105, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1912919382934701, "train/post_ent_mag": 54.936265396745235, "train/post_ent_max": 54.936265396745235, "train/post_ent_mean": 41.079638232923536, "train/post_ent_min": 18.739244944428744, "train/post_ent_std": 5.676280446248512, "train/prior_ent_mag": 76.42825265126686, "train/prior_ent_max": 76.42825265126686, "train/prior_ent_mean": 46.164718836954194, "train/prior_ent_min": 28.37794719330252, "train/prior_ent_std": 7.309309789579209, "train/rep_loss_mean": 5.081977569893615, "train/rep_loss_std": 8.65189612401675, "train/reward_avg": 0.032741598568040216, "train/reward_loss_mean": 0.048530923534337786, "train/reward_loss_std": 0.20003813668473125, "train/reward_max_data": 1.0150684967432937, "train/reward_max_pred": 1.0121905019838515, "train/reward_neg_acc": 0.9953002562261608, "train/reward_neg_loss": 0.02207125796081677, "train/reward_pos_acc": 0.9899040019675477, "train/reward_pos_loss": 0.7281123538539834, "train/reward_pred": 0.032418229413052946, "train/reward_rate": 0.037590967465753425, "stats/sum_log_reward": 9.242857456207275, "stats/max_log_achievement_collect_coal": 0.8571428571428571, "stats/max_log_achievement_collect_drink": 4.142857142857143, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 10.571428571428571, "stats/max_log_achievement_collect_wood": 12.0, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.42857142857142855, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.2857142857142858, "stats/max_log_achievement_make_wood_sword": 1.5714285714285714, "stats/max_log_achievement_place_furnace": 1.1428571428571428, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 4.571428571428571, "stats/max_log_achievement_place_table": 3.4285714285714284, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.4209192118474415, "replay/size": 445320.0, "replay/inserts": 1446.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.764078659965125e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2610957830278705e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.13496565818787, "timer/env.step_count": 1446.0, "timer/env.step_total": 19.059240579605103, "timer/env.step_frac": 0.06350223319635119, "timer/env.step_avg": 0.013180664301248342, "timer/env.step_min": 0.003246307373046875, "timer/env.step_max": 1.7124793529510498, "timer/replay.add_count": 1446.0, "timer/replay.add_total": 0.26616644859313965, "timer/replay.add_frac": 0.0008868225266904302, "timer/replay.add_avg": 0.00018407084964947417, "timer/replay.add_min": 7.653236389160156e-05, "timer/replay.add_max": 0.0012311935424804688, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029593944549560547, "timer/logger.write_frac": 9.860212216414648e-05, "timer/logger.write_avg": 0.029593944549560547, "timer/logger.write_min": 0.029593944549560547, "timer/logger.write_max": 0.029593944549560547, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1446.0, "timer/agent.policy_total": 10.481280326843262, "timer/agent.policy_frac": 0.03492189023647444, "timer/agent.policy_avg": 0.007248464956323141, "timer/agent.policy_min": 0.005624294281005859, "timer/agent.policy_max": 0.017351388931274414, "timer/dataset_count": 723.0, "timer/dataset_total": 0.06788754463195801, "timer/dataset_frac": 0.00022619005580733475, "timer/dataset_avg": 9.38970188547137e-05, "timer/dataset_min": 7.009506225585938e-05, "timer/dataset_max": 0.00023412704467773438, "timer/agent.train_count": 723.0, "timer/agent.train_total": 269.53069043159485, "timer/agent.train_frac": 0.8980316233415901, "timer/agent.train_avg": 0.3727948691999929, "timer/agent.train_min": 0.36656951904296875, "timer/agent.train_max": 0.4033546447753906, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21941637992858887, "timer/agent.report_frac": 0.0007310590402135075, "timer/agent.report_avg": 0.21941637992858887, "timer/agent.report_min": 0.21941637992858887, "timer/agent.report_max": 0.21941637992858887, "fps": 4.81776452707612}
{"step": 445587, "episode/length": 214.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.04186046511627907}
{"step": 445635, "episode/length": 47.0, "episode/score": 2.0999999940395355, "episode/sum_abs_reward": 3.9000000059604645, "episode/reward_rate": 0.08333333333333333}
{"step": 445924, "episode/length": 288.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.031141868512110725}
{"step": 446185, "episode/length": 260.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.04597701149425287}
{"step": 446408, "episode/length": 222.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.053811659192825115}
{"step": 446537, "episode/length": 128.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 11.299999982118607, "episode/reward_rate": 0.08527131782945736}
{"step": 446760, "episode/length": 222.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.900000050663948, "episode/reward_rate": 0.053811659192825115}
{"step": 446802, "episode/length": 41.0, "episode/score": 3.099999964237213, "episode/sum_abs_reward": 4.699999988079071, "episode/reward_rate": 0.09523809523809523}
{"step": 446823, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.577504475911458, "train/action_min": 0.0, "train/action_std": 3.395536402861277, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.045978951112677656, "train/actor_opt_grad_steps": 222505.0, "train/actor_opt_loss": -12.253524283361104, "train/adv_mag": 0.46041151094767785, "train/adv_max": 0.403450691451629, "train/adv_mean": 0.0024995936759700677, "train/adv_min": -0.38550081062648034, "train/adv_std": 0.05111350703777538, "train/cont_avg": 0.994873046875, "train/cont_loss_mean": 0.00015404472725105082, "train/cont_loss_std": 0.004748471141761949, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 6.231589222870248e-05, "train/cont_pos_acc": 0.9999863786829842, "train/cont_pos_loss": 0.00015421831740145307, "train/cont_pred": 0.9948511703146828, "train/cont_rate": 0.994873046875, "train/dyn_loss_mean": 5.02740083138148, "train/dyn_loss_std": 8.646706720193228, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0338817470603519, "train/extr_critic_critic_opt_grad_steps": 222505.0, "train/extr_critic_critic_opt_loss": 16463.766913519965, "train/extr_critic_mag": 9.932421684265137, "train/extr_critic_max": 9.932421684265137, "train/extr_critic_mean": 2.572159343295627, "train/extr_critic_min": -0.5457746287186941, "train/extr_critic_std": 2.3897642162111072, "train/extr_return_normed_mag": 1.440772404273351, "train/extr_return_normed_max": 1.440772404273351, "train/extr_return_normed_mean": 0.36810952611267567, "train/extr_return_normed_min": -0.08879227387822336, "train/extr_return_normed_std": 0.32222903457780677, "train/extr_return_rate": 0.7414659667346213, "train/extr_return_raw_mag": 10.664894541104635, "train/extr_return_raw_max": 10.664894541104635, "train/extr_return_raw_mean": 2.5909657776355743, "train/extr_return_raw_min": -0.8474188024799029, "train/extr_return_raw_std": 2.4252110405100717, "train/extr_reward_mag": 1.0552583005693223, "train/extr_reward_max": 1.0552583005693223, "train/extr_reward_mean": 0.05134171045695742, "train/extr_reward_min": -0.671888733903567, "train/extr_reward_std": 0.21900101295775837, "train/image_loss_mean": 3.081961802310414, "train/image_loss_std": 7.881915695137447, "train/model_loss_mean": 6.148027943240272, "train/model_loss_std": 11.990149087376064, "train/model_opt_grad_norm": 29.964726368586224, "train/model_opt_grad_steps": 222327.04166666666, "train/model_opt_loss": 7997.197733561198, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1302.0833333333333, "train/policy_entropy_mag": 2.578290753894382, "train/policy_entropy_max": 2.578290753894382, "train/policy_entropy_mean": 0.38992851558658814, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5456500595642461, "train/policy_logprob_mag": 7.438384274641673, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3901950501733356, "train/policy_logprob_min": -7.438384274641673, "train/policy_logprob_std": 1.0072184685203764, "train/policy_randomness_mag": 0.9100234922435548, "train/policy_randomness_max": 0.9100234922435548, "train/policy_randomness_mean": 0.1376276532601979, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19259052620165878, "train/post_ent_mag": 55.339815351698135, "train/post_ent_max": 55.339815351698135, "train/post_ent_mean": 40.952180756462944, "train/post_ent_min": 18.99128662215339, "train/post_ent_std": 5.668555438518524, "train/prior_ent_mag": 76.44240485297308, "train/prior_ent_max": 76.44240485297308, "train/prior_ent_mean": 45.989990870157875, "train/prior_ent_min": 28.144126574198406, "train/prior_ent_std": 7.360542641745673, "train/rep_loss_mean": 5.02740083138148, "train/rep_loss_std": 8.646706720193228, "train/reward_avg": 0.033672417177715235, "train/reward_loss_mean": 0.04947163759627276, "train/reward_loss_std": 0.20073075716694197, "train/reward_max_data": 1.0208333383003871, "train/reward_max_pred": 1.018882652123769, "train/reward_neg_acc": 0.9943614767657386, "train/reward_neg_loss": 0.02278427282969157, "train/reward_pos_acc": 0.9897186822361417, "train/reward_pos_loss": 0.7223916517363654, "train/reward_pred": 0.03354073463318249, "train/reward_rate": 0.03822157118055555, "stats/sum_log_reward": 7.974999785423279, "stats/max_log_achievement_collect_coal": 0.375, "stats/max_log_achievement_collect_drink": 2.125, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 7.375, "stats/max_log_achievement_collect_wood": 8.375, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.125, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.25, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.375, "stats/max_log_achievement_place_stone": 2.5, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 0.875, "stats/mean_log_entropy": 0.31774439848959446, "replay/size": 446760.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.856420516967774e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.25972761048211e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2765808105469, "timer/env.step_count": 1440.0, "timer/env.step_total": 20.496597290039062, "timer/env.step_frac": 0.06825906047921518, "timer/env.step_avg": 0.014233748118082682, "timer/env.step_min": 0.0032656192779541016, "timer/env.step_max": 1.6572329998016357, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.27556586265563965, "timer/replay.add_frac": 0.0009177068085422954, "timer/replay.add_avg": 0.00019136518239974975, "timer/replay.add_min": 7.295608520507812e-05, "timer/replay.add_max": 0.0014829635620117188, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02873992919921875, "timer/logger.write_frac": 9.571152409435352e-05, "timer/logger.write_avg": 0.02873992919921875, "timer/logger.write_min": 0.02873992919921875, "timer/logger.write_max": 0.02873992919921875, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 10.595496892929077, "timer/agent.policy_frac": 0.035285791733502124, "timer/agent.policy_avg": 0.00735798395342297, "timer/agent.policy_min": 0.005694150924682617, "timer/agent.policy_max": 0.01836395263671875, "timer/dataset_count": 720.0, "timer/dataset_total": 0.0672159194946289, "timer/dataset_frac": 0.00022384669264979197, "timer/dataset_avg": 9.335544374254015e-05, "timer/dataset_min": 6.580352783203125e-05, "timer/dataset_max": 0.0001647472381591797, "timer/agent.train_count": 720.0, "timer/agent.train_total": 268.1067886352539, "timer/agent.train_frac": 0.8928661299910371, "timer/agent.train_avg": 0.372370539771186, "timer/agent.train_min": 0.36599230766296387, "timer/agent.train_max": 0.3904430866241455, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22112131118774414, "timer/agent.report_frac": 0.0007363921308510434, "timer/agent.report_avg": 0.22112131118774414, "timer/agent.report_min": 0.22112131118774414, "timer/agent.report_max": 0.22112131118774414, "fps": 4.795479374440084}
{"step": 446986, "episode/length": 183.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.059782608695652176}
{"step": 447140, "episode/length": 153.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.07142857142857142}
{"step": 447401, "episode/length": 260.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.04597701149425287}
{"step": 447602, "episode/length": 200.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.04975124378109453}
{"step": 447792, "episode/length": 189.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.05789473684210526}
{"step": 447971, "episode/length": 178.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.05027932960893855}
{"step": 448253, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.622347979478433, "train/action_min": 0.0, "train/action_std": 3.4399486662636343, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04429598981645745, "train/actor_opt_grad_steps": 223220.0, "train/actor_opt_loss": -13.06938293513278, "train/adv_mag": 0.4632893893080698, "train/adv_max": 0.4065540315399707, "train/adv_mean": 0.0021838318672552574, "train/adv_min": -0.4019090934118754, "train/adv_std": 0.049980477652919124, "train/cont_avg": 0.9947595730633803, "train/cont_loss_mean": 7.620263274497709e-06, "train/cont_loss_std": 0.00015762605855830053, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0004611640773438127, "train/cont_pos_acc": 0.9999999798519511, "train/cont_pos_loss": 5.425229055033373e-06, "train/cont_pred": 0.9947565155969539, "train/cont_rate": 0.9947595730633803, "train/dyn_loss_mean": 4.960299431438178, "train/dyn_loss_std": 8.691757242444535, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.027050943441794, "train/extr_critic_critic_opt_grad_steps": 223220.0, "train/extr_critic_critic_opt_loss": 16121.711253851232, "train/extr_critic_mag": 9.964228052488515, "train/extr_critic_max": 9.964228052488515, "train/extr_critic_mean": 2.555904144972143, "train/extr_critic_min": -0.5274316273944478, "train/extr_critic_std": 2.4220021492998365, "train/extr_return_normed_mag": 1.4455391773035828, "train/extr_return_normed_max": 1.4455391773035828, "train/extr_return_normed_mean": 0.36646970267027196, "train/extr_return_normed_min": -0.08718468206869044, "train/extr_return_normed_std": 0.32729763946902585, "train/extr_return_rate": 0.7366912797303267, "train/extr_return_raw_mag": 10.666646460412254, "train/extr_return_raw_max": 10.666646460412254, "train/extr_return_raw_mean": 2.5722832075307065, "train/extr_return_raw_min": -0.8313065565807719, "train/extr_return_raw_std": 2.4554555332156975, "train/extr_reward_mag": 1.0553590949152556, "train/extr_reward_max": 1.0553590949152556, "train/extr_reward_mean": 0.04898386494532018, "train/extr_reward_min": -0.657508974343958, "train/extr_reward_std": 0.21490760357447072, "train/image_loss_mean": 3.0924759851375097, "train/image_loss_std": 7.815013428808937, "train/model_loss_mean": 6.119307544869437, "train/model_loss_std": 11.982453252228213, "train/model_opt_grad_norm": 30.384628121282013, "train/model_opt_grad_steps": 223042.0, "train/model_opt_loss": 11942.3447334397, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1954.225352112676, "train/policy_entropy_mag": 2.593988704009795, "train/policy_entropy_max": 2.593988704009795, "train/policy_entropy_mean": 0.39914339738832394, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5521696894101693, "train/policy_logprob_mag": 7.438384237423749, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3983202232441432, "train/policy_logprob_min": -7.438384237423749, "train/policy_logprob_std": 1.01313763521087, "train/policy_randomness_mag": 0.9155641743834589, "train/policy_randomness_max": 0.9155641743834589, "train/policy_randomness_mean": 0.1408801017932489, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19489166906601946, "train/post_ent_mag": 55.82306961274483, "train/post_ent_max": 55.82306961274483, "train/post_ent_mean": 41.24630393444652, "train/post_ent_min": 18.968602220777054, "train/post_ent_std": 5.652472757957351, "train/prior_ent_mag": 76.40914841772805, "train/prior_ent_max": 76.40914841772805, "train/prior_ent_mean": 46.18221906205298, "train/prior_ent_min": 28.165815971267055, "train/prior_ent_std": 7.322049825963839, "train/rep_loss_mean": 4.960299431438178, "train/rep_loss_std": 8.691757242444535, "train/reward_avg": 0.03374504820037056, "train/reward_loss_mean": 0.05064432616804687, "train/reward_loss_std": 0.20490761164208532, "train/reward_max_data": 1.0239436676804448, "train/reward_max_pred": 1.0222684296084121, "train/reward_neg_acc": 0.9945442491853741, "train/reward_neg_loss": 0.023301470788641716, "train/reward_pos_acc": 0.9878594027438634, "train/reward_pos_loss": 0.7340332236088497, "train/reward_pred": 0.0334253871787182, "train/reward_rate": 0.038539832746478875, "stats/sum_log_reward": 9.600000381469727, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 2.1666666666666665, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 11.5, "stats/max_log_achievement_collect_wood": 8.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 1.1666666666666667, "stats/max_log_achievement_place_stone": 4.0, "stats/max_log_achievement_place_table": 2.1666666666666665, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.32346177597840625, "replay/size": 448190.0, "replay/inserts": 1430.0, "replay/samples": 11440.0, "replay/insert_wait_avg": 3.8303695358596486e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2683076458377438e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.16387915611267, "timer/env.step_count": 1430.0, "timer/env.step_total": 19.52821969985962, "timer/env.step_frac": 0.06505852654477176, "timer/env.step_avg": 0.013656097692209523, "timer/env.step_min": 0.0030808448791503906, "timer/env.step_max": 2.11677622795105, "timer/replay.add_count": 1430.0, "timer/replay.add_total": 0.2669713497161865, "timer/replay.add_frac": 0.0008894186417991253, "timer/replay.add_avg": 0.0001866932515497808, "timer/replay.add_min": 7.009506225585938e-05, "timer/replay.add_max": 0.0012040138244628906, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03505063056945801, "timer/logger.write_frac": 0.00011677164710157705, "timer/logger.write_avg": 0.03505063056945801, "timer/logger.write_min": 0.03505063056945801, "timer/logger.write_max": 0.03505063056945801, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003757476806640625, "timer/checkpoint.save_frac": 1.251808451171566e-06, "timer/checkpoint.save_avg": 0.0003757476806640625, "timer/checkpoint.save_min": 0.0003757476806640625, "timer/checkpoint.save_max": 0.0003757476806640625, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4310059547424316, "timer/agent.save_frac": 0.004767415582333201, "timer/agent.save_avg": 1.4310059547424316, "timer/agent.save_min": 1.4310059547424316, "timer/agent.save_max": 1.4310059547424316, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.487701416015625e-05, "timer/replay.save_frac": 2.827689140971304e-07, "timer/replay.save_avg": 8.487701416015625e-05, "timer/replay.save_min": 8.487701416015625e-05, "timer/replay.save_max": 8.487701416015625e-05, "timer/agent.policy_count": 1430.0, "timer/agent.policy_total": 12.597145318984985, "timer/agent.policy_frac": 0.04196755903608681, "timer/agent.policy_avg": 0.00880919253075873, "timer/agent.policy_min": 0.005685567855834961, "timer/agent.policy_max": 1.4314570426940918, "timer/dataset_count": 715.0, "timer/dataset_total": 0.06723403930664062, "timer/dataset_frac": 0.00022399110611064823, "timer/dataset_avg": 9.403362140788898e-05, "timer/dataset_min": 7.009506225585938e-05, "timer/dataset_max": 0.00021600723266601562, "timer/agent.train_count": 715.0, "timer/agent.train_total": 266.975745677948, "timer/agent.train_frac": 0.8894332870048504, "timer/agent.train_avg": 0.3733926512978294, "timer/agent.train_min": 0.366283655166626, "timer/agent.train_max": 0.9536466598510742, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2198648452758789, "timer/agent.report_frac": 0.0007324826887699206, "timer/agent.report_avg": 0.2198648452758789, "timer/agent.report_min": 0.2198648452758789, "timer/agent.report_max": 0.2198648452758789, "fps": 4.763983975571312}
{"step": 448321, "episode/length": 349.0, "episode/score": 11.099999979138374, "episode/sum_abs_reward": 14.700000047683716, "episode/reward_rate": 0.03428571428571429}
{"step": 448525, "episode/length": 203.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.05392156862745098}
{"step": 448686, "episode/length": 160.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.043478260869565216}
{"step": 448814, "episode/length": 127.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.0859375}
{"step": 448996, "episode/length": 181.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.06043956043956044}
{"step": 449157, "episode/length": 160.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.049689440993788817}
{"step": 449388, "episode/length": 230.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.06060606060606061}
{"step": 449546, "episode/length": 157.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.300000049173832, "episode/reward_rate": 0.06962025316455696}
{"step": 449693, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.744170294867621, "train/action_min": 0.0, "train/action_std": 3.5542791651354895, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.046532686334103346, "train/actor_opt_grad_steps": 223935.0, "train/actor_opt_loss": -12.731050697051817, "train/adv_mag": 0.48410527656475705, "train/adv_max": 0.42317431420087814, "train/adv_mean": 0.002753566919384159, "train/adv_min": -0.4263223759416077, "train/adv_std": 0.052841904987063676, "train/cont_avg": 0.9946153428819444, "train/cont_loss_mean": 0.00018806288978368002, "train/cont_loss_std": 0.005906086345438173, "train/cont_neg_acc": 0.99336419834031, "train/cont_neg_loss": 0.03194766358072027, "train/cont_pos_acc": 0.9999999817874696, "train/cont_pos_loss": 7.609474607366767e-06, "train/cont_pred": 0.9946497778097788, "train/cont_rate": 0.9946153428819444, "train/dyn_loss_mean": 5.008550501532024, "train/dyn_loss_std": 8.671154512299431, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0483965881996684, "train/extr_critic_critic_opt_grad_steps": 223935.0, "train/extr_critic_critic_opt_loss": 16562.433715820312, "train/extr_critic_mag": 10.063377751244438, "train/extr_critic_max": 10.063377751244438, "train/extr_critic_mean": 2.641635831859377, "train/extr_critic_min": -0.5871761855151918, "train/extr_critic_std": 2.4767905440595417, "train/extr_return_normed_mag": 1.4516306204928293, "train/extr_return_normed_max": 1.4516306204928293, "train/extr_return_normed_mean": 0.3776194494631555, "train/extr_return_normed_min": -0.09675039909780025, "train/extr_return_normed_std": 0.33319904655218124, "train/extr_return_rate": 0.7448568104041947, "train/extr_return_raw_mag": 10.755920304192436, "train/extr_return_raw_max": 10.755920304192436, "train/extr_return_raw_mean": 2.6624157544639377, "train/extr_return_raw_min": -0.9128262032237318, "train/extr_return_raw_std": 2.5112402356333203, "train/extr_reward_mag": 1.0501089990139008, "train/extr_reward_max": 1.0501089990139008, "train/extr_reward_mean": 0.05400910088792443, "train/extr_reward_min": -0.7042188313272264, "train/extr_reward_std": 0.224954919061727, "train/image_loss_mean": 2.9984054813782373, "train/image_loss_std": 8.113327927059597, "train/model_loss_mean": 6.054456260469225, "train/model_loss_std": 12.218976351949904, "train/model_opt_grad_norm": 30.099840177430046, "train/model_opt_grad_steps": 223756.69444444444, "train/model_opt_loss": 14175.729349772135, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2343.75, "train/policy_entropy_mag": 2.583058797650867, "train/policy_entropy_max": 2.583058797650867, "train/policy_entropy_mean": 0.39984641555282807, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5542421324385537, "train/policy_logprob_mag": 7.438384215037028, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40019264858629966, "train/policy_logprob_min": -7.438384215037028, "train/policy_logprob_std": 1.018098736802737, "train/policy_randomness_mag": 0.9117064045535194, "train/policy_randomness_max": 0.9117064045535194, "train/policy_randomness_mean": 0.14112823808358776, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19562315175102818, "train/post_ent_mag": 55.35221889283922, "train/post_ent_max": 55.35221889283922, "train/post_ent_mean": 41.196017530229355, "train/post_ent_min": 18.97759469350179, "train/post_ent_std": 5.641302333937751, "train/prior_ent_mag": 76.53781064351399, "train/prior_ent_max": 76.53781064351399, "train/prior_ent_mean": 46.22898477978177, "train/prior_ent_min": 28.13300042682224, "train/prior_ent_std": 7.297199626763661, "train/rep_loss_mean": 5.008550501532024, "train/rep_loss_std": 8.671154512299431, "train/reward_avg": 0.034650336381875806, "train/reward_loss_mean": 0.050732398146970406, "train/reward_loss_std": 0.20185916788048214, "train/reward_max_data": 1.013888892200258, "train/reward_max_pred": 1.012734282347891, "train/reward_neg_acc": 0.9944788490732511, "train/reward_neg_loss": 0.022744227343031928, "train/reward_pos_acc": 0.9881319925189018, "train/reward_pos_loss": 0.7291625622246001, "train/reward_pred": 0.03445238770089216, "train/reward_rate": 0.039618598090277776, "stats/sum_log_reward": 9.725000262260437, "stats/max_log_achievement_collect_coal": 0.375, "stats/max_log_achievement_collect_drink": 2.125, "stats/max_log_achievement_collect_sapling": 1.75, "stats/max_log_achievement_collect_stone": 15.875, "stats/max_log_achievement_collect_wood": 7.5, "stats/max_log_achievement_defeat_skeleton": 0.375, "stats/max_log_achievement_defeat_zombie": 0.125, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 1.25, "stats/max_log_achievement_place_plant": 1.375, "stats/max_log_achievement_place_stone": 8.25, "stats/max_log_achievement_place_table": 2.25, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.3626880068331957, "replay/size": 449630.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.756582736968994e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.253953410519494e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.13261818885803, "timer/env.step_count": 1440.0, "timer/env.step_total": 20.507851123809814, "timer/env.step_frac": 0.06832929805352006, "timer/env.step_avg": 0.014241563280423482, "timer/env.step_min": 0.003088712692260742, "timer/env.step_max": 1.7499918937683105, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.2700653076171875, "timer/replay.add_frac": 0.0008998199170982784, "timer/replay.add_avg": 0.00018754535251193577, "timer/replay.add_min": 7.486343383789062e-05, "timer/replay.add_max": 0.0009930133819580078, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03425335884094238, "timer/logger.write_frac": 0.00011412741156773738, "timer/logger.write_avg": 0.03425335884094238, "timer/logger.write_min": 0.03425335884094238, "timer/logger.write_max": 0.03425335884094238, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 10.467017889022827, "timer/agent.policy_frac": 0.03487464292347082, "timer/agent.policy_avg": 0.007268762422932519, "timer/agent.policy_min": 0.005679130554199219, "timer/agent.policy_max": 0.018593549728393555, "timer/dataset_count": 720.0, "timer/dataset_total": 0.06598472595214844, "timer/dataset_frac": 0.0002198518986384467, "timer/dataset_avg": 9.164545271131728e-05, "timer/dataset_min": 6.413459777832031e-05, "timer/dataset_max": 0.0001976490020751953, "timer/agent.train_count": 720.0, "timer/agent.train_total": 268.09032678604126, "timer/agent.train_frac": 0.8932395565794378, "timer/agent.train_avg": 0.372347676091724, "timer/agent.train_min": 0.3635697364807129, "timer/agent.train_max": 0.3837127685546875, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2203981876373291, "timer/agent.report_frac": 0.000734336004421365, "timer/agent.report_avg": 0.2203981876373291, "timer/agent.report_min": 0.2203981876373291, "timer/agent.report_max": 0.2203981876373291, "fps": 4.797807021194806}
{"step": 449783, "episode/length": 236.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.04219409282700422}
{"step": 449951, "episode/length": 167.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 10.500000037252903, "episode/reward_rate": 0.05357142857142857}
{"step": 450341, "episode/length": 389.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.700000040233135, "episode/reward_rate": 0.03076923076923077}
{"step": 450539, "episode/length": 197.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 12.899999991059303, "episode/reward_rate": 0.06565656565656566}
{"step": 450732, "episode/length": 192.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.06217616580310881}
{"step": 450909, "episode/length": 176.0, "episode/score": 8.100000016391277, "episode/sum_abs_reward": 9.700000040233135, "episode/reward_rate": 0.05084745762711865}
{"step": 451147, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.5741033684717465, "train/action_min": 0.0, "train/action_std": 3.444157469762515, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.044221168792206944, "train/actor_opt_grad_steps": 224660.0, "train/actor_opt_loss": -12.913328997076373, "train/adv_mag": 0.4596989734532082, "train/adv_max": 0.4084766245868108, "train/adv_mean": 0.0026205279197574157, "train/adv_min": -0.3964151227719163, "train/adv_std": 0.05032085678348803, "train/cont_avg": 0.994488441780822, "train/cont_loss_mean": 1.1421604900706432e-05, "train/cont_loss_std": 0.00032605445256674465, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00024246904814228325, "train/cont_pos_acc": 0.9999999779544465, "train/cont_pos_loss": 1.000329786668457e-05, "train/cont_pred": 0.9944804686389558, "train/cont_rate": 0.994488441780822, "train/dyn_loss_mean": 5.060511455143968, "train/dyn_loss_std": 8.760892299756613, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0355833646369308, "train/extr_critic_critic_opt_grad_steps": 224660.0, "train/extr_critic_critic_opt_loss": 16234.286360231165, "train/extr_critic_mag": 9.781786239310486, "train/extr_critic_max": 9.781786239310486, "train/extr_critic_mean": 2.561733066219173, "train/extr_critic_min": -0.527939402893798, "train/extr_critic_std": 2.4242890077094508, "train/extr_return_normed_mag": 1.4275341540166777, "train/extr_return_normed_max": 1.4275341540166777, "train/extr_return_normed_mean": 0.3709098345612826, "train/extr_return_normed_min": -0.09304546569920566, "train/extr_return_normed_std": 0.33057826104229443, "train/extr_return_rate": 0.7257616691393395, "train/extr_return_raw_mag": 10.444101934563625, "train/extr_return_raw_max": 10.444101934563625, "train/extr_return_raw_mean": 2.5812401412284536, "train/extr_return_raw_min": -0.8714387776100472, "train/extr_return_raw_std": 2.4601588967728287, "train/extr_reward_mag": 1.0514674545967415, "train/extr_reward_max": 1.0514674545967415, "train/extr_reward_mean": 0.05150581332408402, "train/extr_reward_min": -0.6587619683513902, "train/extr_reward_std": 0.22010903713637836, "train/image_loss_mean": 3.206655045078225, "train/image_loss_std": 8.38612201769058, "train/model_loss_mean": 6.29332949364022, "train/model_loss_std": 12.528449829310587, "train/model_opt_grad_norm": 30.362601528429007, "train/model_opt_grad_steps": 224480.0, "train/model_opt_loss": 7866.66188864512, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.5984102863155, "train/policy_entropy_max": 2.5984102863155, "train/policy_entropy_mean": 0.4110655266128174, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5659097098324397, "train/policy_logprob_mag": 7.43838418019961, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4102817884046737, "train/policy_logprob_min": -7.43838418019961, "train/policy_logprob_std": 1.0198707327450791, "train/policy_randomness_mag": 0.9171248021191114, "train/policy_randomness_max": 0.9171248021191114, "train/policy_randomness_mean": 0.14508809016583718, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19974129218352984, "train/post_ent_mag": 55.06829922819791, "train/post_ent_max": 55.06829922819791, "train/post_ent_mean": 41.188189624107046, "train/post_ent_min": 18.784975234776326, "train/post_ent_std": 5.6566214104221295, "train/prior_ent_mag": 76.43061797259605, "train/prior_ent_max": 76.43061797259605, "train/prior_ent_mean": 46.25755461601362, "train/prior_ent_min": 28.718479261006394, "train/prior_ent_std": 7.354102996930684, "train/rep_loss_mean": 5.060511455143968, "train/rep_loss_std": 8.760892299756613, "train/reward_avg": 0.03470007467963924, "train/reward_loss_mean": 0.05035621453433821, "train/reward_loss_std": 0.19784885991926063, "train/reward_max_data": 1.0246575401253897, "train/reward_max_pred": 1.0262596933809045, "train/reward_neg_acc": 0.9946851901812096, "train/reward_neg_loss": 0.02295090987870138, "train/reward_pos_acc": 0.9930050773163365, "train/reward_pos_loss": 0.7149288115436083, "train/reward_pred": 0.03449325942217487, "train/reward_rate": 0.039544092465753425, "stats/sum_log_reward": 9.766666889190674, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 3.1666666666666665, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 21.833333333333332, "stats/max_log_achievement_collect_wood": 7.5, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 0.16666666666666666, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.3333333333333333, "stats/max_log_achievement_place_furnace": 3.0, "stats/max_log_achievement_place_plant": 1.1666666666666667, "stats/max_log_achievement_place_stone": 7.833333333333333, "stats/max_log_achievement_place_table": 1.6666666666666667, "stats/max_log_achievement_wake_up": 1.8333333333333333, "stats/mean_log_entropy": 0.5187536925077438, "replay/size": 451084.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.816009059732849e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2601422148524813e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1940870285034, "timer/env.step_count": 1454.0, "timer/env.step_total": 17.755103826522827, "timer/env.step_frac": 0.05914541489565376, "timer/env.step_avg": 0.01221121308564156, "timer/env.step_min": 0.003045320510864258, "timer/env.step_max": 1.7174348831176758, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.26920557022094727, "timer/replay.add_frac": 0.0008967717282032481, "timer/replay.add_avg": 0.0001851482601244479, "timer/replay.add_min": 7.319450378417969e-05, "timer/replay.add_max": 0.0011196136474609375, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025023698806762695, "timer/logger.write_frac": 8.335840007530426e-05, "timer/logger.write_avg": 0.025023698806762695, "timer/logger.write_min": 0.025023698806762695, "timer/logger.write_max": 0.025023698806762695, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 10.601343631744385, "timer/agent.policy_frac": 0.035314964850516155, "timer/agent.policy_avg": 0.007291157931048408, "timer/agent.policy_min": 0.005612850189208984, "timer/agent.policy_max": 0.014288663864135742, "timer/dataset_count": 727.0, "timer/dataset_total": 0.06740832328796387, "timer/dataset_frac": 0.00022454913737712445, "timer/dataset_avg": 9.272121497656653e-05, "timer/dataset_min": 6.651878356933594e-05, "timer/dataset_max": 0.000156402587890625, "timer/agent.train_count": 727.0, "timer/agent.train_total": 270.7756769657135, "timer/agent.train_frac": 0.9020020335710455, "timer/agent.train_avg": 0.37245622691294844, "timer/agent.train_min": 0.36611485481262207, "timer/agent.train_max": 0.42845654487609863, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.218458890914917, "timer/agent.report_frac": 0.0007277254961193634, "timer/agent.report_avg": 0.218458890914917, "timer/agent.report_min": 0.218458890914917, "timer/agent.report_max": 0.218458890914917, "fps": 4.843431987457437}
{"step": 451318, "episode/length": 408.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.02689486552567237}
{"step": 451535, "episode/length": 216.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.04608294930875576}
{"step": 451773, "episode/length": 237.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.30000003427267, "episode/reward_rate": 0.05042016806722689}
{"step": 451869, "episode/length": 95.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 9.899999976158142, "episode/reward_rate": 0.10416666666666667}
{"step": 452302, "episode/length": 432.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.02771362586605081}
{"step": 452480, "episode/length": 177.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 11.899999991059303, "episode/reward_rate": 0.06741573033707865}
{"step": 452579, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.550956726074219, "train/action_min": 0.0, "train/action_std": 3.3806994921631284, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.044240293041285544, "train/actor_opt_grad_steps": 225385.0, "train/actor_opt_loss": -13.217801322539648, "train/adv_mag": 0.4633005348344644, "train/adv_max": 0.42843641009595657, "train/adv_mean": 0.0025000506381426626, "train/adv_min": -0.36406025580233997, "train/adv_std": 0.051015681638899774, "train/cont_avg": 0.9947509765625, "train/cont_loss_mean": 4.977502297699566e-05, "train/cont_loss_std": 0.0015406369286223606, "train/cont_neg_acc": 0.9976851857370801, "train/cont_neg_loss": 0.006948490051564072, "train/cont_pos_acc": 0.9999999784761004, "train/cont_pos_loss": 1.1306020208539596e-05, "train/cont_pred": 0.9947571158409119, "train/cont_rate": 0.9947509765625, "train/dyn_loss_mean": 5.152179532580906, "train/dyn_loss_std": 8.674168858263227, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0845475734935865, "train/extr_critic_critic_opt_grad_steps": 225385.0, "train/extr_critic_critic_opt_loss": 16390.50523546007, "train/extr_critic_mag": 9.966758052508036, "train/extr_critic_max": 9.966758052508036, "train/extr_critic_mean": 2.6028840442498526, "train/extr_critic_min": -0.5373091598351797, "train/extr_critic_std": 2.4567007058196597, "train/extr_return_normed_mag": 1.425396516919136, "train/extr_return_normed_max": 1.425396516919136, "train/extr_return_normed_mean": 0.37108857267432743, "train/extr_return_normed_min": -0.08711607198023961, "train/extr_return_normed_std": 0.3296950153178639, "train/extr_return_rate": 0.7348479487829738, "train/extr_return_raw_mag": 10.57934714688195, "train/extr_return_raw_max": 10.57934714688195, "train/extr_return_raw_mean": 2.621735456917021, "train/extr_return_raw_min": -0.8370771511561341, "train/extr_return_raw_std": 2.488500401377678, "train/extr_reward_mag": 1.0529233415921528, "train/extr_reward_max": 1.0529233415921528, "train/extr_reward_mean": 0.05237877105052272, "train/extr_reward_min": -0.6873922811614143, "train/extr_reward_std": 0.22226640871829456, "train/image_loss_mean": 3.1420472181505628, "train/image_loss_std": 7.98912247021993, "train/model_loss_mean": 6.28422451350424, "train/model_loss_std": 12.113050666120317, "train/model_opt_grad_norm": 31.401927550633747, "train/model_opt_grad_steps": 225205.0, "train/model_opt_loss": 13854.800103081598, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2222.222222222222, "train/policy_entropy_mag": 2.6037177642186484, "train/policy_entropy_max": 2.6037177642186484, "train/policy_entropy_mean": 0.39635289336244267, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5435119585858451, "train/policy_logprob_mag": 7.43838424815072, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3954218116899331, "train/policy_logprob_min": -7.43838424815072, "train/policy_logprob_std": 1.0089891312850847, "train/policy_randomness_mag": 0.9189981114533212, "train/policy_randomness_max": 0.9189981114533212, "train/policy_randomness_mean": 0.13989517599758175, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19183586993151241, "train/post_ent_mag": 54.87567133373685, "train/post_ent_max": 54.87567133373685, "train/post_ent_mean": 41.074857234954834, "train/post_ent_min": 19.063442203733658, "train/post_ent_std": 5.6169790559344825, "train/prior_ent_mag": 76.38849131266277, "train/prior_ent_max": 76.38849131266277, "train/prior_ent_mean": 46.22557698355781, "train/prior_ent_min": 28.58461750878228, "train/prior_ent_std": 7.392199178536733, "train/rep_loss_mean": 5.152179532580906, "train/rep_loss_std": 8.674168858263227, "train/reward_avg": 0.035168456870855555, "train/reward_loss_mean": 0.05081978409240643, "train/reward_loss_std": 0.20294273561901516, "train/reward_max_data": 1.0152777814202838, "train/reward_max_pred": 1.0182062652375963, "train/reward_neg_acc": 0.9948285553190443, "train/reward_neg_loss": 0.02268265330025719, "train/reward_pos_acc": 0.9885374332467715, "train/reward_pos_loss": 0.7290169008904033, "train/reward_pred": 0.03476276278444049, "train/reward_rate": 0.039835611979166664, "stats/sum_log_reward": 9.93333371480306, "stats/max_log_achievement_collect_coal": 0.3333333333333333, "stats/max_log_achievement_collect_drink": 9.166666666666666, "stats/max_log_achievement_collect_sapling": 2.1666666666666665, "stats/max_log_achievement_collect_stone": 10.833333333333334, "stats/max_log_achievement_collect_wood": 8.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.3333333333333333, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.3333333333333333, "stats/max_log_achievement_place_furnace": 0.8333333333333334, "stats/max_log_achievement_place_plant": 2.1666666666666665, "stats/max_log_achievement_place_stone": 6.0, "stats/max_log_achievement_place_table": 2.1666666666666665, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.5357510646184286, "replay/size": 452516.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.7855609169219457e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2582115953861002e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2149829864502, "timer/env.step_count": 1432.0, "timer/env.step_total": 19.71869921684265, "timer/env.step_frac": 0.06568192906525465, "timer/env.step_avg": 0.013770041352543751, "timer/env.step_min": 0.0030357837677001953, "timer/env.step_max": 2.838411808013916, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.29326844215393066, "timer/replay.add_frac": 0.0009768614452103043, "timer/replay.add_avg": 0.00020479639815218622, "timer/replay.add_min": 7.581710815429688e-05, "timer/replay.add_max": 0.0010380744934082031, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025197744369506836, "timer/logger.write_frac": 8.393233448526485e-05, "timer/logger.write_avg": 0.025197744369506836, "timer/logger.write_min": 0.025197744369506836, "timer/logger.write_max": 0.025197744369506836, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0006616115570068359, "timer/checkpoint.save_frac": 2.2037925969760706e-06, "timer/checkpoint.save_avg": 0.0006616115570068359, "timer/checkpoint.save_min": 0.0006616115570068359, "timer/checkpoint.save_max": 0.0006616115570068359, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4916718006134033, "timer/agent.save_frac": 0.004968678730737193, "timer/agent.save_avg": 1.4916718006134033, "timer/agent.save_min": 1.4916718006134033, "timer/agent.save_max": 1.4916718006134033, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.0558319091796875e-05, "timer/replay.save_frac": 2.0171651157907098e-07, "timer/replay.save_avg": 6.0558319091796875e-05, "timer/replay.save_min": 6.0558319091796875e-05, "timer/replay.save_max": 6.0558319091796875e-05, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 11.884916067123413, "timer/agent.policy_frac": 0.03958801772281906, "timer/agent.policy_avg": 0.008299522393242607, "timer/agent.policy_min": 0.005705833435058594, "timer/agent.policy_max": 1.4809658527374268, "timer/dataset_count": 716.0, "timer/dataset_total": 0.06671142578125, "timer/dataset_frac": 0.00022221217981069564, "timer/dataset_avg": 9.317238237604749e-05, "timer/dataset_min": 6.604194641113281e-05, "timer/dataset_max": 0.00015592575073242188, "timer/agent.train_count": 716.0, "timer/agent.train_total": 267.52881622314453, "timer/agent.train_frac": 0.8911241323196021, "timer/agent.train_avg": 0.3736435980770175, "timer/agent.train_min": 0.365128755569458, "timer/agent.train_max": 0.9537861347198486, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22251033782958984, "timer/agent.report_frac": 0.0007411699963010592, "timer/agent.report_avg": 0.22251033782958984, "timer/agent.report_min": 0.22251033782958984, "timer/agent.report_max": 0.22251033782958984, "fps": 4.769825983697622}
{"step": 452680, "episode/length": 199.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.055}
{"step": 452866, "episode/length": 185.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.05913978494623656}
{"step": 453053, "episode/length": 186.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.899999976158142, "episode/reward_rate": 0.06417112299465241}
{"step": 453254, "episode/length": 200.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.899999976158142, "episode/reward_rate": 0.05970149253731343}
{"step": 453379, "episode/length": 124.0, "episode/score": 12.100000023841858, "episode/sum_abs_reward": 13.700000047683716, "episode/reward_rate": 0.104}
{"step": 453534, "episode/length": 154.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.05806451612903226}
{"step": 453714, "episode/length": 179.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.05}
{"step": 453893, "episode/length": 178.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.061452513966480445}
{"step": 454019, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.447686937120226, "train/action_min": 0.0, "train/action_std": 3.2894534965356192, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.045700459016693964, "train/actor_opt_grad_steps": 226105.0, "train/actor_opt_loss": -14.471720342834791, "train/adv_mag": 0.4667566211687194, "train/adv_max": 0.43466416870554286, "train/adv_mean": 0.002137295128199589, "train/adv_min": -0.3725529718730185, "train/adv_std": 0.05235891980636451, "train/cont_avg": 0.9942491319444444, "train/cont_loss_mean": 3.788301427536883e-05, "train/cont_loss_std": 0.0011329468936693843, "train/cont_neg_acc": 0.9976851857370801, "train/cont_neg_loss": 0.0053369951168381, "train/cont_pos_acc": 0.9999999867545234, "train/cont_pos_loss": 4.955577335547585e-06, "train/cont_pred": 0.9942640744977527, "train/cont_rate": 0.9942491319444444, "train/dyn_loss_mean": 5.11199935277303, "train/dyn_loss_std": 8.755885832839542, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0602443599038653, "train/extr_critic_critic_opt_grad_steps": 226105.0, "train/extr_critic_critic_opt_loss": 16383.836235894098, "train/extr_critic_mag": 9.892053074306911, "train/extr_critic_max": 9.892053074306911, "train/extr_critic_mean": 2.6325074318382473, "train/extr_critic_min": -0.5235680275493197, "train/extr_critic_std": 2.441433545615938, "train/extr_return_normed_mag": 1.461572140455246, "train/extr_return_normed_max": 1.461572140455246, "train/extr_return_normed_mean": 0.3805832184023327, "train/extr_return_normed_min": -0.09525237744674087, "train/extr_return_normed_std": 0.33286893119414646, "train/extr_return_rate": 0.7415690513120757, "train/extr_return_raw_mag": 10.679921216434902, "train/extr_return_raw_max": 10.679921216434902, "train/extr_return_raw_mean": 2.6483667211400137, "train/extr_return_raw_min": -0.886839374072022, "train/extr_return_raw_std": 2.4732544322808585, "train/extr_reward_mag": 1.0523232983218298, "train/extr_reward_max": 1.0523232983218298, "train/extr_reward_mean": 0.05055616961585151, "train/extr_reward_min": -0.6601996603939269, "train/extr_reward_std": 0.21871217443711227, "train/image_loss_mean": 3.1353090835942163, "train/image_loss_std": 8.443094419108498, "train/model_loss_mean": 6.254808300071293, "train/model_loss_std": 12.56256530019972, "train/model_opt_grad_norm": 32.41509951485528, "train/model_opt_grad_steps": 225924.30555555556, "train/model_opt_loss": 10364.683098687066, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1631.9444444444443, "train/policy_entropy_mag": 2.5584878259234958, "train/policy_entropy_max": 2.5584878259234958, "train/policy_entropy_mean": 0.366253466034929, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5078652703927623, "train/policy_logprob_mag": 7.438384234905243, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36730955479045707, "train/policy_logprob_min": -7.438384234905243, "train/policy_logprob_std": 0.9879975815614065, "train/policy_randomness_mag": 0.9030339295665423, "train/policy_randomness_max": 0.9030339295665423, "train/policy_randomness_mean": 0.12927140036804807, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1792541534329454, "train/post_ent_mag": 55.04717630810208, "train/post_ent_max": 55.04717630810208, "train/post_ent_mean": 41.13961108525594, "train/post_ent_min": 19.323480473624336, "train/post_ent_std": 5.607035729620192, "train/prior_ent_mag": 76.36472935146756, "train/prior_ent_max": 76.36472935146756, "train/prior_ent_mean": 46.25368573930528, "train/prior_ent_min": 28.435974889331394, "train/prior_ent_std": 7.322216822041406, "train/rep_loss_mean": 5.11199935277303, "train/rep_loss_std": 8.755885832839542, "train/reward_avg": 0.03413764082102312, "train/reward_loss_mean": 0.05226175580173731, "train/reward_loss_std": 0.2071230351510975, "train/reward_max_data": 1.0166666706403096, "train/reward_max_pred": 1.019263807270262, "train/reward_neg_acc": 0.99411258349816, "train/reward_neg_loss": 0.024364234814937744, "train/reward_pos_acc": 0.9874964902798334, "train/reward_pos_loss": 0.7360628959205415, "train/reward_pred": 0.03370129407590462, "train/reward_rate": 0.03927951388888889, "stats/sum_log_reward": 9.850000381469727, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 1.75, "stats/max_log_achievement_collect_sapling": 1.25, "stats/max_log_achievement_collect_stone": 14.25, "stats/max_log_achievement_collect_wood": 8.5, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 0.25, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.125, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 1.875, "stats/max_log_achievement_place_plant": 1.125, "stats/max_log_achievement_place_stone": 4.125, "stats/max_log_achievement_place_table": 2.875, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.33220484107732773, "replay/size": 453956.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.80327304204305e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2602243158552382e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2405879497528, "timer/env.step_count": 1440.0, "timer/env.step_total": 20.58039617538452, "timer/env.step_frac": 0.06854634916591884, "timer/env.step_avg": 0.014291941788461474, "timer/env.step_min": 0.003081083297729492, "timer/env.step_max": 1.7368273735046387, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.27254652976989746, "timer/replay.add_frac": 0.0009077604451517723, "timer/replay.add_avg": 0.0001892684234513177, "timer/replay.add_min": 7.390975952148438e-05, "timer/replay.add_max": 0.0013582706451416016, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029829025268554688, "timer/logger.write_frac": 9.935040919100107e-05, "timer/logger.write_avg": 0.029829025268554688, "timer/logger.write_min": 0.029829025268554688, "timer/logger.write_max": 0.029829025268554688, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 10.406155824661255, "timer/agent.policy_frac": 0.03465939064308918, "timer/agent.policy_avg": 0.0072264971004592045, "timer/agent.policy_min": 0.005657672882080078, "timer/agent.policy_max": 0.016956806182861328, "timer/dataset_count": 720.0, "timer/dataset_total": 0.06681036949157715, "timer/dataset_frac": 0.00022252277730936995, "timer/dataset_avg": 9.279217984941271e-05, "timer/dataset_min": 6.461143493652344e-05, "timer/dataset_max": 0.00020837783813476562, "timer/agent.train_count": 720.0, "timer/agent.train_total": 268.19082283973694, "timer/agent.train_frac": 0.8932530563942953, "timer/agent.train_avg": 0.37248725394407906, "timer/agent.train_min": 0.36580848693847656, "timer/agent.train_max": 0.4157373905181885, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21904826164245605, "timer/agent.report_frac": 0.0007295757816698494, "timer/agent.report_avg": 0.21904826164245605, "timer/agent.report_min": 0.21904826164245605, "timer/agent.report_max": 0.21904826164245605, "fps": 4.796078980763388}
{"step": 454150, "episode/length": 256.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.038910505836575876}
{"step": 454358, "episode/length": 207.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 9.899999991059303, "episode/reward_rate": 0.04807692307692308}
{"step": 454524, "episode/length": 165.0, "episode/score": 12.099999964237213, "episode/sum_abs_reward": 14.900000005960464, "episode/reward_rate": 0.0783132530120482}
{"step": 454666, "episode/length": 141.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.07042253521126761}
{"step": 454867, "episode/length": 200.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.05472636815920398}
{"step": 455037, "episode/length": 169.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.07058823529411765}
{"step": 455225, "episode/length": 187.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.500000044703484, "episode/reward_rate": 0.06382978723404255}
{"step": 455467, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4742236667209205, "train/action_min": 0.0, "train/action_std": 3.3538683354854584, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.045429852687650256, "train/actor_opt_grad_steps": 226825.0, "train/actor_opt_loss": -13.72596073564556, "train/adv_mag": 0.43596577934092945, "train/adv_max": 0.40185754125316936, "train/adv_mean": 0.0023012332566799566, "train/adv_min": -0.35938972731431323, "train/adv_std": 0.05121591811378797, "train/cont_avg": 0.9946560329861112, "train/cont_loss_mean": 5.111213412482366e-05, "train/cont_loss_std": 0.0015045433521478913, "train/cont_neg_acc": 0.9980158739619784, "train/cont_neg_loss": 0.004313081454288042, "train/cont_pos_acc": 0.9999863472249773, "train/cont_pos_loss": 2.177384210552999e-05, "train/cont_pred": 0.9946504483620325, "train/cont_rate": 0.9946560329861112, "train/dyn_loss_mean": 5.051896578735775, "train/dyn_loss_std": 8.740874389807383, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0235499093929927, "train/extr_critic_critic_opt_grad_steps": 226825.0, "train/extr_critic_critic_opt_loss": 16236.504177517361, "train/extr_critic_mag": 9.921250767178005, "train/extr_critic_max": 9.921250767178005, "train/extr_critic_mean": 2.6001985950602426, "train/extr_critic_min": -0.5517383035686281, "train/extr_critic_std": 2.429690266648928, "train/extr_return_normed_mag": 1.4504043178425894, "train/extr_return_normed_max": 1.4504043178425894, "train/extr_return_normed_mean": 0.3730441669209136, "train/extr_return_normed_min": -0.08667716052797106, "train/extr_return_normed_std": 0.3291156180202961, "train/extr_return_rate": 0.7374738156795502, "train/extr_return_raw_mag": 10.694902658462524, "train/extr_return_raw_max": 10.694902658462524, "train/extr_return_raw_mean": 2.6174634446700416, "train/extr_return_raw_min": -0.8293284939395057, "train/extr_return_raw_std": 2.467739327086343, "train/extr_reward_mag": 1.0458302232954237, "train/extr_reward_max": 1.0458302232954237, "train/extr_reward_mean": 0.05100196713788642, "train/extr_reward_min": -0.6563274926609464, "train/extr_reward_std": 0.21873879142933422, "train/image_loss_mean": 3.0720750060346393, "train/image_loss_std": 8.289695507950253, "train/model_loss_mean": 6.154017408688863, "train/model_loss_std": 12.435516940222847, "train/model_opt_grad_norm": 29.30152572525872, "train/model_opt_grad_steps": 226644.0, "train/model_opt_loss": 9997.285725911459, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1631.9444444444443, "train/policy_entropy_mag": 2.5946682658460407, "train/policy_entropy_max": 2.5946682658460407, "train/policy_entropy_mean": 0.3869817683266269, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5373446519176165, "train/policy_logprob_mag": 7.438384201791552, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38798869484000736, "train/policy_logprob_min": -7.438384201791552, "train/policy_logprob_std": 1.0073868582646053, "train/policy_randomness_mag": 0.9158040334781011, "train/policy_randomness_max": 0.9158040334781011, "train/policy_randomness_mean": 0.13658758056246573, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18965908160640133, "train/post_ent_mag": 54.951745139227974, "train/post_ent_max": 54.951745139227974, "train/post_ent_mean": 41.048255655500625, "train/post_ent_min": 18.686774876382614, "train/post_ent_std": 5.576080183188121, "train/prior_ent_mag": 76.4476990169949, "train/prior_ent_max": 76.4476990169949, "train/prior_ent_mean": 46.11373986138238, "train/prior_ent_min": 28.298628727595013, "train/prior_ent_std": 7.33516487148073, "train/rep_loss_mean": 5.051896578735775, "train/rep_loss_std": 8.740874389807383, "train/reward_avg": 0.03403862819282545, "train/reward_loss_mean": 0.05075336449469129, "train/reward_loss_std": 0.20406963945262963, "train/reward_max_data": 1.013888892200258, "train/reward_max_pred": 1.0145912186967, "train/reward_neg_acc": 0.9943936806586053, "train/reward_neg_loss": 0.023372129504827574, "train/reward_pos_acc": 0.9875157392687268, "train/reward_pos_loss": 0.7270383677548833, "train/reward_pred": 0.033880085710229144, "train/reward_rate": 0.0389404296875, "stats/sum_log_reward": 10.100000381469727, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 2.142857142857143, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 12.857142857142858, "stats/max_log_achievement_collect_wood": 9.0, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.14285714285714285, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.7142857142857142, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 4.714285714285714, "stats/max_log_achievement_place_table": 2.5714285714285716, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.3239376289503915, "replay/size": 455404.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.862282189216403e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.259168702594483e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0454738140106, "timer/env.step_count": 1448.0, "timer/env.step_total": 19.01601767539978, "timer/env.step_frac": 0.06337711892027156, "timer/env.step_avg": 0.013132608891850677, "timer/env.step_min": 0.0030858516693115234, "timer/env.step_max": 1.6585991382598877, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.27138781547546387, "timer/replay.add_frac": 0.0009044889497106335, "timer/replay.add_avg": 0.00018742252449962973, "timer/replay.add_min": 7.653236389160156e-05, "timer/replay.add_max": 0.0014088153839111328, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02982926368713379, "timer/logger.write_frac": 9.941580957033224e-05, "timer/logger.write_avg": 0.02982926368713379, "timer/logger.write_min": 0.02982926368713379, "timer/logger.write_max": 0.02982926368713379, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 10.47598910331726, "timer/agent.policy_frac": 0.034914671333489335, "timer/agent.policy_avg": 0.007234799104500871, "timer/agent.policy_min": 0.005664348602294922, "timer/agent.policy_max": 0.013300418853759766, "timer/dataset_count": 724.0, "timer/dataset_total": 0.06771302223205566, "timer/dataset_frac": 0.00022567586629894967, "timer/dataset_avg": 9.352627380118185e-05, "timer/dataset_min": 7.104873657226562e-05, "timer/dataset_max": 0.0002219676971435547, "timer/agent.train_count": 724.0, "timer/agent.train_total": 269.4763460159302, "timer/agent.train_frac": 0.8981183504970005, "timer/agent.train_avg": 0.37220489781205823, "timer/agent.train_min": 0.36638832092285156, "timer/agent.train_max": 0.3850839138031006, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2242724895477295, "timer/agent.report_frac": 0.0007474616653832593, "timer/agent.report_avg": 0.2242724895477295, "timer/agent.report_min": 0.2242724895477295, "timer/agent.report_max": 0.2242724895477295, "fps": 4.825858027768129}
{"step": 455467, "episode/length": 241.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 10.100000031292439, "episode/reward_rate": 0.0371900826446281}
{"step": 455697, "episode/length": 229.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.05217391304347826}
{"step": 455904, "episode/length": 206.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 11.899999991059303, "episode/reward_rate": 0.057971014492753624}
{"step": 456083, "episode/length": 178.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.055865921787709494}
{"step": 456250, "episode/length": 166.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.0658682634730539}
{"step": 456438, "episode/length": 187.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.5, "episode/reward_rate": 0.06382978723404255}
{"step": 456614, "episode/length": 175.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 11.299999982118607, "episode/reward_rate": 0.0625}
{"step": 456677, "episode/length": 62.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.09523809523809523}
{"step": 456883, "stats/sum_log_reward": 8.975000381469727, "stats/max_log_achievement_collect_coal": 0.25, "stats/max_log_achievement_collect_drink": 2.875, "stats/max_log_achievement_collect_sapling": 1.375, "stats/max_log_achievement_collect_stone": 13.75, "stats/max_log_achievement_collect_wood": 7.0, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 0.375, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 2.125, "stats/max_log_achievement_place_plant": 1.125, "stats/max_log_achievement_place_stone": 4.125, "stats/max_log_achievement_place_table": 1.75, "stats/max_log_achievement_wake_up": 1.125, "stats/mean_log_entropy": 0.3692325670272112, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.555814501265405, "train/action_min": 0.0, "train/action_std": 3.411187877117748, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.043455102756409576, "train/actor_opt_grad_steps": 227540.0, "train/actor_opt_loss": -14.932866413828354, "train/adv_mag": 0.43552805210503054, "train/adv_max": 0.38274199232249195, "train/adv_mean": 0.0011097093866596942, "train/adv_min": -0.38431828290643827, "train/adv_std": 0.049492555499916345, "train/cont_avg": 0.9948696082746479, "train/cont_loss_mean": 0.00012739768990614644, "train/cont_loss_std": 0.004053808889207784, "train/cont_neg_acc": 0.9976525827192925, "train/cont_neg_loss": 0.020131255927116027, "train/cont_pos_acc": 0.9999861146362734, "train/cont_pos_loss": 1.1054218644921587e-05, "train/cont_pred": 0.9948780419121326, "train/cont_rate": 0.9948696082746479, "train/dyn_loss_mean": 4.959200422528764, "train/dyn_loss_std": 8.661415791847336, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0433659696243178, "train/extr_critic_critic_opt_grad_steps": 227540.0, "train/extr_critic_critic_opt_loss": 16254.839334837148, "train/extr_critic_mag": 9.869360641694405, "train/extr_critic_max": 9.869360641694405, "train/extr_critic_mean": 2.537903948568962, "train/extr_critic_min": -0.5205215669014085, "train/extr_critic_std": 2.399186997346475, "train/extr_return_normed_mag": 1.418770645705747, "train/extr_return_normed_max": 1.418770645705747, "train/extr_return_normed_mean": 0.36018515619593605, "train/extr_return_normed_min": -0.08899230389317996, "train/extr_return_normed_std": 0.3208433272133411, "train/extr_return_rate": 0.7355909280374017, "train/extr_return_raw_mag": 10.540426093088069, "train/extr_return_raw_max": 10.540426093088069, "train/extr_return_raw_mean": 2.5463138365409743, "train/extr_return_raw_min": -0.845693482479579, "train/extr_return_raw_std": 2.4232142827880216, "train/extr_reward_mag": 1.0450406410324742, "train/extr_reward_max": 1.0450406410324742, "train/extr_reward_mean": 0.051156407510730584, "train/extr_reward_min": -0.6462918654294081, "train/extr_reward_std": 0.21832075778027654, "train/image_loss_mean": 2.899465411481723, "train/image_loss_std": 7.721010517066633, "train/model_loss_mean": 5.924374331890697, "train/model_loss_std": 11.885086287914866, "train/model_opt_grad_norm": 30.628312433269663, "train/model_opt_grad_steps": 227358.1971830986, "train/model_opt_loss": 8937.268004511443, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1496.4788732394366, "train/policy_entropy_mag": 2.591893175957908, "train/policy_entropy_max": 2.591893175957908, "train/policy_entropy_mean": 0.3941359922919475, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5523835601101459, "train/policy_logprob_mag": 7.438384203843667, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39396530305835564, "train/policy_logprob_min": -7.438384203843667, "train/policy_logprob_std": 1.0125359321983767, "train/policy_randomness_mag": 0.9148245487414616, "train/policy_randomness_max": 0.9148245487414616, "train/policy_randomness_mean": 0.13911270958856797, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19496715824368974, "train/post_ent_mag": 54.88927223313023, "train/post_ent_max": 54.88927223313023, "train/post_ent_mean": 41.117231073513835, "train/post_ent_min": 18.799336997556015, "train/post_ent_std": 5.5618683318017235, "train/prior_ent_mag": 76.37327006165411, "train/prior_ent_max": 76.37327006165411, "train/prior_ent_mean": 46.071839829565775, "train/prior_ent_min": 28.67807458152234, "train/prior_ent_std": 7.278876324774513, "train/rep_loss_mean": 4.959200422528764, "train/rep_loss_std": 8.661415791847336, "train/reward_avg": 0.03383720249042545, "train/reward_loss_mean": 0.04926135467076805, "train/reward_loss_std": 0.20224509986353592, "train/reward_max_data": 1.016901412480314, "train/reward_max_pred": 1.0160243662310318, "train/reward_neg_acc": 0.9948408444162825, "train/reward_neg_loss": 0.022041992612288033, "train/reward_pos_acc": 0.9855996370315552, "train/reward_pos_loss": 0.7325810689321706, "train/reward_pred": 0.03358200210815584, "train/reward_rate": 0.03840228873239437, "replay/size": 456820.0, "replay/inserts": 1416.0, "replay/samples": 11328.0, "replay/insert_wait_avg": 3.775634334585761e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2527498821754241e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1854681968689, "timer/env.step_count": 1416.0, "timer/env.step_total": 23.011035680770874, "timer/env.step_frac": 0.07665606139761462, "timer/env.step_avg": 0.01625073141297378, "timer/env.step_min": 0.0031020641326904297, "timer/env.step_max": 2.668846845626831, "timer/replay.add_count": 1416.0, "timer/replay.add_total": 0.2815515995025635, "timer/replay.add_frac": 0.0009379254805163157, "timer/replay.add_avg": 0.00019883587535491772, "timer/replay.add_min": 7.081031799316406e-05, "timer/replay.add_max": 0.0018703937530517578, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028306007385253906, "timer/logger.write_frac": 9.42950621670005e-05, "timer/logger.write_avg": 0.028306007385253906, "timer/logger.write_min": 0.028306007385253906, "timer/logger.write_max": 0.028306007385253906, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.000385284423828125, "timer/checkpoint.save_frac": 1.283487925456292e-06, "timer/checkpoint.save_avg": 0.000385284423828125, "timer/checkpoint.save_min": 0.000385284423828125, "timer/checkpoint.save_max": 0.000385284423828125, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4457168579101562, "timer/agent.save_frac": 0.00481607876155424, "timer/agent.save_avg": 1.4457168579101562, "timer/agent.save_min": 1.4457168579101562, "timer/agent.save_max": 1.4457168579101562, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.343292236328125e-05, "timer/replay.save_frac": 2.4462517391122396e-07, "timer/replay.save_avg": 7.343292236328125e-05, "timer/replay.save_min": 7.343292236328125e-05, "timer/replay.save_max": 7.343292236328125e-05, "timer/agent.policy_count": 1416.0, "timer/agent.policy_total": 12.395634889602661, "timer/agent.policy_frac": 0.04129325434725342, "timer/agent.policy_avg": 0.008753979441809789, "timer/agent.policy_min": 0.00566411018371582, "timer/agent.policy_max": 1.4364817142486572, "timer/dataset_count": 708.0, "timer/dataset_total": 0.0650930404663086, "timer/dataset_frac": 0.0002168427434455921, "timer/dataset_avg": 9.193932269252627e-05, "timer/dataset_min": 6.556510925292969e-05, "timer/dataset_max": 0.00026917457580566406, "timer/agent.train_count": 708.0, "timer/agent.train_total": 263.6905643939972, "timer/agent.train_frac": 0.8784254813462941, "timer/agent.train_avg": 0.37244429999152145, "timer/agent.train_min": 0.36566948890686035, "timer/agent.train_max": 0.47445082664489746, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22130203247070312, "timer/agent.report_frac": 0.0007372176734603552, "timer/agent.report_avg": 0.22130203247070312, "timer/agent.report_min": 0.22130203247070312, "timer/agent.report_max": 0.22130203247070312, "fps": 4.717018829248867}
{"step": 456889, "episode/length": 211.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.06132075471698113}
{"step": 457056, "episode/length": 166.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.100000031292439, "episode/reward_rate": 0.0658682634730539}
{"step": 457231, "episode/length": 174.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06857142857142857}
{"step": 457424, "episode/length": 192.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.046632124352331605}
{"step": 457690, "episode/length": 265.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.900000028312206, "episode/reward_rate": 0.03383458646616541}
{"step": 457891, "episode/length": 200.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.099999994039536, "episode/reward_rate": 0.04975124378109453}
{"step": 458064, "episode/length": 172.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.30000001937151, "episode/reward_rate": 0.04046242774566474}
{"step": 458321, "episode/length": 256.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 15.500000014901161, "episode/reward_rate": 0.054474708171206226}
{"step": 458325, "stats/sum_log_reward": 9.475000321865082, "stats/max_log_achievement_collect_coal": 0.625, "stats/max_log_achievement_collect_drink": 2.5, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 10.0, "stats/max_log_achievement_collect_wood": 9.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.375, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.875, "stats/max_log_achievement_make_wood_sword": 0.75, "stats/max_log_achievement_place_furnace": 1.25, "stats/max_log_achievement_place_plant": 1.375, "stats/max_log_achievement_place_stone": 4.0, "stats/max_log_achievement_place_table": 2.25, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.35282026790082455, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.605892605251736, "train/action_min": 0.0, "train/action_std": 3.4567157328128815, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0449342781988283, "train/actor_opt_grad_steps": 228255.0, "train/actor_opt_loss": -13.06145308415095, "train/adv_mag": 0.45990019539992016, "train/adv_max": 0.41749778389930725, "train/adv_mean": 0.0025813276473248456, "train/adv_min": -0.37796567918525803, "train/adv_std": 0.051170703075412244, "train/cont_avg": 0.9944661458333334, "train/cont_loss_mean": 2.145157161967701e-05, "train/cont_loss_std": 0.0005812832716256051, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0006238998845920681, "train/cont_pos_acc": 0.9999999793039428, "train/cont_pos_loss": 1.735698217113995e-05, "train/cont_pred": 0.9944549798965454, "train/cont_rate": 0.9944661458333334, "train/dyn_loss_mean": 5.0085765851868524, "train/dyn_loss_std": 8.632044004069435, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0007576164272096, "train/extr_critic_critic_opt_grad_steps": 228255.0, "train/extr_critic_critic_opt_loss": 16247.959147135416, "train/extr_critic_mag": 9.797253754403856, "train/extr_critic_max": 9.797253754403856, "train/extr_critic_mean": 2.463072912560569, "train/extr_critic_min": -0.5256297224097781, "train/extr_critic_std": 2.385724122325579, "train/extr_return_normed_mag": 1.4601166248321533, "train/extr_return_normed_max": 1.4601166248321533, "train/extr_return_normed_mean": 0.3632502102603515, "train/extr_return_normed_min": -0.0900243159590496, "train/extr_return_normed_std": 0.33050692081451416, "train/extr_return_rate": 0.7206335390607516, "train/extr_return_raw_mag": 10.507826964060465, "train/extr_return_raw_max": 10.507826964060465, "train/extr_return_raw_mean": 2.4819729957315655, "train/extr_return_raw_min": -0.8343793509735001, "train/extr_return_raw_std": 2.418296209639973, "train/extr_reward_mag": 1.0497790045208402, "train/extr_reward_max": 1.0497790045208402, "train/extr_reward_mean": 0.05078452473713292, "train/extr_reward_min": -0.6380079868766997, "train/extr_reward_std": 0.2189292253719436, "train/image_loss_mean": 3.101084124710825, "train/image_loss_std": 8.014869524372948, "train/model_loss_mean": 6.15655720896191, "train/model_loss_std": 12.112562470965916, "train/model_opt_grad_norm": 30.349197334713406, "train/model_opt_grad_steps": 228073.0, "train/model_opt_loss": 10874.733242458768, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1753.4722222222222, "train/policy_entropy_mag": 2.59449146522416, "train/policy_entropy_max": 2.59449146522416, "train/policy_entropy_mean": 0.4079018843670686, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5644891295168135, "train/policy_logprob_mag": 7.438384228282505, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40798701387312675, "train/policy_logprob_min": -7.438384228282505, "train/policy_logprob_std": 1.022543364100986, "train/policy_randomness_mag": 0.9157416307263904, "train/policy_randomness_max": 0.9157416307263904, "train/policy_randomness_mean": 0.14397146490712961, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19923989267812836, "train/post_ent_mag": 54.95720026228163, "train/post_ent_max": 54.95720026228163, "train/post_ent_mean": 41.10480880737305, "train/post_ent_min": 19.001255061891342, "train/post_ent_std": 5.554118719365862, "train/prior_ent_mag": 76.39503235287137, "train/prior_ent_max": 76.39503235287137, "train/prior_ent_mean": 46.136592388153076, "train/prior_ent_min": 28.68824126985338, "train/prior_ent_std": 7.326499846246508, "train/rep_loss_mean": 5.0085765851868524, "train/rep_loss_std": 8.632044004069435, "train/reward_avg": 0.03314344595289893, "train/reward_loss_mean": 0.050305746547463864, "train/reward_loss_std": 0.1992034881065289, "train/reward_max_data": 1.0236111167404387, "train/reward_max_pred": 1.0226296666595671, "train/reward_neg_acc": 0.9943777223428091, "train/reward_neg_loss": 0.023721523220754333, "train/reward_pos_acc": 0.9923043747742971, "train/reward_pos_loss": 0.7193837496969435, "train/reward_pred": 0.03296170309962084, "train/reward_rate": 0.0382080078125, "replay/size": 458262.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.7894004260948064e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2457246753941298e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0720372200012, "timer/env.step_count": 1442.0, "timer/env.step_total": 20.374369382858276, "timer/env.step_frac": 0.0678982606030717, "timer/env.step_avg": 0.014129243677432924, "timer/env.step_min": 0.00299835205078125, "timer/env.step_max": 1.6530461311340332, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.25908780097961426, "timer/replay.add_frac": 0.0008634186756617415, "timer/replay.add_avg": 0.00017967253882081433, "timer/replay.add_min": 6.961822509765625e-05, "timer/replay.add_max": 0.0011227130889892578, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02884221076965332, "timer/logger.write_frac": 9.611762241113899e-05, "timer/logger.write_avg": 0.02884221076965332, "timer/logger.write_min": 0.02884221076965332, "timer/logger.write_max": 0.02884221076965332, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 10.376999855041504, "timer/agent.policy_frac": 0.03458169561942051, "timer/agent.policy_avg": 0.007196255100583567, "timer/agent.policy_min": 0.00568699836730957, "timer/agent.policy_max": 0.015275955200195312, "timer/dataset_count": 721.0, "timer/dataset_total": 0.06622767448425293, "timer/dataset_frac": 0.0002207059181449065, "timer/dataset_avg": 9.185530441643957e-05, "timer/dataset_min": 7.05718994140625e-05, "timer/dataset_max": 0.00019788742065429688, "timer/agent.train_count": 721.0, "timer/agent.train_total": 268.2709650993347, "timer/agent.train_frac": 0.8940218741629992, "timer/agent.train_avg": 0.3720817823846529, "timer/agent.train_min": 0.36637139320373535, "timer/agent.train_max": 0.383512020111084, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2200336456298828, "timer/agent.report_frac": 0.0007332694098002962, "timer/agent.report_avg": 0.2200336456298828, "timer/agent.report_min": 0.2200336456298828, "timer/agent.report_max": 0.2200336456298828, "fps": 4.805410823742}
{"step": 458506, "episode/length": 184.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.05945945945945946}
{"step": 458670, "episode/length": 163.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.036585365853658534}
{"step": 458819, "episode/length": 148.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.299999997019768, "episode/reward_rate": 0.08053691275167785}
{"step": 459238, "episode/length": 418.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.021479713603818614}
{"step": 459558, "episode/length": 319.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.040625}
{"step": 459789, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.567937145494435, "train/action_min": 0.0, "train/action_std": 3.4122119995012676, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04555864479035547, "train/actor_opt_grad_steps": 228980.0, "train/actor_opt_loss": -12.315362547766673, "train/adv_mag": 0.46437264223621316, "train/adv_max": 0.4033005727480536, "train/adv_mean": 0.002454071929530808, "train/adv_min": -0.40622723837421365, "train/adv_std": 0.051149360835552216, "train/cont_avg": 0.9941540025684932, "train/cont_loss_mean": 7.489035063396424e-05, "train/cont_loss_std": 0.002286212699473627, "train/cont_neg_acc": 0.9965753424657534, "train/cont_neg_loss": 0.014828656112027378, "train/cont_pos_acc": 0.9999999836699603, "train/cont_pos_loss": 1.5000803801072298e-05, "train/cont_pred": 0.9941581046744569, "train/cont_rate": 0.9941540025684932, "train/dyn_loss_mean": 5.161208629608154, "train/dyn_loss_std": 8.742625216915183, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0284243373021686, "train/extr_critic_critic_opt_grad_steps": 228980.0, "train/extr_critic_critic_opt_loss": 16277.930142337329, "train/extr_critic_mag": 9.821071807652304, "train/extr_critic_max": 9.821071807652304, "train/extr_critic_mean": 2.511634307364895, "train/extr_critic_min": -0.5603041109973437, "train/extr_critic_std": 2.4324980582276434, "train/extr_return_normed_mag": 1.4431097997377997, "train/extr_return_normed_max": 1.4431097997377997, "train/extr_return_normed_mean": 0.3671271800994873, "train/extr_return_normed_min": -0.09665116907594955, "train/extr_return_normed_std": 0.3337582821307117, "train/extr_return_rate": 0.7166613520008244, "train/extr_return_raw_mag": 10.487761262344987, "train/extr_return_raw_max": 10.487761262344987, "train/extr_return_raw_mean": 2.5298066923063094, "train/extr_return_raw_min": -0.8998908914931832, "train/extr_return_raw_std": 2.467914288991118, "train/extr_reward_mag": 1.0514395726870185, "train/extr_reward_max": 1.0514395726870185, "train/extr_reward_mean": 0.05084284841503999, "train/extr_reward_min": -0.7016095298610322, "train/extr_reward_std": 0.2197626820982319, "train/image_loss_mean": 3.2277669155434388, "train/image_loss_std": 7.96974119421554, "train/model_loss_mean": 6.376327939229469, "train/model_loss_std": 12.12548232405153, "train/model_opt_grad_norm": 30.310070416698718, "train/model_opt_grad_steps": 228797.98630136985, "train/model_opt_loss": 16136.879481485445, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2534.246575342466, "train/policy_entropy_mag": 2.592369687067319, "train/policy_entropy_max": 2.592369687067319, "train/policy_entropy_mean": 0.405269469504487, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5592880200033319, "train/policy_logprob_mag": 7.4383842651158165, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40530462971288866, "train/policy_logprob_min": -7.4383842651158165, "train/policy_logprob_std": 1.0202821827914617, "train/policy_randomness_mag": 0.9149927382599817, "train/policy_randomness_max": 0.9149927382599817, "train/policy_randomness_mean": 0.1430423354653463, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19740412578190844, "train/post_ent_mag": 54.7934312167233, "train/post_ent_max": 54.7934312167233, "train/post_ent_mean": 41.14807134131863, "train/post_ent_min": 19.01647043881351, "train/post_ent_std": 5.653412453115803, "train/prior_ent_mag": 76.39614742749357, "train/prior_ent_max": 76.39614742749357, "train/prior_ent_mean": 46.31828825441125, "train/prior_ent_min": 28.469489842245025, "train/prior_ent_std": 7.362053773174547, "train/rep_loss_mean": 5.161208629608154, "train/rep_loss_std": 8.742625216915183, "train/reward_avg": 0.03402183169167336, "train/reward_loss_mean": 0.05176091729982259, "train/reward_loss_std": 0.20355570377552346, "train/reward_max_data": 1.019178086764192, "train/reward_max_pred": 1.0186075968285129, "train/reward_neg_acc": 0.9948072564111997, "train/reward_neg_loss": 0.023691325295359306, "train/reward_pos_acc": 0.9872575263454489, "train/reward_pos_loss": 0.7360402566112884, "train/reward_pred": 0.0335319382329918, "train/reward_rate": 0.03931667380136986, "stats/sum_log_reward": 9.100000095367431, "stats/max_log_achievement_collect_coal": 0.2, "stats/max_log_achievement_collect_drink": 7.8, "stats/max_log_achievement_collect_sapling": 1.8, "stats/max_log_achievement_collect_stone": 18.0, "stats/max_log_achievement_collect_wood": 6.6, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.2, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.8, "stats/max_log_achievement_make_wood_sword": 0.8, "stats/max_log_achievement_place_furnace": 1.8, "stats/max_log_achievement_place_plant": 1.8, "stats/max_log_achievement_place_stone": 7.6, "stats/max_log_achievement_place_table": 1.6, "stats/max_log_achievement_wake_up": 1.6, "stats/mean_log_entropy": 0.5517230331897736, "replay/size": 459726.0, "replay/inserts": 1464.0, "replay/samples": 11712.0, "replay/insert_wait_avg": 3.7868491938856783e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2588427692163186e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2909321784973, "timer/env.step_count": 1464.0, "timer/env.step_total": 15.993937253952026, "timer/env.step_frac": 0.05326147259233588, "timer/env.step_avg": 0.010924820528655756, "timer/env.step_min": 0.003032684326171875, "timer/env.step_max": 1.6649138927459717, "timer/replay.add_count": 1464.0, "timer/replay.add_total": 0.26900267601013184, "timer/replay.add_frac": 0.0008958068565661275, "timer/replay.add_avg": 0.00018374499727468022, "timer/replay.add_min": 8.130073547363281e-05, "timer/replay.add_max": 0.0011649131774902344, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030583620071411133, "timer/logger.write_frac": 0.00010184663202960714, "timer/logger.write_avg": 0.030583620071411133, "timer/logger.write_min": 0.030583620071411133, "timer/logger.write_max": 0.030583620071411133, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1464.0, "timer/agent.policy_total": 10.678351163864136, "timer/agent.policy_frac": 0.035560018700520626, "timer/agent.policy_avg": 0.007293955713021951, "timer/agent.policy_min": 0.005751848220825195, "timer/agent.policy_max": 0.015997648239135742, "timer/dataset_count": 732.0, "timer/dataset_total": 0.0672607421875, "timer/dataset_frac": 0.000223985258893929, "timer/dataset_avg": 9.188625981898907e-05, "timer/dataset_min": 6.437301635742188e-05, "timer/dataset_max": 0.00021457672119140625, "timer/agent.train_count": 732.0, "timer/agent.train_total": 272.5503523349762, "timer/agent.train_frac": 0.9076209872796568, "timer/agent.train_avg": 0.37233654690570517, "timer/agent.train_min": 0.3664419651031494, "timer/agent.train_max": 0.3832242488861084, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22420692443847656, "timer/agent.report_frac": 0.000746632350207647, "timer/agent.report_avg": 0.22420692443847656, "timer/agent.report_min": 0.22420692443847656, "timer/agent.report_max": 0.22420692443847656, "fps": 4.8751826907005205}
{"step": 459896, "episode/length": 337.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.03550295857988166}
{"step": 460048, "episode/length": 151.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.05263157894736842}
{"step": 460325, "episode/length": 276.0, "episode/score": 11.100000031292439, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.04693140794223827}
{"step": 460562, "episode/length": 236.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.900000028312206, "episode/reward_rate": 0.029535864978902954}
{"step": 460730, "episode/length": 167.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06547619047619048}
{"step": 460906, "episode/length": 175.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06818181818181818}
{"step": 461221, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.549459669325087, "train/action_min": 0.0, "train/action_std": 3.4006690217389, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.044881951012131244, "train/actor_opt_grad_steps": 229705.0, "train/actor_opt_loss": -13.986688976693484, "train/adv_mag": 0.4491858213312096, "train/adv_max": 0.4222758693827523, "train/adv_mean": 0.001721825196657139, "train/adv_min": -0.3694029152393341, "train/adv_std": 0.05070116169129809, "train/cont_avg": 0.9942898220486112, "train/cont_loss_mean": 2.0718480507911056e-05, "train/cont_loss_std": 0.0005881177754945258, "train/cont_neg_acc": 0.9953703706463178, "train/cont_neg_loss": 0.005062947077463933, "train/cont_pos_acc": 0.999999985926681, "train/cont_pos_loss": 5.371429047132084e-06, "train/cont_pred": 0.9942943735255135, "train/cont_rate": 0.9942898220486112, "train/dyn_loss_mean": 4.877830968962775, "train/dyn_loss_std": 8.607435895336998, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0577393993735313, "train/extr_critic_critic_opt_grad_steps": 229705.0, "train/extr_critic_critic_opt_loss": 16260.850355360242, "train/extr_critic_mag": 9.967507031228807, "train/extr_critic_max": 9.967507031228807, "train/extr_critic_mean": 2.574987447924084, "train/extr_critic_min": -0.5456047207117081, "train/extr_critic_std": 2.460325413280063, "train/extr_return_normed_mag": 1.4556499769290288, "train/extr_return_normed_max": 1.4556499769290288, "train/extr_return_normed_mean": 0.37071001591781777, "train/extr_return_normed_min": -0.09349646636595328, "train/extr_return_normed_std": 0.3334930350797044, "train/extr_return_rate": 0.732961737861236, "train/extr_return_raw_mag": 10.700877745946249, "train/extr_return_raw_max": 10.700877745946249, "train/extr_return_raw_mean": 2.587858277890417, "train/extr_return_raw_min": -0.8847641083929274, "train/extr_return_raw_std": 2.4945506718423633, "train/extr_reward_mag": 1.0481764939096239, "train/extr_reward_max": 1.0481764939096239, "train/extr_reward_mean": 0.0497011573623038, "train/extr_reward_min": -0.6630986250109143, "train/extr_reward_std": 0.2172511476609442, "train/image_loss_mean": 2.915651351213455, "train/image_loss_std": 7.698798371685876, "train/model_loss_mean": 5.893580198287964, "train/model_loss_std": 11.791052222251892, "train/model_opt_grad_norm": 28.646232657962376, "train/model_opt_grad_steps": 229522.0, "train/model_opt_loss": 14733.950507269965, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.57738435599539, "train/policy_entropy_max": 2.57738435599539, "train/policy_entropy_mean": 0.4002489931881428, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5457978972958194, "train/policy_logprob_mag": 7.4383842547734575, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39991616519788903, "train/policy_logprob_min": -7.4383842547734575, "train/policy_logprob_std": 1.0130125797457166, "train/policy_randomness_mag": 0.9097035701076189, "train/policy_randomness_max": 0.9097035701076189, "train/policy_randomness_mean": 0.14127032986531654, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19264270758463276, "train/post_ent_mag": 54.963901943630646, "train/post_ent_max": 54.963901943630646, "train/post_ent_mean": 41.23994731903076, "train/post_ent_min": 19.004847407341003, "train/post_ent_std": 5.611514978938633, "train/prior_ent_mag": 76.3936358557807, "train/prior_ent_max": 76.3936358557807, "train/prior_ent_mean": 46.15124008390639, "train/prior_ent_min": 28.748075485229492, "train/prior_ent_std": 7.242772897084554, "train/rep_loss_mean": 4.877830968962775, "train/rep_loss_std": 8.607435895336998, "train/reward_avg": 0.034159342396176524, "train/reward_loss_mean": 0.051209567269931235, "train/reward_loss_std": 0.20837989387412867, "train/reward_max_data": 1.0166666706403096, "train/reward_max_pred": 1.0133409433894687, "train/reward_neg_acc": 0.9946805677480168, "train/reward_neg_loss": 0.023647070694197383, "train/reward_pos_acc": 0.9875538688566949, "train/reward_pos_loss": 0.7285806743635072, "train/reward_pred": 0.034023823475258216, "train/reward_rate": 0.039143880208333336, "stats/sum_log_reward": 9.43333331743876, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 3.3333333333333335, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 9.5, "stats/max_log_achievement_collect_wood": 9.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 2.5, "stats/max_log_achievement_place_table": 2.8333333333333335, "stats/max_log_achievement_wake_up": 1.8333333333333333, "stats/mean_log_entropy": 0.4893900652726491, "replay/size": 461158.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.7822310484987397e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2614582170987262e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.03296089172363, "timer/env.step_count": 1432.0, "timer/env.step_total": 17.818816423416138, "timer/env.step_frac": 0.059389529638534014, "timer/env.step_avg": 0.012443307558251493, "timer/env.step_min": 0.003116130828857422, "timer/env.step_max": 1.6573419570922852, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.27582669258117676, "timer/replay.add_frac": 0.0009193213031041531, "timer/replay.add_avg": 0.00019261640543378266, "timer/replay.add_min": 7.891654968261719e-05, "timer/replay.add_max": 0.0017080307006835938, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028068065643310547, "timer/logger.write_frac": 9.354994051283517e-05, "timer/logger.write_avg": 0.028068065643310547, "timer/logger.write_min": 0.028068065643310547, "timer/logger.write_max": 0.028068065643310547, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003635883331298828, "timer/checkpoint.save_frac": 1.2118279673315464e-06, "timer/checkpoint.save_avg": 0.0003635883331298828, "timer/checkpoint.save_min": 0.0003635883331298828, "timer/checkpoint.save_max": 0.0003635883331298828, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3406445980072021, "timer/agent.save_frac": 0.0044683243935022725, "timer/agent.save_avg": 1.3406445980072021, "timer/agent.save_min": 1.3406445980072021, "timer/agent.save_max": 1.3406445980072021, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.799003601074219e-05, "timer/replay.save_frac": 3.265975702119774e-07, "timer/replay.save_avg": 9.799003601074219e-05, "timer/replay.save_min": 9.799003601074219e-05, "timer/replay.save_max": 9.799003601074219e-05, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 14.441113710403442, "timer/agent.policy_frac": 0.04813175748252198, "timer/agent.policy_avg": 0.010084576613410225, "timer/agent.policy_min": 0.005677461624145508, "timer/agent.policy_max": 2.7487831115722656, "timer/dataset_count": 716.0, "timer/dataset_total": 0.06691431999206543, "timer/dataset_frac": 0.00022302322982511769, "timer/dataset_avg": 9.345575417886234e-05, "timer/dataset_min": 7.2479248046875e-05, "timer/dataset_max": 0.00019741058349609375, "timer/agent.train_count": 716.0, "timer/agent.train_total": 266.70967507362366, "timer/agent.train_frac": 0.8889345833235778, "timer/agent.train_avg": 0.3724995461922118, "timer/agent.train_min": 0.3652951717376709, "timer/agent.train_max": 0.4144861698150635, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21944212913513184, "timer/agent.report_frac": 0.000731393405854247, "timer/agent.report_avg": 0.21944212913513184, "timer/agent.report_min": 0.21944212913513184, "timer/agent.report_max": 0.21944212913513184, "fps": 4.772741183845269}
{"step": 461329, "episode/length": 422.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.030732860520094562}
{"step": 461562, "episode/length": 232.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.05150214592274678}
{"step": 461726, "episode/length": 163.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06707317073170732}
{"step": 461892, "episode/length": 165.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.0783132530120482}
{"step": 462137, "episode/length": 244.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.044897959183673466}
{"step": 462362, "episode/length": 224.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.057777777777777775}
{"step": 462520, "episode/length": 157.0, "episode/score": 8.099999994039536, "episode/sum_abs_reward": 10.700000062584877, "episode/reward_rate": 0.06329113924050633}
{"step": 462669, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.555474175347222, "train/action_min": 0.0, "train/action_std": 3.42873376276758, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0453952910999457, "train/actor_opt_grad_steps": 230425.0, "train/actor_opt_loss": -12.74997459517585, "train/adv_mag": 0.4416543319821358, "train/adv_max": 0.3762409980926249, "train/adv_mean": 0.0030694613479782776, "train/adv_min": -0.38740369367102784, "train/adv_std": 0.051247685216367245, "train/cont_avg": 0.9945610894097222, "train/cont_loss_mean": 5.7564069916477616e-05, "train/cont_loss_std": 0.001734657524475362, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00038491173410509164, "train/cont_pos_acc": 0.9999863670931922, "train/cont_pos_loss": 5.562350236153356e-05, "train/cont_pred": 0.9945369900928603, "train/cont_rate": 0.9945610894097222, "train/dyn_loss_mean": 5.066532105207443, "train/dyn_loss_std": 8.740434421433342, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.048877394033803, "train/extr_critic_critic_opt_grad_steps": 230425.0, "train/extr_critic_critic_opt_loss": 16552.971232096355, "train/extr_critic_mag": 9.89845093091329, "train/extr_critic_max": 9.89845093091329, "train/extr_critic_mean": 2.543723338180118, "train/extr_critic_min": -0.5705204606056213, "train/extr_critic_std": 2.435368612408638, "train/extr_return_normed_mag": 1.4483053998814688, "train/extr_return_normed_max": 1.4483053998814688, "train/extr_return_normed_mean": 0.3693831269111898, "train/extr_return_normed_min": -0.09654835601233774, "train/extr_return_normed_std": 0.3318808459573322, "train/extr_return_rate": 0.7344148258368174, "train/extr_return_raw_mag": 10.599940684106615, "train/extr_return_raw_max": 10.599940684106615, "train/extr_return_raw_mean": 2.566578358411789, "train/extr_return_raw_min": -0.9026089732845625, "train/extr_return_raw_std": 2.4712098009056516, "train/extr_reward_mag": 1.052831123272578, "train/extr_reward_max": 1.052831123272578, "train/extr_reward_mean": 0.05199391974343194, "train/extr_reward_min": -0.6888012770149443, "train/extr_reward_std": 0.2208059291458792, "train/image_loss_mean": 2.99722448653645, "train/image_loss_std": 8.038107388549381, "train/model_loss_mean": 6.088873240682814, "train/model_loss_std": 12.222257792949677, "train/model_opt_grad_norm": 29.798026716205435, "train/model_opt_grad_steps": 230241.54166666666, "train/model_opt_loss": 17719.324557834203, "train/model_opt_model_opt_grad_overflow": 0.013888888888888888, "train/model_opt_model_opt_grad_scale": 2916.6666666666665, "train/policy_entropy_mag": 2.590871741374334, "train/policy_entropy_max": 2.590871741374334, "train/policy_entropy_mean": 0.395518031799131, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5535670005612903, "train/policy_logprob_mag": 7.43838424815072, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39528581044740146, "train/policy_logprob_min": -7.43838424815072, "train/policy_logprob_std": 1.0120846993393369, "train/policy_randomness_mag": 0.9144640266895294, "train/policy_randomness_max": 0.9144640266895294, "train/policy_randomness_mean": 0.13960050770805943, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19538485817611217, "train/post_ent_mag": 55.1555495791965, "train/post_ent_max": 55.1555495791965, "train/post_ent_mean": 41.145969761742485, "train/post_ent_min": 18.584881014294094, "train/post_ent_std": 5.610639201270209, "train/prior_ent_mag": 76.4828085369534, "train/prior_ent_max": 76.4828085369534, "train/prior_ent_mean": 46.19243023130629, "train/prior_ent_min": 28.061463408999973, "train/prior_ent_std": 7.336052861478594, "train/rep_loss_mean": 5.066532105207443, "train/rep_loss_std": 8.740434421433342, "train/reward_avg": 0.03566080704331398, "train/reward_loss_mean": 0.051671867465807333, "train/reward_loss_std": 0.20759171268178356, "train/reward_max_data": 1.022222227520413, "train/reward_max_pred": 1.022082183096144, "train/reward_neg_acc": 0.9945722197492918, "train/reward_neg_loss": 0.023048068293266825, "train/reward_pos_acc": 0.9892152059409354, "train/reward_pos_loss": 0.7282641372746892, "train/reward_pred": 0.035441579659365945, "train/reward_rate": 0.04050021701388889, "stats/sum_log_reward": 10.814285959516253, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 2.2857142857142856, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 15.714285714285714, "stats/max_log_achievement_collect_wood": 12.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5714285714285714, "stats/max_log_achievement_eat_cow": 0.42857142857142855, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.2857142857142857, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2857142857142858, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 6.285714285714286, "stats/max_log_achievement_place_table": 3.2857142857142856, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.35087305094514576, "replay/size": 462606.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.717222266434306e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2516152134257785e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.10168290138245, "timer/env.step_count": 1448.0, "timer/env.step_total": 19.18785285949707, "timer/env.step_frac": 0.06393783824865275, "timer/env.step_avg": 0.013251279599100187, "timer/env.step_min": 0.002900838851928711, "timer/env.step_max": 1.7113397121429443, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.26236653327941895, "timer/replay.add_frac": 0.0008742587870313151, "timer/replay.add_avg": 0.00018119235723716777, "timer/replay.add_min": 7.534027099609375e-05, "timer/replay.add_max": 0.0012919902801513672, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0309598445892334, "timer/logger.write_frac": 0.0001031645150734034, "timer/logger.write_avg": 0.0309598445892334, "timer/logger.write_min": 0.0309598445892334, "timer/logger.write_max": 0.0309598445892334, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 10.448134899139404, "timer/agent.policy_frac": 0.03481531592267947, "timer/agent.policy_avg": 0.00721556277564876, "timer/agent.policy_min": 0.0056400299072265625, "timer/agent.policy_max": 0.020771265029907227, "timer/dataset_count": 724.0, "timer/dataset_total": 0.0665287971496582, "timer/dataset_frac": 0.0002216875177321831, "timer/dataset_avg": 9.189060379787044e-05, "timer/dataset_min": 6.175041198730469e-05, "timer/dataset_max": 0.00019407272338867188, "timer/agent.train_count": 724.0, "timer/agent.train_total": 269.4104690551758, "timer/agent.train_frac": 0.8977306173378167, "timer/agent.train_avg": 0.3721139075347732, "timer/agent.train_min": 0.3657515048980713, "timer/agent.train_max": 0.384415864944458, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22115039825439453, "timer/agent.report_frac": 0.000736918220905371, "timer/agent.report_avg": 0.22115039825439453, "timer/agent.report_min": 0.22115039825439453, "timer/agent.report_max": 0.22115039825439453, "fps": 4.824952743885607}
{"step": 462678, "episode/length": 157.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.06962025316455696}
{"step": 462857, "episode/length": 178.0, "episode/score": 11.099999971687794, "episode/sum_abs_reward": 13.500000037252903, "episode/reward_rate": 0.07262569832402235}
{"step": 463018, "episode/length": 160.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.07453416149068323}
{"step": 463212, "episode/length": 193.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.05670103092783505}
{"step": 463445, "episode/length": 232.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.05150214592274678}
{"step": 463590, "episode/length": 144.0, "episode/score": 10.099999964237213, "episode/sum_abs_reward": 11.699999988079071, "episode/reward_rate": 0.07586206896551724}
{"step": 463808, "episode/length": 217.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.05963302752293578}
{"step": 464001, "episode/length": 192.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.06217616580310881}
{"step": 464107, "stats/sum_log_reward": 10.850000381469727, "stats/max_log_achievement_collect_coal": 1.25, "stats/max_log_achievement_collect_drink": 2.75, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 13.625, "stats/max_log_achievement_collect_wood": 9.25, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.625, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.125, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.125, "stats/max_log_achievement_place_plant": 1.375, "stats/max_log_achievement_place_stone": 4.625, "stats/max_log_achievement_place_table": 2.125, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.33012825064361095, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.551947699652778, "train/action_min": 0.0, "train/action_std": 3.4098495774798923, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0449063662543065, "train/actor_opt_grad_steps": 231145.0, "train/actor_opt_loss": -12.221849272648493, "train/adv_mag": 0.41417280460397404, "train/adv_max": 0.37579211178753114, "train/adv_mean": 0.003160314773089744, "train/adv_min": -0.36015240020222133, "train/adv_std": 0.0513673708256748, "train/cont_avg": 0.9949001736111112, "train/cont_loss_mean": 1.892948588870051e-05, "train/cont_loss_std": 0.0005582749068003699, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0005105715149511525, "train/cont_pos_acc": 0.9999863555034002, "train/cont_pos_loss": 1.7471852493776572e-05, "train/cont_pred": 0.9948895110024346, "train/cont_rate": 0.9949001736111112, "train/dyn_loss_mean": 5.101201395193736, "train/dyn_loss_std": 8.712401654985216, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0561341899964545, "train/extr_critic_critic_opt_grad_steps": 231145.0, "train/extr_critic_critic_opt_loss": 16594.717447916668, "train/extr_critic_mag": 10.060359530978733, "train/extr_critic_max": 10.060359530978733, "train/extr_critic_mean": 2.5589152210288577, "train/extr_critic_min": -0.5480989168087641, "train/extr_critic_std": 2.464521828624937, "train/extr_return_normed_mag": 1.453053245941798, "train/extr_return_normed_max": 1.453053245941798, "train/extr_return_normed_mean": 0.36407903726730084, "train/extr_return_normed_min": -0.08722710676698221, "train/extr_return_normed_std": 0.3298926332758533, "train/extr_return_rate": 0.7234330177307129, "train/extr_return_raw_mag": 10.847007234891256, "train/extr_return_raw_max": 10.847007234891256, "train/extr_return_raw_mean": 2.5828638209236994, "train/extr_return_raw_min": -0.8431068865789307, "train/extr_return_raw_std": 2.5039090149932437, "train/extr_reward_mag": 1.0464378462897406, "train/extr_reward_max": 1.0464378462897406, "train/extr_reward_mean": 0.052823012229055166, "train/extr_reward_min": -0.6664724515544044, "train/extr_reward_std": 0.2222474885897504, "train/image_loss_mean": 3.182063736849361, "train/image_loss_std": 8.240239779154459, "train/model_loss_mean": 6.292367392116123, "train/model_loss_std": 12.390423032972548, "train/model_opt_grad_norm": 32.5243603653378, "train/model_opt_grad_steps": 230960.83333333334, "train/model_opt_loss": 14354.224941677518, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2291.6666666666665, "train/policy_entropy_mag": 2.617945830027262, "train/policy_entropy_max": 2.617945830027262, "train/policy_entropy_mean": 0.4104432695441776, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5670514677961668, "train/policy_logprob_mag": 7.43838424815072, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4108368667463462, "train/policy_logprob_min": -7.43838424815072, "train/policy_logprob_std": 1.0255704041984346, "train/policy_randomness_mag": 0.9240199906958474, "train/policy_randomness_max": 0.9240199906958474, "train/policy_randomness_mean": 0.1448684606908096, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20014428419785368, "train/post_ent_mag": 55.21400409274631, "train/post_ent_max": 55.21400409274631, "train/post_ent_mean": 41.1581769519382, "train/post_ent_min": 18.845624870724148, "train/post_ent_std": 5.61223167181015, "train/prior_ent_mag": 76.39365990956624, "train/prior_ent_max": 76.39365990956624, "train/prior_ent_mean": 46.23957120047675, "train/prior_ent_min": 28.380022366841633, "train/prior_ent_std": 7.324667069647047, "train/rep_loss_mean": 5.101201395193736, "train/rep_loss_std": 8.712401654985216, "train/reward_avg": 0.034841580031853586, "train/reward_loss_mean": 0.04956386714345879, "train/reward_loss_std": 0.20159053885274464, "train/reward_max_data": 1.0263888951804903, "train/reward_max_pred": 1.0242505570252736, "train/reward_neg_acc": 0.994988782538308, "train/reward_neg_loss": 0.02161603463658442, "train/reward_pos_acc": 0.9873747643497255, "train/reward_pos_loss": 0.7330564922756619, "train/reward_pred": 0.03450692604140689, "train/reward_rate": 0.039374457465277776, "replay/size": 464044.0, "replay/inserts": 1438.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.849017603506796e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2729612278838814e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.28322529792786, "timer/env.step_count": 1438.0, "timer/env.step_total": 20.717838764190674, "timer/env.step_frac": 0.06899432608543266, "timer/env.step_avg": 0.014407398306113125, "timer/env.step_min": 0.003204345703125, "timer/env.step_max": 1.7348337173461914, "timer/replay.add_count": 1438.0, "timer/replay.add_total": 0.27794575691223145, "timer/replay.add_frac": 0.0009256120005919939, "timer/replay.add_avg": 0.00019328633999459767, "timer/replay.add_min": 7.200241088867188e-05, "timer/replay.add_max": 0.0009512901306152344, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028400897979736328, "timer/logger.write_frac": 9.458036808935365e-05, "timer/logger.write_avg": 0.028400897979736328, "timer/logger.write_min": 0.028400897979736328, "timer/logger.write_max": 0.028400897979736328, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1438.0, "timer/agent.policy_total": 10.588629961013794, "timer/agent.policy_frac": 0.03526214276707671, "timer/agent.policy_avg": 0.007363442253834349, "timer/agent.policy_min": 0.005708217620849609, "timer/agent.policy_max": 0.01846623420715332, "timer/dataset_count": 719.0, "timer/dataset_total": 0.06829071044921875, "timer/dataset_frac": 0.00022742099689872352, "timer/dataset_avg": 9.498012579863526e-05, "timer/dataset_min": 7.081031799316406e-05, "timer/dataset_max": 0.00020456314086914062, "timer/agent.train_count": 719.0, "timer/agent.train_total": 267.88581943511963, "timer/agent.train_frac": 0.8921105039062207, "timer/agent.train_avg": 0.37258111187082005, "timer/agent.train_min": 0.36560869216918945, "timer/agent.train_max": 0.3829782009124756, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22240400314331055, "timer/agent.report_frac": 0.000740647443501551, "timer/agent.report_avg": 0.22240400314331055, "timer/agent.report_min": 0.22240400314331055, "timer/agent.report_max": 0.22240400314331055, "fps": 4.7887154920353}
{"step": 464392, "episode/length": 390.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 14.500000074505806, "episode/reward_rate": 0.030690537084398978}
{"step": 464593, "episode/length": 200.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.05472636815920398}
{"step": 464795, "episode/length": 201.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.039603960396039604}
{"step": 464984, "episode/length": 188.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.05291005291005291}
{"step": 465044, "episode/length": 59.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.300000041723251, "episode/reward_rate": 0.11666666666666667}
{"step": 465240, "episode/length": 195.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.07142857142857142}
{"step": 465421, "episode/length": 180.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.06629834254143646}
{"step": 465525, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.601314920774648, "train/action_min": 0.0, "train/action_std": 3.398034243516519, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04402919837706525, "train/actor_opt_grad_steps": 231860.0, "train/actor_opt_loss": -14.410160014327143, "train/adv_mag": 0.48177177721345926, "train/adv_max": 0.38665246795600566, "train/adv_mean": 0.001720463772715089, "train/adv_min": -0.43957318638412046, "train/adv_std": 0.04906031998320365, "train/cont_avg": 0.9946632922535211, "train/cont_loss_mean": 8.547448441786272e-05, "train/cont_loss_std": 0.0021812803346865045, "train/cont_neg_acc": 0.995171027284273, "train/cont_neg_loss": 0.009836693537293504, "train/cont_pos_acc": 0.9999861322658162, "train/cont_pos_loss": 2.3709990210898493e-05, "train/cont_pred": 0.9946700452079236, "train/cont_rate": 0.9946632922535211, "train/dyn_loss_mean": 5.093494885404345, "train/dyn_loss_std": 8.71649816674246, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0521732157384847, "train/extr_critic_critic_opt_grad_steps": 231860.0, "train/extr_critic_critic_opt_loss": 16366.537769586268, "train/extr_critic_mag": 10.019479241169675, "train/extr_critic_max": 10.019479241169675, "train/extr_critic_mean": 2.4543397611295674, "train/extr_critic_min": -0.5370085256200441, "train/extr_critic_std": 2.430846226047462, "train/extr_return_normed_mag": 1.4417757635385218, "train/extr_return_normed_max": 1.4417757635385218, "train/extr_return_normed_mean": 0.3513873435661826, "train/extr_return_normed_min": -0.091125507117577, "train/extr_return_normed_std": 0.3254398145306278, "train/extr_return_rate": 0.7222436540563342, "train/extr_return_raw_mag": 10.707473472810127, "train/extr_return_raw_max": 10.707473472810127, "train/extr_return_raw_mean": 2.46735267572, "train/extr_return_raw_min": -0.8764298440704883, "train/extr_return_raw_std": 2.4593736839966036, "train/extr_reward_mag": 1.0513506808751065, "train/extr_reward_max": 1.0513506808751065, "train/extr_reward_mean": 0.04934061932521806, "train/extr_reward_min": -0.7000719862924495, "train/extr_reward_std": 0.21519124843704868, "train/image_loss_mean": 3.265980208423776, "train/image_loss_std": 8.183301918943163, "train/model_loss_mean": 6.371299790664458, "train/model_loss_std": 12.341788439683512, "train/model_opt_grad_norm": 25.5874877311814, "train/model_opt_grad_steps": 231675.0, "train/model_opt_loss": 7964.124731789173, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.5997935214512786, "train/policy_entropy_max": 2.5997935214512786, "train/policy_entropy_mean": 0.42571670635485315, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5853247436839091, "train/policy_logprob_mag": 7.4383842172757, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.42512430964221415, "train/policy_logprob_min": -7.4383842172757, "train/policy_logprob_std": 1.0336126819462843, "train/policy_randomness_mag": 0.917613020245458, "train/policy_randomness_max": 0.917613020245458, "train/policy_randomness_mean": 0.15025931502312, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20659394866563904, "train/post_ent_mag": 54.99737876569721, "train/post_ent_max": 54.99737876569721, "train/post_ent_mean": 41.10431789344465, "train/post_ent_min": 18.79883770203926, "train/post_ent_std": 5.663855646697568, "train/prior_ent_mag": 76.51433058187995, "train/prior_ent_max": 76.51433058187995, "train/prior_ent_mean": 46.190274198290325, "train/prior_ent_min": 28.348963697191696, "train/prior_ent_std": 7.316242298609774, "train/rep_loss_mean": 5.093494885404345, "train/rep_loss_std": 8.71649816674246, "train/reward_avg": 0.03239849217655793, "train/reward_loss_mean": 0.04913715708633544, "train/reward_loss_std": 0.20039877526357142, "train/reward_max_data": 1.015492961440288, "train/reward_max_pred": 1.0157961744657704, "train/reward_neg_acc": 0.9949079390982507, "train/reward_neg_loss": 0.02270189684514009, "train/reward_pos_acc": 0.98924548609156, "train/reward_pos_loss": 0.7284873581268418, "train/reward_pred": 0.0321886923269067, "train/reward_rate": 0.03731569102112676, "stats/sum_log_reward": 9.67142881665911, "stats/max_log_achievement_collect_coal": 0.8571428571428571, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 11.714285714285714, "stats/max_log_achievement_collect_wood": 9.0, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.5714285714285714, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.7142857142857142, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 2.4285714285714284, "stats/max_log_achievement_place_table": 2.2857142857142856, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.32688879540988375, "replay/size": 465462.0, "replay/inserts": 1418.0, "replay/samples": 11344.0, "replay/insert_wait_avg": 3.861103138567194e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3257830032004287e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.14614486694336, "timer/env.step_count": 1418.0, "timer/env.step_total": 21.237978219985962, "timer/env.step_frac": 0.07075879061981918, "timer/env.step_avg": 0.014977417644559917, "timer/env.step_min": 0.003297567367553711, "timer/env.step_max": 2.123913049697876, "timer/replay.add_count": 1418.0, "timer/replay.add_total": 0.27808475494384766, "timer/replay.add_frac": 0.0009264978401342598, "timer/replay.add_avg": 0.0001961105465048291, "timer/replay.add_min": 7.867813110351562e-05, "timer/replay.add_max": 0.0036995410919189453, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027980804443359375, "timer/logger.write_frac": 9.322393414635873e-05, "timer/logger.write_avg": 0.027980804443359375, "timer/logger.write_min": 0.027980804443359375, "timer/logger.write_max": 0.027980804443359375, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00034499168395996094, "timer/checkpoint.save_frac": 1.1494123441528721e-06, "timer/checkpoint.save_avg": 0.00034499168395996094, "timer/checkpoint.save_min": 0.00034499168395996094, "timer/checkpoint.save_max": 0.00034499168395996094, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4968955516815186, "timer/agent.save_frac": 0.004987222315799197, "timer/agent.save_avg": 1.4968955516815186, "timer/agent.save_min": 1.4968955516815186, "timer/agent.save_max": 1.4968955516815186, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.00010395050048828125, "timer/replay.save_frac": 3.463329523501398e-07, "timer/replay.save_avg": 0.00010395050048828125, "timer/replay.save_min": 0.00010395050048828125, "timer/replay.save_max": 0.00010395050048828125, "timer/agent.policy_count": 1418.0, "timer/agent.policy_total": 12.769015312194824, "timer/agent.policy_frac": 0.042542659736160886, "timer/agent.policy_avg": 0.00900494732876927, "timer/agent.policy_min": 0.005685329437255859, "timer/agent.policy_max": 1.494396448135376, "timer/dataset_count": 709.0, "timer/dataset_total": 0.06756925582885742, "timer/dataset_frac": 0.00022512118507739384, "timer/dataset_avg": 9.530219439895264e-05, "timer/dataset_min": 6.127357482910156e-05, "timer/dataset_max": 0.0006511211395263672, "timer/agent.train_count": 709.0, "timer/agent.train_total": 265.0610988140106, "timer/agent.train_frac": 0.8831067909651608, "timer/agent.train_avg": 0.37385204346122797, "timer/agent.train_min": 0.3654048442840576, "timer/agent.train_max": 0.9178786277770996, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21809887886047363, "timer/agent.report_frac": 0.0007266422794041156, "timer/agent.report_avg": 0.21809887886047363, "timer/agent.report_min": 0.21809887886047363, "timer/agent.report_max": 0.21809887886047363, "fps": 4.724294917367152}
{"step": 465654, "episode/length": 232.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 11.899999991059303, "episode/reward_rate": 0.05150214592274678}
{"step": 465824, "episode/length": 169.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.899999976158142, "episode/reward_rate": 0.07058823529411765}
{"step": 466057, "episode/length": 232.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.05150214592274678}
{"step": 466279, "episode/length": 221.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.02702702702702703}
{"step": 466422, "episode/length": 142.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.07692307692307693}
{"step": 466479, "episode/length": 56.0, "episode/score": 5.099999971687794, "episode/sum_abs_reward": 7.1000000312924385, "episode/reward_rate": 0.12280701754385964}
{"step": 466812, "episode/length": 332.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.03303303303303303}
{"step": 466972, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.535165574815538, "train/action_min": 0.0, "train/action_std": 3.3975621263186135, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04255341164146861, "train/actor_opt_grad_steps": 232575.0, "train/actor_opt_loss": -13.469806909561157, "train/adv_mag": 0.4311167403227753, "train/adv_max": 0.37549358647730613, "train/adv_mean": 0.0018584541510588476, "train/adv_min": -0.3869495919595162, "train/adv_std": 0.0486759092244837, "train/cont_avg": 0.9942491319444444, "train/cont_loss_mean": 1.0695267305226173e-05, "train/cont_loss_std": 0.00029065225011039157, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0010218533613494982, "train/cont_pos_acc": 0.999999980131785, "train/cont_pos_loss": 4.273359770687632e-06, "train/cont_pred": 0.9942508008744981, "train/cont_rate": 0.9942491319444444, "train/dyn_loss_mean": 5.041578289535311, "train/dyn_loss_std": 8.731083975897896, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9927498011125458, "train/extr_critic_critic_opt_grad_steps": 232575.0, "train/extr_critic_critic_opt_loss": 16178.872450086805, "train/extr_critic_mag": 9.836783554818895, "train/extr_critic_max": 9.836783554818895, "train/extr_critic_mean": 2.5777702497111425, "train/extr_critic_min": -0.5602275547054079, "train/extr_critic_std": 2.4790752828121185, "train/extr_return_normed_mag": 1.4239515993330214, "train/extr_return_normed_max": 1.4239515993330214, "train/extr_return_normed_mean": 0.3688676783608066, "train/extr_return_normed_min": -0.08817812019131249, "train/extr_return_normed_std": 0.33134813523954815, "train/extr_return_rate": 0.7194915041327477, "train/extr_return_raw_mag": 10.562357849544949, "train/extr_return_raw_max": 10.562357849544949, "train/extr_return_raw_mean": 2.5918022642532983, "train/extr_return_raw_min": -0.8615161739289761, "train/extr_return_raw_std": 2.5033556322256723, "train/extr_reward_mag": 1.0583097603585985, "train/extr_reward_max": 1.0583097603585985, "train/extr_reward_mean": 0.05233300027127067, "train/extr_reward_min": -0.6669607179032432, "train/extr_reward_std": 0.22260838064054647, "train/image_loss_mean": 3.121409676141209, "train/image_loss_std": 8.25081075562371, "train/model_loss_mean": 6.198906650145848, "train/model_loss_std": 12.387928247451782, "train/model_opt_grad_norm": 31.12262969546848, "train/model_opt_grad_steps": 232390.0, "train/model_opt_loss": 13610.501966688367, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2204.8611111111113, "train/policy_entropy_mag": 2.603342092699475, "train/policy_entropy_max": 2.603342092699475, "train/policy_entropy_mean": 0.3979857179025809, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5608920922709836, "train/policy_logprob_mag": 7.438384201791552, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39803453389969135, "train/policy_logprob_min": -7.438384201791552, "train/policy_logprob_std": 1.0156457043356366, "train/policy_randomness_mag": 0.9188655159539647, "train/policy_randomness_max": 0.9188655159539647, "train/policy_randomness_mean": 0.14047149506707987, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19797029356575674, "train/post_ent_mag": 55.039546224806045, "train/post_ent_max": 55.039546224806045, "train/post_ent_mean": 41.02691417270236, "train/post_ent_min": 18.999517268604702, "train/post_ent_std": 5.599111298720042, "train/prior_ent_mag": 76.44725174374051, "train/prior_ent_max": 76.44725174374051, "train/prior_ent_mean": 46.08240932888455, "train/prior_ent_min": 28.52422261238098, "train/prior_ent_std": 7.342802478207482, "train/rep_loss_mean": 5.041578289535311, "train/rep_loss_std": 8.731083975897896, "train/reward_avg": 0.034754774222771324, "train/reward_loss_mean": 0.052539325784891844, "train/reward_loss_std": 0.20674497385819754, "train/reward_max_data": 1.0166666706403096, "train/reward_max_pred": 1.016300721300973, "train/reward_neg_acc": 0.9943251543574863, "train/reward_neg_loss": 0.024199725180450413, "train/reward_pos_acc": 0.989597720404466, "train/reward_pos_loss": 0.7320376965734694, "train/reward_pred": 0.034443207602534026, "train/reward_rate": 0.039971245659722224, "stats/sum_log_reward": 8.814285959516253, "stats/max_log_achievement_collect_coal": 0.42857142857142855, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 10.714285714285714, "stats/max_log_achievement_collect_wood": 8.0, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_wood_sword": 0.7142857142857143, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 2.2857142857142856, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.4434379062482289, "replay/size": 466909.0, "replay/inserts": 1447.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.7644431767335164e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2627033771815637e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 299.997421503067, "timer/env.step_count": 1447.0, "timer/env.step_total": 18.91112780570984, "timer/env.step_frac": 0.06303763449352348, "timer/env.step_avg": 0.013069196824954969, "timer/env.step_min": 0.0030455589294433594, "timer/env.step_max": 1.6652824878692627, "timer/replay.add_count": 1447.0, "timer/replay.add_total": 0.27459120750427246, "timer/replay.add_frac": 0.0009153118921105967, "timer/replay.add_avg": 0.00018976586558691947, "timer/replay.add_min": 6.961822509765625e-05, "timer/replay.add_max": 0.0012927055358886719, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028777599334716797, "timer/logger.write_frac": 9.592615560004935e-05, "timer/logger.write_avg": 0.028777599334716797, "timer/logger.write_min": 0.028777599334716797, "timer/logger.write_max": 0.028777599334716797, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1447.0, "timer/agent.policy_total": 10.596103191375732, "timer/agent.policy_frac": 0.03532064755185705, "timer/agent.policy_avg": 0.007322808010625938, "timer/agent.policy_min": 0.005654096603393555, "timer/agent.policy_max": 0.016060590744018555, "timer/dataset_count": 723.0, "timer/dataset_total": 0.06791877746582031, "timer/dataset_frac": 0.00022639787077345246, "timer/dataset_avg": 9.394021779504884e-05, "timer/dataset_min": 7.033348083496094e-05, "timer/dataset_max": 0.00024318695068359375, "timer/agent.train_count": 723.0, "timer/agent.train_total": 269.41405177116394, "timer/agent.train_frac": 0.898054558006958, "timer/agent.train_avg": 0.37263354325195563, "timer/agent.train_min": 0.3666214942932129, "timer/agent.train_max": 0.38403892517089844, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22043871879577637, "timer/agent.report_frac": 0.0007348020449353186, "timer/agent.report_avg": 0.22043871879577637, "timer/agent.report_min": 0.22043871879577637, "timer/agent.report_max": 0.22043871879577637, "fps": 4.823308152905102}
{"step": 467031, "episode/length": 218.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.700000002980232, "episode/reward_rate": 0.045662100456621}
{"step": 467198, "episode/length": 166.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.07784431137724551}
{"step": 467358, "episode/length": 159.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.05625}
{"step": 467548, "episode/length": 189.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.05789473684210526}
{"step": 467682, "episode/length": 133.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.08208955223880597}
{"step": 467944, "episode/length": 261.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.04961832061068702}
{"step": 468003, "episode/length": 58.0, "episode/score": 6.099999971687794, "episode/sum_abs_reward": 7.900000028312206, "episode/reward_rate": 0.13559322033898305}
{"step": 468362, "episode/length": 358.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.033426183844011144}
{"step": 468413, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.49760267469618, "train/action_min": 0.0, "train/action_std": 3.383232725991143, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.042797757830056876, "train/actor_opt_grad_steps": 233295.0, "train/actor_opt_loss": -13.7219087584979, "train/adv_mag": 0.45779847188128364, "train/adv_max": 0.3877328667375777, "train/adv_mean": 0.001979254304791943, "train/adv_min": -0.41095680163966286, "train/adv_std": 0.049339807954513364, "train/cont_avg": 0.9945475260416666, "train/cont_loss_mean": 2.6683841235916913e-05, "train/cont_loss_std": 0.0007484421827099494, "train/cont_neg_acc": 0.9953703706463178, "train/cont_neg_loss": 0.004023108674687926, "train/cont_pos_acc": 0.9999999817874696, "train/cont_pos_loss": 1.3757350753805673e-05, "train/cont_pred": 0.9945443818966547, "train/cont_rate": 0.9945475260416666, "train/dyn_loss_mean": 5.123911771509382, "train/dyn_loss_std": 8.764035609033373, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.010858749349912, "train/extr_critic_critic_opt_grad_steps": 233295.0, "train/extr_critic_critic_opt_loss": 16181.535590277777, "train/extr_critic_mag": 9.848618083530003, "train/extr_critic_max": 9.848618083530003, "train/extr_critic_mean": 2.5541669527689614, "train/extr_critic_min": -0.5415299071205987, "train/extr_critic_std": 2.432413606180085, "train/extr_return_normed_mag": 1.4370213150978088, "train/extr_return_normed_max": 1.4370213150978088, "train/extr_return_normed_mean": 0.37181470232705277, "train/extr_return_normed_min": -0.08982487162575126, "train/extr_return_normed_std": 0.3322439202004009, "train/extr_return_rate": 0.7201570106877221, "train/extr_return_raw_mag": 10.462182667520311, "train/extr_return_raw_max": 10.462182667520311, "train/extr_return_raw_mean": 2.568837425774998, "train/extr_return_raw_min": -0.852291519443194, "train/extr_return_raw_std": 2.462004424797164, "train/extr_reward_mag": 1.0553719500700633, "train/extr_reward_max": 1.0553719500700633, "train/extr_reward_mean": 0.05123279968069659, "train/extr_reward_min": -0.6544124848312802, "train/extr_reward_std": 0.21943026553425524, "train/image_loss_mean": 3.2699972805049686, "train/image_loss_std": 8.328740133179558, "train/model_loss_mean": 6.397000888983409, "train/model_loss_std": 12.477623449431526, "train/model_opt_grad_norm": 32.976989931530426, "train/model_opt_grad_steps": 233109.15277777778, "train/model_opt_loss": 9177.00836859809, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1440.9722222222222, "train/policy_entropy_mag": 2.6024217473136053, "train/policy_entropy_max": 2.6024217473136053, "train/policy_entropy_mean": 0.3991735780404674, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5558173594375452, "train/policy_logprob_mag": 7.438384268018934, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3988948876245154, "train/policy_logprob_min": -7.438384268018934, "train/policy_logprob_std": 1.0155952870845795, "train/policy_randomness_mag": 0.9185406739513079, "train/policy_randomness_max": 0.9185406739513079, "train/policy_randomness_mean": 0.1408907544488708, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.196179137358235, "train/post_ent_mag": 55.39742644627889, "train/post_ent_max": 55.39742644627889, "train/post_ent_mean": 41.22578165266249, "train/post_ent_min": 18.60528478357527, "train/post_ent_std": 5.578017426861657, "train/prior_ent_mag": 76.49138259887695, "train/prior_ent_max": 76.49138259887695, "train/prior_ent_mean": 46.333472145928276, "train/prior_ent_min": 28.2730393409729, "train/prior_ent_std": 7.361990292867024, "train/rep_loss_mean": 5.123911771509382, "train/rep_loss_std": 8.764035609033373, "train/reward_avg": 0.034513345867809325, "train/reward_loss_mean": 0.052629956509917974, "train/reward_loss_std": 0.21711616176697943, "train/reward_max_data": 1.0319444520605936, "train/reward_max_pred": 1.0262947744793363, "train/reward_neg_acc": 0.99461061341895, "train/reward_neg_loss": 0.024158919863920245, "train/reward_pos_acc": 0.984860027829806, "train/reward_pos_loss": 0.7457703534099791, "train/reward_pred": 0.03406812343746424, "train/reward_rate": 0.03945583767361111, "stats/sum_log_reward": 9.600000321865082, "stats/max_log_achievement_collect_coal": 1.5, "stats/max_log_achievement_collect_drink": 2.125, "stats/max_log_achievement_collect_sapling": 1.25, "stats/max_log_achievement_collect_stone": 13.0, "stats/max_log_achievement_collect_wood": 8.125, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 0.375, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 1.875, "stats/max_log_achievement_place_plant": 1.125, "stats/max_log_achievement_place_stone": 3.125, "stats/max_log_achievement_place_table": 2.25, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.4031763169914484, "replay/size": 468350.0, "replay/inserts": 1441.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.814862719184405e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2690374490788177e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.35319113731384, "timer/env.step_count": 1441.0, "timer/env.step_total": 20.588635683059692, "timer/env.step_frac": 0.06854808369140014, "timer/env.step_avg": 0.014287741625995623, "timer/env.step_min": 0.0029685497283935547, "timer/env.step_max": 1.765085220336914, "timer/replay.add_count": 1441.0, "timer/replay.add_total": 0.2631077766418457, "timer/replay.add_frac": 0.0008759946103637684, "timer/replay.add_avg": 0.000182586937294827, "timer/replay.add_min": 7.677078247070312e-05, "timer/replay.add_max": 0.0012688636779785156, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023924589157104492, "timer/logger.write_frac": 7.965485256378307e-05, "timer/logger.write_avg": 0.023924589157104492, "timer/logger.write_min": 0.023924589157104492, "timer/logger.write_max": 0.023924589157104492, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1441.0, "timer/agent.policy_total": 10.398980617523193, "timer/agent.policy_frac": 0.03462250751572352, "timer/agent.policy_avg": 0.007216502857406796, "timer/agent.policy_min": 0.0055539608001708984, "timer/agent.policy_max": 0.013442277908325195, "timer/dataset_count": 721.0, "timer/dataset_total": 0.0671839714050293, "timer/dataset_frac": 0.0002236832282375002, "timer/dataset_avg": 9.318165243415991e-05, "timer/dataset_min": 6.365776062011719e-05, "timer/dataset_max": 0.0002033710479736328, "timer/agent.train_count": 721.0, "timer/agent.train_total": 268.3136103153229, "timer/agent.train_frac": 0.8933269838063972, "timer/agent.train_avg": 0.3721409297022509, "timer/agent.train_min": 0.3642873764038086, "timer/agent.train_max": 0.3866441249847412, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21930146217346191, "timer/agent.report_frac": 0.0007301452711158406, "timer/agent.report_avg": 0.21930146217346191, "timer/agent.report_min": 0.21930146217346191, "timer/agent.report_max": 0.21930146217346191, "fps": 4.79761812648113}
{"step": 468556, "episode/length": 193.0, "episode/score": 11.099999964237213, "episode/sum_abs_reward": 13.099999994039536, "episode/reward_rate": 0.061855670103092786}
{"step": 468743, "episode/length": 186.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.06417112299465241}
{"step": 468995, "episode/length": 251.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.04365079365079365}
{"step": 469194, "episode/length": 198.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.06030150753768844}
{"step": 469313, "episode/length": 118.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.09243697478991597}
{"step": 469524, "episode/length": 210.0, "episode/score": 11.099999971687794, "episode/sum_abs_reward": 13.30000003427267, "episode/reward_rate": 0.061611374407582936}
{"step": 469585, "episode/length": 60.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.09836065573770492}
{"step": 469761, "episode/length": 175.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.0625}
{"step": 469829, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.491205779599472, "train/action_min": 0.0, "train/action_std": 3.3728052327330684, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.042920987318519135, "train/actor_opt_grad_steps": 234010.0, "train/actor_opt_loss": -12.057334012548688, "train/adv_mag": 0.43014709672457735, "train/adv_max": 0.38352093226473094, "train/adv_mean": 0.0024568776122104166, "train/adv_min": -0.37763211550846904, "train/adv_std": 0.049419052164319535, "train/cont_avg": 0.9948008362676056, "train/cont_loss_mean": 5.6485805470214485e-05, "train/cont_loss_std": 0.001599938868238637, "train/cont_neg_acc": 0.9971830987594497, "train/cont_neg_loss": 0.00662601591448454, "train/cont_pos_acc": 0.9999999806914531, "train/cont_pos_loss": 2.3572638906984312e-05, "train/cont_pred": 0.9947993788920658, "train/cont_rate": 0.9948008362676056, "train/dyn_loss_mean": 5.079725796068218, "train/dyn_loss_std": 8.754459193055059, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9898315340700284, "train/extr_critic_critic_opt_grad_steps": 234010.0, "train/extr_critic_critic_opt_loss": 16247.372689260563, "train/extr_critic_mag": 9.808325646628797, "train/extr_critic_max": 9.808325646628797, "train/extr_critic_mean": 2.485905173798682, "train/extr_critic_min": -0.5295219052005822, "train/extr_critic_std": 2.4257632661873187, "train/extr_return_normed_mag": 1.429962136376072, "train/extr_return_normed_max": 1.429962136376072, "train/extr_return_normed_mean": 0.3599638565325401, "train/extr_return_normed_min": -0.08466246509006325, "train/extr_return_normed_std": 0.3285155304720704, "train/extr_return_rate": 0.7117105302676349, "train/extr_return_raw_mag": 10.517145022540026, "train/extr_return_raw_max": 10.517145022540026, "train/extr_return_raw_mean": 2.5042919978289535, "train/extr_return_raw_min": -0.8254069643960872, "train/extr_return_raw_std": 2.4600559372297477, "train/extr_reward_mag": 1.0417661868350607, "train/extr_reward_max": 1.0417661868350607, "train/extr_reward_mean": 0.05000524503559294, "train/extr_reward_min": -0.6673086730527206, "train/extr_reward_std": 0.21683971290017517, "train/image_loss_mean": 3.1244566709222927, "train/image_loss_std": 8.15125291448244, "train/model_loss_mean": 6.222023466943016, "train/model_loss_std": 12.363113349592181, "train/model_opt_grad_norm": 29.184854332829865, "train/model_opt_grad_steps": 233823.9014084507, "train/model_opt_loss": 10445.63485502861, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1690.1408450704225, "train/policy_entropy_mag": 2.6242869135359643, "train/policy_entropy_max": 2.6242869135359643, "train/policy_entropy_mean": 0.4127252603500662, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5800138124277894, "train/policy_logprob_mag": 7.438384244139765, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4126601214979736, "train/policy_logprob_min": -7.438384244139765, "train/policy_logprob_std": 1.0261570164855098, "train/policy_randomness_mag": 0.9262581157012725, "train/policy_randomness_max": 0.9262581157012725, "train/policy_randomness_mean": 0.1456739034661105, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20471942204404886, "train/post_ent_mag": 55.12589403609155, "train/post_ent_max": 55.12589403609155, "train/post_ent_mean": 41.203625316351236, "train/post_ent_min": 19.184037396605586, "train/post_ent_std": 5.626452848944865, "train/prior_ent_mag": 76.51157454369773, "train/prior_ent_max": 76.51157454369773, "train/prior_ent_mean": 46.26081101323517, "train/prior_ent_min": 28.530562226201447, "train/prior_ent_std": 7.315851238411917, "train/rep_loss_mean": 5.079725796068218, "train/rep_loss_std": 8.754459193055059, "train/reward_avg": 0.03336542679495375, "train/reward_loss_mean": 0.04967487918239244, "train/reward_loss_std": 0.2014467716217041, "train/reward_max_data": 1.015492961440288, "train/reward_max_pred": 1.0146993482616586, "train/reward_neg_acc": 0.9952958755090203, "train/reward_neg_loss": 0.02278378407116717, "train/reward_pos_acc": 0.9872663978119971, "train/reward_pos_loss": 0.7281268591612158, "train/reward_pred": 0.03312896652488222, "train/reward_rate": 0.0380859375, "stats/sum_log_reward": 9.725000381469727, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 1.75, "stats/max_log_achievement_collect_sapling": 1.25, "stats/max_log_achievement_collect_stone": 15.875, "stats/max_log_achievement_collect_wood": 10.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.875, "stats/max_log_achievement_make_wood_sword": 1.25, "stats/max_log_achievement_place_furnace": 2.25, "stats/max_log_achievement_place_plant": 1.125, "stats/max_log_achievement_place_stone": 5.0, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 0.875, "stats/mean_log_entropy": 0.317323649302125, "replay/size": 469766.0, "replay/inserts": 1416.0, "replay/samples": 11328.0, "replay/insert_wait_avg": 3.7971862965384445e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2589376525016827e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3603284358978, "timer/env.step_count": 1416.0, "timer/env.step_total": 23.371679306030273, "timer/env.step_frac": 0.07781213793358266, "timer/env.step_avg": 0.016505423238721943, "timer/env.step_min": 0.0030584335327148438, "timer/env.step_max": 2.6445889472961426, "timer/replay.add_count": 1416.0, "timer/replay.add_total": 0.2786216735839844, "timer/replay.add_frac": 0.0009276247466996865, "timer/replay.add_avg": 0.00019676671863275733, "timer/replay.add_min": 7.677078247070312e-05, "timer/replay.add_max": 0.002323150634765625, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02424335479736328, "timer/logger.write_frac": 8.071423720838432e-05, "timer/logger.write_avg": 0.02424335479736328, "timer/logger.write_min": 0.02424335479736328, "timer/logger.write_max": 0.02424335479736328, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004482269287109375, "timer/checkpoint.save_frac": 1.4922973717769022e-06, "timer/checkpoint.save_avg": 0.0004482269287109375, "timer/checkpoint.save_min": 0.0004482269287109375, "timer/checkpoint.save_max": 0.0004482269287109375, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4134931564331055, "timer/agent.save_frac": 0.0047059915129063715, "timer/agent.save_avg": 1.4134931564331055, "timer/agent.save_min": 1.4134931564331055, "timer/agent.save_max": 1.4134931564331055, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.915496826171875e-05, "timer/replay.save_frac": 2.6353336565421893e-07, "timer/replay.save_avg": 7.915496826171875e-05, "timer/replay.save_min": 7.915496826171875e-05, "timer/replay.save_max": 7.915496826171875e-05, "timer/agent.policy_count": 1416.0, "timer/agent.policy_total": 12.333896160125732, "timer/agent.policy_frac": 0.041063665845464684, "timer/agent.policy_avg": 0.00871037864415659, "timer/agent.policy_min": 0.00572514533996582, "timer/agent.policy_max": 1.4036917686462402, "timer/dataset_count": 708.0, "timer/dataset_total": 0.06556153297424316, "timer/dataset_frac": 0.00021827627275429335, "timer/dataset_avg": 9.260103527435476e-05, "timer/dataset_min": 6.413459777832031e-05, "timer/dataset_max": 0.00016117095947265625, "timer/agent.train_count": 708.0, "timer/agent.train_total": 263.59588718414307, "timer/agent.train_frac": 0.8775988778438131, "timer/agent.train_avg": 0.37231057511884613, "timer/agent.train_min": 0.3661363124847412, "timer/agent.train_max": 0.3865199089050293, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2199268341064453, "timer/agent.report_frac": 0.0007322099934158967, "timer/agent.report_avg": 0.2199268341064453, "timer/agent.report_min": 0.2199268341064453, "timer/agent.report_max": 0.2199268341064453, "fps": 4.714255398158421}
{"step": 469915, "episode/length": 153.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.045454545454545456}
{"step": 469965, "episode/length": 49.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.08}
{"step": 470142, "episode/length": 176.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.04519774011299435}
{"step": 470409, "episode/length": 266.0, "episode/score": 10.100000016391277, "episode/sum_abs_reward": 13.100000061094761, "episode/reward_rate": 0.04119850187265917}
{"step": 470565, "episode/length": 155.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 14.100000008940697, "episode/reward_rate": 0.08333333333333333}
{"step": 470885, "episode/length": 319.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.034375}
{"step": 471088, "episode/length": 202.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.054187192118226604}
{"step": 471275, "episode/length": 186.0, "episode/score": 12.099999971687794, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.0748663101604278}
{"step": 471276, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4558563232421875, "train/action_min": 0.0, "train/action_std": 3.298066880967882, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0435932985920873, "train/actor_opt_grad_steps": 234725.0, "train/actor_opt_loss": -13.269487970405155, "train/adv_mag": 0.44375037401914597, "train/adv_max": 0.38621316726009053, "train/adv_mean": 0.0024236379449575907, "train/adv_min": -0.3875782883001698, "train/adv_std": 0.0503922489264773, "train/cont_avg": 0.9946424696180556, "train/cont_loss_mean": 3.0256771358002272e-05, "train/cont_loss_std": 0.0008460509611533477, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0006573706693705125, "train/cont_pos_acc": 0.9999863257010778, "train/cont_pos_loss": 2.562933598109712e-05, "train/cont_pred": 0.9946284881896443, "train/cont_rate": 0.9946424696180556, "train/dyn_loss_mean": 5.433206988705529, "train/dyn_loss_std": 8.777867992719015, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0618262870444193, "train/extr_critic_critic_opt_grad_steps": 234725.0, "train/extr_critic_critic_opt_loss": 16456.673394097223, "train/extr_critic_mag": 9.888291584120857, "train/extr_critic_max": 9.888291584120857, "train/extr_critic_mean": 2.5384294622474246, "train/extr_critic_min": -0.5132276763518652, "train/extr_critic_std": 2.4151509222057133, "train/extr_return_normed_mag": 1.4534868382745318, "train/extr_return_normed_max": 1.4534868382745318, "train/extr_return_normed_mean": 0.3667712126755052, "train/extr_return_normed_min": -0.0926806379833983, "train/extr_return_normed_std": 0.3289333689543936, "train/extr_return_rate": 0.7297815792262554, "train/extr_return_raw_mag": 10.649002922905815, "train/extr_return_raw_max": 10.649002922905815, "train/extr_return_raw_mean": 2.556470900774002, "train/extr_return_raw_min": -0.8646940580672688, "train/extr_return_raw_std": 2.4494277122947903, "train/extr_reward_mag": 1.0402186380492315, "train/extr_reward_max": 1.0402186380492315, "train/extr_reward_mean": 0.051113118469301194, "train/extr_reward_min": -0.6890498830212487, "train/extr_reward_std": 0.21891807288759285, "train/image_loss_mean": 3.4364701675044165, "train/image_loss_std": 8.755947993861305, "train/model_loss_mean": 6.747222648726569, "train/model_loss_std": 12.874064750141567, "train/model_opt_grad_norm": 38.370112366146515, "train/model_opt_grad_steps": 234537.20833333334, "train/model_opt_loss": 5134.412268744574, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 755.2083333333334, "train/policy_entropy_mag": 2.6274415221479206, "train/policy_entropy_max": 2.6274415221479206, "train/policy_entropy_mean": 0.3898621242907312, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5561393780840768, "train/policy_logprob_mag": 7.438384261396196, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38964625054763424, "train/policy_logprob_min": -7.438384261396196, "train/policy_logprob_std": 1.0088612768385146, "train/policy_randomness_mag": 0.9273715557323562, "train/policy_randomness_max": 0.9273715557323562, "train/policy_randomness_mean": 0.13760422118422058, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19629279586176077, "train/post_ent_mag": 54.82095797856649, "train/post_ent_max": 54.82095797856649, "train/post_ent_mean": 41.02644734912448, "train/post_ent_min": 18.94708518187205, "train/post_ent_std": 5.5558832089106245, "train/prior_ent_mag": 76.40824943118625, "train/prior_ent_max": 76.40824943118625, "train/prior_ent_mean": 46.45069005754259, "train/prior_ent_min": 28.291201485527885, "train/prior_ent_std": 7.305401424566905, "train/rep_loss_mean": 5.433206988705529, "train/rep_loss_std": 8.777867992719015, "train/reward_avg": 0.03364393420310484, "train/reward_loss_mean": 0.050797996007733874, "train/reward_loss_std": 0.20720392155150572, "train/reward_max_data": 1.013888892200258, "train/reward_max_pred": 1.0152005006869633, "train/reward_neg_acc": 0.9946238241261907, "train/reward_neg_loss": 0.022961423835820623, "train/reward_pos_acc": 0.9834224325087335, "train/reward_pos_loss": 0.748311945133739, "train/reward_pred": 0.03331476900105675, "train/reward_rate": 0.03854709201388889, "stats/sum_log_reward": 8.724999964237213, "stats/max_log_achievement_collect_coal": 0.375, "stats/max_log_achievement_collect_drink": 1.5, "stats/max_log_achievement_collect_sapling": 1.125, "stats/max_log_achievement_collect_stone": 10.125, "stats/max_log_achievement_collect_wood": 8.5, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 0.375, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.25, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 3.375, "stats/max_log_achievement_place_table": 2.375, "stats/max_log_achievement_wake_up": 1.375, "stats/mean_log_entropy": 0.394962290301919, "replay/size": 471213.0, "replay/inserts": 1447.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.768891899356697e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2603332063139392e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 301.37065029144287, "timer/env.step_count": 1447.0, "timer/env.step_total": 20.507527112960815, "timer/env.step_frac": 0.06804752583945665, "timer/env.step_avg": 0.014172444445722748, "timer/env.step_min": 0.0030090808868408203, "timer/env.step_max": 1.6885147094726562, "timer/replay.add_count": 1447.0, "timer/replay.add_total": 0.27539873123168945, "timer/replay.add_frac": 0.0009138206755215312, "timer/replay.add_avg": 0.00019032393312487178, "timer/replay.add_min": 8.106231689453125e-05, "timer/replay.add_max": 0.0010304450988769531, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02437448501586914, "timer/logger.write_frac": 8.087876172513018e-05, "timer/logger.write_avg": 0.02437448501586914, "timer/logger.write_min": 0.02437448501586914, "timer/logger.write_max": 0.02437448501586914, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1447.0, "timer/agent.policy_total": 10.565787553787231, "timer/agent.policy_frac": 0.035059112569752575, "timer/agent.policy_avg": 0.007301857328118336, "timer/agent.policy_min": 0.00573420524597168, "timer/agent.policy_max": 0.01596689224243164, "timer/dataset_count": 723.0, "timer/dataset_total": 0.06709575653076172, "timer/dataset_frac": 0.0002226353378004004, "timer/dataset_avg": 9.280187625278246e-05, "timer/dataset_min": 6.747245788574219e-05, "timer/dataset_max": 0.00016570091247558594, "timer/agent.train_count": 723.0, "timer/agent.train_total": 269.22330474853516, "timer/agent.train_frac": 0.8933295411752293, "timer/agent.train_avg": 0.37236971611139025, "timer/agent.train_min": 0.3629450798034668, "timer/agent.train_max": 0.3854813575744629, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21536827087402344, "timer/agent.report_frac": 0.0007146292137796094, "timer/agent.report_avg": 0.21536827087402344, "timer/agent.report_min": 0.21536827087402344, "timer/agent.report_max": 0.21536827087402344, "fps": 4.801329559497344}
{"step": 471404, "episode/length": 128.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.08527131782945736}
{"step": 471581, "episode/length": 176.0, "episode/score": 12.100000016391277, "episode/sum_abs_reward": 13.30000003427267, "episode/reward_rate": 0.07344632768361582}
{"step": 471745, "episode/length": 163.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.06097560975609756}
{"step": 471810, "episode/length": 64.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 3.900000013411045, "episode/reward_rate": 0.046153846153846156}
{"step": 472050, "episode/length": 239.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.05}
{"step": 472262, "episode/length": 211.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.06132075471698113}
{"step": 472434, "episode/length": 171.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06395348837209303}
{"step": 472617, "episode/length": 182.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06557377049180328}
{"step": 472715, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.516190422905816, "train/action_min": 0.0, "train/action_std": 3.361364765299691, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0426897549122158, "train/actor_opt_grad_steps": 235445.0, "train/actor_opt_loss": -14.324468444204992, "train/adv_mag": 0.4529867035647233, "train/adv_max": 0.40478236600756645, "train/adv_mean": 0.0014125804862790876, "train/adv_min": -0.36747882349623573, "train/adv_std": 0.049003577480713524, "train/cont_avg": 0.9947102864583334, "train/cont_loss_mean": 9.208448127079944e-06, "train/cont_loss_std": 0.0002659322211877837, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0010004292024285001, "train/cont_pos_acc": 0.9999999793039428, "train/cont_pos_loss": 4.808516824766289e-06, "train/cont_pred": 0.9947098270058632, "train/cont_rate": 0.9947102864583334, "train/dyn_loss_mean": 4.97101327445772, "train/dyn_loss_std": 8.563618236117893, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9947089635663562, "train/extr_critic_critic_opt_grad_steps": 235445.0, "train/extr_critic_critic_opt_loss": 16082.444973415799, "train/extr_critic_mag": 10.192030747731527, "train/extr_critic_max": 10.192030747731527, "train/extr_critic_mean": 2.527382077442275, "train/extr_critic_min": -0.5488110118442111, "train/extr_critic_std": 2.4671660645140543, "train/extr_return_normed_mag": 1.4715879062811534, "train/extr_return_normed_max": 1.4715879062811534, "train/extr_return_normed_mean": 0.3580628912895918, "train/extr_return_normed_min": -0.09522328794830376, "train/extr_return_normed_std": 0.33069995707935756, "train/extr_return_rate": 0.7182264915770955, "train/extr_return_raw_mag": 10.953133278422886, "train/extr_return_raw_max": 10.953133278422886, "train/extr_return_raw_mean": 2.538055979543262, "train/extr_return_raw_min": -0.8874223373002477, "train/extr_return_raw_std": 2.498969617817137, "train/extr_reward_mag": 1.0411578449938033, "train/extr_reward_max": 1.0411578449938033, "train/extr_reward_mean": 0.051641313100440636, "train/extr_reward_min": -0.7092859761582481, "train/extr_reward_std": 0.2201387724942631, "train/image_loss_mean": 2.989194537202517, "train/image_loss_std": 7.530995587507884, "train/model_loss_mean": 6.022625585397084, "train/model_loss_std": 11.58464495340983, "train/model_opt_grad_norm": 28.3898206949234, "train/model_opt_grad_steps": 235257.0, "train/model_opt_loss": 5307.868143717448, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 876.7361111111111, "train/policy_entropy_mag": 2.633845802810457, "train/policy_entropy_max": 2.633845802810457, "train/policy_entropy_mean": 0.4141863071256214, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5864865514967177, "train/policy_logprob_mag": 7.438384241527981, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41284440499213004, "train/policy_logprob_min": -7.438384241527981, "train/policy_logprob_std": 1.027191526359982, "train/policy_randomness_mag": 0.9296319840682877, "train/policy_randomness_max": 0.9296319840682877, "train/policy_randomness_mean": 0.146189591433439, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2070040168861548, "train/post_ent_mag": 55.036507023705376, "train/post_ent_max": 55.036507023705376, "train/post_ent_mean": 40.999713526831734, "train/post_ent_min": 18.95442255338033, "train/post_ent_std": 5.601190633243984, "train/prior_ent_mag": 76.33645089467366, "train/prior_ent_max": 76.33645089467366, "train/prior_ent_mean": 46.02835983700223, "train/prior_ent_min": 28.397493918736775, "train/prior_ent_std": 7.390097896258037, "train/rep_loss_mean": 4.97101327445772, "train/rep_loss_std": 8.563618236117893, "train/reward_avg": 0.035293239867314696, "train/reward_loss_mean": 0.05081385376656221, "train/reward_loss_std": 0.20615985968874562, "train/reward_max_data": 1.0166666706403096, "train/reward_max_pred": 1.0174716777271695, "train/reward_neg_acc": 0.9945289625061883, "train/reward_neg_loss": 0.0224222530830755, "train/reward_pos_acc": 0.9877990550465054, "train/reward_pos_loss": 0.7321928673320346, "train/reward_pred": 0.03498649871390727, "train/reward_rate": 0.039957682291666664, "stats/sum_log_reward": 9.600000321865082, "stats/max_log_achievement_collect_coal": 0.375, "stats/max_log_achievement_collect_drink": 3.125, "stats/max_log_achievement_collect_sapling": 1.25, "stats/max_log_achievement_collect_stone": 10.0, "stats/max_log_achievement_collect_wood": 8.375, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.625, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.125, "stats/max_log_achievement_place_plant": 1.125, "stats/max_log_achievement_place_stone": 3.625, "stats/max_log_achievement_place_table": 1.75, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3053167350590229, "replay/size": 472652.0, "replay/inserts": 1439.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.7603530724732886e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2618179122606912e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3674404621124, "timer/env.step_count": 1439.0, "timer/env.step_total": 20.853567123413086, "timer/env.step_frac": 0.06942685629084855, "timer/env.step_avg": 0.01449170752148234, "timer/env.step_min": 0.0030410289764404297, "timer/env.step_max": 1.7413620948791504, "timer/replay.add_count": 1439.0, "timer/replay.add_total": 0.2664175033569336, "timer/replay.add_frac": 0.0008869719798758908, "timer/replay.add_avg": 0.00018514072505693786, "timer/replay.add_min": 7.319450378417969e-05, "timer/replay.add_max": 0.001294851303100586, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02787923812866211, "timer/logger.write_frac": 9.281711122140992e-05, "timer/logger.write_avg": 0.02787923812866211, "timer/logger.write_min": 0.02787923812866211, "timer/logger.write_max": 0.02787923812866211, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1439.0, "timer/agent.policy_total": 10.453512191772461, "timer/agent.policy_frac": 0.034802414588245095, "timer/agent.policy_avg": 0.007264428208319987, "timer/agent.policy_min": 0.005632877349853516, "timer/agent.policy_max": 0.014570236206054688, "timer/dataset_count": 720.0, "timer/dataset_total": 0.06671833992004395, "timer/dataset_frac": 0.0002221224105295781, "timer/dataset_avg": 9.266436100006104e-05, "timer/dataset_min": 6.389617919921875e-05, "timer/dataset_max": 0.00017714500427246094, "timer/agent.train_count": 720.0, "timer/agent.train_total": 268.00405168533325, "timer/agent.train_frac": 0.8922540048715386, "timer/agent.train_avg": 0.37222784956296284, "timer/agent.train_min": 0.3658907413482666, "timer/agent.train_max": 0.3838987350463867, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21922993659973145, "timer/agent.report_frac": 0.0007298725063623684, "timer/agent.report_avg": 0.21922993659973145, "timer/agent.report_min": 0.21922993659973145, "timer/agent.report_max": 0.21922993659973145, "fps": 4.790718565146163}
{"step": 472954, "episode/length": 336.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.03560830860534125}
{"step": 473132, "episode/length": 177.0, "episode/score": 10.099999994039536, "episode/sum_abs_reward": 12.100000008940697, "episode/reward_rate": 0.06741573033707865}
{"step": 473419, "episode/length": 286.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.027874564459930314}
{"step": 473632, "episode/length": 212.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.056338028169014086}
{"step": 473691, "episode/length": 58.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.0847457627118644}
{"step": 473932, "episode/length": 240.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.700000040233135, "episode/reward_rate": 0.04979253112033195}
{"step": 474110, "episode/length": 177.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06179775280898876}
{"step": 474139, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.461521572536892, "train/action_min": 0.0, "train/action_std": 3.3153801129923925, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.045096243266016245, "train/actor_opt_grad_steps": 236165.0, "train/actor_opt_loss": -10.59322603005502, "train/adv_mag": 0.43609556721316445, "train/adv_max": 0.3812143980628914, "train/adv_mean": 0.0028820768043765887, "train/adv_min": -0.37852424072722596, "train/adv_std": 0.05088145058188173, "train/cont_avg": 0.9945339626736112, "train/cont_loss_mean": 3.723106968954603e-05, "train/cont_loss_std": 0.0011197563887313953, "train/cont_neg_acc": 0.9972222223877907, "train/cont_neg_loss": 0.004868218184401801, "train/cont_pos_acc": 0.9999999842709966, "train/cont_pos_loss": 1.3001953821540408e-05, "train/cont_pred": 0.9945355943507619, "train/cont_rate": 0.9945339626736112, "train/dyn_loss_mean": 5.061522761980693, "train/dyn_loss_std": 8.63262128829956, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0286518534024556, "train/extr_critic_critic_opt_grad_steps": 236165.0, "train/extr_critic_critic_opt_loss": 16387.03424750434, "train/extr_critic_mag": 9.931168172094557, "train/extr_critic_max": 9.931168172094557, "train/extr_critic_mean": 2.580850922399097, "train/extr_critic_min": -0.4999071806669235, "train/extr_critic_std": 2.4134920239448547, "train/extr_return_normed_mag": 1.4516573382748499, "train/extr_return_normed_max": 1.4516573382748499, "train/extr_return_normed_mean": 0.37213353046940434, "train/extr_return_normed_min": -0.08783329262708624, "train/extr_return_normed_std": 0.32861266078220475, "train/extr_return_rate": 0.736355291472541, "train/extr_return_raw_mag": 10.63319550620185, "train/extr_return_raw_max": 10.63319550620185, "train/extr_return_raw_mean": 2.6022749228609934, "train/extr_return_raw_min": -0.8187951321403185, "train/extr_return_raw_std": 2.4443104796939426, "train/extr_reward_mag": 1.0418760776519775, "train/extr_reward_max": 1.0418760776519775, "train/extr_reward_mean": 0.052531197822342314, "train/extr_reward_min": -0.6376988391081492, "train/extr_reward_std": 0.22226468846201897, "train/image_loss_mean": 3.1055127812756433, "train/image_loss_std": 8.074473036660088, "train/model_loss_mean": 6.194367302788629, "train/model_loss_std": 12.134537392192417, "train/model_opt_grad_norm": 28.54080042574141, "train/model_opt_grad_steps": 235977.0, "train/model_opt_loss": 7831.829806857639, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1267.361111111111, "train/policy_entropy_mag": 2.6215614014201694, "train/policy_entropy_max": 2.6215614014201694, "train/policy_entropy_mean": 0.39246072930594283, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5494357525474496, "train/policy_logprob_mag": 7.438384241527981, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3926253318786621, "train/policy_logprob_min": -7.438384241527981, "train/policy_logprob_std": 1.010348471502463, "train/policy_randomness_mag": 0.9252961286240153, "train/policy_randomness_max": 0.9252961286240153, "train/policy_randomness_mean": 0.13852141425013542, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1939267103249828, "train/post_ent_mag": 54.89021820492215, "train/post_ent_max": 54.89021820492215, "train/post_ent_mean": 41.1756706767612, "train/post_ent_min": 19.15933350721995, "train/post_ent_std": 5.523964703083038, "train/prior_ent_mag": 76.35741922590468, "train/prior_ent_max": 76.35741922590468, "train/prior_ent_mean": 46.27946472167969, "train/prior_ent_min": 28.634827587339615, "train/prior_ent_std": 7.217522733741337, "train/rep_loss_mean": 5.061522761980693, "train/rep_loss_std": 8.63262128829956, "train/reward_avg": 0.03491210906455914, "train/reward_loss_mean": 0.05190364866414004, "train/reward_loss_std": 0.20934109741614926, "train/reward_max_data": 1.0125000029802322, "train/reward_max_pred": 1.0134217606650457, "train/reward_neg_acc": 0.9950592294335365, "train/reward_neg_loss": 0.02395788087354352, "train/reward_pos_acc": 0.9888241870535744, "train/reward_pos_loss": 0.7243827374445068, "train/reward_pred": 0.03467560626773371, "train/reward_rate": 0.03990342881944445, "stats/sum_log_reward": 9.242857319968087, "stats/max_log_achievement_collect_coal": 0.42857142857142855, "stats/max_log_achievement_collect_drink": 6.428571428571429, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 13.142857142857142, "stats/max_log_achievement_collect_wood": 7.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.2857142857142857, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 5.0, "stats/max_log_achievement_place_table": 1.8571428571428572, "stats/max_log_achievement_wake_up": 1.5714285714285714, "stats/mean_log_entropy": 0.49592051974364687, "replay/size": 474076.0, "replay/inserts": 1424.0, "replay/samples": 11392.0, "replay/insert_wait_avg": 3.7709983547082107e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2374242370048265e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1527066230774, "timer/env.step_count": 1424.0, "timer/env.step_total": 19.61569595336914, "timer/env.step_frac": 0.0653523873699461, "timer/env.step_avg": 0.013775067382983947, "timer/env.step_min": 0.0031578540802001953, "timer/env.step_max": 1.805751085281372, "timer/replay.add_count": 1424.0, "timer/replay.add_total": 0.2765998840332031, "timer/replay.add_frac": 0.0009215305340576149, "timer/replay.add_avg": 0.0001942414915963505, "timer/replay.add_min": 7.867813110351562e-05, "timer/replay.add_max": 0.0011610984802246094, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029102325439453125, "timer/logger.write_frac": 9.695839749997303e-05, "timer/logger.write_avg": 0.029102325439453125, "timer/logger.write_min": 0.029102325439453125, "timer/logger.write_max": 0.029102325439453125, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004162788391113281, "timer/checkpoint.save_frac": 1.3868901726549425e-06, "timer/checkpoint.save_avg": 0.0004162788391113281, "timer/checkpoint.save_min": 0.0004162788391113281, "timer/checkpoint.save_max": 0.0004162788391113281, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3763530254364014, "timer/agent.save_frac": 0.004585509292657432, "timer/agent.save_avg": 1.3763530254364014, "timer/agent.save_min": 1.3763530254364014, "timer/agent.save_max": 1.3763530254364014, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.00010585784912109375, "timer/replay.save_frac": 3.526799751768582e-07, "timer/replay.save_avg": 0.00010585784912109375, "timer/replay.save_min": 0.00010585784912109375, "timer/replay.save_max": 0.00010585784912109375, "timer/agent.policy_count": 1424.0, "timer/agent.policy_total": 14.396782875061035, "timer/agent.policy_frac": 0.047964861076998634, "timer/agent.policy_avg": 0.010110100333610277, "timer/agent.policy_min": 0.005685091018676758, "timer/agent.policy_max": 2.8072621822357178, "timer/dataset_count": 712.0, "timer/dataset_total": 0.0650780200958252, "timer/dataset_frac": 0.00021681636933412092, "timer/dataset_avg": 9.140171361773202e-05, "timer/dataset_min": 7.152557373046875e-05, "timer/dataset_max": 0.0002269744873046875, "timer/agent.train_count": 712.0, "timer/agent.train_total": 265.082403421402, "timer/agent.train_frac": 0.8831584642489477, "timer/agent.train_avg": 0.3723067463783736, "timer/agent.train_min": 0.36561059951782227, "timer/agent.train_max": 0.44263768196105957, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22222542762756348, "timer/agent.report_frac": 0.0007403745584297775, "timer/agent.report_avg": 0.22222542762756348, "timer/agent.report_min": 0.22222542762756348, "timer/agent.report_max": 0.22222542762756348, "fps": 4.7441807558739235}
{"step": 474325, "episode/length": 214.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.04186046511627907}
{"step": 474391, "episode/length": 65.0, "episode/score": 7.099999971687794, "episode/sum_abs_reward": 8.900000028312206, "episode/reward_rate": 0.13636363636363635}
{"step": 474460, "episode/length": 68.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.900000020861626, "episode/reward_rate": 0.10144927536231885}
{"step": 474682, "episode/length": 221.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.04504504504504504}
{"step": 474901, "episode/length": 218.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.30000003427267, "episode/reward_rate": 0.0502283105022831}
{"step": 475180, "episode/length": 278.0, "episode/score": 10.099999979138374, "episode/sum_abs_reward": 11.900000020861626, "episode/reward_rate": 0.03942652329749104}
{"step": 475344, "episode/length": 163.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.100000038743019, "episode/reward_rate": 0.06707317073170732}
{"step": 475508, "episode/length": 163.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.04878048780487805}
{"step": 475579, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.542484707302517, "train/action_min": 0.0, "train/action_std": 3.401901271608141, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.044383607546074524, "train/actor_opt_grad_steps": 236885.0, "train/actor_opt_loss": -11.042608700692654, "train/adv_mag": 0.44940924189156956, "train/adv_max": 0.40596846780843204, "train/adv_mean": 0.0026059728832276757, "train/adv_min": -0.37545580437613857, "train/adv_std": 0.050926252423475184, "train/cont_avg": 0.9946560329861112, "train/cont_loss_mean": 4.5392609864691735e-05, "train/cont_loss_std": 0.0013823515065200336, "train/cont_neg_acc": 0.9976851857370801, "train/cont_neg_loss": 0.0031449760650446024, "train/cont_pos_acc": 0.999986340602239, "train/cont_pos_loss": 2.842976523590816e-05, "train/cont_pred": 0.9946455558141073, "train/cont_rate": 0.9946560329861112, "train/dyn_loss_mean": 5.11771943171819, "train/dyn_loss_std": 8.742900715933906, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0638644645611446, "train/extr_critic_critic_opt_grad_steps": 236885.0, "train/extr_critic_critic_opt_loss": 16419.90513780382, "train/extr_critic_mag": 10.053610139422947, "train/extr_critic_max": 10.053610139422947, "train/extr_critic_mean": 2.6020719905694327, "train/extr_critic_min": -0.5062590191761652, "train/extr_critic_std": 2.4614908579323025, "train/extr_return_normed_mag": 1.4500420921378665, "train/extr_return_normed_max": 1.4500420921378665, "train/extr_return_normed_mean": 0.36577378896375495, "train/extr_return_normed_min": -0.08245673139269154, "train/extr_return_normed_std": 0.32804819341335034, "train/extr_return_rate": 0.7359963109095892, "train/extr_return_raw_mag": 10.88391477531857, "train/extr_return_raw_max": 10.88391477531857, "train/extr_return_raw_mean": 2.6219004657533436, "train/extr_return_raw_min": -0.7937461166746087, "train/extr_return_raw_std": 2.4998509337504706, "train/extr_reward_mag": 1.0494915511873033, "train/extr_reward_max": 1.0494915511873033, "train/extr_reward_mean": 0.05205158485720555, "train/extr_reward_min": -0.6462061206499735, "train/extr_reward_std": 0.22126713850431973, "train/image_loss_mean": 3.2186273336410522, "train/image_loss_std": 8.331373916731941, "train/model_loss_mean": 6.341942608356476, "train/model_loss_std": 12.464343892203438, "train/model_opt_grad_norm": 28.750184880362617, "train/model_opt_grad_steps": 236697.0, "train/model_opt_loss": 15854.856431749133, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.5957269370555878, "train/policy_entropy_max": 2.5957269370555878, "train/policy_entropy_mean": 0.40309537967873943, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5656855110492971, "train/policy_logprob_mag": 7.438384241527981, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4030509473135074, "train/policy_logprob_min": -7.438384241527981, "train/policy_logprob_std": 1.018533652027448, "train/policy_randomness_mag": 0.9161776999632517, "train/policy_randomness_max": 0.9161776999632517, "train/policy_randomness_mean": 0.14227498032980496, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19966216137011847, "train/post_ent_mag": 55.255290826161705, "train/post_ent_max": 55.255290826161705, "train/post_ent_mean": 41.23322359720866, "train/post_ent_min": 18.593300647205776, "train/post_ent_std": 5.670348438951704, "train/prior_ent_mag": 76.50137519836426, "train/prior_ent_max": 76.50137519836426, "train/prior_ent_mean": 46.38190741009183, "train/prior_ent_min": 28.47783062193129, "train/prior_ent_std": 7.323191940784454, "train/rep_loss_mean": 5.11771943171819, "train/rep_loss_std": 8.742900715933906, "train/reward_avg": 0.03515624984477957, "train/reward_loss_mean": 0.05263821573721038, "train/reward_loss_std": 0.21422975158525837, "train/reward_max_data": 1.0125000029802322, "train/reward_max_pred": 1.0141308042738173, "train/reward_neg_acc": 0.9946072176098824, "train/reward_neg_loss": 0.02421075167755286, "train/reward_pos_acc": 0.9876820494731268, "train/reward_pos_loss": 0.7327778496676021, "train/reward_pred": 0.03479741454227931, "train/reward_rate": 0.0400390625, "stats/sum_log_reward": 8.225000262260437, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 9.125, "stats/max_log_achievement_collect_wood": 7.375, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.125, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.375, "stats/max_log_achievement_place_plant": 0.75, "stats/max_log_achievement_place_stone": 2.375, "stats/max_log_achievement_place_table": 1.875, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3899356797337532, "replay/size": 475516.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.784563806321886e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2707793050342135e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.14798188209534, "timer/env.step_count": 1440.0, "timer/env.step_total": 20.53200054168701, "timer/env.step_frac": 0.06840625884918469, "timer/env.step_avg": 0.01425833370950487, "timer/env.step_min": 0.0031092166900634766, "timer/env.step_max": 1.6992676258087158, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.2757575511932373, "timer/replay.add_frac": 0.000918738648396313, "timer/replay.add_avg": 0.00019149829943974813, "timer/replay.add_min": 7.557868957519531e-05, "timer/replay.add_max": 0.0014774799346923828, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02913689613342285, "timer/logger.write_frac": 9.707510259012322e-05, "timer/logger.write_avg": 0.02913689613342285, "timer/logger.write_min": 0.02913689613342285, "timer/logger.write_max": 0.02913689613342285, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 10.478614091873169, "timer/agent.policy_frac": 0.03491149274490007, "timer/agent.policy_avg": 0.00727681534157859, "timer/agent.policy_min": 0.005686283111572266, "timer/agent.policy_max": 0.019023895263671875, "timer/dataset_count": 720.0, "timer/dataset_total": 0.0670619010925293, "timer/dataset_frac": 0.00022342945860243256, "timer/dataset_avg": 9.314152929517958e-05, "timer/dataset_min": 6.365776062011719e-05, "timer/dataset_max": 0.0002002716064453125, "timer/agent.train_count": 720.0, "timer/agent.train_total": 268.0684452056885, "timer/agent.train_frac": 0.8931209316309566, "timer/agent.train_avg": 0.3723172850079007, "timer/agent.train_min": 0.3658897876739502, "timer/agent.train_max": 0.38655567169189453, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2174968719482422, "timer/agent.report_frac": 0.0007246321317385359, "timer/agent.report_avg": 0.2174968719482422, "timer/agent.report_min": 0.2174968719482422, "timer/agent.report_max": 0.2174968719482422, "fps": 4.797514014023559}
{"step": 475716, "episode/length": 207.0, "episode/score": 10.1000000461936, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.057692307692307696}
{"step": 475771, "episode/length": 54.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.07272727272727272}
{"step": 476054, "episode/length": 282.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.03180212014134275}
{"step": 476262, "episode/length": 207.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.0625}
{"step": 476424, "episode/length": 161.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 11.299999982118607, "episode/reward_rate": 0.06790123456790123}
{"step": 476491, "episode/length": 66.0, "episode/score": 4.100000001490116, "episode/sum_abs_reward": 5.499999977648258, "episode/reward_rate": 0.08955223880597014}
{"step": 476781, "episode/length": 289.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.04827586206896552}
{"step": 477019, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.514614529079861, "train/action_min": 0.0, "train/action_std": 3.412750393152237, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04300714863671197, "train/actor_opt_grad_steps": 237605.0, "train/actor_opt_loss": -12.519871486557854, "train/adv_mag": 0.4560607141918606, "train/adv_max": 0.4242900585134824, "train/adv_mean": 0.002130290585733342, "train/adv_min": -0.35957471157113713, "train/adv_std": 0.04943693812108702, "train/cont_avg": 0.9946153428819444, "train/cont_loss_mean": 3.209916241549612e-05, "train/cont_loss_std": 0.0009871988308868633, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 4.699581991632032e-05, "train/cont_pos_acc": 0.999986357986927, "train/cont_pos_loss": 3.1880169144373996e-05, "train/cont_pred": 0.9945994549327426, "train/cont_rate": 0.9946153428819444, "train/dyn_loss_mean": 4.950771341721217, "train/dyn_loss_std": 8.625064121352302, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9987432128853269, "train/extr_critic_critic_opt_grad_steps": 237605.0, "train/extr_critic_critic_opt_loss": 16103.815972222223, "train/extr_critic_mag": 10.365824010637072, "train/extr_critic_max": 10.365824010637072, "train/extr_critic_mean": 2.6555154025554657, "train/extr_critic_min": -0.5122825735145144, "train/extr_critic_std": 2.497962329122755, "train/extr_return_normed_mag": 1.4742277810970943, "train/extr_return_normed_max": 1.4742277810970943, "train/extr_return_normed_mean": 0.36976654330889386, "train/extr_return_normed_min": -0.08614202780235145, "train/extr_return_normed_std": 0.32815264268881744, "train/extr_return_rate": 0.736363425023026, "train/extr_return_raw_mag": 11.191819734043545, "train/extr_return_raw_max": 11.191819734043545, "train/extr_return_raw_mean": 2.671922410527865, "train/extr_return_raw_min": -0.8459233219424883, "train/extr_return_raw_std": 2.5318753023942313, "train/extr_reward_mag": 1.0500540667110019, "train/extr_reward_max": 1.0500540667110019, "train/extr_reward_mean": 0.05129818331139783, "train/extr_reward_min": -0.6580625904930962, "train/extr_reward_std": 0.22031553172402912, "train/image_loss_mean": 2.8788642585277557, "train/image_loss_std": 7.655892994668749, "train/model_loss_mean": 5.898304823372099, "train/model_loss_std": 11.772331025865343, "train/model_opt_grad_norm": 31.70176378885905, "train/model_opt_grad_steps": 237416.05555555556, "train/model_opt_loss": 7796.622151692708, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1319.4444444444443, "train/policy_entropy_mag": 2.608689659171634, "train/policy_entropy_max": 2.608689659171634, "train/policy_entropy_mean": 0.40088381204340195, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5645432335635027, "train/policy_logprob_mag": 7.438384321000841, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40099203938411343, "train/policy_logprob_min": -7.438384321000841, "train/policy_logprob_std": 1.0175344124436378, "train/policy_randomness_mag": 0.9207529715365834, "train/policy_randomness_max": 0.9207529715365834, "train/policy_randomness_mean": 0.14149439252085155, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19925898789531654, "train/post_ent_mag": 55.023236963484024, "train/post_ent_max": 55.023236963484024, "train/post_ent_mean": 41.14964723587036, "train/post_ent_min": 19.01863247818417, "train/post_ent_std": 5.602542996406555, "train/prior_ent_mag": 76.46743880377875, "train/prior_ent_max": 76.46743880377875, "train/prior_ent_mean": 46.140321254730225, "train/prior_ent_min": 28.093854268391926, "train/prior_ent_std": 7.312593069341448, "train/rep_loss_mean": 4.950771341721217, "train/rep_loss_std": 8.625064121352302, "train/reward_avg": 0.03343777107592258, "train/reward_loss_mean": 0.04894564161077142, "train/reward_loss_std": 0.19809432472619745, "train/reward_max_data": 1.013888892200258, "train/reward_max_pred": 1.0151676767402225, "train/reward_neg_acc": 0.9947290635771222, "train/reward_neg_loss": 0.02208699957312395, "train/reward_pos_acc": 0.9877573028206825, "train/reward_pos_loss": 0.7259007592995962, "train/reward_pred": 0.033187516344090305, "train/reward_rate": 0.03818088107638889, "stats/sum_log_reward": 8.528571503502983, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 3.2857142857142856, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 8.714285714285714, "stats/max_log_achievement_collect_wood": 8.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.8571428571428571, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.2857142857142858, "stats/max_log_achievement_place_plant": 1.7142857142857142, "stats/max_log_achievement_place_stone": 1.8571428571428572, "stats/max_log_achievement_place_table": 2.4285714285714284, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.41351228739534107, "replay/size": 476956.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.763702180650499e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2573682599597508e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.13684725761414, "timer/env.step_count": 1440.0, "timer/env.step_total": 18.930898189544678, "timer/env.step_frac": 0.06307422218404216, "timer/env.step_avg": 0.013146457076072694, "timer/env.step_min": 0.003145456314086914, "timer/env.step_max": 1.7379720211029053, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.26357579231262207, "timer/replay.add_frac": 0.0008781853835040424, "timer/replay.add_avg": 0.0001830387446615431, "timer/replay.add_min": 7.486343383789062e-05, "timer/replay.add_max": 0.001538991928100586, "timer/logger.write_count": 1.0, "timer/logger.write_total": 1.6824829578399658, "timer/logger.write_frac": 0.00560571943502776, "timer/logger.write_avg": 1.6824829578399658, "timer/logger.write_min": 1.6824829578399658, "timer/logger.write_max": 1.6824829578399658, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 10.474250316619873, "timer/agent.policy_frac": 0.03489824862333411, "timer/agent.policy_avg": 0.007273784942097134, "timer/agent.policy_min": 0.005608081817626953, "timer/agent.policy_max": 0.018129348754882812, "timer/dataset_count": 720.0, "timer/dataset_total": 0.06678152084350586, "timer/dataset_frac": 0.00022250357279919648, "timer/dataset_avg": 9.275211228264703e-05, "timer/dataset_min": 7.05718994140625e-05, "timer/dataset_max": 0.00018024444580078125, "timer/agent.train_count": 720.0, "timer/agent.train_total": 268.02586483955383, "timer/agent.train_frac": 0.8930121952320678, "timer/agent.train_avg": 0.3722581456104914, "timer/agent.train_min": 0.3608226776123047, "timer/agent.train_max": 0.38324570655822754, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2182633876800537, "timer/agent.report_frac": 0.0007272129019623952, "timer/agent.report_avg": 0.2182633876800537, "timer/agent.report_min": 0.2182633876800537, "timer/agent.report_max": 0.2182633876800537, "fps": 4.797745863448756}
{"step": 477022, "episode/length": 240.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 13.500000052154064, "episode/reward_rate": 0.04564315352697095}
{"step": 477081, "episode/length": 58.0, "episode/score": 4.099999971687794, "episode/sum_abs_reward": 6.1000000312924385, "episode/reward_rate": 0.1016949152542373}
{"step": 477289, "episode/length": 207.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 10.900000020861626, "episode/reward_rate": 0.052884615384615384}
{"step": 477508, "episode/length": 218.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 9.899999991059303, "episode/reward_rate": 0.045662100456621}
{"step": 477822, "episode/length": 313.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.03184713375796178}
{"step": 478002, "episode/length": 179.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.044444444444444446}
{"step": 478164, "episode/length": 161.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.06172839506172839}
{"step": 478374, "episode/length": 209.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.05714285714285714}
{"step": 478435, "stats/sum_log_reward": 8.475000262260437, "stats/max_log_achievement_collect_coal": 0.0, "stats/max_log_achievement_collect_drink": 2.125, "stats/max_log_achievement_collect_sapling": 1.125, "stats/max_log_achievement_collect_stone": 7.75, "stats/max_log_achievement_collect_wood": 9.375, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.25, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 2.125, "stats/max_log_achievement_place_table": 2.125, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.3867759872227907, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.517658342633928, "train/action_min": 0.0, "train/action_std": 3.360632770402091, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.043252928022827423, "train/actor_opt_grad_steps": 238315.0, "train/actor_opt_loss": -13.490374039752142, "train/adv_mag": 0.4098631207432066, "train/adv_max": 0.37608394963400704, "train/adv_mean": 0.0021392716398362867, "train/adv_min": -0.36034955084323883, "train/adv_std": 0.04963997980313642, "train/cont_avg": 0.9945870535714286, "train/cont_loss_mean": 0.00023787257309533874, "train/cont_loss_std": 0.007479024453948569, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0036406942226968955, "train/cont_pos_acc": 0.9999719168458666, "train/cont_pos_loss": 0.0002245887334847144, "train/cont_pred": 0.9945644267967769, "train/cont_rate": 0.9945870535714286, "train/dyn_loss_mean": 4.940990100588118, "train/dyn_loss_std": 8.67181077003479, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.013420385973794, "train/extr_critic_critic_opt_grad_steps": 238315.0, "train/extr_critic_critic_opt_loss": 16309.344517299107, "train/extr_critic_mag": 10.126594420841762, "train/extr_critic_max": 10.126594420841762, "train/extr_critic_mean": 2.669796121120453, "train/extr_critic_min": -0.5148700186184474, "train/extr_critic_std": 2.4365969691957745, "train/extr_return_normed_mag": 1.4482874189104353, "train/extr_return_normed_max": 1.4482874189104353, "train/extr_return_normed_mean": 0.37565526025635854, "train/extr_return_normed_min": -0.08517199786646025, "train/extr_return_normed_std": 0.3242244633180755, "train/extr_return_rate": 0.7491183425698962, "train/extr_return_raw_mag": 10.844067600795201, "train/extr_return_raw_max": 10.844067600795201, "train/extr_return_raw_mean": 2.686087610040392, "train/extr_return_raw_min": -0.8187813128743853, "train/extr_return_raw_std": 2.4659769637244087, "train/extr_reward_mag": 1.046654656955174, "train/extr_reward_max": 1.046654656955174, "train/extr_reward_mean": 0.05480645581015519, "train/extr_reward_min": -0.6530647124562945, "train/extr_reward_std": 0.2270302836384092, "train/image_loss_mean": 2.857349765300751, "train/image_loss_std": 7.565028394971575, "train/model_loss_mean": 5.873947559084211, "train/model_loss_std": 11.706011881147113, "train/model_opt_grad_norm": 27.64147332055228, "train/model_opt_grad_steps": 238126.0, "train/model_opt_loss": 11357.256584821429, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1928.5714285714287, "train/policy_entropy_mag": 2.583491717066084, "train/policy_entropy_max": 2.583491717066084, "train/policy_entropy_mean": 0.3786384403705597, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5363921748740332, "train/policy_logprob_mag": 7.438384280885969, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3787600259695734, "train/policy_logprob_min": -7.438384280885969, "train/policy_logprob_std": 0.9989718905517033, "train/policy_randomness_mag": 0.9118592015334538, "train/policy_randomness_max": 0.9118592015334538, "train/policy_randomness_mean": 0.13364275257502284, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.18932289917554174, "train/post_ent_mag": 55.51966236659459, "train/post_ent_max": 55.51966236659459, "train/post_ent_mean": 41.09766595023019, "train/post_ent_min": 19.303610965183804, "train/post_ent_std": 5.601417452948434, "train/prior_ent_mag": 76.33617390223912, "train/prior_ent_max": 76.33617390223912, "train/prior_ent_mean": 46.06506685529436, "train/prior_ent_min": 28.36088090624128, "train/prior_ent_std": 7.391246509552002, "train/rep_loss_mean": 4.940990100588118, "train/rep_loss_std": 8.67181077003479, "train/reward_avg": 0.03568498875413622, "train/reward_loss_mean": 0.05176587663590908, "train/reward_loss_std": 0.2067558529121535, "train/reward_max_data": 1.0200000047683715, "train/reward_max_pred": 1.017316494669233, "train/reward_neg_acc": 0.9944656721183232, "train/reward_neg_loss": 0.022843553125858305, "train/reward_pos_acc": 0.9858985560280936, "train/reward_pos_loss": 0.7367002470152718, "train/reward_pred": 0.035308033653668, "train/reward_rate": 0.04048549107142857, "replay/size": 478372.0, "replay/inserts": 1416.0, "replay/samples": 11328.0, "replay/insert_wait_avg": 3.806446905189988e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2566435471766412e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.32007598876953, "timer/env.step_count": 1416.0, "timer/env.step_total": 22.850385427474976, "timer/env.step_frac": 0.07608677292799255, "timer/env.step_avg": 0.01613727784426199, "timer/env.step_min": 0.0031998157501220703, "timer/env.step_max": 2.0685300827026367, "timer/replay.add_count": 1416.0, "timer/replay.add_total": 0.2724609375, "timer/replay.add_frac": 0.0009072351776781938, "timer/replay.add_avg": 0.00019241591631355932, "timer/replay.add_min": 7.390975952148438e-05, "timer/replay.add_max": 0.0011782646179199219, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030386924743652344, "timer/logger.write_frac": 0.00010118179626722211, "timer/logger.write_avg": 0.030386924743652344, "timer/logger.write_min": 0.030386924743652344, "timer/logger.write_max": 0.030386924743652344, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0006361007690429688, "timer/checkpoint.save_frac": 2.1180760791588096e-06, "timer/checkpoint.save_avg": 0.0006361007690429688, "timer/checkpoint.save_min": 0.0006361007690429688, "timer/checkpoint.save_max": 0.0006361007690429688, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4331343173980713, "timer/agent.save_frac": 0.004772023024700031, "timer/agent.save_avg": 1.4331343173980713, "timer/agent.save_min": 1.4331343173980713, "timer/agent.save_max": 1.4331343173980713, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.463859558105469e-05, "timer/replay.save_frac": 2.8182796405598856e-07, "timer/replay.save_avg": 8.463859558105469e-05, "timer/replay.save_min": 8.463859558105469e-05, "timer/replay.save_max": 8.463859558105469e-05, "timer/agent.policy_count": 1416.0, "timer/agent.policy_total": 12.373182773590088, "timer/agent.policy_frac": 0.04119998549165518, "timer/agent.policy_avg": 0.008738123427676615, "timer/agent.policy_min": 0.005611419677734375, "timer/agent.policy_max": 1.4211478233337402, "timer/dataset_count": 708.0, "timer/dataset_total": 0.0650947093963623, "timer/dataset_frac": 0.00021675110856989968, "timer/dataset_avg": 9.194167993836484e-05, "timer/dataset_min": 6.604194641113281e-05, "timer/dataset_max": 0.0001800060272216797, "timer/agent.train_count": 708.0, "timer/agent.train_total": 264.0321617126465, "timer/agent.train_frac": 0.8791692025361634, "timer/agent.train_avg": 0.3729267820800092, "timer/agent.train_min": 0.3657855987548828, "timer/agent.train_max": 0.9473121166229248, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21910715103149414, "timer/agent.report_frac": 0.0007295787679531875, "timer/agent.report_avg": 0.21910715103149414, "timer/agent.report_min": 0.21910715103149414, "timer/agent.report_max": 0.21910715103149414, "fps": 4.714906808360706}
{"step": 478632, "episode/length": 257.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.03875968992248062}
{"step": 478807, "episode/length": 174.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06285714285714286}
{"step": 479040, "episode/length": 232.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.099999994039536, "episode/reward_rate": 0.03862660944206009}
{"step": 479205, "episode/length": 164.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.06060606060606061}
{"step": 479377, "episode/length": 171.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.05813953488372093}
{"step": 479453, "episode/length": 75.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.0999999940395355, "episode/reward_rate": 0.09210526315789473}
{"step": 479664, "episode/length": 210.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.04265402843601896}
{"step": 479830, "episode/length": 165.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.060240963855421686}
{"step": 479873, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.522835625542535, "train/action_min": 0.0, "train/action_std": 3.3576103018389807, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04316826376857029, "train/actor_opt_grad_steps": 239025.0, "train/actor_opt_loss": -12.335911072997582, "train/adv_mag": 0.41889262985852027, "train/adv_max": 0.3854455722288953, "train/adv_mean": 0.002236995425442324, "train/adv_min": -0.3444082513451576, "train/adv_std": 0.04941952052629656, "train/cont_avg": 0.9950086805555556, "train/cont_loss_mean": 7.987157635290664e-05, "train/cont_loss_std": 0.002419882299019744, "train/cont_neg_acc": 0.9930555563833978, "train/cont_neg_loss": 0.017615011915874373, "train/cont_pos_acc": 0.9999863132834435, "train/cont_pos_loss": 2.3197377376031152e-05, "train/cont_pred": 0.9950126699275441, "train/cont_rate": 0.9950086805555556, "train/dyn_loss_mean": 5.061816533406575, "train/dyn_loss_std": 8.70624625020557, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.039190789891614, "train/extr_critic_critic_opt_grad_steps": 239025.0, "train/extr_critic_critic_opt_loss": 16335.150065104166, "train/extr_critic_mag": 9.949072374237907, "train/extr_critic_max": 9.949072374237907, "train/extr_critic_mean": 2.5607040425141654, "train/extr_critic_min": -0.4825991044441859, "train/extr_critic_std": 2.3695278763771057, "train/extr_return_normed_mag": 1.454371154308319, "train/extr_return_normed_max": 1.454371154308319, "train/extr_return_normed_mean": 0.36829339361025226, "train/extr_return_normed_min": -0.08782427607932025, "train/extr_return_normed_std": 0.3225169616440932, "train/extr_return_rate": 0.7354329799612364, "train/extr_return_raw_mag": 10.656989415486654, "train/extr_return_raw_max": 10.656989415486654, "train/extr_return_raw_mean": 2.577305262287458, "train/extr_return_raw_min": -0.8160391557547781, "train/extr_return_raw_std": 2.399354431364271, "train/extr_reward_mag": 1.0513305697176192, "train/extr_reward_max": 1.0513305697176192, "train/extr_reward_mean": 0.05274217935382492, "train/extr_reward_min": -0.661013224058681, "train/extr_reward_std": 0.22194064863853985, "train/image_loss_mean": 3.1447735412253275, "train/image_loss_std": 8.012304060988956, "train/model_loss_mean": 6.232185800870259, "train/model_loss_std": 12.180662678347694, "train/model_opt_grad_norm": 32.26144756211175, "train/model_opt_grad_steps": 238835.125, "train/model_opt_loss": 8700.735087076822, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1406.25, "train/policy_entropy_mag": 2.6001960833867392, "train/policy_entropy_max": 2.6001960833867392, "train/policy_entropy_mean": 0.4023965903454357, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5652038632995553, "train/policy_logprob_mag": 7.438384215037028, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4019086750017272, "train/policy_logprob_min": -7.438384215037028, "train/policy_logprob_std": 1.0160702276560996, "train/policy_randomness_mag": 0.9177551103962792, "train/policy_randomness_max": 0.9177551103962792, "train/policy_randomness_mean": 0.1420283392071724, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19949215919607216, "train/post_ent_mag": 55.03076574537489, "train/post_ent_max": 55.03076574537489, "train/post_ent_mean": 41.15475797653198, "train/post_ent_min": 19.000327269236248, "train/post_ent_std": 5.566805965370602, "train/prior_ent_mag": 76.4292008082072, "train/prior_ent_max": 76.4292008082072, "train/prior_ent_mean": 46.237691720326744, "train/prior_ent_min": 28.40533497598436, "train/prior_ent_std": 7.305556734402974, "train/rep_loss_mean": 5.061816533406575, "train/rep_loss_std": 8.70624625020557, "train/reward_avg": 0.0351074215852552, "train/reward_loss_mean": 0.05024245303745071, "train/reward_loss_std": 0.20214642687804169, "train/reward_max_data": 1.0208333383003871, "train/reward_max_pred": 1.017092181576623, "train/reward_neg_acc": 0.9944001502460904, "train/reward_neg_loss": 0.022680840015204415, "train/reward_pos_acc": 0.9914634633395407, "train/reward_pos_loss": 0.7169171373049418, "train/reward_pred": 0.03492448476350142, "train/reward_rate": 0.03965928819444445, "stats/sum_log_reward": 8.350000262260437, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 3.625, "stats/max_log_achievement_collect_sapling": 1.625, "stats/max_log_achievement_collect_stone": 6.375, "stats/max_log_achievement_collect_wood": 7.875, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.75, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 0.625, "stats/max_log_achievement_place_plant": 1.25, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 1.625, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.33866642974317074, "replay/size": 479810.0, "replay/inserts": 1438.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.841059264287829e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.269438004792151e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0540568828583, "timer/env.step_count": 1438.0, "timer/env.step_total": 20.646336793899536, "timer/env.step_frac": 0.06880872402921687, "timer/env.step_avg": 0.014357675100069219, "timer/env.step_min": 0.0031371116638183594, "timer/env.step_max": 1.7253727912902832, "timer/replay.add_count": 1438.0, "timer/replay.add_total": 0.2683422565460205, "timer/replay.add_frac": 0.0008943130425687992, "timer/replay.add_avg": 0.00018660796700001425, "timer/replay.add_min": 7.367134094238281e-05, "timer/replay.add_max": 0.0014138221740722656, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028841257095336914, "timer/logger.write_frac": 9.612020378913457e-05, "timer/logger.write_avg": 0.028841257095336914, "timer/logger.write_min": 0.028841257095336914, "timer/logger.write_max": 0.028841257095336914, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1438.0, "timer/agent.policy_total": 10.575794219970703, "timer/agent.policy_frac": 0.035246296383519705, "timer/agent.policy_avg": 0.007354516147406609, "timer/agent.policy_min": 0.005718708038330078, "timer/agent.policy_max": 0.01616954803466797, "timer/dataset_count": 719.0, "timer/dataset_total": 0.06720519065856934, "timer/dataset_frac": 0.0002239769438771707, "timer/dataset_avg": 9.347036252930367e-05, "timer/dataset_min": 6.914138793945312e-05, "timer/dataset_max": 0.00021719932556152344, "timer/agent.train_count": 719.0, "timer/agent.train_total": 267.76134872436523, "timer/agent.train_frac": 0.8923770320122678, "timer/agent.train_avg": 0.37240799544417974, "timer/agent.train_min": 0.36290669441223145, "timer/agent.train_max": 0.3882932662963867, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22004413604736328, "timer/agent.report_frac": 0.0007333483117452699, "timer/agent.report_avg": 0.22004413604736328, "timer/agent.report_min": 0.22004413604736328, "timer/agent.report_max": 0.22004413604736328, "fps": 4.792393521747393}
{"step": 480045, "episode/length": 214.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.299999997019768, "episode/reward_rate": 0.06046511627906977}
{"step": 480227, "episode/length": 181.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.07142857142857142}
{"step": 480394, "episode/length": 166.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.04790419161676647}
{"step": 480648, "episode/length": 253.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.700000002980232, "episode/reward_rate": 0.03937007874015748}
{"step": 480810, "episode/length": 161.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.700000025331974, "episode/reward_rate": 0.05555555555555555}
{"step": 481018, "episode/length": 207.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.057692307692307696}
{"step": 481154, "episode/length": 135.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 11.30000003427267, "episode/reward_rate": 0.07352941176470588}
{"step": 481323, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.512142651701627, "train/action_min": 0.0, "train/action_std": 3.388691408993447, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.043373663029442094, "train/actor_opt_grad_steps": 239750.0, "train/actor_opt_loss": -12.48946383309691, "train/adv_mag": 0.4165395792216471, "train/adv_max": 0.3781679056278647, "train/adv_mean": 0.002551596280432957, "train/adv_min": -0.3481065083856452, "train/adv_std": 0.04953905368504459, "train/cont_avg": 0.9949700342465754, "train/cont_loss_mean": 9.63424245572254e-06, "train/cont_loss_std": 0.0002608081198113972, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0007567135314098374, "train/cont_pos_acc": 0.9999999771379444, "train/cont_pos_loss": 5.693313404233229e-06, "train/cont_pred": 0.9949682216121726, "train/cont_rate": 0.9949700342465754, "train/dyn_loss_mean": 4.910209678623774, "train/dyn_loss_std": 8.679311915619733, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0688964634725493, "train/extr_critic_critic_opt_grad_steps": 239750.0, "train/extr_critic_critic_opt_loss": 16156.385956228596, "train/extr_critic_mag": 9.922331470332734, "train/extr_critic_max": 9.922331470332734, "train/extr_critic_mean": 2.67130545230761, "train/extr_critic_min": -0.5294406887603132, "train/extr_critic_std": 2.400715267821534, "train/extr_return_normed_mag": 1.4469122886657715, "train/extr_return_normed_max": 1.4469122886657715, "train/extr_return_normed_mean": 0.3801416564885884, "train/extr_return_normed_min": -0.0913299453278927, "train/extr_return_normed_std": 0.3249308221960721, "train/extr_return_rate": 0.7572836802430349, "train/extr_return_raw_mag": 10.688793404461586, "train/extr_return_raw_max": 10.688793404461586, "train/extr_return_raw_mean": 2.690463691541593, "train/extr_return_raw_min": -0.8448197719168989, "train/extr_return_raw_std": 2.436400486998362, "train/extr_reward_mag": 1.0519134998321533, "train/extr_reward_max": 1.0519134998321533, "train/extr_reward_mean": 0.052318829226575485, "train/extr_reward_min": -0.6672718426952623, "train/extr_reward_std": 0.2211174826099448, "train/image_loss_mean": 2.95167417069004, "train/image_loss_std": 7.938952935885077, "train/model_loss_mean": 5.947501744309517, "train/model_loss_std": 12.076005177955105, "train/model_opt_grad_norm": 29.427045364902444, "train/model_opt_grad_steps": 239560.0, "train/model_opt_loss": 11092.251270869006, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1866.4383561643835, "train/policy_entropy_mag": 2.6027187811185235, "train/policy_entropy_max": 2.6027187811185235, "train/policy_entropy_mean": 0.3836974362804465, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5480440218154699, "train/policy_logprob_mag": 7.438384252051785, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3827441293899327, "train/policy_logprob_min": -7.438384252051785, "train/policy_logprob_std": 1.00155401066558, "train/policy_randomness_mag": 0.9186455109348036, "train/policy_randomness_max": 0.9186455109348036, "train/policy_randomness_mean": 0.13542835516472385, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1934354893148762, "train/post_ent_mag": 55.19990696319162, "train/post_ent_max": 55.19990696319162, "train/post_ent_mean": 41.281050642875776, "train/post_ent_min": 18.801349783596926, "train/post_ent_std": 5.563057291997622, "train/prior_ent_mag": 76.49878922553911, "train/prior_ent_max": 76.49878922553911, "train/prior_ent_mean": 46.19926290642725, "train/prior_ent_min": 28.842183126162176, "train/prior_ent_std": 7.233609447740529, "train/rep_loss_mean": 4.910209678623774, "train/rep_loss_std": 8.679311915619733, "train/reward_avg": 0.035463934075342464, "train/reward_loss_mean": 0.049692061768002706, "train/reward_loss_std": 0.21106004470015224, "train/reward_max_data": 1.0232876767850902, "train/reward_max_pred": 1.0168463138684833, "train/reward_neg_acc": 0.994944254829459, "train/reward_neg_loss": 0.021300004948287793, "train/reward_pos_acc": 0.9887089084272516, "train/reward_pos_loss": 0.7366847836807983, "train/reward_pred": 0.03512681768058914, "train/reward_rate": 0.03982502140410959, "stats/sum_log_reward": 9.528571741921562, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 10.0, "stats/max_log_achievement_collect_wood": 9.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.2857142857142857, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.5714285714285714, "stats/max_log_achievement_place_furnace": 0.8571428571428571, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 5.285714285714286, "stats/max_log_achievement_place_table": 2.4285714285714284, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.3691855754171099, "replay/size": 481260.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.739225453343885e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2724769526514513e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2431950569153, "timer/env.step_count": 1450.0, "timer/env.step_total": 18.77176022529602, "timer/env.step_frac": 0.06252185073416093, "timer/env.step_avg": 0.012946041534686911, "timer/env.step_min": 0.002992391586303711, "timer/env.step_max": 1.6446034908294678, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.2712132930755615, "timer/replay.add_frac": 0.0009033120401751296, "timer/replay.add_avg": 0.000187043650396939, "timer/replay.add_min": 7.653236389160156e-05, "timer/replay.add_max": 0.0012652873992919922, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02799224853515625, "timer/logger.write_frac": 9.323191664627046e-05, "timer/logger.write_avg": 0.02799224853515625, "timer/logger.write_min": 0.02799224853515625, "timer/logger.write_max": 0.02799224853515625, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 10.484550952911377, "timer/agent.policy_frac": 0.03492019511357746, "timer/agent.policy_avg": 0.0072307247951112945, "timer/agent.policy_min": 0.00564885139465332, "timer/agent.policy_max": 0.015985488891601562, "timer/dataset_count": 725.0, "timer/dataset_total": 0.0671088695526123, "timer/dataset_frac": 0.00022351503933300097, "timer/dataset_avg": 9.256395800360318e-05, "timer/dataset_min": 6.29425048828125e-05, "timer/dataset_max": 0.00019311904907226562, "timer/agent.train_count": 725.0, "timer/agent.train_total": 269.92229986190796, "timer/agent.train_frac": 0.8990122151169502, "timer/agent.train_avg": 0.3723066204991834, "timer/agent.train_min": 0.3660438060760498, "timer/agent.train_max": 0.3868083953857422, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22075128555297852, "timer/agent.report_frac": 0.0007352415947716385, "timer/agent.report_avg": 0.22075128555297852, "timer/agent.report_min": 0.22075128555297852, "timer/agent.report_max": 0.22075128555297852, "fps": 4.8293557555430615}
{"step": 481437, "episode/length": 282.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.04240282685512368}
{"step": 481642, "episode/length": 204.0, "episode/score": 12.099999971687794, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.06829268292682927}
{"step": 481890, "episode/length": 247.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.05241935483870968}
{"step": 482061, "episode/length": 170.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.05847953216374269}
{"step": 482309, "episode/length": 247.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.04838709677419355}
{"step": 482441, "episode/length": 131.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 12.899999991059303, "episode/reward_rate": 0.09848484848484848}
{"step": 482674, "episode/length": 232.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 8.899999991059303, "episode/reward_rate": 0.03862660944206009}
{"step": 482749, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.54852724746919, "train/action_min": 0.0, "train/action_std": 3.367507800249986, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04581933788640399, "train/actor_opt_grad_steps": 240470.0, "train/actor_opt_loss": -11.44148830552651, "train/adv_mag": 0.4437905260374848, "train/adv_max": 0.3937404965850669, "train/adv_mean": 0.003134452906649553, "train/adv_min": -0.38687160275351834, "train/adv_std": 0.051110350120235494, "train/cont_avg": 0.9947045554577465, "train/cont_loss_mean": 9.515252841852152e-06, "train/cont_loss_std": 0.0002668601909116545, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0001690782464336248, "train/cont_pos_acc": 0.9999999823704572, "train/cont_pos_loss": 8.67436824592005e-06, "train/cont_pred": 0.9946976211709035, "train/cont_rate": 0.9947045554577465, "train/dyn_loss_mean": 5.070559048316848, "train/dyn_loss_std": 8.763826672459992, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0766555952354215, "train/extr_critic_critic_opt_grad_steps": 240470.0, "train/extr_critic_critic_opt_loss": 16367.588427046654, "train/extr_critic_mag": 10.149113708818463, "train/extr_critic_max": 10.149113708818463, "train/extr_critic_mean": 2.6733617900123057, "train/extr_critic_min": -0.5389546793951115, "train/extr_critic_std": 2.4633034484487184, "train/extr_return_normed_mag": 1.4488960907492838, "train/extr_return_normed_max": 1.4488960907492838, "train/extr_return_normed_mean": 0.37472078539955783, "train/extr_return_normed_min": -0.0922302240112298, "train/extr_return_normed_std": 0.32836866966435607, "train/extr_return_rate": 0.7500944884730057, "train/extr_return_raw_mag": 10.888865296269806, "train/extr_return_raw_max": 10.888865296269806, "train/extr_return_raw_mean": 2.697267621335849, "train/extr_return_raw_min": -0.8632492112441802, "train/extr_return_raw_std": 2.5037436031959426, "train/extr_reward_mag": 1.0503558944648421, "train/extr_reward_max": 1.0503558944648421, "train/extr_reward_mean": 0.05415310773631217, "train/extr_reward_min": -0.6642369132646373, "train/extr_reward_std": 0.22527357935905457, "train/image_loss_mean": 3.027367329933274, "train/image_loss_std": 8.106223220556554, "train/model_loss_mean": 6.119668879979093, "train/model_loss_std": 12.260597443916428, "train/model_opt_grad_norm": 28.929873923180807, "train/model_opt_grad_steps": 240279.8309859155, "train/model_opt_loss": 14109.16152481294, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2288.7323943661972, "train/policy_entropy_mag": 2.608970924162529, "train/policy_entropy_max": 2.608970924162529, "train/policy_entropy_mean": 0.40149505961109216, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5664088893944109, "train/policy_logprob_mag": 7.438384230707733, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4009740134360085, "train/policy_logprob_min": -7.438384230707733, "train/policy_logprob_std": 1.0172668216933667, "train/policy_randomness_mag": 0.9208522464188051, "train/policy_randomness_max": 0.9208522464188051, "train/policy_randomness_mean": 0.14171013708265734, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19991748328779785, "train/post_ent_mag": 55.176822716081645, "train/post_ent_max": 55.176822716081645, "train/post_ent_mean": 41.087831040503275, "train/post_ent_min": 18.859144076495102, "train/post_ent_std": 5.594709994087757, "train/prior_ent_mag": 76.4595512067768, "train/prior_ent_max": 76.4595512067768, "train/prior_ent_mean": 46.1607382331096, "train/prior_ent_min": 28.396841290970922, "train/prior_ent_std": 7.302446741453359, "train/rep_loss_mean": 5.070559048316848, "train/rep_loss_std": 8.763826672459992, "train/reward_avg": 0.035171379427045166, "train/reward_loss_mean": 0.049956622887665114, "train/reward_loss_std": 0.20288009962565462, "train/reward_max_data": 1.0197183145603663, "train/reward_max_pred": 1.0192254630612656, "train/reward_neg_acc": 0.9945697230352483, "train/reward_neg_loss": 0.02207332854749451, "train/reward_pos_acc": 0.9907357524818098, "train/reward_pos_loss": 0.7211683031538842, "train/reward_pred": 0.03505470719135983, "train/reward_rate": 0.039805237676056336, "stats/sum_log_reward": 10.528571741921562, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 2.2857142857142856, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 9.571428571428571, "stats/max_log_achievement_collect_wood": 10.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5714285714285714, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2857142857142858, "stats/max_log_achievement_place_furnace": 1.1428571428571428, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 4.285714285714286, "stats/max_log_achievement_place_table": 2.7142857142857144, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.46261116010802134, "replay/size": 482686.0, "replay/inserts": 1426.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 3.760192036461529e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2666404999656732e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.03225469589233, "timer/env.step_count": 1426.0, "timer/env.step_total": 20.49662184715271, "timer/env.step_frac": 0.06831472792126214, "timer/env.step_avg": 0.014373507606698956, "timer/env.step_min": 0.0032236576080322266, "timer/env.step_max": 2.0430712699890137, "timer/replay.add_count": 1426.0, "timer/replay.add_total": 0.2595639228820801, "timer/replay.add_frac": 0.0008651200623251981, "timer/replay.add_avg": 0.00018202238631281914, "timer/replay.add_min": 7.843971252441406e-05, "timer/replay.add_max": 0.0014753341674804688, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02963423728942871, "timer/logger.write_frac": 9.877017162526568e-05, "timer/logger.write_avg": 0.02963423728942871, "timer/logger.write_min": 0.02963423728942871, "timer/logger.write_max": 0.02963423728942871, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00040030479431152344, "timer/checkpoint.save_frac": 1.334205866356821e-06, "timer/checkpoint.save_avg": 0.00040030479431152344, "timer/checkpoint.save_min": 0.00040030479431152344, "timer/checkpoint.save_max": 0.00040030479431152344, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3572025299072266, "timer/agent.save_frac": 0.0045235220835935265, "timer/agent.save_avg": 1.3572025299072266, "timer/agent.save_min": 1.3572025299072266, "timer/agent.save_max": 1.3572025299072266, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.894371032714844e-05, "timer/replay.save_frac": 3.2977691157717735e-07, "timer/replay.save_avg": 9.894371032714844e-05, "timer/replay.save_min": 9.894371032714844e-05, "timer/replay.save_max": 9.894371032714844e-05, "timer/agent.policy_count": 1426.0, "timer/agent.policy_total": 12.348227739334106, "timer/agent.policy_frac": 0.041156334180970186, "timer/agent.policy_avg": 0.008659346240767255, "timer/agent.policy_min": 0.0057032108306884766, "timer/agent.policy_max": 1.3504846096038818, "timer/dataset_count": 713.0, "timer/dataset_total": 0.0651242733001709, "timer/dataset_frac": 0.00021705757391377728, "timer/dataset_avg": 9.133839172534488e-05, "timer/dataset_min": 7.05718994140625e-05, "timer/dataset_max": 0.0001494884490966797, "timer/agent.train_count": 713.0, "timer/agent.train_total": 266.13123297691345, "timer/agent.train_frac": 0.8870087425988903, "timer/agent.train_avg": 0.37325558622288, "timer/agent.train_min": 0.3662087917327881, "timer/agent.train_max": 0.9558122158050537, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22137212753295898, "timer/agent.report_frac": 0.0007378277637427285, "timer/agent.report_avg": 0.22137212753295898, "timer/agent.report_min": 0.22137212753295898, "timer/agent.report_max": 0.22137212753295898, "fps": 4.752751762118685}
{"step": 482832, "episode/length": 157.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.06329113924050633}
{"step": 482986, "episode/length": 153.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.07792207792207792}
{"step": 483173, "episode/length": 186.0, "episode/score": 11.099999979138374, "episode/sum_abs_reward": 12.900000020861626, "episode/reward_rate": 0.06417112299465241}
{"step": 483338, "episode/length": 164.0, "episode/score": 11.100000016391277, "episode/sum_abs_reward": 12.100000031292439, "episode/reward_rate": 0.07272727272727272}
{"step": 483648, "episode/length": 309.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.03870967741935484}
{"step": 483710, "episode/length": 61.0, "episode/score": 4.099999971687794, "episode/sum_abs_reward": 6.1000000312924385, "episode/reward_rate": 0.0967741935483871}
{"step": 484124, "episode/length": 413.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.026570048309178744}
{"step": 484195, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.528109232584636, "train/action_min": 0.0, "train/action_std": 3.406138473086887, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.044180873367521495, "train/actor_opt_grad_steps": 241185.0, "train/actor_opt_loss": -15.08671516345607, "train/adv_mag": 0.4158165032664935, "train/adv_max": 0.36155453821023303, "train/adv_mean": 0.0015887715705199905, "train/adv_min": -0.37888319190177655, "train/adv_std": 0.049576758303576045, "train/cont_avg": 0.9944390190972222, "train/cont_loss_mean": 8.583800365514883e-05, "train/cont_loss_std": 0.0026342647733328148, "train/cont_neg_acc": 0.9930555555555556, "train/cont_neg_loss": 0.03762963998030955, "train/cont_pos_acc": 0.9999999817874696, "train/cont_pos_loss": 1.0551552558456399e-05, "train/cont_pred": 0.9944446782271067, "train/cont_rate": 0.9944390190972222, "train/dyn_loss_mean": 5.111909677584966, "train/dyn_loss_std": 8.71829061375724, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0316750506560008, "train/extr_critic_critic_opt_grad_steps": 241185.0, "train/extr_critic_critic_opt_loss": 16175.044135199652, "train/extr_critic_mag": 10.243018560939365, "train/extr_critic_max": 10.243018560939365, "train/extr_critic_mean": 2.7463152938418918, "train/extr_critic_min": -0.549086782667372, "train/extr_critic_std": 2.532807730966144, "train/extr_return_normed_mag": 1.4316554135746427, "train/extr_return_normed_max": 1.4316554135746427, "train/extr_return_normed_mean": 0.3749982923683193, "train/extr_return_normed_min": -0.08962009091758066, "train/extr_return_normed_std": 0.3296542813380559, "train/extr_return_rate": 0.7432599514722824, "train/extr_return_raw_mag": 10.980983005629646, "train/extr_return_raw_max": 10.980983005629646, "train/extr_return_raw_mean": 2.758667947517501, "train/extr_return_raw_min": -0.8564015560679965, "train/extr_return_raw_std": 2.5650894112057157, "train/extr_reward_mag": 1.050097366174062, "train/extr_reward_max": 1.050097366174062, "train/extr_reward_mean": 0.053625236394711666, "train/extr_reward_min": -0.6852045042647256, "train/extr_reward_std": 0.22455166321661738, "train/image_loss_mean": 3.063575095600552, "train/image_loss_std": 8.144386801454756, "train/model_loss_mean": 6.18171794546975, "train/model_loss_std": 12.281387037701077, "train/model_opt_grad_norm": 29.86372170183394, "train/model_opt_grad_steps": 240994.0, "train/model_opt_loss": 7727.14739312066, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.6038733886347876, "train/policy_entropy_max": 2.6038733886347876, "train/policy_entropy_mean": 0.3944324155648549, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5534256493879689, "train/policy_logprob_mag": 7.438384274641673, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39495774048070115, "train/policy_logprob_min": -7.438384274641673, "train/policy_logprob_std": 1.012840073969629, "train/policy_randomness_mag": 0.9190530396170087, "train/policy_randomness_max": 0.9190530396170087, "train/policy_randomness_mean": 0.13921733397162622, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19533496712230974, "train/post_ent_mag": 54.68981271319919, "train/post_ent_max": 54.68981271319919, "train/post_ent_mean": 41.059862772623696, "train/post_ent_min": 19.13151348961724, "train/post_ent_std": 5.547082278463575, "train/prior_ent_mag": 76.32438564300537, "train/prior_ent_max": 76.32438564300537, "train/prior_ent_mean": 46.14501020643446, "train/prior_ent_min": 28.51693884531657, "train/prior_ent_std": 7.275942020946079, "train/rep_loss_mean": 5.111909677584966, "train/rep_loss_std": 8.71829061375724, "train/reward_avg": 0.035456000180501074, "train/reward_loss_mean": 0.05091125311123, "train/reward_loss_std": 0.1986769868267907, "train/reward_max_data": 1.0180555598603354, "train/reward_max_pred": 1.016859256558948, "train/reward_neg_acc": 0.9947563757499059, "train/reward_neg_loss": 0.02278707754643013, "train/reward_pos_acc": 0.9915311427579986, "train/reward_pos_loss": 0.7174199860956934, "train/reward_pred": 0.035207100238444075, "train/reward_rate": 0.04039171006944445, "stats/sum_log_reward": 9.671428884778704, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 2.142857142857143, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 17.857142857142858, "stats/max_log_achievement_collect_wood": 7.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.2857142857142857, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.142857142857143, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 7.0, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.43603687839848654, "replay/size": 484132.0, "replay/inserts": 1446.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.7896352849725537e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2914133599520058e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2596504688263, "timer/env.step_count": 1446.0, "timer/env.step_total": 19.289791584014893, "timer/env.step_frac": 0.06424370225535052, "timer/env.step_avg": 0.013340104829885818, "timer/env.step_min": 0.003077983856201172, "timer/env.step_max": 1.7763662338256836, "timer/replay.add_count": 1446.0, "timer/replay.add_total": 0.27927088737487793, "timer/replay.add_frac": 0.0009300979566812375, "timer/replay.add_avg": 0.0001931333937585601, "timer/replay.add_min": 6.818771362304688e-05, "timer/replay.add_max": 0.0019488334655761719, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.031178712844848633, "timer/logger.write_frac": 0.00010383916985237977, "timer/logger.write_avg": 0.031178712844848633, "timer/logger.write_min": 0.031178712844848633, "timer/logger.write_max": 0.031178712844848633, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1446.0, "timer/agent.policy_total": 10.648325443267822, "timer/agent.policy_frac": 0.03546372423547918, "timer/agent.policy_avg": 0.007363987166851883, "timer/agent.policy_min": 0.005689859390258789, "timer/agent.policy_max": 0.018636226654052734, "timer/dataset_count": 723.0, "timer/dataset_total": 0.06807279586791992, "timer/dataset_frac": 0.0002267130990182359, "timer/dataset_avg": 9.415324463059464e-05, "timer/dataset_min": 6.580352783203125e-05, "timer/dataset_max": 0.0001938343048095703, "timer/agent.train_count": 723.0, "timer/agent.train_total": 269.2351076602936, "timer/agent.train_frac": 0.8966742858719415, "timer/agent.train_avg": 0.3723860410239192, "timer/agent.train_min": 0.3652684688568115, "timer/agent.train_max": 0.42178964614868164, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22144579887390137, "timer/agent.report_frac": 0.0007375143430965008, "timer/agent.report_avg": 0.22144579887390137, "timer/agent.report_min": 0.22144579887390137, "timer/agent.report_max": 0.22144579887390137, "fps": 4.815727111660066}
{"step": 484294, "episode/length": 169.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.07058823529411765}
{"step": 484477, "episode/length": 182.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.06557377049180328}
{"step": 484631, "episode/length": 153.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.06493506493506493}
{"step": 484807, "episode/length": 175.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.05113636363636364}
{"step": 485017, "episode/length": 209.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.05714285714285714}
{"step": 485430, "episode/length": 412.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 12.500000059604645, "episode/reward_rate": 0.024213075060532687}
{"step": 485607, "episode/length": 176.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.062146892655367235}
{"step": 485651, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.541845034246576, "train/action_min": 0.0, "train/action_std": 3.3835378346377856, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04450822636893351, "train/actor_opt_grad_steps": 241910.0, "train/actor_opt_loss": -12.593912772936363, "train/adv_mag": 0.42047165191336855, "train/adv_max": 0.37152699452556975, "train/adv_mean": 0.002470777010423935, "train/adv_min": -0.37249591497525775, "train/adv_std": 0.05039120271597823, "train/cont_avg": 0.9948897688356164, "train/cont_loss_mean": 0.00031833987308134166, "train/cont_loss_std": 0.01006050623302817, "train/cont_neg_acc": 0.9902968039251354, "train/cont_neg_loss": 0.026730127298708807, "train/cont_pos_acc": 0.9999596239769295, "train/cont_pos_loss": 0.0002076552466950775, "train/cont_pred": 0.9948817467036313, "train/cont_rate": 0.9948897688356164, "train/dyn_loss_mean": 5.1244059784771645, "train/dyn_loss_std": 8.730467855113826, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9993844693654204, "train/extr_critic_critic_opt_grad_steps": 241910.0, "train/extr_critic_critic_opt_loss": 16479.987090646406, "train/extr_critic_mag": 10.174098341432336, "train/extr_critic_max": 10.174098341432336, "train/extr_critic_mean": 2.6637572311375237, "train/extr_critic_min": -0.570296483497097, "train/extr_critic_std": 2.4724860746566564, "train/extr_return_normed_mag": 1.4429413913047477, "train/extr_return_normed_max": 1.4429413913047477, "train/extr_return_normed_mean": 0.36873591089085356, "train/extr_return_normed_min": -0.0915586992281757, "train/extr_return_normed_std": 0.32414584045540795, "train/extr_return_rate": 0.7446659558439908, "train/extr_return_raw_mag": 10.99183358231636, "train/extr_return_raw_max": 10.99183358231636, "train/extr_return_raw_mean": 2.682887314117118, "train/extr_return_raw_min": -0.8781026961052254, "train/extr_return_raw_std": 2.507693104547997, "train/extr_reward_mag": 1.040186251679512, "train/extr_reward_max": 1.040186251679512, "train/extr_reward_mean": 0.054592196178967003, "train/extr_reward_min": -0.6929296712352805, "train/extr_reward_std": 0.22627590086362134, "train/image_loss_mean": 3.124060147429166, "train/image_loss_std": 8.163839634150674, "train/model_loss_mean": 6.248899583947169, "train/model_loss_std": 12.32046852373097, "train/model_opt_grad_norm": 31.650117090303603, "train/model_opt_grad_steps": 241718.698630137, "train/model_opt_loss": 11476.562319402825, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1849.3150684931506, "train/policy_entropy_mag": 2.5979075725764442, "train/policy_entropy_max": 2.5979075725764442, "train/policy_entropy_mean": 0.37504180918817653, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5356808806935401, "train/policy_logprob_mag": 7.438384258583801, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37531019094055645, "train/policy_logprob_min": -7.438384258583801, "train/policy_logprob_std": 0.9972142634326464, "train/policy_randomness_mag": 0.9169473680731368, "train/policy_randomness_max": 0.9169473680731368, "train/policy_randomness_mean": 0.13237329888833713, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1890718455183996, "train/post_ent_mag": 54.89283611349864, "train/post_ent_max": 54.89283611349864, "train/post_ent_mean": 41.065904643437634, "train/post_ent_min": 19.10766110354907, "train/post_ent_std": 5.627740696684955, "train/prior_ent_mag": 76.41654571115154, "train/prior_ent_max": 76.41654571115154, "train/prior_ent_mean": 46.17789067307564, "train/prior_ent_min": 28.680042501998273, "train/prior_ent_std": 7.276252975202587, "train/rep_loss_mean": 5.1244059784771645, "train/rep_loss_std": 8.730467855113826, "train/reward_avg": 0.033763645140275564, "train/reward_loss_mean": 0.04987753356156284, "train/reward_loss_std": 0.2022299497094873, "train/reward_max_data": 1.0109589067223954, "train/reward_max_pred": 1.0121291206307608, "train/reward_neg_acc": 0.9951182971261952, "train/reward_neg_loss": 0.02290711070933979, "train/reward_pos_acc": 0.9908481395407899, "train/reward_pos_loss": 0.7220521936677906, "train/reward_pred": 0.03368322153205741, "train/reward_rate": 0.038567529965753425, "stats/sum_log_reward": 9.957143238612584, "stats/max_log_achievement_collect_coal": 0.8571428571428571, "stats/max_log_achievement_collect_drink": 4.0, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 9.714285714285714, "stats/max_log_achievement_collect_wood": 10.857142857142858, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.2857142857142857, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.1428571428571428, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 3.4285714285714284, "stats/max_log_achievement_place_table": 2.2857142857142856, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.3483502630676542, "replay/size": 485588.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.335403872060252e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3744069652242976e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2140245437622, "timer/env.step_count": 1456.0, "timer/env.step_total": 18.524423122406006, "timer/env.step_frac": 0.0617040564662418, "timer/env.step_avg": 0.012722818078575553, "timer/env.step_min": 0.002821683883666992, "timer/env.step_max": 1.523122787475586, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.29221320152282715, "timer/replay.add_frac": 0.0009733496027272744, "timer/replay.add_avg": 0.0002006958801667769, "timer/replay.add_min": 7.271766662597656e-05, "timer/replay.add_max": 0.0009849071502685547, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.031133651733398438, "timer/logger.write_frac": 0.000103704854497429, "timer/logger.write_avg": 0.031133651733398438, "timer/logger.write_min": 0.031133651733398438, "timer/logger.write_max": 0.031133651733398438, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 11.089540719985962, "timer/agent.policy_frac": 0.03693878304599137, "timer/agent.policy_avg": 0.007616442802188161, "timer/agent.policy_min": 0.0059719085693359375, "timer/agent.policy_max": 0.01659083366394043, "timer/dataset_count": 728.0, "timer/dataset_total": 0.06484794616699219, "timer/dataset_frac": 0.00021600571880524955, "timer/dataset_avg": 8.907684913048378e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.00021314620971679688, "timer/agent.train_count": 728.0, "timer/agent.train_total": 269.5573687553406, "timer/agent.train_frac": 0.8978839984740526, "timer/agent.train_avg": 0.3702711109276656, "timer/agent.train_min": 0.3622126579284668, "timer/agent.train_max": 0.3891470432281494, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2191028594970703, "timer/agent.report_frac": 0.0007298221987798298, "timer/agent.report_avg": 0.2191028594970703, "timer/agent.report_min": 0.2191028594970703, "timer/agent.report_max": 0.2191028594970703, "fps": 4.849769739386399}
{"step": 485812, "episode/length": 204.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.05365853658536585}
{"step": 485968, "episode/length": 155.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.0641025641025641}
{"step": 486130, "episode/length": 161.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.900000050663948, "episode/reward_rate": 0.07407407407407407}
{"step": 486171, "episode/length": 40.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 7.700000025331974, "episode/reward_rate": 0.17073170731707318}
{"step": 486470, "episode/length": 298.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.046822742474916385}
{"step": 486688, "episode/length": 217.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.03669724770642202}
{"step": 486898, "episode/length": 209.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.299999997019768, "episode/reward_rate": 0.06190476190476191}
{"step": 487063, "episode/length": 164.0, "episode/score": 10.099999971687794, "episode/sum_abs_reward": 12.900000043213367, "episode/reward_rate": 0.07272727272727272}
{"step": 487071, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.501249931227993, "train/action_min": 0.0, "train/action_std": 3.3677648490583394, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.043506959322052945, "train/actor_opt_grad_steps": 242630.0, "train/actor_opt_loss": -12.2344426840124, "train/adv_mag": 0.46326052974647197, "train/adv_max": 0.41853781695097264, "train/adv_mean": 0.002353351721441714, "train/adv_min": -0.37445966794457236, "train/adv_std": 0.04993387909842209, "train/cont_avg": 0.9946495378521126, "train/cont_loss_mean": 5.5843902579210766e-05, "train/cont_loss_std": 0.001714099360139993, "train/cont_neg_acc": 0.9971830987594497, "train/cont_neg_loss": 0.010588003501024885, "train/cont_pos_acc": 0.9999999848889632, "train/cont_pos_loss": 3.828100989427236e-06, "train/cont_pred": 0.9946620103339074, "train/cont_rate": 0.9946495378521126, "train/dyn_loss_mean": 5.010112218453851, "train/dyn_loss_std": 8.681564566115258, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0983302425330794, "train/extr_critic_critic_opt_grad_steps": 242630.0, "train/extr_critic_critic_opt_loss": 16291.413814920774, "train/extr_critic_mag": 10.521642187951317, "train/extr_critic_max": 10.521642187951317, "train/extr_critic_mean": 2.6639167372609527, "train/extr_critic_min": -0.5284524517999568, "train/extr_critic_std": 2.509170456671379, "train/extr_return_normed_mag": 1.4635902156292553, "train/extr_return_normed_max": 1.4635902156292553, "train/extr_return_normed_mean": 0.37162349026807595, "train/extr_return_normed_min": -0.08673071562194488, "train/extr_return_normed_std": 0.3302652984857559, "train/extr_return_rate": 0.7498285686466056, "train/extr_return_raw_mag": 11.074911856315506, "train/extr_return_raw_max": 11.074911856315506, "train/extr_return_raw_mean": 2.6819948646384226, "train/extr_return_raw_min": -0.8417234958057672, "train/extr_return_raw_std": 2.5385686410984523, "train/extr_reward_mag": 1.0432415881627042, "train/extr_reward_max": 1.0432415881627042, "train/extr_reward_mean": 0.051896450175365934, "train/extr_reward_min": -0.6561196135803008, "train/extr_reward_std": 0.22082682646496196, "train/image_loss_mean": 2.9369782813837833, "train/image_loss_std": 7.8751129835424285, "train/model_loss_mean": 5.993480541336704, "train/model_loss_std": 11.999381495193697, "train/model_opt_grad_norm": 28.425825253338882, "train/model_opt_grad_steps": 242438.0, "train/model_opt_loss": 7491.850668463909, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.5951493458009103, "train/policy_entropy_max": 2.5951493458009103, "train/policy_entropy_mean": 0.38579730479650093, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5453987830961254, "train/policy_logprob_mag": 7.4383842172757, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3859795739113445, "train/policy_logprob_min": -7.4383842172757, "train/policy_logprob_std": 1.0064421136614303, "train/policy_randomness_mag": 0.91597383290949, "train/policy_randomness_max": 0.91597383290949, "train/policy_randomness_mean": 0.1361695180686427, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19250183730897769, "train/post_ent_mag": 54.93998820345167, "train/post_ent_max": 54.93998820345167, "train/post_ent_mean": 41.155447409186564, "train/post_ent_min": 19.16468580004195, "train/post_ent_std": 5.605356337318958, "train/prior_ent_mag": 76.44715333320725, "train/prior_ent_max": 76.44715333320725, "train/prior_ent_mean": 46.18727552387077, "train/prior_ent_min": 28.809100674911285, "train/prior_ent_std": 7.262596204247274, "train/rep_loss_mean": 5.010112218453851, "train/rep_loss_std": 8.681564566115258, "train/reward_avg": 0.03468859998483054, "train/reward_loss_mean": 0.05037905275821686, "train/reward_loss_std": 0.20069150626659393, "train/reward_max_data": 1.0211267656003926, "train/reward_max_pred": 1.0210086090463988, "train/reward_neg_acc": 0.995244775859403, "train/reward_neg_loss": 0.022546644434070503, "train/reward_pos_acc": 0.9899255507428881, "train/reward_pos_loss": 0.7258885418865043, "train/reward_pred": 0.03439750252160388, "train/reward_rate": 0.03953014964788732, "stats/sum_log_reward": 9.600000321865082, "stats/max_log_achievement_collect_coal": 1.875, "stats/max_log_achievement_collect_drink": 1.875, "stats/max_log_achievement_collect_sapling": 1.875, "stats/max_log_achievement_collect_stone": 12.75, "stats/max_log_achievement_collect_wood": 7.875, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.375, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 2.0, "stats/max_log_achievement_place_table": 1.875, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.32861505448818207, "replay/size": 487008.0, "replay/inserts": 1420.0, "replay/samples": 11360.0, "replay/insert_wait_avg": 3.306630631567727e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3767203814546826e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.03847217559814, "timer/env.step_count": 1420.0, "timer/env.step_total": 20.52139687538147, "timer/env.step_frac": 0.06839588512292943, "timer/env.step_avg": 0.014451687940409486, "timer/env.step_min": 0.0031027793884277344, "timer/env.step_max": 1.575103521347046, "timer/replay.add_count": 1420.0, "timer/replay.add_total": 0.30333757400512695, "timer/replay.add_frac": 0.0010109955960167602, "timer/replay.add_avg": 0.00021361800986276547, "timer/replay.add_min": 6.341934204101562e-05, "timer/replay.add_max": 0.0009624958038330078, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02488851547241211, "timer/logger.write_frac": 8.295108054625093e-05, "timer/logger.write_avg": 0.02488851547241211, "timer/logger.write_min": 0.02488851547241211, "timer/logger.write_max": 0.02488851547241211, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002913475036621094, "timer/checkpoint.save_frac": 9.710338195949672e-07, "timer/checkpoint.save_avg": 0.0002913475036621094, "timer/checkpoint.save_min": 0.0002913475036621094, "timer/checkpoint.save_max": 0.0002913475036621094, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3466522693634033, "timer/agent.save_frac": 0.0044882653201062574, "timer/agent.save_avg": 1.3466522693634033, "timer/agent.save_min": 1.3466522693634033, "timer/agent.save_max": 1.3466522693634033, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.510185241699219e-05, "timer/replay.save_frac": 2.503074084880644e-07, "timer/replay.save_avg": 7.510185241699219e-05, "timer/replay.save_min": 7.510185241699219e-05, "timer/replay.save_max": 7.510185241699219e-05, "timer/agent.policy_count": 1420.0, "timer/agent.policy_total": 15.380822896957397, "timer/agent.policy_frac": 0.051262835680471464, "timer/agent.policy_avg": 0.010831565420392533, "timer/agent.policy_min": 0.006029367446899414, "timer/agent.policy_max": 3.1884994506835938, "timer/dataset_count": 710.0, "timer/dataset_total": 0.06347322463989258, "timer/dataset_frac": 0.00021155028613378867, "timer/dataset_avg": 8.939890794351067e-05, "timer/dataset_min": 5.7697296142578125e-05, "timer/dataset_max": 0.0001895427703857422, "timer/agent.train_count": 710.0, "timer/agent.train_total": 263.105028629303, "timer/agent.train_frac": 0.8769043073760228, "timer/agent.train_avg": 0.3705704628581732, "timer/agent.train_min": 0.36275267601013184, "timer/agent.train_max": 0.5160043239593506, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20258641242980957, "timer/agent.report_frac": 0.000675201453203126, "timer/agent.report_avg": 0.20258641242980957, "timer/agent.report_min": 0.20258641242980957, "timer/agent.report_max": 0.20258641242980957, "fps": 4.732619324535266}
{"step": 487340, "episode/length": 276.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.04693140794223827}
{"step": 487636, "episode/length": 295.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.030405405405405407}
{"step": 487800, "episode/length": 163.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.500000022351742, "episode/reward_rate": 0.04878048780487805}
{"step": 487969, "episode/length": 168.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.07692307692307693}
{"step": 488188, "episode/length": 218.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.0547945205479452}
{"step": 488394, "episode/length": 205.0, "episode/score": 10.100000016391277, "episode/sum_abs_reward": 13.1000000461936, "episode/reward_rate": 0.05825242718446602}
{"step": 488533, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.5942926276220035, "train/action_min": 0.0, "train/action_std": 3.421445372986467, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.044697719179604155, "train/actor_opt_grad_steps": 243350.0, "train/actor_opt_loss": -14.281451959316044, "train/adv_mag": 0.46986342497067907, "train/adv_max": 0.4322386290112587, "train/adv_mean": 0.0022074381684430203, "train/adv_min": -0.3833120832704518, "train/adv_std": 0.05141394473101995, "train/cont_avg": 0.994314533390411, "train/cont_loss_mean": 0.000137045867614059, "train/cont_loss_std": 0.004304565988430312, "train/cont_neg_acc": 0.9980430537707186, "train/cont_neg_loss": 0.019605390907624858, "train/cont_pos_acc": 0.9999999812204544, "train/cont_pos_loss": 3.635074525758782e-06, "train/cont_pred": 0.9943273385910139, "train/cont_rate": 0.994314533390411, "train/dyn_loss_mean": 5.1599731249352025, "train/dyn_loss_std": 8.78879255791233, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0488603392692462, "train/extr_critic_critic_opt_grad_steps": 243350.0, "train/extr_critic_critic_opt_loss": 16310.45917166096, "train/extr_critic_mag": 10.318408064646263, "train/extr_critic_max": 10.318408064646263, "train/extr_critic_mean": 2.745856131592842, "train/extr_critic_min": -0.5303194669828023, "train/extr_critic_std": 2.5528017658076876, "train/extr_return_normed_mag": 1.4742637742055607, "train/extr_return_normed_max": 1.4742637742055607, "train/extr_return_normed_mean": 0.3831800397944777, "train/extr_return_normed_min": -0.08924032303772561, "train/extr_return_normed_std": 0.3380211946898944, "train/extr_return_rate": 0.734091432127234, "train/extr_return_raw_mag": 11.116077762760527, "train/extr_return_raw_max": 11.116077762760527, "train/extr_return_raw_mean": 2.762766852770766, "train/extr_return_raw_min": -0.8541581532726549, "train/extr_return_raw_std": 2.5879116646231037, "train/extr_reward_mag": 1.0495736435668108, "train/extr_reward_max": 1.0495736435668108, "train/extr_reward_mean": 0.053985197785986615, "train/extr_reward_min": -0.6675597837526505, "train/extr_reward_std": 0.2247559171016902, "train/image_loss_mean": 3.093805430686637, "train/image_loss_std": 8.199339246096676, "train/model_loss_mean": 6.243403506605593, "train/model_loss_std": 12.387797420972014, "train/model_opt_grad_norm": 30.895391425041304, "train/model_opt_grad_steps": 243157.65753424657, "train/model_opt_loss": 12156.949051530393, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1952.054794520548, "train/policy_entropy_mag": 2.6015420188642526, "train/policy_entropy_max": 2.6015420188642526, "train/policy_entropy_mean": 0.3988933846966861, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5639865210611527, "train/policy_logprob_mag": 7.438384278179848, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3990072391621054, "train/policy_logprob_min": -7.438384278179848, "train/policy_logprob_std": 1.0179529141073358, "train/policy_randomness_mag": 0.9182301686234671, "train/policy_randomness_max": 0.9182301686234671, "train/policy_randomness_mean": 0.14079185993704077, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19906249325977612, "train/post_ent_mag": 55.19040099888632, "train/post_ent_max": 55.19040099888632, "train/post_ent_mean": 40.94264137581603, "train/post_ent_min": 19.14555782161347, "train/post_ent_std": 5.59298098577212, "train/prior_ent_mag": 76.30832682570366, "train/prior_ent_max": 76.30832682570366, "train/prior_ent_mean": 46.13533532129575, "train/prior_ent_min": 28.215654085760246, "train/prior_ent_std": 7.3667050649042, "train/rep_loss_mean": 5.1599731249352025, "train/rep_loss_std": 8.78879255791233, "train/reward_avg": 0.03738896566608997, "train/reward_loss_mean": 0.05347713231019778, "train/reward_loss_std": 0.21474008792883728, "train/reward_max_data": 1.028767130146288, "train/reward_max_pred": 1.024648277726892, "train/reward_neg_acc": 0.9943992928282855, "train/reward_neg_loss": 0.02341131305908912, "train/reward_pos_acc": 0.987588350086996, "train/reward_pos_loss": 0.7396419293259922, "train/reward_pred": 0.037014576568178935, "train/reward_rate": 0.04216609589041096, "stats/sum_log_reward": 10.100000143051147, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 3.3333333333333335, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 8.833333333333334, "stats/max_log_achievement_collect_wood": 11.5, "stats/max_log_achievement_defeat_skeleton": 0.3333333333333333, "stats/max_log_achievement_defeat_zombie": 0.16666666666666666, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_stone": 1.8333333333333333, "stats/max_log_achievement_place_table": 2.8333333333333335, "stats/max_log_achievement_wake_up": 1.6666666666666667, "stats/mean_log_entropy": 0.5140680000185966, "replay/size": 488470.0, "replay/inserts": 1462.0, "replay/samples": 11696.0, "replay/insert_wait_avg": 3.3694970460988265e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3750856780484013e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1191828250885, "timer/env.step_count": 1462.0, "timer/env.step_total": 17.56357741355896, "timer/env.step_frac": 0.05852200865079368, "timer/env.step_avg": 0.01201339084374758, "timer/env.step_min": 0.0025534629821777344, "timer/env.step_max": 1.6584126949310303, "timer/replay.add_count": 1462.0, "timer/replay.add_total": 0.2886061668395996, "timer/replay.add_frac": 0.0009616385201468486, "timer/replay.add_avg": 0.0001974050388779751, "timer/replay.add_min": 6.508827209472656e-05, "timer/replay.add_max": 0.0012767314910888672, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024674654006958008, "timer/logger.write_frac": 8.221618416620361e-05, "timer/logger.write_avg": 0.024674654006958008, "timer/logger.write_min": 0.024674654006958008, "timer/logger.write_max": 0.024674654006958008, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1462.0, "timer/agent.policy_total": 11.109773397445679, "timer/agent.policy_frac": 0.03701787167640174, "timer/agent.policy_avg": 0.007599024211659151, "timer/agent.policy_min": 0.0057828426361083984, "timer/agent.policy_max": 0.016202211380004883, "timer/dataset_count": 731.0, "timer/dataset_total": 0.06594371795654297, "timer/dataset_frac": 0.000219725101660614, "timer/dataset_avg": 9.021028448227493e-05, "timer/dataset_min": 6.031990051269531e-05, "timer/dataset_max": 0.0010919570922851562, "timer/agent.train_count": 731.0, "timer/agent.train_total": 270.42376375198364, "timer/agent.train_frac": 0.901054578405901, "timer/agent.train_avg": 0.36993674931871906, "timer/agent.train_min": 0.3619728088378906, "timer/agent.train_max": 0.4072999954223633, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2042984962463379, "timer/agent.report_frac": 0.0006807245519037829, "timer/agent.report_avg": 0.2042984962463379, "timer/agent.report_min": 0.2042984962463379, "timer/agent.report_max": 0.2042984962463379, "fps": 4.87129086108189}
{"step": 488582, "episode/length": 187.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.06382978723404255}
{"step": 489002, "episode/length": 419.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.02857142857142857}
{"step": 489050, "episode/length": 47.0, "episode/score": 3.1000000163912773, "episode/sum_abs_reward": 4.1000000312924385, "episode/reward_rate": 0.08333333333333333}
{"step": 489271, "episode/length": 220.0, "episode/score": 4.100000001490116, "episode/sum_abs_reward": 6.100000001490116, "episode/reward_rate": 0.027149321266968326}
{"step": 489427, "episode/length": 155.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.07051282051282051}
{"step": 489867, "episode/length": 439.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.02727272727272727}
{"step": 489991, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.421410129494863, "train/action_min": 0.0, "train/action_std": 3.2974374033000373, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.044084414533556326, "train/actor_opt_grad_steps": 244080.0, "train/actor_opt_loss": -13.976695625749352, "train/adv_mag": 0.43440888311764964, "train/adv_max": 0.3953483998775482, "train/adv_mean": 0.0026042262331043586, "train/adv_min": -0.38036802533554703, "train/adv_std": 0.05035825584032764, "train/cont_avg": 0.9945954623287672, "train/cont_loss_mean": 7.179585633030126e-06, "train/cont_loss_std": 0.0001664851518847309, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.000373298024435963, "train/cont_pos_acc": 0.9999999771379444, "train/cont_pos_loss": 4.9587349777751e-06, "train/cont_pred": 0.9945928454399109, "train/cont_rate": 0.9945954623287672, "train/dyn_loss_mean": 5.088406941662096, "train/dyn_loss_std": 8.706353050388701, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.032565805193496, "train/extr_critic_critic_opt_grad_steps": 244080.0, "train/extr_critic_critic_opt_loss": 16456.144116545376, "train/extr_critic_mag": 10.104036017639997, "train/extr_critic_max": 10.104036017639997, "train/extr_critic_mean": 2.639040426032184, "train/extr_critic_min": -0.5270619751655892, "train/extr_critic_std": 2.4765561917056775, "train/extr_return_normed_mag": 1.4476858034525832, "train/extr_return_normed_max": 1.4476858034525832, "train/extr_return_normed_mean": 0.36971627134982854, "train/extr_return_normed_min": -0.08408577275806911, "train/extr_return_normed_std": 0.32747473414630107, "train/extr_return_rate": 0.7394388979428435, "train/extr_return_raw_mag": 10.931156223767424, "train/extr_return_raw_max": 10.931156223767424, "train/extr_return_raw_mean": 2.659040243658301, "train/extr_return_raw_min": -0.8244376533652005, "train/extr_return_raw_std": 2.5137423766802436, "train/extr_reward_mag": 1.0470207652000532, "train/extr_reward_max": 1.0470207652000532, "train/extr_reward_mean": 0.05107887992507791, "train/extr_reward_min": -0.6537070307013106, "train/extr_reward_std": 0.21927557191620134, "train/image_loss_mean": 3.0939755227467787, "train/image_loss_std": 8.262864805247686, "train/model_loss_mean": 6.1980693307641435, "train/model_loss_std": 12.383782360651722, "train/model_opt_grad_norm": 30.95617093125435, "train/model_opt_grad_steps": 243887.0, "train/model_opt_loss": 7747.58674015411, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.611027077452777, "train/policy_entropy_max": 2.611027077452777, "train/policy_entropy_mean": 0.3856564172326702, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5496753413383275, "train/policy_logprob_mag": 7.438384225923721, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3865442653633144, "train/policy_logprob_min": -7.438384225923721, "train/policy_logprob_std": 1.0075682368997025, "train/policy_randomness_mag": 0.9215779761745505, "train/policy_randomness_max": 0.9215779761745505, "train/policy_randomness_mean": 0.1361197899669817, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1940112740617909, "train/post_ent_mag": 55.485726343442316, "train/post_ent_max": 55.485726343442316, "train/post_ent_mean": 41.09429100768207, "train/post_ent_min": 19.01476486415079, "train/post_ent_std": 5.673855801151223, "train/prior_ent_mag": 76.45436211154886, "train/prior_ent_max": 76.45436211154886, "train/prior_ent_mean": 46.18778944668705, "train/prior_ent_min": 28.25444712704175, "train/prior_ent_std": 7.357451765504602, "train/rep_loss_mean": 5.088406941662096, "train/rep_loss_std": 8.706353050388701, "train/reward_avg": 0.03585857234589041, "train/reward_loss_mean": 0.051042399841220415, "train/reward_loss_std": 0.2065023947251986, "train/reward_max_data": 1.0178082234238925, "train/reward_max_pred": 1.018759603369726, "train/reward_neg_acc": 0.9941397154167907, "train/reward_neg_loss": 0.021989793822883744, "train/reward_pos_acc": 0.9869301662053147, "train/reward_pos_loss": 0.7390438432562841, "train/reward_pred": 0.03542290104884807, "train/reward_rate": 0.040520654965753425, "stats/sum_log_reward": 8.43333355585734, "stats/max_log_achievement_collect_coal": 1.5, "stats/max_log_achievement_collect_drink": 4.666666666666667, "stats/max_log_achievement_collect_sapling": 1.1666666666666667, "stats/max_log_achievement_collect_stone": 14.5, "stats/max_log_achievement_collect_wood": 6.833333333333333, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.8333333333333333, "stats/max_log_achievement_place_plant": 0.6666666666666666, "stats/max_log_achievement_place_stone": 4.333333333333333, "stats/max_log_achievement_place_table": 1.6666666666666667, "stats/max_log_achievement_wake_up": 1.6666666666666667, "stats/mean_log_entropy": 0.4665163904428482, "replay/size": 489928.0, "replay/inserts": 1458.0, "replay/samples": 11664.0, "replay/insert_wait_avg": 3.3053187512893573e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4028554100068019e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.11470794677734, "timer/env.step_count": 1458.0, "timer/env.step_total": 17.258880376815796, "timer/env.step_frac": 0.057507612655480066, "timer/env.step_avg": 0.011837366513591081, "timer/env.step_min": 0.0029282569885253906, "timer/env.step_max": 1.6336579322814941, "timer/replay.add_count": 1458.0, "timer/replay.add_total": 0.2672133445739746, "timer/replay.add_frac": 0.0008903707065945016, "timer/replay.add_avg": 0.00018327389888475625, "timer/replay.add_min": 5.936622619628906e-05, "timer/replay.add_max": 0.0008959770202636719, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030663013458251953, "timer/logger.write_frac": 0.00010217097878351822, "timer/logger.write_avg": 0.030663013458251953, "timer/logger.write_min": 0.030663013458251953, "timer/logger.write_max": 0.030663013458251953, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1458.0, "timer/agent.policy_total": 11.04606032371521, "timer/agent.policy_frac": 0.03680612789451868, "timer/agent.policy_avg": 0.007576173061533065, "timer/agent.policy_min": 0.0061304569244384766, "timer/agent.policy_max": 0.017553329467773438, "timer/dataset_count": 729.0, "timer/dataset_total": 0.06313490867614746, "timer/dataset_frac": 0.00021036925883467154, "timer/dataset_avg": 8.660481299883054e-05, "timer/dataset_min": 6.222724914550781e-05, "timer/dataset_max": 0.0001685619354248047, "timer/agent.train_count": 729.0, "timer/agent.train_total": 270.80505204200745, "timer/agent.train_frac": 0.9023384888221883, "timer/agent.train_avg": 0.3714746941591323, "timer/agent.train_min": 0.36278557777404785, "timer/agent.train_max": 0.3943498134613037, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20799469947814941, "timer/agent.report_frac": 0.000693050670195862, "timer/agent.report_avg": 0.20799469947814941, "timer/agent.report_min": 0.20799469947814941, "timer/agent.report_max": 0.20799469947814941, "fps": 4.858033129509584}
{"step": 490077, "episode/length": 209.0, "episode/score": 11.099999971687794, "episode/sum_abs_reward": 13.500000037252903, "episode/reward_rate": 0.06190476190476191}
{"step": 490230, "episode/length": 152.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.0718954248366013}
{"step": 490641, "episode/length": 410.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.031630170316301706}
{"step": 490770, "episode/length": 128.0, "episode/score": 7.100000023841858, "episode/sum_abs_reward": 8.899999976158142, "episode/reward_rate": 0.06976744186046512}
{"step": 490969, "episode/length": 198.0, "episode/score": 10.099999971687794, "episode/sum_abs_reward": 12.100000031292439, "episode/reward_rate": 0.06030150753768844}
{"step": 491028, "episode/length": 58.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.1016949152542373}
{"step": 491281, "episode/length": 252.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.043478260869565216}
{"step": 491436, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.533278571234809, "train/action_min": 0.0, "train/action_std": 3.354392257001665, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.045368128197474614, "train/actor_opt_grad_steps": 244805.0, "train/actor_opt_loss": -13.136184242036608, "train/adv_mag": 0.43221299888359177, "train/adv_max": 0.38442381140258575, "train/adv_mean": 0.002108115241400002, "train/adv_min": -0.38511908054351807, "train/adv_std": 0.05122018693428901, "train/cont_avg": 0.9945746527777778, "train/cont_loss_mean": 8.68847912924606e-06, "train/cont_loss_std": 0.000254128020732954, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00027601201208603417, "train/cont_pos_acc": 0.9999999850988388, "train/cont_pos_loss": 7.16266554551876e-06, "train/cont_pred": 0.9945700988173485, "train/cont_rate": 0.9945746527777778, "train/dyn_loss_mean": 5.180182940430111, "train/dyn_loss_std": 8.685905867152744, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.046298795276218, "train/extr_critic_critic_opt_grad_steps": 244805.0, "train/extr_critic_critic_opt_loss": 16618.392428927953, "train/extr_critic_mag": 10.200514303313362, "train/extr_critic_max": 10.200514303313362, "train/extr_critic_mean": 2.6564859565761356, "train/extr_critic_min": -0.5314433011743758, "train/extr_critic_std": 2.506333058079084, "train/extr_return_normed_mag": 1.4319193147950702, "train/extr_return_normed_max": 1.4319193147950702, "train/extr_return_normed_mean": 0.37028134655621314, "train/extr_return_normed_min": -0.08283905778080225, "train/extr_return_normed_std": 0.32869573185841244, "train/extr_return_rate": 0.7314806133508682, "train/extr_return_raw_mag": 10.8566269742118, "train/extr_return_raw_max": 10.8566269742118, "train/extr_return_raw_mean": 2.6727376828591027, "train/extr_return_raw_min": -0.8199103097948763, "train/extr_return_raw_std": 2.5340240548054376, "train/extr_reward_mag": 1.0538042386372883, "train/extr_reward_max": 1.0538042386372883, "train/extr_reward_mean": 0.053011197545048266, "train/extr_reward_min": -0.6480946789185206, "train/extr_reward_std": 0.2230646260496643, "train/image_loss_mean": 3.0555311259296207, "train/image_loss_std": 7.856231702698602, "train/model_loss_mean": 6.215556866592831, "train/model_loss_std": 12.028138491842482, "train/model_opt_grad_norm": 31.28894431061215, "train/model_opt_grad_steps": 244612.0, "train/model_opt_loss": 15297.25348578559, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2465.277777777778, "train/policy_entropy_mag": 2.5846752325693765, "train/policy_entropy_max": 2.5846752325693765, "train/policy_entropy_mean": 0.38810431357059216, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5452285818755627, "train/policy_logprob_mag": 7.438384301132626, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38945363296402824, "train/policy_logprob_min": -7.438384301132626, "train/policy_logprob_std": 1.0104500088426802, "train/policy_randomness_mag": 0.912276930279202, "train/policy_randomness_max": 0.912276930279202, "train/policy_randomness_mean": 0.13698379198710123, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19244176439113087, "train/post_ent_mag": 55.31660869386461, "train/post_ent_max": 55.31660869386461, "train/post_ent_mean": 41.134029123518204, "train/post_ent_min": 18.615417904324, "train/post_ent_std": 5.611408836311764, "train/prior_ent_mag": 76.38298310173883, "train/prior_ent_max": 76.38298310173883, "train/prior_ent_mean": 46.32855722639296, "train/prior_ent_min": 28.980390548706055, "train/prior_ent_std": 7.2704652018017235, "train/rep_loss_mean": 5.180182940430111, "train/rep_loss_std": 8.685905867152744, "train/reward_avg": 0.03574354338666631, "train/reward_loss_mean": 0.051907291998051934, "train/reward_loss_std": 0.21114537285433876, "train/reward_max_data": 1.027777784400516, "train/reward_max_pred": 1.0273197376065784, "train/reward_neg_acc": 0.9948654977811707, "train/reward_neg_loss": 0.023085342241554625, "train/reward_pos_acc": 0.9885183622439703, "train/reward_pos_loss": 0.7314587061603864, "train/reward_pred": 0.035456604958097965, "train/reward_rate": 0.0406494140625, "stats/sum_log_reward": 9.242857388087682, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 3.2857142857142856, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 12.571428571428571, "stats/max_log_achievement_collect_wood": 8.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.2857142857142857, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.7142857142857143, "stats/max_log_achievement_place_furnace": 1.7142857142857142, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 4.714285714285714, "stats/max_log_achievement_place_table": 2.142857142857143, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.4017987868615559, "replay/size": 491373.0, "replay/inserts": 1445.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.13376060406642e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.5364294237047021e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 299.98428988456726, "timer/env.step_count": 1445.0, "timer/env.step_total": 19.528342247009277, "timer/env.step_frac": 0.06509788314089282, "timer/env.step_avg": 0.01351442370035244, "timer/env.step_min": 0.002583742141723633, "timer/env.step_max": 1.804335117340088, "timer/replay.add_count": 1445.0, "timer/replay.add_total": 0.24950814247131348, "timer/replay.add_frac": 0.0008317373638710321, "timer/replay.add_avg": 0.0001726699947898363, "timer/replay.add_min": 5.841255187988281e-05, "timer/replay.add_max": 0.0008499622344970703, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021978378295898438, "timer/logger.write_frac": 7.326509766346641e-05, "timer/logger.write_avg": 0.021978378295898438, "timer/logger.write_min": 0.021978378295898438, "timer/logger.write_max": 0.021978378295898438, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0005090236663818359, "timer/checkpoint.save_frac": 1.6968344128211054e-06, "timer/checkpoint.save_avg": 0.0005090236663818359, "timer/checkpoint.save_min": 0.0005090236663818359, "timer/checkpoint.save_max": 0.0005090236663818359, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4338414669036865, "timer/agent.save_frac": 0.004779721856285951, "timer/agent.save_avg": 1.4338414669036865, "timer/agent.save_min": 1.4338414669036865, "timer/agent.save_max": 1.4338414669036865, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.0001227855682373047, "timer/replay.save_frac": 4.0930666164068817e-07, "timer/replay.save_avg": 0.0001227855682373047, "timer/replay.save_min": 0.0001227855682373047, "timer/replay.save_max": 0.0001227855682373047, "timer/agent.policy_count": 1445.0, "timer/agent.policy_total": 12.525453567504883, "timer/agent.policy_frac": 0.04175369840975548, "timer/agent.policy_avg": 0.008668133956750784, "timer/agent.policy_min": 0.005986928939819336, "timer/agent.policy_max": 1.173779010772705, "timer/dataset_count": 722.0, "timer/dataset_total": 0.060253143310546875, "timer/dataset_frac": 0.00020085432918414507, "timer/dataset_avg": 8.345310707831978e-05, "timer/dataset_min": 5.793571472167969e-05, "timer/dataset_max": 0.00016379356384277344, "timer/agent.train_count": 722.0, "timer/agent.train_total": 266.9836232662201, "timer/agent.train_frac": 0.8899920171451455, "timer/agent.train_avg": 0.3697834117260666, "timer/agent.train_min": 0.36182546615600586, "timer/agent.train_max": 0.9022555351257324, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.1997983455657959, "timer/agent.report_frac": 0.0006660293632132452, "timer/agent.report_avg": 0.1997983455657959, "timer/agent.report_min": 0.1997983455657959, "timer/agent.report_max": 0.1997983455657959, "fps": 4.816832181114368}
{"step": 491538, "episode/length": 256.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.700000047683716, "episode/reward_rate": 0.042801556420233464}
{"step": 491667, "episode/length": 128.0, "episode/score": 7.100000023841858, "episode/sum_abs_reward": 8.899999976158142, "episode/reward_rate": 0.06976744186046512}
{"step": 491863, "episode/length": 195.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.05612244897959184}
{"step": 492091, "episode/length": 227.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.05263157894736842}
{"step": 492260, "episode/length": 168.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.07100591715976332}
{"step": 492473, "episode/length": 212.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.056338028169014086}
{"step": 492833, "episode/length": 359.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.900000050663948, "episode/reward_rate": 0.03888888888888889}
{"step": 492905, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.521017538534628, "train/action_min": 0.0, "train/action_std": 3.4130199116629525, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.044136429356562125, "train/actor_opt_grad_steps": 245535.0, "train/actor_opt_loss": -11.643611329028735, "train/adv_mag": 0.4272621322322536, "train/adv_max": 0.394035765045398, "train/adv_mean": 0.0027068533224362023, "train/adv_min": -0.3585840834153665, "train/adv_std": 0.0500978871777251, "train/cont_avg": 0.9945233319256757, "train/cont_loss_mean": 9.950724732655581e-05, "train/cont_loss_std": 0.003089525770193988, "train/cont_neg_acc": 0.9966216216216216, "train/cont_neg_loss": 0.022675027852098562, "train/cont_pos_acc": 0.999999976641423, "train/cont_pos_loss": 6.8769196219606684e-06, "train/cont_pred": 0.9945442781255052, "train/cont_rate": 0.9945233319256757, "train/dyn_loss_mean": 5.117283376487526, "train/dyn_loss_std": 8.740251856881219, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.021699621065243, "train/extr_critic_critic_opt_grad_steps": 245535.0, "train/extr_critic_critic_opt_loss": 16363.494167018582, "train/extr_critic_mag": 10.347251441027668, "train/extr_critic_max": 10.347251441027668, "train/extr_critic_mean": 2.7024896692585303, "train/extr_critic_min": -0.5474944791278323, "train/extr_critic_std": 2.526695684806721, "train/extr_return_normed_mag": 1.451838031008437, "train/extr_return_normed_max": 1.451838031008437, "train/extr_return_normed_mean": 0.37444301090530446, "train/extr_return_normed_min": -0.0859138638888662, "train/extr_return_normed_std": 0.3309152261228175, "train/extr_return_rate": 0.7330008116928307, "train/extr_return_raw_mag": 11.074596031292065, "train/extr_return_raw_max": 11.074596031292065, "train/extr_return_raw_mean": 2.723407908065899, "train/extr_return_raw_min": -0.845510487620895, "train/extr_return_raw_std": 2.565686261331713, "train/extr_reward_mag": 1.0540977168727566, "train/extr_reward_max": 1.0540977168727566, "train/extr_reward_mean": 0.05278322745013882, "train/extr_reward_min": -0.6677373921548998, "train/extr_reward_std": 0.2227556739707251, "train/image_loss_mean": 3.049928320420755, "train/image_loss_std": 8.128957413338327, "train/model_loss_mean": 6.171994605579892, "train/model_loss_std": 12.283421935261908, "train/model_opt_grad_norm": 29.881231591508197, "train/model_opt_grad_steps": 245341.43243243243, "train/model_opt_loss": 15875.211795291385, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2567.5675675675675, "train/policy_entropy_mag": 2.6225330958495268, "train/policy_entropy_max": 2.6225330958495268, "train/policy_entropy_mean": 0.4178491422050708, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5915648663366163, "train/policy_logprob_mag": 7.43838424940367, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41818963857115926, "train/policy_logprob_min": -7.43838424940367, "train/policy_logprob_std": 1.0336754104575596, "train/policy_randomness_mag": 0.9256390969495516, "train/policy_randomness_max": 0.9256390969495516, "train/policy_randomness_mean": 0.14748240997259682, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20879643541332837, "train/post_ent_mag": 55.407142742260085, "train/post_ent_max": 55.407142742260085, "train/post_ent_mean": 41.14699389483478, "train/post_ent_min": 19.484732357231348, "train/post_ent_std": 5.62845574842917, "train/prior_ent_mag": 76.44698096610405, "train/prior_ent_max": 76.44698096610405, "train/prior_ent_mean": 46.244999292734505, "train/prior_ent_min": 28.525023975887812, "train/prior_ent_std": 7.320635015900071, "train/rep_loss_mean": 5.117283376487526, "train/rep_loss_std": 8.740251856881219, "train/reward_avg": 0.035871515855998605, "train/reward_loss_mean": 0.05159670889780328, "train/reward_loss_std": 0.20376368692597827, "train/reward_max_data": 1.025675681797234, "train/reward_max_pred": 1.0247658652228278, "train/reward_neg_acc": 0.9950483344696663, "train/reward_neg_loss": 0.022783004433369718, "train/reward_pos_acc": 0.9910921462484308, "train/reward_pos_loss": 0.7287745073034957, "train/reward_pred": 0.03556918659927072, "train/reward_rate": 0.04080447635135135, "stats/sum_log_reward": 10.528571741921562, "stats/max_log_achievement_collect_coal": 0.8571428571428571, "stats/max_log_achievement_collect_drink": 3.2857142857142856, "stats/max_log_achievement_collect_sapling": 1.1428571428571428, "stats/max_log_achievement_collect_stone": 16.142857142857142, "stats/max_log_achievement_collect_wood": 10.0, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.8571428571428571, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2857142857142858, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 5.285714285714286, "stats/max_log_achievement_place_table": 1.8571428571428572, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.3512856513261795, "replay/size": 492842.0, "replay/inserts": 1469.0, "replay/samples": 11760.0, "replay/insert_wait_avg": 3.1593301979516785e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3695079453137456e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.12444162368774, "timer/env.step_count": 1469.0, "timer/env.step_total": 17.315723657608032, "timer/env.step_frac": 0.05769514659962091, "timer/env.step_avg": 0.011787422503477217, "timer/env.step_min": 0.0025603771209716797, "timer/env.step_max": 1.5428524017333984, "timer/replay.add_count": 1469.0, "timer/replay.add_total": 0.2547128200531006, "timer/replay.add_frac": 0.000848690692017924, "timer/replay.add_avg": 0.000173391980975562, "timer/replay.add_min": 6.198883056640625e-05, "timer/replay.add_max": 0.0007421970367431641, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03327345848083496, "timer/logger.write_frac": 0.00011086554064315435, "timer/logger.write_avg": 0.03327345848083496, "timer/logger.write_min": 0.03327345848083496, "timer/logger.write_max": 0.03327345848083496, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1469.0, "timer/agent.policy_total": 10.709563255310059, "timer/agent.policy_frac": 0.0356837423748989, "timer/agent.policy_avg": 0.00729037662036083, "timer/agent.policy_min": 0.005810260772705078, "timer/agent.policy_max": 0.01670360565185547, "timer/dataset_count": 735.0, "timer/dataset_total": 0.059049367904663086, "timer/dataset_frac": 0.00019674961354431233, "timer/dataset_avg": 8.03392760607661e-05, "timer/dataset_min": 5.3882598876953125e-05, "timer/dataset_max": 0.0002079010009765625, "timer/agent.train_count": 735.0, "timer/agent.train_total": 271.12623405456543, "timer/agent.train_frac": 0.9033793868561967, "timer/agent.train_avg": 0.3688792300062115, "timer/agent.train_min": 0.3604559898376465, "timer/agent.train_max": 0.4054577350616455, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20564937591552734, "timer/agent.report_frac": 0.0006852136893714962, "timer/agent.report_avg": 0.20564937591552734, "timer/agent.report_min": 0.20564937591552734, "timer/agent.report_max": 0.20564937591552734, "fps": 4.894527657934371}
{"step": 493009, "episode/length": 175.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.0625}
{"step": 493166, "episode/length": 156.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.500000044703484, "episode/reward_rate": 0.07006369426751592}
{"step": 493334, "episode/length": 167.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.05952380952380952}
{"step": 493466, "episode/length": 131.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.07575757575757576}
{"step": 493674, "episode/length": 207.0, "episode/score": 9.099999994039536, "episode/sum_abs_reward": 12.500000029802322, "episode/reward_rate": 0.052884615384615384}
{"step": 493932, "episode/length": 257.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.046511627906976744}
{"step": 494214, "episode/length": 281.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.04609929078014184}
{"step": 494353, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.59865485297309, "train/action_min": 0.0, "train/action_std": 3.4530358943674297, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04394468701341086, "train/actor_opt_grad_steps": 246265.0, "train/actor_opt_loss": -11.409325901005003, "train/adv_mag": 0.4071559819082419, "train/adv_max": 0.3639167870084445, "train/adv_mean": 0.002749318940510016, "train/adv_min": -0.3599683778981368, "train/adv_std": 0.049707851890060634, "train/cont_avg": 0.9946831597222222, "train/cont_loss_mean": 3.4865952263392806e-05, "train/cont_loss_std": 0.001076766597381133, "train/cont_neg_acc": 0.9972222223877907, "train/cont_neg_loss": 0.005983031600957626, "train/cont_pos_acc": 0.999999980131785, "train/cont_pos_loss": 6.390198659013259e-06, "train/cont_pred": 0.9946929381953346, "train/cont_rate": 0.9946831597222222, "train/dyn_loss_mean": 5.084582322173649, "train/dyn_loss_std": 8.706657926241556, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.031645184589757, "train/extr_critic_critic_opt_grad_steps": 246265.0, "train/extr_critic_critic_opt_loss": 16480.161159939234, "train/extr_critic_mag": 10.216361867056953, "train/extr_critic_max": 10.216361867056953, "train/extr_critic_mean": 2.606988600558705, "train/extr_critic_min": -0.5183549175659815, "train/extr_critic_std": 2.5156937340895333, "train/extr_return_normed_mag": 1.4393027325471242, "train/extr_return_normed_max": 1.4393027325471242, "train/extr_return_normed_mean": 0.36108661546475357, "train/extr_return_normed_min": -0.08291807905253437, "train/extr_return_normed_std": 0.3282136283814907, "train/extr_return_rate": 0.7292752108640141, "train/extr_return_raw_mag": 11.007392247517904, "train/extr_return_raw_max": 11.007392247517904, "train/extr_return_raw_mean": 2.628348228004244, "train/extr_return_raw_min": -0.8221197004119555, "train/extr_return_raw_std": 2.550640109512541, "train/extr_reward_mag": 1.0536010894510481, "train/extr_reward_max": 1.0536010894510481, "train/extr_reward_mean": 0.05259960998470584, "train/extr_reward_min": -0.6482120851675669, "train/extr_reward_std": 0.222843739307589, "train/image_loss_mean": 3.148816041648388, "train/image_loss_std": 8.420430832439, "train/model_loss_mean": 6.249863528543049, "train/model_loss_std": 12.515675259961021, "train/model_opt_grad_norm": 29.662973112530178, "train/model_opt_grad_steps": 246070.83333333334, "train/model_opt_loss": 16046.889397515191, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2569.4444444444443, "train/policy_entropy_mag": 2.6269814173380532, "train/policy_entropy_max": 2.6269814173380532, "train/policy_entropy_mean": 0.4298432024402751, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6065287366509438, "train/policy_logprob_mag": 7.438384241527981, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4289889025191466, "train/policy_logprob_min": -7.438384241527981, "train/policy_logprob_std": 1.0399415401948824, "train/policy_randomness_mag": 0.9272091570827696, "train/policy_randomness_max": 0.9272091570827696, "train/policy_randomness_mean": 0.15171578609281117, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21407802765154177, "train/post_ent_mag": 55.400902112325035, "train/post_ent_max": 55.400902112325035, "train/post_ent_mean": 41.182086838616264, "train/post_ent_min": 19.142481909857857, "train/post_ent_std": 5.624343792597453, "train/prior_ent_mag": 76.51120906405978, "train/prior_ent_max": 76.51120906405978, "train/prior_ent_mean": 46.29756206936307, "train/prior_ent_min": 28.86057890786065, "train/prior_ent_std": 7.322422802448273, "train/rep_loss_mean": 5.084582322173649, "train/rep_loss_std": 8.706657926241556, "train/reward_avg": 0.03362901431197921, "train/reward_loss_mean": 0.05026324621091286, "train/reward_loss_std": 0.20128230584992302, "train/reward_max_data": 1.0194444490803614, "train/reward_max_pred": 1.0172067830959957, "train/reward_neg_acc": 0.9941664247049226, "train/reward_neg_loss": 0.023182789523464937, "train/reward_pos_acc": 0.9873294664753808, "train/reward_pos_loss": 0.7319444575243526, "train/reward_pred": 0.03332525256296827, "train/reward_rate": 0.038370768229166664, "stats/sum_log_reward": 10.100000381469727, "stats/max_log_achievement_collect_coal": 0.2857142857142857, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 15.0, "stats/max_log_achievement_collect_wood": 7.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.42857142857142855, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 6.142857142857143, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.7142857142857142, "stats/mean_log_entropy": 0.3870494897876467, "replay/size": 494290.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.2393971859420863e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3996594847895163e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1700699329376, "timer/env.step_count": 1448.0, "timer/env.step_total": 19.21720242500305, "timer/env.step_frac": 0.06402104789893429, "timer/env.step_avg": 0.013271548636051832, "timer/env.step_min": 0.002855062484741211, "timer/env.step_max": 1.6342198848724365, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.2707192897796631, "timer/replay.add_frac": 0.0009018863534267282, "timer/replay.add_avg": 0.00018696083548319273, "timer/replay.add_min": 5.841255187988281e-05, "timer/replay.add_max": 0.002152681350708008, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0223848819732666, "timer/logger.write_frac": 7.457399726184463e-05, "timer/logger.write_avg": 0.0223848819732666, "timer/logger.write_min": 0.0223848819732666, "timer/logger.write_max": 0.0223848819732666, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 10.81853461265564, "timer/agent.policy_frac": 0.03604135020880882, "timer/agent.policy_avg": 0.007471363682773232, "timer/agent.policy_min": 0.00604248046875, "timer/agent.policy_max": 0.017291545867919922, "timer/dataset_count": 724.0, "timer/dataset_total": 0.059513092041015625, "timer/dataset_frac": 0.00019826457732548657, "timer/dataset_avg": 8.220040337156855e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.00023174285888671875, "timer/agent.train_count": 724.0, "timer/agent.train_total": 269.1528992652893, "timer/agent.train_frac": 0.8966680099898767, "timer/agent.train_avg": 0.37175814815647695, "timer/agent.train_min": 0.36435365676879883, "timer/agent.train_max": 0.38449668884277344, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20484185218811035, "timer/agent.report_frac": 0.0006824193106057344, "timer/agent.report_avg": 0.20484185218811035, "timer/agent.report_min": 0.20484185218811035, "timer/agent.report_max": 0.20484185218811035, "fps": 4.823846048353819}
{"step": 494416, "episode/length": 201.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.099999994039536, "episode/reward_rate": 0.06435643564356436}
{"step": 494510, "episode/length": 93.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.11702127659574468}
{"step": 494713, "episode/length": 202.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.054187192118226604}
{"step": 494933, "episode/length": 219.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.05}
{"step": 495032, "episode/length": 98.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.300000041723251, "episode/reward_rate": 0.09090909090909091}
{"step": 495533, "episode/length": 500.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.900000043213367, "episode/reward_rate": 0.023952095808383235}
{"step": 495701, "episode/length": 167.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06547619047619048}
{"step": 495780, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.550721910264757, "train/action_min": 0.0, "train/action_std": 3.4260841740502253, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04389623226597905, "train/actor_opt_grad_steps": 246985.0, "train/actor_opt_loss": -11.176697756681177, "train/adv_mag": 0.4530189339485433, "train/adv_max": 0.3943592728012138, "train/adv_mean": 0.0024459423426984963, "train/adv_min": -0.39559141856928665, "train/adv_std": 0.05046379204011626, "train/cont_avg": 0.9946017795138888, "train/cont_loss_mean": 6.018439557288326e-06, "train/cont_loss_std": 0.00016389944456562944, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00012704018757778588, "train/cont_pos_acc": 0.999999985926681, "train/cont_pos_loss": 5.375985878488778e-06, "train/cont_pred": 0.9945975103312068, "train/cont_rate": 0.9946017795138888, "train/dyn_loss_mean": 5.060697389973535, "train/dyn_loss_std": 8.680352866649628, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.06551124735011, "train/extr_critic_critic_opt_grad_steps": 246985.0, "train/extr_critic_critic_opt_loss": 16566.745022243922, "train/extr_critic_mag": 10.289590570661757, "train/extr_critic_max": 10.289590570661757, "train/extr_critic_mean": 2.665259422527419, "train/extr_critic_min": -0.5227646132310232, "train/extr_critic_std": 2.4551137122843, "train/extr_return_normed_mag": 1.4509595185518265, "train/extr_return_normed_max": 1.4509595185518265, "train/extr_return_normed_mean": 0.370112095028162, "train/extr_return_normed_min": -0.08511828977821602, "train/extr_return_normed_std": 0.3224644971390565, "train/extr_return_rate": 0.7536531074179543, "train/extr_return_raw_mag": 11.00627244843377, "train/extr_return_raw_max": 11.00627244843377, "train/extr_return_raw_mean": 2.684029393725925, "train/extr_return_raw_min": -0.8219808927840657, "train/extr_return_raw_std": 2.4828877548376718, "train/extr_reward_mag": 1.0467998882134755, "train/extr_reward_max": 1.0467998882134755, "train/extr_reward_mean": 0.05410981905232701, "train/extr_reward_min": -0.6497130261527168, "train/extr_reward_std": 0.22520170050362745, "train/image_loss_mean": 2.96856879360146, "train/image_loss_std": 7.950667003790538, "train/model_loss_mean": 6.054850551817152, "train/model_loss_std": 12.058396736780802, "train/model_opt_grad_norm": 29.458885550498962, "train/model_opt_grad_steps": 246790.0, "train/model_opt_loss": 15137.126315646701, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.5851638317108154, "train/policy_entropy_max": 2.5851638317108154, "train/policy_entropy_mean": 0.39953278232779765, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.561625264171097, "train/policy_logprob_mag": 7.438384281264411, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3988076959633165, "train/policy_logprob_min": -7.438384281264411, "train/policy_logprob_std": 1.0144488215446472, "train/policy_randomness_mag": 0.912449388868279, "train/policy_randomness_max": 0.912449388868279, "train/policy_randomness_mean": 0.14101754046148723, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1982290731329057, "train/post_ent_mag": 55.59841971927219, "train/post_ent_max": 55.59841971927219, "train/post_ent_mean": 41.15343395868937, "train/post_ent_min": 18.805177185270523, "train/post_ent_std": 5.691433959537083, "train/prior_ent_mag": 76.36337100134955, "train/prior_ent_max": 76.36337100134955, "train/prior_ent_mean": 46.21350124147203, "train/prior_ent_min": 28.721394697825115, "train/prior_ent_std": 7.324684302012126, "train/rep_loss_mean": 5.060697389973535, "train/rep_loss_std": 8.680352866649628, "train/reward_avg": 0.03530273395073083, "train/reward_loss_mean": 0.04985733705365823, "train/reward_loss_std": 0.20041790935728285, "train/reward_max_data": 1.022222227520413, "train/reward_max_pred": 1.0215556588437822, "train/reward_neg_acc": 0.994717495308982, "train/reward_neg_loss": 0.02178330142568383, "train/reward_pos_acc": 0.9908821334441503, "train/reward_pos_loss": 0.7225561671786838, "train/reward_pred": 0.03516838614208003, "train/reward_rate": 0.039957682291666664, "stats/sum_log_reward": 9.957143238612584, "stats/max_log_achievement_collect_coal": 0.8571428571428571, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_sapling": 2.2857142857142856, "stats/max_log_achievement_collect_stone": 12.285714285714286, "stats/max_log_achievement_collect_wood": 11.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5714285714285714, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2857142857142858, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.8571428571428572, "stats/max_log_achievement_place_stone": 4.285714285714286, "stats/max_log_achievement_place_table": 2.5714285714285716, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.3433803490230015, "replay/size": 495717.0, "replay/inserts": 1427.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 3.340032105689794e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4011271371079026e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 299.9974100589752, "timer/env.step_count": 1427.0, "timer/env.step_total": 20.95281195640564, "timer/env.step_frac": 0.06984330948819396, "timer/env.step_avg": 0.01468311980126534, "timer/env.step_min": 0.002923727035522461, "timer/env.step_max": 1.8284192085266113, "timer/replay.add_count": 1427.0, "timer/replay.add_total": 0.2488994598388672, "timer/replay.add_frac": 0.000829672028801639, "timer/replay.add_avg": 0.00017442148552128045, "timer/replay.add_min": 6.079673767089844e-05, "timer/replay.add_max": 0.0008528232574462891, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02136373519897461, "timer/logger.write_frac": 7.12130654553811e-05, "timer/logger.write_avg": 0.02136373519897461, "timer/logger.write_min": 0.02136373519897461, "timer/logger.write_max": 0.02136373519897461, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002880096435546875, "timer/checkpoint.save_frac": 9.600404333426375e-07, "timer/checkpoint.save_avg": 0.0002880096435546875, "timer/checkpoint.save_min": 0.0002880096435546875, "timer/checkpoint.save_max": 0.0002880096435546875, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1302552223205566, "timer/agent.save_frac": 0.0037675499335089744, "timer/agent.save_avg": 1.1302552223205566, "timer/agent.save_min": 1.1302552223205566, "timer/agent.save_max": 1.1302552223205566, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.198883056640625e-05, "timer/replay.save_frac": 2.066312190969253e-07, "timer/replay.save_avg": 6.198883056640625e-05, "timer/replay.save_min": 6.198883056640625e-05, "timer/replay.save_max": 6.198883056640625e-05, "timer/agent.policy_count": 1427.0, "timer/agent.policy_total": 12.339752435684204, "timer/agent.policy_frac": 0.04113286322458046, "timer/agent.policy_avg": 0.00864733877763434, "timer/agent.policy_min": 0.006165504455566406, "timer/agent.policy_max": 1.124011516571045, "timer/dataset_count": 713.0, "timer/dataset_total": 0.060362815856933594, "timer/dataset_frac": 0.00020121112327292133, "timer/dataset_avg": 8.466033079513828e-05, "timer/dataset_min": 6.127357482910156e-05, "timer/dataset_max": 0.0011644363403320312, "timer/agent.train_count": 713.0, "timer/agent.train_total": 265.74946880340576, "timer/agent.train_frac": 0.8858392102490591, "timer/agent.train_avg": 0.3727201525994471, "timer/agent.train_min": 0.36421990394592285, "timer/agent.train_max": 0.892071008682251, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2009875774383545, "timer/agent.report_frac": 0.0006699643753552512, "timer/agent.report_avg": 0.2009875774383545, "timer/agent.report_min": 0.2009875774383545, "timer/agent.report_max": 0.2009875774383545, "fps": 4.7566050038808}
{"step": 495865, "episode/length": 163.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.900000028312206, "episode/reward_rate": 0.04878048780487805}
{"step": 496088, "episode/length": 222.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.04932735426008968}
{"step": 496398, "episode/length": 309.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.04516129032258064}
{"step": 496542, "episode/length": 143.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.06944444444444445}
{"step": 496819, "episode/length": 276.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.04693140794223827}
{"step": 497030, "episode/length": 210.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.037914691943127965}
{"step": 497191, "episode/length": 160.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.06832298136645963}
{"step": 497256, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.640380859375, "train/action_min": 0.0, "train/action_std": 3.5196170512944054, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04402949196630961, "train/actor_opt_grad_steps": 247710.0, "train/actor_opt_loss": -12.73230651197062, "train/adv_mag": 0.4260033013885968, "train/adv_max": 0.3812262769023033, "train/adv_mean": 0.0022423968508918147, "train/adv_min": -0.3692528715688888, "train/adv_std": 0.04958433270046156, "train/cont_avg": 0.9945687071917808, "train/cont_loss_mean": 0.00012155405530390846, "train/cont_loss_std": 0.003831343033185945, "train/cont_neg_acc": 0.9984779300755018, "train/cont_neg_loss": 0.012878630903729846, "train/cont_pos_acc": 0.9999999812204544, "train/cont_pos_loss": 8.61349138109237e-06, "train/cont_pred": 0.9945750448801746, "train/cont_rate": 0.9945687071917808, "train/dyn_loss_mean": 4.990920426094369, "train/dyn_loss_std": 8.6563436625755, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.023748226361732, "train/extr_critic_critic_opt_grad_steps": 247710.0, "train/extr_critic_critic_opt_loss": 16250.29367776113, "train/extr_critic_mag": 10.105275376202309, "train/extr_critic_max": 10.105275376202309, "train/extr_critic_mean": 2.675963819843449, "train/extr_critic_min": -0.5155597125014214, "train/extr_critic_std": 2.4857124939356763, "train/extr_return_normed_mag": 1.4409644718039525, "train/extr_return_normed_max": 1.4409644718039525, "train/extr_return_normed_mean": 0.37419345729971587, "train/extr_return_normed_min": -0.08834059250681367, "train/extr_return_normed_std": 0.32894219703053773, "train/extr_return_rate": 0.7354434597982119, "train/extr_return_raw_mag": 10.870419737410872, "train/extr_return_raw_max": 10.870419737410872, "train/extr_return_raw_mean": 2.6931747312415135, "train/extr_return_raw_min": -0.8520899455841273, "train/extr_return_raw_std": 2.5212899185206794, "train/extr_reward_mag": 1.0586535506052515, "train/extr_reward_max": 1.0586535506052515, "train/extr_reward_mean": 0.0526268344933856, "train/extr_reward_min": -0.6743662618610957, "train/extr_reward_std": 0.22297079126312308, "train/image_loss_mean": 3.0043986415209836, "train/image_loss_std": 8.622869354404815, "train/model_loss_mean": 6.050565072934922, "train/model_loss_std": 12.695054616013618, "train/model_opt_grad_norm": 29.647618633427033, "train/model_opt_grad_steps": 247514.16438356164, "train/model_opt_loss": 8832.757926209331, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1455.4794520547946, "train/policy_entropy_mag": 2.591421463718153, "train/policy_entropy_max": 2.591421463718153, "train/policy_entropy_mean": 0.42898194063199707, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6020146216431709, "train/policy_logprob_mag": 7.438384238987753, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.42776008950520866, "train/policy_logprob_min": -7.438384238987753, "train/policy_logprob_std": 1.034373162543937, "train/policy_randomness_mag": 0.91465805491356, "train/policy_randomness_max": 0.91465805491356, "train/policy_randomness_mean": 0.1514117975961672, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21248474308889206, "train/post_ent_mag": 55.026404916423644, "train/post_ent_max": 55.026404916423644, "train/post_ent_mean": 41.09572705830613, "train/post_ent_min": 19.131681520644932, "train/post_ent_std": 5.59793720506642, "train/prior_ent_mag": 76.37255639899267, "train/prior_ent_max": 76.37255639899267, "train/prior_ent_mean": 46.092529923948526, "train/prior_ent_min": 28.440433397685013, "train/prior_ent_std": 7.269106564456469, "train/rep_loss_mean": 4.990920426094369, "train/rep_loss_std": 8.6563436625755, "train/reward_avg": 0.03525658161060451, "train/reward_loss_mean": 0.05149258392518514, "train/reward_loss_std": 0.20546995348309818, "train/reward_max_data": 1.0342465835074857, "train/reward_max_pred": 1.0283864491606411, "train/reward_neg_acc": 0.9944523940347645, "train/reward_neg_loss": 0.023316775946176215, "train/reward_pos_acc": 0.9875538104201016, "train/reward_pos_loss": 0.7266937886198906, "train/reward_pred": 0.03500279730619633, "train/reward_rate": 0.04013270547945205, "stats/sum_log_reward": 9.81428589139666, "stats/max_log_achievement_collect_coal": 0.42857142857142855, "stats/max_log_achievement_collect_drink": 2.857142857142857, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 10.285714285714286, "stats/max_log_achievement_collect_wood": 10.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.42857142857142855, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.2857142857142858, "stats/max_log_achievement_place_plant": 1.7142857142857142, "stats/max_log_achievement_place_stone": 3.4285714285714284, "stats/max_log_achievement_place_table": 2.7142857142857144, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.41082084817545755, "replay/size": 497193.0, "replay/inserts": 1476.0, "replay/samples": 11808.0, "replay/insert_wait_avg": 3.0315988432101117e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.448239414349481e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 299.9977285861969, "timer/env.step_count": 1476.0, "timer/env.step_total": 17.276665449142456, "timer/env.step_frac": 0.057589320861069236, "timer/env.step_avg": 0.011705057892372937, "timer/env.step_min": 0.0025870800018310547, "timer/env.step_max": 1.4618003368377686, "timer/replay.add_count": 1476.0, "timer/replay.add_total": 0.24583959579467773, "timer/replay.add_frac": 0.0008194715238453609, "timer/replay.add_avg": 0.00016655799173081147, "timer/replay.add_min": 6.365776062011719e-05, "timer/replay.add_max": 0.0005576610565185547, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023603200912475586, "timer/logger.write_frac": 7.867793207538834e-05, "timer/logger.write_avg": 0.023603200912475586, "timer/logger.write_min": 0.023603200912475586, "timer/logger.write_max": 0.023603200912475586, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1476.0, "timer/agent.policy_total": 10.649175882339478, "timer/agent.policy_frac": 0.03549752170633419, "timer/agent.policy_avg": 0.007214888809173088, "timer/agent.policy_min": 0.005763053894042969, "timer/agent.policy_max": 0.01593923568725586, "timer/dataset_count": 738.0, "timer/dataset_total": 0.05669450759887695, "timer/dataset_frac": 0.00018898312285916923, "timer/dataset_avg": 7.682182601473842e-05, "timer/dataset_min": 5.6743621826171875e-05, "timer/dataset_max": 0.0001227855682373047, "timer/agent.train_count": 738.0, "timer/agent.train_total": 271.1426131725311, "timer/agent.train_frac": 0.9038155537055176, "timer/agent.train_avg": 0.36740191486792834, "timer/agent.train_min": 0.3599245548248291, "timer/agent.train_max": 0.381488561630249, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20077013969421387, "timer/agent.report_frac": 0.0006692388660420392, "timer/agent.report_avg": 0.20077013969421387, "timer/agent.report_min": 0.20077013969421387, "timer/agent.report_max": 0.20077013969421387, "fps": 4.919928313918346}
{"step": 497382, "episode/length": 190.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.05759162303664921}
{"step": 497569, "episode/length": 186.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.053475935828877004}
{"step": 497724, "episode/length": 154.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.03225806451612903}
{"step": 497898, "episode/length": 173.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.3000000193715096, "episode/reward_rate": 0.034482758620689655}
{"step": 498104, "episode/length": 205.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 14.300000011920929, "episode/reward_rate": 0.06310679611650485}
{"step": 498324, "episode/length": 219.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 12.899999991059303, "episode/reward_rate": 0.05909090909090909}
{"step": 498387, "episode/length": 62.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.1111111111111111}
{"step": 498569, "episode/length": 181.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 11.30000003427267, "episode/reward_rate": 0.054945054945054944}
{"step": 498725, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.624802048141892, "train/action_min": 0.0, "train/action_std": 3.5482383450946293, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.042520672787685655, "train/actor_opt_grad_steps": 248445.0, "train/actor_opt_loss": -12.861147328003034, "train/adv_mag": 0.4383540519991437, "train/adv_max": 0.38715891902511185, "train/adv_mean": 0.001681172795493645, "train/adv_min": -0.3704904130584485, "train/adv_std": 0.04779821896069759, "train/cont_avg": 0.9947872677364865, "train/cont_loss_mean": 1.7740267168740906e-05, "train/cont_loss_std": 0.0004885229708368361, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0009191865675943887, "train/cont_pos_acc": 0.9999999830851684, "train/cont_pos_loss": 1.2411970357644546e-05, "train/cont_pred": 0.9947801747837582, "train/cont_rate": 0.9947872677364865, "train/dyn_loss_mean": 5.090260570113723, "train/dyn_loss_std": 8.735461241490132, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.049288739223738, "train/extr_critic_critic_opt_grad_steps": 248445.0, "train/extr_critic_critic_opt_loss": 16264.706648543075, "train/extr_critic_mag": 10.126636298927101, "train/extr_critic_max": 10.126636298927101, "train/extr_critic_mean": 2.5545431504378446, "train/extr_critic_min": -0.4947897727425034, "train/extr_critic_std": 2.445863743086119, "train/extr_return_normed_mag": 1.4397175891979321, "train/extr_return_normed_max": 1.4397175891979321, "train/extr_return_normed_mean": 0.3583205032187539, "train/extr_return_normed_min": -0.08494935796369572, "train/extr_return_normed_std": 0.323692364869891, "train/extr_return_rate": 0.7298406233658662, "train/extr_return_raw_mag": 10.824557948756862, "train/extr_return_raw_max": 10.824557948756862, "train/extr_return_raw_mean": 2.567344660694535, "train/extr_return_raw_min": -0.817134183403608, "train/extr_return_raw_std": 2.4716541960432723, "train/extr_reward_mag": 1.0470177160727012, "train/extr_reward_max": 1.0470177160727012, "train/extr_reward_mean": 0.0496060302531397, "train/extr_reward_min": -0.6405460480097178, "train/extr_reward_std": 0.21593259174276042, "train/image_loss_mean": 3.0855117875176505, "train/image_loss_std": 7.940791948421581, "train/model_loss_mean": 6.19064889727412, "train/model_loss_std": 12.108190368961644, "train/model_opt_grad_norm": 28.945548044668662, "train/model_opt_grad_steps": 248249.0, "train/model_opt_loss": 11461.304133234797, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1841.2162162162163, "train/policy_entropy_mag": 2.5797673141634143, "train/policy_entropy_max": 2.5797673141634143, "train/policy_entropy_mean": 0.42980559693800435, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5941367374884116, "train/policy_logprob_mag": 7.438384230072434, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.42978438694734833, "train/policy_logprob_min": -7.438384230072434, "train/policy_logprob_std": 1.0379735851610028, "train/policy_randomness_mag": 0.9105446540020607, "train/policy_randomness_max": 0.9105446540020607, "train/policy_randomness_mean": 0.15170251195495194, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2097041927076675, "train/post_ent_mag": 55.40749555020719, "train/post_ent_max": 55.40749555020719, "train/post_ent_mean": 41.18724003353634, "train/post_ent_min": 19.046429247469515, "train/post_ent_std": 5.722069849839082, "train/prior_ent_mag": 76.38707578504408, "train/prior_ent_max": 76.38707578504408, "train/prior_ent_mean": 46.267836905814505, "train/prior_ent_min": 28.297011555852116, "train/prior_ent_std": 7.3706258438728955, "train/rep_loss_mean": 5.090260570113723, "train/rep_loss_std": 8.735461241490132, "train/reward_avg": 0.034117662297511425, "train/reward_loss_mean": 0.050963068481635405, "train/reward_loss_std": 0.20384025231406494, "train/reward_max_data": 1.0229729784501564, "train/reward_max_pred": 1.020511965493898, "train/reward_neg_acc": 0.9947402195350544, "train/reward_neg_loss": 0.02331049392956334, "train/reward_pos_acc": 0.9882542402357668, "train/reward_pos_loss": 0.7346835080030802, "train/reward_pred": 0.03358780849422958, "train/reward_rate": 0.03886454814189189, "stats/sum_log_reward": 8.225000023841858, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 2.75, "stats/max_log_achievement_collect_sapling": 0.875, "stats/max_log_achievement_collect_stone": 7.375, "stats/max_log_achievement_collect_wood": 7.625, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 0.25, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.75, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.625, "stats/max_log_achievement_place_plant": 0.75, "stats/max_log_achievement_place_stone": 3.875, "stats/max_log_achievement_place_table": 2.125, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.33562081307172775, "replay/size": 498662.0, "replay/inserts": 1469.0, "replay/samples": 11760.0, "replay/insert_wait_avg": 3.093598731283106e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4520624056965316e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.123078584671, "timer/env.step_count": 1469.0, "timer/env.step_total": 18.144158363342285, "timer/env.step_frac": 0.06045572519416709, "timer/env.step_avg": 0.012351367163609453, "timer/env.step_min": 0.0023729801177978516, "timer/env.step_max": 1.4138617515563965, "timer/replay.add_count": 1469.0, "timer/replay.add_total": 0.2597815990447998, "timer/replay.add_frac": 0.0008655835474895342, "timer/replay.add_avg": 0.00017684247722586782, "timer/replay.add_min": 6.151199340820312e-05, "timer/replay.add_max": 0.0013871192932128906, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021376848220825195, "timer/logger.write_frac": 7.122693903326178e-05, "timer/logger.write_avg": 0.021376848220825195, "timer/logger.write_min": 0.021376848220825195, "timer/logger.write_max": 0.021376848220825195, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1469.0, "timer/agent.policy_total": 10.598586320877075, "timer/agent.policy_frac": 0.03531413302455176, "timer/agent.policy_avg": 0.00721483071536901, "timer/agent.policy_min": 0.0057866573333740234, "timer/agent.policy_max": 0.014644622802734375, "timer/dataset_count": 735.0, "timer/dataset_total": 0.05879926681518555, "timer/dataset_frac": 0.00019591717868706668, "timer/dataset_avg": 7.99990024696402e-05, "timer/dataset_min": 5.507469177246094e-05, "timer/dataset_max": 0.00017404556274414062, "timer/agent.train_count": 735.0, "timer/agent.train_total": 270.42555952072144, "timer/agent.train_frac": 0.9010488656720503, "timer/agent.train_avg": 0.36792593132070944, "timer/agent.train_min": 0.36118102073669434, "timer/agent.train_max": 0.38210368156433105, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20660710334777832, "timer/agent.report_frac": 0.0006884079169189587, "timer/agent.report_avg": 0.20660710334777832, "timer/agent.report_min": 0.20660710334777832, "timer/agent.report_max": 0.20660710334777832, "fps": 4.8945561191522495}
{"step": 498820, "episode/length": 250.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.043824701195219126}
{"step": 498998, "episode/length": 177.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.03932584269662921}
{"step": 499316, "episode/length": 317.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.040880503144654086}
{"step": 499639, "episode/length": 322.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.04024767801857585}
{"step": 499874, "episode/length": 234.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.05531914893617021}
{"step": 500173, "episode/length": 298.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 15.1000000461936, "episode/reward_rate": 0.04013377926421405}
{"step": 500179, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.566515778842038, "train/action_min": 0.0, "train/action_std": 3.4418924606009704, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.046307763110284936, "train/actor_opt_grad_steps": 249180.0, "train/actor_opt_loss": -11.339170251705058, "train/adv_mag": 0.46650656241260163, "train/adv_max": 0.41106820759707935, "train/adv_mean": 0.0031119987505331815, "train/adv_min": -0.3886008209561648, "train/adv_std": 0.0523508466678123, "train/cont_avg": 0.994943279109589, "train/cont_loss_mean": 6.645706318467284e-05, "train/cont_loss_std": 0.0020561557271683447, "train/cont_neg_acc": 0.9976851857370801, "train/cont_neg_loss": 0.0035860574621343253, "train/cont_pos_acc": 0.9999865244512689, "train/cont_pos_loss": 4.598227371931278e-05, "train/cont_pred": 0.9949324343302478, "train/cont_rate": 0.994943279109589, "train/dyn_loss_mean": 5.2175796358552695, "train/dyn_loss_std": 8.736978981592884, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0940127658517393, "train/extr_critic_critic_opt_grad_steps": 249180.0, "train/extr_critic_critic_opt_loss": 16741.962261879282, "train/extr_critic_mag": 10.129695369772715, "train/extr_critic_max": 10.129695369772715, "train/extr_critic_mean": 2.6309553923672193, "train/extr_critic_min": -0.48886006335689597, "train/extr_critic_std": 2.411432298895431, "train/extr_return_normed_mag": 1.4839416660674631, "train/extr_return_normed_max": 1.4839416660674631, "train/extr_return_normed_mean": 0.3762295707447888, "train/extr_return_normed_min": -0.08640531501541399, "train/extr_return_normed_std": 0.32677699176416003, "train/extr_return_rate": 0.7537002775767078, "train/extr_return_raw_mag": 10.956141576375046, "train/extr_return_raw_max": 10.956141576375046, "train/extr_return_raw_mean": 2.6543139284604216, "train/extr_return_raw_min": -0.8129747840639663, "train/extr_return_raw_std": 2.4492380521068835, "train/extr_reward_mag": 1.0554679452556452, "train/extr_reward_max": 1.0554679452556452, "train/extr_reward_mean": 0.054407502129061584, "train/extr_reward_min": -0.6311609826675834, "train/extr_reward_std": 0.2252190113067627, "train/image_loss_mean": 3.06285657294809, "train/image_loss_std": 8.374283352943316, "train/model_loss_mean": 6.246752288243542, "train/model_loss_std": 12.507649944253163, "train/model_opt_grad_norm": 29.894374089698267, "train/model_opt_grad_steps": 248983.65753424657, "train/model_opt_loss": 13007.898103060788, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2071.917808219178, "train/policy_entropy_mag": 2.5800403274901926, "train/policy_entropy_max": 2.5800403274901926, "train/policy_entropy_mean": 0.3847646076385289, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5452998276442698, "train/policy_logprob_mag": 7.4383842324557365, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38433629315193385, "train/policy_logprob_min": -7.4383842324557365, "train/policy_logprob_std": 1.0045829260185972, "train/policy_randomness_mag": 0.9106410121264523, "train/policy_randomness_max": 0.9106410121264523, "train/policy_randomness_mean": 0.13580502069567982, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19246690750938572, "train/post_ent_mag": 54.885416475060865, "train/post_ent_max": 54.885416475060865, "train/post_ent_mean": 41.13158359266307, "train/post_ent_min": 19.31099579432239, "train/post_ent_std": 5.621193846611128, "train/prior_ent_mag": 76.50058986716074, "train/prior_ent_max": 76.50058986716074, "train/prior_ent_mean": 46.38067673983639, "train/prior_ent_min": 28.43833855406879, "train/prior_ent_std": 7.196958933791069, "train/rep_loss_mean": 5.2175796358552695, "train/rep_loss_std": 8.736978981592884, "train/reward_avg": 0.03797222791265135, "train/reward_loss_mean": 0.05328147623636951, "train/reward_loss_std": 0.21050598788751315, "train/reward_max_data": 1.028767130146288, "train/reward_max_pred": 1.0265092768081248, "train/reward_neg_acc": 0.994325483498508, "train/reward_neg_loss": 0.023186018562888447, "train/reward_pos_acc": 0.989001603159186, "train/reward_pos_loss": 0.7326877949989006, "train/reward_pred": 0.03762670455832187, "train/reward_rate": 0.042527290239726026, "stats/sum_log_reward": 10.4333336353302, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_sapling": 2.1666666666666665, "stats/max_log_achievement_collect_stone": 13.0, "stats/max_log_achievement_collect_wood": 11.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.8333333333333334, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_stone_pickaxe": 0.16666666666666666, "stats/max_log_achievement_make_stone_sword": 0.3333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_stone": 7.666666666666667, "stats/max_log_achievement_place_table": 3.8333333333333335, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.522891491651535, "replay/size": 500116.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.1069843444404445e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.5168234275492547e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.17498445510864, "timer/env.step_count": 1454.0, "timer/env.step_total": 16.59538507461548, "timer/env.step_frac": 0.055285703119932465, "timer/env.step_avg": 0.011413607341551224, "timer/env.step_min": 0.002772808074951172, "timer/env.step_max": 1.657761812210083, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.26270389556884766, "timer/replay.add_frac": 0.0008751691818880903, "timer/replay.add_avg": 0.0001806766819593175, "timer/replay.add_min": 6.008148193359375e-05, "timer/replay.add_max": 0.00160980224609375, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030469417572021484, "timer/logger.write_frac": 0.00010150551894699342, "timer/logger.write_avg": 0.030469417572021484, "timer/logger.write_min": 0.030469417572021484, "timer/logger.write_max": 0.030469417572021484, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00025391578674316406, "timer/checkpoint.save_frac": 8.458925623135572e-07, "timer/checkpoint.save_avg": 0.00025391578674316406, "timer/checkpoint.save_min": 0.00025391578674316406, "timer/checkpoint.save_max": 0.00025391578674316406, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.388012170791626, "timer/agent.save_frac": 0.004624010136325014, "timer/agent.save_avg": 1.388012170791626, "timer/agent.save_min": 1.388012170791626, "timer/agent.save_max": 1.388012170791626, "timer/replay.save_count": 1.0, "timer/replay.save_total": 5.507469177246094e-05, "timer/replay.save_frac": 1.8347528816378566e-07, "timer/replay.save_avg": 5.507469177246094e-05, "timer/replay.save_min": 5.507469177246094e-05, "timer/replay.save_max": 5.507469177246094e-05, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 14.976263284683228, "timer/agent.policy_frac": 0.04989177666443067, "timer/agent.policy_avg": 0.010300043524541422, "timer/agent.policy_min": 0.006011486053466797, "timer/agent.policy_max": 3.0305488109588623, "timer/dataset_count": 727.0, "timer/dataset_total": 0.05958223342895508, "timer/dataset_frac": 0.00019849166824181393, "timer/dataset_avg": 8.195630457903037e-05, "timer/dataset_min": 5.936622619628906e-05, "timer/dataset_max": 0.00017595291137695312, "timer/agent.train_count": 727.0, "timer/agent.train_total": 267.6079316139221, "timer/agent.train_frac": 0.8915064394846102, "timer/agent.train_avg": 0.3680989430727952, "timer/agent.train_min": 0.358626127243042, "timer/agent.train_max": 0.3832740783691406, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.23413419723510742, "timer/agent.report_frac": 0.0007799923689847724, "timer/agent.report_avg": 0.23413419723510742, "timer/agent.report_min": 0.23413419723510742, "timer/agent.report_max": 0.23413419723510742, "fps": 4.843731009474395}
{"step": 500383, "episode/length": 209.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.900000005960464, "episode/reward_rate": 0.04285714285714286}
{"step": 500596, "episode/length": 212.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.900000043213367, "episode/reward_rate": 0.056338028169014086}
{"step": 500743, "episode/length": 146.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.08163265306122448}
{"step": 500920, "episode/length": 176.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.062146892655367235}
{"step": 501094, "episode/length": 173.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.05747126436781609}
{"step": 501283, "episode/length": 188.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.299999997019768, "episode/reward_rate": 0.07407407407407407}
{"step": 501370, "episode/length": 86.0, "episode/score": 7.100000023841858, "episode/sum_abs_reward": 8.5, "episode/reward_rate": 0.10344827586206896}
{"step": 501411, "episode/length": 40.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.0975609756097561}
{"step": 501627, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.504163106282552, "train/action_min": 0.0, "train/action_std": 3.3961651424566903, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04471876249752111, "train/actor_opt_grad_steps": 249905.0, "train/actor_opt_loss": -13.218591746356752, "train/adv_mag": 0.4272251572046015, "train/adv_max": 0.38515884677569073, "train/adv_mean": 0.0027023780171980937, "train/adv_min": -0.36838800232443547, "train/adv_std": 0.050585806731962495, "train/cont_avg": 0.9944932725694444, "train/cont_loss_mean": 1.456491675513563e-05, "train/cont_loss_std": 0.0004170173700378162, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0005620359456620526, "train/cont_pos_acc": 0.9999999842709966, "train/cont_pos_loss": 1.1569194862559584e-05, "train/cont_pred": 0.9944860935211182, "train/cont_rate": 0.9944932725694444, "train/dyn_loss_mean": 5.044907708962758, "train/dyn_loss_std": 8.654783997270796, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0543464637464948, "train/extr_critic_critic_opt_grad_steps": 249905.0, "train/extr_critic_critic_opt_loss": 16515.398898654516, "train/extr_critic_mag": 10.326660023795235, "train/extr_critic_max": 10.326660023795235, "train/extr_critic_mean": 2.7362450096342297, "train/extr_critic_min": -0.5114091038703918, "train/extr_critic_std": 2.5031496816211276, "train/extr_return_normed_mag": 1.457213294174936, "train/extr_return_normed_max": 1.457213294174936, "train/extr_return_normed_mean": 0.3757076474527518, "train/extr_return_normed_min": -0.09128870985781153, "train/extr_return_normed_std": 0.3272130737702052, "train/extr_return_rate": 0.7553277338544527, "train/extr_return_raw_mag": 11.154409382078383, "train/extr_return_raw_max": 11.154409382078383, "train/extr_return_raw_mean": 2.7572261508968143, "train/extr_return_raw_min": -0.8696850707961453, "train/extr_return_raw_std": 2.541234294573466, "train/extr_reward_mag": 1.04742717411783, "train/extr_reward_max": 1.04742717411783, "train/extr_reward_mean": 0.053774260346674256, "train/extr_reward_min": -0.6569672425587972, "train/extr_reward_std": 0.22413012550936806, "train/image_loss_mean": 3.0150088138050504, "train/image_loss_std": 7.954713404178619, "train/model_loss_mean": 6.094071871704525, "train/model_loss_std": 12.082715405358208, "train/model_opt_grad_norm": 30.08132146464454, "train/model_opt_grad_steps": 249708.0, "train/model_opt_loss": 7617.589789496527, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.598314937618044, "train/policy_entropy_max": 2.598314937618044, "train/policy_entropy_mean": 0.37847598890463513, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5476766692267524, "train/policy_logprob_mag": 7.438384274641673, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37691098679271007, "train/policy_logprob_min": -7.438384274641673, "train/policy_logprob_std": 0.9964829277661111, "train/policy_randomness_mag": 0.9170911452836461, "train/policy_randomness_max": 0.9170911452836461, "train/policy_randomness_mean": 0.1335854148492217, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19330583005729648, "train/post_ent_mag": 54.91456010606554, "train/post_ent_max": 54.91456010606554, "train/post_ent_mean": 41.03373474544949, "train/post_ent_min": 19.117135696940952, "train/post_ent_std": 5.5887818402714196, "train/prior_ent_mag": 76.33946895599365, "train/prior_ent_max": 76.33946895599365, "train/prior_ent_mean": 46.09216774834527, "train/prior_ent_min": 28.117785268359714, "train/prior_ent_std": 7.352139419979519, "train/rep_loss_mean": 5.044907708962758, "train/rep_loss_std": 8.654783997270796, "train/reward_avg": 0.03681911854073405, "train/reward_loss_mean": 0.052103944381492004, "train/reward_loss_std": 0.2067205258127716, "train/reward_max_data": 1.0208333383003871, "train/reward_max_pred": 1.0198142925898235, "train/reward_neg_acc": 0.995000941058, "train/reward_neg_loss": 0.02310529591826101, "train/reward_pos_acc": 0.9915460704101456, "train/reward_pos_loss": 0.7207931139402919, "train/reward_pred": 0.03656731331203547, "train/reward_rate": 0.04150390625, "stats/sum_log_reward": 8.850000143051147, "stats/max_log_achievement_collect_coal": 0.625, "stats/max_log_achievement_collect_drink": 1.75, "stats/max_log_achievement_collect_sapling": 1.125, "stats/max_log_achievement_collect_stone": 7.25, "stats/max_log_achievement_collect_wood": 8.375, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.125, "stats/max_log_achievement_eat_cow": 0.375, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 2.5, "stats/max_log_achievement_place_table": 1.875, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.2625485546886921, "replay/size": 501564.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.0757313933820355e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4546949889778433e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0059745311737, "timer/env.step_count": 1448.0, "timer/env.step_total": 20.120659112930298, "timer/env.step_frac": 0.06706752805297735, "timer/env.step_avg": 0.013895482812797167, "timer/env.step_min": 0.0029501914978027344, "timer/env.step_max": 1.6463654041290283, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.2469334602355957, "timer/replay.add_frac": 0.0008230951420933678, "timer/replay.add_avg": 0.00017053415762126775, "timer/replay.add_min": 6.151199340820312e-05, "timer/replay.add_max": 0.0010352134704589844, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022258520126342773, "timer/logger.write_frac": 7.419358951476442e-05, "timer/logger.write_avg": 0.022258520126342773, "timer/logger.write_min": 0.022258520126342773, "timer/logger.write_max": 0.022258520126342773, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 10.764592409133911, "timer/agent.policy_frac": 0.03588126011808928, "timer/agent.policy_avg": 0.007434110779788613, "timer/agent.policy_min": 0.006021261215209961, "timer/agent.policy_max": 0.01871347427368164, "timer/dataset_count": 724.0, "timer/dataset_total": 0.05860447883605957, "timer/dataset_frac": 0.00019534437248338853, "timer/dataset_avg": 8.094541275698836e-05, "timer/dataset_min": 6.175041198730469e-05, "timer/dataset_max": 0.00016021728515625, "timer/agent.train_count": 724.0, "timer/agent.train_total": 268.16883969306946, "timer/agent.train_frac": 0.893878330630392, "timer/agent.train_avg": 0.37039894985230587, "timer/agent.train_min": 0.36339521408081055, "timer/agent.train_max": 0.3841209411621094, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21277904510498047, "timer/agent.report_frac": 0.0007092493589085858, "timer/agent.report_avg": 0.21277904510498047, "timer/agent.report_min": 0.21277904510498047, "timer/agent.report_max": 0.21277904510498047, "fps": 4.826476233748137}
{"step": 501641, "episode/length": 229.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 13.300000011920929, "episode/reward_rate": 0.05652173913043478}
{"step": 501882, "episode/length": 240.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.04564315352697095}
{"step": 502092, "episode/length": 209.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 11.900000050663948, "episode/reward_rate": 0.047619047619047616}
{"step": 502410, "episode/length": 317.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.03459119496855346}
{"step": 502572, "episode/length": 161.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 10.899999991059303, "episode/reward_rate": 0.06790123456790123}
{"step": 502753, "episode/length": 180.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06077348066298342}
{"step": 503079, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.6522935841181505, "train/action_min": 0.0, "train/action_std": 3.520919202125236, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04346271369555225, "train/actor_opt_grad_steps": 250630.0, "train/actor_opt_loss": -12.28122880564977, "train/adv_mag": 0.4393056137104557, "train/adv_max": 0.40154158660810285, "train/adv_mean": 0.002389354813452858, "train/adv_min": -0.3601723264341485, "train/adv_std": 0.04915591293614205, "train/cont_avg": 0.9948362585616438, "train/cont_loss_mean": 5.259037759211511e-06, "train/cont_loss_std": 0.00014632806348122482, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0008183691930622594, "train/cont_pos_acc": 0.9999999763214424, "train/cont_pos_loss": 1.2039402983960727e-06, "train/cont_pred": 0.994839026503367, "train/cont_rate": 0.9948362585616438, "train/dyn_loss_mean": 5.25189220088802, "train/dyn_loss_std": 8.777953709641547, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0976489333257282, "train/extr_critic_critic_opt_grad_steps": 250630.0, "train/extr_critic_critic_opt_loss": 16330.616906571062, "train/extr_critic_mag": 10.264316088532748, "train/extr_critic_max": 10.264316088532748, "train/extr_critic_mean": 2.5960781704889584, "train/extr_critic_min": -0.488338343084675, "train/extr_critic_std": 2.4758685876245368, "train/extr_return_normed_mag": 1.4416725521218288, "train/extr_return_normed_max": 1.4416725521218288, "train/extr_return_normed_mean": 0.356200926924405, "train/extr_return_normed_min": -0.08857517694569614, "train/extr_return_normed_std": 0.3234728860528502, "train/extr_return_rate": 0.727512343289101, "train/extr_return_raw_mag": 11.032905748445694, "train/extr_return_raw_max": 11.032905748445694, "train/extr_return_raw_mean": 2.614589273113094, "train/extr_return_raw_min": -0.8339116614158839, "train/extr_return_raw_std": 2.5084743712046373, "train/extr_reward_mag": 1.0423163191912925, "train/extr_reward_max": 1.0423163191912925, "train/extr_reward_mean": 0.05153913354526644, "train/extr_reward_min": -0.667578785386804, "train/extr_reward_std": 0.21890572427886806, "train/image_loss_mean": 3.1933788175452245, "train/image_loss_std": 8.342215093847823, "train/model_loss_mean": 6.3954270571878515, "train/model_loss_std": 12.53079447027755, "train/model_opt_grad_norm": 30.328224783074365, "train/model_opt_grad_steps": 250433.0, "train/model_opt_loss": 15653.211405714897, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2448.6301369863013, "train/policy_entropy_mag": 2.592488651406275, "train/policy_entropy_max": 2.592488651406275, "train/policy_entropy_mean": 0.416375508863632, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5847494300097635, "train/policy_logprob_mag": 7.43838429124388, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4167068365910282, "train/policy_logprob_min": -7.43838429124388, "train/policy_logprob_std": 1.028548431723085, "train/policy_randomness_mag": 0.9150347244249631, "train/policy_randomness_max": 0.9150347244249631, "train/policy_randomness_mean": 0.14696228157167565, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20639088606997713, "train/post_ent_mag": 55.1121337054527, "train/post_ent_max": 55.1121337054527, "train/post_ent_mean": 41.19883033020856, "train/post_ent_min": 19.241871324304032, "train/post_ent_std": 5.625972610630401, "train/prior_ent_mag": 76.50285558831202, "train/prior_ent_max": 76.50285558831202, "train/prior_ent_mean": 46.43494148776956, "train/prior_ent_min": 28.450698591258426, "train/prior_ent_std": 7.407091356303594, "train/rep_loss_mean": 5.25189220088802, "train/rep_loss_std": 8.777953709641547, "train/reward_avg": 0.03531142996547565, "train/reward_loss_mean": 0.05090766920618815, "train/reward_loss_std": 0.2004902575114002, "train/reward_max_data": 1.0205479501044914, "train/reward_max_pred": 1.0191424840117154, "train/reward_neg_acc": 0.9947599752308571, "train/reward_neg_loss": 0.022887197961035655, "train/reward_pos_acc": 0.9916031540256657, "train/reward_pos_loss": 0.7236690096659203, "train/reward_pred": 0.035024240727804294, "train/reward_rate": 0.03991866438356165, "stats/sum_log_reward": 9.93333355585734, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 4.5, "stats/max_log_achievement_collect_sapling": 2.1666666666666665, "stats/max_log_achievement_collect_stone": 12.5, "stats/max_log_achievement_collect_wood": 7.5, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 0.3333333333333333, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 0.6666666666666666, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 4.333333333333333, "stats/max_log_achievement_place_table": 2.1666666666666665, "stats/max_log_achievement_wake_up": 1.6666666666666667, "stats/mean_log_entropy": 0.5100381771723429, "replay/size": 503016.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.2882716701707236e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3819903381599867e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.11337542533875, "timer/env.step_count": 1452.0, "timer/env.step_total": 17.963125467300415, "timer/env.step_frac": 0.059854464806315254, "timer/env.step_avg": 0.012371298531198633, "timer/env.step_min": 0.0028090476989746094, "timer/env.step_max": 1.6337828636169434, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.2445693016052246, "timer/replay.add_frac": 0.0008149230311998133, "timer/replay.add_avg": 0.00016843615813031998, "timer/replay.add_min": 5.7697296142578125e-05, "timer/replay.add_max": 0.0005917549133300781, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022274017333984375, "timer/logger.write_frac": 7.421867586679966e-05, "timer/logger.write_avg": 0.022274017333984375, "timer/logger.write_min": 0.022274017333984375, "timer/logger.write_max": 0.022274017333984375, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 10.813034534454346, "timer/agent.policy_frac": 0.036029832123041707, "timer/agent.policy_avg": 0.007446993481029163, "timer/agent.policy_min": 0.006128549575805664, "timer/agent.policy_max": 0.017280101776123047, "timer/dataset_count": 726.0, "timer/dataset_total": 0.05843329429626465, "timer/dataset_frac": 0.00019470406546675723, "timer/dataset_avg": 8.048663126207252e-05, "timer/dataset_min": 5.698204040527344e-05, "timer/dataset_max": 0.0001556873321533203, "timer/agent.train_count": 726.0, "timer/agent.train_total": 270.3735010623932, "timer/agent.train_frac": 0.9009045354249993, "timer/agent.train_avg": 0.3724152907195499, "timer/agent.train_min": 0.36490464210510254, "timer/agent.train_max": 0.3850584030151367, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21036171913146973, "timer/agent.report_frac": 0.0007009408322215977, "timer/agent.report_avg": 0.21036171913146973, "timer/agent.report_min": 0.21036171913146973, "timer/agent.report_max": 0.21036171913146973, "fps": 4.838090765220457}
{"step": 503090, "episode/length": 336.0, "episode/score": 10.099999964237213, "episode/sum_abs_reward": 11.699999988079071, "episode/reward_rate": 0.032640949554896145}
{"step": 503278, "episode/length": 187.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.05851063829787234}
{"step": 503565, "episode/length": 286.0, "episode/score": 9.099999994039536, "episode/sum_abs_reward": 10.500000029802322, "episode/reward_rate": 0.03484320557491289}
{"step": 503839, "episode/length": 273.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.0364963503649635}
{"step": 504132, "episode/length": 292.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 11.300000011920929, "episode/reward_rate": 0.034129692832764506}
{"step": 504381, "episode/length": 248.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.03614457831325301}
{"step": 504511, "stats/sum_log_reward": 9.100000381469727, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 2.5, "stats/max_log_achievement_collect_sapling": 2.6666666666666665, "stats/max_log_achievement_collect_stone": 10.0, "stats/max_log_achievement_collect_wood": 9.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 0.6666666666666666, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.3333333333333333, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 2.3333333333333335, "stats/max_log_achievement_place_stone": 2.6666666666666665, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 1.8333333333333333, "stats/mean_log_entropy": 0.5761659716566404, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.513960717429577, "train/action_min": 0.0, "train/action_std": 3.418932998684091, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04464161054978908, "train/actor_opt_grad_steps": 251350.0, "train/actor_opt_loss": -12.022155899397085, "train/adv_mag": 0.4183346322724517, "train/adv_max": 0.3917319040063401, "train/adv_mean": 0.0026780673274067377, "train/adv_min": -0.3544207970860978, "train/adv_std": 0.05057209037559133, "train/cont_avg": 0.9949796434859155, "train/cont_loss_mean": 5.722784594527712e-06, "train/cont_loss_std": 0.00016308936488920148, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0001614695403224661, "train/cont_pos_acc": 0.9999999815309552, "train/cont_pos_loss": 4.961126582549334e-06, "train/cont_pred": 0.9949759278498905, "train/cont_rate": 0.9949796434859155, "train/dyn_loss_mean": 5.0869885162568425, "train/dyn_loss_std": 8.775507060574814, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0503981449234654, "train/extr_critic_critic_opt_grad_steps": 251350.0, "train/extr_critic_critic_opt_loss": 16365.413787411971, "train/extr_critic_mag": 10.330231585972745, "train/extr_critic_max": 10.330231585972745, "train/extr_critic_mean": 2.753833100829326, "train/extr_critic_min": -0.45950054114973043, "train/extr_critic_std": 2.48973089372608, "train/extr_return_normed_mag": 1.4580521415656722, "train/extr_return_normed_max": 1.4580521415656722, "train/extr_return_normed_mean": 0.3759357880958369, "train/extr_return_normed_min": -0.09104638620161674, "train/extr_return_normed_std": 0.326715994888628, "train/extr_return_rate": 0.7623028956668477, "train/extr_return_raw_mag": 11.14454092106349, "train/extr_return_raw_max": 11.14454092106349, "train/extr_return_raw_mean": 2.77456211540061, "train/extr_return_raw_min": -0.8378726579773594, "train/extr_return_raw_std": 2.527164309797153, "train/extr_reward_mag": 1.0536610207087558, "train/extr_reward_max": 1.0536610207087558, "train/extr_reward_mean": 0.05471906648345397, "train/extr_reward_min": -0.6319863863394294, "train/extr_reward_std": 0.22568292475082505, "train/image_loss_mean": 2.895645450538313, "train/image_loss_std": 8.148774973103698, "train/model_loss_mean": 5.999399171748632, "train/model_loss_std": 12.396359819761464, "train/model_opt_grad_norm": 28.70074834957929, "train/model_opt_grad_steps": 251152.4366197183, "train/model_opt_loss": 15141.982972051057, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2535.211267605634, "train/policy_entropy_mag": 2.587921125788084, "train/policy_entropy_max": 2.587921125788084, "train/policy_entropy_mean": 0.39778312893820483, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5631585377202907, "train/policy_logprob_mag": 7.438384284435863, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39717822868219566, "train/policy_logprob_min": -7.438384284435863, "train/policy_logprob_std": 1.0138559307850583, "train/policy_randomness_mag": 0.9134225904102057, "train/policy_randomness_max": 0.9134225904102057, "train/policy_randomness_mean": 0.14039998721908514, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19877025044300187, "train/post_ent_mag": 55.28271812116596, "train/post_ent_max": 55.28271812116596, "train/post_ent_mean": 40.97798591936138, "train/post_ent_min": 18.70506031412474, "train/post_ent_std": 5.622012454019466, "train/prior_ent_mag": 76.5497002400143, "train/prior_ent_max": 76.5497002400143, "train/prior_ent_mean": 46.06562987851425, "train/prior_ent_min": 28.460220148865606, "train/prior_ent_std": 7.3353456510624415, "train/rep_loss_mean": 5.0869885162568425, "train/rep_loss_std": 8.775507060574814, "train/reward_avg": 0.03588798411295448, "train/reward_loss_mean": 0.05155495648652735, "train/reward_loss_std": 0.20504737005267346, "train/reward_max_data": 1.0197183145603663, "train/reward_max_pred": 1.0166448035710294, "train/reward_neg_acc": 0.9943088872331969, "train/reward_neg_loss": 0.022863867469656636, "train/reward_pos_acc": 0.9888812194407826, "train/reward_pos_loss": 0.7311832552224817, "train/reward_pred": 0.0356245247096243, "train/reward_rate": 0.040492957746478875, "replay/size": 504448.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.330700890311982e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3737372179937097e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.06259512901306, "timer/env.step_count": 1432.0, "timer/env.step_total": 19.421508073806763, "timer/env.step_frac": 0.0647248553771136, "timer/env.step_avg": 0.013562505638133214, "timer/env.step_min": 0.0028333663940429688, "timer/env.step_max": 1.7897584438323975, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.24006986618041992, "timer/replay.add_frac": 0.0008000659531628758, "timer/replay.add_avg": 0.0001676465545952653, "timer/replay.add_min": 5.91278076171875e-05, "timer/replay.add_max": 0.003475666046142578, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021192312240600586, "timer/logger.write_frac": 7.06263045931762e-05, "timer/logger.write_avg": 0.021192312240600586, "timer/logger.write_min": 0.021192312240600586, "timer/logger.write_max": 0.021192312240600586, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00037670135498046875, "timer/checkpoint.save_frac": 1.2554092415900908e-06, "timer/checkpoint.save_avg": 0.00037670135498046875, "timer/checkpoint.save_min": 0.00037670135498046875, "timer/checkpoint.save_max": 0.00037670135498046875, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4574024677276611, "timer/agent.save_frac": 0.004856994811702689, "timer/agent.save_avg": 1.4574024677276611, "timer/agent.save_min": 1.4574024677276611, "timer/agent.save_max": 1.4574024677276611, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.1552734375e-05, "timer/replay.save_frac": 3.0511211947506004e-07, "timer/replay.save_avg": 9.1552734375e-05, "timer/replay.save_min": 9.1552734375e-05, "timer/replay.save_max": 9.1552734375e-05, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 12.54492998123169, "timer/agent.policy_frac": 0.04180771007408621, "timer/agent.policy_avg": 0.008760425964547269, "timer/agent.policy_min": 0.00606846809387207, "timer/agent.policy_max": 1.4454939365386963, "timer/dataset_count": 716.0, "timer/dataset_total": 0.0570836067199707, "timer/dataset_frac": 0.0001902389956183222, "timer/dataset_avg": 7.972570770945629e-05, "timer/dataset_min": 5.9604644775390625e-05, "timer/dataset_max": 0.00016021728515625, "timer/agent.train_count": 716.0, "timer/agent.train_total": 267.1509311199188, "timer/agent.train_frac": 0.8903173386374809, "timer/agent.train_avg": 0.3731158255864788, "timer/agent.train_min": 0.3632161617279053, "timer/agent.train_max": 0.8835346698760986, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.1996619701385498, "timer/agent.report_frac": 0.0006654010642436268, "timer/agent.report_avg": 0.1996619701385498, "timer/agent.report_min": 0.1996619701385498, "timer/agent.report_max": 0.1996619701385498, "fps": 4.7722385325145815}
{"step": 504578, "episode/length": 196.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.050761421319796954}
{"step": 504737, "episode/length": 158.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.06289308176100629}
{"step": 504906, "episode/length": 168.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.07100591715976332}
{"step": 505251, "episode/length": 344.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.03768115942028986}
{"step": 505456, "episode/length": 204.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.05853658536585366}
{"step": 505662, "episode/length": 205.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.06310679611650485}
{"step": 505939, "episode/length": 276.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.039711191335740074}
{"step": 505959, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.573609234535531, "train/action_min": 0.0, "train/action_std": 3.42912202012049, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04510987386719821, "train/actor_opt_grad_steps": 252070.0, "train/actor_opt_loss": -13.23688395872508, "train/adv_mag": 0.46329328907679207, "train/adv_max": 0.4081536188517531, "train/adv_mean": 0.0020513793668165093, "train/adv_min": -0.3911344919302692, "train/adv_std": 0.050643407114564554, "train/cont_avg": 0.9940068493150684, "train/cont_loss_mean": 1.9804197142185354e-05, "train/cont_loss_std": 0.0006160054151242136, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0015528217180006273, "train/cont_pos_acc": 0.9999999869359683, "train/cont_pos_loss": 9.114946657883306e-06, "train/cont_pred": 0.9940068435995546, "train/cont_rate": 0.9940068493150684, "train/dyn_loss_mean": 5.181585390273839, "train/dyn_loss_std": 8.798533139163501, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0416495669377994, "train/extr_critic_critic_opt_grad_steps": 252070.0, "train/extr_critic_critic_opt_loss": 16405.082981057363, "train/extr_critic_mag": 10.64092126611161, "train/extr_critic_max": 10.64092126611161, "train/extr_critic_mean": 2.6908222959466177, "train/extr_critic_min": -0.5169539255638645, "train/extr_critic_std": 2.5693145386160237, "train/extr_return_normed_mag": 1.492801400080119, "train/extr_return_normed_max": 1.492801400080119, "train/extr_return_normed_mean": 0.36655045147628, "train/extr_return_normed_min": -0.08955547351339092, "train/extr_return_normed_std": 0.3345412575218776, "train/extr_return_rate": 0.7334234436897382, "train/extr_return_raw_mag": 11.469420354660244, "train/extr_return_raw_max": 11.469420354660244, "train/extr_return_raw_mean": 2.7067772933881575, "train/extr_return_raw_min": -0.8412959632808215, "train/extr_return_raw_std": 2.6025091589313663, "train/extr_reward_mag": 1.05308374313459, "train/extr_reward_max": 1.05308374313459, "train/extr_reward_mean": 0.05344946095592355, "train/extr_reward_min": -0.6683145859470107, "train/extr_reward_std": 0.22431903648866366, "train/image_loss_mean": 3.112671249533353, "train/image_loss_std": 8.210823855987966, "train/model_loss_mean": 6.274357560562761, "train/model_loss_std": 12.381657717979117, "train/model_opt_grad_norm": 29.85518417619679, "train/model_opt_grad_steps": 251871.84931506848, "train/model_opt_loss": 16142.876096960616, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2568.4931506849316, "train/policy_entropy_mag": 2.5984260317397445, "train/policy_entropy_max": 2.5984260317397445, "train/policy_entropy_mean": 0.4049786888573268, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5675057523871121, "train/policy_logprob_mag": 7.438384284711864, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4045513023252357, "train/policy_logprob_min": -7.438384284711864, "train/policy_logprob_std": 1.01914537606174, "train/policy_randomness_mag": 0.9171303600481112, "train/policy_randomness_max": 0.9171303600481112, "train/policy_randomness_mean": 0.1429397069836316, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20030462588757686, "train/post_ent_mag": 55.23026834775324, "train/post_ent_max": 55.23026834775324, "train/post_ent_mean": 41.222806799901676, "train/post_ent_min": 18.99940209845974, "train/post_ent_std": 5.630337917641418, "train/prior_ent_mag": 76.43818580940979, "train/prior_ent_max": 76.43818580940979, "train/prior_ent_mean": 46.40069418084131, "train/prior_ent_min": 28.608142774399013, "train/prior_ent_std": 7.358773362146665, "train/rep_loss_mean": 5.181585390273839, "train/rep_loss_std": 8.798533139163501, "train/reward_avg": 0.03579971079446682, "train/reward_loss_mean": 0.052715284111973355, "train/reward_loss_std": 0.20475636830885116, "train/reward_max_data": 1.0219178134447908, "train/reward_max_pred": 1.0228092703100753, "train/reward_neg_acc": 0.9945617979519987, "train/reward_neg_loss": 0.024622636936502913, "train/reward_pos_acc": 0.9912543925520492, "train/reward_pos_loss": 0.7086257338523865, "train/reward_pred": 0.03578143053981539, "train/reward_rate": 0.04100224743150685, "stats/sum_log_reward": 10.671428952898298, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 4.285714285714286, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 11.428571428571429, "stats/max_log_achievement_collect_wood": 10.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.2857142857142858, "stats/max_log_achievement_place_furnace": 1.1428571428571428, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 5.142857142857143, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.5714285714285714, "stats/mean_log_entropy": 0.37625443935394287, "replay/size": 505896.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.3344023794100428e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.408941837964137e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.13507080078125, "timer/env.step_count": 1448.0, "timer/env.step_total": 19.244879245758057, "timer/env.step_frac": 0.06412072802558988, "timer/env.step_avg": 0.013290662462540095, "timer/env.step_min": 0.0029218196868896484, "timer/env.step_max": 1.5744469165802002, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.2451610565185547, "timer/replay.add_frac": 0.0008168357528643618, "timer/replay.add_avg": 0.0001693101219050792, "timer/replay.add_min": 5.8650970458984375e-05, "timer/replay.add_max": 0.0011973381042480469, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021523475646972656, "timer/logger.write_frac": 7.17126312148278e-05, "timer/logger.write_avg": 0.021523475646972656, "timer/logger.write_min": 0.021523475646972656, "timer/logger.write_max": 0.021523475646972656, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 10.818207502365112, "timer/agent.policy_frac": 0.03604446315954141, "timer/agent.policy_avg": 0.007471137777876459, "timer/agent.policy_min": 0.0060083866119384766, "timer/agent.policy_max": 0.016278743743896484, "timer/dataset_count": 724.0, "timer/dataset_total": 0.05827903747558594, "timer/dataset_frac": 0.0001941760332109587, "timer/dataset_avg": 8.04959081154502e-05, "timer/dataset_min": 5.8650970458984375e-05, "timer/dataset_max": 0.0001442432403564453, "timer/agent.train_count": 724.0, "timer/agent.train_total": 269.09383964538574, "timer/agent.train_frac": 0.8965757947827445, "timer/agent.train_avg": 0.37167657409583665, "timer/agent.train_min": 0.3635239601135254, "timer/agent.train_max": 0.3872838020324707, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22714710235595703, "timer/agent.report_frac": 0.0007568162619247153, "timer/agent.report_avg": 0.22714710235595703, "timer/agent.report_min": 0.22714710235595703, "timer/agent.report_max": 0.22714710235595703, "fps": 4.824420755231672}
{"step": 506135, "episode/length": 195.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.061224489795918366}
{"step": 506317, "episode/length": 181.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.07142857142857142}
{"step": 506620, "episode/length": 302.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.0429042904290429}
{"step": 506700, "episode/length": 79.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 9.899999976158142, "episode/reward_rate": 0.125}
{"step": 506765, "episode/length": 64.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 8.899999991059303, "episode/reward_rate": 0.13846153846153847}
{"step": 506987, "episode/length": 221.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 10.100000001490116, "episode/reward_rate": 0.04504504504504504}
{"step": 507112, "episode/length": 124.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.08}
{"step": 507417, "episode/length": 304.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.30000003427267, "episode/reward_rate": 0.03934426229508197}
{"step": 507418, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.638028462727864, "train/action_min": 0.0, "train/action_std": 3.4984611901972027, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04615677044623428, "train/actor_opt_grad_steps": 252795.0, "train/actor_opt_loss": -9.840694165064228, "train/adv_mag": 0.44566689224706757, "train/adv_max": 0.41451913490891457, "train/adv_mean": 0.003329549705793195, "train/adv_min": -0.35970193872021305, "train/adv_std": 0.052451314559827246, "train/cont_avg": 0.9943983289930556, "train/cont_loss_mean": 5.338779013985828e-06, "train/cont_loss_std": 0.00012424938594533962, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0001852663265016948, "train/cont_pos_acc": 0.9999999759925736, "train/cont_pos_loss": 4.3699923206001285e-06, "train/cont_pred": 0.9943950499097506, "train/cont_rate": 0.9943983289930556, "train/dyn_loss_mean": 5.223739710119036, "train/dyn_loss_std": 8.700579722722372, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1177343817220793, "train/extr_critic_critic_opt_grad_steps": 252795.0, "train/extr_critic_critic_opt_loss": 16697.49833170573, "train/extr_critic_mag": 10.312823070420158, "train/extr_critic_max": 10.312823070420158, "train/extr_critic_mean": 2.7194616430335574, "train/extr_critic_min": -0.49761389858192867, "train/extr_critic_std": 2.506799593567848, "train/extr_return_normed_mag": 1.4633019649320178, "train/extr_return_normed_max": 1.4633019649320178, "train/extr_return_normed_mean": 0.372696607063214, "train/extr_return_normed_min": -0.08724077990175122, "train/extr_return_normed_std": 0.32876695361402297, "train/extr_return_rate": 0.7520056085454093, "train/extr_return_raw_mag": 11.196442974938286, "train/extr_return_raw_max": 11.196442974938286, "train/extr_return_raw_mean": 2.7452951023976007, "train/extr_return_raw_min": -0.8186612692144182, "train/extr_return_raw_std": 2.5476507014698453, "train/extr_reward_mag": 1.056110358900494, "train/extr_reward_max": 1.056110358900494, "train/extr_reward_mean": 0.055184213185889855, "train/extr_reward_min": -0.6437869187858369, "train/extr_reward_std": 0.22728647477924824, "train/image_loss_mean": 3.0991610255506306, "train/image_loss_std": 8.175020615259806, "train/model_loss_mean": 6.285235676500532, "train/model_loss_std": 12.284969409306845, "train/model_opt_grad_norm": 31.864010122087265, "train/model_opt_grad_steps": 252596.0, "train/model_opt_loss": 15713.089165581598, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.611227528916465, "train/policy_entropy_max": 2.611227528916465, "train/policy_entropy_mean": 0.3997746432820956, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5590270169907146, "train/policy_logprob_mag": 7.438384221659766, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40055455163949066, "train/policy_logprob_min": -7.438384221659766, "train/policy_logprob_std": 1.0182834615310032, "train/policy_randomness_mag": 0.9216487300064828, "train/policy_randomness_max": 0.9216487300064828, "train/policy_randomness_mean": 0.14110290507475534, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19731200331201157, "train/post_ent_mag": 55.24451149834527, "train/post_ent_max": 55.24451149834527, "train/post_ent_mean": 41.22741497887505, "train/post_ent_min": 18.99077139960395, "train/post_ent_std": 5.629285322295295, "train/prior_ent_mag": 76.54473633236356, "train/prior_ent_max": 76.54473633236356, "train/prior_ent_mean": 46.44189961751302, "train/prior_ent_min": 28.800335592693752, "train/prior_ent_std": 7.280021978749169, "train/rep_loss_mean": 5.223739710119036, "train/rep_loss_std": 8.700579722722372, "train/reward_avg": 0.03528238913147814, "train/reward_loss_mean": 0.05182546299571792, "train/reward_loss_std": 0.20607608370482922, "train/reward_max_data": 1.0097222245401807, "train/reward_max_pred": 1.0119118458694882, "train/reward_neg_acc": 0.9942112424307399, "train/reward_neg_loss": 0.024078192952502932, "train/reward_pos_acc": 0.9909361054499944, "train/reward_pos_loss": 0.7148919006188711, "train/reward_pred": 0.035340708292399846, "train/reward_rate": 0.04018825954861111, "stats/sum_log_reward": 9.725000262260437, "stats/max_log_achievement_collect_coal": 0.625, "stats/max_log_achievement_collect_drink": 0.875, "stats/max_log_achievement_collect_sapling": 1.875, "stats/max_log_achievement_collect_stone": 8.0, "stats/max_log_achievement_collect_wood": 9.125, "stats/max_log_achievement_defeat_skeleton": 0.25, "stats/max_log_achievement_defeat_zombie": 0.25, "stats/max_log_achievement_eat_cow": 0.375, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.125, "stats/max_log_achievement_make_wood_sword": 1.125, "stats/max_log_achievement_place_furnace": 1.125, "stats/max_log_achievement_place_plant": 1.875, "stats/max_log_achievement_place_stone": 2.375, "stats/max_log_achievement_place_table": 2.625, "stats/max_log_achievement_wake_up": 1.125, "stats/mean_log_entropy": 0.3914909139275551, "replay/size": 507355.0, "replay/inserts": 1459.0, "replay/samples": 11664.0, "replay/insert_wait_avg": 3.0713346087826367e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.5197753579201195e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.39052057266235, "timer/env.step_count": 1459.0, "timer/env.step_total": 19.487120389938354, "timer/env.step_frac": 0.06487262098946481, "timer/env.step_avg": 0.013356491014351168, "timer/env.step_min": 0.002660036087036133, "timer/env.step_max": 1.500739336013794, "timer/replay.add_count": 1459.0, "timer/replay.add_total": 0.24011945724487305, "timer/replay.add_frac": 0.0007993576388066808, "timer/replay.add_avg": 0.00016457810640498494, "timer/replay.add_min": 5.841255187988281e-05, "timer/replay.add_max": 0.0006611347198486328, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028358936309814453, "timer/logger.write_frac": 9.440689491716043e-05, "timer/logger.write_avg": 0.028358936309814453, "timer/logger.write_min": 0.028358936309814453, "timer/logger.write_max": 0.028358936309814453, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1459.0, "timer/agent.policy_total": 10.797374963760376, "timer/agent.policy_frac": 0.03594445970923562, "timer/agent.policy_avg": 0.007400531160904987, "timer/agent.policy_min": 0.006021261215209961, "timer/agent.policy_max": 0.01898503303527832, "timer/dataset_count": 729.0, "timer/dataset_total": 0.05724692344665527, "timer/dataset_frac": 0.00019057499996178356, "timer/dataset_avg": 7.852801570185909e-05, "timer/dataset_min": 5.841255187988281e-05, "timer/dataset_max": 0.0001246929168701172, "timer/agent.train_count": 729.0, "timer/agent.train_total": 269.1667983531952, "timer/agent.train_frac": 0.8960562331995614, "timer/agent.train_avg": 0.36922743258325813, "timer/agent.train_min": 0.362837553024292, "timer/agent.train_max": 0.3821115493774414, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20685887336730957, "timer/agent.report_frac": 0.000688633159837918, "timer/agent.report_avg": 0.20685887336730957, "timer/agent.report_min": 0.20685887336730957, "timer/agent.report_max": 0.20685887336730957, "fps": 4.856906943934867}
{"step": 507505, "episode/length": 87.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 9.899999976158142, "episode/reward_rate": 0.11363636363636363}
{"step": 507830, "episode/length": 324.0, "episode/score": 10.099999971687794, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.036923076923076927}
{"step": 508067, "episode/length": 236.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 10.900000020861626, "episode/reward_rate": 0.04219409282700422}
{"step": 508247, "episode/length": 179.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06111111111111111}
{"step": 508435, "episode/length": 187.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.05319148936170213}
{"step": 508617, "episode/length": 181.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.07142857142857142}
{"step": 508812, "episode/length": 194.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.06153846153846154}
{"step": 508869, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.565921313142123, "train/action_min": 0.0, "train/action_std": 3.415637346163188, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04628724171078368, "train/actor_opt_grad_steps": 253520.0, "train/actor_opt_loss": -12.847171724659123, "train/adv_mag": 0.4773294019372496, "train/adv_max": 0.3909134080965225, "train/adv_mean": 0.0023556921430959122, "train/adv_min": -0.42373411439053, "train/adv_std": 0.05186260874344878, "train/cont_avg": 0.9945285744863014, "train/cont_loss_mean": 5.917314001947003e-05, "train/cont_loss_std": 0.0017452964038242287, "train/cont_neg_acc": 0.9965753424657534, "train/cont_neg_loss": 0.00978558976090918, "train/cont_pos_acc": 0.9999999722389326, "train/cont_pos_loss": 2.107678683301694e-05, "train/cont_pred": 0.9945228287618454, "train/cont_rate": 0.9945285744863014, "train/dyn_loss_mean": 5.043338684186543, "train/dyn_loss_std": 8.621627983981616, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.086713234855704, "train/extr_critic_critic_opt_grad_steps": 253520.0, "train/extr_critic_critic_opt_loss": 16519.96318493151, "train/extr_critic_mag": 10.490577175192637, "train/extr_critic_max": 10.490577175192637, "train/extr_critic_mean": 2.6513144496369034, "train/extr_critic_min": -0.5185905711291587, "train/extr_critic_std": 2.5428164397200494, "train/extr_return_normed_mag": 1.463943894595316, "train/extr_return_normed_max": 1.463943894595316, "train/extr_return_normed_mean": 0.3570443277489649, "train/extr_return_normed_min": -0.09032275859419614, "train/extr_return_normed_std": 0.32777668739834875, "train/extr_return_rate": 0.7333797461366001, "train/extr_return_raw_mag": 11.394733115418317, "train/extr_return_raw_max": 11.394733115418317, "train/extr_return_raw_mean": 2.6698774066689897, "train/extr_return_raw_min": -0.8564036088447048, "train/extr_return_raw_std": 2.5836168168342275, "train/extr_reward_mag": 1.0441865790380191, "train/extr_reward_max": 1.0441865790380191, "train/extr_reward_mean": 0.05199982991365537, "train/extr_reward_min": -0.65693521173033, "train/extr_reward_std": 0.22154719433555864, "train/image_loss_mean": 3.0017712900083358, "train/image_loss_std": 7.779924510276481, "train/model_loss_mean": 6.078264745947433, "train/model_loss_std": 11.818398959016147, "train/model_opt_grad_norm": 30.43275174829695, "train/model_opt_grad_steps": 253320.27397260274, "train/model_opt_loss": 16013.497458261987, "train/model_opt_model_opt_grad_overflow": 0.0136986301369863, "train/model_opt_model_opt_grad_scale": 2602.7397260273974, "train/policy_entropy_mag": 2.623412249839469, "train/policy_entropy_max": 2.623412249839469, "train/policy_entropy_mean": 0.40198227395750075, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.568827164907978, "train/policy_logprob_mag": 7.438384206327673, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40164204248010293, "train/policy_logprob_min": -7.438384206327673, "train/policy_logprob_std": 1.0188946381007156, "train/policy_randomness_mag": 0.9259493996019232, "train/policy_randomness_max": 0.9259493996019232, "train/policy_randomness_mean": 0.1418820997215297, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20077102774218336, "train/post_ent_mag": 55.28025739486903, "train/post_ent_max": 55.28025739486903, "train/post_ent_mean": 41.196243390645066, "train/post_ent_min": 18.654775593378773, "train/post_ent_std": 5.697969776310333, "train/prior_ent_mag": 76.56533384976322, "train/prior_ent_max": 76.56533384976322, "train/prior_ent_mean": 46.28170520312165, "train/prior_ent_min": 28.896694784295068, "train/prior_ent_std": 7.334184953611191, "train/rep_loss_mean": 5.043338684186543, "train/rep_loss_std": 8.621627983981616, "train/reward_avg": 0.0330934288133293, "train/reward_loss_mean": 0.050431097411129576, "train/reward_loss_std": 0.20531761054306813, "train/reward_max_data": 1.0219178134447908, "train/reward_max_pred": 1.0218065634165725, "train/reward_neg_acc": 0.9944641671768607, "train/reward_neg_loss": 0.023604405814245957, "train/reward_pos_acc": 0.9889992295879207, "train/reward_pos_loss": 0.7260643186634534, "train/reward_pred": 0.03300683399381703, "train/reward_rate": 0.03821971318493151, "stats/sum_log_reward": 9.814285959516253, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 3.142857142857143, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 14.142857142857142, "stats/max_log_achievement_collect_wood": 10.857142857142858, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.2857142857142857, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.2857142857142858, "stats/max_log_achievement_place_furnace": 1.7142857142857142, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 5.714285714285714, "stats/max_log_achievement_place_table": 2.7142857142857144, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3732673568384988, "replay/size": 508806.0, "replay/inserts": 1451.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.098291335312931e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.5014048778649531e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.32893347740173, "timer/env.step_count": 1451.0, "timer/env.step_total": 17.46043348312378, "timer/env.step_frac": 0.05813770015747614, "timer/env.step_avg": 0.012033379381890957, "timer/env.step_min": 0.002457857131958008, "timer/env.step_max": 1.48140287399292, "timer/replay.add_count": 1451.0, "timer/replay.add_total": 0.2534942626953125, "timer/replay.add_frac": 0.0008440554153747118, "timer/replay.add_avg": 0.00017470314451778946, "timer/replay.add_min": 5.984306335449219e-05, "timer/replay.add_max": 0.0007483959197998047, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.019505739212036133, "timer/logger.write_frac": 6.49479188907513e-05, "timer/logger.write_avg": 0.019505739212036133, "timer/logger.write_min": 0.019505739212036133, "timer/logger.write_max": 0.019505739212036133, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004858970642089844, "timer/checkpoint.save_frac": 1.617882961135164e-06, "timer/checkpoint.save_avg": 0.0004858970642089844, "timer/checkpoint.save_min": 0.0004858970642089844, "timer/checkpoint.save_max": 0.0004858970642089844, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.293461561203003, "timer/agent.save_frac": 0.004306816350414435, "timer/agent.save_avg": 1.293461561203003, "timer/agent.save_min": 1.293461561203003, "timer/agent.save_max": 1.293461561203003, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.34600830078125e-05, "timer/replay.save_frac": 3.111924046933191e-07, "timer/replay.save_avg": 9.34600830078125e-05, "timer/replay.save_min": 9.34600830078125e-05, "timer/replay.save_max": 9.34600830078125e-05, "timer/agent.policy_count": 1451.0, "timer/agent.policy_total": 14.752078533172607, "timer/agent.policy_frac": 0.04911973802311867, "timer/agent.policy_avg": 0.01016683565346148, "timer/agent.policy_min": 0.0059239864349365234, "timer/agent.policy_max": 2.8430721759796143, "timer/dataset_count": 726.0, "timer/dataset_total": 0.058327436447143555, "timer/dataset_frac": 0.00019421184556476443, "timer/dataset_avg": 8.034082155253933e-05, "timer/dataset_min": 5.3882598876953125e-05, "timer/dataset_max": 0.00024700164794921875, "timer/agent.train_count": 726.0, "timer/agent.train_total": 267.1841003894806, "timer/agent.train_frac": 0.8896382286443436, "timer/agent.train_avg": 0.3680221768450146, "timer/agent.train_min": 0.3613595962524414, "timer/agent.train_max": 0.4156486988067627, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2007887363433838, "timer/agent.report_frac": 0.0006685627455820608, "timer/agent.report_avg": 0.2007887363433838, "timer/agent.report_min": 0.2007887363433838, "timer/agent.report_max": 0.2007887363433838, "fps": 4.8312582343278345}
{"step": 509079, "episode/length": 266.0, "episode/score": 9.099999971687794, "episode/sum_abs_reward": 11.900000043213367, "episode/reward_rate": 0.04119850187265917}
{"step": 509270, "episode/length": 190.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.06282722513089005}
{"step": 509480, "episode/length": 209.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.299999997019768, "episode/reward_rate": 0.05714285714285714}
{"step": 509785, "episode/length": 304.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 14.900000013411045, "episode/reward_rate": 0.04590163934426229}
{"step": 510040, "episode/length": 254.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.047058823529411764}
{"step": 510245, "episode/length": 204.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.05853658536585366}
{"step": 510355, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4883315627639355, "train/action_min": 0.0, "train/action_std": 3.3525310593682365, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.044233040431061306, "train/actor_opt_grad_steps": 254255.0, "train/actor_opt_loss": -12.83432476907163, "train/adv_mag": 0.4471055357842832, "train/adv_max": 0.4042616377811174, "train/adv_mean": 0.0023345357225406514, "train/adv_min": -0.37573532780279983, "train/adv_std": 0.04965190488744427, "train/cont_avg": 0.9943517736486487, "train/cont_loss_mean": 5.136879313431257e-05, "train/cont_loss_std": 0.0015530173480753603, "train/cont_neg_acc": 0.9951201202096166, "train/cont_neg_loss": 0.0036162821799037475, "train/cont_pos_acc": 0.9999866944712561, "train/cont_pos_loss": 3.182235462479316e-05, "train/cont_pred": 0.99434575196859, "train/cont_rate": 0.9943517736486487, "train/dyn_loss_mean": 5.055635117195748, "train/dyn_loss_std": 8.766606421084017, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0300355038127385, "train/extr_critic_critic_opt_grad_steps": 254255.0, "train/extr_critic_critic_opt_loss": 16430.686365076013, "train/extr_critic_mag": 10.382431545773068, "train/extr_critic_max": 10.382431545773068, "train/extr_critic_mean": 2.6977905437753007, "train/extr_critic_min": -0.5664425556724136, "train/extr_critic_std": 2.525210565811879, "train/extr_return_normed_mag": 1.4416445928650934, "train/extr_return_normed_max": 1.4416445928650934, "train/extr_return_normed_mean": 0.36551745799747676, "train/extr_return_normed_min": -0.09429054903621609, "train/extr_return_normed_std": 0.3245436009523031, "train/extr_return_rate": 0.747958056024603, "train/extr_return_raw_mag": 11.197959203977842, "train/extr_return_raw_max": 11.197959203977842, "train/extr_return_raw_mean": 2.71621158638516, "train/extr_return_raw_min": -0.9083721057788746, "train/extr_return_raw_std": 2.5581152551882975, "train/extr_reward_mag": 1.0573530293799736, "train/extr_reward_max": 1.0573530293799736, "train/extr_reward_mean": 0.05443046830997274, "train/extr_reward_min": -0.6696093823458698, "train/extr_reward_std": 0.2260270142877424, "train/image_loss_mean": 3.0375727382866113, "train/image_loss_std": 8.322266082505923, "train/model_loss_mean": 6.123881887745213, "train/model_loss_std": 12.462060000445392, "train/model_opt_grad_norm": 27.98173595119167, "train/model_opt_grad_steps": 254054.7972972973, "train/model_opt_loss": 17473.064070418073, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2871.6216216216217, "train/policy_entropy_mag": 2.6069852822535746, "train/policy_entropy_max": 2.6069852822535746, "train/policy_entropy_mean": 0.38477342797292247, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5439269925291473, "train/policy_logprob_mag": 7.438384268734906, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3842858948014878, "train/policy_logprob_min": -7.438384268734906, "train/policy_logprob_std": 1.0022592077384125, "train/policy_randomness_mag": 0.9201513963776666, "train/policy_randomness_max": 0.9201513963776666, "train/policy_randomness_mean": 0.13580813369638212, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19198235738519076, "train/post_ent_mag": 55.378546173508106, "train/post_ent_max": 55.378546173508106, "train/post_ent_mean": 41.14438201285697, "train/post_ent_min": 18.880313332016403, "train/post_ent_std": 5.662541660102638, "train/prior_ent_mag": 76.39930580757759, "train/prior_ent_max": 76.39930580757759, "train/prior_ent_mean": 46.218246923910606, "train/prior_ent_min": 29.136683592925202, "train/prior_ent_std": 7.365357205674455, "train/rep_loss_mean": 5.055635117195748, "train/rep_loss_std": 8.766606421084017, "train/reward_avg": 0.03616316508300401, "train/reward_loss_mean": 0.052876724383315525, "train/reward_loss_std": 0.20995877481795647, "train/reward_max_data": 1.025675681797234, "train/reward_max_pred": 1.0232709968412244, "train/reward_neg_acc": 0.9945514242391329, "train/reward_neg_loss": 0.02398665974269042, "train/reward_pos_acc": 0.9894096343903929, "train/reward_pos_loss": 0.7257954397717038, "train/reward_pred": 0.03611431162602998, "train/reward_rate": 0.04125316722972973, "stats/sum_log_reward": 10.93333371480306, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 2.8333333333333335, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 18.833333333333332, "stats/max_log_achievement_collect_wood": 10.0, "stats/max_log_achievement_defeat_skeleton": 0.3333333333333333, "stats/max_log_achievement_defeat_zombie": 0.16666666666666666, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.16666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.3333333333333333, "stats/max_log_achievement_place_furnace": 2.6666666666666665, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_stone": 6.0, "stats/max_log_achievement_place_table": 2.3333333333333335, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.5329680393139521, "replay/size": 510292.0, "replay/inserts": 1486.0, "replay/samples": 11888.0, "replay/insert_wait_avg": 3.0184177177911813e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3939103720807452e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.03460597991943, "timer/env.step_count": 1486.0, "timer/env.step_total": 15.648290157318115, "timer/env.step_frac": 0.0521549509471098, "timer/env.step_avg": 0.010530477898599, "timer/env.step_min": 0.0024199485778808594, "timer/env.step_max": 1.3033430576324463, "timer/replay.add_count": 1486.0, "timer/replay.add_total": 0.24656343460083008, "timer/replay.add_frac": 0.000821783319945873, "timer/replay.add_avg": 0.00016592424939490584, "timer/replay.add_min": 5.7697296142578125e-05, "timer/replay.add_max": 0.0007352828979492188, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022577524185180664, "timer/logger.write_frac": 7.524973364803033e-05, "timer/logger.write_avg": 0.022577524185180664, "timer/logger.write_min": 0.022577524185180664, "timer/logger.write_max": 0.022577524185180664, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1486.0, "timer/agent.policy_total": 10.626030445098877, "timer/agent.policy_frac": 0.03541601613051946, "timer/agent.policy_avg": 0.0071507607302145875, "timer/agent.policy_min": 0.005856990814208984, "timer/agent.policy_max": 0.016461849212646484, "timer/dataset_count": 743.0, "timer/dataset_total": 0.05649447441101074, "timer/dataset_frac": 0.0001882931944683467, "timer/dataset_avg": 7.603563177794178e-05, "timer/dataset_min": 5.3882598876953125e-05, "timer/dataset_max": 0.0001628398895263672, "timer/agent.train_count": 743.0, "timer/agent.train_total": 272.8260109424591, "timer/agent.train_frac": 0.9093151440028177, "timer/agent.train_avg": 0.36719516950532854, "timer/agent.train_min": 0.36125659942626953, "timer/agent.train_max": 0.37992358207702637, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2021491527557373, "timer/agent.report_frac": 0.0006737527896007657, "timer/agent.report_avg": 0.2021491527557373, "timer/agent.report_min": 0.2021491527557373, "timer/agent.report_max": 0.2021491527557373, "fps": 4.952644437440222}
{"step": 510503, "episode/length": 257.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 12.700000017881393, "episode/reward_rate": 0.046511627906976744}
{"step": 510692, "episode/length": 188.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.06878306878306878}
{"step": 510863, "episode/length": 170.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.06432748538011696}
{"step": 511152, "episode/length": 288.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.04152249134948097}
{"step": 511418, "episode/length": 265.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 14.100000008940697, "episode/reward_rate": 0.04887218045112782}
{"step": 511596, "episode/length": 177.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.07303370786516854}
{"step": 511783, "episode/length": 186.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06951871657754011}
{"step": 511831, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.570644069362331, "train/action_min": 0.0, "train/action_std": 3.4100681768881307, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04418842232710606, "train/actor_opt_grad_steps": 254995.0, "train/actor_opt_loss": -13.729272299118945, "train/adv_mag": 0.41893619057294484, "train/adv_max": 0.3761509439429721, "train/adv_mean": 0.0025567865016676698, "train/adv_min": -0.37097249925136566, "train/adv_std": 0.05019333414934777, "train/cont_avg": 0.9942725929054054, "train/cont_loss_mean": 2.1640452416128533e-05, "train/cont_loss_std": 0.0005892102426867963, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.002177423823299422, "train/cont_pos_acc": 0.9999999855015729, "train/cont_pos_loss": 7.1838076286673416e-06, "train/cont_pred": 0.994276967403051, "train/cont_rate": 0.9942725929054054, "train/dyn_loss_mean": 5.030409522958704, "train/dyn_loss_std": 8.722395400743228, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0271448066105713, "train/extr_critic_critic_opt_grad_steps": 254995.0, "train/extr_critic_critic_opt_loss": 16331.450248099662, "train/extr_critic_mag": 10.615467264845565, "train/extr_critic_max": 10.615467264845565, "train/extr_critic_mean": 2.7017883545643575, "train/extr_critic_min": -0.5440255081331408, "train/extr_critic_std": 2.5922322563222937, "train/extr_return_normed_mag": 1.451112537770658, "train/extr_return_normed_max": 1.451112537770658, "train/extr_return_normed_mean": 0.3633875730069908, "train/extr_return_normed_min": -0.09051787888480199, "train/extr_return_normed_std": 0.33138621699165655, "train/extr_return_rate": 0.7376355230808258, "train/extr_return_raw_mag": 11.35777352307294, "train/extr_return_raw_max": 11.35777352307294, "train/extr_return_raw_mean": 2.722108199789717, "train/extr_return_raw_min": -0.8820176817275382, "train/extr_return_raw_std": 2.6312911671561166, "train/extr_reward_mag": 1.044263836499807, "train/extr_reward_max": 1.044263836499807, "train/extr_reward_mean": 0.05332918832632336, "train/extr_reward_min": -0.6964531621417483, "train/extr_reward_std": 0.2240779846906662, "train/image_loss_mean": 3.07468763235453, "train/image_loss_std": 7.9547516719715015, "train/model_loss_mean": 6.14546681094814, "train/model_loss_std": 12.112035944655135, "train/model_opt_grad_norm": 29.966373417828535, "train/model_opt_grad_steps": 254794.0, "train/model_opt_loss": 15363.667044974662, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.613329784290211, "train/policy_entropy_max": 2.613329784290211, "train/policy_entropy_mean": 0.41310162802000305, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5797299158734244, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41329205438897415, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 1.0279327453793705, "train/policy_randomness_mag": 0.9223907340217281, "train/policy_randomness_max": 0.9223907340217281, "train/policy_randomness_mean": 0.14580674429197568, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20461921746263634, "train/post_ent_mag": 54.890445503028666, "train/post_ent_max": 54.890445503028666, "train/post_ent_mean": 41.1289096007476, "train/post_ent_min": 19.375257131215687, "train/post_ent_std": 5.567816895407599, "train/prior_ent_mag": 76.36014402234876, "train/prior_ent_max": 76.36014402234876, "train/prior_ent_mean": 46.191083804981126, "train/prior_ent_min": 28.762657010877454, "train/prior_ent_std": 7.3706823361886515, "train/rep_loss_mean": 5.030409522958704, "train/rep_loss_std": 8.722395400743228, "train/reward_avg": 0.03521299596271805, "train/reward_loss_mean": 0.05251183036110691, "train/reward_loss_std": 0.20696204719511238, "train/reward_max_data": 1.0135135167353861, "train/reward_max_pred": 1.0148718937023267, "train/reward_neg_acc": 0.9937645527156623, "train/reward_neg_loss": 0.02440791015790121, "train/reward_pos_acc": 0.9899651593453175, "train/reward_pos_loss": 0.72213852002814, "train/reward_pred": 0.03514819733194403, "train/reward_rate": 0.040408572635135136, "stats/sum_log_reward": 11.242857251848493, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 2.7142857142857144, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 14.428571428571429, "stats/max_log_achievement_collect_wood": 9.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.5714285714285714, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 4.571428571428571, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.4748396383864539, "replay/size": 511768.0, "replay/inserts": 1476.0, "replay/samples": 11808.0, "replay/insert_wait_avg": 3.1230249379062394e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4128037261445993e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3508551120758, "timer/env.step_count": 1476.0, "timer/env.step_total": 17.583102703094482, "timer/env.step_frac": 0.05854187662137121, "timer/env.step_avg": 0.011912671208058593, "timer/env.step_min": 0.0024089813232421875, "timer/env.step_max": 1.3930487632751465, "timer/replay.add_count": 1476.0, "timer/replay.add_total": 0.24538540840148926, "timer/replay.add_frac": 0.0008169958707456444, "timer/replay.add_avg": 0.00016625027669477593, "timer/replay.add_min": 6.079673767089844e-05, "timer/replay.add_max": 0.0010752677917480469, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.020841360092163086, "timer/logger.write_frac": 6.939004746427688e-05, "timer/logger.write_avg": 0.020841360092163086, "timer/logger.write_min": 0.020841360092163086, "timer/logger.write_max": 0.020841360092163086, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1476.0, "timer/agent.policy_total": 10.71875, "timer/agent.policy_frac": 0.035687429609615406, "timer/agent.policy_avg": 0.007262025745257452, "timer/agent.policy_min": 0.005825996398925781, "timer/agent.policy_max": 0.016560792922973633, "timer/dataset_count": 738.0, "timer/dataset_total": 0.056081295013427734, "timer/dataset_frac": 0.0001867192786666148, "timer/dataset_avg": 7.59909146523411e-05, "timer/dataset_min": 5.4836273193359375e-05, "timer/dataset_max": 0.00012803077697753906, "timer/agent.train_count": 738.0, "timer/agent.train_total": 271.1216962337494, "timer/agent.train_frac": 0.902683283963285, "timer/agent.train_avg": 0.36737357213245175, "timer/agent.train_min": 0.36082029342651367, "timer/agent.train_max": 0.38329172134399414, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2014627456665039, "timer/agent.report_frac": 0.0006707580226176755, "timer/agent.report_avg": 0.2014627456665039, "timer/agent.report_min": 0.2014627456665039, "timer/agent.report_max": 0.2014627456665039, "fps": 4.914139963296297}
{"step": 512034, "episode/length": 250.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.043824701195219126}
{"step": 512216, "episode/length": 181.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.06593406593406594}
{"step": 512338, "episode/length": 121.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.08196721311475409}
{"step": 512507, "episode/length": 168.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.07100591715976332}
{"step": 512692, "episode/length": 184.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 14.10000005364418, "episode/reward_rate": 0.06486486486486487}
{"step": 512832, "episode/length": 139.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.07857142857142857}
{"step": 512990, "episode/length": 157.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.500000044703484, "episode/reward_rate": 0.06962025316455696}
{"step": 513160, "episode/length": 169.0, "episode/score": 10.099999964237213, "episode/sum_abs_reward": 11.699999988079071, "episode/reward_rate": 0.06470588235294118}
{"step": 513210, "episode/length": 49.0, "episode/score": 3.0999999791383743, "episode/sum_abs_reward": 4.900000020861626, "episode/reward_rate": 0.08}
{"step": 513265, "episode/length": 54.0, "episode/score": 3.100000001490116, "episode/sum_abs_reward": 4.700000025331974, "episode/reward_rate": 0.07272727272727272}
{"step": 513269, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.5491587320963545, "train/action_min": 0.0, "train/action_std": 3.4171174930201635, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04490991899122795, "train/actor_opt_grad_steps": 255725.0, "train/actor_opt_loss": -13.531585548073053, "train/adv_mag": 0.4201150718662474, "train/adv_max": 0.3813246405786938, "train/adv_mean": 0.0020384595256675514, "train/adv_min": -0.35414703128238517, "train/adv_std": 0.04995089950453904, "train/cont_avg": 0.9946017795138888, "train/cont_loss_mean": 1.638232468160873e-05, "train/cont_loss_std": 0.0003340585119610119, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0001414129071209105, "train/cont_pos_acc": 0.9999999817874696, "train/cont_pos_loss": 1.557886597562212e-05, "train/cont_pred": 0.9945878841810756, "train/cont_rate": 0.9946017795138888, "train/dyn_loss_mean": 5.036565985944536, "train/dyn_loss_std": 8.694867571194967, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0877683071626558, "train/extr_critic_critic_opt_grad_steps": 255725.0, "train/extr_critic_critic_opt_loss": 16421.712565104168, "train/extr_critic_mag": 10.510080920325386, "train/extr_critic_max": 10.510080920325386, "train/extr_critic_mean": 2.6986316988865533, "train/extr_critic_min": -0.5118636969063017, "train/extr_critic_std": 2.548672146267361, "train/extr_return_normed_mag": 1.4535860584841833, "train/extr_return_normed_max": 1.4535860584841833, "train/extr_return_normed_mean": 0.36286824610498214, "train/extr_return_normed_min": -0.08696019892684287, "train/extr_return_normed_std": 0.3260034066107538, "train/extr_return_rate": 0.7416956399877866, "train/extr_return_raw_mag": 11.337181435690987, "train/extr_return_raw_max": 11.337181435690987, "train/extr_return_raw_mean": 2.714735554324256, "train/extr_return_raw_min": -0.840426082826323, "train/extr_return_raw_std": 2.576656765407986, "train/extr_reward_mag": 1.054015103313658, "train/extr_reward_max": 1.054015103313658, "train/extr_reward_mean": 0.0533121886352698, "train/extr_reward_min": -0.6605743418137232, "train/extr_reward_std": 0.22324031653503576, "train/image_loss_mean": 2.978918651739756, "train/image_loss_std": 8.119291596942478, "train/model_loss_mean": 6.051334619522095, "train/model_loss_std": 12.247242040104336, "train/model_opt_grad_norm": 30.052378058433533, "train/model_opt_grad_steps": 255523.20833333334, "train/model_opt_loss": 16061.890448676215, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2638.8888888888887, "train/policy_entropy_mag": 2.596374428934521, "train/policy_entropy_max": 2.596374428934521, "train/policy_entropy_mean": 0.4044182834525903, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5693691099683443, "train/policy_logprob_mag": 7.4383842547734575, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4046140102048715, "train/policy_logprob_min": -7.4383842547734575, "train/policy_logprob_std": 1.020743667251534, "train/policy_randomness_mag": 0.9164062357611127, "train/policy_randomness_max": 0.9164062357611127, "train/policy_randomness_mean": 0.1427419081123339, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20096230869077975, "train/post_ent_mag": 55.19385846455892, "train/post_ent_max": 55.19385846455892, "train/post_ent_mean": 41.193154176076256, "train/post_ent_min": 19.093304461903042, "train/post_ent_std": 5.601886802249485, "train/prior_ent_mag": 76.46954822540283, "train/prior_ent_max": 76.46954822540283, "train/prior_ent_mean": 46.25592825147841, "train/prior_ent_min": 28.610700686772663, "train/prior_ent_std": 7.328887859980266, "train/rep_loss_mean": 5.036565985944536, "train/rep_loss_std": 8.694867571194967, "train/reward_avg": 0.036264376999396414, "train/reward_loss_mean": 0.050460058419654764, "train/reward_loss_std": 0.20078002226849398, "train/reward_max_data": 1.0208333383003871, "train/reward_max_pred": 1.0240017738607194, "train/reward_neg_acc": 0.9956322742833031, "train/reward_neg_loss": 0.021474390601118405, "train/reward_pos_acc": 0.9894625892241796, "train/reward_pos_loss": 0.7288656897015042, "train/reward_pred": 0.03587781433533463, "train/reward_rate": 0.040961371527777776, "stats/sum_log_reward": 8.800000286102295, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 1.1, "stats/max_log_achievement_collect_sapling": 1.2, "stats/max_log_achievement_collect_stone": 12.5, "stats/max_log_achievement_collect_wood": 8.9, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.1, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.2, "stats/max_log_achievement_make_wood_sword": 1.3, "stats/max_log_achievement_place_furnace": 1.4, "stats/max_log_achievement_place_plant": 1.1, "stats/max_log_achievement_place_stone": 4.1, "stats/max_log_achievement_place_table": 2.2, "stats/max_log_achievement_wake_up": 0.8, "stats/mean_log_entropy": 0.27927460968494416, "replay/size": 513206.0, "replay/inserts": 1438.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.092146384036259e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.430470024925943e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2575981616974, "timer/env.step_count": 1438.0, "timer/env.step_total": 20.447647094726562, "timer/env.step_frac": 0.06810034856708244, "timer/env.step_avg": 0.01421950423833558, "timer/env.step_min": 0.0024116039276123047, "timer/env.step_max": 1.3189499378204346, "timer/replay.add_count": 1438.0, "timer/replay.add_total": 0.24374747276306152, "timer/replay.add_frac": 0.0008117945199568155, "timer/replay.add_avg": 0.00016950450122605112, "timer/replay.add_min": 5.841255187988281e-05, "timer/replay.add_max": 0.0010607242584228516, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026816368103027344, "timer/logger.write_frac": 8.931120566876031e-05, "timer/logger.write_avg": 0.026816368103027344, "timer/logger.write_min": 0.026816368103027344, "timer/logger.write_max": 0.026816368103027344, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00020933151245117188, "timer/checkpoint.save_frac": 6.971730731637999e-07, "timer/checkpoint.save_avg": 0.00020933151245117188, "timer/checkpoint.save_min": 0.00020933151245117188, "timer/checkpoint.save_max": 0.00020933151245117188, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.316401720046997, "timer/agent.save_frac": 0.004384241158613667, "timer/agent.save_avg": 1.316401720046997, "timer/agent.save_min": 1.316401720046997, "timer/agent.save_max": 1.316401720046997, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.198883056640625e-05, "timer/replay.save_frac": 2.0645216289588606e-07, "timer/replay.save_avg": 6.198883056640625e-05, "timer/replay.save_min": 6.198883056640625e-05, "timer/replay.save_max": 6.198883056640625e-05, "timer/agent.policy_count": 1438.0, "timer/agent.policy_total": 14.43783450126648, "timer/agent.policy_frac": 0.04808482646121511, "timer/agent.policy_avg": 0.01004021870741758, "timer/agent.policy_min": 0.0058400630950927734, "timer/agent.policy_max": 2.814836025238037, "timer/dataset_count": 719.0, "timer/dataset_total": 0.05675816535949707, "timer/dataset_frac": 0.00018903157058137513, "timer/dataset_avg": 7.89404247002741e-05, "timer/dataset_min": 5.698204040527344e-05, "timer/dataset_max": 0.00022268295288085938, "timer/agent.train_count": 719.0, "timer/agent.train_total": 264.44018030166626, "timer/agent.train_frac": 0.8807110358594742, "timer/agent.train_avg": 0.3677888460384788, "timer/agent.train_min": 0.3609158992767334, "timer/agent.train_max": 0.382265567779541, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2029411792755127, "timer/agent.report_frac": 0.0006758902373095752, "timer/agent.report_avg": 0.2029411792755127, "timer/agent.report_min": 0.2029411792755127, "timer/agent.report_max": 0.2029411792755127, "fps": 4.789111882281652}
{"step": 513455, "episode/length": 189.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 12.90000006556511, "episode/reward_rate": 0.05789473684210526}
{"step": 513826, "episode/length": 370.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.03234501347708895}
{"step": 514186, "episode/length": 359.0, "episode/score": 10.099999964237213, "episode/sum_abs_reward": 12.099999994039536, "episode/reward_rate": 0.030555555555555555}
{"step": 514296, "episode/length": 109.0, "episode/score": 10.099999971687794, "episode/sum_abs_reward": 12.500000037252903, "episode/reward_rate": 0.10909090909090909}
{"step": 514697, "episode/length": 400.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.02743142144638404}
{"step": 514765, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.6213370768229165, "train/action_min": 0.0, "train/action_std": 3.449007765452067, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.045928774575392406, "train/actor_opt_grad_steps": 256460.0, "train/actor_opt_loss": -10.646429296533267, "train/adv_mag": 0.4540415116151174, "train/adv_max": 0.4102725434303284, "train/adv_mean": 0.003147382079041563, "train/adv_min": -0.38680923283100127, "train/adv_std": 0.05171564852197965, "train/cont_avg": 0.9945963541666667, "train/cont_loss_mean": 3.735297981772116e-05, "train/cont_loss_std": 0.0011649144241338643, "train/cont_neg_acc": 0.997333333492279, "train/cont_neg_loss": 0.004588056925546577, "train/cont_pos_acc": 0.999999984105428, "train/cont_pos_loss": 1.2712721446253757e-05, "train/cont_pred": 0.9946023813883463, "train/cont_rate": 0.9945963541666667, "train/dyn_loss_mean": 5.126869497299194, "train/dyn_loss_std": 8.785312283833822, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0362352856000265, "train/extr_critic_critic_opt_grad_steps": 256460.0, "train/extr_critic_critic_opt_loss": 16502.307096354165, "train/extr_critic_mag": 10.532675043741863, "train/extr_critic_max": 10.532675043741863, "train/extr_critic_mean": 2.686444435119629, "train/extr_critic_min": -0.5211869271596273, "train/extr_critic_std": 2.5491400877634685, "train/extr_return_normed_mag": 1.4620188665390015, "train/extr_return_normed_max": 1.4620188665390015, "train/extr_return_normed_mean": 0.36333311835924786, "train/extr_return_normed_min": -0.09031723206241926, "train/extr_return_normed_std": 0.3309102245171865, "train/extr_return_rate": 0.7376423978805542, "train/extr_return_raw_mag": 11.309073778788248, "train/extr_return_raw_max": 11.309073778788248, "train/extr_return_raw_mean": 2.711068450609843, "train/extr_return_raw_min": -0.8391754031181335, "train/extr_return_raw_std": 2.5895906702677407, "train/extr_reward_mag": 1.0516619555155435, "train/extr_reward_max": 1.0516619555155435, "train/extr_reward_mean": 0.053665241499741875, "train/extr_reward_min": -0.6859588241577148, "train/extr_reward_std": 0.22380590697129568, "train/image_loss_mean": 3.1332251326243084, "train/image_loss_std": 8.170637454986572, "train/model_loss_mean": 6.2612046559651695, "train/model_loss_std": 12.376061878204347, "train/model_opt_grad_norm": 27.31980458577474, "train/model_opt_grad_steps": 256257.68, "train/model_opt_loss": 17090.709700520834, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2766.6666666666665, "train/policy_entropy_mag": 2.5946526527404785, "train/policy_entropy_max": 2.5946526527404785, "train/policy_entropy_mean": 0.41231011907259624, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5746087630589803, "train/policy_logprob_mag": 7.438384272257487, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4118952202796936, "train/policy_logprob_min": -7.438384272257487, "train/policy_logprob_std": 1.0237448676427205, "train/policy_randomness_mag": 0.9157985226313273, "train/policy_randomness_max": 0.9157985226313273, "train/policy_randomness_mean": 0.14552737891674042, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2028116770585378, "train/post_ent_mag": 55.52874979654948, "train/post_ent_max": 55.52874979654948, "train/post_ent_mean": 41.088643595377604, "train/post_ent_min": 18.701275151570638, "train/post_ent_std": 5.722312297821045, "train/prior_ent_mag": 76.46115152994791, "train/prior_ent_max": 76.46115152994791, "train/prior_ent_mean": 46.22515167236328, "train/prior_ent_min": 28.05319989522298, "train/prior_ent_std": 7.423297157287598, "train/rep_loss_mean": 5.126869497299194, "train/rep_loss_std": 8.785312283833822, "train/reward_avg": 0.035622395550211274, "train/reward_loss_mean": 0.051820573210716245, "train/reward_loss_std": 0.20893748263518017, "train/reward_max_data": 1.024000005722046, "train/reward_max_pred": 1.0226499780019125, "train/reward_neg_acc": 0.9943549068768819, "train/reward_neg_loss": 0.022874717315038044, "train/reward_pos_acc": 0.9849864904085796, "train/reward_pos_loss": 0.7411059681574503, "train/reward_pred": 0.035325852756698924, "train/reward_rate": 0.040377604166666664, "stats/sum_log_reward": 10.3, "stats/max_log_achievement_collect_coal": 0.4, "stats/max_log_achievement_collect_drink": 6.6, "stats/max_log_achievement_collect_sapling": 2.2, "stats/max_log_achievement_collect_stone": 16.2, "stats/max_log_achievement_collect_wood": 10.4, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.2, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.2, "stats/max_log_achievement_make_wood_pickaxe": 1.4, "stats/max_log_achievement_make_wood_sword": 2.0, "stats/max_log_achievement_place_furnace": 2.2, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 3.4, "stats/max_log_achievement_place_table": 2.8, "stats/max_log_achievement_wake_up": 1.4, "stats/mean_log_entropy": 0.6104335635900497, "replay/size": 514702.0, "replay/inserts": 1496.0, "replay/samples": 11968.0, "replay/insert_wait_avg": 2.9996754651401133e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3690939880309895e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.23305916786194, "timer/env.step_count": 1496.0, "timer/env.step_total": 14.175639629364014, "timer/env.step_frac": 0.04721545211794394, "timer/env.step_avg": 0.009475694939414447, "timer/env.step_min": 0.0023822784423828125, "timer/env.step_max": 1.2484114170074463, "timer/replay.add_count": 1496.0, "timer/replay.add_total": 0.2428913116455078, "timer/replay.add_frac": 0.0008090092154365518, "timer/replay.add_avg": 0.00016236050243683678, "timer/replay.add_min": 5.91278076171875e-05, "timer/replay.add_max": 0.0004353523254394531, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02048325538635254, "timer/logger.write_frac": 6.822451679080498e-05, "timer/logger.write_avg": 0.02048325538635254, "timer/logger.write_min": 0.02048325538635254, "timer/logger.write_max": 0.02048325538635254, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1496.0, "timer/agent.policy_total": 10.542895793914795, "timer/agent.policy_frac": 0.03511570585576389, "timer/agent.policy_avg": 0.00704739023657406, "timer/agent.policy_min": 0.00584864616394043, "timer/agent.policy_max": 0.01908731460571289, "timer/dataset_count": 748.0, "timer/dataset_total": 0.05724167823791504, "timer/dataset_frac": 0.00019065747921487522, "timer/dataset_avg": 7.652630780469926e-05, "timer/dataset_min": 5.269050598144531e-05, "timer/dataset_max": 0.00018787384033203125, "timer/agent.train_count": 748.0, "timer/agent.train_total": 274.5991139411926, "timer/agent.train_frac": 0.9146198446709454, "timer/agent.train_avg": 0.36711111489464254, "timer/agent.train_min": 0.3608846664428711, "timer/agent.train_max": 0.3820981979370117, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.19989991188049316, "timer/agent.report_frac": 0.0006658157913540362, "timer/agent.report_avg": 0.19989991188049316, "timer/agent.report_min": 0.19989991188049316, "timer/agent.report_max": 0.19989991188049316, "fps": 4.982683188916811}
{"step": 514912, "episode/length": 214.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.05581395348837209}
{"step": 515092, "episode/length": 179.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.06111111111111111}
{"step": 515272, "episode/length": 179.0, "episode/score": 8.099999971687794, "episode/sum_abs_reward": 10.100000031292439, "episode/reward_rate": 0.05555555555555555}
{"step": 515511, "episode/length": 238.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.900000013411045, "episode/reward_rate": 0.03765690376569038}
{"step": 515571, "episode/length": 59.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.1}
{"step": 515752, "episode/length": 180.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.055248618784530384}
{"step": 515936, "episode/length": 183.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.059782608695652176}
{"step": 516141, "episode/length": 204.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.06341463414634146}
{"step": 516223, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.668349174604024, "train/action_min": 0.0, "train/action_std": 3.5019332350116885, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.044983738446480605, "train/actor_opt_grad_steps": 257200.0, "train/actor_opt_loss": -13.865432706597733, "train/adv_mag": 0.45170568725834154, "train/adv_max": 0.39390889708309956, "train/adv_mean": 0.0021488313568251254, "train/adv_min": -0.3840854576189224, "train/adv_std": 0.05093244805115543, "train/cont_avg": 0.9946222174657534, "train/cont_loss_mean": 2.3438271023360203e-05, "train/cont_loss_std": 0.0007270765509510405, "train/cont_neg_acc": 0.9980430537707186, "train/cont_neg_loss": 0.0016890715809252358, "train/cont_pos_acc": 0.9999865081212292, "train/cont_pos_loss": 1.213303600658677e-05, "train/cont_pred": 0.9946206987720646, "train/cont_rate": 0.9946222174657534, "train/dyn_loss_mean": 5.0997923955525435, "train/dyn_loss_std": 8.77666327724718, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0583885606021097, "train/extr_critic_critic_opt_grad_steps": 257200.0, "train/extr_critic_critic_opt_loss": 16372.512481271404, "train/extr_critic_mag": 10.380915236799684, "train/extr_critic_max": 10.380915236799684, "train/extr_critic_mean": 2.742659189929701, "train/extr_critic_min": -0.5068975523726581, "train/extr_critic_std": 2.5306201030130255, "train/extr_return_normed_mag": 1.4439822549689305, "train/extr_return_normed_max": 1.4439822549689305, "train/extr_return_normed_mean": 0.37091046367606073, "train/extr_return_normed_min": -0.09097478273388458, "train/extr_return_normed_std": 0.32959171496842005, "train/extr_return_rate": 0.7476821500961095, "train/extr_return_raw_mag": 11.09748287723489, "train/extr_return_raw_max": 11.09748287723489, "train/extr_return_raw_mean": 2.759361061331344, "train/extr_return_raw_min": -0.8293637796624066, "train/extr_return_raw_std": 2.5610826766654236, "train/extr_reward_mag": 1.0472439151920685, "train/extr_reward_max": 1.0472439151920685, "train/extr_reward_mean": 0.053610404978876244, "train/extr_reward_min": -0.6637548992078598, "train/extr_reward_std": 0.22422419447604924, "train/image_loss_mean": 3.2493437022379, "train/image_loss_std": 8.394898473399959, "train/model_loss_mean": 6.361215748199045, "train/model_loss_std": 12.540040852272348, "train/model_opt_grad_norm": 29.747813577521338, "train/model_opt_grad_steps": 256997.0, "train/model_opt_loss": 15903.039437071919, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.5977480640150095, "train/policy_entropy_max": 2.5977480640150095, "train/policy_entropy_mean": 0.4154957685976812, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5816112985349682, "train/policy_logprob_mag": 7.438384212859689, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41608822304908544, "train/policy_logprob_min": -7.438384212859689, "train/policy_logprob_std": 1.031278574303405, "train/policy_randomness_mag": 0.9168910686283895, "train/policy_randomness_max": 0.9168910686283895, "train/policy_randomness_mean": 0.1466517736242242, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20528326540777128, "train/post_ent_mag": 55.29977333382384, "train/post_ent_max": 55.29977333382384, "train/post_ent_mean": 41.11438871409795, "train/post_ent_min": 18.998637173273792, "train/post_ent_std": 5.639832202702353, "train/prior_ent_mag": 76.62445799945152, "train/prior_ent_max": 76.62445799945152, "train/prior_ent_mean": 46.218229163182926, "train/prior_ent_min": 28.204846499717398, "train/prior_ent_std": 7.442334887099593, "train/rep_loss_mean": 5.0997923955525435, "train/rep_loss_std": 8.77666327724718, "train/reward_avg": 0.034437873936577205, "train/reward_loss_mean": 0.05197320531492364, "train/reward_loss_std": 0.2090900087193267, "train/reward_max_data": 1.0164383600835931, "train/reward_max_pred": 1.014948361540494, "train/reward_neg_acc": 0.9946104631032029, "train/reward_neg_loss": 0.024133976204448366, "train/reward_pos_acc": 0.9893372328314063, "train/reward_pos_loss": 0.7341457956457791, "train/reward_pred": 0.0341468282197028, "train/reward_rate": 0.03926316352739726, "stats/sum_log_reward": 9.225000321865082, "stats/max_log_achievement_collect_coal": 1.25, "stats/max_log_achievement_collect_drink": 1.75, "stats/max_log_achievement_collect_sapling": 0.75, "stats/max_log_achievement_collect_stone": 15.75, "stats/max_log_achievement_collect_wood": 7.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.25, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.625, "stats/max_log_achievement_place_plant": 0.625, "stats/max_log_achievement_place_stone": 4.625, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.33259084075689316, "replay/size": 516160.0, "replay/inserts": 1458.0, "replay/samples": 11664.0, "replay/insert_wait_avg": 3.0878312957303186e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.5214514830475482e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3582692146301, "timer/env.step_count": 1458.0, "timer/env.step_total": 19.72370719909668, "timer/env.step_frac": 0.06566726879426285, "timer/env.step_avg": 0.01352791988964107, "timer/env.step_min": 0.0027990341186523438, "timer/env.step_max": 1.6087331771850586, "timer/replay.add_count": 1458.0, "timer/replay.add_total": 0.24010729789733887, "timer/replay.add_frac": 0.0007994029880554509, "timer/replay.add_avg": 0.00016468264602012268, "timer/replay.add_min": 6.29425048828125e-05, "timer/replay.add_max": 0.0007026195526123047, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021193742752075195, "timer/logger.write_frac": 7.056154241230682e-05, "timer/logger.write_avg": 0.021193742752075195, "timer/logger.write_min": 0.021193742752075195, "timer/logger.write_max": 0.021193742752075195, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1458.0, "timer/agent.policy_total": 10.765442609786987, "timer/agent.policy_frac": 0.035842005075925554, "timer/agent.policy_avg": 0.007383705493681061, "timer/agent.policy_min": 0.006112575531005859, "timer/agent.policy_max": 0.015616893768310547, "timer/dataset_count": 729.0, "timer/dataset_total": 0.05827140808105469, "timer/dataset_frac": 0.00019400633860829409, "timer/dataset_avg": 7.993334441845636e-05, "timer/dataset_min": 6.175041198730469e-05, "timer/dataset_max": 0.00014853477478027344, "timer/agent.train_count": 729.0, "timer/agent.train_total": 268.92853569984436, "timer/agent.train_frac": 0.8953591868904841, "timer/agent.train_avg": 0.3689005976678249, "timer/agent.train_min": 0.3621811866760254, "timer/agent.train_max": 0.381786584854126, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2134101390838623, "timer/agent.report_frac": 0.0007105186071350132, "timer/agent.report_avg": 0.2134101390838623, "timer/agent.report_min": 0.2134101390838623, "timer/agent.report_max": 0.2134101390838623, "fps": 4.854121796006145}
{"step": 516346, "episode/length": 204.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 12.899999991059303, "episode/reward_rate": 0.06341463414634146}
{"step": 516733, "episode/length": 386.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.031007751937984496}
{"step": 516942, "episode/length": 208.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.0430622009569378}
{"step": 517196, "episode/length": 253.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.04330708661417323}
{"step": 517379, "episode/length": 182.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.06557377049180328}
{"step": 517595, "episode/length": 215.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.046296296296296294}
{"step": 517681, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.6134534861943495, "train/action_min": 0.0, "train/action_std": 3.465781169394924, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04477753092164863, "train/actor_opt_grad_steps": 257930.0, "train/actor_opt_loss": -12.051173437539845, "train/adv_mag": 0.45405620254882395, "train/adv_max": 0.40572318312239974, "train/adv_mean": 0.002830484162773682, "train/adv_min": -0.37522813575725034, "train/adv_std": 0.05079943640795473, "train/cont_avg": 0.994849636130137, "train/cont_loss_mean": 6.364964579900988e-05, "train/cont_loss_std": 0.0020014268121440492, "train/cont_neg_acc": 0.9986111116078165, "train/cont_neg_loss": 0.006254701045111549, "train/cont_pos_acc": 0.9999999844864623, "train/cont_pos_loss": 6.663595983069952e-06, "train/cont_pred": 0.9948584665990856, "train/cont_rate": 0.994849636130137, "train/dyn_loss_mean": 5.012539961566664, "train/dyn_loss_std": 8.63269295757764, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0194037352522758, "train/extr_critic_critic_opt_grad_steps": 257930.0, "train/extr_critic_critic_opt_loss": 16262.718348672945, "train/extr_critic_mag": 10.559763725489786, "train/extr_critic_max": 10.559763725489786, "train/extr_critic_mean": 2.7281337323254102, "train/extr_critic_min": -0.5133236809952618, "train/extr_critic_std": 2.504877900424069, "train/extr_return_normed_mag": 1.4798302568801462, "train/extr_return_normed_max": 1.4798302568801462, "train/extr_return_normed_mean": 0.3728740121403786, "train/extr_return_normed_min": -0.09487383215598864, "train/extr_return_normed_std": 0.3277911458113422, "train/extr_return_rate": 0.7493124310284445, "train/extr_return_raw_mag": 11.332578789697935, "train/extr_return_raw_max": 11.332578789697935, "train/extr_return_raw_mean": 2.7500852150459814, "train/extr_return_raw_min": -0.877202616570747, "train/extr_return_raw_std": 2.5418842181767505, "train/extr_reward_mag": 1.053398125792203, "train/extr_reward_max": 1.053398125792203, "train/extr_reward_mean": 0.05492692951061954, "train/extr_reward_min": -0.6570854366642155, "train/extr_reward_std": 0.22604597329276882, "train/image_loss_mean": 2.957648087854255, "train/image_loss_std": 7.9998190566285015, "train/model_loss_mean": 6.015843770275377, "train/model_loss_std": 12.077037471614473, "train/model_opt_grad_norm": 30.69003497084526, "train/model_opt_grad_steps": 257725.7808219178, "train/model_opt_loss": 13409.961439158818, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2226.027397260274, "train/policy_entropy_mag": 2.6323955842893416, "train/policy_entropy_max": 2.6323955842893416, "train/policy_entropy_mean": 0.4167891887769307, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5899689903814499, "train/policy_logprob_mag": 7.438384212859689, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4165409566604928, "train/policy_logprob_min": -7.438384212859689, "train/policy_logprob_std": 1.0309272367660314, "train/policy_randomness_mag": 0.9291201217533791, "train/policy_randomness_max": 0.9291201217533791, "train/policy_randomness_mean": 0.14710829345739052, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20823316316898555, "train/post_ent_mag": 55.57747111908377, "train/post_ent_max": 55.57747111908377, "train/post_ent_mean": 40.96958390327349, "train/post_ent_min": 18.687063831172576, "train/post_ent_std": 5.680174318078446, "train/prior_ent_mag": 76.51781505427948, "train/prior_ent_max": 76.51781505427948, "train/prior_ent_mean": 46.01044997123823, "train/prior_ent_min": 28.108385504108586, "train/prior_ent_std": 7.386036585455072, "train/rep_loss_mean": 5.012539961566664, "train/rep_loss_std": 8.63269295757764, "train/reward_avg": 0.036558218785140616, "train/reward_loss_mean": 0.05060807513455822, "train/reward_loss_std": 0.20364233994320646, "train/reward_max_data": 1.0246575401253897, "train/reward_max_pred": 1.0181368899671999, "train/reward_neg_acc": 0.9947814843426012, "train/reward_neg_loss": 0.021764970677968575, "train/reward_pos_acc": 0.989301956679723, "train/reward_pos_loss": 0.7261732171659601, "train/reward_pred": 0.03629474847079956, "train/reward_rate": 0.0409888698630137, "stats/sum_log_reward": 10.100000222524008, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 4.333333333333333, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 13.166666666666666, "stats/max_log_achievement_collect_wood": 11.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.3333333333333333, "stats/max_log_achievement_place_furnace": 2.1666666666666665, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_stone": 3.5, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 2.1666666666666665, "stats/mean_log_entropy": 0.46840239067872363, "replay/size": 517618.0, "replay/inserts": 1458.0, "replay/samples": 11664.0, "replay/insert_wait_avg": 3.088158344535671e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4860075687675319e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.13794016838074, "timer/env.step_count": 1458.0, "timer/env.step_total": 16.213308811187744, "timer/env.step_frac": 0.05401952449627627, "timer/env.step_avg": 0.011120239239497768, "timer/env.step_min": 0.002635478973388672, "timer/env.step_max": 1.3992218971252441, "timer/replay.add_count": 1458.0, "timer/replay.add_total": 0.2470405101776123, "timer/replay.add_frac": 0.0008230899100560889, "timer/replay.add_avg": 0.00016943793564993986, "timer/replay.add_min": 5.8650970458984375e-05, "timer/replay.add_max": 0.0010564327239990234, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021132946014404297, "timer/logger.write_frac": 7.041077846588965e-05, "timer/logger.write_avg": 0.021132946014404297, "timer/logger.write_min": 0.021132946014404297, "timer/logger.write_max": 0.021132946014404297, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004086494445800781, "timer/checkpoint.save_frac": 1.361538778972166e-06, "timer/checkpoint.save_avg": 0.0004086494445800781, "timer/checkpoint.save_min": 0.0004086494445800781, "timer/checkpoint.save_max": 0.0004086494445800781, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4927692413330078, "timer/agent.save_frac": 0.004973610602163617, "timer/agent.save_avg": 1.4927692413330078, "timer/agent.save_min": 1.4927692413330078, "timer/agent.save_max": 1.4927692413330078, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.319450378417969e-05, "timer/replay.save_frac": 2.4386954792558633e-07, "timer/replay.save_avg": 7.319450378417969e-05, "timer/replay.save_min": 7.319450378417969e-05, "timer/replay.save_max": 7.319450378417969e-05, "timer/agent.policy_count": 1458.0, "timer/agent.policy_total": 14.879279613494873, "timer/agent.policy_frac": 0.049574804188858734, "timer/agent.policy_avg": 0.010205267224619254, "timer/agent.policy_min": 0.0059092044830322266, "timer/agent.policy_max": 2.801241397857666, "timer/dataset_count": 729.0, "timer/dataset_total": 0.0583651065826416, "timer/dataset_frac": 0.0001944609420251839, "timer/dataset_avg": 8.006187459895968e-05, "timer/dataset_min": 5.459785461425781e-05, "timer/dataset_max": 0.00017142295837402344, "timer/agent.train_count": 729.0, "timer/agent.train_total": 268.1186501979828, "timer/agent.train_frac": 0.8933180858360167, "timer/agent.train_avg": 0.3677896436186321, "timer/agent.train_min": 0.3585062026977539, "timer/agent.train_max": 0.38155245780944824, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20158076286315918, "timer/agent.report_frac": 0.0006716270617105925, "timer/agent.report_avg": 0.20158076286315918, "timer/agent.report_min": 0.20158076286315918, "timer/agent.report_max": 0.20158076286315918, "fps": 4.857710007833158}
{"step": 517755, "episode/length": 159.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.05}
{"step": 517992, "episode/length": 236.0, "episode/score": 12.099999994039536, "episode/sum_abs_reward": 15.100000068545341, "episode/reward_rate": 0.05907172995780591}
{"step": 518150, "episode/length": 157.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.0379746835443038}
{"step": 518289, "episode/length": 138.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 11.100000001490116, "episode/reward_rate": 0.07913669064748201}
{"step": 518454, "episode/length": 164.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 7.1000000312924385, "episode/reward_rate": 0.030303030303030304}
{"step": 518647, "episode/length": 192.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.06735751295336788}
{"step": 518848, "episode/length": 200.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.06467661691542288}
{"step": 519159, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.538720208245355, "train/action_min": 0.0, "train/action_std": 3.3966819144584037, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04488104848644218, "train/actor_opt_grad_steps": 258665.0, "train/actor_opt_loss": -12.752026191232977, "train/adv_mag": 0.424388517399092, "train/adv_max": 0.3865288910833565, "train/adv_mean": 0.002815097928317767, "train/adv_min": -0.36826448142528534, "train/adv_std": 0.0508044346965648, "train/cont_avg": 0.99462890625, "train/cont_loss_mean": 8.121109863418035e-05, "train/cont_loss_std": 0.0025633018773344, "train/cont_neg_acc": 0.9980694989900332, "train/cont_neg_loss": 0.010779620309090727, "train/cont_pos_acc": 0.9999999806687638, "train/cont_pos_loss": 8.376843893521758e-06, "train/cont_pred": 0.9946382206839484, "train/cont_rate": 0.99462890625, "train/dyn_loss_mean": 4.979083312524332, "train/dyn_loss_std": 8.693522524189305, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0919203653528884, "train/extr_critic_critic_opt_grad_steps": 258665.0, "train/extr_critic_critic_opt_loss": 16403.50955447635, "train/extr_critic_mag": 10.440014078810409, "train/extr_critic_max": 10.440014078810409, "train/extr_critic_mean": 2.7279218016444027, "train/extr_critic_min": -0.5105273143665211, "train/extr_critic_std": 2.5465492332303845, "train/extr_return_normed_mag": 1.443452831861135, "train/extr_return_normed_max": 1.443452831861135, "train/extr_return_normed_mean": 0.37011757734659556, "train/extr_return_normed_min": -0.08913913905318524, "train/extr_return_normed_std": 0.3302671119973466, "train/extr_return_rate": 0.7481093809411332, "train/extr_return_raw_mag": 11.148059033058786, "train/extr_return_raw_max": 11.148059033058786, "train/extr_return_raw_mean": 2.749956101984591, "train/extr_return_raw_min": -0.8423195912225826, "train/extr_return_raw_std": 2.5839361339002043, "train/extr_reward_mag": 1.0514490829931724, "train/extr_reward_max": 1.0514490829931724, "train/extr_reward_mean": 0.055009475581952044, "train/extr_reward_min": -0.6568213169639175, "train/extr_reward_std": 0.2270721547506951, "train/image_loss_mean": 3.0049688155586654, "train/image_loss_std": 8.269457143706244, "train/model_loss_mean": 6.043509431787439, "train/model_loss_std": 12.362414418040094, "train/model_opt_grad_norm": 29.031225758629876, "train/model_opt_grad_steps": 258460.0, "train/model_opt_loss": 7554.386837521115, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.6218013666771554, "train/policy_entropy_max": 2.6218013666771554, "train/policy_entropy_mean": 0.40247424430138357, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5665546643572885, "train/policy_logprob_mag": 7.438384230072434, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4027766051727372, "train/policy_logprob_min": -7.438384230072434, "train/policy_logprob_std": 1.0197198036554698, "train/policy_randomness_mag": 0.9253808284128034, "train/policy_randomness_max": 0.9253808284128034, "train/policy_randomness_mean": 0.14205574878566973, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19996893446187716, "train/post_ent_mag": 55.16497514054582, "train/post_ent_max": 55.16497514054582, "train/post_ent_mean": 41.187236115739154, "train/post_ent_min": 18.917666564116608, "train/post_ent_std": 5.635140870068525, "train/prior_ent_mag": 76.45600715843406, "train/prior_ent_max": 76.45600715843406, "train/prior_ent_mean": 46.17719052288983, "train/prior_ent_min": 28.530290887162494, "train/prior_ent_std": 7.326056235545391, "train/rep_loss_mean": 4.979083312524332, "train/rep_loss_std": 8.693522524189305, "train/reward_avg": 0.03483952662429294, "train/reward_loss_mean": 0.05100941562370674, "train/reward_loss_std": 0.20268825461735596, "train/reward_max_data": 1.017567571756002, "train/reward_max_pred": 1.0176396998199257, "train/reward_neg_acc": 0.9944754790615391, "train/reward_neg_loss": 0.023252639749615982, "train/reward_pos_acc": 0.9902265796790252, "train/reward_pos_loss": 0.7216774772953343, "train/reward_pred": 0.03466972638223622, "train/reward_rate": 0.039735536317567564, "stats/sum_log_reward": 8.814285959516253, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 2.7142857142857144, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 5.0, "stats/max_log_achievement_collect_wood": 9.0, "stats/max_log_achievement_defeat_skeleton": 0.2857142857142857, "stats/max_log_achievement_defeat_zombie": 0.2857142857142857, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_wood_sword": 0.7142857142857143, "stats/max_log_achievement_place_furnace": 0.42857142857142855, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 1.8571428571428572, "stats/max_log_achievement_place_table": 2.4285714285714284, "stats/max_log_achievement_wake_up": 0.8571428571428571, "stats/mean_log_entropy": 0.2893441489764622, "replay/size": 519096.0, "replay/inserts": 1478.0, "replay/samples": 11824.0, "replay/insert_wait_avg": 2.9618427137238087e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3969989848878934e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.28374123573303, "timer/env.step_count": 1478.0, "timer/env.step_total": 17.13321876525879, "timer/env.step_frac": 0.05705676469445818, "timer/env.step_avg": 0.011592164252543159, "timer/env.step_min": 0.0024242401123046875, "timer/env.step_max": 1.573538064956665, "timer/replay.add_count": 1478.0, "timer/replay.add_total": 0.2417759895324707, "timer/replay.add_frac": 0.0008051584429363701, "timer/replay.add_avg": 0.00016358321348611008, "timer/replay.add_min": 5.7697296142578125e-05, "timer/replay.add_max": 0.0005166530609130859, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02012920379638672, "timer/logger.write_frac": 6.703394500664824e-05, "timer/logger.write_avg": 0.02012920379638672, "timer/logger.write_min": 0.02012920379638672, "timer/logger.write_max": 0.02012920379638672, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1478.0, "timer/agent.policy_total": 10.582689046859741, "timer/agent.policy_frac": 0.03524229784572974, "timer/agent.policy_avg": 0.007160141439012004, "timer/agent.policy_min": 0.005789279937744141, "timer/agent.policy_max": 0.015657663345336914, "timer/dataset_count": 739.0, "timer/dataset_total": 0.05710005760192871, "timer/dataset_frac": 0.00019015367720859455, "timer/dataset_avg": 7.72666544004448e-05, "timer/dataset_min": 5.3882598876953125e-05, "timer/dataset_max": 0.00018835067749023438, "timer/agent.train_count": 739.0, "timer/agent.train_total": 271.65135860443115, "timer/agent.train_frac": 0.9046489080178854, "timer/agent.train_avg": 0.3675931780844806, "timer/agent.train_min": 0.36035871505737305, "timer/agent.train_max": 0.38255810737609863, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20165562629699707, "timer/agent.report_frac": 0.0006715502659822348, "timer/agent.report_avg": 0.20165562629699707, "timer/agent.report_min": 0.20165562629699707, "timer/agent.report_max": 0.20165562629699707, "fps": 4.921923159873016}
{"step": 519211, "episode/length": 362.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.03305785123966942}
{"step": 519549, "episode/length": 337.0, "episode/score": 11.099999964237213, "episode/sum_abs_reward": 12.699999988079071, "episode/reward_rate": 0.03550295857988166}
{"step": 519812, "episode/length": 262.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.045627376425855515}
{"step": 519871, "episode/length": 58.0, "episode/score": 6.099999971687794, "episode/sum_abs_reward": 7.900000028312206, "episode/reward_rate": 0.13559322033898305}
{"step": 520026, "episode/length": 154.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.499999977648258, "episode/reward_rate": 0.07741935483870968}
{"step": 520249, "episode/length": 222.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.700000002980232, "episode/reward_rate": 0.05829596412556054}
{"step": 520415, "episode/length": 165.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.07228915662650602}
{"step": 520585, "episode/length": 169.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06470588235294118}
{"step": 520611, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.622734917534722, "train/action_min": 0.0, "train/action_std": 3.4477552506658764, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0465671888863047, "train/actor_opt_grad_steps": 259395.0, "train/actor_opt_loss": -13.237048061357605, "train/adv_mag": 0.4697940866980288, "train/adv_max": 0.40865245337287587, "train/adv_mean": 0.002692756012745829, "train/adv_min": -0.4148176010284159, "train/adv_std": 0.051674715553720794, "train/cont_avg": 0.9945475260416666, "train/cont_loss_mean": 1.8627098604500565e-05, "train/cont_loss_std": 0.0005194794203491585, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00030944183559908665, "train/cont_pos_acc": 0.999986320734024, "train/cont_pos_loss": 1.6622082741532848e-05, "train/cont_pred": 0.9945364428891076, "train/cont_rate": 0.9945475260416666, "train/dyn_loss_mean": 5.163704037666321, "train/dyn_loss_std": 8.765485723813375, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0518137854006555, "train/extr_critic_critic_opt_grad_steps": 259395.0, "train/extr_critic_critic_opt_loss": 16410.307156032984, "train/extr_critic_mag": 10.769518719779121, "train/extr_critic_max": 10.769518719779121, "train/extr_critic_mean": 2.77961266040802, "train/extr_critic_min": -0.4917618797885047, "train/extr_critic_std": 2.589525305562549, "train/extr_return_normed_mag": 1.4717760135730107, "train/extr_return_normed_max": 1.4717760135730107, "train/extr_return_normed_mean": 0.37096009424163234, "train/extr_return_normed_min": -0.08302665388004647, "train/extr_return_normed_std": 0.3310934284494983, "train/extr_return_rate": 0.7406132850382063, "train/extr_return_raw_mag": 11.532371017667982, "train/extr_return_raw_max": 11.532371017667982, "train/extr_return_raw_mean": 2.800940112935172, "train/extr_return_raw_min": -0.8003373568256696, "train/extr_return_raw_std": 2.6265322069327035, "train/extr_reward_mag": 1.0579648580816057, "train/extr_reward_max": 1.0579648580816057, "train/extr_reward_mean": 0.05430444893944594, "train/extr_reward_min": -0.6587865319516923, "train/extr_reward_std": 0.2249784210903777, "train/image_loss_mean": 3.169830853740374, "train/image_loss_std": 8.229284332858192, "train/model_loss_mean": 6.319963898923662, "train/model_loss_std": 12.38537183072832, "train/model_opt_grad_norm": 31.76170735889011, "train/model_opt_grad_steps": 259189.77777777778, "train/model_opt_loss": 13679.156887478299, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2152.777777777778, "train/policy_entropy_mag": 2.644081516398324, "train/policy_entropy_max": 2.644081516398324, "train/policy_entropy_mean": 0.4129316202468342, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5870169732305739, "train/policy_logprob_mag": 7.43838428788715, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41229001474049354, "train/policy_logprob_min": -7.43838428788715, "train/policy_logprob_std": 1.0293258585863643, "train/policy_randomness_mag": 0.9332447399695715, "train/policy_randomness_max": 0.9332447399695715, "train/policy_randomness_mean": 0.1457467441343599, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20719123052226174, "train/post_ent_mag": 55.29775778452555, "train/post_ent_max": 55.29775778452555, "train/post_ent_mean": 41.034795655144585, "train/post_ent_min": 19.303151210149128, "train/post_ent_std": 5.60139740175671, "train/prior_ent_mag": 76.41072252061632, "train/prior_ent_max": 76.41072252061632, "train/prior_ent_mean": 46.18616766399808, "train/prior_ent_min": 28.821590688493515, "train/prior_ent_std": 7.377752284208934, "train/rep_loss_mean": 5.163704037666321, "train/rep_loss_std": 8.765485723813375, "train/reward_avg": 0.03549940309797724, "train/reward_loss_mean": 0.05189210479147732, "train/reward_loss_std": 0.20484950952231884, "train/reward_max_data": 1.0180555598603354, "train/reward_max_pred": 1.0195546232991748, "train/reward_neg_acc": 0.994146010114087, "train/reward_neg_loss": 0.023728548044649262, "train/reward_pos_acc": 0.9906208796633614, "train/reward_pos_loss": 0.7225178653995196, "train/reward_pred": 0.03537111377550496, "train/reward_rate": 0.04026963975694445, "stats/sum_log_reward": 10.225000202655792, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 3.625, "stats/max_log_achievement_collect_sapling": 2.75, "stats/max_log_achievement_collect_stone": 13.625, "stats/max_log_achievement_collect_wood": 9.875, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 0.25, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.25, "stats/max_log_achievement_make_wood_sword": 1.125, "stats/max_log_achievement_place_furnace": 2.125, "stats/max_log_achievement_place_plant": 2.375, "stats/max_log_achievement_place_stone": 4.125, "stats/max_log_achievement_place_table": 2.25, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.4987256210297346, "replay/size": 520548.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.067750904514113e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4997628766314714e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0876545906067, "timer/env.step_count": 1452.0, "timer/env.step_total": 19.89659881591797, "timer/env.step_frac": 0.0663026236219608, "timer/env.step_avg": 0.013702891746499978, "timer/env.step_min": 0.0026044845581054688, "timer/env.step_max": 1.5701079368591309, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.2458963394165039, "timer/replay.add_frac": 0.0008194150464202433, "timer/replay.add_avg": 0.00016935009601687598, "timer/replay.add_min": 6.198883056640625e-05, "timer/replay.add_max": 0.0025568008422851562, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021129131317138672, "timer/logger.write_frac": 7.040986523075733e-05, "timer/logger.write_avg": 0.021129131317138672, "timer/logger.write_min": 0.021129131317138672, "timer/logger.write_max": 0.021129131317138672, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 10.810216903686523, "timer/agent.policy_frac": 0.03602353091943858, "timer/agent.policy_avg": 0.0074450529639714345, "timer/agent.policy_min": 0.0058329105377197266, "timer/agent.policy_max": 0.01772618293762207, "timer/dataset_count": 726.0, "timer/dataset_total": 0.05877566337585449, "timer/dataset_frac": 0.00019586165067682956, "timer/dataset_avg": 8.09582140163285e-05, "timer/dataset_min": 6.031990051269531e-05, "timer/dataset_max": 0.0002033710479736328, "timer/agent.train_count": 726.0, "timer/agent.train_total": 268.43927574157715, "timer/agent.train_frac": 0.8945362184518864, "timer/agent.train_avg": 0.36975106851456907, "timer/agent.train_min": 0.3631598949432373, "timer/agent.train_max": 0.3839457035064697, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2033395767211914, "timer/agent.report_frac": 0.0006776006063914777, "timer/agent.report_avg": 0.2033395767211914, "timer/agent.report_min": 0.2033395767211914, "timer/agent.report_max": 0.2033395767211914, "fps": 4.838477977912183}
{"step": 520777, "episode/length": 191.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06770833333333333}
{"step": 521150, "episode/length": 372.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.03753351206434316}
{"step": 521342, "episode/length": 191.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.052083333333333336}
{"step": 521543, "episode/length": 200.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.05970149253731343}
{"step": 521733, "episode/length": 189.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.05263157894736842}
{"step": 521991, "episode/length": 257.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.046511627906976744}
{"step": 522041, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.610237121582031, "train/action_min": 0.0, "train/action_std": 3.447379344039493, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.045171135312153235, "train/actor_opt_grad_steps": 260115.0, "train/actor_opt_loss": -11.129798498418596, "train/adv_mag": 0.4380059238109324, "train/adv_max": 0.41338634656535256, "train/adv_mean": 0.002952648353440187, "train/adv_min": -0.35562213303314316, "train/adv_std": 0.05024883523583412, "train/cont_avg": 0.9950222439236112, "train/cont_loss_mean": 3.023274515238465e-05, "train/cont_loss_std": 0.0009194944297029729, "train/cont_neg_acc": 0.9972222223877907, "train/cont_neg_loss": 0.004413023079915017, "train/cont_pos_acc": 0.999999982615312, "train/cont_pos_loss": 8.60146906046645e-06, "train/cont_pred": 0.9950256869196892, "train/cont_rate": 0.9950222439236112, "train/dyn_loss_mean": 5.253583570321401, "train/dyn_loss_std": 8.804802417755127, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1096914551324315, "train/extr_critic_critic_opt_grad_steps": 260115.0, "train/extr_critic_critic_opt_loss": 16578.154527452258, "train/extr_critic_mag": 10.762641350428263, "train/extr_critic_max": 10.762641350428263, "train/extr_critic_mean": 2.7005367990997104, "train/extr_critic_min": -0.5041075630320443, "train/extr_critic_std": 2.5524902476204767, "train/extr_return_normed_mag": 1.478771870334943, "train/extr_return_normed_max": 1.478771870334943, "train/extr_return_normed_mean": 0.35982922692265773, "train/extr_return_normed_min": -0.08314311250837313, "train/extr_return_normed_std": 0.32446078459421795, "train/extr_return_rate": 0.7377559319138527, "train/extr_return_raw_mag": 11.664321038458082, "train/extr_return_raw_max": 11.664321038458082, "train/extr_return_raw_mean": 2.7241159511937036, "train/extr_return_raw_min": -0.814408558110396, "train/extr_return_raw_std": 2.591826520032353, "train/extr_reward_mag": 1.050550060139762, "train/extr_reward_max": 1.050550060139762, "train/extr_reward_mean": 0.05480596793091132, "train/extr_reward_min": -0.625717442896631, "train/extr_reward_std": 0.22518683618141544, "train/image_loss_mean": 3.1992486715316772, "train/image_loss_std": 8.30580504073037, "train/model_loss_mean": 6.402098192109002, "train/model_loss_std": 12.499846789571974, "train/model_opt_grad_norm": 28.229968004756504, "train/model_opt_grad_steps": 259909.0, "train/model_opt_loss": 8002.622782389323, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.6192271643214755, "train/policy_entropy_max": 2.6192271643214755, "train/policy_entropy_mean": 0.40868971269163823, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.570600212448173, "train/policy_logprob_mag": 7.43838424815072, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4102580003026459, "train/policy_logprob_min": -7.43838424815072, "train/policy_logprob_std": 1.0276815129650965, "train/policy_randomness_mag": 0.9244722517000304, "train/policy_randomness_max": 0.9244722517000304, "train/policy_randomness_mean": 0.14424953237175941, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2013968342087335, "train/post_ent_mag": 54.806302547454834, "train/post_ent_max": 54.806302547454834, "train/post_ent_mean": 41.15501689910889, "train/post_ent_min": 19.088790191544426, "train/post_ent_std": 5.579115205340916, "train/prior_ent_mag": 76.51235347323947, "train/prior_ent_max": 76.51235347323947, "train/prior_ent_mean": 46.371907552083336, "train/prior_ent_min": 28.47612868414985, "train/prior_ent_std": 7.2993510365486145, "train/rep_loss_mean": 5.253583570321401, "train/rep_loss_std": 8.804802417755127, "train/reward_avg": 0.03496500622067186, "train/reward_loss_mean": 0.05066918038452665, "train/reward_loss_std": 0.20284085327552426, "train/reward_max_data": 1.0194444490803614, "train/reward_max_pred": 1.020959387222926, "train/reward_neg_acc": 0.9947154571612676, "train/reward_neg_loss": 0.023022044320694275, "train/reward_pos_acc": 0.9910621527168486, "train/reward_pos_loss": 0.725985600716538, "train/reward_pred": 0.03479205700568855, "train/reward_rate": 0.039469401041666664, "stats/sum_log_reward": 10.933333396911621, "stats/max_log_achievement_collect_coal": 1.8333333333333333, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 19.0, "stats/max_log_achievement_collect_wood": 11.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.8333333333333334, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.3333333333333333, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.6666666666666667, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_stone": 7.833333333333333, "stats/max_log_achievement_place_table": 2.6666666666666665, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.43639762202898663, "replay/size": 521978.0, "replay/inserts": 1430.0, "replay/samples": 11440.0, "replay/insert_wait_avg": 3.316852596256283e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4114421564382273e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.08361315727234, "timer/env.step_count": 1430.0, "timer/env.step_total": 19.9524142742157, "timer/env.step_frac": 0.06648951625278764, "timer/env.step_avg": 0.013952737254696292, "timer/env.step_min": 0.0028374195098876953, "timer/env.step_max": 1.7531731128692627, "timer/replay.add_count": 1430.0, "timer/replay.add_total": 0.24564051628112793, "timer/replay.add_frac": 0.0008185735758666334, "timer/replay.add_avg": 0.00017177658481197757, "timer/replay.add_min": 6.198883056640625e-05, "timer/replay.add_max": 0.0008046627044677734, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.019605398178100586, "timer/logger.write_frac": 6.533311823270235e-05, "timer/logger.write_avg": 0.019605398178100586, "timer/logger.write_min": 0.019605398178100586, "timer/logger.write_max": 0.019605398178100586, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002918243408203125, "timer/checkpoint.save_frac": 9.72476763225884e-07, "timer/checkpoint.save_avg": 0.0002918243408203125, "timer/checkpoint.save_min": 0.0002918243408203125, "timer/checkpoint.save_max": 0.0002918243408203125, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3552532196044922, "timer/agent.save_frac": 0.004516252005051041, "timer/agent.save_avg": 1.3552532196044922, "timer/agent.save_min": 1.3552532196044922, "timer/agent.save_max": 1.3552532196044922, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.891654968261719e-05, "timer/replay.save_frac": 2.629818697939278e-07, "timer/replay.save_avg": 7.891654968261719e-05, "timer/replay.save_min": 7.891654968261719e-05, "timer/replay.save_max": 7.891654968261719e-05, "timer/agent.policy_count": 1430.0, "timer/agent.policy_total": 13.550026893615723, "timer/agent.policy_frac": 0.045154171369278406, "timer/agent.policy_avg": 0.009475543282248757, "timer/agent.policy_min": 0.006185770034790039, "timer/agent.policy_max": 1.3533926010131836, "timer/dataset_count": 715.0, "timer/dataset_total": 0.05969405174255371, "timer/dataset_frac": 0.00019892473005937966, "timer/dataset_avg": 8.348818425531988e-05, "timer/dataset_min": 6.151199340820312e-05, "timer/dataset_max": 0.00014400482177734375, "timer/agent.train_count": 715.0, "timer/agent.train_total": 265.6331977844238, "timer/agent.train_frac": 0.8851972788171102, "timer/agent.train_avg": 0.3715149619362571, "timer/agent.train_min": 0.36211585998535156, "timer/agent.train_max": 0.3852965831756592, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20253753662109375, "timer/agent.report_frac": 0.0006749370100224194, "timer/agent.report_avg": 0.20253753662109375, "timer/agent.report_min": 0.20253753662109375, "timer/agent.report_max": 0.20253753662109375, "fps": 4.765234590613678}
{"step": 522162, "episode/length": 170.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 10.30000003427267, "episode/reward_rate": 0.04678362573099415}
{"step": 522384, "episode/length": 221.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.05405405405405406}
{"step": 522540, "episode/length": 155.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 13.10000005364418, "episode/reward_rate": 0.07051282051282051}
{"step": 522876, "episode/length": 335.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.03273809523809524}
{"step": 523057, "episode/length": 180.0, "episode/score": 11.100000016391277, "episode/sum_abs_reward": 12.100000031292439, "episode/reward_rate": 0.06629834254143646}
{"step": 523238, "episode/length": 180.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.04419889502762431}
{"step": 523509, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.583968489137415, "train/action_min": 0.0, "train/action_std": 3.4581488975106853, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.042776176272189784, "train/actor_opt_grad_steps": 260840.0, "train/actor_opt_loss": -14.054538268749027, "train/adv_mag": 0.42243460718899556, "train/adv_max": 0.37736114777930796, "train/adv_mean": 0.0013295845785674604, "train/adv_min": -0.3578722844385121, "train/adv_std": 0.048072859389732964, "train/cont_avg": 0.994755993150685, "train/cont_loss_mean": 3.1711026969553396e-05, "train/cont_loss_std": 0.000989823736703117, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0016052456324372269, "train/cont_pos_acc": 0.9999865383318026, "train/cont_pos_loss": 2.5523863048042367e-05, "train/cont_pred": 0.9947474827505138, "train/cont_rate": 0.994755993150685, "train/dyn_loss_mean": 5.141144647990187, "train/dyn_loss_std": 8.775485541722546, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1016913693245143, "train/extr_critic_critic_opt_grad_steps": 260840.0, "train/extr_critic_critic_opt_loss": 16300.240742722603, "train/extr_critic_mag": 10.616867770887401, "train/extr_critic_max": 10.616867770887401, "train/extr_critic_mean": 2.7108955154680228, "train/extr_critic_min": -0.5013469000385232, "train/extr_critic_std": 2.571260195888885, "train/extr_return_normed_mag": 1.4199932405393418, "train/extr_return_normed_max": 1.4199932405393418, "train/extr_return_normed_mean": 0.3603828920893473, "train/extr_return_normed_min": -0.08876049181778137, "train/extr_return_normed_std": 0.32501548814446957, "train/extr_return_rate": 0.7296313545475267, "train/extr_return_raw_mag": 11.17985665308286, "train/extr_return_raw_max": 11.17985665308286, "train/extr_return_raw_mean": 2.7215065874465525, "train/extr_return_raw_min": -0.8622824182249096, "train/extr_return_raw_std": 2.5945971697977144, "train/extr_reward_mag": 1.0545725626488254, "train/extr_reward_max": 1.0545725626488254, "train/extr_reward_mean": 0.053417756005305135, "train/extr_reward_min": -0.6728341579437256, "train/extr_reward_std": 0.22375769035456933, "train/image_loss_mean": 3.1155512741167253, "train/image_loss_std": 8.03908531633142, "train/model_loss_mean": 6.252589271493154, "train/model_loss_std": 12.222551972898719, "train/model_opt_grad_norm": 30.124218653326164, "train/model_opt_grad_steps": 260634.0, "train/model_opt_loss": 14271.858726187927, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2294.5205479452056, "train/policy_entropy_mag": 2.619755562037638, "train/policy_entropy_max": 2.619755562037638, "train/policy_entropy_mean": 0.4206342676731005, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5864807302004671, "train/policy_logprob_mag": 7.438384219391705, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41998075173325733, "train/policy_logprob_min": -7.438384219391705, "train/policy_logprob_std": 1.0310310500941864, "train/policy_randomness_mag": 0.9246587508345303, "train/policy_randomness_max": 0.9246587508345303, "train/policy_randomness_mean": 0.14846544028961495, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20700196207386173, "train/post_ent_mag": 54.969825065299254, "train/post_ent_max": 54.969825065299254, "train/post_ent_mean": 41.02401153355429, "train/post_ent_min": 18.963623242835475, "train/post_ent_std": 5.602975544864184, "train/prior_ent_mag": 76.55415438299309, "train/prior_ent_max": 76.55415438299309, "train/prior_ent_mean": 46.20049212730094, "train/prior_ent_min": 28.866048551585575, "train/prior_ent_std": 7.419502682881813, "train/rep_loss_mean": 5.141144647990187, "train/rep_loss_std": 8.775485541722546, "train/reward_avg": 0.03548533785833071, "train/reward_loss_mean": 0.05231951733362185, "train/reward_loss_std": 0.20475665061441187, "train/reward_max_data": 1.026027403465689, "train/reward_max_pred": 1.024574918289707, "train/reward_neg_acc": 0.9938980969664168, "train/reward_neg_loss": 0.024185805658057127, "train/reward_pos_acc": 0.990849545557205, "train/reward_pos_loss": 0.7199519546064612, "train/reward_pred": 0.03532950544398125, "train/reward_rate": 0.04041363441780822, "stats/sum_log_reward": 9.4333336353302, "stats/max_log_achievement_collect_coal": 0.16666666666666666, "stats/max_log_achievement_collect_drink": 3.3333333333333335, "stats/max_log_achievement_collect_sapling": 2.8333333333333335, "stats/max_log_achievement_collect_stone": 7.833333333333333, "stats/max_log_achievement_collect_wood": 11.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.8333333333333334, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.3333333333333333, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 2.5, "stats/max_log_achievement_place_stone": 3.1666666666666665, "stats/max_log_achievement_place_table": 2.8333333333333335, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.32809453705946606, "replay/size": 523446.0, "replay/inserts": 1468.0, "replay/samples": 11744.0, "replay/insert_wait_avg": 3.135496654042756e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.5199793457010462e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.22739243507385, "timer/env.step_count": 1468.0, "timer/env.step_total": 17.113598346710205, "timer/env.step_frac": 0.057002121651544946, "timer/env.step_avg": 0.011657764541355725, "timer/env.step_min": 0.0026133060455322266, "timer/env.step_max": 1.5405921936035156, "timer/replay.add_count": 1468.0, "timer/replay.add_total": 0.24971866607666016, "timer/replay.add_frac": 0.0008317650966197678, "timer/replay.add_avg": 0.00017010808315848783, "timer/replay.add_min": 5.793571472167969e-05, "timer/replay.add_max": 0.0006227493286132812, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02215576171875, "timer/logger.write_frac": 7.379660309823771e-05, "timer/logger.write_avg": 0.02215576171875, "timer/logger.write_min": 0.02215576171875, "timer/logger.write_max": 0.02215576171875, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1468.0, "timer/agent.policy_total": 10.954108476638794, "timer/agent.policy_frac": 0.03648603942429301, "timer/agent.policy_avg": 0.007461926755203538, "timer/agent.policy_min": 0.0062406063079833984, "timer/agent.policy_max": 0.015411138534545898, "timer/dataset_count": 734.0, "timer/dataset_total": 0.06035971641540527, "timer/dataset_frac": 0.00020104666641455264, "timer/dataset_avg": 8.223394607003443e-05, "timer/dataset_min": 6.175041198730469e-05, "timer/dataset_max": 0.00025534629821777344, "timer/agent.train_count": 734.0, "timer/agent.train_total": 271.1913323402405, "timer/agent.train_frac": 0.9032864394573437, "timer/agent.train_avg": 0.3694704800275756, "timer/agent.train_min": 0.3625020980834961, "timer/agent.train_max": 0.38300466537475586, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22136497497558594, "timer/agent.report_frac": 0.0007373243766338129, "timer/agent.report_avg": 0.22136497497558594, "timer/agent.report_min": 0.22136497497558594, "timer/agent.report_max": 0.22136497497558594, "fps": 4.88951861948119}
{"step": 523592, "episode/length": 353.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.031073446327683617}
{"step": 523778, "episode/length": 185.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.900000013411045, "episode/reward_rate": 0.04838709677419355}
{"step": 524017, "episode/length": 238.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.0502092050209205}
{"step": 524243, "episode/length": 225.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.099999994039536, "episode/reward_rate": 0.05309734513274336}
{"step": 524950, "episode/length": 706.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 15.1000000461936, "episode/reward_rate": 0.016973125884016973}
{"step": 524991, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.54270398938978, "train/action_min": 0.0, "train/action_std": 3.431674451441378, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04322607311848048, "train/actor_opt_grad_steps": 261575.0, "train/actor_opt_loss": -11.58301131024554, "train/adv_mag": 0.39448182848659724, "train/adv_max": 0.3660599158422367, "train/adv_mean": 0.002983080978034146, "train/adv_min": -0.34861033107783346, "train/adv_std": 0.049325706537913634, "train/cont_avg": 0.9947872677364865, "train/cont_loss_mean": 1.787484059780188e-05, "train/cont_loss_std": 0.0004535640201888905, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 3.38119071735442e-05, "train/cont_pos_acc": 0.999999986307041, "train/cont_pos_loss": 1.7759114785733545e-05, "train/cont_pred": 0.9947706622046393, "train/cont_rate": 0.9947872677364865, "train/dyn_loss_mean": 5.26664774804502, "train/dyn_loss_std": 8.790703805717262, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1081678005489144, "train/extr_critic_critic_opt_grad_steps": 261575.0, "train/extr_critic_critic_opt_loss": 16469.585277660473, "train/extr_critic_mag": 10.418756884497565, "train/extr_critic_max": 10.418756884497565, "train/extr_critic_mean": 2.5945665111412874, "train/extr_critic_min": -0.47316762724438227, "train/extr_critic_std": 2.499866596750311, "train/extr_return_normed_mag": 1.4389462487117664, "train/extr_return_normed_max": 1.4389462487117664, "train/extr_return_normed_mean": 0.3553321945506173, "train/extr_return_normed_min": -0.08421309191632916, "train/extr_return_normed_std": 0.32605867752352274, "train/extr_return_rate": 0.7272470118226232, "train/extr_return_raw_mag": 11.034006930686331, "train/extr_return_raw_max": 11.034006930686331, "train/extr_return_raw_mean": 2.6177252096098824, "train/extr_return_raw_min": -0.7964539604412543, "train/extr_return_raw_std": 2.5330064957206315, "train/extr_reward_mag": 1.039417070311469, "train/extr_reward_max": 1.039417070311469, "train/extr_reward_mean": 0.05260216087304257, "train/extr_reward_min": -0.6245284386583276, "train/extr_reward_std": 0.2221981359494699, "train/image_loss_mean": 3.1873272721831865, "train/image_loss_std": 8.242098705188647, "train/model_loss_mean": 6.398694051278604, "train/model_loss_std": 12.431663719383446, "train/model_opt_grad_norm": 28.626540249341154, "train/model_opt_grad_steps": 261368.2027027027, "train/model_opt_loss": 9654.301526868665, "train/model_opt_model_opt_grad_overflow": 0.013513513513513514, "train/model_opt_model_opt_grad_scale": 1503.3783783783783, "train/policy_entropy_mag": 2.6151905671970264, "train/policy_entropy_max": 2.6151905671970264, "train/policy_entropy_mean": 0.4112255490712217, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5781368391739355, "train/policy_logprob_mag": 7.4383842751786515, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4110032903987008, "train/policy_logprob_min": -7.4383842751786515, "train/policy_logprob_std": 1.0270036088453758, "train/policy_randomness_mag": 0.9230475047150174, "train/policy_randomness_max": 0.9230475047150174, "train/policy_randomness_mean": 0.1451445730352724, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20405693543521133, "train/post_ent_mag": 55.606737858540306, "train/post_ent_max": 55.606737858540306, "train/post_ent_mean": 41.05565839200406, "train/post_ent_min": 18.991656561155576, "train/post_ent_std": 5.6577251021926465, "train/prior_ent_mag": 76.4991178770323, "train/prior_ent_max": 76.4991178770323, "train/prior_ent_mean": 46.381333016060495, "train/prior_ent_min": 28.85389485230317, "train/prior_ent_std": 7.406188726425171, "train/rep_loss_mean": 5.26664774804502, "train/rep_loss_std": 8.790703805717262, "train/reward_avg": 0.03521431544543924, "train/reward_loss_mean": 0.05136026235649715, "train/reward_loss_std": 0.20352309579784805, "train/reward_max_data": 1.0148648684089248, "train/reward_max_pred": 1.014912131670359, "train/reward_neg_acc": 0.9945300277825948, "train/reward_neg_loss": 0.023338768014533294, "train/reward_pos_acc": 0.989181437202402, "train/reward_pos_loss": 0.7255484928955903, "train/reward_pred": 0.035085328653253416, "train/reward_rate": 0.039986275337837836, "stats/sum_log_reward": 10.1, "stats/max_log_achievement_collect_coal": 0.8, "stats/max_log_achievement_collect_drink": 6.2, "stats/max_log_achievement_collect_sapling": 1.6, "stats/max_log_achievement_collect_stone": 11.2, "stats/max_log_achievement_collect_wood": 11.8, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.4, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.6, "stats/max_log_achievement_place_furnace": 1.4, "stats/max_log_achievement_place_plant": 1.6, "stats/max_log_achievement_place_stone": 4.6, "stats/max_log_achievement_place_table": 3.2, "stats/max_log_achievement_wake_up": 2.0, "stats/mean_log_entropy": 0.522342997789383, "replay/size": 524928.0, "replay/inserts": 1482.0, "replay/samples": 11856.0, "replay/insert_wait_avg": 3.1055548252203525e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.5226533377540578e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3739995956421, "timer/env.step_count": 1482.0, "timer/env.step_total": 15.438246250152588, "timer/env.step_frac": 0.051396746292739284, "timer/env.step_avg": 0.01041717020927975, "timer/env.step_min": 0.002698183059692383, "timer/env.step_max": 1.4320707321166992, "timer/replay.add_count": 1482.0, "timer/replay.add_total": 0.24456381797790527, "timer/replay.add_frac": 0.0008141976945645514, "timer/replay.add_avg": 0.00016502281914838413, "timer/replay.add_min": 5.91278076171875e-05, "timer/replay.add_max": 0.0006968975067138672, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023946523666381836, "timer/logger.write_frac": 7.972235845518655e-05, "timer/logger.write_avg": 0.023946523666381836, "timer/logger.write_min": 0.023946523666381836, "timer/logger.write_max": 0.023946523666381836, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1482.0, "timer/agent.policy_total": 11.000001192092896, "timer/agent.policy_frac": 0.036621016489113214, "timer/agent.policy_avg": 0.007422402963625435, "timer/agent.policy_min": 0.006090879440307617, "timer/agent.policy_max": 0.014827251434326172, "timer/dataset_count": 741.0, "timer/dataset_total": 0.059340476989746094, "timer/dataset_frac": 0.00019755530461900545, "timer/dataset_avg": 8.008161537077745e-05, "timer/dataset_min": 5.9604644775390625e-05, "timer/dataset_max": 0.00013184547424316406, "timer/agent.train_count": 741.0, "timer/agent.train_total": 272.97231936454773, "timer/agent.train_frac": 0.9087747931978734, "timer/agent.train_avg": 0.36838369684824257, "timer/agent.train_min": 0.36177778244018555, "timer/agent.train_max": 0.38231730461120605, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22664332389831543, "timer/agent.report_frac": 0.0007545370911044846, "timer/agent.report_avg": 0.22664332389831543, "timer/agent.report_min": 0.22664332389831543, "timer/agent.report_max": 0.22664332389831543, "fps": 4.933738014199823}
{"step": 525250, "episode/length": 299.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 13.30000003427267, "episode/reward_rate": 0.03666666666666667}
{"step": 525485, "episode/length": 234.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.05106382978723404}
{"step": 525627, "episode/length": 141.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 9.899999991059303, "episode/reward_rate": 0.07042253521126761}
{"step": 525763, "episode/length": 135.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.0661764705882353}
{"step": 525816, "episode/length": 52.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 8.100000001490116, "episode/reward_rate": 0.1509433962264151}
{"step": 526050, "episode/length": 233.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.04700854700854701}
{"step": 526264, "episode/length": 213.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.0514018691588785}
{"step": 526443, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.57069961338827, "train/action_min": 0.0, "train/action_std": 3.4667216033151704, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04451376036421893, "train/actor_opt_grad_steps": 262310.0, "train/actor_opt_loss": -11.201965132396515, "train/adv_mag": 0.431653913161526, "train/adv_max": 0.40011216842964903, "train/adv_mean": 0.0026555615411481296, "train/adv_min": -0.34313698786578767, "train/adv_std": 0.04930516505894596, "train/cont_avg": 0.994943279109589, "train/cont_loss_mean": 1.5465746302180528e-05, "train/cont_loss_std": 0.0004192855763041161, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0009747688420920646, "train/cont_pos_acc": 0.9999999812204544, "train/cont_pos_loss": 8.716950865043414e-06, "train/cont_pred": 0.9949407193758716, "train/cont_rate": 0.994943279109589, "train/dyn_loss_mean": 5.1032100181057025, "train/dyn_loss_std": 8.685062042654376, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0470597931783494, "train/extr_critic_critic_opt_grad_steps": 262310.0, "train/extr_critic_critic_opt_loss": 16219.42852365154, "train/extr_critic_mag": 10.35562537467643, "train/extr_critic_max": 10.35562537467643, "train/extr_critic_mean": 2.731956264744066, "train/extr_critic_min": -0.4578866615687331, "train/extr_critic_std": 2.522955221672581, "train/extr_return_normed_mag": 1.4386260983062118, "train/extr_return_normed_max": 1.4386260983062118, "train/extr_return_normed_mean": 0.3690646178510091, "train/extr_return_normed_min": -0.08845516916823713, "train/extr_return_normed_std": 0.32810580158886843, "train/extr_return_rate": 0.7415801960311524, "train/extr_return_raw_mag": 11.102304484746227, "train/extr_return_raw_max": 11.102304484746227, "train/extr_return_raw_mean": 2.752650451986757, "train/extr_return_raw_min": -0.8178526828550312, "train/extr_return_raw_std": 2.560878330714082, "train/extr_reward_mag": 1.0541780876786742, "train/extr_reward_max": 1.0541780876786742, "train/extr_reward_mean": 0.054055923902212755, "train/extr_reward_min": -0.6543255113575557, "train/extr_reward_std": 0.22499898504720975, "train/image_loss_mean": 3.0333306217846805, "train/image_loss_std": 7.949811745996344, "train/model_loss_mean": 6.1456686241986, "train/model_loss_std": 12.067512316246555, "train/model_opt_grad_norm": 29.315615928336367, "train/model_opt_grad_steps": 262103.0, "train/model_opt_loss": 11027.31268728596, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1780.8219178082193, "train/policy_entropy_mag": 2.6256995527711635, "train/policy_entropy_max": 2.6256995527711635, "train/policy_entropy_mean": 0.41868626724367275, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5813373972291815, "train/policy_logprob_mag": 7.438384271647832, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4190189475066041, "train/policy_logprob_min": -7.438384271647832, "train/policy_logprob_std": 1.0328740436736852, "train/policy_randomness_mag": 0.9267567167543385, "train/policy_randomness_max": 0.9267567167543385, "train/policy_randomness_mean": 0.14777787968720477, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2051865886131378, "train/post_ent_mag": 54.88114025168223, "train/post_ent_max": 54.88114025168223, "train/post_ent_mean": 41.081157057252646, "train/post_ent_min": 18.855492395897436, "train/post_ent_std": 5.635768348223542, "train/prior_ent_mag": 76.61350521976, "train/prior_ent_max": 76.61350521976, "train/prior_ent_mean": 46.223162089308644, "train/prior_ent_min": 28.456645077222014, "train/prior_ent_std": 7.330151185597459, "train/rep_loss_mean": 5.1032100181057025, "train/rep_loss_std": 8.685062042654376, "train/reward_avg": 0.03513217005521467, "train/reward_loss_mean": 0.05039650559017103, "train/reward_loss_std": 0.19874007816184058, "train/reward_max_data": 1.0232876767850902, "train/reward_max_pred": 1.0208539440207285, "train/reward_neg_acc": 0.9946352129113184, "train/reward_neg_loss": 0.0224019747661197, "train/reward_pos_acc": 0.9894310252307212, "train/reward_pos_loss": 0.7294737084271157, "train/reward_pred": 0.034839976783076376, "train/reward_rate": 0.03966449058219178, "stats/sum_log_reward": 9.099999904632568, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 2.4285714285714284, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 14.428571428571429, "stats/max_log_achievement_collect_wood": 6.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.2857142857142857, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 2.2857142857142856, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 3.2857142857142856, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.4609834445374353, "replay/size": 526380.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.0639743016771047e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.5212115177438278e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2639055252075, "timer/env.step_count": 1452.0, "timer/env.step_total": 17.997896671295166, "timer/env.step_frac": 0.05994026035135355, "timer/env.step_avg": 0.012395245641387855, "timer/env.step_min": 0.002680540084838867, "timer/env.step_max": 1.428318977355957, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.24548935890197754, "timer/replay.add_frac": 0.0008175786512620593, "timer/replay.add_avg": 0.00016906980640632062, "timer/replay.add_min": 5.9604644775390625e-05, "timer/replay.add_max": 0.0006132125854492188, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021365880966186523, "timer/logger.write_frac": 7.11570074625331e-05, "timer/logger.write_avg": 0.021365880966186523, "timer/logger.write_min": 0.021365880966186523, "timer/logger.write_max": 0.021365880966186523, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00033593177795410156, "timer/checkpoint.save_frac": 1.1187884117023838e-06, "timer/checkpoint.save_avg": 0.00033593177795410156, "timer/checkpoint.save_min": 0.00033593177795410156, "timer/checkpoint.save_max": 0.00033593177795410156, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.385493278503418, "timer/agent.save_frac": 0.004614251839827295, "timer/agent.save_avg": 1.385493278503418, "timer/agent.save_min": 1.385493278503418, "timer/agent.save_max": 1.385493278503418, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.00010347366333007812, "timer/replay.save_frac": 3.4460906364715017e-07, "timer/replay.save_avg": 0.00010347366333007812, "timer/replay.save_min": 0.00010347366333007812, "timer/replay.save_max": 0.00010347366333007812, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 14.186786890029907, "timer/agent.policy_frac": 0.0472477265131653, "timer/agent.policy_avg": 0.009770514387072939, "timer/agent.policy_min": 0.005790233612060547, "timer/agent.policy_max": 2.318678140640259, "timer/dataset_count": 726.0, "timer/dataset_total": 0.0582728385925293, "timer/dataset_frac": 0.00019407207300058655, "timer/dataset_avg": 8.026561789604586e-05, "timer/dataset_min": 5.8650970458984375e-05, "timer/dataset_max": 0.0001857280731201172, "timer/agent.train_count": 726.0, "timer/agent.train_total": 267.13968205451965, "timer/agent.train_frac": 0.8896829660136855, "timer/agent.train_avg": 0.36796099456545406, "timer/agent.train_min": 0.36104869842529297, "timer/agent.train_max": 0.4412388801574707, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22206497192382812, "timer/agent.report_frac": 0.0007395659879112093, "timer/agent.report_avg": 0.22206497192382812, "timer/agent.report_min": 0.22206497192382812, "timer/agent.report_max": 0.22206497192382812, "fps": 4.835634029489685}
{"step": 526470, "episode/length": 205.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.05339805825242718}
{"step": 526635, "episode/length": 164.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.100000038743019, "episode/reward_rate": 0.05454545454545454}
{"step": 526881, "episode/length": 245.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.04878048780487805}
{"step": 527087, "episode/length": 205.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.5, "episode/reward_rate": 0.06310679611650485}
{"step": 527247, "episode/length": 159.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.900000028312206, "episode/reward_rate": 0.0625}
{"step": 527425, "episode/length": 177.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.07303370786516854}
{"step": 527618, "episode/length": 192.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.06735751295336788}
{"step": 527665, "episode/length": 46.0, "episode/score": 5.100000023841858, "episode/sum_abs_reward": 6.700000047683716, "episode/reward_rate": 0.1276595744680851}
{"step": 527919, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.651641020903716, "train/action_min": 0.0, "train/action_std": 3.5445680489411227, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.043372116076785164, "train/actor_opt_grad_steps": 263045.0, "train/actor_opt_loss": -14.607148947345244, "train/adv_mag": 0.43029114080441966, "train/adv_max": 0.3750758666444469, "train/adv_mean": 0.0019695517113865898, "train/adv_min": -0.3719510774354677, "train/adv_std": 0.04870260758577166, "train/cont_avg": 0.9945233319256757, "train/cont_loss_mean": 6.301486664489637e-05, "train/cont_loss_std": 0.0019114809703591458, "train/cont_neg_acc": 0.9943693699063482, "train/cont_neg_loss": 0.00878262624796416, "train/cont_pos_acc": 0.999986707358747, "train/cont_pos_loss": 1.9850682333695487e-05, "train/cont_pred": 0.9945350418219695, "train/cont_rate": 0.9945233319256757, "train/dyn_loss_mean": 5.0249144257725895, "train/dyn_loss_std": 8.659020101701891, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.017961728411752, "train/extr_critic_critic_opt_grad_steps": 263045.0, "train/extr_critic_critic_opt_loss": 16110.813120249155, "train/extr_critic_mag": 10.591371897104624, "train/extr_critic_max": 10.591371897104624, "train/extr_critic_mean": 2.8036650113157324, "train/extr_critic_min": -0.4989840726594667, "train/extr_critic_std": 2.6014595949971997, "train/extr_return_normed_mag": 1.424955819104169, "train/extr_return_normed_max": 1.424955819104169, "train/extr_return_normed_mean": 0.3709367070649121, "train/extr_return_normed_min": -0.08759512684333164, "train/extr_return_normed_std": 0.3306960856189599, "train/extr_return_rate": 0.7415954446470415, "train/extr_return_raw_mag": 11.204477787017822, "train/extr_return_raw_max": 11.204477787017822, "train/extr_return_raw_mean": 2.8193391174883455, "train/extr_return_raw_min": -0.8290816622005927, "train/extr_return_raw_std": 2.6311064749150663, "train/extr_reward_mag": 1.0494771487004049, "train/extr_reward_max": 1.0494771487004049, "train/extr_reward_mean": 0.055594940896372534, "train/extr_reward_min": -0.6715691798442119, "train/extr_reward_std": 0.22724527785101453, "train/image_loss_mean": 3.0245039011981034, "train/image_loss_std": 7.77404878590558, "train/model_loss_mean": 6.091828036952663, "train/model_loss_std": 11.896653845503524, "train/model_opt_grad_norm": 30.610025483208734, "train/model_opt_grad_steps": 262837.9324324324, "train/model_opt_loss": 15229.570127744932, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6226761469969877, "train/policy_entropy_max": 2.6226761469969877, "train/policy_entropy_mean": 0.42099730851682454, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.590751028544194, "train/policy_logprob_mag": 7.4383842751786515, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4209557598507082, "train/policy_logprob_min": -7.4383842751786515, "train/policy_logprob_std": 1.0359899699687958, "train/policy_randomness_mag": 0.925689585305549, "train/policy_randomness_max": 0.925689585305549, "train/policy_randomness_mean": 0.1485935744602938, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2085091896556519, "train/post_ent_mag": 55.097501033061256, "train/post_ent_max": 55.097501033061256, "train/post_ent_mean": 41.15263655379012, "train/post_ent_min": 18.935183769947773, "train/post_ent_std": 5.660374712299657, "train/prior_ent_mag": 76.39356582229202, "train/prior_ent_max": 76.39356582229202, "train/prior_ent_mean": 46.2346756393845, "train/prior_ent_min": 28.620852547722894, "train/prior_ent_std": 7.3727179346857845, "train/rep_loss_mean": 5.0249144257725895, "train/rep_loss_std": 8.659020101701891, "train/reward_avg": 0.03707374340376338, "train/reward_loss_mean": 0.052312497653671214, "train/reward_loss_std": 0.2118167075756434, "train/reward_max_data": 1.017567571756002, "train/reward_max_pred": 1.020409783801517, "train/reward_neg_acc": 0.9948472565895802, "train/reward_neg_loss": 0.022868766852125928, "train/reward_pos_acc": 0.9914117181623304, "train/reward_pos_loss": 0.7283527706120465, "train/reward_pred": 0.03658529287959273, "train/reward_rate": 0.04175464527027027, "stats/sum_log_reward": 9.850000381469727, "stats/max_log_achievement_collect_coal": 0.25, "stats/max_log_achievement_collect_drink": 3.625, "stats/max_log_achievement_collect_sapling": 1.625, "stats/max_log_achievement_collect_stone": 9.875, "stats/max_log_achievement_collect_wood": 7.875, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.25, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.125, "stats/max_log_achievement_make_wood_sword": 1.125, "stats/max_log_achievement_place_furnace": 1.125, "stats/max_log_achievement_place_plant": 1.375, "stats/max_log_achievement_place_stone": 4.75, "stats/max_log_achievement_place_table": 1.625, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.28348024003207684, "replay/size": 527856.0, "replay/inserts": 1476.0, "replay/samples": 11808.0, "replay/insert_wait_avg": 2.9799091783642446e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3880088400388474e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.00669836997986, "timer/env.step_count": 1476.0, "timer/env.step_total": 17.936471223831177, "timer/env.step_frac": 0.059786902496794345, "timer/env.step_avg": 0.012152080774953371, "timer/env.step_min": 0.0023338794708251953, "timer/env.step_max": 1.262833833694458, "timer/replay.add_count": 1476.0, "timer/replay.add_total": 0.2481529712677002, "timer/replay.add_frac": 0.0008271581021889997, "timer/replay.add_avg": 0.00016812531928705974, "timer/replay.add_min": 5.841255187988281e-05, "timer/replay.add_max": 0.000934600830078125, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021561145782470703, "timer/logger.write_frac": 7.186888126037995e-05, "timer/logger.write_avg": 0.021561145782470703, "timer/logger.write_min": 0.021561145782470703, "timer/logger.write_max": 0.021561145782470703, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1476.0, "timer/agent.policy_total": 10.494266986846924, "timer/agent.policy_frac": 0.034980108923784725, "timer/agent.policy_avg": 0.007109936982958621, "timer/agent.policy_min": 0.005819797515869141, "timer/agent.policy_max": 0.015348434448242188, "timer/dataset_count": 738.0, "timer/dataset_total": 0.05696988105773926, "timer/dataset_frac": 0.00018989536356112222, "timer/dataset_avg": 7.719496078284453e-05, "timer/dataset_min": 5.626678466796875e-05, "timer/dataset_max": 0.00016999244689941406, "timer/agent.train_count": 738.0, "timer/agent.train_total": 270.63298988342285, "timer/agent.train_frac": 0.9020898245067441, "timer/agent.train_avg": 0.366711368405722, "timer/agent.train_min": 0.3603694438934326, "timer/agent.train_max": 0.3791360855102539, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22526884078979492, "timer/agent.report_frac": 0.000750879370406539, "timer/agent.report_avg": 0.22526884078979492, "timer/agent.report_min": 0.22526884078979492, "timer/agent.report_max": 0.22526884078979492, "fps": 4.919776209806664}
{"step": 527982, "episode/length": 316.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.500000037252903, "episode/reward_rate": 0.0473186119873817}
{"step": 528168, "episode/length": 185.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.100000031292439, "episode/reward_rate": 0.05913978494623656}
{"step": 528332, "episode/length": 163.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.054878048780487805}
{"step": 528659, "episode/length": 326.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.700000040233135, "episode/reward_rate": 0.03363914373088685}
{"step": 528866, "episode/length": 206.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.05314009661835749}
{"step": 529035, "episode/length": 168.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.07100591715976332}
{"step": 529217, "episode/length": 181.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.07142857142857142}
{"step": 529399, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.567153518264358, "train/action_min": 0.0, "train/action_std": 3.4706229454762227, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.042625811706120904, "train/actor_opt_grad_steps": 263785.0, "train/actor_opt_loss": -12.249453725847038, "train/adv_mag": 0.4269273901307905, "train/adv_max": 0.37727828686301773, "train/adv_mean": 0.0017897665899442006, "train/adv_min": -0.36482547143021143, "train/adv_std": 0.04866994927461083, "train/cont_avg": 0.9947872677364865, "train/cont_loss_mean": 9.828988369596991e-05, "train/cont_loss_std": 0.0030003429660640708, "train/cont_neg_acc": 0.9977168955215036, "train/cont_neg_loss": 0.007826612456670299, "train/cont_pos_acc": 0.9999867138024923, "train/cont_pos_loss": 5.34222306656049e-05, "train/cont_pred": 0.9947707596662883, "train/cont_rate": 0.9947872677364865, "train/dyn_loss_mean": 5.186442980895171, "train/dyn_loss_std": 8.773931065121213, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0535299093336672, "train/extr_critic_critic_opt_grad_steps": 263785.0, "train/extr_critic_critic_opt_loss": 16309.663732580237, "train/extr_critic_mag": 10.508663486790013, "train/extr_critic_max": 10.508663486790013, "train/extr_critic_mean": 2.6845540645960213, "train/extr_critic_min": -0.45896540461359797, "train/extr_critic_std": 2.5264134664793274, "train/extr_return_normed_mag": 1.443240276865057, "train/extr_return_normed_max": 1.443240276865057, "train/extr_return_normed_mean": 0.3589456882831213, "train/extr_return_normed_min": -0.08860000809402885, "train/extr_return_normed_std": 0.3256674060547674, "train/extr_return_rate": 0.7399071285853515, "train/extr_return_raw_mag": 11.210131477665257, "train/extr_return_raw_max": 11.210131477665257, "train/extr_return_raw_mean": 2.6985884743767814, "train/extr_return_raw_min": -0.8158004444998663, "train/extr_return_raw_std": 2.556777167964626, "train/extr_reward_mag": 1.0419730366887272, "train/extr_reward_max": 1.0419730366887272, "train/extr_reward_mean": 0.05335180290244721, "train/extr_reward_min": -0.6537014133221394, "train/extr_reward_std": 0.2233264591242816, "train/image_loss_mean": 3.0820181933609216, "train/image_loss_std": 8.026269435882568, "train/model_loss_mean": 6.2453065885079875, "train/model_loss_std": 12.193597368291906, "train/model_opt_grad_norm": 27.77057850038683, "train/model_opt_grad_steps": 263577.0, "train/model_opt_loss": 15613.266482791385, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6377382761723287, "train/policy_entropy_max": 2.6377382761723287, "train/policy_entropy_mean": 0.41537651782100266, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5869903717492078, "train/policy_logprob_mag": 7.438384288066143, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41554161785422145, "train/policy_logprob_min": -7.438384288066143, "train/policy_logprob_std": 1.0320694196868587, "train/policy_randomness_mag": 0.931005858891719, "train/policy_randomness_max": 0.931005858891719, "train/policy_randomness_mean": 0.14660968309318698, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2071818401281898, "train/post_ent_mag": 54.95802430848818, "train/post_ent_max": 54.95802430848818, "train/post_ent_mean": 40.98414091161779, "train/post_ent_min": 18.898814794179554, "train/post_ent_std": 5.582819700241089, "train/prior_ent_mag": 76.54785424309807, "train/prior_ent_max": 76.54785424309807, "train/prior_ent_mean": 46.167118072509766, "train/prior_ent_min": 28.80666297190898, "train/prior_ent_std": 7.393375312959826, "train/rep_loss_mean": 5.186442980895171, "train/rep_loss_std": 8.773931065121213, "train/reward_avg": 0.03597577034520942, "train/reward_loss_mean": 0.051324301525144965, "train/reward_loss_std": 0.2035562500760362, "train/reward_max_data": 1.017567571756002, "train/reward_max_pred": 1.0156356031830247, "train/reward_neg_acc": 0.9947227384593036, "train/reward_neg_loss": 0.02272856029732203, "train/reward_pos_acc": 0.9899338153568474, "train/reward_pos_loss": 0.7268760445955638, "train/reward_pred": 0.03589479252696037, "train/reward_rate": 0.040896853885135136, "stats/sum_log_reward": 10.814285823277064, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_sapling": 2.142857142857143, "stats/max_log_achievement_collect_stone": 14.142857142857142, "stats/max_log_achievement_collect_wood": 9.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5714285714285714, "stats/max_log_achievement_eat_cow": 0.42857142857142855, "stats/max_log_achievement_make_stone_pickaxe": 0.2857142857142857, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.2857142857142858, "stats/max_log_achievement_make_wood_sword": 0.7142857142857143, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 4.571428571428571, "stats/max_log_achievement_place_table": 2.857142857142857, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.4474943684680121, "replay/size": 529336.0, "replay/inserts": 1480.0, "replay/samples": 11840.0, "replay/insert_wait_avg": 3.07189451681601e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3845595153602393e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0668442249298, "timer/env.step_count": 1480.0, "timer/env.step_total": 16.682037115097046, "timer/env.step_frac": 0.05559440316768956, "timer/env.step_avg": 0.011271646699389896, "timer/env.step_min": 0.002269744873046875, "timer/env.step_max": 1.25325345993042, "timer/replay.add_count": 1480.0, "timer/replay.add_total": 0.26697802543640137, "timer/replay.add_frac": 0.0008897285074130846, "timer/replay.add_avg": 0.0001803905577272982, "timer/replay.add_min": 6.079673767089844e-05, "timer/replay.add_max": 0.0013685226440429688, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02326345443725586, "timer/logger.write_frac": 7.752757388889523e-05, "timer/logger.write_avg": 0.02326345443725586, "timer/logger.write_min": 0.02326345443725586, "timer/logger.write_max": 0.02326345443725586, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1480.0, "timer/agent.policy_total": 10.556435823440552, "timer/agent.policy_frac": 0.03518028074947013, "timer/agent.policy_avg": 0.007132726907730103, "timer/agent.policy_min": 0.005881547927856445, "timer/agent.policy_max": 0.015612602233886719, "timer/dataset_count": 740.0, "timer/dataset_total": 0.058592796325683594, "timer/dataset_frac": 0.00019526581311250267, "timer/dataset_avg": 7.917945449416701e-05, "timer/dataset_min": 5.4836273193359375e-05, "timer/dataset_max": 0.0009372234344482422, "timer/agent.train_count": 740.0, "timer/agent.train_total": 271.8510904312134, "timer/agent.train_frac": 0.9059684389103452, "timer/agent.train_avg": 0.3673663384205586, "timer/agent.train_min": 0.36144018173217773, "timer/agent.train_max": 0.38097310066223145, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2230205535888672, "timer/agent.report_frac": 0.0007432362417944823, "timer/agent.report_avg": 0.2230205535888672, "timer/agent.report_min": 0.2230205535888672, "timer/agent.report_max": 0.2230205535888672, "fps": 4.932120669129488}
{"step": 529429, "episode/length": 211.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.05660377358490566}
{"step": 529607, "episode/length": 177.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.06179775280898876}
{"step": 529808, "episode/length": 200.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 12.100000008940697, "episode/reward_rate": 0.05472636815920398}
{"step": 529982, "episode/length": 173.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.5, "episode/reward_rate": 0.06896551724137931}
{"step": 530162, "episode/length": 179.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.03888888888888889}
{"step": 530322, "episode/length": 159.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.075}
{"step": 530552, "episode/length": 229.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.700000032782555, "episode/reward_rate": 0.06086956521739131}
{"step": 530819, "episode/length": 266.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 14.100000068545341, "episode/reward_rate": 0.0449438202247191}
{"step": 530853, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.572320726182726, "train/action_min": 0.0, "train/action_std": 3.478833691941367, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0435319347307086, "train/actor_opt_grad_steps": 264515.0, "train/actor_opt_loss": -11.829533481142587, "train/adv_mag": 0.44617974509795505, "train/adv_max": 0.40578752259413403, "train/adv_mean": 0.0028402286223404693, "train/adv_min": -0.36572165083554053, "train/adv_std": 0.04941891237265534, "train/cont_avg": 0.9948866102430556, "train/cont_loss_mean": 5.817312866874937e-06, "train/cont_loss_std": 0.00016965902073411913, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00044031378277825043, "train/cont_pos_acc": 0.9999999842709966, "train/cont_pos_loss": 3.3509086522837747e-06, "train/cont_pred": 0.9948859893613391, "train/cont_rate": 0.9948866102430556, "train/dyn_loss_mean": 5.016432907846239, "train/dyn_loss_std": 8.64177550209893, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.073090170820554, "train/extr_critic_critic_opt_grad_steps": 264515.0, "train/extr_critic_critic_opt_loss": 16364.388522677951, "train/extr_critic_mag": 10.554016391436258, "train/extr_critic_max": 10.554016391436258, "train/extr_critic_mean": 2.6145220862494574, "train/extr_critic_min": -0.5034745931625366, "train/extr_critic_std": 2.5179528329107494, "train/extr_return_normed_mag": 1.455114836494128, "train/extr_return_normed_max": 1.455114836494128, "train/extr_return_normed_mean": 0.35085558477375245, "train/extr_return_normed_min": -0.08808202172319095, "train/extr_return_normed_std": 0.3250306650168366, "train/extr_return_rate": 0.7340513252549701, "train/extr_return_raw_mag": 11.308028870158726, "train/extr_return_raw_max": 11.308028870158726, "train/extr_return_raw_mean": 2.636811407075988, "train/extr_return_raw_min": -0.8108113793035349, "train/extr_return_raw_std": 2.5527735302845636, "train/extr_reward_mag": 1.0413050055503845, "train/extr_reward_max": 1.0413050055503845, "train/extr_reward_mean": 0.05360421853967839, "train/extr_reward_min": -0.6713791903522279, "train/extr_reward_std": 0.22409271303978232, "train/image_loss_mean": 3.0691556533177695, "train/image_loss_std": 7.6903807984458075, "train/model_loss_mean": 6.129977822303772, "train/model_loss_std": 11.795282443364462, "train/model_opt_grad_norm": 28.35842676565681, "train/model_opt_grad_steps": 264306.31944444444, "train/model_opt_loss": 15992.062025282117, "train/model_opt_model_opt_grad_overflow": 0.013888888888888888, "train/model_opt_model_opt_grad_scale": 2569.4444444444443, "train/policy_entropy_mag": 2.6344573265976376, "train/policy_entropy_max": 2.6344573265976376, "train/policy_entropy_mean": 0.4382810898953014, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6092732619080279, "train/policy_logprob_mag": 7.438384234905243, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4388912241492007, "train/policy_logprob_min": -7.438384234905243, "train/policy_logprob_std": 1.050900712609291, "train/policy_randomness_mag": 0.9298478265603384, "train/policy_randomness_max": 0.9298478265603384, "train/policy_randomness_mean": 0.1546939904284146, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21504672544283998, "train/post_ent_mag": 55.34160730573866, "train/post_ent_max": 55.34160730573866, "train/post_ent_mean": 41.07892640431722, "train/post_ent_min": 19.303066359625923, "train/post_ent_std": 5.664323634571499, "train/prior_ent_mag": 76.62460549672444, "train/prior_ent_max": 76.62460549672444, "train/prior_ent_mean": 46.138427363501656, "train/prior_ent_min": 28.327372127109104, "train/prior_ent_std": 7.4304668174849615, "train/rep_loss_mean": 5.016432907846239, "train/rep_loss_std": 8.64177550209893, "train/reward_avg": 0.03534613702342742, "train/reward_loss_mean": 0.05095669966087573, "train/reward_loss_std": 0.2046564473874039, "train/reward_max_data": 1.0250000059604645, "train/reward_max_pred": 1.0211622913678486, "train/reward_neg_acc": 0.9941833449734582, "train/reward_neg_loss": 0.02301478729997244, "train/reward_pos_acc": 0.9900592226121161, "train/reward_pos_loss": 0.7228197447127767, "train/reward_pred": 0.035236943849465914, "train/reward_rate": 0.0401611328125, "stats/sum_log_reward": 10.100000202655792, "stats/max_log_achievement_collect_coal": 0.75, "stats/max_log_achievement_collect_drink": 3.875, "stats/max_log_achievement_collect_sapling": 1.375, "stats/max_log_achievement_collect_stone": 13.75, "stats/max_log_achievement_collect_wood": 6.25, "stats/max_log_achievement_defeat_skeleton": 0.375, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.375, "stats/max_log_achievement_place_stone": 4.875, "stats/max_log_achievement_place_table": 1.625, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.3551271688193083, "replay/size": 530790.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.0577920653961057e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4167991268257656e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1164095401764, "timer/env.step_count": 1454.0, "timer/env.step_total": 17.84100079536438, "timer/env.step_frac": 0.05944693534985136, "timer/env.step_avg": 0.012270289405340013, "timer/env.step_min": 0.002332448959350586, "timer/env.step_max": 1.3672516345977783, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.257826566696167, "timer/replay.add_frac": 0.0008590885353160001, "timer/replay.add_avg": 0.00017732226045128404, "timer/replay.add_min": 6.079673767089844e-05, "timer/replay.add_max": 0.0043487548828125, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028878450393676758, "timer/logger.write_frac": 9.622416327691944e-05, "timer/logger.write_avg": 0.028878450393676758, "timer/logger.write_min": 0.028878450393676758, "timer/logger.write_max": 0.028878450393676758, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002715587615966797, "timer/checkpoint.save_frac": 9.048447634461197e-07, "timer/checkpoint.save_avg": 0.0002715587615966797, "timer/checkpoint.save_min": 0.0002715587615966797, "timer/checkpoint.save_max": 0.0002715587615966797, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3956468105316162, "timer/agent.save_frac": 0.004650351550819756, "timer/agent.save_avg": 1.3956468105316162, "timer/agent.save_min": 1.3956468105316162, "timer/agent.save_max": 1.3956468105316162, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.818771362304688e-05, "timer/replay.save_frac": 2.2720421628234437e-07, "timer/replay.save_avg": 6.818771362304688e-05, "timer/replay.save_min": 6.818771362304688e-05, "timer/replay.save_max": 6.818771362304688e-05, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 14.447959661483765, "timer/agent.policy_frac": 0.04814118522749295, "timer/agent.policy_avg": 0.009936698529218545, "timer/agent.policy_min": 0.005745410919189453, "timer/agent.policy_max": 2.78558611869812, "timer/dataset_count": 727.0, "timer/dataset_total": 0.05608344078063965, "timer/dataset_frac": 0.00018687229021088165, "timer/dataset_avg": 7.714365994585921e-05, "timer/dataset_min": 5.650520324707031e-05, "timer/dataset_max": 0.00014829635620117188, "timer/agent.train_count": 727.0, "timer/agent.train_total": 266.8712885379791, "timer/agent.train_frac": 0.8892259138607789, "timer/agent.train_avg": 0.36708567886929727, "timer/agent.train_min": 0.36078310012817383, "timer/agent.train_max": 0.3809342384338379, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21915578842163086, "timer/agent.report_frac": 0.0007302359399721281, "timer/agent.report_avg": 0.21915578842163086, "timer/agent.report_min": 0.21915578842163086, "timer/agent.report_max": 0.21915578842163086, "fps": 4.844729627567942}
{"step": 530986, "episode/length": 166.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.07784431137724551}
{"step": 531283, "episode/length": 296.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.04377104377104377}
{"step": 531487, "episode/length": 203.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.049019607843137254}
{"step": 531747, "episode/length": 259.0, "episode/score": 12.100000023841858, "episode/sum_abs_reward": 14.300000011920929, "episode/reward_rate": 0.05384615384615385}
{"step": 531900, "episode/length": 152.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 12.699999988079071, "episode/reward_rate": 0.0784313725490196}
{"step": 532184, "episode/length": 283.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.30000003427267, "episode/reward_rate": 0.045774647887323945}
{"step": 532335, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.495683824693835, "train/action_min": 0.0, "train/action_std": 3.394333098385785, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.043724494961065216, "train/actor_opt_grad_steps": 265245.0, "train/actor_opt_loss": -12.40693353677823, "train/adv_mag": 0.4289133907169909, "train/adv_max": 0.3824088158639702, "train/adv_mean": 0.00223994252446819, "train/adv_min": -0.37584221040880356, "train/adv_std": 0.049364954887612444, "train/cont_avg": 0.9943385768581081, "train/cont_loss_mean": 4.304006745967768e-05, "train/cont_loss_std": 0.0013493098128436346, "train/cont_neg_acc": 0.9939189190800125, "train/cont_neg_loss": 0.007738649588983773, "train/cont_pos_acc": 0.9999999895289138, "train/cont_pos_loss": 3.6344348675114773e-06, "train/cont_pred": 0.9943602866417652, "train/cont_rate": 0.9943385768581081, "train/dyn_loss_mean": 5.150311395928666, "train/dyn_loss_std": 8.768294766142562, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0627720831213772, "train/extr_critic_critic_opt_grad_steps": 265245.0, "train/extr_critic_critic_opt_loss": 16389.625923775337, "train/extr_critic_mag": 10.557336149988947, "train/extr_critic_max": 10.557336149988947, "train/extr_critic_mean": 2.7732935563938037, "train/extr_critic_min": -0.465031035848566, "train/extr_critic_std": 2.6026737238909745, "train/extr_return_normed_mag": 1.4350509724101506, "train/extr_return_normed_max": 1.4350509724101506, "train/extr_return_normed_mean": 0.36636231718836604, "train/extr_return_normed_min": -0.09010905696934945, "train/extr_return_normed_std": 0.33281913439969757, "train/extr_return_rate": 0.7438591332048983, "train/extr_return_raw_mag": 11.251029053249875, "train/extr_return_raw_max": 11.251029053249875, "train/extr_return_raw_mean": 2.7910289377779574, "train/extr_return_raw_min": -0.822644013005334, "train/extr_return_raw_std": 2.635026160124186, "train/extr_reward_mag": 1.0537534823288788, "train/extr_reward_max": 1.0537534823288788, "train/extr_reward_mean": 0.05535453527763083, "train/extr_reward_min": -0.6368774385065645, "train/extr_reward_std": 0.22802689651379715, "train/image_loss_mean": 3.082572102546692, "train/image_loss_std": 8.042122009638193, "train/model_loss_mean": 6.226989868524912, "train/model_loss_std": 12.233229237633783, "train/model_opt_grad_norm": 30.12842693067577, "train/model_opt_grad_steps": 265035.74324324325, "train/model_opt_loss": 16305.714632601352, "train/model_opt_model_opt_grad_overflow": 0.013513513513513514, "train/model_opt_model_opt_grad_scale": 2601.3513513513512, "train/policy_entropy_mag": 2.6375108731759562, "train/policy_entropy_max": 2.6375108731759562, "train/policy_entropy_mean": 0.3957075444427696, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5636644484223546, "train/policy_logprob_mag": 7.438384281622397, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39628353352482254, "train/policy_logprob_min": -7.438384281622397, "train/policy_logprob_std": 1.0150239403183396, "train/policy_randomness_mag": 0.9309255923773792, "train/policy_randomness_max": 0.9309255923773792, "train/policy_randomness_mean": 0.13966739681121465, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19894881395472064, "train/post_ent_mag": 55.38755159120302, "train/post_ent_max": 55.38755159120302, "train/post_ent_mean": 41.06357450742979, "train/post_ent_min": 18.849815909926956, "train/post_ent_std": 5.646687385198232, "train/prior_ent_mag": 76.55098971805057, "train/prior_ent_max": 76.55098971805057, "train/prior_ent_mean": 46.2171450950004, "train/prior_ent_min": 28.404460649232607, "train/prior_ent_std": 7.388456479923145, "train/rep_loss_mean": 5.150311395928666, "train/rep_loss_std": 8.768294766142562, "train/reward_avg": 0.036508920854209245, "train/reward_loss_mean": 0.0541879285026241, "train/reward_loss_std": 0.2076849242722666, "train/reward_max_data": 1.025675681797234, "train/reward_max_pred": 1.0268170350306742, "train/reward_neg_acc": 0.9940375508488836, "train/reward_neg_loss": 0.02500604683331944, "train/reward_pos_acc": 0.9903152939435598, "train/reward_pos_loss": 0.7273337204714079, "train/reward_pred": 0.03614611604024429, "train/reward_rate": 0.04150390625, "stats/sum_log_reward": 11.266667048136393, "stats/max_log_achievement_collect_coal": 1.6666666666666667, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_sapling": 2.1666666666666665, "stats/max_log_achievement_collect_stone": 13.5, "stats/max_log_achievement_collect_wood": 9.0, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_stone": 4.833333333333333, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.6666666666666667, "stats/mean_log_entropy": 0.48838092883427936, "replay/size": 532272.0, "replay/inserts": 1482.0, "replay/samples": 11856.0, "replay/insert_wait_avg": 3.0844800385386355e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3949980459071687e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1823420524597, "timer/env.step_count": 1482.0, "timer/env.step_total": 15.783991575241089, "timer/env.step_frac": 0.052581345948998846, "timer/env.step_avg": 0.01065046664996025, "timer/env.step_min": 0.002191305160522461, "timer/env.step_max": 1.4552967548370361, "timer/replay.add_count": 1482.0, "timer/replay.add_total": 0.2864346504211426, "timer/replay.add_frac": 0.0009542021974466619, "timer/replay.add_avg": 0.0001932757425243877, "timer/replay.add_min": 5.793571472167969e-05, "timer/replay.add_max": 0.003164529800415039, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02241969108581543, "timer/logger.write_frac": 7.4686908405483e-05, "timer/logger.write_avg": 0.02241969108581543, "timer/logger.write_min": 0.02241969108581543, "timer/logger.write_max": 0.02241969108581543, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1482.0, "timer/agent.policy_total": 10.618077993392944, "timer/agent.policy_frac": 0.035372093910631605, "timer/agent.policy_avg": 0.0071646950022894364, "timer/agent.policy_min": 0.0058438777923583984, "timer/agent.policy_max": 0.015836238861083984, "timer/dataset_count": 741.0, "timer/dataset_total": 0.05966329574584961, "timer/dataset_frac": 0.00019875684671493064, "timer/dataset_avg": 8.051726821302242e-05, "timer/dataset_min": 5.7220458984375e-05, "timer/dataset_max": 0.0017096996307373047, "timer/agent.train_count": 741.0, "timer/agent.train_total": 272.789986371994, "timer/agent.train_frac": 0.9087476115577824, "timer/agent.train_avg": 0.3681376334304913, "timer/agent.train_min": 0.36075901985168457, "timer/agent.train_max": 0.38298916816711426, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22306132316589355, "timer/agent.report_frac": 0.0007430860910763081, "timer/agent.report_avg": 0.22306132316589355, "timer/agent.report_min": 0.22306132316589355, "timer/agent.report_max": 0.22306132316589355, "fps": 4.936888157544002}
{"step": 532391, "episode/length": 206.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.05314009661835749}
{"step": 532558, "episode/length": 166.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.500000022351742, "episode/reward_rate": 0.05389221556886228}
{"step": 532719, "episode/length": 160.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.07453416149068323}
{"step": 533040, "episode/length": 320.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.040498442367601244}
{"step": 533235, "episode/length": 194.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.06153846153846154}
{"step": 533434, "episode/length": 198.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.06030150753768844}
{"step": 533489, "episode/length": 54.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.100000016391277, "episode/reward_rate": 0.05454545454545454}
{"step": 533697, "episode/length": 207.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.700000002980232, "episode/reward_rate": 0.0625}
{"step": 533791, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.581501999946489, "train/action_min": 0.0, "train/action_std": 3.4507807836140674, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.045902201676205415, "train/actor_opt_grad_steps": 265980.0, "train/actor_opt_loss": -11.211576451993968, "train/adv_mag": 0.4654642592554223, "train/adv_max": 0.41809645866694517, "train/adv_mean": 0.0031427307063769485, "train/adv_min": -0.3921755844191329, "train/adv_std": 0.051590579268458774, "train/cont_avg": 0.9948095034246576, "train/cont_loss_mean": 5.382082672910573e-05, "train/cont_loss_std": 0.001615760925706625, "train/cont_neg_acc": 0.9960045667543803, "train/cont_neg_loss": 0.0074073659259906825, "train/cont_pos_acc": 0.9999999836699603, "train/cont_pos_loss": 8.594554841912418e-06, "train/cont_pred": 0.9948255199275605, "train/cont_rate": 0.9948095034246576, "train/dyn_loss_mean": 5.317231949061563, "train/dyn_loss_std": 8.754799692598107, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0501634862324962, "train/extr_critic_critic_opt_grad_steps": 265980.0, "train/extr_critic_critic_opt_loss": 16420.363027076197, "train/extr_critic_mag": 10.546637169302326, "train/extr_critic_max": 10.546637169302326, "train/extr_critic_mean": 2.7847801430584633, "train/extr_critic_min": -0.48158153932388514, "train/extr_critic_std": 2.5587580612261003, "train/extr_return_normed_mag": 1.450730075574901, "train/extr_return_normed_max": 1.450730075574901, "train/extr_return_normed_mean": 0.3692937901575271, "train/extr_return_normed_min": -0.08864678110774249, "train/extr_return_normed_std": 0.3294790760703283, "train/extr_return_rate": 0.7464300116447553, "train/extr_return_raw_mag": 11.341511647995205, "train/extr_return_raw_max": 11.341511647995205, "train/extr_return_raw_mean": 2.809602350404818, "train/extr_return_raw_min": -0.8036923596303757, "train/extr_return_raw_std": 2.5997540950775146, "train/extr_reward_mag": 1.0597605411320516, "train/extr_reward_max": 1.0597605411320516, "train/extr_reward_mean": 0.05620765206340241, "train/extr_reward_min": -0.651845247778174, "train/extr_reward_std": 0.22848154196183976, "train/image_loss_mean": 3.0937534162442977, "train/image_loss_std": 8.202231452889638, "train/model_loss_mean": 6.337265951992714, "train/model_loss_std": 12.372331527814474, "train/model_opt_grad_norm": 28.103713296864132, "train/model_opt_grad_steps": 265769.397260274, "train/model_opt_loss": 11143.550012039812, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1746.5753424657535, "train/policy_entropy_mag": 2.625638618861159, "train/policy_entropy_max": 2.625638618861159, "train/policy_entropy_mean": 0.40849789732123076, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5754076152631681, "train/policy_logprob_mag": 7.438384271647832, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4091959238460619, "train/policy_logprob_min": -7.438384271647832, "train/policy_logprob_std": 1.0255049777357546, "train/policy_randomness_mag": 0.9267352092755984, "train/policy_randomness_max": 0.9267352092755984, "train/policy_randomness_mean": 0.1441818318546635, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2030936359134439, "train/post_ent_mag": 54.95350406594472, "train/post_ent_max": 54.95350406594472, "train/post_ent_mean": 40.66599498382986, "train/post_ent_min": 18.955509355623427, "train/post_ent_std": 5.640794140018829, "train/prior_ent_mag": 76.54349465566139, "train/prior_ent_max": 76.54349465566139, "train/prior_ent_mean": 45.98981026427386, "train/prior_ent_min": 28.240315790045752, "train/prior_ent_std": 7.4606744034649575, "train/rep_loss_mean": 5.317231949061563, "train/rep_loss_std": 8.754799692598107, "train/reward_avg": 0.03724047505896386, "train/reward_loss_mean": 0.05311952980413829, "train/reward_loss_std": 0.2124967152533466, "train/reward_max_data": 1.0246575401253897, "train/reward_max_pred": 1.025078293395369, "train/reward_neg_acc": 0.994427158407969, "train/reward_neg_loss": 0.02330396744129184, "train/reward_pos_acc": 0.9875587902656974, "train/reward_pos_loss": 0.7401013954045021, "train/reward_pred": 0.03686041198670864, "train/reward_rate": 0.04183165667808219, "stats/sum_log_reward": 9.600000321865082, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 1.875, "stats/max_log_achievement_collect_sapling": 1.75, "stats/max_log_achievement_collect_stone": 12.25, "stats/max_log_achievement_collect_wood": 7.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.25, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.25, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.875, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 1.375, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 4.375, "stats/max_log_achievement_place_table": 2.125, "stats/max_log_achievement_wake_up": 1.125, "stats/mean_log_entropy": 0.381391366943717, "replay/size": 533728.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.0727504373906733e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.5098274081617922e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.05567502975464, "timer/env.step_count": 1456.0, "timer/env.step_total": 19.527827978134155, "timer/env.step_frac": 0.06508068203075214, "timer/env.step_avg": 0.01341196976520203, "timer/env.step_min": 0.0025780200958251953, "timer/env.step_max": 1.5138611793518066, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.2693357467651367, "timer/replay.add_frac": 0.0008976192392909362, "timer/replay.add_avg": 0.00018498334255847302, "timer/replay.add_min": 6.103515625e-05, "timer/replay.add_max": 0.0009217262268066406, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02880406379699707, "timer/logger.write_frac": 9.599573077276659e-05, "timer/logger.write_avg": 0.02880406379699707, "timer/logger.write_min": 0.02880406379699707, "timer/logger.write_max": 0.02880406379699707, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 10.879570960998535, "timer/agent.policy_frac": 0.03625850755837121, "timer/agent.policy_avg": 0.007472232802883609, "timer/agent.policy_min": 0.006059169769287109, "timer/agent.policy_max": 0.0168459415435791, "timer/dataset_count": 728.0, "timer/dataset_total": 0.05945110321044922, "timer/dataset_frac": 0.00019813357372612208, "timer/dataset_avg": 8.166360331105662e-05, "timer/dataset_min": 5.793571472167969e-05, "timer/dataset_max": 0.0001957416534423828, "timer/agent.train_count": 728.0, "timer/agent.train_total": 268.66015553474426, "timer/agent.train_frac": 0.8953676863738802, "timer/agent.train_avg": 0.36903867518508826, "timer/agent.train_min": 0.36196279525756836, "timer/agent.train_max": 0.384127140045166, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2223827838897705, "timer/agent.report_frac": 0.0007411384032903834, "timer/agent.report_avg": 0.2223827838897705, "timer/agent.report_min": 0.2223827838897705, "timer/agent.report_max": 0.2223827838897705, "fps": 4.85232426032289}
{"step": 533933, "episode/length": 235.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.0423728813559322}
{"step": 534087, "episode/length": 153.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.900000028312206, "episode/reward_rate": 0.05194805194805195}
{"step": 534286, "episode/length": 198.0, "episode/score": 10.099999979138374, "episode/sum_abs_reward": 12.30000002682209, "episode/reward_rate": 0.05527638190954774}
{"step": 534469, "episode/length": 182.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.060109289617486336}
{"step": 534586, "episode/length": 116.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.10256410256410256}
{"step": 534712, "episode/length": 125.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.100000031292439, "episode/reward_rate": 0.09523809523809523}
{"step": 534932, "episode/length": 219.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.05909090909090909}
{"step": 534983, "episode/length": 50.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.13725490196078433}
{"step": 535163, "episode/length": 179.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06111111111111111}
{"step": 535212, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.542879346390845, "train/action_min": 0.0, "train/action_std": 3.4228826475815035, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.043809757318714976, "train/actor_opt_grad_steps": 266700.0, "train/actor_opt_loss": -13.228937995265907, "train/adv_mag": 0.4211830652095902, "train/adv_max": 0.3881604100616885, "train/adv_mean": 0.0024965612079335775, "train/adv_min": -0.360002070875235, "train/adv_std": 0.05003095003710666, "train/cont_avg": 0.994690801056338, "train/cont_loss_mean": 0.0001445409366112726, "train/cont_loss_std": 0.004561720011344771, "train/cont_neg_acc": 0.9971830987594497, "train/cont_neg_loss": 0.02602173350528798, "train/cont_pos_acc": 0.9999999899259755, "train/cont_pos_loss": 1.71166139792799e-05, "train/cont_pred": 0.994693098773419, "train/cont_rate": 0.994690801056338, "train/dyn_loss_mean": 5.033989402609811, "train/dyn_loss_std": 8.7217922882295, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0431067800857652, "train/extr_critic_critic_opt_grad_steps": 266700.0, "train/extr_critic_critic_opt_loss": 16280.657873019367, "train/extr_critic_mag": 10.823613838410713, "train/extr_critic_max": 10.823613838410713, "train/extr_critic_mean": 2.8284194956363087, "train/extr_critic_min": -0.5077316173365418, "train/extr_critic_std": 2.589353121502299, "train/extr_return_normed_mag": 1.4559791994766451, "train/extr_return_normed_max": 1.4559791994766451, "train/extr_return_normed_mean": 0.3662013520657177, "train/extr_return_normed_min": -0.09222312701839797, "train/extr_return_normed_std": 0.3266069154504319, "train/extr_return_rate": 0.7536000256807032, "train/extr_return_raw_mag": 11.607254928266498, "train/extr_return_raw_max": 11.607254928266498, "train/extr_return_raw_mean": 2.8484855134722213, "train/extr_return_raw_min": -0.836289300045497, "train/extr_return_raw_std": 2.625228982576182, "train/extr_reward_mag": 1.0461658256154664, "train/extr_reward_max": 1.0461658256154664, "train/extr_reward_mean": 0.053907857814305266, "train/extr_reward_min": -0.6759936725589591, "train/extr_reward_std": 0.22482375338883467, "train/image_loss_mean": 2.992060701612016, "train/image_loss_std": 8.1930570602417, "train/model_loss_mean": 6.0651017108433685, "train/model_loss_std": 12.329319537525446, "train/model_opt_grad_norm": 29.340427976259043, "train/model_opt_grad_steps": 266489.0, "train/model_opt_loss": 9133.59990509463, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1514.0845070422536, "train/policy_entropy_mag": 2.6411469721458327, "train/policy_entropy_max": 2.6411469721458327, "train/policy_entropy_mean": 0.3883018980563526, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5589705218731518, "train/policy_logprob_mag": 7.438384271003831, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3887928852313001, "train/policy_logprob_min": -7.438384271003831, "train/policy_logprob_std": 1.0118147588111985, "train/policy_randomness_mag": 0.9322089804729945, "train/policy_randomness_max": 0.9322089804729945, "train/policy_randomness_mean": 0.137053530610783, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19729206627103643, "train/post_ent_mag": 55.59755217861122, "train/post_ent_max": 55.59755217861122, "train/post_ent_mean": 41.05315630200883, "train/post_ent_min": 19.047032127917653, "train/post_ent_std": 5.644348298999625, "train/prior_ent_mag": 76.49635282704529, "train/prior_ent_max": 76.49635282704529, "train/prior_ent_mean": 46.11844978869801, "train/prior_ent_min": 28.410852781483825, "train/prior_ent_std": 7.409022378249907, "train/rep_loss_mean": 5.033989402609811, "train/rep_loss_std": 8.7217922882295, "train/reward_avg": 0.03499944972425279, "train/reward_loss_mean": 0.052502874232513805, "train/reward_loss_std": 0.21807663877245406, "train/reward_max_data": 1.0126760593602355, "train/reward_max_pred": 1.013590802609081, "train/reward_neg_acc": 0.9952291602819738, "train/reward_neg_loss": 0.023351344673461477, "train/reward_pos_acc": 0.9824431211176053, "train/reward_pos_loss": 0.7526320538050691, "train/reward_pred": 0.034464815264226685, "train/reward_rate": 0.03992902728873239, "stats/sum_log_reward": 9.433333396911621, "stats/max_log_achievement_collect_coal": 0.5555555555555556, "stats/max_log_achievement_collect_drink": 2.4444444444444446, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 7.555555555555555, "stats/max_log_achievement_collect_wood": 9.0, "stats/max_log_achievement_defeat_skeleton": 0.1111111111111111, "stats/max_log_achievement_defeat_zombie": 0.7777777777777778, "stats/max_log_achievement_eat_cow": 0.2222222222222222, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1111111111111112, "stats/max_log_achievement_make_wood_sword": 1.1111111111111112, "stats/max_log_achievement_place_furnace": 1.1111111111111112, "stats/max_log_achievement_place_plant": 1.2222222222222223, "stats/max_log_achievement_place_stone": 2.2222222222222223, "stats/max_log_achievement_place_table": 2.2222222222222223, "stats/max_log_achievement_wake_up": 1.2222222222222223, "stats/mean_log_entropy": 0.2838451365629832, "replay/size": 535149.0, "replay/inserts": 1421.0, "replay/samples": 11360.0, "replay/insert_wait_avg": 3.2006142258560214e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4914593226473096e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 299.99938106536865, "timer/env.step_count": 1421.0, "timer/env.step_total": 21.391850233078003, "timer/env.step_frac": 0.07130631455675172, "timer/env.step_avg": 0.01505408179667699, "timer/env.step_min": 0.002829313278198242, "timer/env.step_max": 1.511777639389038, "timer/replay.add_count": 1421.0, "timer/replay.add_total": 0.2490851879119873, "timer/replay.add_frac": 0.0008302856726818135, "timer/replay.add_avg": 0.00017528866144404456, "timer/replay.add_min": 5.817413330078125e-05, "timer/replay.add_max": 0.0008628368377685547, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.020033597946166992, "timer/logger.write_frac": 6.677879759292487e-05, "timer/logger.write_avg": 0.020033597946166992, "timer/logger.write_min": 0.020033597946166992, "timer/logger.write_max": 0.020033597946166992, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00034928321838378906, "timer/checkpoint.save_frac": 1.1642797966562525e-06, "timer/checkpoint.save_avg": 0.00034928321838378906, "timer/checkpoint.save_min": 0.00034928321838378906, "timer/checkpoint.save_max": 0.00034928321838378906, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3805742263793945, "timer/agent.save_frac": 0.0046019235822309015, "timer/agent.save_avg": 1.3805742263793945, "timer/agent.save_min": 1.3805742263793945, "timer/agent.save_max": 1.3805742263793945, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.628036499023438e-05, "timer/replay.save_frac": 2.209350057818691e-07, "timer/replay.save_avg": 6.628036499023438e-05, "timer/replay.save_min": 6.628036499023438e-05, "timer/replay.save_max": 6.628036499023438e-05, "timer/agent.policy_count": 1421.0, "timer/agent.policy_total": 14.949123620986938, "timer/agent.policy_frac": 0.04983051487606098, "timer/agent.policy_avg": 0.010520143294149851, "timer/agent.policy_min": 0.006162166595458984, "timer/agent.policy_max": 2.947211503982544, "timer/dataset_count": 710.0, "timer/dataset_total": 0.05786752700805664, "timer/dataset_frac": 0.00019289215465230424, "timer/dataset_avg": 8.150355916627696e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.0001456737518310547, "timer/agent.train_count": 710.0, "timer/agent.train_total": 262.69771575927734, "timer/agent.train_frac": 0.8756608591203612, "timer/agent.train_avg": 0.36999678275954556, "timer/agent.train_min": 0.3620748519897461, "timer/agent.train_max": 0.4054083824157715, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.226151704788208, "timer/agent.report_frac": 0.0007538405712208135, "timer/agent.report_avg": 0.226151704788208, "timer/agent.report_min": 0.226151704788208, "timer/agent.report_max": 0.226151704788208, "fps": 4.7365651702827725}
{"step": 535424, "episode/length": 260.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.04597701149425287}
{"step": 535604, "episode/length": 179.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 8.500000022351742, "episode/reward_rate": 0.044444444444444446}
{"step": 535785, "episode/length": 180.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 12.899999991059303, "episode/reward_rate": 0.0718232044198895}
{"step": 535945, "episode/length": 159.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.0625}
{"step": 536250, "episode/length": 304.0, "episode/score": 10.099999979138374, "episode/sum_abs_reward": 12.100000023841858, "episode/reward_rate": 0.036065573770491806}
{"step": 536334, "episode/length": 83.0, "episode/score": 7.100000023841858, "episode/sum_abs_reward": 8.899999976158142, "episode/reward_rate": 0.10714285714285714}
{"step": 536543, "episode/length": 208.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.500000037252903, "episode/reward_rate": 0.05263157894736842}
{"step": 536677, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.635101736408391, "train/action_min": 0.0, "train/action_std": 3.4977629968564803, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04380236168022025, "train/actor_opt_grad_steps": 267420.0, "train/actor_opt_loss": -12.13874709728646, "train/adv_mag": 0.4182951429935351, "train/adv_max": 0.3884929943166367, "train/adv_mean": 0.002968642490474214, "train/adv_min": -0.35073472253263815, "train/adv_std": 0.050205734188426034, "train/cont_avg": 0.9946489726027398, "train/cont_loss_mean": 4.5615792914011836e-05, "train/cont_loss_std": 0.001342605053678946, "train/cont_neg_acc": 0.9957382042114049, "train/cont_neg_loss": 0.005469381561291413, "train/cont_pos_acc": 0.9999999877524702, "train/cont_pos_loss": 1.2492698420386385e-05, "train/cont_pred": 0.9946592409316808, "train/cont_rate": 0.9946489726027398, "train/dyn_loss_mean": 5.205507213122224, "train/dyn_loss_std": 8.763848089192011, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0586069046634516, "train/extr_critic_critic_opt_grad_steps": 267420.0, "train/extr_critic_critic_opt_loss": 16305.20578713613, "train/extr_critic_mag": 10.71753042038173, "train/extr_critic_max": 10.71753042038173, "train/extr_critic_mean": 2.7713461363152283, "train/extr_critic_min": -0.5251611552826346, "train/extr_critic_std": 2.624030877466071, "train/extr_return_normed_mag": 1.461434545582288, "train/extr_return_normed_max": 1.461434545582288, "train/extr_return_normed_mean": 0.36324250289838605, "train/extr_return_normed_min": -0.08984637030795829, "train/extr_return_normed_std": 0.33352198502788805, "train/extr_return_rate": 0.7281232525224555, "train/extr_return_raw_mag": 11.569922630101034, "train/extr_return_raw_max": 11.569922630101034, "train/extr_return_raw_mean": 2.795084933712058, "train/extr_return_raw_min": -0.82574044188408, "train/extr_return_raw_std": 2.6654814694025744, "train/extr_reward_mag": 1.0525339237631184, "train/extr_reward_max": 1.0525339237631184, "train/extr_reward_mean": 0.05450856295248417, "train/extr_reward_min": -0.6574645042419434, "train/extr_reward_std": 0.22559353178494598, "train/image_loss_mean": 3.269302836836201, "train/image_loss_std": 8.167539407129157, "train/model_loss_mean": 6.445610111706878, "train/model_loss_std": 12.336165506545811, "train/model_opt_grad_norm": 29.569354749705692, "train/model_opt_grad_steps": 267209.0, "train/model_opt_loss": 16114.025256849314, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6379337408771253, "train/policy_entropy_max": 2.6379337408771253, "train/policy_entropy_mean": 0.43909359345697374, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6110973047883543, "train/policy_logprob_mag": 7.438384219391705, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.43807267836511954, "train/policy_logprob_min": -7.438384219391705, "train/policy_logprob_std": 1.044439142697478, "train/policy_randomness_mag": 0.9310748470972662, "train/policy_randomness_max": 0.9310748470972662, "train/policy_randomness_mean": 0.15498076920231726, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21569052950976647, "train/post_ent_mag": 55.349245254307576, "train/post_ent_max": 55.349245254307576, "train/post_ent_mean": 41.186912223084335, "train/post_ent_min": 19.346949067834306, "train/post_ent_std": 5.658848063586509, "train/prior_ent_mag": 76.5834265931012, "train/prior_ent_max": 76.5834265931012, "train/prior_ent_mean": 46.383060612090645, "train/prior_ent_min": 28.28387524330453, "train/prior_ent_std": 7.4384821081814705, "train/rep_loss_mean": 5.205507213122224, "train/rep_loss_std": 8.763848089192011, "train/reward_avg": 0.03707860650060928, "train/reward_loss_mean": 0.05295733081763738, "train/reward_loss_std": 0.2072509478216302, "train/reward_max_data": 1.0219178134447908, "train/reward_max_pred": 1.021330221058571, "train/reward_neg_acc": 0.9943873008636579, "train/reward_neg_loss": 0.023472854472084404, "train/reward_pos_acc": 0.9892456327399163, "train/reward_pos_loss": 0.7276565824469475, "train/reward_pred": 0.036746279655458174, "train/reward_rate": 0.0418851669520548, "stats/sum_log_reward": 9.385714530944824, "stats/max_log_achievement_collect_coal": 1.1428571428571428, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 12.571428571428571, "stats/max_log_achievement_collect_wood": 8.857142857142858, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.42857142857142855, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2857142857142858, "stats/max_log_achievement_place_furnace": 1.4285714285714286, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 3.142857142857143, "stats/max_log_achievement_place_table": 2.4285714285714284, "stats/max_log_achievement_wake_up": 1.7142857142857142, "stats/mean_log_entropy": 0.4195211636168616, "replay/size": 536614.0, "replay/inserts": 1465.0, "replay/samples": 11728.0, "replay/insert_wait_avg": 3.102859132525864e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.527399515877967e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3457021713257, "timer/env.step_count": 1465.0, "timer/env.step_total": 18.191657781600952, "timer/env.step_frac": 0.06056906308325969, "timer/env.step_avg": 0.012417513844096213, "timer/env.step_min": 0.002626180648803711, "timer/env.step_max": 1.5608773231506348, "timer/replay.add_count": 1465.0, "timer/replay.add_total": 0.28558921813964844, "timer/replay.add_frac": 0.0009508683363038112, "timer/replay.add_avg": 0.00019494144582911157, "timer/replay.add_min": 5.984306335449219e-05, "timer/replay.add_max": 0.0008103847503662109, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024198532104492188, "timer/logger.write_frac": 8.056893083387177e-05, "timer/logger.write_avg": 0.024198532104492188, "timer/logger.write_min": 0.024198532104492188, "timer/logger.write_max": 0.024198532104492188, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1465.0, "timer/agent.policy_total": 10.835883617401123, "timer/agent.policy_frac": 0.03607803787123955, "timer/agent.policy_avg": 0.0073965075886697085, "timer/agent.policy_min": 0.005997657775878906, "timer/agent.policy_max": 0.015442132949829102, "timer/dataset_count": 733.0, "timer/dataset_total": 0.05991220474243164, "timer/dataset_frac": 0.00019947748314459325, "timer/dataset_avg": 8.173561356402679e-05, "timer/dataset_min": 6.127357482910156e-05, "timer/dataset_max": 0.00019621849060058594, "timer/agent.train_count": 733.0, "timer/agent.train_total": 270.318238735199, "timer/agent.train_frac": 0.9000236620033331, "timer/agent.train_avg": 0.36878340891568756, "timer/agent.train_min": 0.3617591857910156, "timer/agent.train_max": 0.41983628273010254, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22178125381469727, "timer/agent.report_frac": 0.0007384199347996229, "timer/agent.report_avg": 0.22178125381469727, "timer/agent.report_min": 0.22178125381469727, "timer/agent.report_max": 0.22178125381469727, "fps": 4.877606313636244}
{"step": 536768, "episode/length": 224.0, "episode/score": 12.099999979138374, "episode/sum_abs_reward": 14.900000035762787, "episode/reward_rate": 0.057777777777777775}
{"step": 537025, "episode/length": 256.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.700000040233135, "episode/reward_rate": 0.05058365758754864}
{"step": 537299, "episode/length": 273.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.700000047683716, "episode/reward_rate": 0.040145985401459854}
{"step": 537484, "episode/length": 184.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 11.50000000745058, "episode/reward_rate": 0.05945945945945946}
{"step": 537663, "episode/length": 178.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.900000028312206, "episode/reward_rate": 0.055865921787709494}
{"step": 537875, "episode/length": 211.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06132075471698113}
{"step": 538134, "episode/length": 258.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.04633204633204633}
{"step": 538139, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.617916622677365, "train/action_min": 0.0, "train/action_std": 3.4836560036685014, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.042855146617905515, "train/actor_opt_grad_steps": 268155.0, "train/actor_opt_loss": -12.290815077117971, "train/adv_mag": 0.44990753765041763, "train/adv_max": 0.39200962435554815, "train/adv_mean": 0.0027080600925113983, "train/adv_min": -0.3868965889151032, "train/adv_std": 0.048828556881965815, "train/cont_avg": 0.99462890625, "train/cont_loss_mean": 1.2964299406880363e-05, "train/cont_loss_std": 0.00033996366680816444, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0006106411544598777, "train/cont_pos_acc": 0.9999999798632957, "train/cont_pos_loss": 9.847411875719482e-06, "train/cont_pred": 0.9946231407088202, "train/cont_rate": 0.99462890625, "train/dyn_loss_mean": 5.140081122114852, "train/dyn_loss_std": 8.658116276199753, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.057048257138278, "train/extr_critic_critic_opt_grad_steps": 268155.0, "train/extr_critic_critic_opt_loss": 16133.74806007179, "train/extr_critic_mag": 10.710402411383551, "train/extr_critic_max": 10.710402411383551, "train/extr_critic_mean": 2.822345935009621, "train/extr_critic_min": -0.4501553918864276, "train/extr_critic_std": 2.6069430209494926, "train/extr_return_normed_mag": 1.4469192930170007, "train/extr_return_normed_max": 1.4469192930170007, "train/extr_return_normed_mean": 0.3680811508281811, "train/extr_return_normed_min": -0.08339159784687532, "train/extr_return_normed_std": 0.33017497852041916, "train/extr_return_rate": 0.7433013448844085, "train/extr_return_raw_mag": 11.478372328990215, "train/extr_return_raw_max": 11.478372328990215, "train/extr_return_raw_mean": 2.844034837709891, "train/extr_return_raw_min": -0.7685825534769006, "train/extr_return_raw_std": 2.6424688036377364, "train/extr_reward_mag": 1.045498522552284, "train/extr_reward_max": 1.045498522552284, "train/extr_reward_mean": 0.054672712460160255, "train/extr_reward_min": -0.6876636292483356, "train/extr_reward_std": 0.22530938564120112, "train/image_loss_mean": 3.075594966476028, "train/image_loss_std": 8.117957076510868, "train/model_loss_mean": 6.2104983974147485, "train/model_loss_std": 12.190034995207915, "train/model_opt_grad_norm": 29.09651468895577, "train/model_opt_grad_steps": 267943.2702702703, "train/model_opt_loss": 17156.430096600507, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2770.2702702702704, "train/policy_entropy_mag": 2.6201589429700696, "train/policy_entropy_max": 2.6201589429700696, "train/policy_entropy_mean": 0.42628374011129944, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6098237396092028, "train/policy_logprob_mag": 7.43838424940367, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.42741426583882924, "train/policy_logprob_min": -7.43838424940367, "train/policy_logprob_std": 1.0441180999214585, "train/policy_randomness_mag": 0.9248011241088042, "train/policy_randomness_max": 0.9248011241088042, "train/policy_randomness_mean": 0.15045945296013677, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2152410201929711, "train/post_ent_mag": 55.63792342108649, "train/post_ent_max": 55.63792342108649, "train/post_ent_mean": 41.08168957684491, "train/post_ent_min": 19.170072233354723, "train/post_ent_std": 5.734191946081213, "train/prior_ent_mag": 76.53369068455052, "train/prior_ent_max": 76.53369068455052, "train/prior_ent_mean": 46.270455850137246, "train/prior_ent_min": 28.42190711562698, "train/prior_ent_std": 7.479403972625732, "train/rep_loss_mean": 5.140081122114852, "train/rep_loss_std": 8.658116276199753, "train/reward_avg": 0.03591242606273374, "train/reward_loss_mean": 0.05084174649940955, "train/reward_loss_std": 0.1989487997583441, "train/reward_max_data": 1.024324330123695, "train/reward_max_pred": 1.0208672639485952, "train/reward_neg_acc": 0.9944642186164856, "train/reward_neg_loss": 0.02231213138312907, "train/reward_pos_acc": 0.9883510720085453, "train/reward_pos_loss": 0.7242181687741667, "train/reward_pred": 0.03554637531271657, "train/reward_rate": 0.040712098817567564, "stats/sum_log_reward": 10.67142881665911, "stats/max_log_achievement_collect_coal": 1.2857142857142858, "stats/max_log_achievement_collect_drink": 3.142857142857143, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 19.428571428571427, "stats/max_log_achievement_collect_wood": 8.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.7142857142857142, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.2857142857142858, "stats/max_log_achievement_make_wood_sword": 1.2857142857142858, "stats/max_log_achievement_place_furnace": 3.0, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 5.571428571428571, "stats/max_log_achievement_place_table": 1.8571428571428572, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.44884363242558073, "replay/size": 538076.0, "replay/inserts": 1462.0, "replay/samples": 11696.0, "replay/insert_wait_avg": 3.1465707823287608e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4867934254386683e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.07546401023865, "timer/env.step_count": 1462.0, "timer/env.step_total": 18.352593660354614, "timer/env.step_frac": 0.06115992762316755, "timer/env.step_avg": 0.012553073639093443, "timer/env.step_min": 0.002663135528564453, "timer/env.step_max": 1.6322457790374756, "timer/replay.add_count": 1462.0, "timer/replay.add_total": 0.26477646827697754, "timer/replay.add_frac": 0.0008823662712654951, "timer/replay.add_avg": 0.00018110565545620898, "timer/replay.add_min": 5.91278076171875e-05, "timer/replay.add_max": 0.0008807182312011719, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021719694137573242, "timer/logger.write_frac": 7.238077331384935e-05, "timer/logger.write_avg": 0.021719694137573242, "timer/logger.write_min": 0.021719694137573242, "timer/logger.write_max": 0.021719694137573242, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1462.0, "timer/agent.policy_total": 10.885313272476196, "timer/agent.policy_frac": 0.036275252654794816, "timer/agent.policy_avg": 0.007445494714416003, "timer/agent.policy_min": 0.006117820739746094, "timer/agent.policy_max": 0.016304969787597656, "timer/dataset_count": 731.0, "timer/dataset_total": 0.059540748596191406, "timer/dataset_frac": 0.00019841925027952256, "timer/dataset_avg": 8.145109247085007e-05, "timer/dataset_min": 5.936622619628906e-05, "timer/dataset_max": 0.0001697540283203125, "timer/agent.train_count": 731.0, "timer/agent.train_total": 269.8543345928192, "timer/agent.train_frac": 0.8992882356539877, "timer/agent.train_avg": 0.369157776460765, "timer/agent.train_min": 0.36043310165405273, "timer/agent.train_max": 0.3848533630371094, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22236156463623047, "timer/agent.report_frac": 0.0007410188146160575, "timer/agent.report_avg": 0.22236156463623047, "timer/agent.report_min": 0.22236156463623047, "timer/agent.report_max": 0.22236156463623047, "fps": 4.872002322261889}
{"step": 538323, "episode/length": 188.0, "episode/score": 10.099999949336052, "episode/sum_abs_reward": 11.700000002980232, "episode/reward_rate": 0.06349206349206349}
{"step": 538498, "episode/length": 174.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.07428571428571429}
{"step": 538890, "episode/length": 391.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.03316326530612245}
{"step": 539113, "episode/length": 222.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.04932735426008968}
{"step": 539309, "episode/length": 195.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.061224489795918366}
{"step": 539603, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.574779771778681, "train/action_min": 0.0, "train/action_std": 3.477378443495868, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.043486690531446506, "train/actor_opt_grad_steps": 268890.0, "train/actor_opt_loss": -11.690562894899552, "train/adv_mag": 0.42825070431787676, "train/adv_max": 0.38832781331179894, "train/adv_mean": 0.0022256885394485895, "train/adv_min": -0.36623463299992964, "train/adv_std": 0.04894255509931747, "train/cont_avg": 0.9947961258561644, "train/cont_loss_mean": 2.327154326299522e-05, "train/cont_loss_std": 0.0006291165498838655, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0023771408130639, "train/cont_pos_acc": 0.9999999820369564, "train/cont_pos_loss": 1.3435944795445073e-05, "train/cont_pred": 0.9947933081078203, "train/cont_rate": 0.9947961258561644, "train/dyn_loss_mean": 5.0894795607214105, "train/dyn_loss_std": 8.711313535089362, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0525187743853217, "train/extr_critic_critic_opt_grad_steps": 268890.0, "train/extr_critic_critic_opt_loss": 16203.02370505137, "train/extr_critic_mag": 10.734740779824453, "train/extr_critic_max": 10.734740779824453, "train/extr_critic_mean": 2.8546644563544286, "train/extr_critic_min": -0.4550328173049509, "train/extr_critic_std": 2.6174895469456505, "train/extr_return_normed_mag": 1.4313080735402564, "train/extr_return_normed_max": 1.4313080735402564, "train/extr_return_normed_mean": 0.36891749766591475, "train/extr_return_normed_min": -0.07810686753220754, "train/extr_return_normed_std": 0.3267372128081648, "train/extr_return_rate": 0.7540329262001874, "train/extr_return_raw_mag": 11.479151438360345, "train/extr_return_raw_max": 11.479151438360345, "train/extr_return_raw_mean": 2.872683629597703, "train/extr_return_raw_min": -0.7483852505683899, "train/extr_return_raw_std": 2.6470259346374094, "train/extr_reward_mag": 1.0468401484293481, "train/extr_reward_max": 1.0468401484293481, "train/extr_reward_mean": 0.05433980370425198, "train/extr_reward_min": -0.6393060112652713, "train/extr_reward_std": 0.2250272417313432, "train/image_loss_mean": 3.117052042320983, "train/image_loss_std": 7.989446026005157, "train/model_loss_mean": 6.22316584521777, "train/model_loss_std": 12.118942254210172, "train/model_opt_grad_norm": 27.8083645546273, "train/model_opt_grad_steps": 268677.6438356164, "train/model_opt_loss": 15801.163821703767, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2534.246575342466, "train/policy_entropy_mag": 2.612824554312719, "train/policy_entropy_max": 2.612824554312719, "train/policy_entropy_mean": 0.4087542811893437, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5838005016111347, "train/policy_logprob_mag": 7.438384284711864, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.408897437461435, "train/policy_logprob_min": -7.438384284711864, "train/policy_logprob_std": 1.0278689608181992, "train/policy_randomness_mag": 0.9222124080135398, "train/policy_randomness_max": 0.9222124080135398, "train/policy_randomness_mean": 0.1442723233405858, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2060559577729604, "train/post_ent_mag": 55.64294313404658, "train/post_ent_max": 55.64294313404658, "train/post_ent_mean": 41.15844470507478, "train/post_ent_min": 18.980395473846016, "train/post_ent_std": 5.718743866437102, "train/prior_ent_mag": 76.54837015230362, "train/prior_ent_max": 76.54837015230362, "train/prior_ent_mean": 46.257475500237454, "train/prior_ent_min": 29.123287828001256, "train/prior_ent_std": 7.3888998358217, "train/rep_loss_mean": 5.0894795607214105, "train/rep_loss_std": 8.711313535089362, "train/reward_avg": 0.03582646621212567, "train/reward_loss_mean": 0.05240280916021295, "train/reward_loss_std": 0.20630676799441036, "train/reward_max_data": 1.0150684967432937, "train/reward_max_pred": 1.013042054764212, "train/reward_neg_acc": 0.9936453332639721, "train/reward_neg_loss": 0.023830220001201108, "train/reward_pos_acc": 0.9891003517255391, "train/reward_pos_loss": 0.7274579209824131, "train/reward_pred": 0.03556130476908324, "train/reward_rate": 0.040587542808219176, "stats/sum_log_reward": 11.100000190734864, "stats/max_log_achievement_collect_coal": 1.4, "stats/max_log_achievement_collect_drink": 3.4, "stats/max_log_achievement_collect_sapling": 1.6, "stats/max_log_achievement_collect_stone": 15.8, "stats/max_log_achievement_collect_wood": 11.2, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.4, "stats/max_log_achievement_place_furnace": 2.2, "stats/max_log_achievement_place_plant": 1.6, "stats/max_log_achievement_place_stone": 4.6, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.6, "stats/mean_log_entropy": 0.4002449601888657, "replay/size": 539540.0, "replay/inserts": 1464.0, "replay/samples": 11712.0, "replay/insert_wait_avg": 3.1886856412627005e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4537996281691587e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0927846431732, "timer/env.step_count": 1464.0, "timer/env.step_total": 15.883315324783325, "timer/env.step_frac": 0.052928014726077, "timer/env.step_avg": 0.010849259101627954, "timer/env.step_min": 0.0028429031372070312, "timer/env.step_max": 1.5922791957855225, "timer/replay.add_count": 1464.0, "timer/replay.add_total": 0.26530027389526367, "timer/replay.add_frac": 0.0008840608220911418, "timer/replay.add_avg": 0.00018121603408146426, "timer/replay.add_min": 5.936622619628906e-05, "timer/replay.add_max": 0.0010159015655517578, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023094892501831055, "timer/logger.write_frac": 7.69591729081129e-05, "timer/logger.write_avg": 0.023094892501831055, "timer/logger.write_min": 0.023094892501831055, "timer/logger.write_max": 0.023094892501831055, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00020003318786621094, "timer/checkpoint.save_frac": 6.665711343378728e-07, "timer/checkpoint.save_avg": 0.00020003318786621094, "timer/checkpoint.save_min": 0.00020003318786621094, "timer/checkpoint.save_max": 0.00020003318786621094, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.392723798751831, "timer/agent.save_frac": 0.004640977291099671, "timer/agent.save_avg": 1.392723798751831, "timer/agent.save_min": 1.392723798751831, "timer/agent.save_max": 1.392723798751831, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.487701416015625e-05, "timer/replay.save_frac": 2.8283590443895437e-07, "timer/replay.save_avg": 8.487701416015625e-05, "timer/replay.save_min": 8.487701416015625e-05, "timer/replay.save_max": 8.487701416015625e-05, "timer/agent.policy_count": 1464.0, "timer/agent.policy_total": 12.386317729949951, "timer/agent.policy_frac": 0.041274960158332236, "timer/agent.policy_avg": 0.00846059954231554, "timer/agent.policy_min": 0.005963563919067383, "timer/agent.policy_max": 1.3856241703033447, "timer/dataset_count": 732.0, "timer/dataset_total": 0.06047987937927246, "timer/dataset_frac": 0.00020153726605318537, "timer/dataset_avg": 8.262278603725746e-05, "timer/dataset_min": 6.246566772460938e-05, "timer/dataset_max": 0.00013327598571777344, "timer/agent.train_count": 732.0, "timer/agent.train_total": 270.84063243865967, "timer/agent.train_frac": 0.9025229738885726, "timer/agent.train_avg": 0.37000086398723997, "timer/agent.train_min": 0.36202073097229004, "timer/agent.train_max": 0.3849210739135742, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2239840030670166, "timer/agent.report_frac": 0.0007463825007767044, "timer/agent.report_avg": 0.2239840030670166, "timer/agent.report_min": 0.2239840030670166, "timer/agent.report_max": 0.2239840030670166, "fps": 4.878380302829843}
{"step": 539625, "episode/length": 315.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 15.100000061094761, "episode/reward_rate": 0.04113924050632911}
{"step": 539774, "episode/length": 148.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 12.899999991059303, "episode/reward_rate": 0.087248322147651}
{"step": 539873, "episode/length": 98.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.09090909090909091}
{"step": 540098, "episode/length": 224.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.04888888888888889}
{"step": 540263, "episode/length": 164.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.07272727272727272}
{"step": 540656, "episode/length": 392.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.03307888040712468}
{"step": 540815, "episode/length": 158.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.06289308176100629}
{"step": 541045, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.634629991319445, "train/action_min": 0.0, "train/action_std": 3.578094631433487, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0434978136068417, "train/actor_opt_grad_steps": 269615.0, "train/actor_opt_loss": -13.388304509429467, "train/adv_mag": 0.44980017882254386, "train/adv_max": 0.3986942072709401, "train/adv_mean": 0.002226459026537163, "train/adv_min": -0.3825523182749748, "train/adv_std": 0.04898675293144253, "train/cont_avg": 0.9946017795138888, "train/cont_loss_mean": 1.2040915574434368e-05, "train/cont_loss_std": 0.00029015509593458927, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00019729249566719572, "train/cont_pos_acc": 0.9999999701976776, "train/cont_pos_loss": 1.0866795030040066e-05, "train/cont_pred": 0.9945934249295129, "train/cont_rate": 0.9946017795138888, "train/dyn_loss_mean": 5.167569008138445, "train/dyn_loss_std": 8.77698134051429, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0458880820208125, "train/extr_critic_critic_opt_grad_steps": 269615.0, "train/extr_critic_critic_opt_loss": 16275.991794162326, "train/extr_critic_mag": 10.740573048591614, "train/extr_critic_max": 10.740573048591614, "train/extr_critic_mean": 2.7743808461560144, "train/extr_critic_min": -0.49069999655087787, "train/extr_critic_std": 2.6048667861355677, "train/extr_return_normed_mag": 1.4361156423886616, "train/extr_return_normed_max": 1.4361156423886616, "train/extr_return_normed_mean": 0.35622802149090504, "train/extr_return_normed_min": -0.09031077877928813, "train/extr_return_normed_std": 0.3244461777309577, "train/extr_return_rate": 0.7413981498943435, "train/extr_return_raw_mag": 11.5762380361557, "train/extr_return_raw_max": 11.5762380361557, "train/extr_return_raw_mean": 2.7924811094999313, "train/extr_return_raw_min": -0.8394519376258055, "train/extr_return_raw_std": 2.6389975994825363, "train/extr_reward_mag": 1.047179596291648, "train/extr_reward_max": 1.047179596291648, "train/extr_reward_mean": 0.05384608492669132, "train/extr_reward_min": -0.6717090739144219, "train/extr_reward_std": 0.2242102918939458, "train/image_loss_mean": 3.1948531683948307, "train/image_loss_std": 8.357184787591299, "train/model_loss_mean": 6.346899840566847, "train/model_loss_std": 12.469975524478489, "train/model_opt_grad_norm": 28.68567707803514, "train/model_opt_grad_steps": 269402.0, "train/model_opt_loss": 15867.249606662326, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.618877020147112, "train/policy_entropy_max": 2.618877020147112, "train/policy_entropy_mean": 0.41795819501082104, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5823215146859487, "train/policy_logprob_mag": 7.438384221659766, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4184675912062327, "train/policy_logprob_min": -7.438384221659766, "train/policy_logprob_std": 1.0327961428297892, "train/policy_randomness_mag": 0.9243486598134041, "train/policy_randomness_max": 0.9243486598134041, "train/policy_randomness_mean": 0.14752090204921034, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2055339403450489, "train/post_ent_mag": 55.58235470453898, "train/post_ent_max": 55.58235470453898, "train/post_ent_mean": 41.12248108122084, "train/post_ent_min": 19.155804872512817, "train/post_ent_std": 5.777666601869795, "train/prior_ent_mag": 76.66166644626193, "train/prior_ent_max": 76.66166644626193, "train/prior_ent_mean": 46.31489483515421, "train/prior_ent_min": 28.511253065533108, "train/prior_ent_std": 7.517254339324103, "train/rep_loss_mean": 5.167569008138445, "train/rep_loss_std": 8.77698134051429, "train/reward_avg": 0.03495008651063674, "train/reward_loss_mean": 0.05149314449065261, "train/reward_loss_std": 0.2051127197013961, "train/reward_max_data": 1.0166666706403096, "train/reward_max_pred": 1.0163050062126584, "train/reward_neg_acc": 0.9938902308543524, "train/reward_neg_loss": 0.02353867509454075, "train/reward_pos_acc": 0.9917100974255137, "train/reward_pos_loss": 0.725238550040457, "train/reward_pred": 0.03481457346222467, "train/reward_rate": 0.03993055555555555, "stats/sum_log_reward": 10.528571673801967, "stats/max_log_achievement_collect_coal": 1.1428571428571428, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 16.714285714285715, "stats/max_log_achievement_collect_wood": 9.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.42857142857142855, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.2857142857142857, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 2.2857142857142856, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 4.142857142857143, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.5714285714285714, "stats/mean_log_entropy": 0.47287956731660025, "stats/max_log_achievement_collect_iron": 1.5, "replay/size": 540982.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.2189814955120114e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4272667002578713e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3600287437439, "timer/env.step_count": 1442.0, "timer/env.step_total": 20.817854166030884, "timer/env.step_frac": 0.06930966897659978, "timer/env.step_avg": 0.014436792070756507, "timer/env.step_min": 0.0025229454040527344, "timer/env.step_max": 2.321256399154663, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.26918792724609375, "timer/replay.add_frac": 0.0008962175438988087, "timer/replay.add_avg": 0.00018667678727190968, "timer/replay.add_min": 6.365776062011719e-05, "timer/replay.add_max": 0.0012154579162597656, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021016359329223633, "timer/logger.write_frac": 6.997055972169325e-05, "timer/logger.write_avg": 0.021016359329223633, "timer/logger.write_min": 0.021016359329223633, "timer/logger.write_max": 0.021016359329223633, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 10.904468536376953, "timer/agent.policy_frac": 0.03630465938488854, "timer/agent.policy_avg": 0.0075620447547690385, "timer/agent.policy_min": 0.006208181381225586, "timer/agent.policy_max": 0.023961782455444336, "timer/dataset_count": 721.0, "timer/dataset_total": 0.060094594955444336, "timer/dataset_frac": 0.00020007520709992615, "timer/dataset_avg": 8.33489527814762e-05, "timer/dataset_min": 5.8650970458984375e-05, "timer/dataset_max": 0.00022029876708984375, "timer/agent.train_count": 721.0, "timer/agent.train_total": 267.6385669708252, "timer/agent.train_frac": 0.8910592001546402, "timer/agent.train_avg": 0.37120466986244827, "timer/agent.train_min": 0.36168861389160156, "timer/agent.train_max": 0.7741339206695557, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22373557090759277, "timer/agent.report_frac": 0.0007448912954342394, "timer/agent.report_avg": 0.22373557090759277, "timer/agent.report_min": 0.22373557090759277, "timer/agent.report_max": 0.22373557090759277, "fps": 4.800848251995758}
{"step": 541046, "episode/length": 230.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.04329004329004329}
{"step": 541222, "episode/length": 175.0, "episode/score": 7.100000023841858, "episode/sum_abs_reward": 9.300000056624413, "episode/reward_rate": 0.045454545454545456}
{"step": 541460, "episode/length": 237.0, "episode/score": 11.099999971687794, "episode/sum_abs_reward": 13.700000040233135, "episode/reward_rate": 0.0546218487394958}
{"step": 541714, "episode/length": 253.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.899999976158142, "episode/reward_rate": 0.047244094488188976}
{"step": 541887, "episode/length": 172.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 12.700000047683716, "episode/reward_rate": 0.06936416184971098}
{"step": 542175, "episode/length": 287.0, "episode/score": 9.099999964237213, "episode/sum_abs_reward": 10.699999988079071, "episode/reward_rate": 0.034722222222222224}
{"step": 542360, "episode/length": 184.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.06486486486486487}
{"step": 542505, "stats/sum_log_reward": 9.81428589139666, "stats/max_log_achievement_collect_coal": 0.2857142857142857, "stats/max_log_achievement_collect_drink": 3.142857142857143, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 0.8571428571428571, "stats/max_log_achievement_collect_stone": 16.0, "stats/max_log_achievement_collect_wood": 8.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5714285714285714, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 2.7142857142857144, "stats/max_log_achievement_place_plant": 0.8571428571428571, "stats/max_log_achievement_place_stone": 3.5714285714285716, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.8571428571428572, "stats/mean_log_entropy": 0.47402081532137735, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.623056072078339, "train/action_min": 0.0, "train/action_std": 3.4996770832636583, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04350876450946886, "train/actor_opt_grad_steps": 270340.0, "train/actor_opt_loss": -12.301852814138751, "train/adv_mag": 0.43606022490213997, "train/adv_max": 0.3805888209440937, "train/adv_mean": 0.0024756805276205315, "train/adv_min": -0.3809556060866134, "train/adv_std": 0.048406569874041704, "train/cont_avg": 0.9943947988013698, "train/cont_loss_mean": 9.805866525218571e-05, "train/cont_loss_std": 0.003001741777673998, "train/cont_neg_acc": 0.9977168955215036, "train/cont_neg_loss": 0.015647659476290716, "train/cont_pos_acc": 0.9999999804039524, "train/cont_pos_loss": 6.322387687211867e-06, "train/cont_pred": 0.9944027417326626, "train/cont_rate": 0.9943947988013698, "train/dyn_loss_mean": 5.224362944903439, "train/dyn_loss_std": 8.768555210061269, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.022753938420178, "train/extr_critic_critic_opt_grad_steps": 270340.0, "train/extr_critic_critic_opt_loss": 16247.773812071919, "train/extr_critic_mag": 10.854291014475365, "train/extr_critic_max": 10.854291014475365, "train/extr_critic_mean": 2.783704645013156, "train/extr_critic_min": -0.48957174771452605, "train/extr_critic_std": 2.619793601232032, "train/extr_return_normed_mag": 1.4450182963724005, "train/extr_return_normed_max": 1.4450182963724005, "train/extr_return_normed_mean": 0.3621463669489508, "train/extr_return_normed_min": -0.08721993480847307, "train/extr_return_normed_std": 0.32884333394978144, "train/extr_return_rate": 0.739183828438798, "train/extr_return_raw_mag": 11.538864292510569, "train/extr_return_raw_max": 11.538864292510569, "train/extr_return_raw_mean": 2.803699112918279, "train/extr_return_raw_min": -0.8214713963743758, "train/extr_return_raw_std": 2.6528296829902964, "train/extr_reward_mag": 1.059924595976529, "train/extr_reward_max": 1.059924595976529, "train/extr_reward_mean": 0.05588512270622058, "train/extr_reward_min": -0.6636133945151551, "train/extr_reward_std": 0.2284042771956692, "train/image_loss_mean": 3.218938014278673, "train/image_loss_std": 8.158478658493252, "train/model_loss_mean": 6.40691244438903, "train/model_loss_std": 12.3319491556246, "train/model_opt_grad_norm": 31.842283666950383, "train/model_opt_grad_steps": 270125.20547945204, "train/model_opt_loss": 9474.136464576199, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1489.7260273972602, "train/policy_entropy_mag": 2.6208754859558523, "train/policy_entropy_max": 2.6208754859558523, "train/policy_entropy_mean": 0.40006655005559527, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5638457091703807, "train/policy_logprob_mag": 7.4383842651158165, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40062530604127333, "train/policy_logprob_min": -7.4383842651158165, "train/policy_logprob_std": 1.020325965260806, "train/policy_randomness_mag": 0.925054034141645, "train/policy_randomness_max": 0.925054034141645, "train/policy_randomness_mean": 0.14120593524142488, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1990127934984965, "train/post_ent_mag": 55.30740811073617, "train/post_ent_max": 55.30740811073617, "train/post_ent_mean": 41.02058771211807, "train/post_ent_min": 19.293313026428223, "train/post_ent_std": 5.650154427306293, "train/prior_ent_mag": 76.48639438576895, "train/prior_ent_max": 76.48639438576895, "train/prior_ent_mean": 46.262422849054204, "train/prior_ent_min": 28.4364823903123, "train/prior_ent_std": 7.444153766109519, "train/rep_loss_mean": 5.224362944903439, "train/rep_loss_std": 8.768555210061269, "train/reward_avg": 0.0361073950229034, "train/reward_loss_mean": 0.0532585995348349, "train/reward_loss_std": 0.21054139651664316, "train/reward_max_data": 1.0328767201671862, "train/reward_max_pred": 1.0264861747010114, "train/reward_neg_acc": 0.9945364651614672, "train/reward_neg_loss": 0.02424234543506005, "train/reward_pos_acc": 0.9895590780532524, "train/reward_pos_loss": 0.7304033963647607, "train/reward_pred": 0.03589861477686934, "train/reward_rate": 0.0410423801369863, "replay/size": 542442.0, "replay/inserts": 1460.0, "replay/samples": 11680.0, "replay/insert_wait_avg": 3.0883371013484587e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4626204150996797e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.32942724227905, "timer/env.step_count": 1460.0, "timer/env.step_total": 18.475931644439697, "timer/env.step_frac": 0.061518885492146465, "timer/env.step_avg": 0.012654747701671026, "timer/env.step_min": 0.0028405189514160156, "timer/env.step_max": 1.5653777122497559, "timer/replay.add_count": 1460.0, "timer/replay.add_total": 0.26218557357788086, "timer/replay.add_frac": 0.000872993286023793, "timer/replay.add_avg": 0.0001795791599848499, "timer/replay.add_min": 6.008148193359375e-05, "timer/replay.add_max": 0.0008356571197509766, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.020459413528442383, "timer/logger.write_frac": 6.812323959162865e-05, "timer/logger.write_avg": 0.020459413528442383, "timer/logger.write_min": 0.020459413528442383, "timer/logger.write_max": 0.020459413528442383, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1460.0, "timer/agent.policy_total": 10.87903094291687, "timer/agent.policy_frac": 0.036223659608755676, "timer/agent.policy_avg": 0.007451391056792377, "timer/agent.policy_min": 0.006011962890625, "timer/agent.policy_max": 0.014965057373046875, "timer/dataset_count": 730.0, "timer/dataset_total": 0.05970501899719238, "timer/dataset_frac": 0.00019879843126070922, "timer/dataset_avg": 8.178769725642792e-05, "timer/dataset_min": 5.984306335449219e-05, "timer/dataset_max": 0.00021958351135253906, "timer/agent.train_count": 730.0, "timer/agent.train_total": 269.92935013771057, "timer/agent.train_frac": 0.8987775610811377, "timer/agent.train_avg": 0.36976623306535694, "timer/agent.train_min": 0.3621635437011719, "timer/agent.train_max": 0.38483524322509766, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22196006774902344, "timer/agent.report_frac": 0.0007390553426187098, "timer/agent.report_avg": 0.22196006774902344, "timer/agent.report_min": 0.22196006774902344, "timer/agent.report_max": 0.22196006774902344, "fps": 4.861220211407711}
{"step": 542699, "episode/length": 338.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 16.300000056624413, "episode/reward_rate": 0.04129793510324484}
{"step": 542940, "episode/length": 240.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.700000047683716, "episode/reward_rate": 0.04564315352697095}
{"step": 543147, "episode/length": 206.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.06763285024154589}
{"step": 543415, "episode/length": 267.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.048507462686567165}
{"step": 543715, "episode/length": 299.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.700000040233135, "episode/reward_rate": 0.043333333333333335}
{"step": 543901, "episode/length": 185.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.06989247311827956}
{"step": 543971, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.532100311697346, "train/action_min": 0.0, "train/action_std": 3.436816016288653, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.043315038161530886, "train/actor_opt_grad_steps": 271070.0, "train/actor_opt_loss": -12.780635890895374, "train/adv_mag": 0.4269330215780702, "train/adv_max": 0.3810985729302446, "train/adv_mean": 0.0021041205477745715, "train/adv_min": -0.3728249818086624, "train/adv_std": 0.048626958813569314, "train/cont_avg": 0.9949834118150684, "train/cont_loss_mean": 1.198093404616585e-05, "train/cont_loss_std": 0.00030884289863367223, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00018546990952161228, "train/cont_pos_acc": 0.9999999844864623, "train/cont_pos_loss": 1.0837638624968959e-05, "train/cont_pred": 0.9949747119864373, "train/cont_rate": 0.9949834118150684, "train/dyn_loss_mean": 5.092406308814271, "train/dyn_loss_std": 8.70432141709001, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0493633853246087, "train/extr_critic_critic_opt_grad_steps": 271070.0, "train/extr_critic_critic_opt_loss": 16258.997030179795, "train/extr_critic_mag": 10.584132103070822, "train/extr_critic_max": 10.584132103070822, "train/extr_critic_mean": 2.8032644840135967, "train/extr_critic_min": -0.4668309280317124, "train/extr_critic_std": 2.5679290359967375, "train/extr_return_normed_mag": 1.4033500756302926, "train/extr_return_normed_max": 1.4033500756302926, "train/extr_return_normed_mean": 0.36320533450335674, "train/extr_return_normed_min": -0.08102287454147862, "train/extr_return_normed_std": 0.32150580397207446, "train/extr_return_rate": 0.7516963138972244, "train/extr_return_raw_mag": 11.234448929355569, "train/extr_return_raw_max": 11.234448929355569, "train/extr_return_raw_mean": 2.820299857283292, "train/extr_return_raw_min": -0.7718414411152879, "train/extr_return_raw_std": 2.6001023021462846, "train/extr_reward_mag": 1.056686479751378, "train/extr_reward_max": 1.056686479751378, "train/extr_reward_mean": 0.056959624772202476, "train/extr_reward_min": -0.6371669573326634, "train/extr_reward_std": 0.2298458010366518, "train/image_loss_mean": 3.0922009275384146, "train/image_loss_std": 8.386962381127763, "train/model_loss_mean": 6.19852292047788, "train/model_loss_std": 12.506056877031718, "train/model_opt_grad_norm": 28.6481134075008, "train/model_opt_grad_steps": 270855.0, "train/model_opt_loss": 11283.110772955908, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1832.1917808219177, "train/policy_entropy_mag": 2.623022383206511, "train/policy_entropy_max": 2.623022383206511, "train/policy_entropy_mean": 0.392239292802876, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5625520487354226, "train/policy_logprob_mag": 7.438384225923721, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3929530443394021, "train/policy_logprob_min": -7.438384225923721, "train/policy_logprob_std": 1.014720667714942, "train/policy_randomness_mag": 0.9258117961556944, "train/policy_randomness_max": 0.9258117961556944, "train/policy_randomness_mean": 0.13844325658801485, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19855618864706118, "train/post_ent_mag": 55.495191547968616, "train/post_ent_max": 55.495191547968616, "train/post_ent_mean": 41.14090524960871, "train/post_ent_min": 19.105817716415615, "train/post_ent_std": 5.610214141950215, "train/prior_ent_mag": 76.62844984498743, "train/prior_ent_max": 76.62844984498743, "train/prior_ent_mean": 46.247599928346396, "train/prior_ent_min": 28.64982584078018, "train/prior_ent_std": 7.380676583068012, "train/rep_loss_mean": 5.092406308814271, "train/rep_loss_std": 8.70432141709001, "train/reward_avg": 0.03591877114895272, "train/reward_loss_mean": 0.05086621295099389, "train/reward_loss_std": 0.19712780048585918, "train/reward_max_data": 1.0205479501044914, "train/reward_max_pred": 1.0177838508396932, "train/reward_neg_acc": 0.9944397537675622, "train/reward_neg_loss": 0.022718376046276256, "train/reward_pos_acc": 0.9914936170186082, "train/reward_pos_loss": 0.7191494956408462, "train/reward_pred": 0.035814363943183256, "train/reward_rate": 0.040493899828767124, "stats/sum_log_reward": 12.100000222524008, "stats/max_log_achievement_collect_coal": 1.1666666666666667, "stats/max_log_achievement_collect_drink": 5.166666666666667, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 16.666666666666668, "stats/max_log_achievement_collect_wood": 8.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.6666666666666667, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 0.16666666666666666, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 2.3333333333333335, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 4.666666666666667, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.4364361415306727, "replay/size": 543908.0, "replay/inserts": 1466.0, "replay/samples": 11728.0, "replay/insert_wait_avg": 3.0983031039999092e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.5018459556860619e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1282286643982, "timer/env.step_count": 1466.0, "timer/env.step_total": 17.371625423431396, "timer/env.step_frac": 0.05788067820456921, "timer/env.step_avg": 0.011849676277920461, "timer/env.step_min": 0.0027701854705810547, "timer/env.step_max": 1.4685075283050537, "timer/replay.add_count": 1466.0, "timer/replay.add_total": 0.27910351753234863, "timer/replay.add_frac": 0.0009299475719907731, "timer/replay.add_avg": 0.0001903843912226116, "timer/replay.add_min": 6.008148193359375e-05, "timer/replay.add_max": 0.010684013366699219, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028246402740478516, "timer/logger.write_frac": 9.411444856812684e-05, "timer/logger.write_avg": 0.028246402740478516, "timer/logger.write_min": 0.028246402740478516, "timer/logger.write_max": 0.028246402740478516, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1466.0, "timer/agent.policy_total": 11.029438734054565, "timer/agent.policy_frac": 0.03674908815854048, "timer/agent.policy_avg": 0.007523491633052227, "timer/agent.policy_min": 0.006188154220581055, "timer/agent.policy_max": 0.01666855812072754, "timer/dataset_count": 733.0, "timer/dataset_total": 0.06000018119812012, "timer/dataset_frac": 0.00019991515448289273, "timer/dataset_avg": 8.185563601380644e-05, "timer/dataset_min": 6.008148193359375e-05, "timer/dataset_max": 0.00017762184143066406, "timer/agent.train_count": 733.0, "timer/agent.train_total": 270.72347593307495, "timer/agent.train_frac": 0.9020260344647438, "timer/agent.train_avg": 0.3693362563889154, "timer/agent.train_min": 0.36185503005981445, "timer/agent.train_max": 0.38500118255615234, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2206716537475586, "timer/agent.report_frac": 0.0007352579086931289, "timer/agent.report_avg": 0.2206716537475586, "timer/agent.report_min": 0.2206716537475586, "timer/agent.report_max": 0.2206716537475586, "fps": 4.884517549315431}
{"step": 544002, "episode/length": 100.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 9.899999976158142, "episode/reward_rate": 0.09900990099009901}
{"step": 544197, "episode/length": 194.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.05641025641025641}
{"step": 544416, "episode/length": 218.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 12.899999976158142, "episode/reward_rate": 0.0593607305936073}
{"step": 544548, "episode/length": 131.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.1000000461936, "episode/reward_rate": 0.08333333333333333}
{"step": 544871, "episode/length": 322.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.03715170278637771}
{"step": 545086, "episode/length": 214.0, "episode/score": 11.099999994039536, "episode/sum_abs_reward": 13.700000017881393, "episode/reward_rate": 0.06046511627906977}
{"step": 545270, "episode/length": 183.0, "episode/score": 13.099999964237213, "episode/sum_abs_reward": 15.700000002980232, "episode/reward_rate": 0.07608695652173914}
{"step": 545413, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.539460076226129, "train/action_min": 0.0, "train/action_std": 3.463177604807748, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04287992717905177, "train/actor_opt_grad_steps": 271795.0, "train/actor_opt_loss": -12.150524754491117, "train/adv_mag": 0.446526145355569, "train/adv_max": 0.395593302945296, "train/adv_mean": 0.0025218921408243964, "train/adv_min": -0.3692992108149661, "train/adv_std": 0.04876216811438402, "train/cont_avg": 0.9948866102430556, "train/cont_loss_mean": 2.5536491433639538e-05, "train/cont_loss_std": 0.0007351497739149534, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0004315617111515935, "train/cont_pos_acc": 0.999986320734024, "train/cont_pos_loss": 2.275907139666818e-05, "train/cont_pred": 0.9948732290003035, "train/cont_rate": 0.9948866102430556, "train/dyn_loss_mean": 5.135395255353716, "train/dyn_loss_std": 8.807070189052158, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0811725763811006, "train/extr_critic_critic_opt_grad_steps": 271795.0, "train/extr_critic_critic_opt_loss": 16165.053833007812, "train/extr_critic_mag": 10.693117062250773, "train/extr_critic_max": 10.693117062250773, "train/extr_critic_mean": 2.779144356648127, "train/extr_critic_min": -0.4520147608386146, "train/extr_critic_std": 2.5604393978913627, "train/extr_return_normed_mag": 1.4345727976825502, "train/extr_return_normed_max": 1.4345727976825502, "train/extr_return_normed_mean": 0.36247756766776246, "train/extr_return_normed_min": -0.08774315193295479, "train/extr_return_normed_std": 0.3227557297796011, "train/extr_return_rate": 0.7597593325707648, "train/extr_return_raw_mag": 11.413777510325113, "train/extr_return_raw_max": 11.413777510325113, "train/extr_return_raw_mean": 2.7993908756309085, "train/extr_return_raw_min": -0.8182934025923411, "train/extr_return_raw_std": 2.5933000495036445, "train/extr_reward_mag": 1.0590994225607977, "train/extr_reward_max": 1.0590994225607977, "train/extr_reward_mean": 0.055374793967025146, "train/extr_reward_min": -0.6473797145817015, "train/extr_reward_std": 0.22632309504681164, "train/image_loss_mean": 3.054891508486536, "train/image_loss_std": 8.458162718349033, "train/model_loss_mean": 6.187098801136017, "train/model_loss_std": 12.653620110617744, "train/model_opt_grad_norm": 29.038614723417496, "train/model_opt_grad_steps": 271579.97222222225, "train/model_opt_loss": 16342.088365342883, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2638.8888888888887, "train/policy_entropy_mag": 2.6045243210262723, "train/policy_entropy_max": 2.6045243210262723, "train/policy_entropy_mean": 0.39826331184142166, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5700394051770369, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.398376509340273, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 1.0192249458697107, "train/policy_randomness_mag": 0.9192827898595068, "train/policy_randomness_max": 0.9192827898595068, "train/policy_randomness_mean": 0.14056947061585057, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2011988962896996, "train/post_ent_mag": 55.17579258812798, "train/post_ent_max": 55.17579258812798, "train/post_ent_mean": 40.985476122962105, "train/post_ent_min": 18.795708073510063, "train/post_ent_std": 5.595285177230835, "train/prior_ent_mag": 76.66630257500543, "train/prior_ent_max": 76.66630257500543, "train/prior_ent_mean": 46.11865493986342, "train/prior_ent_min": 28.362008068296646, "train/prior_ent_std": 7.390679279963176, "train/rep_loss_mean": 5.135395255353716, "train/rep_loss_std": 8.807070189052158, "train/reward_avg": 0.03574625619997581, "train/reward_loss_mean": 0.050944593683299094, "train/reward_loss_std": 0.20825393249591193, "train/reward_max_data": 1.0305555628405676, "train/reward_max_pred": 1.0291017525725894, "train/reward_neg_acc": 0.9944321124090089, "train/reward_neg_loss": 0.022385186088892322, "train/reward_pos_acc": 0.9866549546519915, "train/reward_pos_loss": 0.7329820816715559, "train/reward_pred": 0.0354455796122137, "train/reward_rate": 0.040215386284722224, "stats/sum_log_reward": 10.528571810041155, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 2.142857142857143, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 17.285714285714285, "stats/max_log_achievement_collect_wood": 9.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.5714285714285714, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.5714285714285714, "stats/max_log_achievement_place_furnace": 2.857142857142857, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 5.142857142857143, "stats/max_log_achievement_place_table": 2.2857142857142856, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.35394770758492605, "replay/size": 545350.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.139288184050879e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.5337242332807691e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0235254764557, "timer/env.step_count": 1442.0, "timer/env.step_total": 18.392540454864502, "timer/env.step_frac": 0.061303660856781225, "timer/env.step_avg": 0.012754882423623094, "timer/env.step_min": 0.002733469009399414, "timer/env.step_max": 1.9386882781982422, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.30997657775878906, "timer/replay.add_frac": 0.0010331742394751456, "timer/replay.add_avg": 0.00021496295267599795, "timer/replay.add_min": 5.91278076171875e-05, "timer/replay.add_max": 0.0008509159088134766, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.020443439483642578, "timer/logger.write_frac": 6.813945490166861e-05, "timer/logger.write_avg": 0.020443439483642578, "timer/logger.write_min": 0.020443439483642578, "timer/logger.write_max": 0.020443439483642578, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00015974044799804688, "timer/checkpoint.save_frac": 5.324264080437335e-07, "timer/checkpoint.save_avg": 0.00015974044799804688, "timer/checkpoint.save_min": 0.00015974044799804688, "timer/checkpoint.save_max": 0.00015974044799804688, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.490584373474121, "timer/agent.save_frac": 0.004968224978714526, "timer/agent.save_avg": 1.490584373474121, "timer/agent.save_min": 1.490584373474121, "timer/agent.save_max": 1.490584373474121, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.151199340820312e-05, "timer/replay.save_frac": 2.0502390041087051e-07, "timer/replay.save_avg": 6.151199340820312e-05, "timer/replay.save_min": 6.151199340820312e-05, "timer/replay.save_max": 6.151199340820312e-05, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 14.631290197372437, "timer/agent.policy_frac": 0.048767143090319515, "timer/agent.policy_avg": 0.010146525795681302, "timer/agent.policy_min": 0.006146430969238281, "timer/agent.policy_max": 2.3878395557403564, "timer/dataset_count": 721.0, "timer/dataset_total": 0.05892610549926758, "timer/dataset_frac": 0.00019640494993080734, "timer/dataset_avg": 8.172830166333922e-05, "timer/dataset_min": 5.936622619628906e-05, "timer/dataset_max": 0.00020241737365722656, "timer/agent.train_count": 721.0, "timer/agent.train_total": 265.97976565361023, "timer/agent.train_frac": 0.8865296987335181, "timer/agent.train_avg": 0.3689039745542444, "timer/agent.train_min": 0.3616814613342285, "timer/agent.train_max": 0.41262364387512207, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2238633632659912, "timer/agent.report_frac": 0.0007461526988941367, "timer/agent.report_avg": 0.2238633632659912, "timer/agent.report_min": 0.2238633632659912, "timer/agent.report_max": 0.2238633632659912, "fps": 4.806185926304761}
{"step": 545465, "episode/length": 194.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06666666666666667}
{"step": 545691, "episode/length": 225.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 12.5, "episode/reward_rate": 0.05752212389380531}
{"step": 545898, "episode/length": 206.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.05314009661835749}
{"step": 545942, "episode/length": 43.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 5.0999999940395355, "episode/reward_rate": 0.11363636363636363}
{"step": 546081, "episode/length": 138.0, "episode/score": 6.100000023841858, "episode/sum_abs_reward": 7.899999976158142, "episode/reward_rate": 0.05755395683453238}
{"step": 546279, "episode/length": 197.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.0707070707070707}
{"step": 546481, "episode/length": 201.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.0594059405940594}
{"step": 546666, "episode/length": 184.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 12.100000008940697, "episode/reward_rate": 0.05945945945945946}
{"step": 546746, "episode/length": 79.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 9.899999976158142, "episode/reward_rate": 0.125}
{"step": 546861, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.593442315924658, "train/action_min": 0.0, "train/action_std": 3.5265794322915274, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.042722960602339, "train/actor_opt_grad_steps": 272520.0, "train/actor_opt_loss": -12.19617766795093, "train/adv_mag": 0.46100403348060504, "train/adv_max": 0.38252816706487575, "train/adv_mean": 0.0023861736893332534, "train/adv_min": -0.40286936539493196, "train/adv_std": 0.04868285924400369, "train/cont_avg": 0.9947292380136986, "train/cont_loss_mean": 2.6491741804909607e-05, "train/cont_loss_std": 0.0007181122638639427, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0018082508889489112, "train/cont_pos_acc": 0.9999999869359683, "train/cont_pos_loss": 1.2596848567644797e-05, "train/cont_pred": 0.9947292396467026, "train/cont_rate": 0.9947292380136986, "train/dyn_loss_mean": 5.039088912206154, "train/dyn_loss_std": 8.661311717882548, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0343816329355109, "train/extr_critic_critic_opt_grad_steps": 272520.0, "train/extr_critic_critic_opt_loss": 16103.581027932363, "train/extr_critic_mag": 10.621467041642699, "train/extr_critic_max": 10.621467041642699, "train/extr_critic_mean": 2.8399090815896857, "train/extr_critic_min": -0.41753671593862035, "train/extr_critic_std": 2.5662608473268276, "train/extr_return_normed_mag": 1.411745014255994, "train/extr_return_normed_max": 1.411745014255994, "train/extr_return_normed_mean": 0.36932075472727216, "train/extr_return_normed_min": -0.08001586667274775, "train/extr_return_normed_std": 0.323797928960356, "train/extr_return_rate": 0.7568422212992629, "train/extr_return_raw_mag": 11.220536336506882, "train/extr_return_raw_max": 11.220536336506882, "train/extr_return_raw_mean": 2.8590279588960623, "train/extr_return_raw_min": -0.7453663765567623, "train/extr_return_raw_std": 2.5970993041992188, "train/extr_reward_mag": 1.0592067927530366, "train/extr_reward_max": 1.0592067927530366, "train/extr_reward_mean": 0.057376592432799405, "train/extr_reward_min": -0.6317120235260218, "train/extr_reward_std": 0.23078113202362843, "train/image_loss_mean": 2.9963888942378842, "train/image_loss_std": 8.267834741775303, "train/model_loss_mean": 6.072740796494157, "train/model_loss_std": 12.346018072676985, "train/model_opt_grad_norm": 26.696556927406625, "train/model_opt_grad_steps": 272304.0, "train/model_opt_loss": 15181.851937071919, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6352545627175945, "train/policy_entropy_max": 2.6352545627175945, "train/policy_entropy_mean": 0.40982518212436, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5865345601349661, "train/policy_logprob_mag": 7.438384219391705, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4085174945935811, "train/policy_logprob_min": -7.438384219391705, "train/policy_logprob_std": 1.0247538840934023, "train/policy_randomness_mag": 0.9301292153253947, "train/policy_randomness_max": 0.9301292153253947, "train/policy_randomness_mean": 0.1446503044603622, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20702095921725444, "train/post_ent_mag": 55.31833633004803, "train/post_ent_max": 55.31833633004803, "train/post_ent_mean": 41.098416733415156, "train/post_ent_min": 19.49751693255281, "train/post_ent_std": 5.57679225973887, "train/prior_ent_mag": 76.58151088348806, "train/prior_ent_max": 76.58151088348806, "train/prior_ent_mean": 46.14103395644933, "train/prior_ent_min": 28.63569458216837, "train/prior_ent_std": 7.331801747622555, "train/rep_loss_mean": 5.039088912206154, "train/rep_loss_std": 8.661311717882548, "train/reward_avg": 0.03799229429090676, "train/reward_loss_mean": 0.05287208836780836, "train/reward_loss_std": 0.20689825427858796, "train/reward_max_data": 1.0273972668059885, "train/reward_max_pred": 1.0269112652295256, "train/reward_neg_acc": 0.9945813711375406, "train/reward_neg_loss": 0.022901115760411303, "train/reward_pos_acc": 0.9897835989520974, "train/reward_pos_loss": 0.7276888799993959, "train/reward_pred": 0.037685709609969024, "train/reward_rate": 0.04270119863013699, "stats/sum_log_reward": 9.322222497728136, "stats/max_log_achievement_collect_coal": 0.8888888888888888, "stats/max_log_achievement_collect_drink": 1.7777777777777777, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 10.88888888888889, "stats/max_log_achievement_collect_wood": 7.444444444444445, "stats/max_log_achievement_defeat_skeleton": 0.1111111111111111, "stats/max_log_achievement_defeat_zombie": 0.6666666666666666, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.6666666666666666, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.4444444444444444, "stats/max_log_achievement_place_stone": 4.777777777777778, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.1111111111111112, "stats/mean_log_entropy": 0.3339410920937856, "replay/size": 546798.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.058936714467423e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.5115005206007984e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0060045719147, "timer/env.step_count": 1448.0, "timer/env.step_total": 20.985372066497803, "timer/env.step_frac": 0.0699498401588405, "timer/env.step_avg": 0.014492660266918372, "timer/env.step_min": 0.0027484893798828125, "timer/env.step_max": 1.4895861148834229, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.26068544387817383, "timer/replay.add_frac": 0.000868934087669851, "timer/replay.add_avg": 0.00018003138389376645, "timer/replay.add_min": 5.888938903808594e-05, "timer/replay.add_max": 0.0007987022399902344, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022567272186279297, "timer/logger.write_frac": 7.522273501985751e-05, "timer/logger.write_avg": 0.022567272186279297, "timer/logger.write_min": 0.022567272186279297, "timer/logger.write_max": 0.022567272186279297, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 10.658506155014038, "timer/agent.policy_frac": 0.03552764275576051, "timer/agent.policy_avg": 0.007360846792136767, "timer/agent.policy_min": 0.0059661865234375, "timer/agent.policy_max": 0.014974355697631836, "timer/dataset_count": 724.0, "timer/dataset_total": 0.06016850471496582, "timer/dataset_frac": 0.0002005576681734141, "timer/dataset_avg": 8.310566949580914e-05, "timer/dataset_min": 6.270408630371094e-05, "timer/dataset_max": 0.0001399517059326172, "timer/agent.train_count": 724.0, "timer/agent.train_total": 267.3862257003784, "timer/agent.train_frac": 0.891269580026966, "timer/agent.train_avg": 0.3693179912988652, "timer/agent.train_min": 0.3632848262786865, "timer/agent.train_max": 0.384324312210083, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22150731086730957, "timer/agent.report_frac": 0.0007383429247804002, "timer/agent.report_avg": 0.22150731086730957, "timer/agent.report_min": 0.22150731086730957, "timer/agent.report_max": 0.22150731086730957, "fps": 4.8264610908967915}
{"step": 546920, "episode/length": 173.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.900000028312206, "episode/reward_rate": 0.04597701149425287}
{"step": 547300, "episode/length": 379.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.031578947368421054}
{"step": 547460, "episode/length": 159.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 13.10000005364418, "episode/reward_rate": 0.075}
{"step": 547721, "episode/length": 260.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.03065134099616858}
{"step": 547893, "episode/length": 171.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.300000049173832, "episode/reward_rate": 0.06976744186046512}
{"step": 548060, "episode/length": 166.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.05389221556886228}
{"step": 548333, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.531653835348887, "train/action_min": 0.0, "train/action_std": 3.4180259737249923, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0442417332877035, "train/actor_opt_grad_steps": 273250.0, "train/actor_opt_loss": -11.93832426528408, "train/adv_mag": 0.43045577651833833, "train/adv_max": 0.3770049508303812, "train/adv_mean": 0.002409245318880469, "train/adv_min": -0.37086665099614285, "train/adv_std": 0.04917297859306205, "train/cont_avg": 0.9944483090753424, "train/cont_loss_mean": 2.8161776964958795e-05, "train/cont_loss_std": 0.0008544984939635158, "train/cont_neg_acc": 0.9982876712328768, "train/cont_neg_loss": 0.001486479566219963, "train/cont_pos_acc": 0.9999999820369564, "train/cont_pos_loss": 1.6957646508136313e-05, "train/cont_pred": 0.9944428132004934, "train/cont_rate": 0.9944483090753424, "train/dyn_loss_mean": 5.018643402073481, "train/dyn_loss_std": 8.668819009441219, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0679966358289326, "train/extr_critic_critic_opt_grad_steps": 273250.0, "train/extr_critic_critic_opt_loss": 16226.32387093322, "train/extr_critic_mag": 10.506120551122377, "train/extr_critic_max": 10.506120551122377, "train/extr_critic_mean": 2.9498144273888576, "train/extr_critic_min": -0.49572289316621543, "train/extr_critic_std": 2.5685832974028915, "train/extr_return_normed_mag": 1.4211744315003696, "train/extr_return_normed_max": 1.4211744315003696, "train/extr_return_normed_mean": 0.38663327857239604, "train/extr_return_normed_min": -0.09623406322239196, "train/extr_return_normed_std": 0.32621290320402957, "train/extr_return_rate": 0.7739048624691898, "train/extr_return_raw_mag": 11.227750961094687, "train/extr_return_raw_max": 11.227750961094687, "train/extr_return_raw_mean": 2.9690098860492444, "train/extr_return_raw_min": -0.8843257643588601, "train/extr_return_raw_std": 2.6036356654885697, "train/extr_reward_mag": 1.060732175226081, "train/extr_reward_max": 1.060732175226081, "train/extr_reward_mean": 0.057745816390195936, "train/extr_reward_min": -0.6782014876195829, "train/extr_reward_std": 0.23156435175301276, "train/image_loss_mean": 2.935663927091311, "train/image_loss_std": 8.057214978623064, "train/model_loss_mean": 5.999786677425855, "train/model_loss_std": 12.155040558070352, "train/model_opt_grad_norm": 29.411664427143254, "train/model_opt_grad_steps": 273033.38356164383, "train/model_opt_loss": 15628.483023865581, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2602.7397260273974, "train/policy_entropy_mag": 2.6214968962212133, "train/policy_entropy_max": 2.6214968962212133, "train/policy_entropy_mean": 0.39227310619125627, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.562227386317841, "train/policy_logprob_mag": 7.438384245519769, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39245919434175097, "train/policy_logprob_min": -7.438384245519769, "train/policy_logprob_std": 1.0117141196172532, "train/policy_randomness_mag": 0.9252733629043788, "train/policy_randomness_max": 0.9252733629043788, "train/policy_randomness_mean": 0.13845519394907232, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19844159351228036, "train/post_ent_mag": 55.056702287229776, "train/post_ent_max": 55.056702287229776, "train/post_ent_mean": 40.96590277266829, "train/post_ent_min": 19.147573026892257, "train/post_ent_std": 5.582368837643976, "train/prior_ent_mag": 76.59206223161253, "train/prior_ent_max": 76.59206223161253, "train/prior_ent_mean": 46.02665062473245, "train/prior_ent_min": 28.32812614963479, "train/prior_ent_std": 7.344212708407885, "train/rep_loss_mean": 5.018643402073481, "train/rep_loss_std": 8.668819009441219, "train/reward_avg": 0.03680704173006832, "train/reward_loss_mean": 0.05290854706952017, "train/reward_loss_std": 0.21371419339963835, "train/reward_max_data": 1.028767130146288, "train/reward_max_pred": 1.0267246292062002, "train/reward_neg_acc": 0.9946648584653254, "train/reward_neg_loss": 0.022868378891622368, "train/reward_pos_acc": 0.9856173518585832, "train/reward_pos_loss": 0.7425195484945218, "train/reward_pred": 0.036340901934324876, "train/reward_rate": 0.04183165667808219, "stats/sum_log_reward": 9.266666809717814, "stats/max_log_achievement_collect_coal": 0.16666666666666666, "stats/max_log_achievement_collect_drink": 3.3333333333333335, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 11.833333333333334, "stats/max_log_achievement_collect_wood": 9.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 0.8333333333333334, "stats/max_log_achievement_place_stone": 3.1666666666666665, "stats/max_log_achievement_place_table": 2.1666666666666665, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.5127547259132067, "replay/size": 548270.0, "replay/inserts": 1472.0, "replay/samples": 11776.0, "replay/insert_wait_avg": 3.048097309858903e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.5180153043373772e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.221164226532, "timer/env.step_count": 1472.0, "timer/env.step_total": 16.860254526138306, "timer/env.step_frac": 0.05615944688501839, "timer/env.step_avg": 0.011453977259604828, "timer/env.step_min": 0.0027878284454345703, "timer/env.step_max": 1.481914758682251, "timer/replay.add_count": 1472.0, "timer/replay.add_total": 0.2674570083618164, "timer/replay.add_frac": 0.0008908666017962898, "timer/replay.add_avg": 0.00018169633720232093, "timer/replay.add_min": 5.9604644775390625e-05, "timer/replay.add_max": 0.0008690357208251953, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026345491409301758, "timer/logger.write_frac": 8.7753611498964e-05, "timer/logger.write_avg": 0.026345491409301758, "timer/logger.write_min": 0.026345491409301758, "timer/logger.write_max": 0.026345491409301758, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1472.0, "timer/agent.policy_total": 10.872997522354126, "timer/agent.policy_frac": 0.03621662566783567, "timer/agent.policy_avg": 0.00738654722986014, "timer/agent.policy_min": 0.00616145133972168, "timer/agent.policy_max": 0.017197132110595703, "timer/dataset_count": 736.0, "timer/dataset_total": 0.06107473373413086, "timer/dataset_frac": 0.0002034324724956662, "timer/dataset_avg": 8.298197518224302e-05, "timer/dataset_min": 5.91278076171875e-05, "timer/dataset_max": 0.00015473365783691406, "timer/agent.train_count": 736.0, "timer/agent.train_total": 271.50032925605774, "timer/agent.train_frac": 0.9043344094528828, "timer/agent.train_avg": 0.3688863169239915, "timer/agent.train_min": 0.3628058433532715, "timer/agent.train_max": 0.38315415382385254, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22271728515625, "timer/agent.report_frac": 0.0007418440526338064, "timer/agent.report_avg": 0.22271728515625, "timer/agent.report_min": 0.22271728515625, "timer/agent.report_max": 0.22271728515625, "fps": 4.902938914669979}
{"step": 548455, "episode/length": 394.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.03291139240506329}
{"step": 548635, "episode/length": 179.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.06111111111111111}
{"step": 548759, "episode/length": 123.0, "episode/score": 10.1000000461936, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.0967741935483871}
{"step": 549174, "episode/length": 414.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.02650602409638554}
{"step": 549377, "episode/length": 202.0, "episode/score": 9.099999971687794, "episode/sum_abs_reward": 11.900000043213367, "episode/reward_rate": 0.054187192118226604}
{"step": 549618, "episode/length": 240.0, "episode/score": 8.099999994039536, "episode/sum_abs_reward": 11.100000023841858, "episode/reward_rate": 0.04149377593360996}
{"step": 549765, "episode/length": 146.0, "episode/score": 5.100000001490116, "episode/sum_abs_reward": 7.1000000312924385, "episode/reward_rate": 0.04081632653061224}
{"step": 549773, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.580202738444011, "train/action_min": 0.0, "train/action_std": 3.4602199527952404, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04317151718876428, "train/actor_opt_grad_steps": 273975.0, "train/actor_opt_loss": -12.618052403985834, "train/adv_mag": 0.4342777952551842, "train/adv_max": 0.3782331728272968, "train/adv_mean": 0.002420796626867943, "train/adv_min": -0.38813178054988384, "train/adv_std": 0.048701935809933476, "train/cont_avg": 0.9948594835069444, "train/cont_loss_mean": 8.84926134009984e-06, "train/cont_loss_std": 0.00022071304348969534, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00033545624069120095, "train/cont_pos_acc": 0.999999974336889, "train/cont_pos_loss": 6.635476534702336e-06, "train/cont_pred": 0.9948553765813509, "train/cont_rate": 0.9948594835069444, "train/dyn_loss_mean": 5.118864913781484, "train/dyn_loss_std": 8.695357349183825, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0735623778568373, "train/extr_critic_critic_opt_grad_steps": 273975.0, "train/extr_critic_critic_opt_loss": 16122.848470052084, "train/extr_critic_mag": 10.705555412504408, "train/extr_critic_max": 10.705555412504408, "train/extr_critic_mean": 2.86300960679849, "train/extr_critic_min": -0.4371342890792423, "train/extr_critic_std": 2.6201618479357824, "train/extr_return_normed_mag": 1.4209482537375555, "train/extr_return_normed_max": 1.4209482537375555, "train/extr_return_normed_mean": 0.37177936856945354, "train/extr_return_normed_min": -0.08764549784569277, "train/extr_return_normed_std": 0.3280375579165088, "train/extr_return_rate": 0.7482955762081676, "train/extr_return_raw_mag": 11.361212849617004, "train/extr_return_raw_max": 11.361212849617004, "train/extr_return_raw_mean": 2.882581614785724, "train/extr_return_raw_min": -0.8297498143381543, "train/extr_return_raw_std": 2.6508644885487027, "train/extr_reward_mag": 1.0504925847053528, "train/extr_reward_max": 1.0504925847053528, "train/extr_reward_mean": 0.05435557415088018, "train/extr_reward_min": -0.6363929278320737, "train/extr_reward_std": 0.22461925157242352, "train/image_loss_mean": 2.9739459405342736, "train/image_loss_std": 7.85699862241745, "train/model_loss_mean": 6.098046037885878, "train/model_loss_std": 12.01559336980184, "train/model_opt_grad_norm": 26.954918066660564, "train/model_opt_grad_steps": 273757.77777777775, "train/model_opt_loss": 15536.508599175348, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2534.722222222222, "train/policy_entropy_mag": 2.6230748759375677, "train/policy_entropy_max": 2.6230748759375677, "train/policy_entropy_mean": 0.4248690323697196, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5930645387205813, "train/policy_logprob_mag": 7.438384215037028, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4251671503815386, "train/policy_logprob_min": -7.438384215037028, "train/policy_logprob_std": 1.035680087076293, "train/policy_randomness_mag": 0.9258303236630228, "train/policy_randomness_max": 0.9258303236630228, "train/policy_randomness_mean": 0.14996012517561516, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2093257570846213, "train/post_ent_mag": 54.943356884850395, "train/post_ent_max": 54.943356884850395, "train/post_ent_mean": 40.95976416269938, "train/post_ent_min": 19.37413231531779, "train/post_ent_std": 5.622398886415693, "train/prior_ent_mag": 76.55807823605008, "train/prior_ent_max": 76.55807823605008, "train/prior_ent_mean": 46.09988048341539, "train/prior_ent_min": 28.484484805001152, "train/prior_ent_std": 7.441257801320818, "train/rep_loss_mean": 5.118864913781484, "train/rep_loss_std": 8.695357349183825, "train/reward_avg": 0.037771267221412726, "train/reward_loss_mean": 0.052772257632265486, "train/reward_loss_std": 0.20234296781321368, "train/reward_max_data": 1.0152777814202838, "train/reward_max_pred": 1.0169241196579404, "train/reward_neg_acc": 0.9948503052194914, "train/reward_neg_loss": 0.023228809328025415, "train/reward_pos_acc": 0.9908496083484756, "train/reward_pos_loss": 0.7173209761579832, "train/reward_pred": 0.03749033262849682, "train/reward_rate": 0.042561848958333336, "stats/sum_log_reward": 9.242857319968087, "stats/max_log_achievement_collect_coal": 0.42857142857142855, "stats/max_log_achievement_collect_drink": 3.2857142857142856, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 12.285714285714286, "stats/max_log_achievement_collect_wood": 10.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.2857142857142857, "stats/max_log_achievement_defeat_zombie": 0.42857142857142855, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.14285714285714285, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2857142857142858, "stats/max_log_achievement_place_furnace": 1.8571428571428572, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 3.142857142857143, "stats/max_log_achievement_place_table": 2.7142857142857144, "stats/max_log_achievement_wake_up": 1.8571428571428572, "stats/mean_log_entropy": 0.5177246332168579, "replay/size": 549710.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.0686457951863607e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.493882801797655e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.26315808296204, "timer/env.step_count": 1440.0, "timer/env.step_total": 18.387349605560303, "timer/env.step_frac": 0.06123744825357468, "timer/env.step_avg": 0.012768992781639099, "timer/env.step_min": 0.0025675296783447266, "timer/env.step_max": 1.5060205459594727, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.28417229652404785, "timer/replay.add_frac": 0.0009464108029048695, "timer/replay.add_avg": 0.00019734187258614434, "timer/replay.add_min": 5.7697296142578125e-05, "timer/replay.add_max": 0.0008335113525390625, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028755903244018555, "timer/logger.write_frac": 9.576900285606589e-05, "timer/logger.write_avg": 0.028755903244018555, "timer/logger.write_min": 0.028755903244018555, "timer/logger.write_max": 0.028755903244018555, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003821849822998047, "timer/checkpoint.save_frac": 1.2728334196571922e-06, "timer/checkpoint.save_avg": 0.0003821849822998047, "timer/checkpoint.save_min": 0.0003821849822998047, "timer/checkpoint.save_max": 0.0003821849822998047, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.241389513015747, "timer/agent.save_frac": 0.004134338428135609, "timer/agent.save_avg": 1.241389513015747, "timer/agent.save_min": 1.241389513015747, "timer/agent.save_max": 1.241389513015747, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.249282836914062e-05, "timer/replay.save_frac": 2.7473509869082254e-07, "timer/replay.save_avg": 8.249282836914062e-05, "timer/replay.save_min": 8.249282836914062e-05, "timer/replay.save_max": 8.249282836914062e-05, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 14.80156660079956, "timer/agent.policy_frac": 0.04929531380173495, "timer/agent.policy_avg": 0.010278865694999695, "timer/agent.policy_min": 0.006054878234863281, "timer/agent.policy_max": 2.937546491622925, "timer/dataset_count": 720.0, "timer/dataset_total": 0.0609431266784668, "timer/dataset_frac": 0.00020296571536634658, "timer/dataset_avg": 8.464323149787055e-05, "timer/dataset_min": 6.270408630371094e-05, "timer/dataset_max": 0.0004239082336425781, "timer/agent.train_count": 720.0, "timer/agent.train_total": 266.06754970550537, "timer/agent.train_frac": 0.8861145383410358, "timer/agent.train_avg": 0.36953826347986857, "timer/agent.train_min": 0.3625361919403076, "timer/agent.train_max": 0.40117573738098145, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22083592414855957, "timer/agent.report_frac": 0.0007354745935481805, "timer/agent.report_avg": 0.22083592414855957, "timer/agent.report_min": 0.22083592414855957, "timer/agent.report_max": 0.22083592414855957, "fps": 4.795689840277838}
{"step": 549982, "episode/length": 216.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.05069124423963134}
{"step": 550130, "episode/length": 147.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.07432432432432433}
{"step": 550168, "episode/length": 37.0, "episode/score": 3.0999999716877937, "episode/sum_abs_reward": 5.1000000312924385, "episode/reward_rate": 0.13157894736842105}
{"step": 550484, "episode/length": 315.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.30000003427267, "episode/reward_rate": 0.04113924050632911}
{"step": 551045, "episode/length": 560.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.900000013411045, "episode/reward_rate": 0.016042780748663103}
{"step": 551255, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.62386095201647, "train/action_min": 0.0, "train/action_std": 3.4830276482814067, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.043385908435526734, "train/actor_opt_grad_steps": 274705.0, "train/actor_opt_loss": -12.761327495446077, "train/adv_mag": 0.4611481520775202, "train/adv_max": 0.40658907753390233, "train/adv_mean": 0.0025665409860242084, "train/adv_min": -0.41746609154585246, "train/adv_std": 0.04912811049537079, "train/cont_avg": 0.9948400548986487, "train/cont_loss_mean": 0.00010343150170213546, "train/cont_loss_std": 0.0032345572978811476, "train/cont_neg_acc": 0.9939189190800125, "train/cont_neg_loss": 0.021506267522062677, "train/cont_pos_acc": 0.9999999814742321, "train/cont_pos_loss": 8.246365159782334e-06, "train/cont_pred": 0.9948577373414427, "train/cont_rate": 0.9948400548986487, "train/dyn_loss_mean": 5.079606765025371, "train/dyn_loss_std": 8.72377449757344, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0473714213113527, "train/extr_critic_critic_opt_grad_steps": 274705.0, "train/extr_critic_critic_opt_loss": 16062.882984058277, "train/extr_critic_mag": 11.03705629142555, "train/extr_critic_max": 11.03705629142555, "train/extr_critic_mean": 2.866461591140644, "train/extr_critic_min": -0.4437676909807566, "train/extr_critic_std": 2.651678172317711, "train/extr_return_normed_mag": 1.4630057972830695, "train/extr_return_normed_max": 1.4630057972830695, "train/extr_return_normed_mean": 0.37003755327817556, "train/extr_return_normed_min": -0.08984913656840453, "train/extr_return_normed_std": 0.33284418727900533, "train/extr_return_rate": 0.7498751073270231, "train/extr_return_raw_mag": 11.716860229904587, "train/extr_return_raw_max": 11.716860229904587, "train/extr_return_raw_mean": 2.8872349342784367, "train/extr_return_raw_min": -0.8270712229045661, "train/extr_return_raw_std": 2.688777198662629, "train/extr_reward_mag": 1.0506324639191498, "train/extr_reward_max": 1.0506324639191498, "train/extr_reward_mean": 0.05457794016881569, "train/extr_reward_min": -0.6605237722396851, "train/extr_reward_std": 0.2260358448366861, "train/image_loss_mean": 3.1424046513196586, "train/image_loss_std": 8.366173009614688, "train/model_loss_mean": 6.242092796274133, "train/model_loss_std": 12.473069087879077, "train/model_opt_grad_norm": 28.839079289822966, "train/model_opt_grad_steps": 274486.6756756757, "train/model_opt_loss": 13114.454431482263, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2094.5945945945946, "train/policy_entropy_mag": 2.6156947387231364, "train/policy_entropy_max": 2.6156947387231364, "train/policy_entropy_mean": 0.4356000548278963, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6081976052877065, "train/policy_logprob_mag": 7.438384210741198, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4345867339823697, "train/policy_logprob_min": -7.438384210741198, "train/policy_logprob_std": 1.0430918223149068, "train/policy_randomness_mag": 0.9232254551874625, "train/policy_randomness_max": 0.9232254551874625, "train/policy_randomness_mean": 0.15374770599442558, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2146670657235223, "train/post_ent_mag": 55.37710669233992, "train/post_ent_max": 55.37710669233992, "train/post_ent_mean": 41.11257754145442, "train/post_ent_min": 19.479088370864456, "train/post_ent_std": 5.646196623106261, "train/prior_ent_mag": 76.62237600378089, "train/prior_ent_max": 76.62237600378089, "train/prior_ent_mean": 46.18350410461426, "train/prior_ent_min": 28.52239180899955, "train/prior_ent_std": 7.420377563785863, "train/rep_loss_mean": 5.079606765025371, "train/rep_loss_std": 8.72377449757344, "train/reward_avg": 0.03660525731440332, "train/reward_loss_mean": 0.051820637406529604, "train/reward_loss_std": 0.20152350494990479, "train/reward_max_data": 1.0148648684089248, "train/reward_max_pred": 1.0145865259943783, "train/reward_neg_acc": 0.9944506706418218, "train/reward_neg_loss": 0.02254953164909337, "train/reward_pos_acc": 0.9854948343457403, "train/reward_pos_loss": 0.7290729646747177, "train/reward_pred": 0.03635473275003401, "train/reward_rate": 0.04154349662162162, "stats/sum_log_reward": 8.700000286102295, "stats/max_log_achievement_collect_coal": 0.6, "stats/max_log_achievement_collect_drink": 3.6, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.4, "stats/max_log_achievement_collect_stone": 12.4, "stats/max_log_achievement_collect_wood": 7.8, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.6, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2, "stats/max_log_achievement_place_furnace": 2.2, "stats/max_log_achievement_place_plant": 1.4, "stats/max_log_achievement_place_stone": 2.6, "stats/max_log_achievement_place_table": 2.6, "stats/max_log_achievement_wake_up": 3.0, "stats/mean_log_entropy": 0.69071164727211, "replay/size": 551192.0, "replay/inserts": 1482.0, "replay/samples": 11856.0, "replay/insert_wait_avg": 3.0572919549568785e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.5351011363761788e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.12179374694824, "timer/env.step_count": 1482.0, "timer/env.step_total": 14.996474742889404, "timer/env.step_frac": 0.0499679631914165, "timer/env.step_avg": 0.01011907877387949, "timer/env.step_min": 0.0023393630981445312, "timer/env.step_max": 1.4448914527893066, "timer/replay.add_count": 1482.0, "timer/replay.add_total": 0.2763392925262451, "timer/replay.add_frac": 0.0009207571668695421, "timer/replay.add_avg": 0.00018646376013916675, "timer/replay.add_min": 6.079673767089844e-05, "timer/replay.add_max": 0.0013103485107421875, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02247905731201172, "timer/logger.write_frac": 7.489978328919772e-05, "timer/logger.write_avg": 0.02247905731201172, "timer/logger.write_min": 0.02247905731201172, "timer/logger.write_max": 0.02247905731201172, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1482.0, "timer/agent.policy_total": 10.920970916748047, "timer/agent.policy_frac": 0.03638846343147013, "timer/agent.policy_avg": 0.007369076192137684, "timer/agent.policy_min": 0.005968332290649414, "timer/agent.policy_max": 0.01868748664855957, "timer/dataset_count": 741.0, "timer/dataset_total": 0.06217837333679199, "timer/dataset_frac": 0.000207177134857519, "timer/dataset_avg": 8.391143500241834e-05, "timer/dataset_min": 5.91278076171875e-05, "timer/dataset_max": 0.0002772808074951172, "timer/agent.train_count": 741.0, "timer/agent.train_total": 273.2046580314636, "timer/agent.train_frac": 0.9103126254863712, "timer/agent.train_avg": 0.36869724430696843, "timer/agent.train_min": 0.36186695098876953, "timer/agent.train_max": 0.38622164726257324, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.224531888961792, "timer/agent.report_frac": 0.0007481359022900852, "timer/agent.report_avg": 0.224531888961792, "timer/agent.report_min": 0.224531888961792, "timer/agent.report_max": 0.224531888961792, "fps": 4.937882311395997}
{"step": 551408, "episode/length": 362.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.03305785123966942}
{"step": 551607, "episode/length": 198.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 13.900000020861626, "episode/reward_rate": 0.07035175879396985}
{"step": 551845, "episode/length": 237.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.700000040233135, "episode/reward_rate": 0.0546218487394958}
{"step": 552000, "episode/length": 154.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.06451612903225806}
{"step": 552193, "episode/length": 192.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.03626943005181347}
{"step": 552481, "episode/length": 287.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.04513888888888889}
{"step": 552731, "episode/length": 249.0, "episode/score": 8.099999994039536, "episode/sum_abs_reward": 10.100000008940697, "episode/reward_rate": 0.04}
{"step": 552735, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.476712613492398, "train/action_min": 0.0, "train/action_std": 3.3917954515766455, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.043626355510708446, "train/actor_opt_grad_steps": 275445.0, "train/actor_opt_loss": -13.203210314484062, "train/adv_mag": 0.43228384208034826, "train/adv_max": 0.38722044511421305, "train/adv_mean": 0.0025889879094098136, "train/adv_min": -0.3620740314190452, "train/adv_std": 0.04911132952248728, "train/cont_avg": 0.994457347972973, "train/cont_loss_mean": 3.06234169870949e-05, "train/cont_loss_std": 0.0008520809653689228, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0003803171716523704, "train/cont_pos_acc": 0.9999867629360508, "train/cont_pos_loss": 2.8586402451234614e-05, "train/cont_pred": 0.9944372233506795, "train/cont_rate": 0.994457347972973, "train/dyn_loss_mean": 5.10816925280803, "train/dyn_loss_std": 8.72367134609738, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.080697401149853, "train/extr_critic_critic_opt_grad_steps": 275445.0, "train/extr_critic_critic_opt_loss": 16145.044552364865, "train/extr_critic_mag": 10.886381922541437, "train/extr_critic_max": 10.886381922541437, "train/extr_critic_mean": 2.936003034179275, "train/extr_critic_min": -0.45563779489414113, "train/extr_critic_std": 2.6429452122868717, "train/extr_return_normed_mag": 1.4324455051808744, "train/extr_return_normed_max": 1.4324455051808744, "train/extr_return_normed_mean": 0.3747780367329314, "train/extr_return_normed_min": -0.08568631817360182, "train/extr_return_normed_std": 0.3299641903187778, "train/extr_return_rate": 0.7704814591923276, "train/extr_return_raw_mag": 11.55131803976523, "train/extr_return_raw_max": 11.55131803976523, "train/extr_return_raw_mean": 2.9570238622459204, "train/extr_return_raw_min": -0.7844644901720254, "train/extr_return_raw_std": 2.6810646894815804, "train/extr_reward_mag": 1.0518581996092926, "train/extr_reward_max": 1.0518581996092926, "train/extr_reward_mean": 0.056103403201779804, "train/extr_reward_min": -0.6337803054500271, "train/extr_reward_std": 0.22832010706534256, "train/image_loss_mean": 3.0713330233419263, "train/image_loss_std": 8.182344887707684, "train/model_loss_mean": 6.187492203068089, "train/model_loss_std": 12.284121835553968, "train/model_opt_grad_norm": 30.943531448776657, "train/model_opt_grad_steps": 275226.0, "train/model_opt_loss": 7734.365240973395, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.620752424807162, "train/policy_entropy_max": 2.620752424807162, "train/policy_entropy_mean": 0.41145128857445074, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5881659557690492, "train/policy_logprob_mag": 7.438384300953633, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41123967980210846, "train/policy_logprob_min": -7.438384300953633, "train/policy_logprob_std": 1.027116446881681, "train/policy_randomness_mag": 0.9250105957727175, "train/policy_randomness_max": 0.9250105957727175, "train/policy_randomness_mean": 0.14522425045032758, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.207596774640921, "train/post_ent_mag": 55.223999951336836, "train/post_ent_max": 55.223999951336836, "train/post_ent_mean": 40.96642226141852, "train/post_ent_min": 19.353805889954437, "train/post_ent_std": 5.650383807517387, "train/prior_ent_mag": 76.66368185507285, "train/prior_ent_max": 76.66368185507285, "train/prior_ent_mean": 46.073938730600716, "train/prior_ent_min": 28.50012562725995, "train/prior_ent_std": 7.465371937365146, "train/rep_loss_mean": 5.10816925280803, "train/rep_loss_std": 8.72367134609738, "train/reward_avg": 0.03579365454513479, "train/reward_loss_mean": 0.051226971217909374, "train/reward_loss_std": 0.20217609163877126, "train/reward_max_data": 1.0189189234295406, "train/reward_max_pred": 1.0161205626822807, "train/reward_neg_acc": 0.9947702707471074, "train/reward_neg_loss": 0.022717467836431554, "train/reward_pos_acc": 0.9876286169967136, "train/reward_pos_loss": 0.7277216677730148, "train/reward_pred": 0.035500938752414404, "train/reward_rate": 0.04052734375, "stats/sum_log_reward": 9.957143170492989, "stats/max_log_achievement_collect_coal": 1.1428571428571428, "stats/max_log_achievement_collect_drink": 2.7142857142857144, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 0.7142857142857143, "stats/max_log_achievement_collect_stone": 14.857142857142858, "stats/max_log_achievement_collect_wood": 7.857142857142857, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.5714285714285714, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_stone_pickaxe": 0.14285714285714285, "stats/max_log_achievement_make_stone_sword": 0.42857142857142855, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 0.7142857142857143, "stats/max_log_achievement_place_stone": 4.428571428571429, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.5279116140944617, "replay/size": 552672.0, "replay/inserts": 1480.0, "replay/samples": 11840.0, "replay/insert_wait_avg": 3.005040658486856e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4708050199457117e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.12394618988037, "timer/env.step_count": 1480.0, "timer/env.step_total": 17.009629487991333, "timer/env.step_frac": 0.056675349314612156, "timer/env.step_avg": 0.011492992897291441, "timer/env.step_min": 0.0024237632751464844, "timer/env.step_max": 1.287771224975586, "timer/replay.add_count": 1480.0, "timer/replay.add_total": 0.2624225616455078, "timer/replay.add_frac": 0.0008743806183312014, "timer/replay.add_avg": 0.00017731254165237015, "timer/replay.add_min": 5.745887756347656e-05, "timer/replay.add_max": 0.0008449554443359375, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02089095115661621, "timer/logger.write_frac": 6.960774513940007e-05, "timer/logger.write_avg": 0.02089095115661621, "timer/logger.write_min": 0.02089095115661621, "timer/logger.write_max": 0.02089095115661621, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1480.0, "timer/agent.policy_total": 10.722254037857056, "timer/agent.policy_frac": 0.0357260864185538, "timer/agent.policy_avg": 0.007244766241795308, "timer/agent.policy_min": 0.0058438777923583984, "timer/agent.policy_max": 0.01626753807067871, "timer/dataset_count": 740.0, "timer/dataset_total": 0.05793404579162598, "timer/dataset_frac": 0.00019303373331954211, "timer/dataset_avg": 7.828925106976483e-05, "timer/dataset_min": 5.626678466796875e-05, "timer/dataset_max": 0.00019979476928710938, "timer/agent.train_count": 740.0, "timer/agent.train_total": 271.4270465373993, "timer/agent.train_frac": 0.9043831722966706, "timer/agent.train_avg": 0.36679330613162064, "timer/agent.train_min": 0.3606090545654297, "timer/agent.train_max": 0.3851664066314697, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2243187427520752, "timer/agent.report_frac": 0.0007474203428278087, "timer/agent.report_avg": 0.2243187427520752, "timer/agent.report_min": 0.2243187427520752, "timer/agent.report_max": 0.2243187427520752, "fps": 4.93118682360414}
{"step": 552951, "episode/length": 219.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.06363636363636363}
{"step": 553119, "episode/length": 167.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.06547619047619048}
{"step": 553357, "episode/length": 237.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 13.299999982118607, "episode/reward_rate": 0.0546218487394958}
{"step": 553415, "episode/length": 57.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.08620689655172414}
{"step": 553575, "episode/length": 159.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.900000028312206, "episode/reward_rate": 0.0625}
{"step": 553761, "episode/length": 185.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.053763440860215055}
{"step": 553924, "episode/length": 162.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.08588957055214724}
{"step": 554053, "episode/length": 128.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.07751937984496124}
{"step": 554146, "episode/length": 92.0, "episode/score": 9.099999971687794, "episode/sum_abs_reward": 11.500000037252903, "episode/reward_rate": 0.11827956989247312}
{"step": 554181, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.569655326947774, "train/action_min": 0.0, "train/action_std": 3.4627536910853975, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.043618793816190875, "train/actor_opt_grad_steps": 276180.0, "train/actor_opt_loss": -13.746110816524453, "train/adv_mag": 0.4534497236552304, "train/adv_max": 0.4108704512249933, "train/adv_mean": 0.0019603419416242803, "train/adv_min": -0.3893077361257109, "train/adv_std": 0.04982498778055792, "train/cont_avg": 0.9942075128424658, "train/cont_loss_mean": 0.00016419343167754425, "train/cont_loss_std": 0.005146283684291419, "train/cont_neg_acc": 0.9929232820868492, "train/cont_neg_loss": 0.02870577738564053, "train/cont_pos_acc": 0.9999999861194663, "train/cont_pos_loss": 6.085890359992396e-06, "train/cont_pred": 0.9942431000814046, "train/cont_rate": 0.9942075128424658, "train/dyn_loss_mean": 5.136070747898049, "train/dyn_loss_std": 8.693534949054456, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0942248620399058, "train/extr_critic_critic_opt_grad_steps": 276180.0, "train/extr_critic_critic_opt_loss": 16099.036386986301, "train/extr_critic_mag": 10.91624512084543, "train/extr_critic_max": 10.91624512084543, "train/extr_critic_mean": 2.8851813110586715, "train/extr_critic_min": -0.4508765674617192, "train/extr_critic_std": 2.652717890804761, "train/extr_return_normed_mag": 1.4580196174856734, "train/extr_return_normed_max": 1.4580196174856734, "train/extr_return_normed_mean": 0.3693021511378354, "train/extr_return_normed_min": -0.089382275428674, "train/extr_return_normed_std": 0.3320613293206855, "train/extr_return_rate": 0.7567414429089795, "train/extr_return_raw_mag": 11.697078939986556, "train/extr_return_raw_max": 11.697078939986556, "train/extr_return_raw_mean": 2.901018312532608, "train/extr_return_raw_min": -0.8052457566947153, "train/extr_return_raw_std": 2.683056222249384, "train/extr_reward_mag": 1.0514919398582145, "train/extr_reward_max": 1.0514919398582145, "train/extr_reward_mean": 0.05477261997453154, "train/extr_reward_min": -0.6792321515409914, "train/extr_reward_std": 0.22627058421095755, "train/image_loss_mean": 3.061314968213643, "train/image_loss_std": 7.879689281933929, "train/model_loss_mean": 6.194904320860562, "train/model_loss_std": 12.016189503343139, "train/model_opt_grad_norm": 28.261191080694328, "train/model_opt_grad_steps": 275960.8219178082, "train/model_opt_loss": 13863.101896939212, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2243.150684931507, "train/policy_entropy_mag": 2.616331015547661, "train/policy_entropy_max": 2.616331015547661, "train/policy_entropy_mean": 0.42053469280674033, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5947415861364913, "train/policy_logprob_mag": 7.438384225923721, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.421956648361193, "train/policy_logprob_min": -7.438384225923721, "train/policy_logprob_std": 1.037372458471011, "train/policy_randomness_mag": 0.9234500331421421, "train/policy_randomness_max": 0.9234500331421421, "train/policy_randomness_mean": 0.14843029212461759, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.209917679939368, "train/post_ent_mag": 55.1684711926604, "train/post_ent_max": 55.1684711926604, "train/post_ent_mean": 41.01207733154297, "train/post_ent_min": 19.375271052530366, "train/post_ent_std": 5.6708414652576185, "train/prior_ent_mag": 76.56908552613977, "train/prior_ent_max": 76.56908552613977, "train/prior_ent_mean": 46.18220880586807, "train/prior_ent_min": 28.21623668931935, "train/prior_ent_std": 7.493465743652762, "train/rep_loss_mean": 5.136070747898049, "train/rep_loss_std": 8.693534949054456, "train/reward_avg": 0.035504066551180734, "train/reward_loss_mean": 0.05178275086904225, "train/reward_loss_std": 0.2042669657975027, "train/reward_max_data": 1.0164383600835931, "train/reward_max_pred": 1.0175786410292533, "train/reward_neg_acc": 0.9944603786076585, "train/reward_neg_loss": 0.023390515209877328, "train/reward_pos_acc": 0.9863080137396512, "train/reward_pos_loss": 0.7250396666461474, "train/reward_pred": 0.03539950210499029, "train/reward_rate": 0.040534032534246575, "stats/sum_log_reward": 9.766666677263048, "stats/max_log_achievement_collect_coal": 1.1111111111111112, "stats/max_log_achievement_collect_drink": 2.111111111111111, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.2222222222222223, "stats/max_log_achievement_collect_stone": 8.333333333333334, "stats/max_log_achievement_collect_wood": 8.222222222222221, "stats/max_log_achievement_defeat_skeleton": 0.2222222222222222, "stats/max_log_achievement_defeat_zombie": 0.5555555555555556, "stats/max_log_achievement_eat_cow": 0.2222222222222222, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8888888888888888, "stats/max_log_achievement_place_furnace": 1.1111111111111112, "stats/max_log_achievement_place_plant": 1.2222222222222223, "stats/max_log_achievement_place_stone": 2.7777777777777777, "stats/max_log_achievement_place_table": 2.5555555555555554, "stats/max_log_achievement_wake_up": 1.1111111111111112, "stats/mean_log_entropy": 0.2835428085592058, "replay/size": 554118.0, "replay/inserts": 1446.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 2.997050146838936e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4716493967987526e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.19405794143677, "timer/env.step_count": 1446.0, "timer/env.step_total": 19.610522508621216, "timer/env.step_frac": 0.0653261515004635, "timer/env.step_avg": 0.01356191044856239, "timer/env.step_min": 0.0023949146270751953, "timer/env.step_max": 1.297135829925537, "timer/replay.add_count": 1446.0, "timer/replay.add_total": 0.26985907554626465, "timer/replay.add_frac": 0.0008989487580027649, "timer/replay.add_avg": 0.00018662453357279712, "timer/replay.add_min": 5.984306335449219e-05, "timer/replay.add_max": 0.0008244514465332031, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.019589662551879883, "timer/logger.write_frac": 6.525666326047508e-05, "timer/logger.write_avg": 0.019589662551879883, "timer/logger.write_min": 0.019589662551879883, "timer/logger.write_max": 0.019589662551879883, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00042819976806640625, "timer/checkpoint.save_frac": 1.42640987300935e-06, "timer/checkpoint.save_avg": 0.00042819976806640625, "timer/checkpoint.save_min": 0.00042819976806640625, "timer/checkpoint.save_max": 0.00042819976806640625, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.689483404159546, "timer/agent.save_frac": 0.00562797083908016, "timer/agent.save_avg": 1.689483404159546, "timer/agent.save_min": 1.689483404159546, "timer/agent.save_max": 1.689483404159546, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.00010228157043457031, "timer/replay.save_frac": 3.407181712255073e-07, "timer/replay.save_avg": 0.00010228157043457031, "timer/replay.save_min": 0.00010228157043457031, "timer/replay.save_max": 0.00010228157043457031, "timer/agent.policy_count": 1446.0, "timer/agent.policy_total": 14.40203070640564, "timer/agent.policy_frac": 0.047975735446486596, "timer/agent.policy_avg": 0.009959910585342766, "timer/agent.policy_min": 0.005906581878662109, "timer/agent.policy_max": 2.361146926879883, "timer/dataset_count": 723.0, "timer/dataset_total": 0.05669903755187988, "timer/dataset_frac": 0.00018887461644207824, "timer/dataset_avg": 7.842190532763469e-05, "timer/dataset_min": 5.841255187988281e-05, "timer/dataset_max": 0.00015282630920410156, "timer/agent.train_count": 723.0, "timer/agent.train_total": 265.22076869010925, "timer/agent.train_frac": 0.883497729798002, "timer/agent.train_avg": 0.36683370496557294, "timer/agent.train_min": 0.3572394847869873, "timer/agent.train_max": 0.40775465965270996, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22199296951293945, "timer/agent.report_frac": 0.000739498213373187, "timer/agent.report_avg": 0.22199296951293945, "timer/agent.report_min": 0.22199296951293945, "timer/agent.report_max": 0.22199296951293945, "fps": 4.816774859002325}
{"step": 554349, "episode/length": 202.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.06403940886699508}
{"step": 554519, "episode/length": 169.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.07058823529411765}
{"step": 554704, "episode/length": 184.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.05945945945945946}
{"step": 554866, "episode/length": 161.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.30000003427267, "episode/reward_rate": 0.06790123456790123}
{"step": 555014, "episode/length": 147.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.08108108108108109}
{"step": 555255, "episode/length": 240.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 13.500000014901161, "episode/reward_rate": 0.04979253112033195}
{"step": 555420, "episode/length": 164.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.299999997019768, "episode/reward_rate": 0.06060606060606061}
{"step": 555651, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.500213204997859, "train/action_min": 0.0, "train/action_std": 3.4149283121709955, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04361557291999255, "train/actor_opt_grad_steps": 276910.0, "train/actor_opt_loss": -13.471194219303458, "train/adv_mag": 0.46363733810921237, "train/adv_max": 0.4097184110177706, "train/adv_mean": 0.0021821490563898767, "train/adv_min": -0.41770845365850895, "train/adv_std": 0.050189581788974265, "train/cont_avg": 0.9947426155821918, "train/cont_loss_mean": 2.1017457961168115e-05, "train/cont_loss_std": 0.0006357227093618249, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00045586531376862346, "train/cont_pos_acc": 0.9999865383318026, "train/cont_pos_loss": 1.8116089000023772e-05, "train/cont_pred": 0.994731993707892, "train/cont_rate": 0.9947426155821918, "train/dyn_loss_mean": 5.236966387866294, "train/dyn_loss_std": 8.80830483240624, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0838295172338617, "train/extr_critic_critic_opt_grad_steps": 276910.0, "train/extr_critic_critic_opt_loss": 16192.796018835616, "train/extr_critic_mag": 11.11507239407056, "train/extr_critic_max": 11.11507239407056, "train/extr_critic_mean": 2.86473060960639, "train/extr_critic_min": -0.4008388764237704, "train/extr_critic_std": 2.6553223818948823, "train/extr_return_normed_mag": 1.4768781302726433, "train/extr_return_normed_max": 1.4768781302726433, "train/extr_return_normed_mean": 0.36538432069020726, "train/extr_return_normed_min": -0.08414815876581898, "train/extr_return_normed_std": 0.3328077207281165, "train/extr_return_rate": 0.750163246507514, "train/extr_return_raw_mag": 11.879692600197988, "train/extr_return_raw_max": 11.879692600197988, "train/extr_return_raw_mean": 2.8823944313885415, "train/extr_return_raw_min": -0.7559656582466544, "train/extr_return_raw_std": 2.6935592873455727, "train/extr_reward_mag": 1.0580781975837603, "train/extr_reward_max": 1.0580781975837603, "train/extr_reward_mean": 0.0550931077195357, "train/extr_reward_min": -0.6393278102352195, "train/extr_reward_std": 0.2261774917579677, "train/image_loss_mean": 3.198131182422377, "train/image_loss_std": 8.411588028685687, "train/model_loss_mean": 6.392266671951503, "train/model_loss_std": 12.59196768721489, "train/model_opt_grad_norm": 34.8739728796972, "train/model_opt_grad_steps": 276689.6438356164, "train/model_opt_loss": 6549.718903842037, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1027.3972602739725, "train/policy_entropy_mag": 2.6194013863393706, "train/policy_entropy_max": 2.6194013863393706, "train/policy_entropy_mean": 0.4188792287078622, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.596487579688634, "train/policy_logprob_mag": 7.438384225923721, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4190140133851195, "train/policy_logprob_min": -7.438384225923721, "train/policy_logprob_std": 1.0352889536178276, "train/policy_randomness_mag": 0.9245337435643967, "train/policy_randomness_max": 0.9245337435643967, "train/policy_randomness_mean": 0.14784598513825298, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2105339381792774, "train/post_ent_mag": 54.964045171868314, "train/post_ent_max": 54.964045171868314, "train/post_ent_mean": 40.90126513128411, "train/post_ent_min": 19.34500064588573, "train/post_ent_std": 5.627519862292564, "train/prior_ent_mag": 76.52775291547384, "train/prior_ent_max": 76.52775291547384, "train/prior_ent_mean": 46.15823510574968, "train/prior_ent_min": 28.616054848448872, "train/prior_ent_std": 7.426433543636374, "train/rep_loss_mean": 5.236966387866294, "train/rep_loss_std": 8.80830483240624, "train/reward_avg": 0.03672276299497853, "train/reward_loss_mean": 0.05193466050167606, "train/reward_loss_std": 0.20177490947997734, "train/reward_max_data": 1.0273972668059885, "train/reward_max_pred": 1.0266309796947322, "train/reward_neg_acc": 0.9940975928959781, "train/reward_neg_loss": 0.023004980158213884, "train/reward_pos_acc": 0.9908432789044838, "train/reward_pos_loss": 0.7207467343709241, "train/reward_pred": 0.03666920901263413, "train/reward_rate": 0.04139019691780822, "stats/sum_log_reward": 10.385714530944824, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 0.8571428571428571, "stats/max_log_achievement_collect_stone": 11.714285714285714, "stats/max_log_achievement_collect_wood": 10.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.4285714285714286, "stats/max_log_achievement_place_plant": 0.7142857142857143, "stats/max_log_achievement_place_stone": 3.857142857142857, "stats/max_log_achievement_place_table": 2.5714285714285716, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.3029392787388393, "replay/size": 555588.0, "replay/inserts": 1470.0, "replay/samples": 11760.0, "replay/insert_wait_avg": 3.130906293181335e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4571511015600088e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1724543571472, "timer/env.step_count": 1470.0, "timer/env.step_total": 17.67770528793335, "timer/env.step_frac": 0.05889183045057258, "timer/env.step_avg": 0.012025649855736972, "timer/env.step_min": 0.002478361129760742, "timer/env.step_max": 1.6187739372253418, "timer/replay.add_count": 1470.0, "timer/replay.add_total": 0.2658073902130127, "timer/replay.add_frac": 0.0008855155972997884, "timer/replay.add_avg": 0.00018082135388640318, "timer/replay.add_min": 5.91278076171875e-05, "timer/replay.add_max": 0.003936767578125, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021785259246826172, "timer/logger.write_frac": 7.257581077344933e-05, "timer/logger.write_avg": 0.021785259246826172, "timer/logger.write_min": 0.021785259246826172, "timer/logger.write_max": 0.021785259246826172, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1470.0, "timer/agent.policy_total": 10.717875957489014, "timer/agent.policy_frac": 0.03570572783049844, "timer/agent.policy_avg": 0.007291072079924499, "timer/agent.policy_min": 0.005910396575927734, "timer/agent.policy_max": 0.016324281692504883, "timer/dataset_count": 735.0, "timer/dataset_total": 0.059885263442993164, "timer/dataset_frac": 0.00019950286101782434, "timer/dataset_avg": 8.147654890203151e-05, "timer/dataset_min": 5.745887756347656e-05, "timer/dataset_max": 0.0002760887145996094, "timer/agent.train_count": 735.0, "timer/agent.train_total": 270.7985517978668, "timer/agent.train_frac": 0.9021432442154365, "timer/agent.train_avg": 0.36843340380662154, "timer/agent.train_min": 0.36028313636779785, "timer/agent.train_max": 0.3852269649505615, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22082757949829102, "timer/agent.report_frac": 0.0007356690338932595, "timer/agent.report_avg": 0.22082757949829102, "timer/agent.report_min": 0.22082757949829102, "timer/agent.report_max": 0.22082757949829102, "fps": 4.897077004856301}
{"step": 555722, "episode/length": 301.0, "episode/score": 12.099999979138374, "episode/sum_abs_reward": 14.30000002682209, "episode/reward_rate": 0.04304635761589404}
{"step": 555905, "episode/length": 182.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.0546448087431694}
{"step": 556197, "episode/length": 291.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.04452054794520548}
{"step": 556389, "episode/length": 191.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.0625}
{"step": 556534, "episode/length": 144.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.07586206896551724}
{"step": 556645, "episode/length": 110.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.0990990990990991}
{"step": 556830, "episode/length": 184.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.900000013411045, "episode/reward_rate": 0.04864864864864865}
{"step": 557087, "episode/length": 256.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.03501945525291829}
{"step": 557099, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.586689152129709, "train/action_min": 0.0, "train/action_std": 3.496434499139655, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.043643513617858495, "train/actor_opt_grad_steps": 277640.0, "train/actor_opt_loss": -8.589363434135098, "train/adv_mag": 0.44748260917728894, "train/adv_max": 0.3994483633400643, "train/adv_mean": 0.0031712867115458398, "train/adv_min": -0.3726539093337647, "train/adv_std": 0.04938507416885193, "train/cont_avg": 0.9949299015410958, "train/cont_loss_mean": 0.0001216039036707309, "train/cont_loss_std": 0.0038029198868066673, "train/cont_neg_acc": 0.9954337910430072, "train/cont_neg_loss": 0.018491045311759068, "train/cont_pos_acc": 0.9999999795874505, "train/cont_pos_loss": 1.3417476505120335e-05, "train/cont_pred": 0.9949441854267904, "train/cont_rate": 0.9949299015410958, "train/dyn_loss_mean": 5.204247794739188, "train/dyn_loss_std": 8.728289016305585, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.072292590794498, "train/extr_critic_critic_opt_grad_steps": 277640.0, "train/extr_critic_critic_opt_loss": 16291.57075395976, "train/extr_critic_mag": 10.849778684851241, "train/extr_critic_max": 10.849778684851241, "train/extr_critic_mean": 2.8865331982913083, "train/extr_critic_min": -0.4391090151381819, "train/extr_critic_std": 2.6476542933346474, "train/extr_return_normed_mag": 1.4200479314751822, "train/extr_return_normed_max": 1.4200479314751822, "train/extr_return_normed_mean": 0.3639587976344644, "train/extr_return_normed_min": -0.08564536329613973, "train/extr_return_normed_std": 0.3281568962417237, "train/extr_return_rate": 0.7582798641021937, "train/extr_return_raw_mag": 11.559250531131275, "train/extr_return_raw_max": 11.559250531131275, "train/extr_return_raw_mean": 2.912444818509768, "train/extr_return_raw_min": -0.7703163117578585, "train/extr_return_raw_std": 2.6867736790278185, "train/extr_reward_mag": 1.0607710276564506, "train/extr_reward_max": 1.0607710276564506, "train/extr_reward_mean": 0.05633229591360647, "train/extr_reward_min": -0.6329962047812057, "train/extr_reward_std": 0.22854577964299347, "train/image_loss_mean": 3.130825457507617, "train/image_loss_std": 8.094767021806273, "train/model_loss_mean": 6.304940289014007, "train/model_loss_std": 12.181445474493993, "train/model_opt_grad_norm": 28.840761563549304, "train/model_opt_grad_steps": 277419.0, "train/model_opt_loss": 3940.5876832726885, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 625.0, "train/policy_entropy_mag": 2.6469765264694005, "train/policy_entropy_max": 2.6469765264694005, "train/policy_entropy_mean": 0.4100136256789508, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5841156750509183, "train/policy_logprob_mag": 7.438384245519769, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.410525964139259, "train/policy_logprob_min": -7.438384245519769, "train/policy_logprob_std": 1.0306176453420561, "train/policy_randomness_mag": 0.9342665517166869, "train/policy_randomness_max": 0.9342665517166869, "train/policy_randomness_mean": 0.14471681885523338, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20616720065678637, "train/post_ent_mag": 55.25111519800473, "train/post_ent_max": 55.25111519800473, "train/post_ent_mean": 40.931844423895015, "train/post_ent_min": 19.235384470795932, "train/post_ent_std": 5.67266706571187, "train/prior_ent_mag": 76.70392796764635, "train/prior_ent_max": 76.70392796764635, "train/prior_ent_mean": 46.18038511929447, "train/prior_ent_min": 28.755986592541003, "train/prior_ent_std": 7.477689814894167, "train/rep_loss_mean": 5.204247794739188, "train/rep_loss_std": 8.728289016305585, "train/reward_avg": 0.03563650455070685, "train/reward_loss_mean": 0.05144454036163141, "train/reward_loss_std": 0.20173758247943774, "train/reward_max_data": 1.0150684967432937, "train/reward_max_pred": 1.016391636574105, "train/reward_neg_acc": 0.9943935397553118, "train/reward_neg_loss": 0.022815359424646586, "train/reward_pos_acc": 0.9868438178545809, "train/reward_pos_loss": 0.732112418298852, "train/reward_pred": 0.03535242391469544, "train/reward_rate": 0.040373501712328765, "stats/sum_log_reward": 10.100000381469727, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 2.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.875, "stats/max_log_achievement_collect_stone": 11.875, "stats/max_log_achievement_collect_wood": 9.25, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.25, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.125, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.125, "stats/max_log_achievement_make_wood_sword": 1.125, "stats/max_log_achievement_place_furnace": 1.625, "stats/max_log_achievement_place_plant": 1.75, "stats/max_log_achievement_place_stone": 3.75, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.625, "stats/mean_log_entropy": 0.4074584413319826, "replay/size": 557036.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.0867631922769282e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.473074459897879e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1424412727356, "timer/env.step_count": 1448.0, "timer/env.step_total": 20.66135048866272, "timer/env.step_frac": 0.06883848349153665, "timer/env.step_avg": 0.014268888459021216, "timer/env.step_min": 0.002905607223510742, "timer/env.step_max": 1.6968603134155273, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.2694385051727295, "timer/replay.add_frac": 0.0008977021178017745, "timer/replay.add_avg": 0.00018607631572702314, "timer/replay.add_min": 5.984306335449219e-05, "timer/replay.add_max": 0.004398822784423828, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027921676635742188, "timer/logger.write_frac": 9.302808532289547e-05, "timer/logger.write_avg": 0.027921676635742188, "timer/logger.write_min": 0.027921676635742188, "timer/logger.write_max": 0.027921676635742188, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 10.84826135635376, "timer/agent.policy_frac": 0.03614371000099944, "timer/agent.policy_avg": 0.007491893201901768, "timer/agent.policy_min": 0.006099700927734375, "timer/agent.policy_max": 0.017154455184936523, "timer/dataset_count": 724.0, "timer/dataset_total": 0.06007671356201172, "timer/dataset_frac": 0.00020016067473583576, "timer/dataset_avg": 8.29788861353753e-05, "timer/dataset_min": 6.151199340820312e-05, "timer/dataset_max": 0.0002071857452392578, "timer/agent.train_count": 724.0, "timer/agent.train_total": 267.6391348838806, "timer/agent.train_frac": 0.8917070633162484, "timer/agent.train_avg": 0.3696673133755257, "timer/agent.train_min": 0.362246036529541, "timer/agent.train_max": 0.3833606243133545, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22143125534057617, "timer/agent.report_frac": 0.0007377538957889811, "timer/agent.report_avg": 0.22143125534057617, "timer/agent.report_min": 0.22143125534057617, "timer/agent.report_max": 0.22143125534057617, "fps": 4.824268977098179}
{"step": 557271, "episode/length": 183.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.059782608695652176}
{"step": 557438, "episode/length": 166.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.0718562874251497}
{"step": 557583, "episode/length": 144.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.06206896551724138}
{"step": 557761, "episode/length": 177.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.06741573033707865}
{"step": 557945, "episode/length": 183.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.043478260869565216}
{"step": 558102, "episode/length": 156.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.07006369426751592}
{"step": 558311, "episode/length": 208.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.05741626794258373}
{"step": 558475, "episode/length": 163.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06707317073170732}
{"step": 558537, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.529247015294894, "train/action_min": 0.0, "train/action_std": 3.4140449644814077, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04248799239350876, "train/actor_opt_grad_steps": 278360.0, "train/actor_opt_loss": -13.064551998087218, "train/adv_mag": 0.4370554761147835, "train/adv_max": 0.3770981187551794, "train/adv_mean": 0.002021533757317844, "train/adv_min": -0.388541772751741, "train/adv_std": 0.04865798181001569, "train/cont_avg": 0.9946220290492958, "train/cont_loss_mean": 1.795161479558886e-05, "train/cont_loss_std": 0.00046437305456547494, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 9.874322272256469e-05, "train/cont_pos_acc": 0.9999999865679674, "train/cont_pos_loss": 1.7545915470187012e-05, "train/cont_pred": 0.994606336237679, "train/cont_rate": 0.9946220290492958, "train/dyn_loss_mean": 5.073317030785789, "train/dyn_loss_std": 8.754534895990936, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0389838646835006, "train/extr_critic_critic_opt_grad_steps": 278360.0, "train/extr_critic_critic_opt_loss": 16222.874449823943, "train/extr_critic_mag": 10.982888570973572, "train/extr_critic_max": 10.982888570973572, "train/extr_critic_mean": 2.9390099753796215, "train/extr_critic_min": -0.45481210359385316, "train/extr_critic_std": 2.684444397268161, "train/extr_return_normed_mag": 1.4291935168521506, "train/extr_return_normed_max": 1.4291935168521506, "train/extr_return_normed_mean": 0.36712444668084804, "train/extr_return_normed_min": -0.08777224303970874, "train/extr_return_normed_std": 0.32825811396182425, "train/extr_return_rate": 0.7556888620618364, "train/extr_return_raw_mag": 11.749937903713173, "train/extr_return_raw_max": 11.749937903713173, "train/extr_return_raw_mean": 2.955743470662077, "train/extr_return_raw_min": -0.8124105300701839, "train/extr_return_raw_std": 2.7183906964852778, "train/extr_reward_mag": 1.0532438788615481, "train/extr_reward_max": 1.0532438788615481, "train/extr_reward_mean": 0.05509198651137486, "train/extr_reward_min": -0.6800935436302508, "train/extr_reward_std": 0.2268040247366462, "train/image_loss_mean": 2.9688773390272973, "train/image_loss_std": 8.243232344237851, "train/model_loss_mean": 6.0670707796660945, "train/model_loss_std": 12.395843438699211, "train/model_opt_grad_norm": 27.72499727867019, "train/model_opt_grad_steps": 278139.0, "train/model_opt_loss": 7529.963096941021, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1241.1971830985915, "train/policy_entropy_mag": 2.6208224934591375, "train/policy_entropy_max": 2.6208224934591375, "train/policy_entropy_mean": 0.39561716561586086, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5696135830711311, "train/policy_logprob_mag": 7.438384257571798, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39655602104227305, "train/policy_logprob_min": -7.438384257571798, "train/policy_logprob_std": 1.0190226015910295, "train/policy_randomness_mag": 0.9250353272532074, "train/policy_randomness_max": 0.9250353272532074, "train/policy_randomness_mean": 0.13963550087851537, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2010485955946882, "train/post_ent_mag": 54.977433916548605, "train/post_ent_max": 54.977433916548605, "train/post_ent_mean": 40.890376399940166, "train/post_ent_min": 19.477692845841528, "train/post_ent_std": 5.611037019272925, "train/prior_ent_mag": 76.5648686583613, "train/prior_ent_max": 76.5648686583613, "train/prior_ent_mean": 46.005371953400086, "train/prior_ent_min": 28.910043206013423, "train/prior_ent_std": 7.428715940932153, "train/rep_loss_mean": 5.073317030785789, "train/rep_loss_std": 8.754534895990936, "train/reward_avg": 0.036614216260716946, "train/reward_loss_mean": 0.0541853418862316, "train/reward_loss_std": 0.2145328313951761, "train/reward_max_data": 1.0197183145603663, "train/reward_max_pred": 1.0216830330835263, "train/reward_neg_acc": 0.9942046739685704, "train/reward_neg_loss": 0.02454301215131098, "train/reward_pos_acc": 0.9860918840891878, "train/reward_pos_loss": 0.7390015561815718, "train/reward_pred": 0.03635192979914202, "train/reward_rate": 0.04156580105633803, "stats/sum_log_reward": 9.850000202655792, "stats/max_log_achievement_collect_coal": 0.625, "stats/max_log_achievement_collect_drink": 2.125, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.375, "stats/max_log_achievement_collect_stone": 9.75, "stats/max_log_achievement_collect_wood": 8.75, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.625, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.125, "stats/max_log_achievement_place_furnace": 1.375, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 2.875, "stats/max_log_achievement_place_table": 1.625, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.24384840950369835, "replay/size": 558474.0, "replay/inserts": 1438.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.1551499028530838e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4618474352840588e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 299.98993253707886, "timer/env.step_count": 1438.0, "timer/env.step_total": 19.05486249923706, "timer/env.step_frac": 0.06351833989256248, "timer/env.step_avg": 0.013250947495992392, "timer/env.step_min": 0.0025033950805664062, "timer/env.step_max": 1.5459892749786377, "timer/replay.add_count": 1438.0, "timer/replay.add_total": 0.3034975528717041, "timer/replay.add_frac": 0.0010116924601601145, "timer/replay.add_avg": 0.00021105532188574693, "timer/replay.add_min": 5.936622619628906e-05, "timer/replay.add_max": 0.0008058547973632812, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03092479705810547, "timer/logger.write_frac": 0.00010308611624586152, "timer/logger.write_avg": 0.03092479705810547, "timer/logger.write_min": 0.03092479705810547, "timer/logger.write_max": 0.03092479705810547, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004189014434814453, "timer/checkpoint.save_frac": 1.3963850051190266e-06, "timer/checkpoint.save_avg": 0.0004189014434814453, "timer/checkpoint.save_min": 0.0004189014434814453, "timer/checkpoint.save_max": 0.0004189014434814453, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3525111675262451, "timer/agent.save_frac": 0.0045085218563428765, "timer/agent.save_avg": 1.3525111675262451, "timer/agent.save_min": 1.3525111675262451, "timer/agent.save_max": 1.3525111675262451, "timer/replay.save_count": 1.0, "timer/replay.save_total": 5.3882598876953125e-05, "timer/replay.save_frac": 1.7961469047063178e-07, "timer/replay.save_avg": 5.3882598876953125e-05, "timer/replay.save_min": 5.3882598876953125e-05, "timer/replay.save_max": 5.3882598876953125e-05, "timer/agent.policy_count": 1438.0, "timer/agent.policy_total": 11.942872047424316, "timer/agent.policy_frac": 0.03981090947426435, "timer/agent.policy_avg": 0.008305196138681721, "timer/agent.policy_min": 0.0058841705322265625, "timer/agent.policy_max": 1.353039264678955, "timer/dataset_count": 719.0, "timer/dataset_total": 0.058365583419799805, "timer/dataset_frac": 0.00019455847376673483, "timer/dataset_avg": 8.1176054825869e-05, "timer/dataset_min": 5.5789947509765625e-05, "timer/dataset_max": 0.00015020370483398438, "timer/agent.train_count": 719.0, "timer/agent.train_total": 267.973073720932, "timer/agent.train_frac": 0.8932735557311092, "timer/agent.train_avg": 0.37270246692758274, "timer/agent.train_min": 0.3610570430755615, "timer/agent.train_max": 3.14137864112854, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22237205505371094, "timer/agent.report_frac": 0.0007412650590406919, "timer/agent.report_avg": 0.22237205505371094, "timer/agent.report_min": 0.22237205505371094, "timer/agent.report_max": 0.22237205505371094, "fps": 4.793386962653526}
{"step": 558665, "episode/length": 189.0, "episode/score": 11.099999971687794, "episode/sum_abs_reward": 12.69999998062849, "episode/reward_rate": 0.06842105263157895}
{"step": 559089, "episode/length": 423.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.025943396226415096}
{"step": 559284, "episode/length": 194.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.30000002682209, "episode/reward_rate": 0.06153846153846154}
{"step": 559465, "episode/length": 180.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.0718232044198895}
{"step": 559654, "episode/length": 188.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 11.299999997019768, "episode/reward_rate": 0.0582010582010582}
{"step": 559877, "episode/length": 222.0, "episode/score": 11.099999994039536, "episode/sum_abs_reward": 13.300000011920929, "episode/reward_rate": 0.05829596412556054}
{"step": 560015, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.598669928473395, "train/action_min": 0.0, "train/action_std": 3.4749108875120007, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.042743226035019836, "train/actor_opt_grad_steps": 279085.0, "train/actor_opt_loss": -11.854885732805407, "train/adv_mag": 0.414486829896231, "train/adv_max": 0.36280955454787694, "train/adv_mean": 0.0019611475607333078, "train/adv_min": -0.37201340516676773, "train/adv_std": 0.04789963394806192, "train/cont_avg": 0.9947608741554054, "train/cont_loss_mean": 5.084008413758523e-05, "train/cont_loss_std": 0.0015634837794977644, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00015529100517679777, "train/cont_pos_acc": 0.999986651781443, "train/cont_pos_loss": 5.045726923290849e-05, "train/cont_pred": 0.9947447374060348, "train/cont_rate": 0.9947608741554054, "train/dyn_loss_mean": 5.204377963736251, "train/dyn_loss_std": 8.825196343499261, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0280258244759328, "train/extr_critic_critic_opt_grad_steps": 279085.0, "train/extr_critic_critic_opt_loss": 15946.758393158783, "train/extr_critic_mag": 10.73785263783223, "train/extr_critic_max": 10.73785263783223, "train/extr_critic_mean": 2.8577076583295256, "train/extr_critic_min": -0.43094444435995977, "train/extr_critic_std": 2.642628830832404, "train/extr_return_normed_mag": 1.4224945628965222, "train/extr_return_normed_max": 1.4224945628965222, "train/extr_return_normed_mean": 0.3661514307196076, "train/extr_return_normed_min": -0.0826910620907674, "train/extr_return_normed_std": 0.32845350858327504, "train/extr_return_rate": 0.7364865267598951, "train/extr_return_raw_mag": 11.455720837051803, "train/extr_return_raw_max": 11.455720837051803, "train/extr_return_raw_mean": 2.873619472658312, "train/extr_return_raw_min": -0.7738833745589128, "train/extr_return_raw_std": 2.6687913134291366, "train/extr_reward_mag": 1.0491374312220394, "train/extr_reward_max": 1.0491374312220394, "train/extr_reward_mean": 0.05515346394197361, "train/extr_reward_min": -0.6514862421396617, "train/extr_reward_std": 0.22602129546371666, "train/image_loss_mean": 3.2362040458498775, "train/image_loss_std": 8.377001150234326, "train/model_loss_mean": 6.412495110486005, "train/model_loss_std": 12.55586658941733, "train/model_opt_grad_norm": 28.444567409721582, "train/model_opt_grad_steps": 278864.0, "train/model_opt_loss": 12901.70680690456, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1993.2432432432433, "train/policy_entropy_mag": 2.641559968123565, "train/policy_entropy_max": 2.641559968123565, "train/policy_entropy_mean": 0.4427273537258844, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6148495142524307, "train/policy_logprob_mag": 7.438384191409962, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.44129305997410334, "train/policy_logprob_min": -7.438384191409962, "train/policy_logprob_std": 1.0509396904223673, "train/policy_randomness_mag": 0.9323547490545221, "train/policy_randomness_max": 0.9323547490545221, "train/policy_randomness_mean": 0.15626332506134705, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21701489660788226, "train/post_ent_mag": 54.878402813060866, "train/post_ent_max": 54.878402813060866, "train/post_ent_mean": 40.97214317321777, "train/post_ent_min": 19.51511185878032, "train/post_ent_std": 5.584050996883495, "train/prior_ent_mag": 76.55024791408229, "train/prior_ent_max": 76.55024791408229, "train/prior_ent_mean": 46.17605812485154, "train/prior_ent_min": 28.77700357179384, "train/prior_ent_std": 7.419063664771415, "train/rep_loss_mean": 5.204377963736251, "train/rep_loss_std": 8.825196343499261, "train/reward_avg": 0.03706846476809399, "train/reward_loss_mean": 0.053613498706269906, "train/reward_loss_std": 0.21863737017721743, "train/reward_max_data": 1.0121621650618475, "train/reward_max_pred": 1.0143896921260938, "train/reward_neg_acc": 0.9942207086730648, "train/reward_neg_loss": 0.0237278313048788, "train/reward_pos_acc": 0.9875868663594529, "train/reward_pos_loss": 0.7439186170294478, "train/reward_pred": 0.03667199085592418, "train/reward_rate": 0.04170185810810811, "stats/sum_log_reward": 10.600000222524008, "stats/max_log_achievement_collect_coal": 1.1666666666666667, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 13.333333333333334, "stats/max_log_achievement_collect_wood": 8.5, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 5.5, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.38682276010513306, "replay/size": 559952.0, "replay/inserts": 1478.0, "replay/samples": 11824.0, "replay/insert_wait_avg": 3.1028290724076826e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4653951131281253e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1481509208679, "timer/env.step_count": 1478.0, "timer/env.step_total": 16.42315411567688, "timer/env.step_frac": 0.054716825891780146, "timer/env.step_avg": 0.011111741620890988, "timer/env.step_min": 0.0024216175079345703, "timer/env.step_max": 1.3761694431304932, "timer/replay.add_count": 1478.0, "timer/replay.add_total": 0.27036333084106445, "timer/replay.add_frac": 0.00090076627162812, "timer/replay.add_avg": 0.00018292512235525336, "timer/replay.add_min": 6.222724914550781e-05, "timer/replay.add_max": 0.0010409355163574219, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02240157127380371, "timer/logger.write_frac": 7.463504674299904e-05, "timer/logger.write_avg": 0.02240157127380371, "timer/logger.write_min": 0.02240157127380371, "timer/logger.write_max": 0.02240157127380371, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1478.0, "timer/agent.policy_total": 10.732401132583618, "timer/agent.policy_frac": 0.03575701232759933, "timer/agent.policy_avg": 0.007261435137066048, "timer/agent.policy_min": 0.005815029144287109, "timer/agent.policy_max": 0.01545572280883789, "timer/dataset_count": 739.0, "timer/dataset_total": 0.05771660804748535, "timer/dataset_frac": 0.00019229373184678373, "timer/dataset_avg": 7.810095811567706e-05, "timer/dataset_min": 5.555152893066406e-05, "timer/dataset_max": 0.00014448165893554688, "timer/agent.train_count": 739.0, "timer/agent.train_total": 272.0076584815979, "timer/agent.train_frac": 0.9062446583364457, "timer/agent.train_avg": 0.3680753159426223, "timer/agent.train_min": 0.3613758087158203, "timer/agent.train_max": 0.3833012580871582, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22475934028625488, "timer/agent.report_frac": 0.0007488280024270787, "timer/agent.report_avg": 0.22475934028625488, "timer/agent.report_min": 0.22475934028625488, "timer/agent.report_max": 0.22475934028625488, "fps": 4.92412115646311}
{"step": 560044, "episode/length": 166.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.059880239520958084}
{"step": 560214, "episode/length": 169.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.07058823529411765}
{"step": 560448, "episode/length": 233.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.05128205128205128}
{"step": 560635, "episode/length": 186.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.900000050663948, "episode/reward_rate": 0.06417112299465241}
{"step": 560674, "episode/length": 38.0, "episode/score": 2.0999999716877937, "episode/sum_abs_reward": 4.1000000312924385, "episode/reward_rate": 0.10256410256410256}
{"step": 561023, "episode/length": 348.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.30000003427267, "episode/reward_rate": 0.034383954154727794}
{"step": 561186, "episode/length": 162.0, "episode/score": 11.099999971687794, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.07975460122699386}
{"step": 561332, "episode/length": 145.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.0821917808219178}
{"step": 561390, "episode/length": 57.0, "episode/score": 7.0999999940395355, "episode/sum_abs_reward": 8.900000035762787, "episode/reward_rate": 0.13793103448275862}
{"step": 561485, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.545407681851773, "train/action_min": 0.0, "train/action_std": 3.426019288398124, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04166854817319561, "train/actor_opt_grad_steps": 279825.0, "train/actor_opt_loss": -11.795548877603299, "train/adv_mag": 0.4274209713613665, "train/adv_max": 0.37104417665584666, "train/adv_mean": 0.0024731415765816907, "train/adv_min": -0.37803177958404693, "train/adv_std": 0.04779862526904892, "train/cont_avg": 0.9949060388513513, "train/cont_loss_mean": 9.520565493563186e-05, "train/cont_loss_std": 0.002838068283934361, "train/cont_neg_acc": 0.9966216216216216, "train/cont_neg_loss": 0.020047415837545848, "train/cont_pos_acc": 0.9999999814742321, "train/cont_pos_loss": 1.631989797057965e-05, "train/cont_pred": 0.9949050207395811, "train/cont_rate": 0.9949060388513513, "train/dyn_loss_mean": 5.167408736976418, "train/dyn_loss_std": 8.689061673911842, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.011627202098434, "train/extr_critic_critic_opt_grad_steps": 279825.0, "train/extr_critic_critic_opt_loss": 15943.828468116553, "train/extr_critic_mag": 10.78643677685712, "train/extr_critic_max": 10.78643677685712, "train/extr_critic_mean": 2.827520509023924, "train/extr_critic_min": -0.44051812951629227, "train/extr_critic_std": 2.606708893904815, "train/extr_return_normed_mag": 1.4418774102185223, "train/extr_return_normed_max": 1.4418774102185223, "train/extr_return_normed_mean": 0.36614072826263067, "train/extr_return_normed_min": -0.0827701955127555, "train/extr_return_normed_std": 0.3282745093912692, "train/extr_return_rate": 0.7393906966254518, "train/extr_return_raw_mag": 11.492794410602466, "train/extr_return_raw_max": 11.492794410602466, "train/extr_return_raw_mean": 2.84741671987482, "train/extr_return_raw_min": -0.7606976922299411, "train/extr_return_raw_std": 2.638296897346909, "train/extr_reward_mag": 1.0530265086405985, "train/extr_reward_max": 1.0530265086405985, "train/extr_reward_mean": 0.055266439360944, "train/extr_reward_min": -0.6430422180407757, "train/extr_reward_std": 0.22630910092108958, "train/image_loss_mean": 3.1327321223310522, "train/image_loss_std": 8.24809421075357, "train/model_loss_mean": 6.285495513194316, "train/model_loss_std": 12.313318884050524, "train/model_opt_grad_norm": 28.495136518736143, "train/model_opt_grad_steps": 279603.3243243243, "train/model_opt_loss": 10491.36011402027, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1655.4054054054054, "train/policy_entropy_mag": 2.6521137243992574, "train/policy_entropy_max": 2.6521137243992574, "train/policy_entropy_mean": 0.44229588919394724, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6139241690571243, "train/policy_logprob_mag": 7.438384197853707, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.44148276867093267, "train/policy_logprob_min": -7.438384197853707, "train/policy_logprob_std": 1.0483819818174518, "train/policy_randomness_mag": 0.936079763882869, "train/policy_randomness_max": 0.936079763882869, "train/policy_randomness_mean": 0.15611103821445155, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2166882892315452, "train/post_ent_mag": 55.13780150542388, "train/post_ent_max": 55.13780150542388, "train/post_ent_mean": 40.96188653481973, "train/post_ent_min": 18.868078115824108, "train/post_ent_std": 5.583812326998324, "train/prior_ent_mag": 76.43352642574825, "train/prior_ent_max": 76.43352642574825, "train/prior_ent_mean": 46.146047540613125, "train/prior_ent_min": 28.818295839670544, "train/prior_ent_std": 7.316709866394868, "train/rep_loss_mean": 5.167408736976418, "train/rep_loss_std": 8.689061673911842, "train/reward_avg": 0.03629249360764752, "train/reward_loss_mean": 0.05222295259905828, "train/reward_loss_std": 0.2076549660917875, "train/reward_max_data": 1.0270270334707725, "train/reward_max_pred": 1.0242053818058323, "train/reward_neg_acc": 0.9946869813107155, "train/reward_neg_loss": 0.022777853747578087, "train/reward_pos_acc": 0.9861749797253996, "train/reward_pos_loss": 0.7443012450192426, "train/reward_pred": 0.03579347486280509, "train/reward_rate": 0.04098923141891892, "stats/sum_log_reward": 9.433333502875435, "stats/max_log_achievement_collect_coal": 0.8888888888888888, "stats/max_log_achievement_collect_drink": 2.2222222222222223, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 10.88888888888889, "stats/max_log_achievement_collect_wood": 8.444444444444445, "stats/max_log_achievement_defeat_skeleton": 0.2222222222222222, "stats/max_log_achievement_defeat_zombie": 0.2222222222222222, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.1111111111111111, "stats/max_log_achievement_make_wood_pickaxe": 1.2222222222222223, "stats/max_log_achievement_make_wood_sword": 1.1111111111111112, "stats/max_log_achievement_place_furnace": 1.3333333333333333, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 3.5555555555555554, "stats/max_log_achievement_place_table": 1.8888888888888888, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3922034402688344, "replay/size": 561422.0, "replay/inserts": 1470.0, "replay/samples": 11760.0, "replay/insert_wait_avg": 3.0267806280226933e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4452098989162316e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3641538619995, "timer/env.step_count": 1470.0, "timer/env.step_total": 19.291626930236816, "timer/env.step_frac": 0.06422746084108372, "timer/env.step_avg": 0.013123555734854978, "timer/env.step_min": 0.002332448959350586, "timer/env.step_max": 1.3332042694091797, "timer/replay.add_count": 1470.0, "timer/replay.add_total": 0.26584458351135254, "timer/replay.add_frac": 0.00088507426766209, "timer/replay.add_avg": 0.00018084665544989967, "timer/replay.add_min": 5.817413330078125e-05, "timer/replay.add_max": 0.0008983612060546875, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.020854949951171875, "timer/logger.write_frac": 6.943221980061427e-05, "timer/logger.write_avg": 0.020854949951171875, "timer/logger.write_min": 0.020854949951171875, "timer/logger.write_max": 0.020854949951171875, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1470.0, "timer/agent.policy_total": 10.428965091705322, "timer/agent.policy_frac": 0.034721070932108786, "timer/agent.policy_avg": 0.007094534075990015, "timer/agent.policy_min": 0.005834102630615234, "timer/agent.policy_max": 0.01575183868408203, "timer/dataset_count": 735.0, "timer/dataset_total": 0.05675840377807617, "timer/dataset_frac": 0.00018896530444226535, "timer/dataset_avg": 7.722231806540976e-05, "timer/dataset_min": 5.53131103515625e-05, "timer/dataset_max": 0.0001227855682373047, "timer/agent.train_count": 735.0, "timer/agent.train_total": 269.6810054779053, "timer/agent.train_frac": 0.897846836949154, "timer/agent.train_avg": 0.3669129326230004, "timer/agent.train_min": 0.3588714599609375, "timer/agent.train_max": 0.382068395614624, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22313165664672852, "timer/agent.report_frac": 0.0007428704583345354, "timer/agent.report_avg": 0.22313165664672852, "timer/agent.report_min": 0.22313165664672852, "timer/agent.report_max": 0.22313165664672852, "fps": 4.893947401378679}
{"step": 561609, "episode/length": 218.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.0319634703196347}
{"step": 561803, "episode/length": 193.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 12.899999991059303, "episode/reward_rate": 0.06701030927835051}
{"step": 561892, "episode/length": 88.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.899999976158142, "episode/reward_rate": 0.1348314606741573}
{"step": 562163, "episode/length": 270.0, "episode/score": 11.099999979138374, "episode/sum_abs_reward": 13.700000032782555, "episode/reward_rate": 0.04428044280442804}
{"step": 562318, "episode/length": 154.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.299999997019768, "episode/reward_rate": 0.05806451612903226}
{"step": 562518, "episode/length": 199.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.065}
{"step": 562814, "episode/length": 295.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 14.300000071525574, "episode/reward_rate": 0.04054054054054054}
{"step": 562939, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.6125162203017975, "train/action_min": 0.0, "train/action_std": 3.5144177854877627, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04341024083838071, "train/actor_opt_grad_steps": 280560.0, "train/actor_opt_loss": -12.842659225202587, "train/adv_mag": 0.44414220280843236, "train/adv_max": 0.3909424908765375, "train/adv_mean": 0.002050320564630467, "train/adv_min": -0.3828681413441488, "train/adv_std": 0.04888595518184035, "train/cont_avg": 0.9945285744863014, "train/cont_loss_mean": 9.77907203186816e-05, "train/cont_loss_std": 0.0030424430730338465, "train/cont_neg_acc": 0.9955479453687799, "train/cont_neg_loss": 0.012647853917050183, "train/cont_pos_acc": 0.9999865530288383, "train/cont_pos_loss": 2.206327467639337e-05, "train/cont_pred": 0.9945427260986747, "train/cont_rate": 0.9945285744863014, "train/dyn_loss_mean": 5.191433044329082, "train/dyn_loss_std": 8.825871611294682, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0571157499535444, "train/extr_critic_critic_opt_grad_steps": 280560.0, "train/extr_critic_critic_opt_loss": 16180.141614940068, "train/extr_critic_mag": 10.673353600175414, "train/extr_critic_max": 10.673353600175414, "train/extr_critic_mean": 2.838346734438857, "train/extr_critic_min": -0.43801022719030513, "train/extr_critic_std": 2.591552971160575, "train/extr_return_normed_mag": 1.444343290916861, "train/extr_return_normed_max": 1.444343290916861, "train/extr_return_normed_mean": 0.36936262004996, "train/extr_return_normed_min": -0.07964138553975379, "train/extr_return_normed_std": 0.3282638233001918, "train/extr_return_rate": 0.7556587531142038, "train/extr_return_raw_mag": 11.44541270112338, "train/extr_return_raw_max": 11.44541270112338, "train/extr_return_raw_mean": 2.8547278169083268, "train/extr_return_raw_min": -0.7335340041820317, "train/extr_return_raw_std": 2.6232577448021877, "train/extr_reward_mag": 1.0519024803213877, "train/extr_reward_max": 1.0519024803213877, "train/extr_reward_mean": 0.05430340404583983, "train/extr_reward_min": -0.6297954500538029, "train/extr_reward_std": 0.2247063444085317, "train/image_loss_mean": 3.144533441491323, "train/image_loss_std": 8.362107499005043, "train/model_loss_mean": 6.312222010468783, "train/model_loss_std": 12.540513299915888, "train/model_opt_grad_norm": 28.1075537433363, "train/model_opt_grad_steps": 280338.0, "train/model_opt_loss": 10340.917714576199, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1643.835616438356, "train/policy_entropy_mag": 2.6450757588425726, "train/policy_entropy_max": 2.6450757588425726, "train/policy_entropy_mean": 0.42151126877902306, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6050806212915133, "train/policy_logprob_mag": 7.438384238987753, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4224575549772341, "train/policy_logprob_min": -7.438384238987753, "train/policy_logprob_std": 1.04228324187945, "train/policy_randomness_mag": 0.9335956646971506, "train/policy_randomness_max": 0.9335956646971506, "train/policy_randomness_mean": 0.1487749796615888, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2135669088935199, "train/post_ent_mag": 55.48527903099583, "train/post_ent_max": 55.48527903099583, "train/post_ent_mean": 40.87526624496669, "train/post_ent_min": 19.04020066457252, "train/post_ent_std": 5.656102487485703, "train/prior_ent_mag": 76.5526027940724, "train/prior_ent_max": 76.5526027940724, "train/prior_ent_mean": 46.08711430797838, "train/prior_ent_min": 28.551434138049817, "train/prior_ent_std": 7.438178304123552, "train/rep_loss_mean": 5.191433044329082, "train/rep_loss_std": 8.825871611294682, "train/reward_avg": 0.03663982195805197, "train/reward_loss_mean": 0.052730927065218966, "train/reward_loss_std": 0.20382465932467211, "train/reward_max_data": 1.0232876767850902, "train/reward_max_pred": 1.0222235738414607, "train/reward_neg_acc": 0.9940857977083285, "train/reward_neg_loss": 0.0236726989331719, "train/reward_pos_acc": 0.9892168412469837, "train/reward_pos_loss": 0.7276509959403783, "train/reward_pred": 0.036474677223763234, "train/reward_rate": 0.041483839897260275, "stats/sum_log_reward": 9.814285823277064, "stats/max_log_achievement_collect_coal": 0.8571428571428571, "stats/max_log_achievement_collect_drink": 9.428571428571429, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 16.285714285714285, "stats/max_log_achievement_collect_wood": 9.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.7142857142857143, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.8571428571428572, "stats/max_log_achievement_place_plant": 0.8571428571428571, "stats/max_log_achievement_place_stone": 7.0, "stats/max_log_achievement_place_table": 1.7142857142857142, "stats/max_log_achievement_wake_up": 1.7142857142857142, "stats/mean_log_entropy": 0.43687877484730314, "replay/size": 562876.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.1678187961919436e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4372959097609067e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.127712726593, "timer/env.step_count": 1454.0, "timer/env.step_total": 17.096602201461792, "timer/env.step_frac": 0.05696442373196061, "timer/env.step_avg": 0.011758323384774273, "timer/env.step_min": 0.0026290416717529297, "timer/env.step_max": 1.3344273567199707, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.29911303520202637, "timer/replay.add_frac": 0.0009966191808302254, "timer/replay.add_avg": 0.0002057173557097843, "timer/replay.add_min": 5.936622619628906e-05, "timer/replay.add_max": 0.0007789134979248047, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0203859806060791, "timer/logger.write_frac": 6.792435267265736e-05, "timer/logger.write_avg": 0.0203859806060791, "timer/logger.write_min": 0.0203859806060791, "timer/logger.write_max": 0.0203859806060791, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00023221969604492188, "timer/checkpoint.save_frac": 7.737362669220312e-07, "timer/checkpoint.save_avg": 0.00023221969604492188, "timer/checkpoint.save_min": 0.00023221969604492188, "timer/checkpoint.save_max": 0.00023221969604492188, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.5509154796600342, "timer/agent.save_frac": 0.005167518405982289, "timer/agent.save_avg": 1.5509154796600342, "timer/agent.save_min": 1.5509154796600342, "timer/agent.save_max": 1.5509154796600342, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.62939453125e-05, "timer/replay.save_frac": 2.542049336910164e-07, "timer/replay.save_avg": 7.62939453125e-05, "timer/replay.save_min": 7.62939453125e-05, "timer/replay.save_max": 7.62939453125e-05, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 14.874773979187012, "timer/agent.policy_frac": 0.049561481157647934, "timer/agent.policy_avg": 0.010230243451985565, "timer/agent.policy_min": 0.00577998161315918, "timer/agent.policy_max": 2.839195728302002, "timer/dataset_count": 727.0, "timer/dataset_total": 0.0588076114654541, "timer/dataset_frac": 0.00019594195727945323, "timer/dataset_avg": 8.089079981492999e-05, "timer/dataset_min": 5.7220458984375e-05, "timer/dataset_max": 0.00095367431640625, "timer/agent.train_count": 727.0, "timer/agent.train_total": 267.156152009964, "timer/agent.train_frac": 0.8901415653453332, "timer/agent.train_avg": 0.3674775130811059, "timer/agent.train_min": 0.3604929447174072, "timer/agent.train_max": 0.3865973949432373, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2223043441772461, "timer/agent.report_frac": 0.0007406991582272125, "timer/agent.report_avg": 0.2223043441772461, "timer/agent.report_min": 0.2223043441772461, "timer/agent.report_max": 0.2223043441772461, "fps": 4.844496422582513}
{"step": 562963, "episode/length": 148.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.06040268456375839}
{"step": 563106, "episode/length": 142.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.08391608391608392}
{"step": 563320, "episode/length": 213.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.0514018691588785}
{"step": 563516, "episode/length": 195.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.061224489795918366}
{"step": 563746, "episode/length": 229.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 11.30000002682209, "episode/reward_rate": 0.04782608695652174}
{"step": 563999, "episode/length": 252.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 11.299999997019768, "episode/reward_rate": 0.043478260869565216}
{"step": 564223, "episode/length": 223.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 15.300000086426735, "episode/reward_rate": 0.0625}
{"step": 564419, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.44932020032728, "train/action_min": 0.0, "train/action_std": 3.342574432089522, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.043094725926985614, "train/actor_opt_grad_steps": 281295.0, "train/actor_opt_loss": -13.50876770631687, "train/adv_mag": 0.42577441519982107, "train/adv_max": 0.36981227228770386, "train/adv_mean": 0.001894971057715117, "train/adv_min": -0.37847454241804174, "train/adv_std": 0.048979749450007, "train/cont_avg": 0.9947476773648649, "train/cont_loss_mean": 0.00019566692921634476, "train/cont_loss_std": 0.006134218550070384, "train/cont_neg_acc": 0.9939189190800125, "train/cont_neg_loss": 0.03680110959844323, "train/cont_pos_acc": 0.9999867323282603, "train/cont_pos_loss": 2.166755479345591e-05, "train/cont_pred": 0.994755198826661, "train/cont_rate": 0.9947476773648649, "train/dyn_loss_mean": 5.061491482966655, "train/dyn_loss_std": 8.674263670637801, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.039013534784317, "train/extr_critic_critic_opt_grad_steps": 281295.0, "train/extr_critic_critic_opt_loss": 15994.815495671453, "train/extr_critic_mag": 10.84479606473768, "train/extr_critic_max": 10.84479606473768, "train/extr_critic_mean": 2.8401677834021077, "train/extr_critic_min": -0.46739153926436966, "train/extr_critic_std": 2.57691378690101, "train/extr_return_normed_mag": 1.463360705891171, "train/extr_return_normed_max": 1.463360705891171, "train/extr_return_normed_mean": 0.37362128214256185, "train/extr_return_normed_min": -0.08291184373602674, "train/extr_return_normed_std": 0.3279657903555277, "train/extr_return_rate": 0.7510109157175631, "train/extr_return_raw_mag": 11.51738452911377, "train/extr_return_raw_max": 11.51738452911377, "train/extr_return_raw_mean": 2.8552160536920703, "train/extr_return_raw_min": -0.7742655112131221, "train/extr_return_raw_std": 2.607661714424958, "train/extr_reward_mag": 1.0524251461029053, "train/extr_reward_max": 1.0524251461029053, "train/extr_reward_mean": 0.054561718442552795, "train/extr_reward_min": -0.6376466944410994, "train/extr_reward_std": 0.2254102749598993, "train/image_loss_mean": 3.075696639112524, "train/image_loss_std": 8.223540222322619, "train/model_loss_mean": 6.165441287530435, "train/model_loss_std": 12.311249964946025, "train/model_opt_grad_norm": 27.38935014363882, "train/model_opt_grad_steps": 281073.0, "train/model_opt_loss": 15413.603212098818, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.653227132719916, "train/policy_entropy_max": 2.653227132719916, "train/policy_entropy_mean": 0.4048462091265498, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.578818020788399, "train/policy_logprob_mag": 7.438384281622397, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.405537691470739, "train/policy_logprob_min": -7.438384281622397, "train/policy_logprob_std": 1.0280481633302327, "train/policy_randomness_mag": 0.936472746166023, "train/policy_randomness_max": 0.936472746166023, "train/policy_randomness_mean": 0.14289294475236455, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20429735952937925, "train/post_ent_mag": 55.13275899113835, "train/post_ent_max": 55.13275899113835, "train/post_ent_mean": 41.047478856267155, "train/post_ent_min": 19.407187964465166, "train/post_ent_std": 5.584370993279122, "train/prior_ent_mag": 76.51602265641496, "train/prior_ent_max": 76.51602265641496, "train/prior_ent_mean": 46.13035856710898, "train/prior_ent_min": 28.386826901822477, "train/prior_ent_std": 7.378366006387247, "train/rep_loss_mean": 5.061491482966655, "train/rep_loss_std": 8.674263670637801, "train/reward_avg": 0.036692355935638014, "train/reward_loss_mean": 0.05265413999960229, "train/reward_loss_std": 0.21212942274035634, "train/reward_max_data": 1.017567571756002, "train/reward_max_pred": 1.0199622721285433, "train/reward_neg_acc": 0.9946465210334675, "train/reward_neg_loss": 0.02316011980528364, "train/reward_pos_acc": 0.9871789861369777, "train/reward_pos_loss": 0.7365857362747192, "train/reward_pred": 0.03622426777272611, "train/reward_rate": 0.04137193834459459, "stats/sum_log_reward": 10.100000381469727, "stats/max_log_achievement_collect_coal": 0.42857142857142855, "stats/max_log_achievement_collect_drink": 2.2857142857142856, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.142857142857143, "stats/max_log_achievement_collect_stone": 13.0, "stats/max_log_achievement_collect_wood": 10.0, "stats/max_log_achievement_defeat_skeleton": 0.2857142857142857, "stats/max_log_achievement_defeat_zombie": 0.5714285714285714, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.2857142857142858, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.8571428571428572, "stats/max_log_achievement_place_stone": 3.7142857142857144, "stats/max_log_achievement_place_table": 1.8571428571428572, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.39522385810102734, "replay/size": 564356.0, "replay/inserts": 1480.0, "replay/samples": 11840.0, "replay/insert_wait_avg": 3.1050798055287955e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3869557831738446e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.32038474082947, "timer/env.step_count": 1480.0, "timer/env.step_total": 16.962332010269165, "timer/env.step_frac": 0.056480788092048165, "timer/env.step_avg": 0.01146103514207376, "timer/env.step_min": 0.0024976730346679688, "timer/env.step_max": 1.2734549045562744, "timer/replay.add_count": 1480.0, "timer/replay.add_total": 0.26505088806152344, "timer/replay.add_frac": 0.0008825604305557116, "timer/replay.add_avg": 0.00017908843787940772, "timer/replay.add_min": 5.888938903808594e-05, "timer/replay.add_max": 0.0011017322540283203, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.032044410705566406, "timer/logger.write_frac": 0.00010670075137663431, "timer/logger.write_avg": 0.032044410705566406, "timer/logger.write_min": 0.032044410705566406, "timer/logger.write_max": 0.032044410705566406, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1480.0, "timer/agent.policy_total": 10.645256519317627, "timer/agent.policy_frac": 0.03544633351646866, "timer/agent.policy_avg": 0.007192740891430829, "timer/agent.policy_min": 0.005873680114746094, "timer/agent.policy_max": 0.017081022262573242, "timer/dataset_count": 740.0, "timer/dataset_total": 0.05736994743347168, "timer/dataset_frac": 0.00019102914869725146, "timer/dataset_avg": 7.752695599117795e-05, "timer/dataset_min": 5.53131103515625e-05, "timer/dataset_max": 0.00013303756713867188, "timer/agent.train_count": 740.0, "timer/agent.train_total": 271.72970628738403, "timer/agent.train_frac": 0.9047994078786272, "timer/agent.train_avg": 0.36720230579376223, "timer/agent.train_min": 0.36095452308654785, "timer/agent.train_max": 0.3795442581176758, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2237720489501953, "timer/agent.report_frac": 0.0007451110890900934, "timer/agent.report_avg": 0.2237720489501953, "timer/agent.report_min": 0.2237720489501953, "timer/agent.report_max": 0.2237720489501953, "fps": 4.927957208903955}
{"step": 564503, "episode/length": 279.0, "episode/score": 12.099999994039536, "episode/sum_abs_reward": 14.300000011920929, "episode/reward_rate": 0.05}
{"step": 564687, "episode/length": 183.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.06521739130434782}
{"step": 564838, "episode/length": 150.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 11.300000041723251, "episode/reward_rate": 0.06622516556291391}
{"step": 565028, "episode/length": 189.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.05263157894736842}
{"step": 565233, "episode/length": 204.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.05853658536585366}
{"step": 565289, "episode/length": 55.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 8.899999991059303, "episode/reward_rate": 0.16071428571428573}
{"step": 565443, "episode/length": 153.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.06493506493506493}
{"step": 565605, "episode/length": 161.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.06790123456790123}
{"step": 565683, "episode/length": 77.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 9.899999991059303, "episode/reward_rate": 0.1282051282051282}
{"step": 565887, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.601847609428511, "train/action_min": 0.0, "train/action_std": 3.441026220582936, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04341775316694011, "train/actor_opt_grad_steps": 282030.0, "train/actor_opt_loss": -11.931401374405377, "train/adv_mag": 0.44358834338514774, "train/adv_max": 0.39088294318277544, "train/adv_mean": 0.002812627061471113, "train/adv_min": -0.3848965839572149, "train/adv_std": 0.049528837867387356, "train/cont_avg": 0.994501819349315, "train/cont_loss_mean": 8.84570146523987e-06, "train/cont_loss_std": 0.0002210985028559413, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00019359013585366084, "train/cont_pos_acc": 0.9999999787709485, "train/cont_pos_loss": 8.107417043709275e-06, "train/cont_pred": 0.994494818661311, "train/cont_rate": 0.994501819349315, "train/dyn_loss_mean": 5.100310168854178, "train/dyn_loss_std": 8.690433449941139, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0863341566634506, "train/extr_critic_critic_opt_grad_steps": 282030.0, "train/extr_critic_critic_opt_loss": 16396.526420697774, "train/extr_critic_mag": 10.85178401372204, "train/extr_critic_max": 10.85178401372204, "train/extr_critic_mean": 2.8268470780490196, "train/extr_critic_min": -0.45056403663060435, "train/extr_critic_std": 2.6397419580041546, "train/extr_return_normed_mag": 1.4285068642603207, "train/extr_return_normed_max": 1.4285068642603207, "train/extr_return_normed_mean": 0.3625619374725917, "train/extr_return_normed_min": -0.08512171526273636, "train/extr_return_normed_std": 0.32752091468197025, "train/extr_return_rate": 0.7484544866705594, "train/extr_return_raw_mag": 11.554626112114894, "train/extr_return_raw_max": 11.554626112114894, "train/extr_return_raw_mean": 2.8498234569209897, "train/extr_return_raw_min": -0.8056987830220836, "train/extr_return_raw_std": 2.6744026811155552, "train/extr_reward_mag": 1.062223924349432, "train/extr_reward_max": 1.062223924349432, "train/extr_reward_mean": 0.05707036617071661, "train/extr_reward_min": -0.654084515898195, "train/extr_reward_std": 0.23046149619638104, "train/image_loss_mean": 3.0311156348006367, "train/image_loss_std": 7.872108498664751, "train/model_loss_mean": 6.1450298126429725, "train/model_loss_std": 12.020941943338473, "train/model_opt_grad_norm": 27.64240936383809, "train/model_opt_grad_steps": 281807.0684931507, "train/model_opt_loss": 15823.33425192637, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2568.4931506849316, "train/policy_entropy_mag": 2.6388086684762615, "train/policy_entropy_max": 2.6388086684762615, "train/policy_entropy_mean": 0.4143575129851903, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5836118186173374, "train/policy_logprob_mag": 7.438384212859689, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41479992825691014, "train/policy_logprob_min": -7.438384212859689, "train/policy_logprob_std": 1.0342774595299813, "train/policy_randomness_mag": 0.9313836612113534, "train/policy_randomness_max": 0.9313836612113534, "train/policy_randomness_mean": 0.14625002096777093, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2059893585639457, "train/post_ent_mag": 55.11115797905073, "train/post_ent_max": 55.11115797905073, "train/post_ent_mean": 41.050379766176825, "train/post_ent_min": 19.469331101195454, "train/post_ent_std": 5.676852572454165, "train/prior_ent_mag": 76.58900190379522, "train/prior_ent_max": 76.58900190379522, "train/prior_ent_mean": 46.19034252428029, "train/prior_ent_min": 28.44098151220034, "train/prior_ent_std": 7.40269864748602, "train/rep_loss_mean": 5.100310168854178, "train/rep_loss_std": 8.690433449941139, "train/reward_avg": 0.03726455428930994, "train/reward_loss_mean": 0.05371927352596636, "train/reward_loss_std": 0.20557426253001984, "train/reward_max_data": 1.0219178134447908, "train/reward_max_pred": 1.0209842740672908, "train/reward_neg_acc": 0.9946682208204922, "train/reward_neg_loss": 0.02409266399806493, "train/reward_pos_acc": 0.9886408015473248, "train/reward_pos_loss": 0.7241886788851595, "train/reward_pred": 0.036822110337957945, "train/reward_rate": 0.042326626712328765, "stats/sum_log_reward": 9.655555937025282, "stats/max_log_achievement_collect_coal": 0.5555555555555556, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 11.222222222222221, "stats/max_log_achievement_collect_wood": 8.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.1111111111111111, "stats/max_log_achievement_defeat_zombie": 0.4444444444444444, "stats/max_log_achievement_eat_cow": 0.1111111111111111, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2222222222222223, "stats/max_log_achievement_place_furnace": 1.5555555555555556, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 4.0, "stats/max_log_achievement_place_table": 2.3333333333333335, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.35381848282284206, "replay/size": 565824.0, "replay/inserts": 1468.0, "replay/samples": 11744.0, "replay/insert_wait_avg": 3.0148256702059295e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3737896157870175e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1134421825409, "timer/env.step_count": 1468.0, "timer/env.step_total": 19.12151527404785, "timer/env.step_frac": 0.06371429128595109, "timer/env.step_avg": 0.013025555363792815, "timer/env.step_min": 0.0022552013397216797, "timer/env.step_max": 1.257418155670166, "timer/replay.add_count": 1468.0, "timer/replay.add_total": 0.25370311737060547, "timer/replay.add_frac": 0.0008453573939426984, "timer/replay.add_avg": 0.0001728222870371972, "timer/replay.add_min": 5.936622619628906e-05, "timer/replay.add_max": 0.0010111331939697266, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.018399477005004883, "timer/logger.write_frac": 6.130840681842432e-05, "timer/logger.write_avg": 0.018399477005004883, "timer/logger.write_min": 0.018399477005004883, "timer/logger.write_max": 0.018399477005004883, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1468.0, "timer/agent.policy_total": 10.430259466171265, "timer/agent.policy_frac": 0.034754389507908705, "timer/agent.policy_avg": 0.0071050813802256575, "timer/agent.policy_min": 0.005843162536621094, "timer/agent.policy_max": 0.018074750900268555, "timer/dataset_count": 734.0, "timer/dataset_total": 0.055999755859375, "timer/dataset_frac": 0.0001865952936067213, "timer/dataset_avg": 7.62939453125e-05, "timer/dataset_min": 5.459785461425781e-05, "timer/dataset_max": 0.00012421607971191406, "timer/agent.train_count": 734.0, "timer/agent.train_total": 269.6129205226898, "timer/agent.train_frac": 0.8983700248877907, "timer/agent.train_avg": 0.3673200552080243, "timer/agent.train_min": 0.3602325916290283, "timer/agent.train_max": 0.38416266441345215, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22117090225219727, "timer/agent.report_frac": 0.0007369576672199586, "timer/agent.report_avg": 0.22117090225219727, "timer/agent.report_min": 0.22117090225219727, "timer/agent.report_max": 0.22117090225219727, "fps": 4.891372288662133}
{"step": 566008, "episode/length": 324.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.024615384615384615}
{"step": 566141, "episode/length": 132.0, "episode/score": 10.099999979138374, "episode/sum_abs_reward": 11.900000020861626, "episode/reward_rate": 0.08270676691729323}
{"step": 566532, "episode/length": 390.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.03324808184143223}
{"step": 566830, "episode/length": 297.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.04697986577181208}
{"step": 566949, "episode/length": 118.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.09243697478991597}
{"step": 567162, "episode/length": 212.0, "episode/score": 11.099999994039536, "episode/sum_abs_reward": 13.300000011920929, "episode/reward_rate": 0.06103286384976526}
{"step": 567347, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.663552480201199, "train/action_min": 0.0, "train/action_std": 3.546471997483136, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.044123773552375296, "train/actor_opt_grad_steps": 282760.0, "train/actor_opt_loss": -11.229995458501659, "train/adv_mag": 0.4566119999101717, "train/adv_max": 0.41321496604240104, "train/adv_mean": 0.0023502124415045564, "train/adv_min": -0.3883271870547778, "train/adv_std": 0.04985158456719085, "train/cont_avg": 0.994488441780822, "train/cont_loss_mean": 7.922109704759973e-05, "train/cont_loss_std": 0.002434857302871821, "train/cont_neg_acc": 0.996086107541437, "train/cont_neg_loss": 0.007987963299639937, "train/cont_pos_acc": 0.9999999812204544, "train/cont_pos_loss": 2.4509070402194533e-05, "train/cont_pred": 0.9944972787817864, "train/cont_rate": 0.994488441780822, "train/dyn_loss_mean": 5.336947519485265, "train/dyn_loss_std": 8.850580822931578, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.068838651049627, "train/extr_critic_critic_opt_grad_steps": 282760.0, "train/extr_critic_critic_opt_loss": 16045.820366010274, "train/extr_critic_mag": 10.744993053070486, "train/extr_critic_max": 10.744993053070486, "train/extr_critic_mean": 2.9027843246721243, "train/extr_critic_min": -0.47037599184741713, "train/extr_critic_std": 2.6040347324658746, "train/extr_return_normed_mag": 1.4282941409986314, "train/extr_return_normed_max": 1.4282941409986314, "train/extr_return_normed_mean": 0.37524710350657164, "train/extr_return_normed_min": -0.08366629665028559, "train/extr_return_normed_std": 0.32695701146778994, "train/extr_return_rate": 0.7572658388581994, "train/extr_return_raw_mag": 11.40371911819667, "train/extr_return_raw_max": 11.40371911819667, "train/extr_return_raw_mean": 2.9217178511292965, "train/extr_return_raw_min": -0.777205475797392, "train/extr_return_raw_std": 2.6347621809946347, "train/extr_reward_mag": 1.0580637814247444, "train/extr_reward_max": 1.0580637814247444, "train/extr_reward_mean": 0.05598249577292024, "train/extr_reward_min": -0.6541328577146138, "train/extr_reward_std": 0.22822228808925576, "train/image_loss_mean": 3.238492003858906, "train/image_loss_std": 8.50689169478743, "train/model_loss_mean": 6.494261166820787, "train/model_loss_std": 12.669330544667702, "train/model_opt_grad_norm": 30.4436233598892, "train/model_opt_grad_steps": 282536.41095890413, "train/model_opt_loss": 16102.798915079195, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2482.876712328767, "train/policy_entropy_mag": 2.6322180375660937, "train/policy_entropy_max": 2.6322180375660937, "train/policy_entropy_mean": 0.43243615676278935, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6060828427745871, "train/policy_logprob_mag": 7.438384284711864, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4341101785228677, "train/policy_logprob_min": -7.438384284711864, "train/policy_logprob_std": 1.0510569966002687, "train/policy_randomness_mag": 0.9290574584921746, "train/policy_randomness_max": 0.9290574584921746, "train/policy_randomness_mean": 0.15263098723267857, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21392064857972812, "train/post_ent_mag": 55.33806129351054, "train/post_ent_max": 55.33806129351054, "train/post_ent_mean": 40.861226904882145, "train/post_ent_min": 19.204374234970302, "train/post_ent_std": 5.777618930764394, "train/prior_ent_mag": 76.39811800603997, "train/prior_ent_max": 76.39811800603997, "train/prior_ent_mean": 46.192222856495476, "train/prior_ent_min": 28.676962316852727, "train/prior_ent_std": 7.471160568603097, "train/rep_loss_mean": 5.336947519485265, "train/rep_loss_std": 8.850580822931578, "train/reward_avg": 0.0375615366517681, "train/reward_loss_mean": 0.0535214545894159, "train/reward_loss_std": 0.2053845475797784, "train/reward_max_data": 1.0178082234238925, "train/reward_max_pred": 1.0156348012898067, "train/reward_neg_acc": 0.9942057598127078, "train/reward_neg_loss": 0.02380804899977903, "train/reward_pos_acc": 0.9899828883066569, "train/reward_pos_loss": 0.7262293345307651, "train/reward_pred": 0.03728125088733353, "train/reward_rate": 0.04238013698630137, "stats/sum_log_reward": 10.4333336353302, "stats/max_log_achievement_collect_coal": 0.16666666666666666, "stats/max_log_achievement_collect_drink": 6.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 15.0, "stats/max_log_achievement_collect_wood": 10.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 0.8333333333333334, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 5.666666666666667, "stats/max_log_achievement_place_table": 2.6666666666666665, "stats/max_log_achievement_wake_up": 1.8333333333333333, "stats/mean_log_entropy": 0.5487510412931442, "replay/size": 567284.0, "replay/inserts": 1460.0, "replay/samples": 11680.0, "replay/insert_wait_avg": 3.1177311727445418e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.444494071072095e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2678291797638, "timer/env.step_count": 1460.0, "timer/env.step_total": 16.54847741127014, "timer/env.step_frac": 0.05511238901774898, "timer/env.step_avg": 0.011334573569363111, "timer/env.step_min": 0.002694845199584961, "timer/env.step_max": 1.299264907836914, "timer/replay.add_count": 1460.0, "timer/replay.add_total": 0.2713589668273926, "timer/replay.add_frac": 0.0009037230780555445, "timer/replay.add_avg": 0.0001858623060461593, "timer/replay.add_min": 6.365776062011719e-05, "timer/replay.add_max": 0.0007977485656738281, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.01846146583557129, "timer/logger.write_frac": 6.14833293530051e-05, "timer/logger.write_avg": 0.01846146583557129, "timer/logger.write_min": 0.01846146583557129, "timer/logger.write_max": 0.01846146583557129, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0005142688751220703, "timer/checkpoint.save_frac": 1.7127005464650986e-06, "timer/checkpoint.save_avg": 0.0005142688751220703, "timer/checkpoint.save_min": 0.0005142688751220703, "timer/checkpoint.save_max": 0.0005142688751220703, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3638677597045898, "timer/agent.save_frac": 0.004542170779434623, "timer/agent.save_avg": 1.3638677597045898, "timer/agent.save_min": 1.3638677597045898, "timer/agent.save_max": 1.3638677597045898, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.939338684082031e-05, "timer/replay.save_frac": 2.6440856836943804e-07, "timer/replay.save_avg": 7.939338684082031e-05, "timer/replay.save_min": 7.939338684082031e-05, "timer/replay.save_max": 7.939338684082031e-05, "timer/agent.policy_count": 1460.0, "timer/agent.policy_total": 14.216370105743408, "timer/agent.policy_frac": 0.04734563187997199, "timer/agent.policy_avg": 0.00973723979845439, "timer/agent.policy_min": 0.005731344223022461, "timer/agent.policy_max": 2.308309555053711, "timer/dataset_count": 730.0, "timer/dataset_total": 0.05792355537414551, "timer/dataset_frac": 0.00019290629812848827, "timer/dataset_avg": 7.934733612896646e-05, "timer/dataset_min": 5.364418029785156e-05, "timer/dataset_max": 0.00017142295837402344, "timer/agent.train_count": 730.0, "timer/agent.train_total": 268.5282847881317, "timer/agent.train_frac": 0.8942958875137093, "timer/agent.train_avg": 0.3678469654631941, "timer/agent.train_min": 0.35843324661254883, "timer/agent.train_max": 0.40790319442749023, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22169971466064453, "timer/agent.report_frac": 0.0007383398856489476, "timer/agent.report_avg": 0.22169971466064453, "timer/agent.report_min": 0.22169971466064453, "timer/agent.report_max": 0.22169971466064453, "fps": 4.8622132647224054}
{"step": 567399, "episode/length": 236.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.700000002980232, "episode/reward_rate": 0.05907172995780591}
{"step": 567618, "episode/length": 218.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.0502283105022831}
{"step": 567816, "episode/length": 197.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.050505050505050504}
{"step": 568153, "episode/length": 336.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.03560830860534125}
{"step": 568370, "episode/length": 216.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 12.500000059604645, "episode/reward_rate": 0.05069124423963134}
{"step": 568432, "episode/length": 61.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.099999994039536, "episode/reward_rate": 0.12903225806451613}
{"step": 568603, "episode/length": 170.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.500000022351742, "episode/reward_rate": 0.04093567251461988}
{"step": 568807, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.584169152664812, "train/action_min": 0.0, "train/action_std": 3.4967854872141797, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04282640160558975, "train/actor_opt_grad_steps": 283490.0, "train/actor_opt_loss": -11.809509484735253, "train/adv_mag": 0.42182765023349084, "train/adv_max": 0.3894535005092621, "train/adv_mean": 0.002748178549378804, "train/adv_min": -0.3547582981521136, "train/adv_std": 0.04893833383509558, "train/cont_avg": 0.9950770547945206, "train/cont_loss_mean": 1.3862386272205952e-05, "train/cont_loss_std": 0.0004292652489658972, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 4.7037949580293544e-05, "train/cont_pos_acc": 0.9999864868921776, "train/cont_pos_loss": 1.376390473507678e-05, "train/cont_pred": 0.9950674429331741, "train/cont_rate": 0.9950770547945206, "train/dyn_loss_mean": 5.178578461686226, "train/dyn_loss_std": 8.790970750051002, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0680548720163843, "train/extr_critic_critic_opt_grad_steps": 283490.0, "train/extr_critic_critic_opt_loss": 16180.637922731165, "train/extr_critic_mag": 10.741857162893634, "train/extr_critic_max": 10.741857162893634, "train/extr_critic_mean": 2.8037714631590123, "train/extr_critic_min": -0.46288689031992875, "train/extr_critic_std": 2.547610188183719, "train/extr_return_normed_mag": 1.4378533787923315, "train/extr_return_normed_max": 1.4378533787923315, "train/extr_return_normed_mean": 0.3628649413585663, "train/extr_return_normed_min": -0.08582002215393603, "train/extr_return_normed_std": 0.32119027555805363, "train/extr_return_rate": 0.7518657609207989, "train/extr_return_raw_mag": 11.471443319973881, "train/extr_return_raw_max": 11.471443319973881, "train/extr_return_raw_mean": 2.8258689201041443, "train/extr_return_raw_min": -0.7822474669920255, "train/extr_return_raw_std": 2.583218176070958, "train/extr_reward_mag": 1.0499153463807824, "train/extr_reward_max": 1.0499153463807824, "train/extr_reward_mean": 0.05281507040131582, "train/extr_reward_min": -0.6520904220946847, "train/extr_reward_std": 0.22159085371722914, "train/image_loss_mean": 3.10814328389625, "train/image_loss_std": 8.179652658227372, "train/model_loss_mean": 6.265213652832867, "train/model_loss_std": 12.346316546609957, "train/model_opt_grad_norm": 28.06335186631712, "train/model_opt_grad_steps": 283265.0, "train/model_opt_loss": 7831.517049711045, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.644473882570659, "train/policy_entropy_max": 2.644473882570659, "train/policy_entropy_mean": 0.42897549414471403, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6007468402385712, "train/policy_logprob_mag": 7.438384284711864, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.42956244026961393, "train/policy_logprob_min": -7.438384284711864, "train/policy_logprob_std": 1.0446237350163394, "train/policy_randomness_mag": 0.9333832337431711, "train/policy_randomness_max": 0.9333832337431711, "train/policy_randomness_mean": 0.15140952169895172, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21203727213895485, "train/post_ent_mag": 55.40432352562473, "train/post_ent_max": 55.40432352562473, "train/post_ent_mean": 41.1713750656337, "train/post_ent_min": 19.242778346963124, "train/post_ent_std": 5.70058294844954, "train/prior_ent_mag": 76.58448770601456, "train/prior_ent_max": 76.58448770601456, "train/prior_ent_mean": 46.36517098831804, "train/prior_ent_min": 28.676804189812646, "train/prior_ent_std": 7.373005938856569, "train/rep_loss_mean": 5.178578461686226, "train/rep_loss_std": 8.790970750051002, "train/reward_avg": 0.03535557522961538, "train/reward_loss_mean": 0.04990946672448557, "train/reward_loss_std": 0.2034499655439429, "train/reward_max_data": 1.0178082234238925, "train/reward_max_pred": 1.0157023194718033, "train/reward_neg_acc": 0.9950558445225023, "train/reward_neg_loss": 0.021560667529191873, "train/reward_pos_acc": 0.9891086873942858, "train/reward_pos_loss": 0.7354096010939716, "train/reward_pred": 0.03493976914515234, "train/reward_rate": 0.03975813356164384, "stats/sum_log_reward": 9.242856979370117, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 3.5714285714285716, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 0.8571428571428571, "stats/max_log_achievement_collect_stone": 11.285714285714286, "stats/max_log_achievement_collect_wood": 8.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5714285714285714, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.2857142857142857, "stats/max_log_achievement_make_stone_sword": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.4285714285714286, "stats/max_log_achievement_place_plant": 0.8571428571428571, "stats/max_log_achievement_place_stone": 4.0, "stats/max_log_achievement_place_table": 2.7142857142857144, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.4170234820672444, "replay/size": 568744.0, "replay/inserts": 1460.0, "replay/samples": 11680.0, "replay/insert_wait_avg": 3.1446757381909513e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3932177465255946e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.13271474838257, "timer/env.step_count": 1460.0, "timer/env.step_total": 17.675186157226562, "timer/env.step_frac": 0.0588912347394206, "timer/env.step_avg": 0.012106291888511344, "timer/env.step_min": 0.0023877620697021484, "timer/env.step_max": 1.6208906173706055, "timer/replay.add_count": 1460.0, "timer/replay.add_total": 0.257190465927124, "timer/replay.add_frac": 0.0008569224655923985, "timer/replay.add_avg": 0.00017615785337474248, "timer/replay.add_min": 6.079673767089844e-05, "timer/replay.add_max": 0.0012722015380859375, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030213594436645508, "timer/logger.write_frac": 0.00010066744793874, "timer/logger.write_avg": 0.030213594436645508, "timer/logger.write_min": 0.030213594436645508, "timer/logger.write_max": 0.030213594436645508, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1460.0, "timer/agent.policy_total": 10.560652732849121, "timer/agent.policy_frac": 0.0351866098359277, "timer/agent.policy_avg": 0.007233323789622686, "timer/agent.policy_min": 0.0059356689453125, "timer/agent.policy_max": 0.016394615173339844, "timer/dataset_count": 730.0, "timer/dataset_total": 0.05783843994140625, "timer/dataset_frac": 0.00019270954847389873, "timer/dataset_avg": 7.923073964576198e-05, "timer/dataset_min": 5.364418029785156e-05, "timer/dataset_max": 0.00015354156494140625, "timer/agent.train_count": 730.0, "timer/agent.train_total": 270.92081785202026, "timer/agent.train_frac": 0.9026700674038409, "timer/agent.train_avg": 0.3711244080164661, "timer/agent.train_min": 0.3612034320831299, "timer/agent.train_max": 2.099597215652466, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22174525260925293, "timer/agent.report_frac": 0.0007388239992269884, "timer/agent.report_avg": 0.22174525260925293, "timer/agent.report_min": 0.22174525260925293, "timer/agent.report_max": 0.22174525260925293, "fps": 4.864408754156938}
{"step": 568819, "episode/length": 215.0, "episode/score": 11.100000031292439, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.06018518518518518}
{"step": 569036, "episode/length": 216.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.059907834101382486}
{"step": 569205, "episode/length": 168.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.04142011834319527}
{"step": 569394, "episode/length": 188.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.0582010582010582}
{"step": 569678, "episode/length": 283.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.04225352112676056}
{"step": 569949, "episode/length": 270.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.04797047970479705}
{"step": 570123, "episode/length": 173.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.06321839080459771}
{"step": 570270, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.564805122270976, "train/action_min": 0.0, "train/action_std": 3.4751111742568344, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04429528653009297, "train/actor_opt_grad_steps": 284220.0, "train/actor_opt_loss": -12.48581507924485, "train/adv_mag": 0.4268404727112757, "train/adv_max": 0.3768198747340947, "train/adv_mean": 0.002829176785170391, "train/adv_min": -0.37221102845178894, "train/adv_std": 0.04969894156268198, "train/cont_avg": 0.9945419520547946, "train/cont_loss_mean": 4.1537891390168844e-05, "train/cont_loss_std": 0.0012119930867820444, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0005417889178762716, "train/cont_pos_acc": 0.9999730415540199, "train/cont_pos_loss": 4.0184887634791576e-05, "train/cont_pred": 0.9945156647734446, "train/cont_rate": 0.9945419520547946, "train/dyn_loss_mean": 5.348176786344346, "train/dyn_loss_std": 8.80048199875714, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.028964534197768, "train/extr_critic_critic_opt_grad_steps": 284220.0, "train/extr_critic_critic_opt_loss": 16199.486649186643, "train/extr_critic_mag": 10.942773792841663, "train/extr_critic_max": 10.942773792841663, "train/extr_critic_mean": 2.9699943457564264, "train/extr_critic_min": -0.491641348355437, "train/extr_critic_std": 2.6832955651087302, "train/extr_return_normed_mag": 1.4407505270552963, "train/extr_return_normed_max": 1.4407505270552963, "train/extr_return_normed_mean": 0.37879977569188156, "train/extr_return_normed_min": -0.08744150292995857, "train/extr_return_normed_std": 0.33180977057104244, "train/extr_return_rate": 0.7597986590372373, "train/extr_return_raw_mag": 11.714177471317656, "train/extr_return_raw_max": 11.714177471317656, "train/extr_return_raw_mean": 2.993216957131477, "train/extr_return_raw_min": -0.8355960421366234, "train/extr_return_raw_std": 2.7249623896324473, "train/extr_reward_mag": 1.0554207710370624, "train/extr_reward_max": 1.0554207710370624, "train/extr_reward_mean": 0.056290732594589665, "train/extr_reward_min": -0.6925503260468784, "train/extr_reward_std": 0.2289664969868856, "train/image_loss_mean": 3.134951070563434, "train/image_loss_std": 8.072690415055785, "train/model_loss_mean": 6.398759632894437, "train/model_loss_std": 12.241771070924523, "train/model_opt_grad_norm": 30.185583597993197, "train/model_opt_grad_steps": 283995.0, "train/model_opt_loss": 13237.972856913528, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2089.041095890411, "train/policy_entropy_mag": 2.640691985822704, "train/policy_entropy_max": 2.640691985822704, "train/policy_entropy_mean": 0.4072267366190479, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5693391406372802, "train/policy_logprob_mag": 7.438384225923721, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4074996540399447, "train/policy_logprob_min": -7.438384225923721, "train/policy_logprob_std": 1.022508924138056, "train/policy_randomness_mag": 0.9320483893564303, "train/policy_randomness_max": 0.9320483893564303, "train/policy_randomness_mean": 0.14373316799532876, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20095173157241247, "train/post_ent_mag": 54.899475881498155, "train/post_ent_max": 54.899475881498155, "train/post_ent_mean": 40.57050140589884, "train/post_ent_min": 19.12577220185162, "train/post_ent_std": 5.559881458543751, "train/prior_ent_mag": 76.64356325750481, "train/prior_ent_max": 76.64356325750481, "train/prior_ent_mean": 45.91849988127408, "train/prior_ent_min": 28.702974554610577, "train/prior_ent_std": 7.478691564847345, "train/rep_loss_mean": 5.348176786344346, "train/rep_loss_std": 8.80048199875714, "train/reward_avg": 0.03677894861424622, "train/reward_loss_mean": 0.05486099871054088, "train/reward_loss_std": 0.22309067804519445, "train/reward_max_data": 1.026027403465689, "train/reward_max_pred": 1.0242982825187787, "train/reward_neg_acc": 0.9945134046959551, "train/reward_neg_loss": 0.02514845344607961, "train/reward_pos_acc": 0.9866548931761964, "train/reward_pos_loss": 0.7358577749500536, "train/reward_pred": 0.03643714304860324, "train/reward_rate": 0.04187178938356165, "stats/sum_log_reward": 10.385714667184013, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 3.857142857142857, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8571428571428572, "stats/max_log_achievement_collect_stone": 13.428571428571429, "stats/max_log_achievement_collect_wood": 8.0, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.8571428571428572, "stats/max_log_achievement_place_plant": 1.7142857142857142, "stats/max_log_achievement_place_stone": 3.4285714285714284, "stats/max_log_achievement_place_table": 1.5714285714285714, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.36382114461490084, "replay/size": 570207.0, "replay/inserts": 1463.0, "replay/samples": 11696.0, "replay/insert_wait_avg": 3.1025378735034497e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.5003899706046004e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0072491168976, "timer/env.step_count": 1463.0, "timer/env.step_total": 18.296154022216797, "timer/env.step_frac": 0.06098570643233929, "timer/env.step_avg": 0.012505915257837865, "timer/env.step_min": 0.0027701854705810547, "timer/env.step_max": 1.5211353302001953, "timer/replay.add_count": 1463.0, "timer/replay.add_total": 0.2585484981536865, "timer/replay.add_frac": 0.0008618075027011875, "timer/replay.add_avg": 0.00017672487912077, "timer/replay.add_min": 5.745887756347656e-05, "timer/replay.add_max": 0.0008571147918701172, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021140575408935547, "timer/logger.write_frac": 7.046688195423618e-05, "timer/logger.write_avg": 0.021140575408935547, "timer/logger.write_min": 0.021140575408935547, "timer/logger.write_max": 0.021140575408935547, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1463.0, "timer/agent.policy_total": 10.88665223121643, "timer/agent.policy_frac": 0.03628796391841337, "timer/agent.policy_avg": 0.007441320732205352, "timer/agent.policy_min": 0.0059337615966796875, "timer/agent.policy_max": 0.016147851943969727, "timer/dataset_count": 731.0, "timer/dataset_total": 0.059043169021606445, "timer/dataset_frac": 0.00019680580784433086, "timer/dataset_avg": 8.077040905828516e-05, "timer/dataset_min": 5.984306335449219e-05, "timer/dataset_max": 0.00018715858459472656, "timer/agent.train_count": 731.0, "timer/agent.train_total": 269.857302904129, "timer/agent.train_frac": 0.8995026076819209, "timer/agent.train_avg": 0.36916183707815187, "timer/agent.train_min": 0.36241936683654785, "timer/agent.train_max": 0.3832569122314453, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22038960456848145, "timer/agent.report_frac": 0.0007346142642126851, "timer/agent.report_avg": 0.22038960456848145, "timer/agent.report_min": 0.22038960456848145, "timer/agent.report_max": 0.22038960456848145, "fps": 4.87643757364692}
{"step": 570310, "episode/length": 186.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.058823529411764705}
{"step": 570578, "episode/length": 267.0, "episode/score": 11.100000031292439, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.048507462686567165}
{"step": 570894, "episode/length": 315.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.30000003427267, "episode/reward_rate": 0.04113924050632911}
{"step": 571191, "episode/length": 296.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.04040404040404041}
{"step": 571365, "episode/length": 173.0, "episode/score": 11.100000016391277, "episode/sum_abs_reward": 12.30000003427267, "episode/reward_rate": 0.06896551724137931}
{"step": 571692, "episode/length": 326.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.03363914373088685}
{"step": 571729, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.503471479023973, "train/action_min": 0.0, "train/action_std": 3.3916952218094916, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04351721637665409, "train/actor_opt_grad_steps": 284950.0, "train/actor_opt_loss": -13.176477137902012, "train/adv_mag": 0.41971738901856825, "train/adv_max": 0.3903723371355501, "train/adv_mean": 0.0021513677379828063, "train/adv_min": -0.35405345199859306, "train/adv_std": 0.049041474059428256, "train/cont_avg": 0.9942610231164384, "train/cont_loss_mean": 6.038293695196008e-05, "train/cont_loss_std": 0.0018300312404550187, "train/cont_neg_acc": 0.9965753424657534, "train/cont_neg_loss": 0.011687676834121516, "train/cont_pos_acc": 0.9999999836699603, "train/cont_pos_loss": 1.3881530655721254e-05, "train/cont_pred": 0.9942628839244582, "train/cont_rate": 0.9942610231164384, "train/dyn_loss_mean": 5.208723629990669, "train/dyn_loss_std": 8.79235844416161, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0793143968059593, "train/extr_critic_critic_opt_grad_steps": 284950.0, "train/extr_critic_critic_opt_loss": 16228.118659032534, "train/extr_critic_mag": 10.9794543932562, "train/extr_critic_max": 10.9794543932562, "train/extr_critic_mean": 3.004725111673956, "train/extr_critic_min": -0.4861830472946167, "train/extr_critic_std": 2.744660973548889, "train/extr_return_normed_mag": 1.4271204389937937, "train/extr_return_normed_max": 1.4271204389937937, "train/extr_return_normed_mean": 0.3780146596366412, "train/extr_return_normed_min": -0.08694703749393763, "train/extr_return_normed_std": 0.33365923533700914, "train/extr_return_rate": 0.7541345986601424, "train/extr_return_raw_mag": 11.764861773138177, "train/extr_return_raw_max": 11.764861773138177, "train/extr_return_raw_mean": 3.022624510608307, "train/extr_return_raw_min": -0.8533348457454002, "train/extr_return_raw_std": 2.7807757691161274, "train/extr_reward_mag": 1.0520421903427333, "train/extr_reward_max": 1.0520421903427333, "train/extr_reward_mean": 0.057652974960534537, "train/extr_reward_min": -0.6737936980103794, "train/extr_reward_std": 0.23100188844007988, "train/image_loss_mean": 3.098083360554421, "train/image_loss_std": 8.294685122084944, "train/model_loss_mean": 6.277158332197634, "train/model_loss_std": 12.433690391174734, "train/model_opt_grad_norm": 28.827256568490643, "train/model_opt_grad_steps": 284724.72602739726, "train/model_opt_loss": 16101.426022046233, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2568.4931506849316, "train/policy_entropy_mag": 2.639771102225944, "train/policy_entropy_max": 2.639771102225944, "train/policy_entropy_mean": 0.4071139280926691, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.575189034008, "train/policy_logprob_mag": 7.438384271647832, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40687489101331525, "train/policy_logprob_min": -7.438384271647832, "train/policy_logprob_std": 1.0239717143855682, "train/policy_randomness_mag": 0.9317233570634502, "train/policy_randomness_max": 0.9317233570634502, "train/policy_randomness_mean": 0.14369335025548935, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20301648596786473, "train/post_ent_mag": 55.014519521634874, "train/post_ent_max": 55.014519521634874, "train/post_ent_mean": 40.763728363873206, "train/post_ent_min": 19.02351225238957, "train/post_ent_std": 5.601630713841686, "train/prior_ent_mag": 76.49312152601269, "train/prior_ent_max": 76.49312152601269, "train/prior_ent_mean": 46.03862454140023, "train/prior_ent_min": 28.587322627028374, "train/prior_ent_std": 7.504352680624348, "train/rep_loss_mean": 5.208723629990669, "train/rep_loss_std": 8.79235844416161, "train/reward_avg": 0.038939426257593994, "train/reward_loss_mean": 0.053780442078227866, "train/reward_loss_std": 0.20422478836693175, "train/reward_max_data": 1.0205479501044914, "train/reward_max_pred": 1.0183405418918556, "train/reward_neg_acc": 0.9945172414387742, "train/reward_neg_loss": 0.022974087882225644, "train/reward_pos_acc": 0.9918295014394473, "train/reward_pos_loss": 0.7256443827119592, "train/reward_pred": 0.03865099147166291, "train/reward_rate": 0.0439185573630137, "stats/sum_log_reward": 10.933333396911621, "stats/max_log_achievement_collect_coal": 1.3333333333333333, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.1666666666666665, "stats/max_log_achievement_collect_stone": 18.666666666666668, "stats/max_log_achievement_collect_wood": 9.166666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.3333333333333333, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.3333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 3.0, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_stone": 4.0, "stats/max_log_achievement_place_table": 2.6666666666666665, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.5956429143746694, "replay/size": 571666.0, "replay/inserts": 1459.0, "replay/samples": 11680.0, "replay/insert_wait_avg": 3.1726502489765837e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4673969517015432e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.00514554977417, "timer/env.step_count": 1459.0, "timer/env.step_total": 16.226501941680908, "timer/env.step_frac": 0.05408741210736585, "timer/env.step_avg": 0.011121660001152096, "timer/env.step_min": 0.002324819564819336, "timer/env.step_max": 1.3679325580596924, "timer/replay.add_count": 1459.0, "timer/replay.add_total": 0.3284168243408203, "timer/replay.add_frac": 0.0010947039716234879, "timer/replay.add_avg": 0.00022509720653928739, "timer/replay.add_min": 6.508827209472656e-05, "timer/replay.add_max": 0.0009100437164306641, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021181344985961914, "timer/logger.write_frac": 7.06032723110334e-05, "timer/logger.write_avg": 0.021181344985961914, "timer/logger.write_min": 0.021181344985961914, "timer/logger.write_max": 0.021181344985961914, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00030803680419921875, "timer/checkpoint.save_frac": 1.0267717363138094e-06, "timer/checkpoint.save_avg": 0.00030803680419921875, "timer/checkpoint.save_min": 0.00030803680419921875, "timer/checkpoint.save_max": 0.00030803680419921875, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.258347749710083, "timer/agent.save_frac": 0.004194420557034444, "timer/agent.save_avg": 1.258347749710083, "timer/agent.save_min": 1.258347749710083, "timer/agent.save_max": 1.258347749710083, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.653236389160156e-05, "timer/replay.save_frac": 2.5510350414607804e-07, "timer/replay.save_avg": 7.653236389160156e-05, "timer/replay.save_min": 7.653236389160156e-05, "timer/replay.save_max": 7.653236389160156e-05, "timer/agent.policy_count": 1459.0, "timer/agent.policy_total": 14.784221410751343, "timer/agent.policy_frac": 0.04927989279536699, "timer/agent.policy_avg": 0.010133119541296328, "timer/agent.policy_min": 0.0058481693267822266, "timer/agent.policy_max": 2.809828996658325, "timer/dataset_count": 730.0, "timer/dataset_total": 0.05698084831237793, "timer/dataset_frac": 0.00018993290334390006, "timer/dataset_avg": 7.805595659229853e-05, "timer/dataset_min": 5.7220458984375e-05, "timer/dataset_max": 0.00016045570373535156, "timer/agent.train_count": 730.0, "timer/agent.train_total": 267.96969413757324, "timer/agent.train_frac": 0.8932169934835804, "timer/agent.train_avg": 0.36708177279119625, "timer/agent.train_min": 0.3573496341705322, "timer/agent.train_max": 0.4490232467651367, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22198987007141113, "timer/agent.report_frac": 0.0007399535420121005, "timer/agent.report_avg": 0.22198987007141113, "timer/agent.report_min": 0.22198987007141113, "timer/agent.report_max": 0.22198987007141113, "fps": 4.863139652794663}
{"step": 571744, "episode/length": 51.0, "episode/score": 2.0999999791383743, "episode/sum_abs_reward": 3.9000000208616257, "episode/reward_rate": 0.057692307692307696}
{"step": 571924, "episode/length": 179.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.06111111111111111}
{"step": 572158, "episode/length": 233.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.04700854700854701}
{"step": 572464, "episode/length": 305.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.042483660130718956}
{"step": 572630, "episode/length": 165.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.07228915662650602}
{"step": 572992, "episode/length": 361.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.03038674033149171}
{"step": 573183, "episode/length": 190.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06282722513089005}
{"step": 573209, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.510166477512669, "train/action_min": 0.0, "train/action_std": 3.4111297130584717, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.041894051825275294, "train/actor_opt_grad_steps": 285685.0, "train/actor_opt_loss": -14.063873709859076, "train/adv_mag": 0.4340096035519162, "train/adv_max": 0.382404088772632, "train/adv_mean": 0.0019043951141491783, "train/adv_min": -0.3685796454146102, "train/adv_std": 0.04737522387625398, "train/cont_avg": 0.9945365287162162, "train/cont_loss_mean": 1.7077915657445238e-05, "train/cont_loss_std": 0.0004489171237399949, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0005176253180621103, "train/cont_pos_acc": 0.9999999871125093, "train/cont_pos_loss": 1.3699690550128241e-05, "train/cont_pred": 0.994527373764966, "train/cont_rate": 0.9945365287162162, "train/dyn_loss_mean": 4.984326575253461, "train/dyn_loss_std": 8.656312478555215, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0150449412900049, "train/extr_critic_critic_opt_grad_steps": 285685.0, "train/extr_critic_critic_opt_loss": 16043.644386085303, "train/extr_critic_mag": 11.280390391478667, "train/extr_critic_max": 11.280390391478667, "train/extr_critic_mean": 2.986740062365661, "train/extr_critic_min": -0.516059435702659, "train/extr_critic_std": 2.7717202934058935, "train/extr_return_normed_mag": 1.4361889458991386, "train/extr_return_normed_max": 1.4361889458991386, "train/extr_return_normed_mean": 0.372237961034517, "train/extr_return_normed_min": -0.08744477002403221, "train/extr_return_normed_std": 0.33129091701797536, "train/extr_return_rate": 0.7492513382757032, "train/extr_return_raw_mag": 12.007689128050933, "train/extr_return_raw_max": 12.007689128050933, "train/extr_return_raw_mean": 3.002876755353567, "train/extr_return_raw_min": -0.8883471605745522, "train/extr_return_raw_std": 2.8041702251176575, "train/extr_reward_mag": 1.052700004062137, "train/extr_reward_max": 1.052700004062137, "train/extr_reward_mean": 0.05537083055320624, "train/extr_reward_min": -0.6806233025885917, "train/extr_reward_std": 0.22785556336512436, "train/image_loss_mean": 2.9821996608295955, "train/image_loss_std": 7.99784534041946, "train/model_loss_mean": 6.026602364875175, "train/model_loss_std": 12.112067222595215, "train/model_opt_grad_norm": 28.12923780647484, "train/model_opt_grad_steps": 285459.0, "train/model_opt_loss": 15066.505832981418, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.632314350153949, "train/policy_entropy_max": 2.632314350153949, "train/policy_entropy_mean": 0.41532662349778254, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5890334357280989, "train/policy_logprob_mag": 7.43838424940367, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41517322611164403, "train/policy_logprob_min": -7.43838424940367, "train/policy_logprob_std": 1.0309425439383533, "train/policy_randomness_mag": 0.929091448719437, "train/policy_randomness_max": 0.929091448719437, "train/policy_randomness_mean": 0.14659207002133937, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20790295232389425, "train/post_ent_mag": 55.470914118998756, "train/post_ent_max": 55.470914118998756, "train/post_ent_mean": 40.94001007080078, "train/post_ent_min": 19.13760515161463, "train/post_ent_std": 5.626287028596208, "train/prior_ent_mag": 76.57924765509529, "train/prior_ent_max": 76.57924765509529, "train/prior_ent_mean": 45.94443455257931, "train/prior_ent_min": 28.484657906197214, "train/prior_ent_std": 7.443906378101659, "train/rep_loss_mean": 4.984326575253461, "train/rep_loss_std": 8.656312478555215, "train/reward_avg": 0.03715820316023923, "train/reward_loss_mean": 0.05378969874535058, "train/reward_loss_std": 0.2151680943128225, "train/reward_max_data": 1.0162162200824634, "train/reward_max_pred": 1.0135311178258948, "train/reward_neg_acc": 0.9941044409532804, "train/reward_neg_loss": 0.023917242179851275, "train/reward_pos_acc": 0.9881567624775139, "train/reward_pos_loss": 0.7366369052513225, "train/reward_pred": 0.036826589874721864, "train/reward_rate": 0.04201858108108108, "stats/sum_log_reward": 9.528571605682373, "stats/max_log_achievement_collect_coal": 0.8571428571428571, "stats/max_log_achievement_collect_drink": 5.571428571428571, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 14.285714285714286, "stats/max_log_achievement_collect_wood": 8.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.42857142857142855, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.4285714285714286, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.7142857142857142, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 4.857142857142857, "stats/max_log_achievement_place_table": 2.4285714285714284, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.4901052585669926, "replay/size": 573146.0, "replay/inserts": 1480.0, "replay/samples": 11840.0, "replay/insert_wait_avg": 3.1126512063516153e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4060252421611064e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.11659717559814, "timer/env.step_count": 1480.0, "timer/env.step_total": 16.801777124404907, "timer/env.step_frac": 0.05598416509625488, "timer/env.step_avg": 0.011352552111084397, "timer/env.step_min": 0.002362966537475586, "timer/env.step_max": 1.368269681930542, "timer/replay.add_count": 1480.0, "timer/replay.add_total": 0.263535737991333, "timer/replay.add_frac": 0.0008781111756946195, "timer/replay.add_avg": 0.00017806468783198177, "timer/replay.add_min": 6.198883056640625e-05, "timer/replay.add_max": 0.0009219646453857422, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021797657012939453, "timer/logger.write_frac": 7.263062828939664e-05, "timer/logger.write_avg": 0.021797657012939453, "timer/logger.write_min": 0.021797657012939453, "timer/logger.write_max": 0.021797657012939453, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1480.0, "timer/agent.policy_total": 10.514592170715332, "timer/agent.policy_frac": 0.03503502395291803, "timer/agent.policy_avg": 0.007104454169402251, "timer/agent.policy_min": 0.005610227584838867, "timer/agent.policy_max": 0.016126155853271484, "timer/dataset_count": 740.0, "timer/dataset_total": 0.057608842849731445, "timer/dataset_frac": 0.00019195487151290247, "timer/dataset_avg": 7.784978763477223e-05, "timer/dataset_min": 5.412101745605469e-05, "timer/dataset_max": 0.00016069412231445312, "timer/agent.train_count": 740.0, "timer/agent.train_total": 271.8352930545807, "timer/agent.train_frac": 0.905765611141892, "timer/agent.train_avg": 0.3673449906142982, "timer/agent.train_min": 0.3609025478363037, "timer/agent.train_max": 0.3816368579864502, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.222015380859375, "timer/agent.report_frac": 0.0007397637549831136, "timer/agent.report_avg": 0.222015380859375, "timer/agent.report_min": 0.222015380859375, "timer/agent.report_max": 0.222015380859375, "fps": 4.931304500603362}
{"step": 573459, "episode/length": 275.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.03985507246376811}
{"step": 573649, "episode/length": 189.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.900000050663948, "episode/reward_rate": 0.042105263157894736}
{"step": 573935, "episode/length": 285.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.04895104895104895}
{"step": 574204, "episode/length": 268.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 12.500000037252903, "episode/reward_rate": 0.03717472118959108}
{"step": 574423, "episode/length": 218.0, "episode/score": 12.100000031292439, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.0639269406392694}
{"step": 574485, "episode/length": 61.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.12903225806451613}
{"step": 574668, "episode/length": 182.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.060109289617486336}
{"step": 574679, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.53581443992821, "train/action_min": 0.0, "train/action_std": 3.4312718881143107, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04250423439048432, "train/actor_opt_grad_steps": 286425.0, "train/actor_opt_loss": -13.607031011500874, "train/adv_mag": 0.3972382227311263, "train/adv_max": 0.3638457518977088, "train/adv_mean": 0.0015527052197358972, "train/adv_min": -0.3358494077582617, "train/adv_std": 0.047241665573941695, "train/cont_avg": 0.9949984163851351, "train/cont_loss_mean": 8.012631995960553e-05, "train/cont_loss_std": 0.002488989697513406, "train/cont_neg_acc": 0.9972972974583909, "train/cont_neg_loss": 0.014650729253028695, "train/cont_pos_acc": 0.9999999798632957, "train/cont_pos_loss": 8.631920474640137e-06, "train/cont_pred": 0.9950034586158959, "train/cont_rate": 0.9949984163851351, "train/dyn_loss_mean": 5.125564581639058, "train/dyn_loss_std": 8.698549032211304, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0447132378011137, "train/extr_critic_critic_opt_grad_steps": 286425.0, "train/extr_critic_critic_opt_loss": 16079.347959776182, "train/extr_critic_mag": 11.02632541914244, "train/extr_critic_max": 11.02632541914244, "train/extr_critic_mean": 2.9167989266885295, "train/extr_critic_min": -0.4936850811984088, "train/extr_critic_std": 2.6980258323050834, "train/extr_return_normed_mag": 1.4211145993825551, "train/extr_return_normed_max": 1.4211145993825551, "train/extr_return_normed_mean": 0.3666256714511562, "train/extr_return_normed_min": -0.0758078347488835, "train/extr_return_normed_std": 0.32485597701491536, "train/extr_return_rate": 0.7502323034647349, "train/extr_return_raw_mag": 11.783407920115703, "train/extr_return_raw_max": 11.783407920115703, "train/extr_return_raw_mean": 2.9298289289345614, "train/extr_return_raw_min": -0.7839703229633538, "train/extr_return_raw_std": 2.727377749778129, "train/extr_reward_mag": 1.0500565541757119, "train/extr_reward_max": 1.0500565541757119, "train/extr_reward_mean": 0.054820367160278397, "train/extr_reward_min": -0.6285214714101843, "train/extr_reward_std": 0.2261778394112716, "train/image_loss_mean": 3.0801293221679895, "train/image_loss_std": 8.095799626530829, "train/model_loss_mean": 6.20858240771938, "train/model_loss_std": 12.264909718487713, "train/model_opt_grad_norm": 28.7190763112661, "train/model_opt_grad_steps": 286198.0540540541, "train/model_opt_loss": 8148.494668496622, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1317.5675675675675, "train/policy_entropy_mag": 2.6439134398022213, "train/policy_entropy_max": 2.6439134398022213, "train/policy_entropy_mean": 0.41124797672838775, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5842229941406766, "train/policy_logprob_mag": 7.4383842622911605, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41103878858927134, "train/policy_logprob_min": -7.4383842622911605, "train/policy_logprob_std": 1.0288417049356409, "train/policy_randomness_mag": 0.9331854211317526, "train/policy_randomness_max": 0.9331854211317526, "train/policy_randomness_mean": 0.14515248998194127, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2062050788789182, "train/post_ent_mag": 55.316360370532884, "train/post_ent_max": 55.316360370532884, "train/post_ent_mean": 40.922728151888464, "train/post_ent_min": 19.049926216537887, "train/post_ent_std": 5.667556872238984, "train/prior_ent_mag": 76.527167964626, "train/prior_ent_max": 76.527167964626, "train/prior_ent_mean": 46.05986208529086, "train/prior_ent_min": 28.397307602134912, "train/prior_ent_std": 7.433985252638121, "train/rep_loss_mean": 5.125564581639058, "train/rep_loss_std": 8.698549032211304, "train/reward_avg": 0.03703283329771177, "train/reward_loss_mean": 0.053034279268939756, "train/reward_loss_std": 0.21551002259995486, "train/reward_max_data": 1.0229729784501564, "train/reward_max_pred": 1.0205063819885254, "train/reward_neg_acc": 0.9950144298978754, "train/reward_neg_loss": 0.02352726853427452, "train/reward_pos_acc": 0.9874346328748239, "train/reward_pos_loss": 0.7313823708005853, "train/reward_pred": 0.03685422171209309, "train/reward_rate": 0.041662267736486486, "stats/sum_log_reward": 9.814285959516253, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 2.4285714285714284, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 0.8571428571428571, "stats/max_log_achievement_collect_stone": 15.857142857142858, "stats/max_log_achievement_collect_wood": 8.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.5714285714285714, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 2.5714285714285716, "stats/max_log_achievement_place_plant": 0.7142857142857143, "stats/max_log_achievement_place_stone": 3.4285714285714284, "stats/max_log_achievement_place_table": 2.4285714285714284, "stats/max_log_achievement_wake_up": 1.8571428571428572, "stats/mean_log_entropy": 0.5001010320016316, "replay/size": 574616.0, "replay/inserts": 1470.0, "replay/samples": 11760.0, "replay/insert_wait_avg": 3.0634354571906887e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.5135119561435413e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.269583940506, "timer/env.step_count": 1470.0, "timer/env.step_total": 17.973934650421143, "timer/env.step_frac": 0.05985932512559252, "timer/env.step_avg": 0.01222716642885792, "timer/env.step_min": 0.002678394317626953, "timer/env.step_max": 1.4204676151275635, "timer/replay.add_count": 1470.0, "timer/replay.add_total": 0.2658674716949463, "timer/replay.add_frac": 0.0008854292472980681, "timer/replay.add_avg": 0.0001808622256428206, "timer/replay.add_min": 6.318092346191406e-05, "timer/replay.add_max": 0.0007772445678710938, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021631479263305664, "timer/logger.write_frac": 7.20401946125573e-05, "timer/logger.write_avg": 0.021631479263305664, "timer/logger.write_min": 0.021631479263305664, "timer/logger.write_max": 0.021631479263305664, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1470.0, "timer/agent.policy_total": 10.867214679718018, "timer/agent.policy_frac": 0.036191526751078444, "timer/agent.policy_avg": 0.007392663047427223, "timer/agent.policy_min": 0.0058612823486328125, "timer/agent.policy_max": 0.01578998565673828, "timer/dataset_count": 735.0, "timer/dataset_total": 0.058454275131225586, "timer/dataset_frac": 0.00019467264837189584, "timer/dataset_avg": 7.952962602887834e-05, "timer/dataset_min": 5.91278076171875e-05, "timer/dataset_max": 0.00016427040100097656, "timer/agent.train_count": 735.0, "timer/agent.train_total": 270.45732831954956, "timer/agent.train_frac": 0.9007150333719339, "timer/agent.train_avg": 0.3679691541762579, "timer/agent.train_min": 0.3588571548461914, "timer/agent.train_max": 0.38131189346313477, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2204139232635498, "timer/agent.report_frac": 0.0007340534474754579, "timer/agent.report_avg": 0.2204139232635498, "timer/agent.report_min": 0.2204139232635498, "timer/agent.report_max": 0.2204139232635498, "fps": 4.8954922017450215}
{"step": 574885, "episode/length": 216.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.05069124423963134}
{"step": 575213, "episode/length": 327.0, "episode/score": 7.099999979138374, "episode/sum_abs_reward": 8.900000020861626, "episode/reward_rate": 0.024390243902439025}
{"step": 575540, "episode/length": 326.0, "episode/score": 12.099999979138374, "episode/sum_abs_reward": 15.100000038743019, "episode/reward_rate": 0.039755351681957186}
{"step": 575822, "episode/length": 281.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.03546099290780142}
{"step": 576157, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.570690416309931, "train/action_min": 0.0, "train/action_std": 3.416550051676084, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04601868150168902, "train/actor_opt_grad_steps": 287160.0, "train/actor_opt_loss": -11.583847776667712, "train/adv_mag": 0.4775872704100935, "train/adv_max": 0.44740580900074683, "train/adv_mean": 0.0027778295158011495, "train/adv_min": -0.35920528291839443, "train/adv_std": 0.05068143196914294, "train/cont_avg": 0.9944349315068494, "train/cont_loss_mean": 3.0178658981096665e-05, "train/cont_loss_std": 0.0009043177194902368, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0002714997233576394, "train/cont_pos_acc": 0.9999999861194663, "train/cont_pos_loss": 2.8980833387084217e-05, "train/cont_pred": 0.9944127920555742, "train/cont_rate": 0.9944349315068494, "train/dyn_loss_mean": 5.123933746390147, "train/dyn_loss_std": 8.744050248028481, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0928442274054435, "train/extr_critic_critic_opt_grad_steps": 287160.0, "train/extr_critic_critic_opt_loss": 16157.391695205479, "train/extr_critic_mag": 11.28084440100683, "train/extr_critic_max": 11.28084440100683, "train/extr_critic_mean": 2.967622894130341, "train/extr_critic_min": -0.5123008489608765, "train/extr_critic_std": 2.746408919765525, "train/extr_return_normed_mag": 1.4685253999004626, "train/extr_return_normed_max": 1.4685253999004626, "train/extr_return_normed_mean": 0.3754585613943126, "train/extr_return_normed_min": -0.08689571136277016, "train/extr_return_normed_std": 0.33455861104677803, "train/extr_return_rate": 0.7516463701039144, "train/extr_return_raw_mag": 12.108877351839249, "train/extr_return_raw_max": 12.108877351839249, "train/extr_return_raw_mean": 2.990781890202875, "train/extr_return_raw_min": -0.8648591988707242, "train/extr_return_raw_std": 2.7907925011360484, "train/extr_reward_mag": 1.0623957718888375, "train/extr_reward_max": 1.0623957718888375, "train/extr_reward_mean": 0.05454881208604329, "train/extr_reward_min": -0.6787552425306137, "train/extr_reward_std": 0.22668801329723776, "train/image_loss_mean": 3.052532924364691, "train/image_loss_std": 8.146672588505156, "train/model_loss_mean": 6.17982737658775, "train/model_loss_std": 12.300154960318787, "train/model_opt_grad_norm": 29.008299239694256, "train/model_opt_grad_steps": 286933.0, "train/model_opt_loss": 12194.45619515197, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1986.3013698630136, "train/policy_entropy_mag": 2.61291756695264, "train/policy_entropy_max": 2.61291756695264, "train/policy_entropy_mean": 0.40689468220488667, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5824679466959548, "train/policy_logprob_mag": 7.438384252051785, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4072772999332376, "train/policy_logprob_min": -7.438384252051785, "train/policy_logprob_std": 1.0247844710741958, "train/policy_randomness_mag": 0.9222452362922773, "train/policy_randomness_max": 0.9222452362922773, "train/policy_randomness_mean": 0.1436159687295352, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20558562527780663, "train/post_ent_mag": 55.17511148322119, "train/post_ent_max": 55.17511148322119, "train/post_ent_mean": 40.81928467423948, "train/post_ent_min": 19.159601080907535, "train/post_ent_std": 5.597606136374278, "train/prior_ent_mag": 76.57123053563784, "train/prior_ent_max": 76.57123053563784, "train/prior_ent_mean": 45.96067083698429, "train/prior_ent_min": 28.128562587581268, "train/prior_ent_std": 7.472647536290835, "train/rep_loss_mean": 5.123933746390147, "train/rep_loss_std": 8.744050248028481, "train/reward_avg": 0.0368712540869027, "train/reward_loss_mean": 0.05290404053991788, "train/reward_loss_std": 0.20460802214602902, "train/reward_max_data": 1.0273972668059885, "train/reward_max_pred": 1.0248994533329794, "train/reward_neg_acc": 0.9943620154302414, "train/reward_neg_loss": 0.02394394031789613, "train/reward_pos_acc": 0.9915424830293003, "train/reward_pos_loss": 0.7174795621061978, "train/reward_pred": 0.036685226204460616, "train/reward_rate": 0.04177814640410959, "stats/sum_log_reward": 9.600000262260437, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 2.75, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 3.5, "stats/max_log_achievement_collect_stone": 11.5, "stats/max_log_achievement_collect_wood": 8.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.75, "stats/max_log_achievement_eat_cow": 0.75, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.25, "stats/max_log_achievement_make_wood_sword": 1.5, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 3.0, "stats/max_log_achievement_place_stone": 3.5, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.5130036249756813, "replay/size": 576094.0, "replay/inserts": 1478.0, "replay/samples": 11824.0, "replay/insert_wait_avg": 3.138317629513463e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.445977226484451e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1635422706604, "timer/env.step_count": 1478.0, "timer/env.step_total": 13.909988403320312, "timer/env.step_frac": 0.04634136543730397, "timer/env.step_avg": 0.009411358865575313, "timer/env.step_min": 0.0024802684783935547, "timer/env.step_max": 1.2811298370361328, "timer/replay.add_count": 1478.0, "timer/replay.add_total": 0.2995269298553467, "timer/replay.add_frac": 0.0009978791147968941, "timer/replay.add_avg": 0.00020265692141769058, "timer/replay.add_min": 5.8650970458984375e-05, "timer/replay.add_max": 0.0040585994720458984, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.019628047943115234, "timer/logger.write_frac": 6.539117907069618e-05, "timer/logger.write_avg": 0.019628047943115234, "timer/logger.write_min": 0.019628047943115234, "timer/logger.write_max": 0.019628047943115234, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00036597251892089844, "timer/checkpoint.save_frac": 1.2192437367723273e-06, "timer/checkpoint.save_avg": 0.00036597251892089844, "timer/checkpoint.save_min": 0.00036597251892089844, "timer/checkpoint.save_max": 0.00036597251892089844, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2008450031280518, "timer/agent.save_frac": 0.004000635766902158, "timer/agent.save_avg": 1.2008450031280518, "timer/agent.save_min": 1.2008450031280518, "timer/agent.save_max": 1.2008450031280518, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.058547973632812e-05, "timer/replay.save_frac": 2.6847191076810855e-07, "timer/replay.save_avg": 8.058547973632812e-05, "timer/replay.save_min": 8.058547973632812e-05, "timer/replay.save_max": 8.058547973632812e-05, "timer/agent.policy_count": 1478.0, "timer/agent.policy_total": 14.205962181091309, "timer/agent.policy_frac": 0.04732740716486366, "timer/agent.policy_avg": 0.009611611759872333, "timer/agent.policy_min": 0.005855560302734375, "timer/agent.policy_max": 2.280519962310791, "timer/dataset_count": 739.0, "timer/dataset_total": 0.05915427207946777, "timer/dataset_frac": 0.00019707347412007748, "timer/dataset_avg": 8.004637629156667e-05, "timer/dataset_min": 5.817413330078125e-05, "timer/dataset_max": 0.00025010108947753906, "timer/agent.train_count": 739.0, "timer/agent.train_total": 271.0541396141052, "timer/agent.train_frac": 0.9030215247449774, "timer/agent.train_avg": 0.36678503330731427, "timer/agent.train_min": 0.3605632781982422, "timer/agent.train_max": 0.3929581642150879, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2227165699005127, "timer/agent.report_frac": 0.0007419840804639992, "timer/agent.report_avg": 0.2227165699005127, "timer/agent.report_min": 0.2227165699005127, "timer/agent.report_max": 0.2227165699005127, "fps": 4.923886781890852}
{"step": 576177, "episode/length": 354.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.030985915492957747}
{"step": 576492, "episode/length": 314.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.02857142857142857}
{"step": 576795, "episode/length": 302.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 18.10000003129244, "episode/reward_rate": 0.052805280528052806}
{"step": 577055, "episode/length": 259.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.038461538461538464}
{"step": 577234, "episode/length": 178.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 14.10000005364418, "episode/reward_rate": 0.0670391061452514}
{"step": 577508, "episode/length": 273.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.04744525547445255}
{"step": 577621, "episode/length": 112.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.09734513274336283}
{"step": 577635, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4967329695418075, "train/action_min": 0.0, "train/action_std": 3.36548823923678, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04367500216372915, "train/actor_opt_grad_steps": 287895.0, "train/actor_opt_loss": -11.74175686650985, "train/adv_mag": 0.4340088258723955, "train/adv_max": 0.3944825497833458, "train/adv_mean": 0.0024913934862156196, "train/adv_min": -0.3715308095152314, "train/adv_std": 0.04885384364909417, "train/cont_avg": 0.995090793918919, "train/cont_loss_mean": 0.00026031507917125706, "train/cont_loss_std": 0.008161478814840648, "train/cont_neg_acc": 0.992664093906815, "train/cont_neg_loss": 0.022341079081265612, "train/cont_pos_acc": 0.9999866759454882, "train/cont_pos_loss": 0.0001488154286643581, "train/cont_pred": 0.9950960866502814, "train/cont_rate": 0.995090793918919, "train/dyn_loss_mean": 5.085464445320335, "train/dyn_loss_std": 8.70231955760234, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0987120415713336, "train/extr_critic_critic_opt_grad_steps": 287895.0, "train/extr_critic_critic_opt_loss": 16468.18458350929, "train/extr_critic_mag": 10.937204902236527, "train/extr_critic_max": 10.937204902236527, "train/extr_critic_mean": 2.8722941134427047, "train/extr_critic_min": -0.4744887641958288, "train/extr_critic_std": 2.6675534892726587, "train/extr_return_normed_mag": 1.423896792772654, "train/extr_return_normed_max": 1.423896792772654, "train/extr_return_normed_mean": 0.36354453015971827, "train/extr_return_normed_min": -0.08183455759206333, "train/extr_return_normed_std": 0.3250027343228057, "train/extr_return_rate": 0.7577078431039244, "train/extr_return_raw_mag": 11.702859079515612, "train/extr_return_raw_max": 11.702859079515612, "train/extr_return_raw_mean": 2.893001358251314, "train/extr_return_raw_min": -0.8077155967821946, "train/extr_return_raw_std": 2.700505424190212, "train/extr_reward_mag": 1.06153772328351, "train/extr_reward_max": 1.06153772328351, "train/extr_reward_mean": 0.053157831013605404, "train/extr_reward_min": -0.651116529026547, "train/extr_reward_std": 0.22338860300747124, "train/image_loss_mean": 3.0994093047605977, "train/image_loss_std": 8.247036405511805, "train/model_loss_mean": 6.2007841677279085, "train/model_loss_std": 12.371674112371496, "train/model_opt_grad_norm": 26.757913808564883, "train/model_opt_grad_steps": 287667.86486486485, "train/model_opt_loss": 16884.30518897804, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2736.4864864864867, "train/policy_entropy_mag": 2.636797080168853, "train/policy_entropy_max": 2.636797080168853, "train/policy_entropy_mean": 0.3967974361132931, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5744294141595429, "train/policy_logprob_mag": 7.438384281622397, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39689983326841044, "train/policy_logprob_min": -7.438384281622397, "train/policy_logprob_std": 1.0194454926091272, "train/policy_randomness_mag": 0.9306736580423407, "train/policy_randomness_max": 0.9306736580423407, "train/policy_randomness_mean": 0.14005208297355756, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2027483749631289, "train/post_ent_mag": 54.915000967077304, "train/post_ent_max": 54.915000967077304, "train/post_ent_mean": 41.1003911817396, "train/post_ent_min": 19.273787923761315, "train/post_ent_std": 5.6038376511754215, "train/prior_ent_mag": 76.49571506397145, "train/prior_ent_max": 76.49571506397145, "train/prior_ent_mean": 46.169419675259974, "train/prior_ent_min": 28.677131137332402, "train/prior_ent_std": 7.338340901039742, "train/rep_loss_mean": 5.085464445320335, "train/rep_loss_std": 8.70231955760234, "train/reward_avg": 0.03495961756168588, "train/reward_loss_mean": 0.0498359403698831, "train/reward_loss_std": 0.19498045098137212, "train/reward_max_data": 1.0216216267766178, "train/reward_max_pred": 1.0236225611454732, "train/reward_neg_acc": 0.994396713939873, "train/reward_neg_loss": 0.02195077358015083, "train/reward_pos_acc": 0.9888026464629818, "train/reward_pos_loss": 0.72851115545711, "train/reward_pred": 0.03460079031316815, "train/reward_rate": 0.03937922297297297, "stats/sum_log_reward": 10.671428952898298, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 3.5714285714285716, "stats/max_log_achievement_collect_iron": 0.2857142857142857, "stats/max_log_achievement_collect_sapling": 1.1428571428571428, "stats/max_log_achievement_collect_stone": 12.857142857142858, "stats/max_log_achievement_collect_wood": 9.0, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_stone_sword": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.7142857142857143, "stats/max_log_achievement_place_furnace": 1.7142857142857142, "stats/max_log_achievement_place_plant": 0.8571428571428571, "stats/max_log_achievement_place_stone": 3.5714285714285716, "stats/max_log_achievement_place_table": 2.2857142857142856, "stats/max_log_achievement_wake_up": 1.5714285714285714, "stats/mean_log_entropy": 0.5619121555771146, "replay/size": 577572.0, "replay/inserts": 1478.0, "replay/samples": 11824.0, "replay/insert_wait_avg": 3.17074126577829e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4466426369301844e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0074269771576, "timer/env.step_count": 1478.0, "timer/env.step_total": 16.78739905357361, "timer/env.step_frac": 0.055956611550326024, "timer/env.step_avg": 0.011358186098493647, "timer/env.step_min": 0.0024559497833251953, "timer/env.step_max": 1.2653076648712158, "timer/replay.add_count": 1478.0, "timer/replay.add_total": 0.2717876434326172, "timer/replay.add_frac": 0.0009059363835459679, "timer/replay.add_avg": 0.00018388879799229851, "timer/replay.add_min": 5.984306335449219e-05, "timer/replay.add_max": 0.0008091926574707031, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02297806739807129, "timer/logger.write_frac": 7.6591661845161e-05, "timer/logger.write_avg": 0.02297806739807129, "timer/logger.write_min": 0.02297806739807129, "timer/logger.write_max": 0.02297806739807129, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1478.0, "timer/agent.policy_total": 10.653214693069458, "timer/agent.policy_frac": 0.035509836541081995, "timer/agent.policy_avg": 0.007207858385026697, "timer/agent.policy_min": 0.0058405399322509766, "timer/agent.policy_max": 0.015616893768310547, "timer/dataset_count": 739.0, "timer/dataset_total": 0.05857563018798828, "timer/dataset_frac": 0.00019524726696998804, "timer/dataset_avg": 7.92633696725146e-05, "timer/dataset_min": 5.3882598876953125e-05, "timer/dataset_max": 0.00016427040100097656, "timer/agent.train_count": 739.0, "timer/agent.train_total": 271.5783226490021, "timer/agent.train_frac": 0.9052386648737196, "timer/agent.train_avg": 0.3674943472922897, "timer/agent.train_min": 0.3585696220397949, "timer/agent.train_max": 0.3815469741821289, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22416973114013672, "timer/agent.report_frac": 0.0007472139386642747, "timer/agent.report_avg": 0.22416973114013672, "timer/agent.report_min": 0.22416973114013672, "timer/agent.report_max": 0.22416973114013672, "fps": 4.926431983164203}
{"step": 577803, "episode/length": 181.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.04945054945054945}
{"step": 578104, "episode/length": 300.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.026578073089700997}
{"step": 578401, "episode/length": 296.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.037037037037037035}
{"step": 578570, "episode/length": 168.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.07100591715976332}
{"step": 578759, "episode/length": 188.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.06349206349206349}
{"step": 578932, "episode/length": 172.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.057803468208092484}
{"step": 579111, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.392399143528294, "train/action_min": 0.0, "train/action_std": 3.2669493990975456, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04425862612756523, "train/actor_opt_grad_steps": 288635.0, "train/actor_opt_loss": -11.102201086443824, "train/adv_mag": 0.4389431106077658, "train/adv_max": 0.40512561677275477, "train/adv_mean": 0.0029263736198756945, "train/adv_min": -0.3707051377844166, "train/adv_std": 0.04930704142394904, "train/cont_avg": 0.9948268581081081, "train/cont_loss_mean": 3.3833389001512317e-05, "train/cont_loss_std": 0.0010616741318523974, "train/cont_neg_acc": 0.9977477482847266, "train/cont_neg_loss": 0.0060795697382992646, "train/cont_pos_acc": 0.9999999790578276, "train/cont_pos_loss": 2.2519575433970865e-06, "train/cont_pred": 0.9948446557328507, "train/cont_rate": 0.9948268581081081, "train/dyn_loss_mean": 5.040417332906981, "train/dyn_loss_std": 8.721208340412861, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0809477962352134, "train/extr_critic_critic_opt_grad_steps": 288635.0, "train/extr_critic_critic_opt_loss": 16235.448822846283, "train/extr_critic_mag": 11.17345178449476, "train/extr_critic_max": 11.17345178449476, "train/extr_critic_mean": 3.0428529671720557, "train/extr_critic_min": -0.46711990801063746, "train/extr_critic_std": 2.7044819915616833, "train/extr_return_normed_mag": 1.4184874280078992, "train/extr_return_normed_max": 1.4184874280078992, "train/extr_return_normed_mean": 0.3773900348995183, "train/extr_return_normed_min": -0.08072419517447015, "train/extr_return_normed_std": 0.32580972845489914, "train/extr_return_rate": 0.7698673694520384, "train/extr_return_raw_mag": 11.81905376588976, "train/extr_return_raw_max": 11.81905376588976, "train/extr_return_raw_mean": 3.0674415295188493, "train/extr_return_raw_min": -0.7833186142347954, "train/extr_return_raw_std": 2.7386740574965605, "train/extr_reward_mag": 1.0521754026412964, "train/extr_reward_max": 1.0521754026412964, "train/extr_reward_mean": 0.053746858259310595, "train/extr_reward_min": -0.6404512266854983, "train/extr_reward_std": 0.22409432804262316, "train/image_loss_mean": 2.992922641135551, "train/image_loss_std": 7.998919764080563, "train/model_loss_mean": 6.069527522937672, "train/model_loss_std": 12.15827227927543, "train/model_opt_grad_norm": 29.734526067166716, "train/model_opt_grad_steps": 288407.0, "train/model_opt_loss": 15173.818768475507, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6336845997217537, "train/policy_entropy_max": 2.6336845997217537, "train/policy_entropy_mean": 0.3950871070091789, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.566312700510025, "train/policy_logprob_mag": 7.43838424940367, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3953508370228716, "train/policy_logprob_min": -7.43838424940367, "train/policy_logprob_std": 1.0194303409473315, "train/policy_randomness_mag": 0.9295750864454217, "train/policy_randomness_max": 0.9295750864454217, "train/policy_randomness_mean": 0.13944841206476494, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19988353248383547, "train/post_ent_mag": 54.680049226090716, "train/post_ent_max": 54.680049226090716, "train/post_ent_mean": 40.97165819116541, "train/post_ent_min": 18.887500608289564, "train/post_ent_std": 5.587506790418883, "train/prior_ent_mag": 76.53902012593038, "train/prior_ent_max": 76.53902012593038, "train/prior_ent_mean": 46.02328537605904, "train/prior_ent_min": 28.261814864906103, "train/prior_ent_std": 7.376139331508327, "train/rep_loss_mean": 5.040417332906981, "train/rep_loss_std": 8.721208340412861, "train/reward_avg": 0.036279297031059456, "train/reward_loss_mean": 0.052320622209761594, "train/reward_loss_std": 0.2114084709335018, "train/reward_max_data": 1.0216216267766178, "train/reward_max_pred": 1.020984340358425, "train/reward_neg_acc": 0.9941306589422999, "train/reward_neg_loss": 0.02325339403909606, "train/reward_pos_acc": 0.989747236709337, "train/reward_pos_loss": 0.7324583619027525, "train/reward_pred": 0.03624433112909665, "train/reward_rate": 0.041068412162162164, "stats/sum_log_reward": 9.4333336353302, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 5.166666666666667, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 16.833333333333332, "stats/max_log_achievement_collect_wood": 9.166666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.3333333333333333, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 2.6666666666666665, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 4.666666666666667, "stats/max_log_achievement_place_table": 2.1666666666666665, "stats/max_log_achievement_wake_up": 1.6666666666666667, "stats/mean_log_entropy": 0.4754299074411392, "replay/size": 579048.0, "replay/inserts": 1476.0, "replay/samples": 11808.0, "replay/insert_wait_avg": 3.1611460657300664e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4382043505102638e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3394274711609, "timer/env.step_count": 1476.0, "timer/env.step_total": 16.679502964019775, "timer/env.step_frac": 0.055535508955517905, "timer/env.step_avg": 0.011300476262886027, "timer/env.step_min": 0.002509593963623047, "timer/env.step_max": 1.5302536487579346, "timer/replay.add_count": 1476.0, "timer/replay.add_total": 0.267958402633667, "timer/replay.add_frac": 0.0008921852348519803, "timer/replay.add_avg": 0.0001815436332206416, "timer/replay.add_min": 6.008148193359375e-05, "timer/replay.add_max": 0.0008196830749511719, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.020663738250732422, "timer/logger.write_frac": 6.880128401628717e-05, "timer/logger.write_avg": 0.020663738250732422, "timer/logger.write_min": 0.020663738250732422, "timer/logger.write_max": 0.020663738250732422, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1476.0, "timer/agent.policy_total": 10.811437845230103, "timer/agent.policy_frac": 0.03599739779842337, "timer/agent.policy_avg": 0.007324822388367278, "timer/agent.policy_min": 0.005831003189086914, "timer/agent.policy_max": 0.018822908401489258, "timer/dataset_count": 738.0, "timer/dataset_total": 0.05937838554382324, "timer/dataset_frac": 0.0001977042642845314, "timer/dataset_avg": 8.045851699705046e-05, "timer/dataset_min": 5.14984130859375e-05, "timer/dataset_max": 0.00015735626220703125, "timer/agent.train_count": 738.0, "timer/agent.train_total": 271.86877632141113, "timer/agent.train_frac": 0.9052050828308795, "timer/agent.train_avg": 0.36838587577426984, "timer/agent.train_min": 0.3607609272003174, "timer/agent.train_max": 0.38339948654174805, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22143340110778809, "timer/agent.report_frac": 0.0007372771632823683, "timer/agent.report_avg": 0.22143340110778809, "timer/agent.report_min": 0.22143340110778809, "timer/agent.report_max": 0.22143340110778809, "fps": 4.9143268478200905}
{"step": 579134, "episode/length": 201.0, "episode/score": 11.099999979138374, "episode/sum_abs_reward": 13.30000002682209, "episode/reward_rate": 0.0594059405940594}
{"step": 579319, "episode/length": 184.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.06486486486486487}
{"step": 579522, "episode/length": 202.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 12.899999991059303, "episode/reward_rate": 0.06403940886699508}
{"step": 579771, "episode/length": 248.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.04819277108433735}
{"step": 580081, "episode/length": 309.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.02903225806451613}
{"step": 580240, "episode/length": 158.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06918238993710692}
{"step": 580531, "episode/length": 290.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.041237113402061855}
{"step": 580567, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.473937152183219, "train/action_min": 0.0, "train/action_std": 3.3912541147780746, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04235509185962481, "train/actor_opt_grad_steps": 289370.0, "train/actor_opt_loss": -12.135833043349932, "train/adv_mag": 0.4352730357483642, "train/adv_max": 0.38731634249425917, "train/adv_mean": 0.0017555836152683222, "train/adv_min": -0.36529744855345114, "train/adv_std": 0.04777031846038283, "train/cont_avg": 0.9951840753424658, "train/cont_loss_mean": 7.297991640089546e-05, "train/cont_loss_std": 0.002274780158092828, "train/cont_neg_acc": 0.9915525121231602, "train/cont_neg_loss": 0.013949579954314312, "train/cont_pos_acc": 0.9999999812204544, "train/cont_pos_loss": 7.5023578268550786e-06, "train/cont_pred": 0.9952099796843855, "train/cont_rate": 0.9951840753424658, "train/dyn_loss_mean": 5.149248181957088, "train/dyn_loss_std": 8.765618245895595, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0654705591397742, "train/extr_critic_critic_opt_grad_steps": 289370.0, "train/extr_critic_critic_opt_loss": 16402.209198416094, "train/extr_critic_mag": 11.03199479351305, "train/extr_critic_max": 11.03199479351305, "train/extr_critic_mean": 2.833481112571612, "train/extr_critic_min": -0.4809858880630911, "train/extr_critic_std": 2.6333039525437028, "train/extr_return_normed_mag": 1.4032979419786635, "train/extr_return_normed_max": 1.4032979419786635, "train/extr_return_normed_mean": 0.3509309802153339, "train/extr_return_normed_min": -0.0803876391879908, "train/extr_return_normed_std": 0.3155061492364701, "train/extr_return_rate": 0.7686002123845767, "train/extr_return_raw_mag": 11.735340954506235, "train/extr_return_raw_max": 11.735340954506235, "train/extr_return_raw_mean": 2.8482927181949353, "train/extr_return_raw_min": -0.7939973702169445, "train/extr_return_raw_std": 2.664343876381443, "train/extr_reward_mag": 1.059680167942831, "train/extr_reward_max": 1.059680167942831, "train/extr_reward_mean": 0.05277396447650374, "train/extr_reward_min": -0.6550476208125076, "train/extr_reward_std": 0.22194354379013792, "train/image_loss_mean": 3.1050783722368007, "train/image_loss_std": 8.150662703056858, "train/model_loss_mean": 6.2457016330875765, "train/model_loss_std": 12.371764392068942, "train/model_opt_grad_norm": 29.732887176618185, "train/model_opt_grad_steps": 289141.2191780822, "train/model_opt_loss": 15614.25409353596, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6366362767676783, "train/policy_entropy_max": 2.6366362767676783, "train/policy_entropy_mean": 0.40482253999742746, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5756796941365281, "train/policy_logprob_mag": 7.438384212859689, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.403549947559017, "train/policy_logprob_min": -7.438384212859689, "train/policy_logprob_std": 1.0180937892770114, "train/policy_randomness_mag": 0.9306169021619509, "train/policy_randomness_max": 0.9306169021619509, "train/policy_randomness_mean": 0.14288459371214043, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2031896695086401, "train/post_ent_mag": 54.88514239167514, "train/post_ent_max": 54.88514239167514, "train/post_ent_mean": 40.84243220499117, "train/post_ent_min": 18.92293528987937, "train/post_ent_std": 5.632770721226523, "train/prior_ent_mag": 76.65449335803724, "train/prior_ent_max": 76.65449335803724, "train/prior_ent_mean": 46.009208731455345, "train/prior_ent_min": 28.056156550368218, "train/prior_ent_std": 7.442121460013194, "train/rep_loss_mean": 5.149248181957088, "train/rep_loss_std": 8.765618245895595, "train/reward_avg": 0.035752889228193724, "train/reward_loss_mean": 0.051001417463364666, "train/reward_loss_std": 0.2018190957095525, "train/reward_max_data": 1.026027403465689, "train/reward_max_pred": 1.0264364856563202, "train/reward_neg_acc": 0.9940515332026024, "train/reward_neg_loss": 0.022453995632033232, "train/reward_pos_acc": 0.9901834481383023, "train/reward_pos_loss": 0.7288483658882037, "train/reward_pred": 0.03542069802443459, "train/reward_rate": 0.040333369006849314, "stats/sum_log_reward": 10.528571673801967, "stats/max_log_achievement_collect_coal": 0.42857142857142855, "stats/max_log_achievement_collect_drink": 4.714285714285714, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.142857142857143, "stats/max_log_achievement_collect_stone": 10.428571428571429, "stats/max_log_achievement_collect_wood": 11.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5714285714285714, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.4285714285714286, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 2.5714285714285716, "stats/max_log_achievement_place_table": 2.7142857142857144, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.34382981274809155, "replay/size": 580504.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.1374313019134185e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.430511474609375e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2633216381073, "timer/env.step_count": 1456.0, "timer/env.step_total": 17.08996343612671, "timer/env.step_frac": 0.05691658689077052, "timer/env.step_avg": 0.011737612250087025, "timer/env.step_min": 0.002498626708984375, "timer/env.step_max": 1.2880444526672363, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.26521992683410645, "timer/replay.add_frac": 0.0008832911238947894, "timer/replay.add_avg": 0.0001821565431552929, "timer/replay.add_min": 5.936622619628906e-05, "timer/replay.add_max": 0.0008144378662109375, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030457496643066406, "timer/logger.write_frac": 0.0001014359545378484, "timer/logger.write_avg": 0.030457496643066406, "timer/logger.write_min": 0.030457496643066406, "timer/logger.write_max": 0.030457496643066406, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0001881122589111328, "timer/checkpoint.save_frac": 6.264909676109402e-07, "timer/checkpoint.save_avg": 0.0001881122589111328, "timer/checkpoint.save_min": 0.0001881122589111328, "timer/checkpoint.save_max": 0.0001881122589111328, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.505666732788086, "timer/agent.save_frac": 0.0050144876989098005, "timer/agent.save_avg": 1.505666732788086, "timer/agent.save_min": 1.505666732788086, "timer/agent.save_max": 1.505666732788086, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.654594421386719e-05, "timer/replay.save_frac": 2.8823348699971013e-07, "timer/replay.save_avg": 8.654594421386719e-05, "timer/replay.save_min": 8.654594421386719e-05, "timer/replay.save_max": 8.654594421386719e-05, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 14.886173486709595, "timer/agent.policy_frac": 0.049577062577930084, "timer/agent.policy_avg": 0.010224020251860986, "timer/agent.policy_min": 0.005878925323486328, "timer/agent.policy_max": 2.8001272678375244, "timer/dataset_count": 728.0, "timer/dataset_total": 0.0573267936706543, "timer/dataset_frac": 0.00019092173282405595, "timer/dataset_avg": 7.87455957014482e-05, "timer/dataset_min": 5.698204040527344e-05, "timer/dataset_max": 0.0002105236053466797, "timer/agent.train_count": 728.0, "timer/agent.train_total": 267.3122007846832, "timer/agent.train_frac": 0.890259254198425, "timer/agent.train_avg": 0.3671870889899495, "timer/agent.train_min": 0.3575291633605957, "timer/agent.train_max": 0.45362186431884766, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22273612022399902, "timer/agent.report_frac": 0.0007418026251386508, "timer/agent.report_avg": 0.22273612022399902, "timer/agent.report_min": 0.22273612022399902, "timer/agent.report_max": 0.22273612022399902, "fps": 4.848965923229212}
{"step": 580608, "episode/length": 76.0, "episode/score": 7.100000023841858, "episode/sum_abs_reward": 8.700000002980232, "episode/reward_rate": 0.11688311688311688}
{"step": 580823, "episode/length": 214.0, "episode/score": 13.100000023841858, "episode/sum_abs_reward": 14.700000047683716, "episode/reward_rate": 0.06511627906976744}
{"step": 580923, "episode/length": 99.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.08}
{"step": 581143, "episode/length": 219.0, "episode/score": 11.1000000461936, "episode/sum_abs_reward": 13.100000075995922, "episode/reward_rate": 0.05454545454545454}
{"step": 581298, "episode/length": 154.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.07096774193548387}
{"step": 581552, "episode/length": 253.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 12.300000011920929, "episode/reward_rate": 0.047244094488188976}
{"step": 581768, "episode/length": 215.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.05555555555555555}
{"step": 581847, "episode/length": 78.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 7.700000025331974, "episode/reward_rate": 0.08860759493670886}
{"step": 581905, "episode/length": 57.0, "episode/score": 4.099999971687794, "episode/sum_abs_reward": 6.1000000312924385, "episode/reward_rate": 0.10344827586206896}
{"step": 582031, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.522391541363442, "train/action_min": 0.0, "train/action_std": 3.4050622410970193, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.043485727467357294, "train/actor_opt_grad_steps": 290100.0, "train/actor_opt_loss": -10.763599800328686, "train/adv_mag": 0.4260792924116736, "train/adv_max": 0.3816222123903771, "train/adv_mean": 0.0024337237956350605, "train/adv_min": -0.3624845853407089, "train/adv_std": 0.04914083734971203, "train/cont_avg": 0.9946355950342466, "train/cont_loss_mean": 8.360833060559755e-05, "train/cont_loss_std": 0.0026476695839941795, "train/cont_neg_acc": 0.9965753424657534, "train/cont_neg_loss": 0.007936284371344424, "train/cont_pos_acc": 0.9999730513520437, "train/cont_pos_loss": 5.1533636057143895e-05, "train/cont_pred": 0.9946251878999683, "train/cont_rate": 0.9946355950342466, "train/dyn_loss_mean": 5.192508854278146, "train/dyn_loss_std": 8.67734993320622, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1044359027522883, "train/extr_critic_critic_opt_grad_steps": 290100.0, "train/extr_critic_critic_opt_loss": 16460.558045269692, "train/extr_critic_mag": 11.09616334470984, "train/extr_critic_max": 11.09616334470984, "train/extr_critic_mean": 2.881550034431562, "train/extr_critic_min": -0.4946690765145707, "train/extr_critic_std": 2.679095054325992, "train/extr_return_normed_mag": 1.428396224975586, "train/extr_return_normed_max": 1.428396224975586, "train/extr_return_normed_mean": 0.3643777754208813, "train/extr_return_normed_min": -0.0793922803785703, "train/extr_return_normed_std": 0.32663881656241744, "train/extr_return_rate": 0.7552262103720887, "train/extr_return_raw_mag": 11.733259958763645, "train/extr_return_raw_max": 11.733259958763645, "train/extr_return_raw_mean": 2.9017025607905977, "train/extr_return_raw_min": -0.7831913559404138, "train/extr_return_raw_std": 2.711835532972257, "train/extr_reward_mag": 1.0536785027752185, "train/extr_reward_max": 1.0536785027752185, "train/extr_reward_mean": 0.055929637475781245, "train/extr_reward_min": -0.6308601882359753, "train/extr_reward_std": 0.22769456999759152, "train/image_loss_mean": 2.985765764158066, "train/image_loss_std": 7.647725340438216, "train/model_loss_mean": 6.153471541731325, "train/model_loss_std": 11.811263411012414, "train/model_opt_grad_norm": 28.591660225228086, "train/model_opt_grad_steps": 289870.1369863014, "train/model_opt_loss": 8713.118538634419, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1421.2328767123288, "train/policy_entropy_mag": 2.65017986950809, "train/policy_entropy_max": 2.65017986950809, "train/policy_entropy_mean": 0.40613845358156175, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5804794018399225, "train/policy_logprob_mag": 7.438384225923721, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40666867772193804, "train/policy_logprob_min": -7.438384225923721, "train/policy_logprob_std": 1.0260416808193678, "train/policy_randomness_mag": 0.9353971914069293, "train/policy_randomness_max": 0.9353971914069293, "train/policy_randomness_mean": 0.14334905270027787, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20488375547814042, "train/post_ent_mag": 55.03258697300741, "train/post_ent_max": 55.03258697300741, "train/post_ent_mean": 40.95327278032695, "train/post_ent_min": 19.09446264293096, "train/post_ent_std": 5.637523357182333, "train/prior_ent_mag": 76.52714360903387, "train/prior_ent_max": 76.52714360903387, "train/prior_ent_mean": 46.19123829880806, "train/prior_ent_min": 28.456181095071035, "train/prior_ent_std": 7.41031031412621, "train/rep_loss_mean": 5.192508854278146, "train/rep_loss_std": 8.67734993320622, "train/reward_avg": 0.03662376886565391, "train/reward_loss_mean": 0.05211682821789833, "train/reward_loss_std": 0.20391367682038922, "train/reward_max_data": 1.0219178134447908, "train/reward_max_pred": 1.0224576584280354, "train/reward_neg_acc": 0.9943076053710833, "train/reward_neg_loss": 0.023470057633845774, "train/reward_pos_acc": 0.9908169140554455, "train/reward_pos_loss": 0.7179133116382442, "train/reward_pred": 0.036454523364975025, "train/reward_rate": 0.041323309075342464, "stats/sum_log_reward": 8.877778000301785, "stats/max_log_achievement_collect_coal": 0.5555555555555556, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 6.0, "stats/max_log_achievement_collect_wood": 9.222222222222221, "stats/max_log_achievement_defeat_skeleton": 0.1111111111111111, "stats/max_log_achievement_defeat_zombie": 0.3333333333333333, "stats/max_log_achievement_eat_cow": 0.1111111111111111, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.1111111111111111, "stats/max_log_achievement_make_wood_pickaxe": 0.8888888888888888, "stats/max_log_achievement_make_wood_sword": 0.8888888888888888, "stats/max_log_achievement_place_furnace": 0.6666666666666666, "stats/max_log_achievement_place_plant": 0.8888888888888888, "stats/max_log_achievement_place_stone": 2.4444444444444446, "stats/max_log_achievement_place_table": 2.7777777777777777, "stats/max_log_achievement_wake_up": 0.8888888888888888, "stats/mean_log_entropy": 0.34511368804507786, "replay/size": 581968.0, "replay/inserts": 1464.0, "replay/samples": 11712.0, "replay/insert_wait_avg": 3.076641937422622e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.49697635343166e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0401396751404, "timer/env.step_count": 1464.0, "timer/env.step_total": 19.469134092330933, "timer/env.step_frac": 0.06488843163921522, "timer/env.step_avg": 0.013298588860881784, "timer/env.step_min": 0.002641916275024414, "timer/env.step_max": 1.3718454837799072, "timer/replay.add_count": 1464.0, "timer/replay.add_total": 0.2569448947906494, "timer/replay.add_frac": 0.0008563684014707129, "timer/replay.add_avg": 0.00017550880791711025, "timer/replay.add_min": 6.0558319091796875e-05, "timer/replay.add_max": 0.0008656978607177734, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02100205421447754, "timer/logger.write_frac": 6.999748179432557e-05, "timer/logger.write_avg": 0.02100205421447754, "timer/logger.write_min": 0.02100205421447754, "timer/logger.write_max": 0.02100205421447754, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1464.0, "timer/agent.policy_total": 10.571529150009155, "timer/agent.policy_frac": 0.03523371626694737, "timer/agent.policy_avg": 0.0072209898565636305, "timer/agent.policy_min": 0.005971670150756836, "timer/agent.policy_max": 0.015036344528198242, "timer/dataset_count": 732.0, "timer/dataset_total": 0.0580291748046875, "timer/dataset_frac": 0.00019340470534214815, "timer/dataset_avg": 7.927482896815233e-05, "timer/dataset_min": 5.7220458984375e-05, "timer/dataset_max": 0.00015115737915039062, "timer/agent.train_count": 732.0, "timer/agent.train_total": 269.024286031723, "timer/agent.train_frac": 0.8966276522967932, "timer/agent.train_avg": 0.3675195164367801, "timer/agent.train_min": 0.3606593608856201, "timer/agent.train_max": 0.38137078285217285, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2221217155456543, "timer/agent.report_frac": 0.0007403066662552218, "timer/agent.report_avg": 0.2221217155456543, "timer/agent.report_min": 0.2221217155456543, "timer/agent.report_max": 0.2221217155456543, "fps": 4.879242616662467}
{"step": 582125, "episode/length": 219.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.05454545454545454}
{"step": 582412, "episode/length": 286.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.041811846689895474}
{"step": 582701, "episode/length": 288.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.700000040233135, "episode/reward_rate": 0.04498269896193772}
{"step": 582861, "episode/length": 159.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.075}
{"step": 582956, "episode/length": 94.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 10.299999982118607, "episode/reward_rate": 0.10526315789473684}
{"step": 583177, "episode/length": 220.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.049773755656108594}
{"step": 583393, "episode/length": 215.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.5, "episode/reward_rate": 0.046296296296296294}
{"step": 583505, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.472058270428632, "train/action_min": 0.0, "train/action_std": 3.319793588406331, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.043715635213900254, "train/actor_opt_grad_steps": 290835.0, "train/actor_opt_loss": -12.432365551993653, "train/adv_mag": 0.460722122643445, "train/adv_max": 0.42551716437210907, "train/adv_mean": 0.0021650323457121172, "train/adv_min": -0.3632235754583333, "train/adv_std": 0.04877521097660065, "train/cont_avg": 0.9944969383445946, "train/cont_loss_mean": 0.00010322090347820663, "train/cont_loss_std": 0.003226405018641633, "train/cont_neg_acc": 0.9958172472747596, "train/cont_neg_loss": 0.014455343776641922, "train/cont_pos_acc": 0.999999976641423, "train/cont_pos_loss": 1.2106735590069053e-05, "train/cont_pred": 0.9945142977946514, "train/cont_rate": 0.9944969383445946, "train/dyn_loss_mean": 5.317223748645267, "train/dyn_loss_std": 8.881722695118672, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.047598659992218, "train/extr_critic_critic_opt_grad_steps": 290835.0, "train/extr_critic_critic_opt_loss": 16110.748561549832, "train/extr_critic_mag": 11.472994611069963, "train/extr_critic_max": 11.472994611069963, "train/extr_critic_mean": 3.013830658551809, "train/extr_critic_min": -0.4501828293542604, "train/extr_critic_std": 2.821000458420934, "train/extr_return_normed_mag": 1.47382438988299, "train/extr_return_normed_max": 1.47382438988299, "train/extr_return_normed_mean": 0.37651454113625193, "train/extr_return_normed_min": -0.07927994530748676, "train/extr_return_normed_std": 0.34071239164552175, "train/extr_return_rate": 0.7381713132600527, "train/extr_return_raw_mag": 12.24263521142908, "train/extr_return_raw_max": 12.24263521142908, "train/extr_return_raw_mean": 3.0320080293191447, "train/extr_return_raw_min": -0.7931214297139967, "train/extr_return_raw_std": 2.859724418537037, "train/extr_reward_mag": 1.0529361061147742, "train/extr_reward_max": 1.0529361061147742, "train/extr_reward_mean": 0.05460957236386634, "train/extr_reward_min": -0.6307922182856379, "train/extr_reward_std": 0.22604597400169116, "train/image_loss_mean": 3.136455983728976, "train/image_loss_std": 8.09213782001186, "train/model_loss_mean": 6.380794228734197, "train/model_loss_std": 12.27855919502877, "train/model_opt_grad_norm": 27.584074742085225, "train/model_opt_grad_steps": 290605.0, "train/model_opt_loss": 11812.10584485853, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1875.0, "train/policy_entropy_mag": 2.6522525871122204, "train/policy_entropy_max": 2.6522525871122204, "train/policy_entropy_mean": 0.4044038621154991, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.577123561018222, "train/policy_logprob_mag": 7.438384210741198, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40448184935627757, "train/policy_logprob_min": -7.438384210741198, "train/policy_logprob_std": 1.0249900648722778, "train/policy_randomness_mag": 0.9361287733993015, "train/policy_randomness_max": 0.9361287733993015, "train/policy_randomness_mean": 0.1427368173325384, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20369928974557566, "train/post_ent_mag": 55.55195076401169, "train/post_ent_max": 55.55195076401169, "train/post_ent_mean": 41.032766342163086, "train/post_ent_min": 19.259676340464, "train/post_ent_std": 5.660827146994101, "train/prior_ent_mag": 76.57630652350349, "train/prior_ent_max": 76.57630652350349, "train/prior_ent_mean": 46.365405417777396, "train/prior_ent_min": 28.239995698671084, "train/prior_ent_std": 7.435694700962788, "train/rep_loss_mean": 5.317223748645267, "train/rep_loss_std": 8.881722695118672, "train/reward_avg": 0.03796716593205929, "train/reward_loss_mean": 0.053900820228296356, "train/reward_loss_std": 0.204301650661069, "train/reward_max_data": 1.0202702751030792, "train/reward_max_pred": 1.0187477936615814, "train/reward_neg_acc": 0.9940283483750111, "train/reward_neg_loss": 0.02382107326962255, "train/reward_pos_acc": 0.9908735123840539, "train/reward_pos_loss": 0.7241143141243909, "train/reward_pred": 0.03757283859256957, "train/reward_rate": 0.042876372466216214, "stats/sum_log_reward": 10.242857524326869, "stats/max_log_achievement_collect_coal": 0.2857142857142857, "stats/max_log_achievement_collect_drink": 3.7142857142857144, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 14.428571428571429, "stats/max_log_achievement_collect_wood": 9.0, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.142857142857143, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 4.571428571428571, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.3102052105324609, "replay/size": 583442.0, "replay/inserts": 1474.0, "replay/samples": 11792.0, "replay/insert_wait_avg": 3.1567008071547447e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4865171957857087e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2565050125122, "timer/env.step_count": 1474.0, "timer/env.step_total": 17.47355890274048, "timer/env.step_frac": 0.05819543827039592, "timer/env.step_avg": 0.011854517573093947, "timer/env.step_min": 0.002270221710205078, "timer/env.step_max": 1.3649652004241943, "timer/replay.add_count": 1474.0, "timer/replay.add_total": 0.2619946002960205, "timer/replay.add_frac": 0.000872569273012429, "timer/replay.add_avg": 0.00017774396220896914, "timer/replay.add_min": 6.461143493652344e-05, "timer/replay.add_max": 0.0008046627044677734, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.033002614974975586, "timer/logger.write_frac": 0.00010991473764606801, "timer/logger.write_avg": 0.033002614974975586, "timer/logger.write_min": 0.033002614974975586, "timer/logger.write_max": 0.033002614974975586, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1474.0, "timer/agent.policy_total": 10.767171621322632, "timer/agent.policy_frac": 0.03585991124779776, "timer/agent.policy_avg": 0.007304729729526887, "timer/agent.policy_min": 0.0058710575103759766, "timer/agent.policy_max": 0.017485618591308594, "timer/dataset_count": 737.0, "timer/dataset_total": 0.06089663505554199, "timer/dataset_frac": 0.0002028153729858553, "timer/dataset_avg": 8.262772734808955e-05, "timer/dataset_min": 6.0558319091796875e-05, "timer/dataset_max": 0.0002536773681640625, "timer/agent.train_count": 737.0, "timer/agent.train_total": 271.02473998069763, "timer/agent.train_frac": 0.9026440242132425, "timer/agent.train_avg": 0.36774048844056667, "timer/agent.train_min": 0.36102819442749023, "timer/agent.train_max": 0.38513803482055664, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22448015213012695, "timer/agent.report_frac": 0.0007476279393872665, "timer/agent.report_avg": 0.22448015213012695, "timer/agent.report_min": 0.22448015213012695, "timer/agent.report_max": 0.22448015213012695, "fps": 4.909020987869151}
{"step": 583666, "episode/length": 272.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.04395604395604396}
{"step": 583885, "episode/length": 218.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.1000000461936, "episode/reward_rate": 0.0547945205479452}
{"step": 584135, "episode/length": 249.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.044}
{"step": 584292, "episode/length": 156.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.07006369426751592}
{"step": 584455, "episode/length": 162.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06748466257668712}
{"step": 584681, "episode/length": 225.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.048672566371681415}
{"step": 584846, "episode/length": 164.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.06060606060606061}
{"step": 584927, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.382015604368398, "train/action_min": 0.0, "train/action_std": 3.2667408023082034, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04469891831698552, "train/actor_opt_grad_steps": 291560.0, "train/actor_opt_loss": -10.463492319197721, "train/adv_mag": 0.4375267876705653, "train/adv_max": 0.4038506972957665, "train/adv_mean": 0.003144303881514057, "train/adv_min": -0.365582942752771, "train/adv_std": 0.04976678587181468, "train/cont_avg": 0.9951309419014085, "train/cont_loss_mean": 0.00023985336928078628, "train/cont_loss_std": 0.00747534584762197, "train/cont_neg_acc": 0.9857142865657806, "train/cont_neg_loss": 0.054146772418633714, "train/cont_pos_acc": 0.9999861717224121, "train/cont_pos_loss": 5.442800786856334e-05, "train/cont_pred": 0.9951562226658136, "train/cont_rate": 0.9951309419014085, "train/dyn_loss_mean": 5.1262895355761895, "train/dyn_loss_std": 8.726117651227494, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0936308016239757, "train/extr_critic_critic_opt_grad_steps": 291560.0, "train/extr_critic_critic_opt_loss": 16478.240481954224, "train/extr_critic_mag": 11.295876650743082, "train/extr_critic_max": 11.295876650743082, "train/extr_critic_mean": 2.997370892847088, "train/extr_critic_min": -0.4496841867205123, "train/extr_critic_std": 2.67809633302017, "train/extr_return_normed_mag": 1.4352085086661326, "train/extr_return_normed_max": 1.4352085086661326, "train/extr_return_normed_mean": 0.36900158604265937, "train/extr_return_normed_min": -0.07585571774504554, "train/extr_return_normed_std": 0.3196233546649906, "train/extr_return_rate": 0.7706747390854527, "train/extr_return_raw_mag": 12.093468746668856, "train/extr_return_raw_max": 12.093468746668856, "train/extr_return_raw_mean": 3.024132187937347, "train/extr_return_raw_min": -0.7599595596253033, "train/extr_return_raw_std": 2.7187091699788266, "train/extr_reward_mag": 1.0605353771800725, "train/extr_reward_max": 1.0605353771800725, "train/extr_reward_mean": 0.05625785714094068, "train/extr_reward_min": -0.6247233034859241, "train/extr_reward_std": 0.22869415455301043, "train/image_loss_mean": 3.081947430758409, "train/image_loss_std": 8.073316056963424, "train/model_loss_mean": 6.210081174340047, "train/model_loss_std": 12.19491620130942, "train/model_opt_grad_norm": 27.221524077402034, "train/model_opt_grad_steps": 291329.9014084507, "train/model_opt_loss": 15782.756299515846, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2535.211267605634, "train/policy_entropy_mag": 2.6458104697751326, "train/policy_entropy_max": 2.6458104697751326, "train/policy_entropy_mean": 0.3816292558757352, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5462875156335427, "train/policy_logprob_mag": 7.438384230707733, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3809779811073357, "train/policy_logprob_min": -7.438384230707733, "train/policy_logprob_std": 1.0005230668564917, "train/policy_randomness_mag": 0.933854985405022, "train/policy_randomness_max": 0.933854985405022, "train/policy_randomness_mean": 0.13469837973235357, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19281552060389182, "train/post_ent_mag": 55.15173861006616, "train/post_ent_max": 55.15173861006616, "train/post_ent_mean": 41.04884424343915, "train/post_ent_min": 19.380139095682495, "train/post_ent_std": 5.665866019020618, "train/prior_ent_mag": 76.66024328957141, "train/prior_ent_max": 76.66024328957141, "train/prior_ent_mean": 46.17323061446069, "train/prior_ent_min": 28.55039897435148, "train/prior_ent_std": 7.386079573295485, "train/rep_loss_mean": 5.1262895355761895, "train/rep_loss_std": 8.726117651227494, "train/reward_avg": 0.03821660415597365, "train/reward_loss_mean": 0.052120147194241136, "train/reward_loss_std": 0.20849106870066952, "train/reward_max_data": 1.025352118720471, "train/reward_max_pred": 1.0233541172994693, "train/reward_neg_acc": 0.9945548017260054, "train/reward_neg_loss": 0.021945314494971658, "train/reward_pos_acc": 0.9857308797433343, "train/reward_pos_loss": 0.7298669806668456, "train/reward_pred": 0.037953762153924354, "train/reward_rate": 0.04259738116197183, "stats/sum_log_reward": 10.100000381469727, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 3.5714285714285716, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 16.142857142857142, "stats/max_log_achievement_collect_wood": 9.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.14285714285714285, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.8571428571428572, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 5.428571428571429, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.3707394472190312, "replay/size": 584864.0, "replay/inserts": 1422.0, "replay/samples": 11376.0, "replay/insert_wait_avg": 3.341045728380335e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3539517814432352e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.25978660583496, "timer/env.step_count": 1422.0, "timer/env.step_total": 21.58782458305359, "timer/env.step_frac": 0.07189715555014677, "timer/env.step_avg": 0.01518131123984078, "timer/env.step_min": 0.002642393112182617, "timer/env.step_max": 1.7822864055633545, "timer/replay.add_count": 1422.0, "timer/replay.add_total": 0.29804158210754395, "timer/replay.add_frac": 0.0009926123823527425, "timer/replay.add_avg": 0.00020959323636254848, "timer/replay.add_min": 6.222724914550781e-05, "timer/replay.add_max": 0.0008196830749511719, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0312650203704834, "timer/logger.write_frac": 0.00010412656561141985, "timer/logger.write_avg": 0.0312650203704834, "timer/logger.write_min": 0.0312650203704834, "timer/logger.write_max": 0.0312650203704834, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00031304359436035156, "timer/checkpoint.save_frac": 1.0425758237525776e-06, "timer/checkpoint.save_avg": 0.00031304359436035156, "timer/checkpoint.save_min": 0.00031304359436035156, "timer/checkpoint.save_max": 0.00031304359436035156, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1139280796051025, "timer/agent.save_frac": 0.0037098810073671567, "timer/agent.save_avg": 1.1139280796051025, "timer/agent.save_min": 1.1139280796051025, "timer/agent.save_max": 1.1139280796051025, "timer/replay.save_count": 1.0, "timer/replay.save_total": 5.841255187988281e-05, "timer/replay.save_frac": 1.9454004327447183e-07, "timer/replay.save_avg": 5.841255187988281e-05, "timer/replay.save_min": 5.841255187988281e-05, "timer/replay.save_max": 5.841255187988281e-05, "timer/agent.policy_count": 1422.0, "timer/agent.policy_total": 12.37863039970398, "timer/agent.policy_frac": 0.041226401109629725, "timer/agent.policy_avg": 0.008705084669271433, "timer/agent.policy_min": 0.006004810333251953, "timer/agent.policy_max": 1.1050059795379639, "timer/dataset_count": 711.0, "timer/dataset_total": 0.05885910987854004, "timer/dataset_frac": 0.00019602728205428036, "timer/dataset_avg": 8.278355819766532e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.00016117095947265625, "timer/agent.train_count": 711.0, "timer/agent.train_total": 265.2526876926422, "timer/agent.train_frac": 0.8834106314771075, "timer/agent.train_avg": 0.3730698842371902, "timer/agent.train_min": 0.3658578395843506, "timer/agent.train_max": 0.8344855308532715, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22153949737548828, "timer/agent.report_frac": 0.0007378260668196422, "timer/agent.report_avg": 0.22153949737548828, "timer/agent.report_min": 0.22153949737548828, "timer/agent.report_max": 0.22153949737548828, "fps": 4.735803994871652}
{"step": 584962, "episode/length": 115.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.10344827586206896}
{"step": 585138, "episode/length": 175.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.07386363636363637}
{"step": 585444, "episode/length": 305.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.0392156862745098}
{"step": 585641, "episode/length": 196.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.30000003427267, "episode/reward_rate": 0.06598984771573604}
{"step": 585794, "episode/length": 152.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.700000002980232, "episode/reward_rate": 0.08496732026143791}
{"step": 585920, "episode/length": 125.0, "episode/score": 7.100000023841858, "episode/sum_abs_reward": 8.899999976158142, "episode/reward_rate": 0.07142857142857142}
{"step": 586135, "episode/length": 214.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.05116279069767442}
{"step": 586279, "episode/length": 143.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 11.700000047683716, "episode/reward_rate": 0.06944444444444445}
{"step": 586365, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.508099873860677, "train/action_min": 0.0, "train/action_std": 3.411137445105447, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.042298576406513654, "train/actor_opt_grad_steps": 292275.0, "train/actor_opt_loss": -13.853292684588167, "train/adv_mag": 0.4533109838763873, "train/adv_max": 0.40441607187191647, "train/adv_mean": 0.0017981157200337191, "train/adv_min": -0.37304219272401595, "train/adv_std": 0.0476201020905541, "train/cont_avg": 0.9948323567708334, "train/cont_loss_mean": 2.5595398702726868e-05, "train/cont_loss_std": 0.000777928304234226, "train/cont_neg_acc": 0.9980158739619784, "train/cont_neg_loss": 0.003405503138421769, "train/cont_pos_acc": 0.9999999834431542, "train/cont_pos_loss": 5.461896445840213e-06, "train/cont_pred": 0.9948435748616854, "train/cont_rate": 0.9948323567708334, "train/dyn_loss_mean": 5.204145024220149, "train/dyn_loss_std": 8.631745013925764, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0941746748156018, "train/extr_critic_critic_opt_grad_steps": 292275.0, "train/extr_critic_critic_opt_loss": 16234.583129882812, "train/extr_critic_mag": 11.623972442415026, "train/extr_critic_max": 11.623972442415026, "train/extr_critic_mean": 3.0388375487592487, "train/extr_critic_min": -0.46003949642181396, "train/extr_critic_std": 2.860725373029709, "train/extr_return_normed_mag": 1.440393191244867, "train/extr_return_normed_max": 1.440393191244867, "train/extr_return_normed_mean": 0.36367736508448917, "train/extr_return_normed_min": -0.07157675808088647, "train/extr_return_normed_std": 0.33121474356287056, "train/extr_return_rate": 0.7540048485000929, "train/extr_return_raw_mag": 12.473625659942627, "train/extr_return_raw_max": 12.473625659942627, "train/extr_return_raw_mean": 3.054545526703199, "train/extr_return_raw_min": -0.7519183655579885, "train/extr_return_raw_std": 2.8973925742838116, "train/extr_reward_mag": 1.0542132059733074, "train/extr_reward_max": 1.0542132059733074, "train/extr_reward_mean": 0.05360421279652251, "train/extr_reward_min": -0.6602720899714364, "train/extr_reward_std": 0.22366924749480355, "train/image_loss_mean": 3.16612716515859, "train/image_loss_std": 7.979111194610596, "train/model_loss_mean": 6.339972727828556, "train/model_loss_std": 12.065936697853935, "train/model_opt_grad_norm": 30.066062834527756, "train/model_opt_grad_steps": 292044.0, "train/model_opt_loss": 15849.931789822049, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.666399598121643, "train/policy_entropy_max": 2.666399598121643, "train/policy_entropy_mean": 0.41952528514795834, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6001552397178279, "train/policy_logprob_mag": 7.438384274641673, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41974767338898444, "train/policy_logprob_min": -7.438384274641673, "train/policy_logprob_std": 1.0378684393233724, "train/policy_randomness_mag": 0.9411220459474458, "train/policy_randomness_max": 0.9411220459474458, "train/policy_randomness_mean": 0.1480740150436759, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21182846277952194, "train/post_ent_mag": 55.62695132361518, "train/post_ent_max": 55.62695132361518, "train/post_ent_mean": 41.08915959464179, "train/post_ent_min": 19.33597825633155, "train/post_ent_std": 5.7407023774253, "train/prior_ent_mag": 76.6014289855957, "train/prior_ent_max": 76.6014289855957, "train/prior_ent_mean": 46.28332185745239, "train/prior_ent_min": 28.271114852693344, "train/prior_ent_std": 7.532116015752156, "train/rep_loss_mean": 5.204145024220149, "train/rep_loss_std": 8.631745013925764, "train/reward_avg": 0.03592122382380896, "train/reward_loss_mean": 0.05133298714645207, "train/reward_loss_std": 0.20466014618674913, "train/reward_max_data": 1.0180555598603354, "train/reward_max_pred": 1.016941421561771, "train/reward_neg_acc": 0.994528697596656, "train/reward_neg_loss": 0.02269155219093793, "train/reward_pos_acc": 0.9892108746700816, "train/reward_pos_loss": 0.7295219906502299, "train/reward_pred": 0.03557543094373412, "train/reward_rate": 0.04041883680555555, "stats/sum_log_reward": 10.349999964237213, "stats/max_log_achievement_collect_coal": 1.125, "stats/max_log_achievement_collect_drink": 3.125, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.125, "stats/max_log_achievement_collect_stone": 17.625, "stats/max_log_achievement_collect_wood": 8.375, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.625, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.125, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.5, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 4.875, "stats/max_log_achievement_place_table": 1.75, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.36957690492272377, "replay/size": 586302.0, "replay/inserts": 1438.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.395889664226845e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4048126708814596e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.22033286094666, "timer/env.step_count": 1438.0, "timer/env.step_total": 20.811288833618164, "timer/env.step_frac": 0.069320051161416, "timer/env.step_avg": 0.014472384446187874, "timer/env.step_min": 0.0028727054595947266, "timer/env.step_max": 1.646756649017334, "timer/replay.add_count": 1438.0, "timer/replay.add_total": 0.2699246406555176, "timer/replay.add_frac": 0.0008990884730666755, "timer/replay.add_avg": 0.0001877083731957702, "timer/replay.add_min": 5.91278076171875e-05, "timer/replay.add_max": 0.0011529922485351562, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025763750076293945, "timer/logger.write_frac": 8.581613986893742e-05, "timer/logger.write_avg": 0.025763750076293945, "timer/logger.write_min": 0.025763750076293945, "timer/logger.write_max": 0.025763750076293945, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1438.0, "timer/agent.policy_total": 10.82365369796753, "timer/agent.policy_frac": 0.03605236725582052, "timer/agent.policy_avg": 0.007526880179393275, "timer/agent.policy_min": 0.006190776824951172, "timer/agent.policy_max": 0.016311168670654297, "timer/dataset_count": 719.0, "timer/dataset_total": 0.059426069259643555, "timer/dataset_frac": 0.0001979415207935566, "timer/dataset_avg": 8.26510003611176e-05, "timer/dataset_min": 5.936622619628906e-05, "timer/dataset_max": 0.0001633167266845703, "timer/agent.train_count": 719.0, "timer/agent.train_total": 267.5719771385193, "timer/agent.train_frac": 0.8912520167727975, "timer/agent.train_avg": 0.3721446135445331, "timer/agent.train_min": 0.36429524421691895, "timer/agent.train_max": 0.38581395149230957, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21886968612670898, "timer/agent.report_frac": 0.0007290301893978749, "timer/agent.report_avg": 0.21886968612670898, "timer/agent.report_min": 0.21886968612670898, "timer/agent.report_max": 0.21886968612670898, "fps": 4.789719990959408}
{"step": 586532, "episode/length": 252.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.900000005960464, "episode/reward_rate": 0.05138339920948617}
{"step": 586723, "episode/length": 190.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.06806282722513089}
{"step": 586888, "episode/length": 164.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.06060606060606061}
{"step": 587172, "episode/length": 283.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.04929577464788732}
{"step": 587393, "episode/length": 220.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.049773755656108594}
{"step": 587684, "episode/length": 290.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.044673539518900345}
{"step": 587829, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.463069549978596, "train/action_min": 0.0, "train/action_std": 3.3707034163279075, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0444186889655786, "train/actor_opt_grad_steps": 293000.0, "train/actor_opt_loss": -13.324044281489229, "train/adv_mag": 0.44616397684567594, "train/adv_max": 0.4011187459508034, "train/adv_mean": 0.0022889274833899323, "train/adv_min": -0.386563606662293, "train/adv_std": 0.049781557223568224, "train/cont_avg": 0.994675727739726, "train/cont_loss_mean": 5.2220725293329286e-05, "train/cont_loss_std": 0.0016408394992071616, "train/cont_neg_acc": 0.9980430537707186, "train/cont_neg_loss": 0.005845621710247935, "train/cont_pos_acc": 0.9999999820369564, "train/cont_pos_loss": 1.247051081440558e-05, "train/cont_pred": 0.9946796347017157, "train/cont_rate": 0.994675727739726, "train/dyn_loss_mean": 5.2264193639363326, "train/dyn_loss_std": 8.760286683905614, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0837549109981484, "train/extr_critic_critic_opt_grad_steps": 293000.0, "train/extr_critic_critic_opt_loss": 16245.964602953767, "train/extr_critic_mag": 11.33950198186587, "train/extr_critic_max": 11.33950198186587, "train/extr_critic_mean": 3.097778465649853, "train/extr_critic_min": -0.4338116596822869, "train/extr_critic_std": 2.7591548619205004, "train/extr_return_normed_mag": 1.4366832008100536, "train/extr_return_normed_max": 1.4366832008100536, "train/extr_return_normed_mean": 0.38152268957601837, "train/extr_return_normed_min": -0.0726184841398507, "train/extr_return_normed_std": 0.3288697155371104, "train/extr_return_rate": 0.7646645307540894, "train/extr_return_raw_mag": 12.07572720148792, "train/extr_return_raw_max": 12.07572720148792, "train/extr_return_raw_mean": 3.117185301976661, "train/extr_return_raw_min": -0.737779242943411, "train/extr_return_raw_std": 2.7916012594144637, "train/extr_reward_mag": 1.0581293824600846, "train/extr_reward_max": 1.0581293824600846, "train/extr_reward_mean": 0.05515951612224317, "train/extr_reward_min": -0.6422506178895088, "train/extr_reward_std": 0.22665118946604532, "train/image_loss_mean": 3.023426504984294, "train/image_loss_std": 8.047652930429537, "train/model_loss_mean": 6.213037575760933, "train/model_loss_std": 12.226362568058379, "train/model_opt_grad_norm": 27.397836149555364, "train/model_opt_grad_steps": 292768.3561643836, "train/model_opt_loss": 16674.518233625855, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2671.2328767123286, "train/policy_entropy_mag": 2.661865227842984, "train/policy_entropy_max": 2.661865227842984, "train/policy_entropy_mean": 0.3961262159968076, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5683780720789139, "train/policy_logprob_mag": 7.438384225923721, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39612962448433653, "train/policy_logprob_min": -7.438384225923721, "train/policy_logprob_std": 1.0162094790641576, "train/policy_randomness_mag": 0.9395216115533489, "train/policy_randomness_max": 0.9395216115533489, "train/policy_randomness_mean": 0.1398151730225511, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20061251725236032, "train/post_ent_mag": 55.495079301807976, "train/post_ent_max": 55.495079301807976, "train/post_ent_mean": 40.93575966194884, "train/post_ent_min": 18.96455901942841, "train/post_ent_std": 5.717225336048701, "train/prior_ent_mag": 76.65462985104078, "train/prior_ent_max": 76.65462985104078, "train/prior_ent_mean": 46.18892413622712, "train/prior_ent_min": 28.475849360635834, "train/prior_ent_std": 7.47297444408887, "train/rep_loss_mean": 5.2264193639363326, "train/rep_loss_std": 8.760286683905614, "train/reward_avg": 0.038045804131112686, "train/reward_loss_mean": 0.053707271967440434, "train/reward_loss_std": 0.21117681816016157, "train/reward_max_data": 1.0219178134447908, "train/reward_max_pred": 1.0209156421765888, "train/reward_neg_acc": 0.994381014614889, "train/reward_neg_loss": 0.023727955207330724, "train/reward_pos_acc": 0.9875341588503694, "train/reward_pos_loss": 0.7304962620343247, "train/reward_pred": 0.03786964927583116, "train/reward_rate": 0.04268782106164384, "stats/sum_log_reward": 11.266666889190674, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 3.6666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 13.166666666666666, "stats/max_log_achievement_collect_wood": 11.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.3333333333333333, "stats/max_log_achievement_defeat_zombie": 0.8333333333333334, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 2.1666666666666665, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 3.6666666666666665, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.47161538153886795, "replay/size": 587766.0, "replay/inserts": 1464.0, "replay/samples": 11712.0, "replay/insert_wait_avg": 3.3087092019169708e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.427885450300623e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1434597969055, "timer/env.step_count": 1464.0, "timer/env.step_total": 17.15369153022766, "timer/env.step_frac": 0.05715164189096389, "timer/env.step_avg": 0.011717002411357692, "timer/env.step_min": 0.002817392349243164, "timer/env.step_max": 1.6748020648956299, "timer/replay.add_count": 1464.0, "timer/replay.add_total": 0.2782719135284424, "timer/replay.add_frac": 0.0009271296923035981, "timer/replay.add_avg": 0.00019007644366696885, "timer/replay.add_min": 5.817413330078125e-05, "timer/replay.add_max": 0.0008597373962402344, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021637678146362305, "timer/logger.write_frac": 7.209111989647755e-05, "timer/logger.write_avg": 0.021637678146362305, "timer/logger.write_min": 0.021637678146362305, "timer/logger.write_max": 0.021637678146362305, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1464.0, "timer/agent.policy_total": 10.906925201416016, "timer/agent.policy_frac": 0.03633904003371013, "timer/agent.policy_avg": 0.007450085520092907, "timer/agent.policy_min": 0.005991220474243164, "timer/agent.policy_max": 0.015172243118286133, "timer/dataset_count": 732.0, "timer/dataset_total": 0.05969047546386719, "timer/dataset_frac": 0.00019887315054026907, "timer/dataset_avg": 8.154436538779671e-05, "timer/dataset_min": 5.817413330078125e-05, "timer/dataset_max": 0.00016832351684570312, "timer/agent.train_count": 732.0, "timer/agent.train_total": 271.0731933116913, "timer/agent.train_frac": 0.9031454275069499, "timer/agent.train_avg": 0.3703185700979389, "timer/agent.train_min": 0.3622584342956543, "timer/agent.train_max": 0.3859107494354248, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22241687774658203, "timer/agent.report_frac": 0.0007410352299433151, "timer/agent.report_avg": 0.22241687774658203, "timer/agent.report_min": 0.22241687774658203, "timer/agent.report_max": 0.22241687774658203, "fps": 4.877560032274377}
{"step": 587884, "episode/length": 199.0, "episode/score": 6.099999971687794, "episode/sum_abs_reward": 8.100000031292439, "episode/reward_rate": 0.04}
{"step": 588084, "episode/length": 199.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.300000041723251, "episode/reward_rate": 0.065}
{"step": 588271, "episode/length": 186.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.058823529411764705}
{"step": 588584, "episode/length": 312.0, "episode/score": 12.099999994039536, "episode/sum_abs_reward": 14.300000041723251, "episode/reward_rate": 0.04153354632587859}
{"step": 588775, "episode/length": 190.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.05235602094240838}
{"step": 588968, "episode/length": 192.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.05181347150259067}
{"step": 589257, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.470700546049736, "train/action_min": 0.0, "train/action_std": 3.3516601005070648, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04496998759642453, "train/actor_opt_grad_steps": 293720.0, "train/actor_opt_loss": -12.790365032956634, "train/adv_mag": 0.4674377764614535, "train/adv_max": 0.41463288958643524, "train/adv_mean": 0.00247670446215509, "train/adv_min": -0.396696923904016, "train/adv_std": 0.05065908403673642, "train/cont_avg": 0.9942781690140845, "train/cont_loss_mean": 0.00011604454564517126, "train/cont_loss_std": 0.003528080030946512, "train/cont_neg_acc": 0.9951984638899145, "train/cont_neg_loss": 0.01585470511645326, "train/cont_pos_acc": 0.9999861440188448, "train/cont_pos_loss": 2.7340016269420977e-05, "train/cont_pred": 0.9942947265128015, "train/cont_rate": 0.9942781690140845, "train/dyn_loss_mean": 5.094215668423075, "train/dyn_loss_std": 8.696103854918144, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0224950338753176, "train/extr_critic_critic_opt_grad_steps": 293720.0, "train/extr_critic_critic_opt_loss": 16332.599691901409, "train/extr_critic_mag": 11.378543128430003, "train/extr_critic_max": 11.378543128430003, "train/extr_critic_mean": 3.0071336249230614, "train/extr_critic_min": -0.4758293998073524, "train/extr_critic_std": 2.801682253958474, "train/extr_return_normed_mag": 1.4540360410448532, "train/extr_return_normed_max": 1.4540360410448532, "train/extr_return_normed_mean": 0.37155207278023306, "train/extr_return_normed_min": -0.0795380305236494, "train/extr_return_normed_std": 0.33454242852372185, "train/extr_return_rate": 0.7415007327643919, "train/extr_return_raw_mag": 12.24666025940801, "train/extr_return_raw_max": 12.24666025940801, "train/extr_return_raw_mean": 3.028267917498736, "train/extr_return_raw_min": -0.8100537871810752, "train/extr_return_raw_std": 2.847314246943299, "train/extr_reward_mag": 1.048250762509628, "train/extr_reward_max": 1.048250762509628, "train/extr_reward_mean": 0.054303592097171595, "train/extr_reward_min": -0.6408586434915032, "train/extr_reward_std": 0.22628778995762408, "train/image_loss_mean": 3.0143909236075173, "train/image_loss_std": 8.006321423490283, "train/model_loss_mean": 6.123521509304853, "train/model_loss_std": 12.094403092290314, "train/model_opt_grad_norm": 27.176008237919337, "train/model_opt_grad_steps": 293487.74647887325, "train/model_opt_loss": 15308.803779709508, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6581530570983887, "train/policy_entropy_max": 2.6581530570983887, "train/policy_entropy_mean": 0.4159535606142501, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5940088839598106, "train/policy_logprob_mag": 7.438384203843667, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41609614394919975, "train/policy_logprob_min": -7.438384203843667, "train/policy_logprob_std": 1.0328922926540105, "train/policy_randomness_mag": 0.9382113780773861, "train/policy_randomness_max": 0.9382113780773861, "train/policy_randomness_mean": 0.14681335360231534, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20965906746790441, "train/post_ent_mag": 55.73459952985737, "train/post_ent_max": 55.73459952985737, "train/post_ent_mean": 41.153293931987925, "train/post_ent_min": 19.46448409389442, "train/post_ent_std": 5.758941341453875, "train/prior_ent_mag": 76.57759223185795, "train/prior_ent_max": 76.57759223185795, "train/prior_ent_mean": 46.26092572279379, "train/prior_ent_min": 28.11572888871314, "train/prior_ent_std": 7.516481446548247, "train/rep_loss_mean": 5.094215668423075, "train/rep_loss_std": 8.696103854918144, "train/reward_avg": 0.036623844325962204, "train/reward_loss_mean": 0.05248510769345391, "train/reward_loss_std": 0.1976279356110264, "train/reward_max_data": 1.015492961440288, "train/reward_max_pred": 1.014550528056185, "train/reward_neg_acc": 0.9943891662946889, "train/reward_neg_loss": 0.024096053119906237, "train/reward_pos_acc": 0.9932588657862703, "train/reward_pos_loss": 0.7043614756893104, "train/reward_pred": 0.03651842304413587, "train/reward_rate": 0.041717099471830985, "stats/sum_log_reward": 9.766666968663534, "stats/max_log_achievement_collect_coal": 0.3333333333333333, "stats/max_log_achievement_collect_drink": 4.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.1666666666666667, "stats/max_log_achievement_collect_stone": 9.5, "stats/max_log_achievement_collect_wood": 11.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.8333333333333333, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.1666666666666667, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 4.0, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.3968784883618355, "replay/size": 589194.0, "replay/inserts": 1428.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 3.3241694047003568e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.373348616752304e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1789846420288, "timer/env.step_count": 1428.0, "timer/env.step_total": 19.804466009140015, "timer/env.step_frac": 0.06597552467824272, "timer/env.step_avg": 0.013868673675868358, "timer/env.step_min": 0.0028650760650634766, "timer/env.step_max": 1.8247694969177246, "timer/replay.add_count": 1428.0, "timer/replay.add_total": 0.28740668296813965, "timer/replay.add_frac": 0.0009574510464511017, "timer/replay.add_avg": 0.00020126518415135828, "timer/replay.add_min": 5.888938903808594e-05, "timer/replay.add_max": 0.0009083747863769531, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028595447540283203, "timer/logger.write_frac": 9.526132408764062e-05, "timer/logger.write_avg": 0.028595447540283203, "timer/logger.write_min": 0.028595447540283203, "timer/logger.write_max": 0.028595447540283203, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003490447998046875, "timer/checkpoint.save_frac": 1.162788928148759e-06, "timer/checkpoint.save_avg": 0.0003490447998046875, "timer/checkpoint.save_min": 0.0003490447998046875, "timer/checkpoint.save_max": 0.0003490447998046875, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4776387214660645, "timer/agent.save_frac": 0.004922525549975415, "timer/agent.save_avg": 1.4776387214660645, "timer/agent.save_min": 1.4776387214660645, "timer/agent.save_max": 1.4776387214660645, "timer/replay.save_count": 1.0, "timer/replay.save_total": 5.054473876953125e-05, "timer/replay.save_frac": 1.683820032565143e-07, "timer/replay.save_avg": 5.054473876953125e-05, "timer/replay.save_min": 5.054473876953125e-05, "timer/replay.save_max": 5.054473876953125e-05, "timer/agent.policy_count": 1428.0, "timer/agent.policy_total": 12.830474615097046, "timer/agent.policy_frac": 0.042742747732316164, "timer/agent.policy_avg": 0.008984926201048352, "timer/agent.policy_min": 0.0063018798828125, "timer/agent.policy_max": 1.475944995880127, "timer/dataset_count": 714.0, "timer/dataset_total": 0.05895042419433594, "timer/dataset_frac": 0.00019638424809996556, "timer/dataset_avg": 8.256361931979823e-05, "timer/dataset_min": 5.841255187988281e-05, "timer/dataset_max": 0.0002319812774658203, "timer/agent.train_count": 714.0, "timer/agent.train_total": 266.5211908817291, "timer/agent.train_frac": 0.8878742500897008, "timer/agent.train_avg": 0.3732789788259512, "timer/agent.train_min": 0.3645622730255127, "timer/agent.train_max": 0.8774340152740479, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22051048278808594, "timer/agent.report_frac": 0.0007345966708863726, "timer/agent.report_avg": 0.22051048278808594, "timer/agent.report_min": 0.22051048278808594, "timer/agent.report_max": 0.22051048278808594, "fps": 4.757056275335499}
{"step": 589295, "episode/length": 326.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.700000047683716, "episode/reward_rate": 0.039755351681957186}
{"step": 589480, "episode/length": 184.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.05945945945945946}
{"step": 589807, "episode/length": 326.0, "episode/score": 12.099999964237213, "episode/sum_abs_reward": 14.099999994039536, "episode/reward_rate": 0.039755351681957186}
{"step": 589972, "episode/length": 164.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.07272727272727272}
{"step": 590154, "episode/length": 181.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.07142857142857142}
{"step": 590654, "episode/length": 499.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.30000003427267, "episode/reward_rate": 0.024}
{"step": 590711, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.5038519036279965, "train/action_min": 0.0, "train/action_std": 3.3912015941045057, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.043211893931235354, "train/actor_opt_grad_steps": 294440.0, "train/actor_opt_loss": -13.491037094429748, "train/adv_mag": 0.41742239137218423, "train/adv_max": 0.3828000944771179, "train/adv_mean": 0.0016164083446137613, "train/adv_min": -0.3544607801388388, "train/adv_std": 0.04842336287033068, "train/cont_avg": 0.9948095034246576, "train/cont_loss_mean": 5.7996348950276625e-05, "train/cont_loss_std": 0.0017779960486901997, "train/cont_neg_acc": 0.9977168955215036, "train/cont_neg_loss": 0.008367703341832566, "train/cont_pos_acc": 0.9999999910184781, "train/cont_pos_loss": 9.027702613176275e-06, "train/cont_pred": 0.9948140693037477, "train/cont_rate": 0.9948095034246576, "train/dyn_loss_mean": 5.025980034919634, "train/dyn_loss_std": 8.689171281579423, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0499774372740969, "train/extr_critic_critic_opt_grad_steps": 294440.0, "train/extr_critic_critic_opt_loss": 16161.306520226884, "train/extr_critic_mag": 11.412721411822593, "train/extr_critic_max": 11.412721411822593, "train/extr_critic_mean": 3.1671314598762828, "train/extr_critic_min": -0.470170940438362, "train/extr_critic_std": 2.802003720035292, "train/extr_return_normed_mag": 1.423363251228855, "train/extr_return_normed_max": 1.423363251228855, "train/extr_return_normed_mean": 0.38466688174090974, "train/extr_return_normed_min": -0.07585017281035854, "train/extr_return_normed_std": 0.3273729626854805, "train/extr_return_rate": 0.7615698486158292, "train/extr_return_raw_mag": 12.174049194544962, "train/extr_return_raw_max": 12.174049194544962, "train/extr_return_raw_mean": 3.1811012535879057, "train/extr_return_raw_min": -0.8063979789818803, "train/extr_return_raw_std": 2.834741376850703, "train/extr_reward_mag": 1.0590011648935815, "train/extr_reward_max": 1.0590011648935815, "train/extr_reward_mean": 0.056075995609368365, "train/extr_reward_min": -0.6538932535746326, "train/extr_reward_std": 0.2288462662533538, "train/image_loss_mean": 2.8737854973910606, "train/image_loss_std": 7.86884799395522, "train/model_loss_mean": 5.941992518020003, "train/model_loss_std": 12.015385510170297, "train/model_opt_grad_norm": 27.560875944895287, "train/model_opt_grad_steps": 294206.1095890411, "train/model_opt_loss": 8232.19170724529, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1386.986301369863, "train/policy_entropy_mag": 2.6343477980731285, "train/policy_entropy_max": 2.6343477980731285, "train/policy_entropy_mean": 0.3957725820476062, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5650206747120374, "train/policy_logprob_mag": 7.438384173667594, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.394848178714922, "train/policy_logprob_min": -7.438384173667594, "train/policy_logprob_std": 1.0135358139260175, "train/policy_randomness_mag": 0.9298091677770223, "train/policy_randomness_max": 0.9298091677770223, "train/policy_randomness_mean": 0.1396903540581873, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19942750179604307, "train/post_ent_mag": 54.93177638641775, "train/post_ent_max": 54.93177638641775, "train/post_ent_mean": 40.95707984819804, "train/post_ent_min": 19.05183536059236, "train/post_ent_std": 5.614848992595934, "train/prior_ent_mag": 76.53094388360847, "train/prior_ent_max": 76.53094388360847, "train/prior_ent_mean": 46.00951819223901, "train/prior_ent_min": 28.38193901271036, "train/prior_ent_std": 7.362053433509722, "train/rep_loss_mean": 5.025980034919634, "train/rep_loss_std": 8.689171281579423, "train/reward_avg": 0.03826519658100115, "train/reward_loss_mean": 0.052561000295697824, "train/reward_loss_std": 0.20584457520752736, "train/reward_max_data": 1.0246575401253897, "train/reward_max_pred": 1.025758096616562, "train/reward_neg_acc": 0.9946896711440936, "train/reward_neg_loss": 0.022556791273392225, "train/reward_pos_acc": 0.9893326008156554, "train/reward_pos_loss": 0.7248687744140625, "train/reward_pred": 0.03803134278381524, "train/reward_rate": 0.0428884845890411, "stats/sum_log_reward": 11.433333396911621, "stats/max_log_achievement_collect_coal": 1.8333333333333333, "stats/max_log_achievement_collect_drink": 7.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 21.666666666666668, "stats/max_log_achievement_collect_wood": 10.0, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 0.6666666666666666, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 3.3333333333333335, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_stone": 5.666666666666667, "stats/max_log_achievement_place_table": 2.8333333333333335, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.5865513210495313, "replay/size": 590648.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.211271976014443e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3776502714196458e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0729236602783, "timer/env.step_count": 1454.0, "timer/env.step_total": 18.089760303497314, "timer/env.step_frac": 0.06028454711221224, "timer/env.step_avg": 0.012441375724551111, "timer/env.step_min": 0.002916097640991211, "timer/env.step_max": 1.6193327903747559, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.25794553756713867, "timer/replay.add_frac": 0.0008596095056519217, "timer/replay.add_avg": 0.00017740408360876112, "timer/replay.add_min": 5.745887756347656e-05, "timer/replay.add_max": 0.0008044242858886719, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022721529006958008, "timer/logger.write_frac": 7.572002408548443e-05, "timer/logger.write_avg": 0.022721529006958008, "timer/logger.write_min": 0.022721529006958008, "timer/logger.write_max": 0.022721529006958008, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 10.875577688217163, "timer/agent.policy_frac": 0.03624311569187007, "timer/agent.policy_avg": 0.0074797645723639365, "timer/agent.policy_min": 0.006128072738647461, "timer/agent.policy_max": 0.014952421188354492, "timer/dataset_count": 727.0, "timer/dataset_total": 0.05872368812561035, "timer/dataset_frac": 0.0001956980570232762, "timer/dataset_avg": 8.077536193343927e-05, "timer/dataset_min": 5.7220458984375e-05, "timer/dataset_max": 0.00018143653869628906, "timer/agent.train_count": 727.0, "timer/agent.train_total": 270.11932277679443, "timer/agent.train_frac": 0.9001789281148362, "timer/agent.train_avg": 0.3715534013435962, "timer/agent.train_min": 0.3646860122680664, "timer/agent.train_max": 0.38631367683410645, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22198152542114258, "timer/agent.report_frac": 0.0007397585983880859, "timer/agent.report_avg": 0.22198152542114258, "timer/agent.report_min": 0.22198152542114258, "timer/agent.report_max": 0.22198152542114258, "fps": 4.845385008507449}
{"step": 590904, "episode/length": 249.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.04}
{"step": 591099, "episode/length": 194.0, "episode/score": 10.099999994039536, "episode/sum_abs_reward": 12.300000011920929, "episode/reward_rate": 0.06153846153846154}
{"step": 591286, "episode/length": 186.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 11.500000037252903, "episode/reward_rate": 0.053475935828877004}
{"step": 591467, "episode/length": 180.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 9.700000047683716, "episode/reward_rate": 0.049723756906077346}
{"step": 591857, "episode/length": 389.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.03076923076923077}
{"step": 592066, "episode/length": 208.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.06220095693779904}
{"step": 592099, "episode/length": 32.0, "episode/score": 4.100000023841858, "episode/sum_abs_reward": 5.899999976158142, "episode/reward_rate": 0.18181818181818182}
{"step": 592155, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.654822455512153, "train/action_min": 0.0, "train/action_std": 3.5124774509006076, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04201273019942972, "train/actor_opt_grad_steps": 295165.0, "train/actor_opt_loss": -12.656725181680587, "train/adv_mag": 0.4188820661769973, "train/adv_max": 0.37188226191533935, "train/adv_mean": 0.002225123894618264, "train/adv_min": -0.36402303559912574, "train/adv_std": 0.047862444849063955, "train/cont_avg": 0.9946967230902778, "train/cont_loss_mean": 2.2916842029374607e-05, "train/cont_loss_std": 0.0006808754584860645, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0008090738087361561, "train/cont_pos_acc": 0.9999863786829842, "train/cont_pos_loss": 1.7739115107594393e-05, "train/cont_pred": 0.9946882633699311, "train/cont_rate": 0.9946967230902778, "train/dyn_loss_mean": 5.165811008877224, "train/dyn_loss_std": 8.80226900180181, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.077053339117103, "train/extr_critic_critic_opt_grad_steps": 295165.0, "train/extr_critic_critic_opt_loss": 16300.706882052951, "train/extr_critic_mag": 11.534578800201416, "train/extr_critic_max": 11.534578800201416, "train/extr_critic_mean": 2.89537752005789, "train/extr_critic_min": -0.47587084935771096, "train/extr_critic_std": 2.7978574170006647, "train/extr_return_normed_mag": 1.4540045294496748, "train/extr_return_normed_max": 1.4540045294496748, "train/extr_return_normed_mean": 0.3562032785266638, "train/extr_return_normed_min": -0.07351975106737679, "train/extr_return_normed_std": 0.329895974861251, "train/extr_return_rate": 0.7207040646009975, "train/extr_return_raw_mag": 12.3552891280916, "train/extr_return_raw_max": 12.3552891280916, "train/extr_return_raw_mean": 2.9145033723778195, "train/extr_return_raw_min": -0.7804314655562242, "train/extr_return_raw_std": 2.8368235561582775, "train/extr_reward_mag": 1.058663739098443, "train/extr_reward_max": 1.058663739098443, "train/extr_reward_mean": 0.05460723743049635, "train/extr_reward_min": -0.6040742314524121, "train/extr_reward_std": 0.2258831039071083, "train/image_loss_mean": 3.2040951450665793, "train/image_loss_std": 8.194149222638872, "train/model_loss_mean": 6.357467280493842, "train/model_loss_std": 12.348731226391262, "train/model_opt_grad_norm": 28.16306283738878, "train/model_opt_grad_steps": 294931.0, "train/model_opt_loss": 11997.885531955295, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1892.361111111111, "train/policy_entropy_mag": 2.6572621862093606, "train/policy_entropy_max": 2.6572621862093606, "train/policy_entropy_mean": 0.43512957522438633, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6154654237131277, "train/policy_logprob_mag": 7.438384228282505, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.43524672297967804, "train/policy_logprob_min": -7.438384228282505, "train/policy_logprob_std": 1.049497448735767, "train/policy_randomness_mag": 0.937896937959724, "train/policy_randomness_max": 0.937896937959724, "train/policy_randomness_mean": 0.15358164709889227, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21723228486047852, "train/post_ent_mag": 55.37374448776245, "train/post_ent_max": 55.37374448776245, "train/post_ent_mean": 40.98046016693115, "train/post_ent_min": 18.965376999643112, "train/post_ent_std": 5.715649525324504, "train/prior_ent_mag": 76.60814910464816, "train/prior_ent_max": 76.60814910464816, "train/prior_ent_mean": 46.162942780388725, "train/prior_ent_min": 28.12027793460422, "train/prior_ent_std": 7.533005754152934, "train/rep_loss_mean": 5.165811008877224, "train/rep_loss_std": 8.80226900180181, "train/reward_avg": 0.036669921673213444, "train/reward_loss_mean": 0.053862646894736424, "train/reward_loss_std": 0.21095434928105938, "train/reward_max_data": 1.0194444490803614, "train/reward_max_pred": 1.017658104499181, "train/reward_neg_acc": 0.994311419626077, "train/reward_neg_loss": 0.024690318464611966, "train/reward_pos_acc": 0.9885193937354617, "train/reward_pos_loss": 0.7310511378778352, "train/reward_pred": 0.036352821004887424, "train/reward_rate": 0.0413818359375, "stats/sum_log_reward": 9.100000177110944, "stats/max_log_achievement_collect_coal": 0.42857142857142855, "stats/max_log_achievement_collect_drink": 4.142857142857143, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8571428571428572, "stats/max_log_achievement_collect_stone": 14.0, "stats/max_log_achievement_collect_wood": 6.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5714285714285714, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.5714285714285714, "stats/max_log_achievement_place_furnace": 1.1428571428571428, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 5.428571428571429, "stats/max_log_achievement_place_table": 1.2857142857142858, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.40693128321852, "replay/size": 592092.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.1001019675976023e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.359245948844339e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0572142601013, "timer/env.step_count": 1444.0, "timer/env.step_total": 19.958802700042725, "timer/env.step_frac": 0.06651665666249122, "timer/env.step_avg": 0.013821885526345378, "timer/env.step_min": 0.0029785633087158203, "timer/env.step_max": 1.631284475326538, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.26748013496398926, "timer/replay.add_frac": 0.000891430441436169, "timer/replay.add_avg": 0.00018523555052907844, "timer/replay.add_min": 5.8650970458984375e-05, "timer/replay.add_max": 0.0007882118225097656, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026789426803588867, "timer/logger.write_frac": 8.928106217891747e-05, "timer/logger.write_avg": 0.026789426803588867, "timer/logger.write_min": 0.026789426803588867, "timer/logger.write_max": 0.026789426803588867, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.818575382232666, "timer/agent.policy_frac": 0.03605504173232343, "timer/agent.policy_avg": 0.0074920882148425665, "timer/agent.policy_min": 0.0061931610107421875, "timer/agent.policy_max": 0.014892339706420898, "timer/dataset_count": 722.0, "timer/dataset_total": 0.0590822696685791, "timer/dataset_frac": 0.00019690334663096713, "timer/dataset_avg": 8.183139843293504e-05, "timer/dataset_min": 5.8650970458984375e-05, "timer/dataset_max": 0.00015282630920410156, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.28187823295593, "timer/agent.train_frac": 0.8941024094171545, "timer/agent.train_avg": 0.37158154879910793, "timer/agent.train_min": 0.364856481552124, "timer/agent.train_max": 0.38585901260375977, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22186708450317383, "timer/agent.report_frac": 0.000739415931225872, "timer/agent.report_avg": 0.22186708450317383, "timer/agent.report_min": 0.22186708450317383, "timer/agent.report_max": 0.22186708450317383, "fps": 4.812311030387896}
{"step": 592220, "episode/length": 120.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.899999976158142, "episode/reward_rate": 0.09917355371900827}
{"step": 592405, "episode/length": 184.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06486486486486487}
{"step": 592609, "episode/length": 203.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.058823529411764705}
{"step": 592660, "episode/length": 50.0, "episode/score": 3.100000001490116, "episode/sum_abs_reward": 5.100000001490116, "episode/reward_rate": 0.09803921568627451}
{"step": 592875, "episode/length": 214.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.05116279069767442}
{"step": 593088, "episode/length": 212.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.04225352112676056}
{"step": 593262, "episode/length": 173.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.07471264367816093}
{"step": 593396, "episode/length": 133.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.06716417910447761}
{"step": 593534, "episode/length": 137.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.057971014492753624}
{"step": 593573, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.481533856459067, "train/action_min": 0.0, "train/action_std": 3.368493248039568, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04226144009702642, "train/actor_opt_grad_steps": 295880.0, "train/actor_opt_loss": -12.72695712073588, "train/adv_mag": 0.3961342157612384, "train/adv_max": 0.35195305901513974, "train/adv_mean": 0.002207696781957745, "train/adv_min": -0.3526147641766239, "train/adv_std": 0.0473802678391967, "train/cont_avg": 0.9947595730633803, "train/cont_loss_mean": 0.0002846087640227699, "train/cont_loss_std": 0.008949319423985682, "train/cont_neg_acc": 0.9968701097327219, "train/cont_neg_loss": 0.02290956660301241, "train/cont_pos_acc": 0.999986149895359, "train/cont_pos_loss": 8.54517781590803e-05, "train/cont_pred": 0.9947660422660936, "train/cont_rate": 0.9947595730633803, "train/dyn_loss_mean": 5.2950310707092285, "train/dyn_loss_std": 8.826072430946457, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0467519248035593, "train/extr_critic_critic_opt_grad_steps": 295880.0, "train/extr_critic_critic_opt_loss": 16341.732958296654, "train/extr_critic_mag": 11.082625805492132, "train/extr_critic_max": 11.082625805492132, "train/extr_critic_mean": 2.9032594015900517, "train/extr_critic_min": -0.4849432908313375, "train/extr_critic_std": 2.7392411366314957, "train/extr_return_normed_mag": 1.4071367022017358, "train/extr_return_normed_max": 1.4071367022017358, "train/extr_return_normed_mean": 0.36375701217584205, "train/extr_return_normed_min": -0.08090079108804045, "train/extr_return_normed_std": 0.3270249585030784, "train/extr_return_rate": 0.7362722292752333, "train/extr_return_raw_mag": 11.761643973874374, "train/extr_return_raw_max": 11.761643973874374, "train/extr_return_raw_mean": 2.921958970351958, "train/extr_return_raw_min": -0.8454332926743467, "train/extr_return_raw_std": 2.7706093586666483, "train/extr_reward_mag": 1.0596179122656164, "train/extr_reward_max": 1.0596179122656164, "train/extr_reward_mean": 0.05546248121790483, "train/extr_reward_min": -0.6455746502943442, "train/extr_reward_std": 0.22741451502685817, "train/image_loss_mean": 3.239811039306748, "train/image_loss_std": 8.585963652167521, "train/model_loss_mean": 6.470971698492345, "train/model_loss_std": 12.783939415300397, "train/model_opt_grad_norm": 29.95823909866978, "train/model_opt_grad_steps": 295645.94366197183, "train/model_opt_loss": 16990.947114326584, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2640.845070422535, "train/policy_entropy_mag": 2.6388366994723467, "train/policy_entropy_max": 2.6388366994723467, "train/policy_entropy_mean": 0.4184447489154171, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5879058241844177, "train/policy_logprob_mag": 7.43838429115188, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41863289244577917, "train/policy_logprob_min": -7.43838429115188, "train/policy_logprob_std": 1.0308619359849205, "train/policy_randomness_mag": 0.9313935536733815, "train/policy_randomness_max": 0.9313935536733815, "train/policy_randomness_mean": 0.14769263439615007, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2075049565501616, "train/post_ent_mag": 54.91924022620832, "train/post_ent_max": 54.91924022620832, "train/post_ent_mean": 40.806046015779735, "train/post_ent_min": 19.216823900249643, "train/post_ent_std": 5.652339102516712, "train/prior_ent_mag": 76.68367960755255, "train/prior_ent_max": 76.68367960755255, "train/prior_ent_mean": 46.10194515174543, "train/prior_ent_min": 28.433409999793685, "train/prior_ent_std": 7.493456289801799, "train/rep_loss_mean": 5.2950310707092285, "train/rep_loss_std": 8.826072430946457, "train/reward_avg": 0.03734732602893467, "train/reward_loss_mean": 0.05385743913201379, "train/reward_loss_std": 0.21089539750361105, "train/reward_max_data": 1.0267605697604971, "train/reward_max_pred": 1.0295553375297868, "train/reward_neg_acc": 0.9943583456563277, "train/reward_neg_loss": 0.02441146908144296, "train/reward_pos_acc": 0.9893356771536277, "train/reward_pos_loss": 0.7263970232345689, "train/reward_pred": 0.0371147706632463, "train/reward_rate": 0.0420747139084507, "stats/sum_log_reward": 8.988889164394802, "stats/max_log_achievement_collect_coal": 0.7777777777777778, "stats/max_log_achievement_collect_drink": 1.4444444444444444, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.1111111111111112, "stats/max_log_achievement_collect_stone": 14.666666666666666, "stats/max_log_achievement_collect_wood": 8.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.2222222222222222, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.111111111111111, "stats/max_log_achievement_place_plant": 0.8888888888888888, "stats/max_log_achievement_place_stone": 4.555555555555555, "stats/max_log_achievement_place_table": 2.3333333333333335, "stats/max_log_achievement_wake_up": 1.1111111111111112, "stats/mean_log_entropy": 0.3027869843774372, "replay/size": 593510.0, "replay/inserts": 1418.0, "replay/samples": 11344.0, "replay/insert_wait_avg": 3.0429474221298154e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4287250166383214e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1930465698242, "timer/env.step_count": 1418.0, "timer/env.step_total": 21.51976251602173, "timer/env.step_frac": 0.07168641233339254, "timer/env.step_avg": 0.015176137176319977, "timer/env.step_min": 0.0028421878814697266, "timer/env.step_max": 1.5969111919403076, "timer/replay.add_count": 1418.0, "timer/replay.add_total": 0.3564455509185791, "timer/replay.add_frac": 0.0011873877659443744, "timer/replay.add_avg": 0.00025137203872960446, "timer/replay.add_min": 5.841255187988281e-05, "timer/replay.add_max": 0.09334206581115723, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022857666015625, "timer/logger.write_frac": 7.614322275885347e-05, "timer/logger.write_avg": 0.022857666015625, "timer/logger.write_min": 0.022857666015625, "timer/logger.write_max": 0.022857666015625, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002853870391845703, "timer/checkpoint.save_frac": 9.506783799477178e-07, "timer/checkpoint.save_avg": 0.0002853870391845703, "timer/checkpoint.save_min": 0.0002853870391845703, "timer/checkpoint.save_max": 0.0002853870391845703, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4780879020690918, "timer/agent.save_frac": 0.004923791270179511, "timer/agent.save_avg": 1.4780879020690918, "timer/agent.save_min": 1.4780879020690918, "timer/agent.save_max": 1.4780879020690918, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.320808410644531e-05, "timer/replay.save_frac": 2.771819169605293e-07, "timer/replay.save_avg": 8.320808410644531e-05, "timer/replay.save_min": 8.320808410644531e-05, "timer/replay.save_max": 8.320808410644531e-05, "timer/agent.policy_count": 1418.0, "timer/agent.policy_total": 14.81853175163269, "timer/agent.policy_frac": 0.04936334109319862, "timer/agent.policy_avg": 0.010450304479289626, "timer/agent.policy_min": 0.006134033203125, "timer/agent.policy_max": 2.829460620880127, "timer/dataset_count": 709.0, "timer/dataset_total": 0.05721902847290039, "timer/dataset_frac": 0.00019060744120064544, "timer/dataset_avg": 8.070384833977488e-05, "timer/dataset_min": 6.079673767089844e-05, "timer/dataset_max": 0.0001666545867919922, "timer/agent.train_count": 709.0, "timer/agent.train_total": 262.7783246040344, "timer/agent.train_frac": 0.8753644616578845, "timer/agent.train_avg": 0.3706323337151402, "timer/agent.train_min": 0.363314151763916, "timer/agent.train_max": 0.3835752010345459, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22165393829345703, "timer/agent.report_frac": 0.0007383713274714404, "timer/agent.report_avg": 0.22165393829345703, "timer/agent.report_min": 0.22165393829345703, "timer/agent.report_max": 0.22165393829345703, "fps": 4.723546510196262}
{"step": 593732, "episode/length": 197.0, "episode/score": 10.099999964237213, "episode/sum_abs_reward": 12.099999994039536, "episode/reward_rate": 0.05555555555555555}
{"step": 593937, "episode/length": 204.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.06341463414634146}
{"step": 594206, "episode/length": 268.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.03345724907063197}
{"step": 594513, "episode/length": 306.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.04234527687296417}
{"step": 594678, "episode/length": 164.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 11.10000005364418, "episode/reward_rate": 0.05454545454545454}
{"step": 594906, "episode/length": 227.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.500000022351742, "episode/reward_rate": 0.03508771929824561}
{"step": 595041, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.50400770032728, "train/action_min": 0.0, "train/action_std": 3.377523412575593, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04215436778660562, "train/actor_opt_grad_steps": 296605.0, "train/actor_opt_loss": -12.671380705124623, "train/adv_mag": 0.408753262581052, "train/adv_max": 0.36459547120171626, "train/adv_mean": 0.002183598699638104, "train/adv_min": -0.342158345757304, "train/adv_std": 0.047728111262659766, "train/cont_avg": 0.9945101351351351, "train/cont_loss_mean": 3.397221203419724e-05, "train/cont_loss_std": 0.0009204935054247078, "train/cont_neg_acc": 0.9983108108108109, "train/cont_neg_loss": 0.0037021179929719915, "train/cont_pos_acc": 0.9999999814742321, "train/cont_pos_loss": 8.408554104771366e-06, "train/cont_pred": 0.994520501510517, "train/cont_rate": 0.9945101351351351, "train/dyn_loss_mean": 5.361606855650206, "train/dyn_loss_std": 8.816102156767974, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.066395402760119, "train/extr_critic_critic_opt_grad_steps": 296605.0, "train/extr_critic_critic_opt_loss": 16196.396326013513, "train/extr_critic_mag": 11.094264210881414, "train/extr_critic_max": 11.094264210881414, "train/extr_critic_mean": 2.9453242936649837, "train/extr_critic_min": -0.504684329032898, "train/extr_critic_std": 2.80475964739516, "train/extr_return_normed_mag": 1.4272458714407843, "train/extr_return_normed_max": 1.4272458714407843, "train/extr_return_normed_mean": 0.37071294256964243, "train/extr_return_normed_min": -0.08302190084312414, "train/extr_return_normed_std": 0.3371215108278635, "train/extr_return_rate": 0.7242302242163066, "train/extr_return_raw_mag": 11.858271263741159, "train/extr_return_raw_max": 11.858271263741159, "train/extr_return_raw_mean": 2.9637036307438, "train/extr_return_raw_min": -0.8559296541922802, "train/extr_return_raw_std": 2.8381746685182727, "train/extr_reward_mag": 1.056339499112722, "train/extr_reward_max": 1.056339499112722, "train/extr_reward_mean": 0.056154549021173165, "train/extr_reward_min": -0.6682044767044686, "train/extr_reward_std": 0.22878030969484434, "train/image_loss_mean": 3.293693054366756, "train/image_loss_std": 8.638749863650348, "train/model_loss_mean": 6.565105837744635, "train/model_loss_std": 12.768450917424383, "train/model_opt_grad_norm": 24.557464599609375, "train/model_opt_grad_steps": 296369.24324324325, "train/model_opt_loss": 10245.806970544763, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1554.054054054054, "train/policy_entropy_mag": 2.6613881298013635, "train/policy_entropy_max": 2.6613881298013635, "train/policy_entropy_mean": 0.4292830955740568, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6052672858979251, "train/policy_logprob_mag": 7.438384242959924, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4292126533550185, "train/policy_logprob_min": -7.438384242959924, "train/policy_logprob_std": 1.0400724378792015, "train/policy_randomness_mag": 0.9393532179497384, "train/policy_randomness_max": 0.9393532179497384, "train/policy_randomness_mean": 0.151518095788118, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21363278971733274, "train/post_ent_mag": 55.16203715350177, "train/post_ent_max": 55.16203715350177, "train/post_ent_mean": 40.82411817602209, "train/post_ent_min": 19.337037692198884, "train/post_ent_std": 5.688397259325595, "train/prior_ent_mag": 76.57143628919447, "train/prior_ent_max": 76.57143628919447, "train/prior_ent_mean": 46.17813553681245, "train/prior_ent_min": 28.259876972920186, "train/prior_ent_std": 7.535533724604426, "train/rep_loss_mean": 5.361606855650206, "train/rep_loss_std": 8.816102156767974, "train/reward_avg": 0.03791041999451212, "train/reward_loss_mean": 0.054414666987754205, "train/reward_loss_std": 0.21491482149104815, "train/reward_max_data": 1.0270270334707725, "train/reward_max_pred": 1.0215081169798568, "train/reward_neg_acc": 0.9938732232596423, "train/reward_neg_loss": 0.024410614202654845, "train/reward_pos_acc": 0.9897323460192293, "train/reward_pos_loss": 0.7267129904515034, "train/reward_pred": 0.037539119404312725, "train/reward_rate": 0.042638830236486486, "stats/sum_log_reward": 9.599999984105429, "stats/max_log_achievement_collect_coal": 1.3333333333333333, "stats/max_log_achievement_collect_drink": 5.666666666666667, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 11.166666666666666, "stats/max_log_achievement_collect_wood": 10.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.6666666666666666, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.3333333333333333, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 2.5, "stats/max_log_achievement_place_table": 2.6666666666666665, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.4604768753051758, "replay/size": 594978.0, "replay/inserts": 1468.0, "replay/samples": 11744.0, "replay/insert_wait_avg": 3.002644884488888e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4769202681913037e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.00761914253235, "timer/env.step_count": 1468.0, "timer/env.step_total": 16.944589376449585, "timer/env.step_frac": 0.05648053014413371, "timer/env.step_avg": 0.011542635815020153, "timer/env.step_min": 0.002635478973388672, "timer/env.step_max": 1.5600013732910156, "timer/replay.add_count": 1468.0, "timer/replay.add_total": 0.26719212532043457, "timer/replay.add_frac": 0.0008906177985882843, "timer/replay.add_avg": 0.00018201098455070474, "timer/replay.add_min": 5.8650970458984375e-05, "timer/replay.add_max": 0.0007722377777099609, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023543357849121094, "timer/logger.write_frac": 7.84758664343646e-05, "timer/logger.write_avg": 0.023543357849121094, "timer/logger.write_min": 0.023543357849121094, "timer/logger.write_max": 0.023543357849121094, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1468.0, "timer/agent.policy_total": 10.861713171005249, "timer/agent.policy_frac": 0.03620479107180573, "timer/agent.policy_avg": 0.007398987173709298, "timer/agent.policy_min": 0.006063222885131836, "timer/agent.policy_max": 0.01539921760559082, "timer/dataset_count": 734.0, "timer/dataset_total": 0.058919668197631836, "timer/dataset_frac": 0.00019639390614822801, "timer/dataset_avg": 8.027202751720959e-05, "timer/dataset_min": 5.650520324707031e-05, "timer/dataset_max": 0.0001354217529296875, "timer/agent.train_count": 734.0, "timer/agent.train_total": 271.2209310531616, "timer/agent.train_frac": 0.9040468099722018, "timer/agent.train_avg": 0.369510805249539, "timer/agent.train_min": 0.36168384552001953, "timer/agent.train_max": 0.3835299015045166, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22126126289367676, "timer/agent.report_frac": 0.00073751881210909, "timer/agent.report_avg": 0.22126126289367676, "timer/agent.report_min": 0.22126126289367676, "timer/agent.report_max": 0.22126126289367676, "fps": 4.893098818373331}
{"step": 595146, "episode/length": 239.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 14.700000062584877, "episode/reward_rate": 0.05}
{"step": 595418, "episode/length": 271.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.03676470588235294}
{"step": 595584, "episode/length": 165.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.06626506024096386}
{"step": 595875, "episode/length": 290.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.044673539518900345}
{"step": 596080, "episode/length": 204.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.05853658536585366}
{"step": 596253, "episode/length": 172.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.099999994039536, "episode/reward_rate": 0.06936416184971098}
{"step": 596409, "episode/length": 155.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.299999997019768, "episode/reward_rate": 0.0641025641025641}
{"step": 596497, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.543796963161892, "train/action_min": 0.0, "train/action_std": 3.422546101941003, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04168040230352846, "train/actor_opt_grad_steps": 297335.0, "train/actor_opt_loss": -13.594586464679903, "train/adv_mag": 0.43630587350991035, "train/adv_max": 0.39051081488529843, "train/adv_mean": 0.001329341907295303, "train/adv_min": -0.3853060650742716, "train/adv_std": 0.047560840689887605, "train/cont_avg": 0.9946695963541666, "train/cont_loss_mean": 1.7955736387224402e-05, "train/cont_loss_std": 0.0005248506574828424, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 6.872458851366521e-05, "train/cont_pos_acc": 0.999999982615312, "train/cont_pos_loss": 1.772927536287167e-05, "train/cont_pred": 0.9946540196736654, "train/cont_rate": 0.9946695963541666, "train/dyn_loss_mean": 5.2806320819589825, "train/dyn_loss_std": 8.806716117593977, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0581583637330267, "train/extr_critic_critic_opt_grad_steps": 297335.0, "train/extr_critic_critic_opt_loss": 16162.617933485242, "train/extr_critic_mag": 11.236073546939426, "train/extr_critic_max": 11.236073546939426, "train/extr_critic_mean": 2.8949752185079785, "train/extr_critic_min": -0.46431615120834774, "train/extr_critic_std": 2.756527543067932, "train/extr_return_normed_mag": 1.4517675952778921, "train/extr_return_normed_max": 1.4517675952778921, "train/extr_return_normed_mean": 0.3629632426632775, "train/extr_return_normed_min": -0.08164313469185597, "train/extr_return_normed_std": 0.3305426645610068, "train/extr_return_rate": 0.7312473249104288, "train/extr_return_raw_mag": 12.072329865561592, "train/extr_return_raw_max": 12.072329865561592, "train/extr_return_raw_mean": 2.9061830970976086, "train/extr_return_raw_min": -0.8359494478338294, "train/extr_return_raw_std": 2.782455258899265, "train/extr_reward_mag": 1.0529253515932295, "train/extr_reward_max": 1.0529253515932295, "train/extr_reward_mean": 0.05366324198742708, "train/extr_reward_min": -0.6671114630169339, "train/extr_reward_std": 0.2236618763870663, "train/image_loss_mean": 3.1456868714756436, "train/image_loss_std": 7.89773432413737, "train/model_loss_mean": 6.366792367564307, "train/model_loss_std": 12.056640889909533, "train/model_opt_grad_norm": 29.665128469467163, "train/model_opt_grad_steps": 297099.0, "train/model_opt_loss": 11037.946451822916, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1736.111111111111, "train/policy_entropy_mag": 2.6797992951340146, "train/policy_entropy_max": 2.6797992951340146, "train/policy_entropy_mean": 0.44018192278842133, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6257593793173631, "train/policy_logprob_mag": 7.438384221659766, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4404189323799478, "train/policy_logprob_min": -7.438384221659766, "train/policy_logprob_std": 1.0557346882091627, "train/policy_randomness_mag": 0.9458515528175566, "train/policy_randomness_max": 0.9458515528175566, "train/policy_randomness_mean": 0.15536490134480926, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22086559939715597, "train/post_ent_mag": 55.094874699910484, "train/post_ent_max": 55.094874699910484, "train/post_ent_mean": 40.717967404259575, "train/post_ent_min": 19.333907498253716, "train/post_ent_std": 5.686599069171482, "train/prior_ent_mag": 76.61428324381511, "train/prior_ent_max": 76.61428324381511, "train/prior_ent_mean": 46.02155065536499, "train/prior_ent_min": 28.490142345428467, "train/prior_ent_std": 7.544072098202175, "train/rep_loss_mean": 5.2806320819589825, "train/rep_loss_std": 8.806716117593977, "train/reward_avg": 0.03716634074226022, "train/reward_loss_mean": 0.052708318612227835, "train/reward_loss_std": 0.20408600651555592, "train/reward_max_data": 1.027777784400516, "train/reward_max_pred": 1.0218634688191943, "train/reward_neg_acc": 0.9942660025424428, "train/reward_neg_loss": 0.022603959595370624, "train/reward_pos_acc": 0.985954724252224, "train/reward_pos_loss": 0.7406923613614507, "train/reward_pred": 0.0365135554327733, "train/reward_rate": 0.04197862413194445, "stats/sum_log_reward": 10.242857251848493, "stats/max_log_achievement_collect_coal": 0.2857142857142857, "stats/max_log_achievement_collect_drink": 2.7142857142857144, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.2857142857142856, "stats/max_log_achievement_collect_stone": 8.428571428571429, "stats/max_log_achievement_collect_wood": 8.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.7142857142857143, "stats/max_log_achievement_place_furnace": 0.8571428571428571, "stats/max_log_achievement_place_plant": 2.142857142857143, "stats/max_log_achievement_place_stone": 3.857142857142857, "stats/max_log_achievement_place_table": 2.4285714285714284, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.3572358936071396, "replay/size": 596434.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.1410337804437993e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4424037474852341e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1344232559204, "timer/env.step_count": 1456.0, "timer/env.step_total": 18.874101638793945, "timer/env.step_frac": 0.0628854945528866, "timer/env.step_avg": 0.01296298189477606, "timer/env.step_min": 0.0027184486389160156, "timer/env.step_max": 1.725961446762085, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.2643435001373291, "timer/replay.add_frac": 0.0008807503560227315, "timer/replay.add_avg": 0.00018155460174267108, "timer/replay.add_min": 6.198883056640625e-05, "timer/replay.add_max": 0.0009541511535644531, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0283203125, "timer/logger.write_frac": 9.43587616267917e-05, "timer/logger.write_avg": 0.0283203125, "timer/logger.write_min": 0.0283203125, "timer/logger.write_max": 0.0283203125, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 10.809114933013916, "timer/agent.policy_frac": 0.03601424593605224, "timer/agent.policy_avg": 0.007423842673773294, "timer/agent.policy_min": 0.005952119827270508, "timer/agent.policy_max": 0.016977548599243164, "timer/dataset_count": 728.0, "timer/dataset_total": 0.05945897102355957, "timer/dataset_frac": 0.00019810780242578087, "timer/dataset_avg": 8.167441074664776e-05, "timer/dataset_min": 5.9604644775390625e-05, "timer/dataset_max": 0.00024390220642089844, "timer/agent.train_count": 728.0, "timer/agent.train_total": 269.4586193561554, "timer/agent.train_frac": 0.8977931169407776, "timer/agent.train_avg": 0.37013546614856513, "timer/agent.train_min": 0.36237239837646484, "timer/agent.train_max": 0.3854224681854248, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22041559219360352, "timer/agent.report_frac": 0.000734389577185081, "timer/agent.report_avg": 0.22041559219360352, "timer/agent.report_min": 0.22041559219360352, "timer/agent.report_max": 0.22041559219360352, "fps": 4.851051268433309}
{"step": 596588, "episode/length": 178.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.061452513966480445}
{"step": 596863, "episode/length": 274.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.04727272727272727}
{"step": 597091, "episode/length": 227.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.043859649122807015}
{"step": 597235, "episode/length": 143.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.08333333333333333}
{"step": 597369, "episode/length": 133.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.300000041723251, "episode/reward_rate": 0.08208955223880597}
{"step": 597526, "episode/length": 156.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 13.299999982118607, "episode/reward_rate": 0.08280254777070063}
{"step": 597702, "episode/length": 175.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.100000038743019, "episode/reward_rate": 0.06818181818181818}
{"step": 597880, "episode/length": 177.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.056179775280898875}
{"step": 597943, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.578020487746147, "train/action_min": 0.0, "train/action_std": 3.425276406823772, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04293054204485188, "train/actor_opt_grad_steps": 298060.0, "train/actor_opt_loss": -13.073743723843195, "train/adv_mag": 0.43658216297626495, "train/adv_max": 0.3952096367943777, "train/adv_mean": 0.0023872466938895465, "train/adv_min": -0.3618304078301338, "train/adv_std": 0.04780037318394609, "train/cont_avg": 0.9950101669520548, "train/cont_loss_mean": 0.0001361882700197803, "train/cont_loss_std": 0.004289982035479407, "train/cont_neg_acc": 0.9961948255970053, "train/cont_neg_loss": 0.01570918705635982, "train/cont_pos_acc": 0.999986568542376, "train/cont_pos_loss": 1.9802481339841924e-05, "train/cont_pred": 0.995022714138031, "train/cont_rate": 0.9950101669520548, "train/dyn_loss_mean": 5.107712399469663, "train/dyn_loss_std": 8.778931944337609, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0583376525199577, "train/extr_critic_critic_opt_grad_steps": 298060.0, "train/extr_critic_critic_opt_loss": 16290.334666630994, "train/extr_critic_mag": 11.031806161958878, "train/extr_critic_max": 11.031806161958878, "train/extr_critic_mean": 2.7919313727992856, "train/extr_critic_min": -0.49412718047834425, "train/extr_critic_std": 2.629070657573334, "train/extr_return_normed_mag": 1.4444773507444826, "train/extr_return_normed_max": 1.4444773507444826, "train/extr_return_normed_mean": 0.3561803980232918, "train/extr_return_normed_min": -0.07788180554770444, "train/extr_return_normed_std": 0.3201117658451812, "train/extr_return_rate": 0.7380503024140449, "train/extr_return_raw_mag": 11.86133386010993, "train/extr_return_raw_max": 11.86133386010993, "train/extr_return_raw_mean": 2.811794396949141, "train/extr_return_raw_min": -0.7973252481793704, "train/extr_return_raw_std": 2.662093936580501, "train/extr_reward_mag": 1.0562434719033438, "train/extr_reward_max": 1.0562434719033438, "train/extr_reward_mean": 0.054527767053613924, "train/extr_reward_min": -0.6636813993323339, "train/extr_reward_std": 0.2260744234878723, "train/image_loss_mean": 3.055118061091802, "train/image_loss_std": 8.098940463915262, "train/model_loss_mean": 6.171580909049674, "train/model_loss_std": 12.256313911856036, "train/model_opt_grad_norm": 27.393753169334097, "train/model_opt_grad_steps": 297823.98630136985, "train/model_opt_loss": 15428.95222870291, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6722156805534887, "train/policy_entropy_max": 2.6722156805534887, "train/policy_entropy_mean": 0.4267349514650972, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6094812591598459, "train/policy_logprob_mag": 7.438384284711864, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.42804315012611754, "train/policy_logprob_min": -7.438384284711864, "train/policy_logprob_std": 1.047182708570402, "train/policy_randomness_mag": 0.9431748684138468, "train/policy_randomness_max": 0.9431748684138468, "train/policy_randomness_mean": 0.1506187110526921, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21512013755432546, "train/post_ent_mag": 55.06069836551196, "train/post_ent_max": 55.06069836551196, "train/post_ent_mean": 40.8182277940724, "train/post_ent_min": 18.965144954315605, "train/post_ent_std": 5.69700277668156, "train/prior_ent_mag": 76.74216210352232, "train/prior_ent_max": 76.74216210352232, "train/prior_ent_mean": 45.931301900785265, "train/prior_ent_min": 28.598645510738844, "train/prior_ent_std": 7.483046185480405, "train/rep_loss_mean": 5.107712399469663, "train/rep_loss_std": 8.778931944337609, "train/reward_avg": 0.035738173974295184, "train/reward_loss_mean": 0.051699248333908106, "train/reward_loss_std": 0.20719340933512334, "train/reward_max_data": 1.0246575401253897, "train/reward_max_pred": 1.0213934852652353, "train/reward_neg_acc": 0.994460452092837, "train/reward_neg_loss": 0.023181908623608825, "train/reward_pos_acc": 0.987120559770767, "train/reward_pos_loss": 0.7343652591313401, "train/reward_pred": 0.03528821302501306, "train/reward_rate": 0.04026648116438356, "stats/sum_log_reward": 10.475000381469727, "stats/max_log_achievement_collect_coal": 2.125, "stats/max_log_achievement_collect_drink": 2.75, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.375, "stats/max_log_achievement_collect_stone": 13.125, "stats/max_log_achievement_collect_wood": 10.75, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 0.125, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.125, "stats/max_log_achievement_make_wood_sword": 1.125, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 1.125, "stats/max_log_achievement_place_stone": 4.375, "stats/max_log_achievement_place_table": 2.75, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.298098161816597, "replay/size": 597880.0, "replay/inserts": 1446.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.090373048478967e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.5261221063911997e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.16698837280273, "timer/env.step_count": 1446.0, "timer/env.step_total": 19.058969259262085, "timer/env.step_frac": 0.06349455468964209, "timer/env.step_avg": 0.013180476666156352, "timer/env.step_min": 0.002666950225830078, "timer/env.step_max": 1.4208929538726807, "timer/replay.add_count": 1446.0, "timer/replay.add_total": 0.3162722587585449, "timer/replay.add_frac": 0.0010536543690998414, "timer/replay.add_avg": 0.00021872217064906288, "timer/replay.add_min": 5.9604644775390625e-05, "timer/replay.add_max": 0.0008802413940429688, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.020459651947021484, "timer/logger.write_frac": 6.816089956438152e-05, "timer/logger.write_avg": 0.020459651947021484, "timer/logger.write_min": 0.020459651947021484, "timer/logger.write_max": 0.020459651947021484, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00020170211791992188, "timer/checkpoint.save_frac": 6.719663578374947e-07, "timer/checkpoint.save_avg": 0.00020170211791992188, "timer/checkpoint.save_min": 0.00020170211791992188, "timer/checkpoint.save_max": 0.00020170211791992188, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2809982299804688, "timer/agent.save_frac": 0.004267618624302179, "timer/agent.save_avg": 1.2809982299804688, "timer/agent.save_min": 1.2809982299804688, "timer/agent.save_max": 1.2809982299804688, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.130073547363281e-05, "timer/replay.save_frac": 2.7085168796995945e-07, "timer/replay.save_avg": 8.130073547363281e-05, "timer/replay.save_min": 8.130073547363281e-05, "timer/replay.save_max": 8.130073547363281e-05, "timer/agent.policy_count": 1446.0, "timer/agent.policy_total": 14.200974702835083, "timer/agent.policy_frac": 0.04731024813827193, "timer/agent.policy_avg": 0.009820867705971703, "timer/agent.policy_min": 0.005933284759521484, "timer/agent.policy_max": 2.312936305999756, "timer/dataset_count": 723.0, "timer/dataset_total": 0.0584869384765625, "timer/dataset_frac": 0.00019484800375157388, "timer/dataset_avg": 8.089479733964384e-05, "timer/dataset_min": 6.151199340820312e-05, "timer/dataset_max": 0.00013828277587890625, "timer/agent.train_count": 723.0, "timer/agent.train_total": 265.88667154312134, "timer/agent.train_frac": 0.8857958464536221, "timer/agent.train_avg": 0.36775473242478746, "timer/agent.train_min": 0.3607478141784668, "timer/agent.train_max": 0.5137660503387451, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22367477416992188, "timer/agent.report_frac": 0.0007451677993721324, "timer/agent.report_avg": 0.22367477416992188, "timer/agent.report_min": 0.22367477416992188, "timer/agent.report_max": 0.22367477416992188, "fps": 4.8172085300673455}
{"step": 598152, "episode/length": 271.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.04779411764705882}
{"step": 598292, "episode/length": 139.0, "episode/score": 7.099999971687794, "episode/sum_abs_reward": 9.100000031292439, "episode/reward_rate": 0.06428571428571428}
{"step": 598452, "episode/length": 159.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06875}
{"step": 598657, "episode/length": 204.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.05853658536585366}
{"step": 598886, "episode/length": 228.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.034934497816593885}
{"step": 599121, "episode/length": 234.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 11.899999991059303, "episode/reward_rate": 0.05106382978723404}
{"step": 599251, "episode/length": 129.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 9.899999976158142, "episode/reward_rate": 0.07692307692307693}
{"step": 599411, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.597830994488442, "train/action_min": 0.0, "train/action_std": 3.5011477241777396, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04296114760106557, "train/actor_opt_grad_steps": 298790.0, "train/actor_opt_loss": -13.375414170630991, "train/adv_mag": 0.4283375609410952, "train/adv_max": 0.3819847592752274, "train/adv_mean": 0.0020163737895827955, "train/adv_min": -0.3768776242863642, "train/adv_std": 0.04858757708578894, "train/cont_avg": 0.9948228809931506, "train/cont_loss_mean": 2.259210015499705e-05, "train/cont_loss_std": 0.0007125768436796692, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 6.316708372464309e-06, "train/cont_pos_acc": 0.9999865130202411, "train/cont_pos_loss": 2.2702838268300298e-05, "train/cont_pred": 0.9948069240948926, "train/cont_rate": 0.9948228809931506, "train/dyn_loss_mean": 5.098858421795989, "train/dyn_loss_std": 8.786753752460218, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0415939108966148, "train/extr_critic_critic_opt_grad_steps": 298790.0, "train/extr_critic_critic_opt_loss": 16152.888377568494, "train/extr_critic_mag": 10.986358093888793, "train/extr_critic_max": 10.986358093888793, "train/extr_critic_mean": 2.8750883144875097, "train/extr_critic_min": -0.49743645158532546, "train/extr_critic_std": 2.6540218281419308, "train/extr_return_normed_mag": 1.4267529853402752, "train/extr_return_normed_max": 1.4267529853402752, "train/extr_return_normed_mean": 0.3670819148625413, "train/extr_return_normed_min": -0.08108585720805273, "train/extr_return_normed_std": 0.3241412774340747, "train/extr_return_rate": 0.7478310939383833, "train/extr_return_raw_mag": 11.676563132299135, "train/extr_return_raw_max": 11.676563132299135, "train/extr_return_raw_mean": 2.891793290229693, "train/extr_return_raw_min": -0.824162242347247, "train/extr_return_raw_std": 2.6873266860230327, "train/extr_reward_mag": 1.060815638058806, "train/extr_reward_max": 1.060815638058806, "train/extr_reward_mean": 0.05621085841565916, "train/extr_reward_min": -0.6213889530260269, "train/extr_reward_std": 0.22874605165768977, "train/image_loss_mean": 3.1805625272123783, "train/image_loss_std": 8.248532843916383, "train/model_loss_mean": 6.293426343839463, "train/model_loss_std": 12.399518470241599, "train/model_opt_grad_norm": 27.610950208690067, "train/model_opt_grad_steps": 298553.0, "train/model_opt_loss": 15733.56587114726, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.674930209982885, "train/policy_entropy_max": 2.674930209982885, "train/policy_entropy_mean": 0.425595444155066, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6152109969152163, "train/policy_logprob_mag": 7.438384245519769, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.42536053510561384, "train/policy_logprob_min": -7.438384245519769, "train/policy_logprob_std": 1.0438121230634925, "train/policy_randomness_mag": 0.9441329755195199, "train/policy_randomness_max": 0.9441329755195199, "train/policy_randomness_mean": 0.15021651360678345, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2171424850821495, "train/post_ent_mag": 55.22664705041337, "train/post_ent_max": 55.22664705041337, "train/post_ent_mean": 40.923438189780875, "train/post_ent_min": 18.79518753208526, "train/post_ent_std": 5.710314064809721, "train/prior_ent_mag": 76.57933723763244, "train/prior_ent_max": 76.57933723763244, "train/prior_ent_mean": 45.98336326912658, "train/prior_ent_min": 28.498638074691982, "train/prior_ent_std": 7.46839129434873, "train/rep_loss_mean": 5.098858421795989, "train/rep_loss_std": 8.786753752460218, "train/reward_avg": 0.037792968372367834, "train/reward_loss_mean": 0.05352616896980429, "train/reward_loss_std": 0.2118165125585582, "train/reward_max_data": 1.028767130146288, "train/reward_max_pred": 1.025939115106243, "train/reward_neg_acc": 0.9943513315017909, "train/reward_neg_loss": 0.023538220967229916, "train/reward_pos_acc": 0.9908247998315994, "train/reward_pos_loss": 0.7322448663515587, "train/reward_pred": 0.03736421014246059, "train/reward_rate": 0.042447024828767124, "stats/sum_log_reward": 9.385714530944824, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 10.571428571428571, "stats/max_log_achievement_collect_wood": 11.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.14285714285714285, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.2857142857142858, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 2.7142857142857144, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.47851893518652233, "replay/size": 599348.0, "replay/inserts": 1468.0, "replay/samples": 11744.0, "replay/insert_wait_avg": 3.06858353783714e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4720073512854303e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.15922355651855, "timer/env.step_count": 1468.0, "timer/env.step_total": 17.722979068756104, "timer/env.step_frac": 0.05904525890879029, "timer/env.step_avg": 0.012072874025038217, "timer/env.step_min": 0.00255584716796875, "timer/env.step_max": 1.5810997486114502, "timer/replay.add_count": 1468.0, "timer/replay.add_total": 0.2713799476623535, "timer/replay.add_frac": 0.0009041199682183145, "timer/replay.add_avg": 0.0001848637245656359, "timer/replay.add_min": 6.079673767089844e-05, "timer/replay.add_max": 0.0008389949798583984, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022265911102294922, "timer/logger.write_frac": 7.418033281959885e-05, "timer/logger.write_avg": 0.022265911102294922, "timer/logger.write_min": 0.022265911102294922, "timer/logger.write_max": 0.022265911102294922, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1468.0, "timer/agent.policy_total": 10.682671308517456, "timer/agent.policy_frac": 0.0355900151324384, "timer/agent.policy_avg": 0.0072770240521236075, "timer/agent.policy_min": 0.0059206485748291016, "timer/agent.policy_max": 0.01744699478149414, "timer/dataset_count": 734.0, "timer/dataset_total": 0.06053733825683594, "timer/dataset_frac": 0.00020168408466527448, "timer/dataset_avg": 8.247593767961299e-05, "timer/dataset_min": 6.151199340820312e-05, "timer/dataset_max": 0.00020623207092285156, "timer/agent.train_count": 734.0, "timer/agent.train_total": 270.76433277130127, "timer/agent.train_frac": 0.9020690071192087, "timer/agent.train_avg": 0.36888873674564204, "timer/agent.train_min": 0.36119747161865234, "timer/agent.train_max": 0.3838839530944824, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22187399864196777, "timer/agent.report_frac": 0.0007391876751713077, "timer/agent.report_avg": 0.22187399864196777, "timer/agent.report_min": 0.22187399864196777, "timer/agent.report_max": 0.22187399864196777, "fps": 4.8906716979217135}
{"step": 599427, "episode/length": 175.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.05113636363636364}
{"step": 599598, "episode/length": 170.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.07602339181286549}
{"step": 599759, "episode/length": 160.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.06832298136645963}
{"step": 599871, "episode/length": 111.0, "episode/score": 8.100000038743019, "episode/sum_abs_reward": 9.899999991059303, "episode/reward_rate": 0.08928571428571429}
{"step": 600069, "episode/length": 197.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.05555555555555555}
{"step": 600271, "episode/length": 201.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.100000001490116, "episode/reward_rate": 0.0594059405940594}
{"step": 600426, "episode/length": 154.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03870967741935484}
{"step": 600612, "episode/length": 185.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.05913978494623656}
{"step": 600722, "episode/length": 109.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.1}
{"step": 600866, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.545639247110445, "train/action_min": 0.0, "train/action_std": 3.4739829873385495, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04108329193845187, "train/actor_opt_grad_steps": 299520.0, "train/actor_opt_loss": -13.801488476256802, "train/adv_mag": 0.4293032190571093, "train/adv_max": 0.37688349779338054, "train/adv_mean": 0.0017004607286988374, "train/adv_min": -0.37071370956015914, "train/adv_std": 0.04653321589304976, "train/cont_avg": 0.9951706977739726, "train/cont_loss_mean": 3.1500125169687535e-05, "train/cont_loss_std": 0.0009298638107563034, "train/cont_neg_acc": 0.9972222223877907, "train/cont_neg_loss": 0.002979411271273275, "train/cont_pos_acc": 0.9999999853029643, "train/cont_pos_loss": 1.689475289078414e-05, "train/cont_pred": 0.9951664233860904, "train/cont_rate": 0.9951706977739726, "train/dyn_loss_mean": 5.201982635341278, "train/dyn_loss_std": 8.775929947421975, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.039405791726831, "train/extr_critic_critic_opt_grad_steps": 299520.0, "train/extr_critic_critic_opt_loss": 16217.228515625, "train/extr_critic_mag": 11.03372823375545, "train/extr_critic_max": 11.03372823375545, "train/extr_critic_mean": 2.7309610484397573, "train/extr_critic_min": -0.5182576489775148, "train/extr_critic_std": 2.649316271690473, "train/extr_return_normed_mag": 1.432289422374882, "train/extr_return_normed_max": 1.432289422374882, "train/extr_return_normed_mean": 0.3500031541063361, "train/extr_return_normed_min": -0.08556843482672352, "train/extr_return_normed_std": 0.32238415455164976, "train/extr_return_rate": 0.7269843775932103, "train/extr_return_raw_mag": 11.736847903630505, "train/extr_return_raw_max": 11.736847903630505, "train/extr_return_raw_mean": 2.74504564559623, "train/extr_return_raw_min": -0.8721559937686136, "train/extr_return_raw_std": 2.6779809161408306, "train/extr_reward_mag": 1.0547501648942086, "train/extr_reward_max": 1.0547501648942086, "train/extr_reward_mean": 0.05278850897942504, "train/extr_reward_min": -0.653039914287933, "train/extr_reward_std": 0.22288210159295227, "train/image_loss_mean": 3.13718219325967, "train/image_loss_std": 8.212818544204922, "train/model_loss_mean": 6.311112514913899, "train/model_loss_std": 12.349942364104807, "train/model_opt_grad_norm": 26.87273730970409, "train/model_opt_grad_steps": 299282.4520547945, "train/model_opt_loss": 17411.661065924658, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2739.72602739726, "train/policy_entropy_mag": 2.683543956443055, "train/policy_entropy_max": 2.683543956443055, "train/policy_entropy_mean": 0.4478326782788316, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6383024601087178, "train/policy_logprob_mag": 7.438384278179848, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4468564468703858, "train/policy_logprob_min": -7.438384278179848, "train/policy_logprob_std": 1.0584856271743774, "train/policy_randomness_mag": 0.9471732524976338, "train/policy_randomness_max": 0.9471732524976338, "train/policy_randomness_mean": 0.158065283543443, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22529275797001302, "train/post_ent_mag": 54.73984532813503, "train/post_ent_max": 54.73984532813503, "train/post_ent_mean": 40.95402971032548, "train/post_ent_min": 19.30721755876933, "train/post_ent_std": 5.6752470160183845, "train/prior_ent_mag": 76.59980146852259, "train/prior_ent_max": 76.59980146852259, "train/prior_ent_mean": 46.147649164069186, "train/prior_ent_min": 28.425785195337582, "train/prior_ent_std": 7.417770392274203, "train/rep_loss_mean": 5.201982635341278, "train/rep_loss_std": 8.775929947421975, "train/reward_avg": 0.037241812820916306, "train/reward_loss_mean": 0.052709253479356635, "train/reward_loss_std": 0.20388690596573975, "train/reward_max_data": 1.0273972668059885, "train/reward_max_pred": 1.0274600362124509, "train/reward_neg_acc": 0.9939542690368548, "train/reward_neg_loss": 0.023380913860993842, "train/reward_pos_acc": 0.9892593810003097, "train/reward_pos_loss": 0.727747235396137, "train/reward_pred": 0.036969069417004716, "train/reward_rate": 0.04159086044520548, "stats/sum_log_reward": 9.10000032848782, "stats/max_log_achievement_collect_coal": 0.4444444444444444, "stats/max_log_achievement_collect_drink": 2.2222222222222223, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.4444444444444444, "stats/max_log_achievement_collect_stone": 9.555555555555555, "stats/max_log_achievement_collect_wood": 8.11111111111111, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.2222222222222222, "stats/max_log_achievement_eat_cow": 0.1111111111111111, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.8888888888888888, "stats/max_log_achievement_make_wood_sword": 0.8888888888888888, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.1111111111111112, "stats/max_log_achievement_place_stone": 3.111111111111111, "stats/max_log_achievement_place_table": 1.7777777777777777, "stats/max_log_achievement_wake_up": 1.2222222222222223, "stats/mean_log_entropy": 0.29107031060589683, "replay/size": 600803.0, "replay/inserts": 1455.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.0235736230804337e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.507148946003868e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0018720626831, "timer/env.step_count": 1455.0, "timer/env.step_total": 20.234238386154175, "timer/env.step_frac": 0.06744704040355583, "timer/env.step_avg": 0.013906693048903213, "timer/env.step_min": 0.002724170684814453, "timer/env.step_max": 1.463895559310913, "timer/replay.add_count": 1455.0, "timer/replay.add_total": 0.25688624382019043, "timer/replay.add_frac": 0.0008562821360211913, "timer/replay.add_avg": 0.0001765541194640484, "timer/replay.add_min": 5.984306335449219e-05, "timer/replay.add_max": 0.0008933544158935547, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021170377731323242, "timer/logger.write_frac": 7.056748541522385e-05, "timer/logger.write_avg": 0.021170377731323242, "timer/logger.write_min": 0.021170377731323242, "timer/logger.write_max": 0.021170377731323242, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1455.0, "timer/agent.policy_total": 10.644135236740112, "timer/agent.policy_frac": 0.03548022938508898, "timer/agent.policy_avg": 0.0073155568637389085, "timer/agent.policy_min": 0.0060482025146484375, "timer/agent.policy_max": 0.016805648803710938, "timer/dataset_count": 727.0, "timer/dataset_total": 0.059671640396118164, "timer/dataset_frac": 0.00019890422678312564, "timer/dataset_avg": 8.207928527664122e-05, "timer/dataset_min": 5.936622619628906e-05, "timer/dataset_max": 0.00019168853759765625, "timer/agent.train_count": 727.0, "timer/agent.train_total": 268.15052604675293, "timer/agent.train_frac": 0.8938295091396127, "timer/agent.train_avg": 0.3688452902981471, "timer/agent.train_min": 0.36089134216308594, "timer/agent.train_max": 0.38248777389526367, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22292494773864746, "timer/agent.report_frac": 0.000743078522163585, "timer/agent.report_avg": 0.22292494773864746, "timer/agent.report_min": 0.22292494773864746, "timer/agent.report_max": 0.22292494773864746, "fps": 4.849860165177351}
{"step": 600896, "episode/length": 173.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.06321839080459771}
{"step": 601141, "episode/length": 244.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.700000002980232, "episode/reward_rate": 0.053061224489795916}
{"step": 601358, "episode/length": 216.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.700000040233135, "episode/reward_rate": 0.059907834101382486}
{"step": 601602, "episode/length": 243.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.036885245901639344}
{"step": 601791, "episode/length": 188.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.0582010582010582}
{"step": 601993, "episode/length": 201.0, "episode/score": 11.099999971687794, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.06435643564356436}
{"step": 602176, "episode/length": 182.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.06557377049180328}
{"step": 602315, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.586252848307292, "train/action_min": 0.0, "train/action_std": 3.4821063545015125, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04078734955853886, "train/actor_opt_grad_steps": 300245.0, "train/actor_opt_loss": -12.832430079993275, "train/adv_mag": 0.4227021522819996, "train/adv_max": 0.38512316677305436, "train/adv_mean": 0.0016532306851028504, "train/adv_min": -0.3523824554350641, "train/adv_std": 0.04703387204143736, "train/cont_avg": 0.9949273003472222, "train/cont_loss_mean": 1.6962123584127494e-05, "train/cont_loss_std": 0.0005145621744778358, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0006790818998057249, "train/cont_pos_acc": 0.9999999834431542, "train/cont_pos_loss": 1.4080340069395132e-05, "train/cont_pred": 0.9949174672365189, "train/cont_rate": 0.9949273003472222, "train/dyn_loss_mean": 5.240210930506389, "train/dyn_loss_std": 8.815637217627632, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0214098484979734, "train/extr_critic_critic_opt_grad_steps": 300245.0, "train/extr_critic_critic_opt_loss": 15999.722412109375, "train/extr_critic_mag": 10.846389611562094, "train/extr_critic_max": 10.846389611562094, "train/extr_critic_mean": 2.773884971936544, "train/extr_critic_min": -0.4723648279905319, "train/extr_critic_std": 2.6703455083900027, "train/extr_return_normed_mag": 1.4222952160570357, "train/extr_return_normed_max": 1.4222952160570357, "train/extr_return_normed_mean": 0.35963137778970933, "train/extr_return_normed_min": -0.07505462300549778, "train/extr_return_normed_std": 0.327641730921136, "train/extr_return_rate": 0.7275201140178574, "train/extr_return_raw_mag": 11.542125092612373, "train/extr_return_raw_max": 11.542125092612373, "train/extr_return_raw_mean": 2.7874838329023786, "train/extr_return_raw_min": -0.7918357861538728, "train/extr_return_raw_std": 2.698584351274702, "train/extr_reward_mag": 1.0520314938492246, "train/extr_reward_max": 1.0520314938492246, "train/extr_reward_mean": 0.05239739574285017, "train/extr_reward_min": -0.6362435155444675, "train/extr_reward_std": 0.22157520324819618, "train/image_loss_mean": 3.2272724161545434, "train/image_loss_std": 8.420271495978037, "train/model_loss_mean": 6.423386030726963, "train/model_loss_std": 12.596235103077358, "train/model_opt_grad_norm": 28.274439069959854, "train/model_opt_grad_steps": 300006.02777777775, "train/model_opt_loss": 8246.81236436632, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1284.7222222222222, "train/policy_entropy_mag": 2.6770656605561576, "train/policy_entropy_max": 2.6770656605561576, "train/policy_entropy_mean": 0.4470845289114449, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6335491653945711, "train/policy_logprob_mag": 7.43838424815072, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4462646920647886, "train/policy_logprob_min": -7.43838424815072, "train/policy_logprob_std": 1.0574676195780437, "train/policy_randomness_mag": 0.9448866976632012, "train/policy_randomness_max": 0.9448866976632012, "train/policy_randomness_mean": 0.15780122040046585, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2236150527993838, "train/post_ent_mag": 54.962013191647, "train/post_ent_max": 54.962013191647, "train/post_ent_mean": 40.829933643341064, "train/post_ent_min": 18.899768617418076, "train/post_ent_std": 5.5982988940344915, "train/prior_ent_mag": 76.60345511966281, "train/prior_ent_max": 76.60345511966281, "train/prior_ent_mean": 46.062226719326446, "train/prior_ent_min": 28.910943004820084, "train/prior_ent_std": 7.504454943868849, "train/rep_loss_mean": 5.240210930506389, "train/rep_loss_std": 8.815637217627632, "train/reward_avg": 0.036764865482432976, "train/reward_loss_mean": 0.05197016398111979, "train/reward_loss_std": 0.21402733503944343, "train/reward_max_data": 1.0166666706403096, "train/reward_max_pred": 1.0189914173550076, "train/reward_neg_acc": 0.9943599568472968, "train/reward_neg_loss": 0.0221485324178098, "train/reward_pos_acc": 0.9864498335454199, "train/reward_pos_loss": 0.7436446530951394, "train/reward_pred": 0.03649247652437124, "train/reward_rate": 0.04135470920138889, "stats/sum_log_reward": 10.528571810041155, "stats/max_log_achievement_collect_coal": 0.2857142857142857, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 13.571428571428571, "stats/max_log_achievement_collect_wood": 10.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.2857142857142858, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.4285714285714286, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 4.0, "stats/max_log_achievement_place_table": 2.7142857142857144, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.34092616396290915, "replay/size": 602252.0, "replay/inserts": 1449.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.128894203033342e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.494925597618366e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2601697444916, "timer/env.step_count": 1449.0, "timer/env.step_total": 19.892333030700684, "timer/env.step_frac": 0.06625032233755213, "timer/env.step_avg": 0.013728318171636082, "timer/env.step_min": 0.002623319625854492, "timer/env.step_max": 2.3320202827453613, "timer/replay.add_count": 1449.0, "timer/replay.add_total": 0.3052685260772705, "timer/replay.add_frac": 0.0010166800556232311, "timer/replay.add_avg": 0.00021067531130246412, "timer/replay.add_min": 6.103515625e-05, "timer/replay.add_max": 0.0009734630584716797, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024216651916503906, "timer/logger.write_frac": 8.065222882246163e-05, "timer/logger.write_avg": 0.024216651916503906, "timer/logger.write_min": 0.024216651916503906, "timer/logger.write_max": 0.024216651916503906, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003237724304199219, "timer/checkpoint.save_frac": 1.0783062924910693e-06, "timer/checkpoint.save_avg": 0.0003237724304199219, "timer/checkpoint.save_min": 0.0003237724304199219, "timer/checkpoint.save_max": 0.0003237724304199219, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2323963642120361, "timer/agent.save_frac": 0.004104428387090942, "timer/agent.save_avg": 1.2323963642120361, "timer/agent.save_min": 1.2323963642120361, "timer/agent.save_max": 1.2323963642120361, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.462501525878906e-05, "timer/replay.save_frac": 2.485345136595764e-07, "timer/replay.save_avg": 7.462501525878906e-05, "timer/replay.save_min": 7.462501525878906e-05, "timer/replay.save_max": 7.462501525878906e-05, "timer/agent.policy_count": 1449.0, "timer/agent.policy_total": 11.922090768814087, "timer/agent.policy_frac": 0.03970586834397406, "timer/agent.policy_avg": 0.008227805913605305, "timer/agent.policy_min": 0.005888223648071289, "timer/agent.policy_max": 1.2309200763702393, "timer/dataset_count": 725.0, "timer/dataset_total": 0.06073331832885742, "timer/dataset_frac": 0.0002022689801998675, "timer/dataset_avg": 8.377009424669989e-05, "timer/dataset_min": 6.127357482910156e-05, "timer/dataset_max": 0.000286102294921875, "timer/agent.train_count": 725.0, "timer/agent.train_total": 267.4301402568817, "timer/agent.train_frac": 0.8906613903684035, "timer/agent.train_avg": 0.36886915897500927, "timer/agent.train_min": 0.3609166145324707, "timer/agent.train_max": 0.7475719451904297, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22125744819641113, "timer/agent.report_frac": 0.0007368857760411301, "timer/agent.report_avg": 0.22125744819641113, "timer/agent.report_min": 0.22125744819641113, "timer/agent.report_max": 0.22125744819641113, "fps": 4.825705437285459}
{"step": 602389, "episode/length": 212.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.900000043213367, "episode/reward_rate": 0.051643192488262914}
{"step": 602620, "episode/length": 230.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.700000047683716, "episode/reward_rate": 0.047619047619047616}
{"step": 602742, "episode/length": 121.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.06557377049180328}
{"step": 602884, "episode/length": 141.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.07042253521126761}
{"step": 603051, "episode/length": 166.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.0718562874251497}
{"step": 603213, "episode/length": 161.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.05555555555555555}
{"step": 603337, "episode/length": 123.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 12.899999976158142, "episode/reward_rate": 0.10483870967741936}
{"step": 603733, "episode/length": 395.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 16.10000006854534, "episode/reward_rate": 0.03282828282828283}
{"step": 603785, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.5896466229413, "train/action_min": 0.0, "train/action_std": 3.4457030779606588, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04387877740570017, "train/actor_opt_grad_steps": 300975.0, "train/actor_opt_loss": -10.478071475753913, "train/adv_mag": 0.43847301280176315, "train/adv_max": 0.4007163277348956, "train/adv_mean": 0.00309737125688706, "train/adv_min": -0.3800639598756223, "train/adv_std": 0.04955407463618227, "train/cont_avg": 0.9945629222972973, "train/cont_loss_mean": 3.096738717823578e-05, "train/cont_loss_std": 0.0009502178884532684, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0001945097956713745, "train/cont_pos_acc": 0.9999867186353013, "train/cont_pos_loss": 2.977009250594088e-05, "train/cont_pred": 0.9945454404160783, "train/cont_rate": 0.9945629222972973, "train/dyn_loss_mean": 5.26153726191134, "train/dyn_loss_std": 8.817959682361499, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0542014933921195, "train/extr_critic_critic_opt_grad_steps": 300975.0, "train/extr_critic_critic_opt_loss": 16379.275562183277, "train/extr_critic_mag": 10.917821136680809, "train/extr_critic_max": 10.917821136680809, "train/extr_critic_mean": 2.780225492812492, "train/extr_critic_min": -0.4822913939888413, "train/extr_critic_std": 2.642825395674319, "train/extr_return_normed_mag": 1.4494045795621098, "train/extr_return_normed_max": 1.4494045795621098, "train/extr_return_normed_mean": 0.3645494608460246, "train/extr_return_normed_min": -0.07735928374569158, "train/extr_return_normed_std": 0.3296470376285347, "train/extr_return_rate": 0.7381889103232203, "train/extr_return_raw_mag": 11.601121180766338, "train/extr_return_raw_max": 11.601121180766338, "train/extr_return_raw_mean": 2.8053458026937537, "train/extr_return_raw_min": -0.7779393429691727, "train/extr_return_raw_std": 2.6728364519170813, "train/extr_reward_mag": 1.058163807198808, "train/extr_reward_max": 1.058163807198808, "train/extr_reward_mean": 0.05558505709710959, "train/extr_reward_min": -0.6364075734808639, "train/extr_reward_std": 0.22751191177883665, "train/image_loss_mean": 3.1490632859436243, "train/image_loss_std": 8.395504593849182, "train/model_loss_mean": 6.359446970192161, "train/model_loss_std": 12.584486980695981, "train/model_opt_grad_norm": 26.068460851102262, "train/model_opt_grad_steps": 300736.0, "train/model_opt_loss": 12676.505443676098, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1993.2432432432433, "train/policy_entropy_mag": 2.6681020485388265, "train/policy_entropy_max": 2.6681020485388265, "train/policy_entropy_mean": 0.42441166816531, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6027611341025378, "train/policy_logprob_mag": 7.4383842751786515, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4247136069713412, "train/policy_logprob_min": -7.4383842751786515, "train/policy_logprob_std": 1.041554965682932, "train/policy_randomness_mag": 0.9417229407542461, "train/policy_randomness_max": 0.9417229407542461, "train/policy_randomness_mean": 0.14979869338708954, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21274823040978327, "train/post_ent_mag": 54.89423323966361, "train/post_ent_max": 54.89423323966361, "train/post_ent_mean": 40.85686209395125, "train/post_ent_min": 18.774727447612864, "train/post_ent_std": 5.703140110582919, "train/prior_ent_mag": 76.64589979841902, "train/prior_ent_max": 76.64589979841902, "train/prior_ent_mean": 46.144158389117266, "train/prior_ent_min": 28.750667778221338, "train/prior_ent_std": 7.484830592129682, "train/rep_loss_mean": 5.26153726191134, "train/rep_loss_std": 8.817959682361499, "train/reward_avg": 0.036795291281934525, "train/reward_loss_mean": 0.053430326736053906, "train/reward_loss_std": 0.2092461898117452, "train/reward_max_data": 1.0135135167353861, "train/reward_max_pred": 1.0119959985887683, "train/reward_neg_acc": 0.9947623175543707, "train/reward_neg_loss": 0.02402646536309574, "train/reward_pos_acc": 0.9889639382426804, "train/reward_pos_loss": 0.7294939981924521, "train/reward_pred": 0.03632624273666659, "train/reward_rate": 0.04163587415540541, "stats/sum_log_reward": 9.850000381469727, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 5.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.25, "stats/max_log_achievement_collect_stone": 12.625, "stats/max_log_achievement_collect_wood": 10.125, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.75, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 1.25, "stats/max_log_achievement_place_stone": 4.75, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 0.75, "stats/mean_log_entropy": 0.2745410669595003, "replay/size": 603722.0, "replay/inserts": 1470.0, "replay/samples": 11760.0, "replay/insert_wait_avg": 3.0314841238008877e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.5033142907278878e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.33509850502014, "timer/env.step_count": 1470.0, "timer/env.step_total": 18.54615330696106, "timer/env.step_frac": 0.06175153486648201, "timer/env.step_avg": 0.012616430821061946, "timer/env.step_min": 0.002707958221435547, "timer/env.step_max": 1.3492951393127441, "timer/replay.add_count": 1470.0, "timer/replay.add_total": 0.2680392265319824, "timer/replay.add_frac": 0.0008924672070171049, "timer/replay.add_avg": 0.00018233960988570233, "timer/replay.add_min": 6.008148193359375e-05, "timer/replay.add_max": 0.0009205341339111328, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021891355514526367, "timer/logger.write_frac": 7.28897675413067e-05, "timer/logger.write_avg": 0.021891355514526367, "timer/logger.write_min": 0.021891355514526367, "timer/logger.write_max": 0.021891355514526367, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1470.0, "timer/agent.policy_total": 10.748438596725464, "timer/agent.policy_frac": 0.03578815346667117, "timer/agent.policy_avg": 0.007311862990969704, "timer/agent.policy_min": 0.0059125423431396484, "timer/agent.policy_max": 0.015544891357421875, "timer/dataset_count": 735.0, "timer/dataset_total": 0.05845928192138672, "timer/dataset_frac": 0.00019464685350590005, "timer/dataset_avg": 7.953643798828126e-05, "timer/dataset_min": 6.008148193359375e-05, "timer/dataset_max": 0.00015878677368164062, "timer/agent.train_count": 735.0, "timer/agent.train_total": 270.0615828037262, "timer/agent.train_frac": 0.899200873118105, "timer/agent.train_avg": 0.36743072490302886, "timer/agent.train_min": 0.3609304428100586, "timer/agent.train_max": 0.3831217288970947, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22212600708007812, "timer/agent.report_frac": 0.0007395939008985501, "timer/agent.report_avg": 0.22212600708007812, "timer/agent.report_min": 0.22212600708007812, "timer/agent.report_max": 0.22212600708007812, "fps": 4.8944232435635495}
{"step": 603955, "episode/length": 221.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.90000007301569, "episode/reward_rate": 0.06306306306306306}
{"step": 604110, "episode/length": 154.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.06451612903225806}
{"step": 604313, "episode/length": 202.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.054187192118226604}
{"step": 604506, "episode/length": 192.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.06217616580310881}
{"step": 604641, "episode/length": 134.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 9.899999976158142, "episode/reward_rate": 0.07407407407407407}
{"step": 604707, "episode/length": 65.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 4.899999991059303, "episode/reward_rate": 0.07575757575757576}
{"step": 604899, "episode/length": 191.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.052083333333333336}
{"step": 605074, "episode/length": 174.0, "episode/score": 10.099999964237213, "episode/sum_abs_reward": 12.099999994039536, "episode/reward_rate": 0.06285714285714286}
{"step": 605259, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.580963959565034, "train/action_min": 0.0, "train/action_std": 3.449638386030455, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.042340392196500626, "train/actor_opt_grad_steps": 301715.0, "train/actor_opt_loss": -11.775464002345059, "train/adv_mag": 0.40474556668384654, "train/adv_max": 0.3793620088615933, "train/adv_mean": 0.002472644637876058, "train/adv_min": -0.3431471638582848, "train/adv_std": 0.048237601295113564, "train/cont_avg": 0.9948268581081081, "train/cont_loss_mean": 4.7692298506729924e-05, "train/cont_loss_std": 0.0014194377944188484, "train/cont_neg_acc": 0.9954954957639849, "train/cont_neg_loss": 0.004925143628629539, "train/cont_pos_acc": 0.9999867162188968, "train/cont_pos_loss": 2.8705635159361782e-05, "train/cont_pred": 0.994819989881, "train/cont_rate": 0.9948268581081081, "train/dyn_loss_mean": 5.3996631454777075, "train/dyn_loss_std": 8.813705521660882, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0682128651722058, "train/extr_critic_critic_opt_grad_steps": 301715.0, "train/extr_critic_critic_opt_loss": 16366.264740815033, "train/extr_critic_mag": 10.847253296826336, "train/extr_critic_max": 10.847253296826336, "train/extr_critic_mean": 2.824719277588097, "train/extr_critic_min": -0.4814946442037015, "train/extr_critic_std": 2.6651754782006547, "train/extr_return_normed_mag": 1.429962158203125, "train/extr_return_normed_max": 1.429962158203125, "train/extr_return_normed_mean": 0.36219068294441376, "train/extr_return_normed_min": -0.07976360714717491, "train/extr_return_normed_std": 0.32769962178694234, "train/extr_return_rate": 0.7301274336673118, "train/extr_return_raw_mag": 11.660916341317666, "train/extr_return_raw_max": 11.660916341317666, "train/extr_return_raw_mean": 2.8451082593685872, "train/extr_return_raw_min": -0.8034620889135309, "train/extr_return_raw_std": 2.7054000529083044, "train/extr_reward_mag": 1.057457405167657, "train/extr_reward_max": 1.057457405167657, "train/extr_reward_mean": 0.055513238886723645, "train/extr_reward_min": -0.6392855692554165, "train/extr_reward_std": 0.22755517770309705, "train/image_loss_mean": 3.2499450831799894, "train/image_loss_std": 8.128475053890332, "train/model_loss_mean": 6.544370393495302, "train/model_loss_std": 12.303735243307578, "train/model_opt_grad_norm": 27.825641696517533, "train/model_opt_grad_steps": 301475.8783783784, "train/model_opt_loss": 18539.86187579181, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2854.7297297297296, "train/policy_entropy_mag": 2.6747220335779964, "train/policy_entropy_max": 2.6747220335779964, "train/policy_entropy_mean": 0.4332393436013041, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6189062176523982, "train/policy_logprob_mag": 7.4383842751786515, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4321509974228369, "train/policy_logprob_min": -7.4383842751786515, "train/policy_logprob_std": 1.0476939001598873, "train/policy_randomness_mag": 0.9440595008231498, "train/policy_randomness_max": 0.9440595008231498, "train/policy_randomness_mean": 0.15291447504549413, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21844673398378733, "train/post_ent_mag": 54.84143380861025, "train/post_ent_max": 54.84143380861025, "train/post_ent_mean": 40.73779647414749, "train/post_ent_min": 19.2631732708699, "train/post_ent_std": 5.672603304321702, "train/prior_ent_mag": 76.55879623825486, "train/prior_ent_max": 76.55879623825486, "train/prior_ent_mean": 46.139750764176654, "train/prior_ent_min": 28.13754824045542, "train/prior_ent_std": 7.524632112399952, "train/rep_loss_mean": 5.3996631454777075, "train/rep_loss_std": 8.813705521660882, "train/reward_avg": 0.0382865282983796, "train/reward_loss_mean": 0.05457977210549084, "train/reward_loss_std": 0.2173944721753533, "train/reward_max_data": 1.0270270334707725, "train/reward_max_pred": 1.0279884853878536, "train/reward_neg_acc": 0.9937979127909686, "train/reward_neg_loss": 0.0237552951266234, "train/reward_pos_acc": 0.9870312173624296, "train/reward_pos_loss": 0.7387203920531917, "train/reward_pred": 0.03796618618071079, "train/reward_rate": 0.043127111486486486, "stats/sum_log_reward": 9.100000083446503, "stats/max_log_achievement_collect_coal": 0.375, "stats/max_log_achievement_collect_drink": 3.375, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.25, "stats/max_log_achievement_collect_stone": 10.5, "stats/max_log_achievement_collect_wood": 9.5, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.25, "stats/max_log_achievement_place_plant": 0.75, "stats/max_log_achievement_place_stone": 3.75, "stats/max_log_achievement_place_table": 2.125, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.28815113939344883, "replay/size": 605196.0, "replay/inserts": 1474.0, "replay/samples": 11792.0, "replay/insert_wait_avg": 3.0889278189298093e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4311786907822338e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2416183948517, "timer/env.step_count": 1474.0, "timer/env.step_total": 18.016054153442383, "timer/env.step_frac": 0.06000518598906976, "timer/env.step_avg": 0.012222560484017899, "timer/env.step_min": 0.002405405044555664, "timer/env.step_max": 1.30788254737854, "timer/replay.add_count": 1474.0, "timer/replay.add_total": 0.27147459983825684, "timer/replay.add_frac": 0.0009041871053373987, "timer/replay.add_avg": 0.00018417544086720273, "timer/replay.add_min": 5.793571472167969e-05, "timer/replay.add_max": 0.0008351802825927734, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.020737648010253906, "timer/logger.write_frac": 6.906986486790634e-05, "timer/logger.write_avg": 0.020737648010253906, "timer/logger.write_min": 0.020737648010253906, "timer/logger.write_max": 0.020737648010253906, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1474.0, "timer/agent.policy_total": 10.6229088306427, "timer/agent.policy_frac": 0.035381200272749574, "timer/agent.policy_avg": 0.00720685809405882, "timer/agent.policy_min": 0.005685329437255859, "timer/agent.policy_max": 0.014505624771118164, "timer/dataset_count": 737.0, "timer/dataset_total": 0.05796551704406738, "timer/dataset_frac": 0.00019306289832156503, "timer/dataset_avg": 7.865063370972508e-05, "timer/dataset_min": 5.412101745605469e-05, "timer/dataset_max": 0.0001842975616455078, "timer/agent.train_count": 737.0, "timer/agent.train_total": 270.62479543685913, "timer/agent.train_frac": 0.9013567035898299, "timer/agent.train_avg": 0.3671978228451277, "timer/agent.train_min": 0.3585519790649414, "timer/agent.train_max": 0.38440418243408203, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22112345695495605, "timer/agent.report_frac": 0.0007364850287482587, "timer/agent.report_avg": 0.22112345695495605, "timer/agent.report_min": 0.22112345695495605, "timer/agent.report_max": 0.22112345695495605, "fps": 4.909266233559094}
{"step": 605454, "episode/length": 379.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.031578947368421054}
{"step": 605647, "episode/length": 192.0, "episode/score": 6.099999964237213, "episode/sum_abs_reward": 7.699999988079071, "episode/reward_rate": 0.03626943005181347}
{"step": 605803, "episode/length": 155.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.07692307692307693}
{"step": 606044, "episode/length": 240.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 14.500000014901161, "episode/reward_rate": 0.05394190871369295}
{"step": 606220, "episode/length": 175.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.05113636363636364}
{"step": 606627, "episode/length": 406.0, "episode/score": 10.099999979138374, "episode/sum_abs_reward": 11.900000020861626, "episode/reward_rate": 0.02702702702702703}
{"step": 606721, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.580047189372859, "train/action_min": 0.0, "train/action_std": 3.414144996094377, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.043980968197527, "train/actor_opt_grad_steps": 302450.0, "train/actor_opt_loss": -13.525461008287456, "train/adv_mag": 0.4124700080042016, "train/adv_max": 0.3797160954508063, "train/adv_mean": 0.002538072129750181, "train/adv_min": -0.3522250813572374, "train/adv_std": 0.049166196982746255, "train/cont_avg": 0.9949165239726028, "train/cont_loss_mean": 0.0002300549063907928, "train/cont_loss_std": 0.007200303113758346, "train/cont_neg_acc": 0.9954337910430072, "train/cont_neg_loss": 0.03197672724664474, "train/cont_pos_acc": 0.9999865513958343, "train/cont_pos_loss": 4.279301299564781e-05, "train/cont_pred": 0.9949193898945639, "train/cont_rate": 0.9949165239726028, "train/dyn_loss_mean": 5.3352707967366255, "train/dyn_loss_std": 8.728742867299955, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0723343736504856, "train/extr_critic_critic_opt_grad_steps": 302450.0, "train/extr_critic_critic_opt_loss": 16435.04295537243, "train/extr_critic_mag": 11.063649282063523, "train/extr_critic_max": 11.063649282063523, "train/extr_critic_mean": 2.885007572500673, "train/extr_critic_min": -0.4558600317941953, "train/extr_critic_std": 2.707737814890195, "train/extr_return_normed_mag": 1.4334474704036975, "train/extr_return_normed_max": 1.4334474704036975, "train/extr_return_normed_mean": 0.3664558672741668, "train/extr_return_normed_min": -0.07536667120987423, "train/extr_return_normed_std": 0.32859874016618074, "train/extr_return_rate": 0.7373314801960775, "train/extr_return_raw_mag": 11.813576476214683, "train/extr_return_raw_max": 11.813576476214683, "train/extr_return_raw_mean": 2.906218058442416, "train/extr_return_raw_min": -0.7819399229467732, "train/extr_return_raw_std": 2.7430784147079676, "train/extr_reward_mag": 1.0577472791279832, "train/extr_reward_max": 1.0577472791279832, "train/extr_reward_mean": 0.05676401365701467, "train/extr_reward_min": -0.6354576202288066, "train/extr_reward_std": 0.22987484686995205, "train/image_loss_mean": 3.079863286998174, "train/image_loss_std": 8.144875186763398, "train/model_loss_mean": 6.33462264439831, "train/model_loss_std": 12.257379962973399, "train/model_opt_grad_norm": 27.728907297735343, "train/model_opt_grad_steps": 302209.0, "train/model_opt_loss": 7918.278293557363, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.700514989356472, "train/policy_entropy_max": 2.700514989356472, "train/policy_entropy_mean": 0.42664740734720885, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6122589086833066, "train/policy_logprob_mag": 7.438384238987753, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.42526346485908717, "train/policy_logprob_min": -7.438384238987753, "train/policy_logprob_std": 1.0402328176041171, "train/policy_randomness_mag": 0.9531632816954835, "train/policy_randomness_max": 0.9531632816954835, "train/policy_randomness_mean": 0.15058781471970964, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21610052761149734, "train/post_ent_mag": 55.15676796273009, "train/post_ent_max": 55.15676796273009, "train/post_ent_mean": 40.74234588832071, "train/post_ent_min": 19.233242975522394, "train/post_ent_std": 5.700272364159153, "train/prior_ent_mag": 76.61270810479988, "train/prior_ent_max": 76.61270810479988, "train/prior_ent_mean": 46.11451877959787, "train/prior_ent_min": 28.703333136153546, "train/prior_ent_std": 7.484822397362696, "train/rep_loss_mean": 5.3352707967366255, "train/rep_loss_std": 8.728742867299955, "train/reward_avg": 0.03822238847919523, "train/reward_loss_mean": 0.053366800770163536, "train/reward_loss_std": 0.20961317032167356, "train/reward_max_data": 1.0246575401253897, "train/reward_max_pred": 1.0264191986763314, "train/reward_neg_acc": 0.9948957195020702, "train/reward_neg_loss": 0.023155934330433198, "train/reward_pos_acc": 0.9883930462680451, "train/reward_pos_loss": 0.7292608847356823, "train/reward_pred": 0.03781002139902278, "train/reward_rate": 0.0429152397260274, "stats/sum_log_reward": 9.600000301996866, "stats/max_log_achievement_collect_coal": 0.0, "stats/max_log_achievement_collect_drink": 6.166666666666667, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 15.0, "stats/max_log_achievement_collect_wood": 10.0, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 0.6666666666666666, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.3333333333333333, "stats/max_log_achievement_place_furnace": 2.3333333333333335, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_stone": 4.666666666666667, "stats/max_log_achievement_place_table": 2.3333333333333335, "stats/max_log_achievement_wake_up": 1.8333333333333333, "stats/mean_log_entropy": 0.5087102750937144, "replay/size": 606658.0, "replay/inserts": 1462.0, "replay/samples": 11696.0, "replay/insert_wait_avg": 3.067804589643361e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.391026455139494e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1829471588135, "timer/env.step_count": 1462.0, "timer/env.step_total": 15.681914806365967, "timer/env.step_frac": 0.05224119142940309, "timer/env.step_avg": 0.010726343916802987, "timer/env.step_min": 0.0023887157440185547, "timer/env.step_max": 1.332819938659668, "timer/replay.add_count": 1462.0, "timer/replay.add_total": 0.27420949935913086, "timer/replay.add_frac": 0.0009134746059177664, "timer/replay.add_avg": 0.0001875577970992687, "timer/replay.add_min": 5.9604644775390625e-05, "timer/replay.add_max": 0.0009272098541259766, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029398441314697266, "timer/logger.write_frac": 9.793508123279186e-05, "timer/logger.write_avg": 0.029398441314697266, "timer/logger.write_min": 0.029398441314697266, "timer/logger.write_max": 0.029398441314697266, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00026035308837890625, "timer/checkpoint.save_frac": 8.673147187177325e-07, "timer/checkpoint.save_avg": 0.00026035308837890625, "timer/checkpoint.save_min": 0.00026035308837890625, "timer/checkpoint.save_max": 0.00026035308837890625, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4734351634979248, "timer/agent.save_frac": 0.0049084572506325475, "timer/agent.save_avg": 1.4734351634979248, "timer/agent.save_min": 1.4734351634979248, "timer/agent.save_max": 1.4734351634979248, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.033348083496094e-05, "timer/replay.save_frac": 2.3430205313345336e-07, "timer/replay.save_avg": 7.033348083496094e-05, "timer/replay.save_min": 7.033348083496094e-05, "timer/replay.save_max": 7.033348083496094e-05, "timer/agent.policy_count": 1462.0, "timer/agent.policy_total": 14.77927827835083, "timer/agent.policy_frac": 0.049234236715424644, "timer/agent.policy_avg": 0.0101089454708282, "timer/agent.policy_min": 0.0057795047760009766, "timer/agent.policy_max": 2.8243041038513184, "timer/dataset_count": 731.0, "timer/dataset_total": 0.05906558036804199, "timer/dataset_frac": 0.0001967652757329783, "timer/dataset_avg": 8.080106753494117e-05, "timer/dataset_min": 5.4836273193359375e-05, "timer/dataset_max": 0.0009522438049316406, "timer/agent.train_count": 731.0, "timer/agent.train_total": 268.722056388855, "timer/agent.train_frac": 0.8951942771308926, "timer/agent.train_avg": 0.36760883226929547, "timer/agent.train_min": 0.3610503673553467, "timer/agent.train_max": 0.44634485244750977, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2261030673980713, "timer/agent.report_frac": 0.0007532175612842198, "timer/agent.report_avg": 0.2261030673980713, "timer/agent.report_min": 0.2261030673980713, "timer/agent.report_max": 0.2261030673980713, "fps": 4.8702744753476805}
{"step": 606820, "episode/length": 192.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.06217616580310881}
{"step": 606945, "episode/length": 124.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.899999976158142, "episode/reward_rate": 0.096}
{"step": 607133, "episode/length": 187.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.05319148936170213}
{"step": 607326, "episode/length": 192.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06217616580310881}
{"step": 607486, "episode/length": 159.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.700000025331974, "episode/reward_rate": 0.05625}
{"step": 607703, "episode/length": 216.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.900000043213367, "episode/reward_rate": 0.05069124423963134}
{"step": 608049, "episode/length": 345.0, "episode/score": 12.099999994039536, "episode/sum_abs_reward": 14.900000035762787, "episode/reward_rate": 0.03757225433526012}
{"step": 608199, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.5309126570418075, "train/action_min": 0.0, "train/action_std": 3.374204036351797, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04290429470003457, "train/actor_opt_grad_steps": 303185.0, "train/actor_opt_loss": -11.61512639635318, "train/adv_mag": 0.38367088622338064, "train/adv_max": 0.35814847414558, "train/adv_mean": 0.0021835639026657853, "train/adv_min": -0.32690321271483963, "train/adv_std": 0.048599704999375985, "train/cont_avg": 0.9942857896959459, "train/cont_loss_mean": 1.430421747964042e-05, "train/cont_loss_std": 0.0004128714649573032, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0013446599589299793, "train/cont_pos_acc": 0.9999999798632957, "train/cont_pos_loss": 7.542981973612055e-06, "train/cont_pred": 0.9942844953085925, "train/cont_rate": 0.9942857896959459, "train/dyn_loss_mean": 5.169308127583684, "train/dyn_loss_std": 8.82033987303038, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0216216630226858, "train/extr_critic_critic_opt_grad_steps": 303185.0, "train/extr_critic_critic_opt_loss": 16295.1328125, "train/extr_critic_mag": 11.035699728372935, "train/extr_critic_max": 11.035699728372935, "train/extr_critic_mean": 2.9361324052552917, "train/extr_critic_min": -0.460427649923273, "train/extr_critic_std": 2.709738963359111, "train/extr_return_normed_mag": 1.4228076757611454, "train/extr_return_normed_max": 1.4228076757611454, "train/extr_return_normed_mean": 0.37110674622896556, "train/extr_return_normed_min": -0.0767735179916427, "train/extr_return_normed_std": 0.32794944378169805, "train/extr_return_rate": 0.7479114258611524, "train/extr_return_raw_mag": 11.746047793207941, "train/extr_return_raw_max": 11.746047793207941, "train/extr_return_raw_mean": 2.9543886845176286, "train/extr_return_raw_min": -0.7892005274424682, "train/extr_return_raw_std": 2.741187282510706, "train/extr_reward_mag": 1.0487470755705963, "train/extr_reward_max": 1.0487470755705963, "train/extr_reward_mean": 0.05555103366842141, "train/extr_reward_min": -0.6636586302035564, "train/extr_reward_std": 0.22769790424688444, "train/image_loss_mean": 3.0932671653257833, "train/image_loss_std": 8.460402346946097, "train/model_loss_mean": 6.248105493751732, "train/model_loss_std": 12.631044568242254, "train/model_opt_grad_norm": 27.919749208398766, "train/model_opt_grad_steps": 302944.0, "train/model_opt_loss": 13122.377533783783, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2094.5945945945946, "train/policy_entropy_mag": 2.700820491120622, "train/policy_entropy_max": 2.700820491120622, "train/policy_entropy_mean": 0.42386228409973353, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6064813890167184, "train/policy_logprob_mag": 7.438384236516179, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.42287292170363505, "train/policy_logprob_min": -7.438384236516179, "train/policy_logprob_std": 1.040196190009246, "train/policy_randomness_mag": 0.9532711127319852, "train/policy_randomness_max": 0.9532711127319852, "train/policy_randomness_mean": 0.14960478568399274, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21406131630411018, "train/post_ent_mag": 55.233938732662715, "train/post_ent_max": 55.233938732662715, "train/post_ent_mean": 40.87889372335898, "train/post_ent_min": 19.458441553889095, "train/post_ent_std": 5.658422457205282, "train/prior_ent_mag": 76.64564246100349, "train/prior_ent_max": 76.64564246100349, "train/prior_ent_mean": 46.024871619972025, "train/prior_ent_min": 28.881210275598473, "train/prior_ent_std": 7.547527094145079, "train/rep_loss_mean": 5.169308127583684, "train/rep_loss_std": 8.82033987303038, "train/reward_avg": 0.03788006743667899, "train/reward_loss_mean": 0.05323916288545808, "train/reward_loss_std": 0.20124457494632617, "train/reward_max_data": 1.0202702751030792, "train/reward_max_pred": 1.0165763819539868, "train/reward_neg_acc": 0.9946025851610545, "train/reward_neg_loss": 0.02367491403443588, "train/reward_pos_acc": 0.9928646804513158, "train/reward_pos_loss": 0.7119219254803013, "train/reward_pred": 0.03779967114127971, "train/reward_rate": 0.04296875, "stats/sum_log_reward": 10.242857251848493, "stats/max_log_achievement_collect_coal": 0.14285714285714285, "stats/max_log_achievement_collect_drink": 2.4285714285714284, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 15.428571428571429, "stats/max_log_achievement_collect_wood": 8.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.7142857142857143, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.14285714285714285, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.2857142857142858, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 6.0, "stats/max_log_achievement_place_table": 2.2857142857142856, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.36567784207207815, "replay/size": 608136.0, "replay/inserts": 1478.0, "replay/samples": 11824.0, "replay/insert_wait_avg": 3.091698570406324e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.480276110369072e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0099594593048, "timer/env.step_count": 1478.0, "timer/env.step_total": 16.976280212402344, "timer/env.step_frac": 0.056585722164017395, "timer/env.step_avg": 0.011485981199189678, "timer/env.step_min": 0.002759218215942383, "timer/env.step_max": 1.2428958415985107, "timer/replay.add_count": 1478.0, "timer/replay.add_total": 0.2697019577026367, "timer/replay.add_frac": 0.0008989766812698788, "timer/replay.add_avg": 0.0001824776439124741, "timer/replay.add_min": 5.888938903808594e-05, "timer/replay.add_max": 0.0008962154388427734, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030209064483642578, "timer/logger.write_frac": 0.00010069353876813653, "timer/logger.write_avg": 0.030209064483642578, "timer/logger.write_min": 0.030209064483642578, "timer/logger.write_max": 0.030209064483642578, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1478.0, "timer/agent.policy_total": 10.76350212097168, "timer/agent.policy_frac": 0.03587714934654263, "timer/agent.policy_avg": 0.007282477754378674, "timer/agent.policy_min": 0.005918741226196289, "timer/agent.policy_max": 0.015492916107177734, "timer/dataset_count": 739.0, "timer/dataset_total": 0.05839061737060547, "timer/dataset_frac": 0.00019462892990566177, "timer/dataset_avg": 7.901301403329563e-05, "timer/dataset_min": 5.6743621826171875e-05, "timer/dataset_max": 0.00015044212341308594, "timer/agent.train_count": 739.0, "timer/agent.train_total": 271.2848856449127, "timer/agent.train_frac": 0.904252932582098, "timer/agent.train_avg": 0.3670972742150375, "timer/agent.train_min": 0.3610553741455078, "timer/agent.train_max": 0.380176305770874, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22238922119140625, "timer/agent.report_frac": 0.0007412727950505672, "timer/agent.report_avg": 0.22238922119140625, "timer/agent.report_min": 0.22238922119140625, "timer/agent.report_max": 0.22238922119140625, "fps": 4.926392692639156}
{"step": 608260, "episode/length": 210.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.299999997019768, "episode/reward_rate": 0.06635071090047394}
{"step": 608424, "episode/length": 163.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.06707317073170732}
{"step": 608589, "episode/length": 164.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.900000005960464, "episode/reward_rate": 0.06060606060606061}
{"step": 608754, "episode/length": 164.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.048484848484848485}
{"step": 608963, "episode/length": 208.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.0430622009569378}
{"step": 609084, "episode/length": 120.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.900000013411045, "episode/reward_rate": 0.08264462809917356}
{"step": 609353, "episode/length": 268.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.040892193308550186}
{"step": 609471, "episode/length": 117.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.09322033898305085}
{"step": 609673, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.686826104987158, "train/action_min": 0.0, "train/action_std": 3.5799919546466983, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04349620573937076, "train/actor_opt_grad_steps": 303920.0, "train/actor_opt_loss": -12.435284879926133, "train/adv_mag": 0.42387919842380367, "train/adv_max": 0.3768705313336359, "train/adv_mean": 0.0020567493769180745, "train/adv_min": -0.36848294775779933, "train/adv_std": 0.047911106927754125, "train/cont_avg": 0.9948362585616438, "train/cont_loss_mean": 2.475907276504262e-05, "train/cont_loss_std": 0.0006026444239162392, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0006656081346366977, "train/cont_pos_acc": 0.9999999812204544, "train/cont_pos_loss": 2.0596018884265354e-05, "train/cont_pred": 0.9948222196265443, "train/cont_rate": 0.9948362585616438, "train/dyn_loss_mean": 5.077016853306391, "train/dyn_loss_std": 8.750078834899485, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0490734764974412, "train/extr_critic_critic_opt_grad_steps": 303920.0, "train/extr_critic_critic_opt_loss": 16108.502688891267, "train/extr_critic_mag": 11.146502285787504, "train/extr_critic_max": 11.146502285787504, "train/extr_critic_mean": 2.9105568911931288, "train/extr_critic_min": -0.5022092224800423, "train/extr_critic_std": 2.7040277049966055, "train/extr_return_normed_mag": 1.4551936992227215, "train/extr_return_normed_max": 1.4551936992227215, "train/extr_return_normed_mean": 0.370932159358508, "train/extr_return_normed_min": -0.08752073393496748, "train/extr_return_normed_std": 0.3284409238051062, "train/extr_return_rate": 0.7379477424164341, "train/extr_return_raw_mag": 11.95839145085583, "train/extr_return_raw_max": 11.95839145085583, "train/extr_return_raw_mean": 2.92767004607475, "train/extr_return_raw_min": -0.8926665905403764, "train/extr_return_raw_std": 2.7367052215419405, "train/extr_reward_mag": 1.0562496903824479, "train/extr_reward_max": 1.0562496903824479, "train/extr_reward_mean": 0.055220412600734466, "train/extr_reward_min": -0.6550288706609647, "train/extr_reward_std": 0.22686339526960295, "train/image_loss_mean": 3.0869354107608533, "train/image_loss_std": 8.149267751876621, "train/model_loss_mean": 6.187323988300481, "train/model_loss_std": 12.25915331383274, "train/model_opt_grad_norm": 25.676184445211334, "train/model_opt_grad_steps": 303678.7123287671, "train/model_opt_loss": 15861.7578125, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2568.4931506849316, "train/policy_entropy_mag": 2.695288315211257, "train/policy_entropy_max": 2.695288315211257, "train/policy_entropy_mean": 0.46729772548152976, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6552890069680671, "train/policy_logprob_mag": 7.438384258583801, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.46680083952537954, "train/policy_logprob_min": -7.438384258583801, "train/policy_logprob_std": 1.0722718312315744, "train/policy_randomness_mag": 0.9513184991601396, "train/policy_randomness_max": 0.9513184991601396, "train/policy_randomness_mean": 0.16493559097998764, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23128826426316615, "train/post_ent_mag": 55.05806408189748, "train/post_ent_max": 55.05806408189748, "train/post_ent_mean": 40.94160780188155, "train/post_ent_min": 19.041051407382913, "train/post_ent_std": 5.661830497114626, "train/prior_ent_mag": 76.81156430179125, "train/prior_ent_max": 76.81156430179125, "train/prior_ent_mean": 46.038841770119866, "train/prior_ent_min": 28.804284526877208, "train/prior_ent_std": 7.464232849748167, "train/rep_loss_mean": 5.077016853306391, "train/rep_loss_std": 8.750078834899485, "train/reward_avg": 0.03808192388243871, "train/reward_loss_mean": 0.05415375734845253, "train/reward_loss_std": 0.2166445461446292, "train/reward_max_data": 1.0232876767850902, "train/reward_max_pred": 1.0217809513823626, "train/reward_neg_acc": 0.9936854847489971, "train/reward_neg_loss": 0.02368293250974727, "train/reward_pos_acc": 0.9873151428078952, "train/reward_pos_loss": 0.7384296606664789, "train/reward_pred": 0.03769773789617705, "train/reward_rate": 0.04275470890410959, "stats/sum_log_reward": 9.100000202655792, "stats/max_log_achievement_collect_coal": 0.375, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.875, "stats/max_log_achievement_collect_stone": 6.625, "stats/max_log_achievement_collect_wood": 8.75, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.75, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.125, "stats/max_log_achievement_make_wood_sword": 1.125, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.625, "stats/max_log_achievement_place_stone": 1.875, "stats/max_log_achievement_place_table": 1.75, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3682054150849581, "replay/size": 609610.0, "replay/inserts": 1474.0, "replay/samples": 11792.0, "replay/insert_wait_avg": 3.019860835702966e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.43595029735177e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2508327960968, "timer/env.step_count": 1474.0, "timer/env.step_total": 18.12225890159607, "timer/env.step_frac": 0.060357064567754484, "timer/env.step_avg": 0.012294612551964769, "timer/env.step_min": 0.002267122268676758, "timer/env.step_max": 1.3188462257385254, "timer/replay.add_count": 1474.0, "timer/replay.add_total": 0.27083301544189453, "timer/replay.add_frac": 0.0009020225286962644, "timer/replay.add_avg": 0.0001837401732984359, "timer/replay.add_min": 6.437301635742188e-05, "timer/replay.add_max": 0.00092315673828125, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0207369327545166, "timer/logger.write_frac": 6.906536298801626e-05, "timer/logger.write_avg": 0.0207369327545166, "timer/logger.write_min": 0.0207369327545166, "timer/logger.write_max": 0.0207369327545166, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1474.0, "timer/agent.policy_total": 10.658754587173462, "timer/agent.policy_frac": 0.03549950049401503, "timer/agent.policy_avg": 0.007231176789127179, "timer/agent.policy_min": 0.005805253982543945, "timer/agent.policy_max": 0.01581859588623047, "timer/dataset_count": 737.0, "timer/dataset_total": 0.057909488677978516, "timer/dataset_frac": 0.00019287036821411717, "timer/dataset_avg": 7.857461150336298e-05, "timer/dataset_min": 5.6743621826171875e-05, "timer/dataset_max": 0.00023102760314941406, "timer/agent.train_count": 737.0, "timer/agent.train_total": 270.49825716018677, "timer/agent.train_frac": 0.9009075999595468, "timer/agent.train_avg": 0.36702612911829957, "timer/agent.train_min": 0.3608407974243164, "timer/agent.train_max": 0.3816242218017578, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22289490699768066, "timer/agent.report_frac": 0.0007423623272647198, "timer/agent.report_avg": 0.22289490699768066, "timer/agent.report_min": 0.22289490699768066, "timer/agent.report_max": 0.22289490699768066, "fps": 4.909121817313259}
{"step": 609675, "episode/length": 203.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.500000044703484, "episode/reward_rate": 0.06372549019607843}
{"step": 609928, "episode/length": 252.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 11.700000040233135, "episode/reward_rate": 0.039525691699604744}
{"step": 609986, "episode/length": 57.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.100000016391277, "episode/reward_rate": 0.05172413793103448}
{"step": 610136, "episode/length": 149.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.07333333333333333}
{"step": 610202, "episode/length": 65.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.10606060606060606}
{"step": 610409, "episode/length": 206.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.500000044703484, "episode/reward_rate": 0.05314009661835749}
{"step": 610595, "episode/length": 185.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.06451612903225806}
{"step": 610777, "episode/length": 181.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.899999976158142, "episode/reward_rate": 0.06593406593406594}
{"step": 611065, "episode/length": 287.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 14.500000014901161, "episode/reward_rate": 0.04513888888888889}
{"step": 611117, "stats/sum_log_reward": 8.98888897895813, "stats/max_log_achievement_collect_coal": 1.2222222222222223, "stats/max_log_achievement_collect_drink": 2.7777777777777777, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 0.7777777777777778, "stats/max_log_achievement_collect_stone": 12.444444444444445, "stats/max_log_achievement_collect_wood": 8.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.1111111111111111, "stats/max_log_achievement_defeat_zombie": 0.3333333333333333, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8888888888888888, "stats/max_log_achievement_place_furnace": 1.5555555555555556, "stats/max_log_achievement_place_plant": 0.7777777777777778, "stats/max_log_achievement_place_stone": 4.0, "stats/max_log_achievement_place_table": 2.111111111111111, "stats/max_log_achievement_wake_up": 1.1111111111111112, "stats/mean_log_entropy": 0.4201134377055698, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.611889309353298, "train/action_min": 0.0, "train/action_std": 3.435819837782118, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.042431468764940895, "train/actor_opt_grad_steps": 304645.0, "train/actor_opt_loss": -13.217202689912584, "train/adv_mag": 0.396127628783385, "train/adv_max": 0.35918394807312226, "train/adv_mean": 0.0022938935421987277, "train/adv_min": -0.35445963342984516, "train/adv_std": 0.048269003370983735, "train/cont_avg": 0.9945882161458334, "train/cont_loss_mean": 7.383017597817343e-05, "train/cont_loss_std": 0.0021137778498459487, "train/cont_neg_acc": 0.9984567902154393, "train/cont_neg_loss": 0.00461446799053691, "train/cont_pos_acc": 0.9999726671311591, "train/cont_pos_loss": 4.2195857304644984e-05, "train/cont_pred": 0.9945844064156214, "train/cont_rate": 0.9945882161458334, "train/dyn_loss_mean": 5.147170186042786, "train/dyn_loss_std": 8.868776308165657, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0635074194934633, "train/extr_critic_critic_opt_grad_steps": 304645.0, "train/extr_critic_critic_opt_loss": 16350.414265950521, "train/extr_critic_mag": 11.12163237730662, "train/extr_critic_max": 11.12163237730662, "train/extr_critic_mean": 2.8810107310613, "train/extr_critic_min": -0.5376292119423548, "train/extr_critic_std": 2.7659347686502667, "train/extr_return_normed_mag": 1.4310094250573053, "train/extr_return_normed_max": 1.4310094250573053, "train/extr_return_normed_mean": 0.362298800299565, "train/extr_return_normed_min": -0.08173883406238423, "train/extr_return_normed_std": 0.33103082453211147, "train/extr_return_rate": 0.726259622308943, "train/extr_return_raw_mag": 11.952572107315063, "train/extr_return_raw_max": 11.952572107315063, "train/extr_return_raw_mean": 2.9004248016410403, "train/extr_return_raw_min": -0.8607861490713226, "train/extr_return_raw_std": 2.8036813967757754, "train/extr_reward_mag": 1.050858951277203, "train/extr_reward_max": 1.050858951277203, "train/extr_reward_mean": 0.056731652158002056, "train/extr_reward_min": -0.6734553111924065, "train/extr_reward_std": 0.23069782182574272, "train/image_loss_mean": 3.015478084484736, "train/image_loss_std": 8.209735870361328, "train/model_loss_mean": 6.156447324487898, "train/model_loss_std": 12.383419884575737, "train/model_opt_grad_norm": 27.11234480804867, "train/model_opt_grad_steps": 304403.0, "train/model_opt_loss": 15391.118286132812, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.686082902881834, "train/policy_entropy_max": 2.686082902881834, "train/policy_entropy_mean": 0.43460527021023965, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6184943699174457, "train/policy_logprob_mag": 7.438384215037028, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4356709567623006, "train/policy_logprob_min": -7.438384215037028, "train/policy_logprob_std": 1.0525466865963407, "train/policy_randomness_mag": 0.9480693886677424, "train/policy_randomness_max": 0.9480693886677424, "train/policy_randomness_mean": 0.15339658895714414, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21830137136081854, "train/post_ent_mag": 55.15176513459947, "train/post_ent_max": 55.15176513459947, "train/post_ent_mean": 40.898269971211754, "train/post_ent_min": 18.97351512644026, "train/post_ent_std": 5.726663728555043, "train/prior_ent_mag": 76.6454758114285, "train/prior_ent_max": 76.6454758114285, "train/prior_ent_mean": 46.01808940039741, "train/prior_ent_min": 28.695607715182835, "train/prior_ent_std": 7.459883431593577, "train/rep_loss_mean": 5.147170186042786, "train/rep_loss_std": 8.868776308165657, "train/reward_avg": 0.03735351549564964, "train/reward_loss_mean": 0.0525932974802951, "train/reward_loss_std": 0.207094583246443, "train/reward_max_data": 1.0152777814202838, "train/reward_max_pred": 1.0178033610184987, "train/reward_neg_acc": 0.9947736751702096, "train/reward_neg_loss": 0.02292144453773896, "train/reward_pos_acc": 0.9904969268374972, "train/reward_pos_loss": 0.7245453347762426, "train/reward_pred": 0.037092194349194564, "train/reward_rate": 0.04224989149305555, "replay/size": 611054.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.030755843482189e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4205016918129537e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2384798526764, "timer/env.step_count": 1444.0, "timer/env.step_total": 20.13308310508728, "timer/env.step_frac": 0.06705697122822615, "timer/env.step_avg": 0.01394257832762277, "timer/env.step_min": 0.0025415420532226562, "timer/env.step_max": 1.3510348796844482, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.2558131217956543, "timer/replay.add_frac": 0.0008520330968941052, "timer/replay.add_avg": 0.00017715590152053622, "timer/replay.add_min": 6.127357482910156e-05, "timer/replay.add_max": 0.0009036064147949219, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02775740623474121, "timer/logger.write_frac": 9.24511949579596e-05, "timer/logger.write_avg": 0.02775740623474121, "timer/logger.write_min": 0.02775740623474121, "timer/logger.write_max": 0.02775740623474121, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00032639503479003906, "timer/checkpoint.save_frac": 1.0871192624949253e-06, "timer/checkpoint.save_avg": 0.00032639503479003906, "timer/checkpoint.save_min": 0.00032639503479003906, "timer/checkpoint.save_max": 0.00032639503479003906, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2644710540771484, "timer/agent.save_frac": 0.004211555609719347, "timer/agent.save_avg": 1.2644710540771484, "timer/agent.save_min": 1.2644710540771484, "timer/agent.save_max": 1.2644710540771484, "timer/replay.save_count": 1.0, "timer/replay.save_total": 5.626678466796875e-05, "timer/replay.save_frac": 1.8740697293557516e-07, "timer/replay.save_avg": 5.626678466796875e-05, "timer/replay.save_min": 5.626678466796875e-05, "timer/replay.save_max": 5.626678466796875e-05, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 13.95205020904541, "timer/agent.policy_frac": 0.04646989358556412, "timer/agent.policy_avg": 0.009662084632302916, "timer/agent.policy_min": 0.005712032318115234, "timer/agent.policy_max": 2.2998557090759277, "timer/dataset_count": 722.0, "timer/dataset_total": 0.05772829055786133, "timer/dataset_frac": 0.00019227478964784243, "timer/dataset_avg": 7.99560811050711e-05, "timer/dataset_min": 5.626678466796875e-05, "timer/dataset_max": 0.00018835067749023438, "timer/agent.train_count": 722.0, "timer/agent.train_total": 265.1830966472626, "timer/agent.train_frac": 0.8832415377848466, "timer/agent.train_avg": 0.367289607544685, "timer/agent.train_min": 0.36095690727233887, "timer/agent.train_max": 0.46123528480529785, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22214770317077637, "timer/agent.report_frac": 0.0007399041697779103, "timer/agent.report_avg": 0.22214770317077637, "timer/agent.report_min": 0.22214770317077637, "timer/agent.report_max": 0.22214770317077637, "fps": 4.809400765500695}
{"step": 611274, "episode/length": 208.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06220095693779904}
{"step": 611503, "episode/length": 228.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.700000002980232, "episode/reward_rate": 0.0611353711790393}
{"step": 611696, "episode/length": 192.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.05181347150259067}
{"step": 611842, "episode/length": 145.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.900000005960464, "episode/reward_rate": 0.0684931506849315}
{"step": 612009, "episode/length": 166.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.07784431137724551}
{"step": 612209, "episode/length": 199.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 11.299999997019768, "episode/reward_rate": 0.055}
{"step": 612372, "episode/length": 162.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 9.30000003427267, "episode/reward_rate": 0.049079754601226995}
{"step": 612532, "episode/length": 159.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.099999994039536, "episode/reward_rate": 0.05625}
{"step": 612587, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.672891152871622, "train/action_min": 0.0, "train/action_std": 3.53965759599531, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04344090461932324, "train/actor_opt_grad_steps": 305375.0, "train/actor_opt_loss": -12.29936763885859, "train/adv_mag": 0.42586358455387324, "train/adv_max": 0.3800512516015285, "train/adv_mean": 0.002643944646331727, "train/adv_min": -0.37225403938744517, "train/adv_std": 0.04889819529410955, "train/cont_avg": 0.9947740709459459, "train/cont_loss_mean": 0.0001001806247183604, "train/cont_loss_std": 0.002990170666198399, "train/cont_neg_acc": 0.9950450457431175, "train/cont_neg_loss": 0.014974319773139962, "train/cont_pos_acc": 0.9999999846961047, "train/cont_pos_loss": 2.1061259988296053e-05, "train/cont_pred": 0.9947844534306913, "train/cont_rate": 0.9947740709459459, "train/dyn_loss_mean": 5.327510653315364, "train/dyn_loss_std": 8.780342198706961, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1160635666267291, "train/extr_critic_critic_opt_grad_steps": 305375.0, "train/extr_critic_critic_opt_loss": 16418.447925464527, "train/extr_critic_mag": 11.17427448324255, "train/extr_critic_max": 11.17427448324255, "train/extr_critic_mean": 2.87380283909875, "train/extr_critic_min": -0.49974504999212316, "train/extr_critic_std": 2.7488865755699776, "train/extr_return_normed_mag": 1.4367099146585207, "train/extr_return_normed_max": 1.4367099146585207, "train/extr_return_normed_mean": 0.36335235310567393, "train/extr_return_normed_min": -0.08362027026108794, "train/extr_return_normed_std": 0.3318941915357435, "train/extr_return_rate": 0.7311435825115925, "train/extr_return_raw_mag": 11.89595433827993, "train/extr_return_raw_max": 11.89595433827993, "train/extr_return_raw_mean": 2.8959484196997978, "train/extr_return_raw_min": -0.8515675978080647, "train/extr_return_raw_std": 2.782677579570461, "train/extr_reward_mag": 1.0509697005555436, "train/extr_reward_max": 1.0509697005555436, "train/extr_reward_mean": 0.05847854675674761, "train/extr_reward_min": -0.6449185883676684, "train/extr_reward_std": 0.23265582403621157, "train/image_loss_mean": 3.190241678341015, "train/image_loss_std": 8.120067686647982, "train/model_loss_mean": 6.440545520266971, "train/model_loss_std": 12.299571630117056, "train/model_opt_grad_norm": 26.390256675514014, "train/model_opt_grad_steps": 305131.64864864864, "train/model_opt_loss": 13514.770725559543, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2060.810810810811, "train/policy_entropy_mag": 2.6728483728460364, "train/policy_entropy_max": 2.6728483728460364, "train/policy_entropy_mean": 0.4304476815301019, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6095333981352884, "train/policy_logprob_mag": 7.4383842622911605, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.43018169016451446, "train/policy_logprob_min": -7.4383842622911605, "train/policy_logprob_std": 1.0438378928480923, "train/policy_randomness_mag": 0.9433981816510897, "train/policy_randomness_max": 0.9433981816510897, "train/policy_randomness_mean": 0.1519291443196503, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21513854319582115, "train/post_ent_mag": 55.14663299354347, "train/post_ent_max": 55.14663299354347, "train/post_ent_mean": 40.859673319636165, "train/post_ent_min": 19.266675382047087, "train/post_ent_std": 5.705909535691545, "train/prior_ent_mag": 76.65220755499763, "train/prior_ent_max": 76.65220755499763, "train/prior_ent_mean": 46.17511986397408, "train/prior_ent_min": 28.40973289592846, "train/prior_ent_std": 7.474754559027182, "train/rep_loss_mean": 5.327510653315364, "train/rep_loss_std": 8.780342198706961, "train/reward_avg": 0.038897540093072364, "train/reward_loss_mean": 0.053697239607572556, "train/reward_loss_std": 0.20736990707951622, "train/reward_max_data": 1.025675681797234, "train/reward_max_pred": 1.0191650970562085, "train/reward_neg_acc": 0.9941249135378245, "train/reward_neg_loss": 0.023461693331498553, "train/reward_pos_acc": 0.991540099317963, "train/reward_pos_loss": 0.7174931369923256, "train/reward_pred": 0.03884247755883513, "train/reward_rate": 0.04365498310810811, "stats/sum_log_reward": 9.600000202655792, "stats/max_log_achievement_collect_coal": 0.75, "stats/max_log_achievement_collect_drink": 1.625, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 0.75, "stats/max_log_achievement_collect_stone": 14.375, "stats/max_log_achievement_collect_wood": 9.25, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 0.375, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 0.625, "stats/max_log_achievement_place_stone": 4.75, "stats/max_log_achievement_place_table": 1.875, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.3308533038944006, "replay/size": 612524.0, "replay/inserts": 1470.0, "replay/samples": 11760.0, "replay/insert_wait_avg": 3.1237699547592474e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4161577030104033e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.09305334091187, "timer/env.step_count": 1470.0, "timer/env.step_total": 18.29071831703186, "timer/env.step_frac": 0.060950155671391795, "timer/env.step_avg": 0.012442665521790382, "timer/env.step_min": 0.0025458335876464844, "timer/env.step_max": 1.3879473209381104, "timer/replay.add_count": 1470.0, "timer/replay.add_total": 0.26940393447875977, "timer/replay.add_frac": 0.0008977346575654031, "timer/replay.add_avg": 0.0001832679826386121, "timer/replay.add_min": 5.8650970458984375e-05, "timer/replay.add_max": 0.0016477108001708984, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022363662719726562, "timer/logger.write_frac": 7.452242719634361e-05, "timer/logger.write_avg": 0.022363662719726562, "timer/logger.write_min": 0.022363662719726562, "timer/logger.write_max": 0.022363662719726562, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1470.0, "timer/agent.policy_total": 10.629583358764648, "timer/agent.policy_frac": 0.03542095773436389, "timer/agent.policy_avg": 0.007231009087594999, "timer/agent.policy_min": 0.005808591842651367, "timer/agent.policy_max": 0.016956090927124023, "timer/dataset_count": 735.0, "timer/dataset_total": 0.05813741683959961, "timer/dataset_frac": 0.0001937312983168401, "timer/dataset_avg": 7.909852631238042e-05, "timer/dataset_min": 5.435943603515625e-05, "timer/dataset_max": 0.001018524169921875, "timer/agent.train_count": 735.0, "timer/agent.train_total": 270.1951689720154, "timer/agent.train_frac": 0.9003712880520034, "timer/agent.train_avg": 0.36761247479185766, "timer/agent.train_min": 0.3579442501068115, "timer/agent.train_max": 0.3816955089569092, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22351336479187012, "timer/agent.report_frac": 0.0007448135246834733, "timer/agent.report_avg": 0.22351336479187012, "timer/agent.report_min": 0.22351336479187012, "timer/agent.report_max": 0.22351336479187012, "fps": 4.898371594404042}
{"step": 612787, "episode/length": 254.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 11.500000044703484, "episode/reward_rate": 0.0392156862745098}
{"step": 613054, "episode/length": 266.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.033707865168539325}
{"step": 613270, "episode/length": 215.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.06018518518518518}
{"step": 613515, "episode/length": 244.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 13.90000006556511, "episode/reward_rate": 0.04897959183673469}
{"step": 613712, "episode/length": 196.0, "episode/score": 10.099999971687794, "episode/sum_abs_reward": 12.30000003427267, "episode/reward_rate": 0.06091370558375635}
{"step": 613776, "episode/length": 63.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.30000001937151, "episode/reward_rate": 0.109375}
{"step": 614048, "episode/length": 271.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.04411764705882353}
{"step": 614065, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.581700505437078, "train/action_min": 0.0, "train/action_std": 3.471202341285912, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.042278155785154654, "train/actor_opt_grad_steps": 306115.0, "train/actor_opt_loss": -12.50710841610625, "train/adv_mag": 0.40917670646229304, "train/adv_max": 0.36725361202214213, "train/adv_mean": 0.0021742291038282092, "train/adv_min": -0.35600711969104976, "train/adv_std": 0.04783790266594371, "train/cont_avg": 0.9948136613175675, "train/cont_loss_mean": 9.850272864637928e-05, "train/cont_loss_std": 0.00301049561644074, "train/cont_neg_acc": 0.9939189190800125, "train/cont_neg_loss": 0.019535673630240107, "train/cont_pos_acc": 0.9999999830851684, "train/cont_pos_loss": 1.2893097685700678e-05, "train/cont_pred": 0.9948268025308042, "train/cont_rate": 0.9948136613175675, "train/dyn_loss_mean": 5.165360792263134, "train/dyn_loss_std": 8.784066973505793, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0555033869034536, "train/extr_critic_critic_opt_grad_steps": 306115.0, "train/extr_critic_critic_opt_loss": 16165.026076858108, "train/extr_critic_mag": 11.08091942039696, "train/extr_critic_max": 11.08091942039696, "train/extr_critic_mean": 2.868968040556521, "train/extr_critic_min": -0.5180480464084728, "train/extr_critic_std": 2.721059692872537, "train/extr_return_normed_mag": 1.4319851559561652, "train/extr_return_normed_max": 1.4319851559561652, "train/extr_return_normed_mean": 0.3612217280913044, "train/extr_return_normed_min": -0.079655107689669, "train/extr_return_normed_std": 0.3285514869399973, "train/extr_return_rate": 0.7354738917705175, "train/extr_return_raw_mag": 11.863120311015361, "train/extr_return_raw_max": 11.863120311015361, "train/extr_return_raw_mean": 2.8871801125036702, "train/extr_return_raw_min": -0.8092068631101299, "train/extr_return_raw_std": 2.7547506029541426, "train/extr_reward_mag": 1.0560801834673494, "train/extr_reward_max": 1.0560801834673494, "train/extr_reward_mean": 0.05439935513847583, "train/extr_reward_min": -0.650141575851956, "train/extr_reward_std": 0.22537626889911858, "train/image_loss_mean": 3.0815254288750724, "train/image_loss_std": 8.363854015195692, "train/model_loss_mean": 6.23394843694326, "train/model_loss_std": 12.507580473616317, "train/model_opt_grad_norm": 27.963371547492773, "train/model_opt_grad_steps": 305871.0, "train/model_opt_loss": 9242.309662690033, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1486.4864864864865, "train/policy_entropy_mag": 2.695909232706637, "train/policy_entropy_max": 2.695909232706637, "train/policy_entropy_mean": 0.43861726973507853, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6251465782925889, "train/policy_logprob_mag": 7.438384236516179, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4379649681819452, "train/policy_logprob_min": -7.438384236516179, "train/policy_logprob_std": 1.0516186501528766, "train/policy_randomness_mag": 0.9515376534010913, "train/policy_randomness_max": 0.9515376534010913, "train/policy_randomness_mean": 0.15481264828830152, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2206493084495132, "train/post_ent_mag": 54.911404429255306, "train/post_ent_max": 54.911404429255306, "train/post_ent_mean": 40.91658293234335, "train/post_ent_min": 19.315658749760807, "train/post_ent_std": 5.647776932329745, "train/prior_ent_mag": 76.58524611189559, "train/prior_ent_max": 76.58524611189559, "train/prior_ent_mean": 46.11245923428922, "train/prior_ent_min": 28.815495387927907, "train/prior_ent_std": 7.461149409010604, "train/rep_loss_mean": 5.165360792263134, "train/rep_loss_std": 8.784066973505793, "train/reward_avg": 0.038299725466483345, "train/reward_loss_mean": 0.053108029319225133, "train/reward_loss_std": 0.20815808930107066, "train/reward_max_data": 1.0270270334707725, "train/reward_max_pred": 1.0261479197321712, "train/reward_neg_acc": 0.9947350790371766, "train/reward_neg_loss": 0.022699753275594196, "train/reward_pos_acc": 0.9883412831538433, "train/reward_pos_loss": 0.7334446923152821, "train/reward_pred": 0.03792693403020904, "train/reward_rate": 0.04298194679054054, "stats/sum_log_reward": 9.671428884778704, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 4.714285714285714, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.2857142857142856, "stats/max_log_achievement_collect_stone": 11.428571428571429, "stats/max_log_achievement_collect_wood": 10.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5714285714285714, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2857142857142858, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.7142857142857142, "stats/max_log_achievement_place_stone": 4.0, "stats/max_log_achievement_place_table": 2.7142857142857144, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.42966983148029875, "replay/size": 614002.0, "replay/inserts": 1478.0, "replay/samples": 11824.0, "replay/insert_wait_avg": 3.0554034551845028e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.408149650842153e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0960657596588, "timer/env.step_count": 1478.0, "timer/env.step_total": 17.19559144973755, "timer/env.step_frac": 0.05730028951298938, "timer/env.step_avg": 0.011634364986290628, "timer/env.step_min": 0.002411365509033203, "timer/env.step_max": 1.2893431186676025, "timer/replay.add_count": 1478.0, "timer/replay.add_total": 0.2763187885284424, "timer/replay.add_frac": 0.0009207677809070006, "timer/replay.add_avg": 0.00018695452539136832, "timer/replay.add_min": 6.4849853515625e-05, "timer/replay.add_max": 0.0008044242858886719, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029523611068725586, "timer/logger.write_frac": 9.838053356011165e-05, "timer/logger.write_avg": 0.029523611068725586, "timer/logger.write_min": 0.029523611068725586, "timer/logger.write_max": 0.029523611068725586, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1478.0, "timer/agent.policy_total": 10.677252531051636, "timer/agent.policy_frac": 0.03557944854766221, "timer/agent.policy_avg": 0.007224122145501784, "timer/agent.policy_min": 0.005625486373901367, "timer/agent.policy_max": 0.019620656967163086, "timer/dataset_count": 739.0, "timer/dataset_total": 0.057764291763305664, "timer/dataset_frac": 0.00019248600149782697, "timer/dataset_avg": 7.81654827649603e-05, "timer/dataset_min": 5.5789947509765625e-05, "timer/dataset_max": 0.00014710426330566406, "timer/agent.train_count": 739.0, "timer/agent.train_total": 271.23522877693176, "timer/agent.train_frac": 0.9038280061763917, "timer/agent.train_avg": 0.36703007953576694, "timer/agent.train_min": 0.3606741428375244, "timer/agent.train_max": 0.3811988830566406, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22368597984313965, "timer/agent.report_frac": 0.000745381247424568, "timer/agent.report_avg": 0.22368597984313965, "timer/agent.report_min": 0.22368597984313965, "timer/agent.report_max": 0.22368597984313965, "fps": 4.925035479437466}
{"step": 614232, "episode/length": 183.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.06521739130434782}
{"step": 614350, "episode/length": 117.0, "episode/score": 7.099999971687794, "episode/sum_abs_reward": 9.100000031292439, "episode/reward_rate": 0.07627118644067797}
{"step": 614560, "episode/length": 209.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.05714285714285714}
{"step": 614718, "episode/length": 157.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.06962025316455696}
{"step": 614878, "episode/length": 159.0, "episode/score": 9.099999979138374, "episode/sum_abs_reward": 10.900000005960464, "episode/reward_rate": 0.0625}
{"step": 615037, "episode/length": 158.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 9.899999991059303, "episode/reward_rate": 0.06289308176100629}
{"step": 615250, "episode/length": 212.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.06103286384976526}
{"step": 615301, "episode/length": 50.0, "episode/score": 5.100000038743019, "episode/sum_abs_reward": 6.500000014901161, "episode/reward_rate": 0.13725490196078433}
{"step": 615517, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.5254321628146705, "train/action_min": 0.0, "train/action_std": 3.4635827839374542, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04280468529193766, "train/actor_opt_grad_steps": 306845.0, "train/actor_opt_loss": -12.412589146031273, "train/adv_mag": 0.41856707632541656, "train/adv_max": 0.3836191375222471, "train/adv_mean": 0.0017808262534041812, "train/adv_min": -0.35064500715169644, "train/adv_std": 0.04750722822629743, "train/cont_avg": 0.9949544270833334, "train/cont_loss_mean": 9.553850468040853e-05, "train/cont_loss_std": 0.002931660772746783, "train/cont_neg_acc": 0.9965277777777778, "train/cont_neg_loss": 0.006570553761607003, "train/cont_pos_acc": 0.9999726944499545, "train/cont_pos_loss": 6.962448408150597e-05, "train/cont_pred": 0.9949371086226569, "train/cont_rate": 0.9949544270833334, "train/dyn_loss_mean": 5.1907382938596935, "train/dyn_loss_std": 8.772661937607658, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0513846551378567, "train/extr_critic_critic_opt_grad_steps": 306845.0, "train/extr_critic_critic_opt_loss": 16284.305677625867, "train/extr_critic_mag": 11.095174670219421, "train/extr_critic_max": 11.095174670219421, "train/extr_critic_mean": 2.7948841187689037, "train/extr_critic_min": -0.46602505445480347, "train/extr_critic_std": 2.6360811524920993, "train/extr_return_normed_mag": 1.434248846438196, "train/extr_return_normed_max": 1.434248846438196, "train/extr_return_normed_mean": 0.3550788588407967, "train/extr_return_normed_min": -0.07334168627858162, "train/extr_return_normed_std": 0.32118156138393616, "train/extr_return_rate": 0.7430546879768372, "train/extr_return_raw_mag": 11.762851304478115, "train/extr_return_raw_max": 11.762851304478115, "train/extr_return_raw_mean": 2.8096970518430076, "train/extr_return_raw_min": -0.7441795985731814, "train/extr_return_raw_std": 2.664286093579398, "train/extr_reward_mag": 1.0529908736546834, "train/extr_reward_max": 1.0529908736546834, "train/extr_reward_mean": 0.05377653122155203, "train/extr_reward_min": -0.6085155010223389, "train/extr_reward_std": 0.22381708998647, "train/image_loss_mean": 3.120811050136884, "train/image_loss_std": 8.1852438516087, "train/model_loss_mean": 6.288193457656437, "train/model_loss_std": 12.318400449222988, "train/model_opt_grad_norm": 26.51267409324646, "train/model_opt_grad_steps": 306600.2638888889, "train/model_opt_loss": 9932.360900878906, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1579.861111111111, "train/policy_entropy_mag": 2.6962547633383007, "train/policy_entropy_max": 2.6962547633383007, "train/policy_entropy_mean": 0.4252838390982813, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6159048531618383, "train/policy_logprob_mag": 7.438384274641673, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4246072237276369, "train/policy_logprob_min": -7.438384274641673, "train/policy_logprob_std": 1.0418143272399902, "train/policy_randomness_mag": 0.9516596115297742, "train/policy_randomness_max": 0.9516596115297742, "train/policy_randomness_mean": 0.15010653053306872, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2173873842176464, "train/post_ent_mag": 55.18388790554471, "train/post_ent_max": 55.18388790554471, "train/post_ent_mean": 40.84063386917114, "train/post_ent_min": 19.189867734909058, "train/post_ent_std": 5.64270900355445, "train/prior_ent_mag": 76.63772805531819, "train/prior_ent_max": 76.63772805531819, "train/prior_ent_mean": 46.02053949568007, "train/prior_ent_min": 28.66032494439019, "train/prior_ent_std": 7.500843054718441, "train/rep_loss_mean": 5.1907382938596935, "train/rep_loss_std": 8.772661937607658, "train/reward_avg": 0.03704833914525807, "train/reward_loss_mean": 0.05284388125356701, "train/reward_loss_std": 0.20905556550456417, "train/reward_max_data": 1.0180555598603354, "train/reward_max_pred": 1.017837428384357, "train/reward_neg_acc": 0.9943303888042768, "train/reward_neg_loss": 0.023497642056706052, "train/reward_pos_acc": 0.9867528047826555, "train/reward_pos_loss": 0.7293931717673937, "train/reward_pred": 0.03676592519817253, "train/reward_rate": 0.041666666666666664, "stats/sum_log_reward": 9.225000143051147, "stats/max_log_achievement_collect_coal": 0.25, "stats/max_log_achievement_collect_drink": 1.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 0.875, "stats/max_log_achievement_collect_stone": 12.875, "stats/max_log_achievement_collect_wood": 8.625, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.25, "stats/max_log_achievement_make_wood_sword": 0.75, "stats/max_log_achievement_place_furnace": 1.875, "stats/max_log_achievement_place_plant": 0.625, "stats/max_log_achievement_place_stone": 3.75, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 1.125, "stats/mean_log_entropy": 0.2562485933303833, "replay/size": 615454.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.0996057284436606e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4011812275763058e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0668725967407, "timer/env.step_count": 1452.0, "timer/env.step_total": 18.217225074768066, "timer/env.step_frac": 0.06071055067531616, "timer/env.step_avg": 0.01254629826085955, "timer/env.step_min": 0.0024318695068359375, "timer/env.step_max": 1.3708672523498535, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.2894134521484375, "timer/replay.add_frac": 0.0009644965125403218, "timer/replay.add_avg": 0.00019932055933087983, "timer/replay.add_min": 5.936622619628906e-05, "timer/replay.add_max": 0.004309177398681641, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.019436359405517578, "timer/logger.write_frac": 6.477342612770875e-05, "timer/logger.write_avg": 0.019436359405517578, "timer/logger.write_min": 0.019436359405517578, "timer/logger.write_max": 0.019436359405517578, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00048065185546875, "timer/checkpoint.save_frac": 1.6018157929572488e-06, "timer/checkpoint.save_avg": 0.00048065185546875, "timer/checkpoint.save_min": 0.00048065185546875, "timer/checkpoint.save_max": 0.00048065185546875, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2372112274169922, "timer/agent.save_frac": 0.0041231183459550964, "timer/agent.save_avg": 1.2372112274169922, "timer/agent.save_min": 1.2372112274169922, "timer/agent.save_max": 1.2372112274169922, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.177757263183594e-05, "timer/replay.save_frac": 2.7253115921842083e-07, "timer/replay.save_avg": 8.177757263183594e-05, "timer/replay.save_min": 8.177757263183594e-05, "timer/replay.save_max": 8.177757263183594e-05, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 14.370031595230103, "timer/agent.policy_frac": 0.047889430348887464, "timer/agent.policy_avg": 0.00989671597467638, "timer/agent.policy_min": 0.005877017974853516, "timer/agent.policy_max": 2.8033480644226074, "timer/dataset_count": 726.0, "timer/dataset_total": 0.056583404541015625, "timer/dataset_frac": 0.00018856931473757834, "timer/dataset_avg": 7.793857374795541e-05, "timer/dataset_min": 5.626678466796875e-05, "timer/dataset_max": 0.0001437664031982422, "timer/agent.train_count": 726.0, "timer/agent.train_total": 266.4988751411438, "timer/agent.train_frac": 0.8881316115800997, "timer/agent.train_avg": 0.36707834041479864, "timer/agent.train_min": 0.36067986488342285, "timer/agent.train_max": 0.38187098503112793, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22426414489746094, "timer/agent.report_frac": 0.0007473805520639697, "timer/agent.report_avg": 0.22426414489746094, "timer/agent.report_min": 0.22426414489746094, "timer/agent.report_max": 0.22426414489746094, "fps": 4.838861192607553}
{"step": 615524, "episode/length": 222.0, "episode/score": 11.1000000461936, "episode/sum_abs_reward": 13.30000003427267, "episode/reward_rate": 0.05829596412556054}
{"step": 615810, "episode/length": 285.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.03496503496503497}
{"step": 616056, "episode/length": 245.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.04878048780487805}
{"step": 616242, "episode/length": 185.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.06451612903225806}
{"step": 616668, "episode/length": 425.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.028169014084507043}
{"step": 616874, "episode/length": 205.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 11.700000040233135, "episode/reward_rate": 0.04854368932038835}
{"step": 617005, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.507195638020833, "train/action_min": 0.0, "train/action_std": 3.385212475458781, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.042761474549770355, "train/actor_opt_grad_steps": 307580.0, "train/actor_opt_loss": -14.141707589626312, "train/adv_mag": 0.465068709452947, "train/adv_max": 0.42350758632024127, "train/adv_mean": 0.0023646031897624196, "train/adv_min": -0.3791697766383489, "train/adv_std": 0.04823959981401761, "train/cont_avg": 0.9944270833333333, "train/cont_loss_mean": 0.0001811110801493972, "train/cont_loss_std": 0.005662211438620186, "train/cont_neg_acc": 0.9887619058291117, "train/cont_neg_loss": 0.0309434639798684, "train/cont_pos_acc": 0.9999868694941203, "train/cont_pos_loss": 4.389058633535114e-05, "train/cont_pred": 0.9944477454821269, "train/cont_rate": 0.9944270833333333, "train/dyn_loss_mean": 5.188393465677897, "train/dyn_loss_std": 8.797658971150716, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.038680652777354, "train/extr_critic_critic_opt_grad_steps": 307580.0, "train/extr_critic_critic_opt_loss": 16086.8533984375, "train/extr_critic_mag": 11.105926500956217, "train/extr_critic_max": 11.105926500956217, "train/extr_critic_mean": 2.8645973126093547, "train/extr_critic_min": -0.46649038791656494, "train/extr_critic_std": 2.7049248758951823, "train/extr_return_normed_mag": 1.4648148250579833, "train/extr_return_normed_max": 1.4648148250579833, "train/extr_return_normed_mean": 0.3690592801570892, "train/extr_return_normed_min": -0.07820040432115395, "train/extr_return_normed_std": 0.3336588009198507, "train/extr_return_rate": 0.7390434447924296, "train/extr_return_raw_mag": 11.863474820454915, "train/extr_return_raw_max": 11.863474820454915, "train/extr_return_raw_mean": 2.8840021514892578, "train/extr_return_raw_min": -0.7793170948823293, "train/extr_return_raw_std": 2.73427191734314, "train/extr_reward_mag": 1.0539464696248373, "train/extr_reward_max": 1.0539464696248373, "train/extr_reward_mean": 0.056402300794919334, "train/extr_reward_min": -0.641435645421346, "train/extr_reward_std": 0.22917490740617116, "train/image_loss_mean": 3.1390924294789633, "train/image_loss_std": 8.412016359965007, "train/model_loss_mean": 6.306738739013672, "train/model_loss_std": 12.535052223205566, "train/model_opt_grad_norm": 28.280963757832843, "train/model_opt_grad_steps": 307335.0, "train/model_opt_loss": 10711.948828125, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1716.6666666666667, "train/policy_entropy_mag": 2.6779056771596275, "train/policy_entropy_max": 2.6779056771596275, "train/policy_entropy_mean": 0.4215467095375061, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6068563989798228, "train/policy_logprob_mag": 7.438384259541829, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.42214137574036914, "train/policy_logprob_min": -7.438384259541829, "train/policy_logprob_std": 1.0411816970507304, "train/policy_randomness_mag": 0.9451831833521525, "train/policy_randomness_max": 0.9451831833521525, "train/policy_randomness_mean": 0.14878748973210654, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2141936767101288, "train/post_ent_mag": 55.23898640950521, "train/post_ent_max": 55.23898640950521, "train/post_ent_mean": 40.85836898803711, "train/post_ent_min": 19.37740606943766, "train/post_ent_std": 5.695212376912435, "train/prior_ent_mag": 76.6130132039388, "train/prior_ent_max": 76.6130132039388, "train/prior_ent_mean": 46.04476938883464, "train/prior_ent_min": 28.495006484985353, "train/prior_ent_std": 7.542783641815186, "train/rep_loss_mean": 5.188393465677897, "train/rep_loss_std": 8.797658971150716, "train/reward_avg": 0.03846614564458529, "train/reward_loss_mean": 0.05442908013860385, "train/reward_loss_std": 0.21520495176315307, "train/reward_max_data": 1.0213333384195964, "train/reward_max_pred": 1.0190976746877034, "train/reward_neg_acc": 0.9943485633532206, "train/reward_neg_loss": 0.023765670650949082, "train/reward_pos_acc": 0.9866610964139303, "train/reward_pos_loss": 0.7355677127838135, "train/reward_pred": 0.038049864868323006, "train/reward_rate": 0.04321614583333333, "stats/sum_log_reward": 10.43333355585734, "stats/max_log_achievement_collect_coal": 0.3333333333333333, "stats/max_log_achievement_collect_drink": 3.6666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 14.0, "stats/max_log_achievement_collect_wood": 10.166666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.1666666666666667, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.5, "stats/max_log_achievement_place_furnace": 2.3333333333333335, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_stone": 3.3333333333333335, "stats/max_log_achievement_place_table": 2.6666666666666665, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.5195208787918091, "replay/size": 616942.0, "replay/inserts": 1488.0, "replay/samples": 11904.0, "replay/insert_wait_avg": 3.062108511565834e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3714475977805352e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.148197889328, "timer/env.step_count": 1488.0, "timer/env.step_total": 15.564080715179443, "timer/env.step_frac": 0.05185465321673629, "timer/env.step_avg": 0.010459731663427046, "timer/env.step_min": 0.002327442169189453, "timer/env.step_max": 1.306901454925537, "timer/replay.add_count": 1488.0, "timer/replay.add_total": 0.2641313076019287, "timer/replay.add_frac": 0.0008800029767272512, "timer/replay.add_avg": 0.00017750759919484457, "timer/replay.add_min": 6.246566772460938e-05, "timer/replay.add_max": 0.0008039474487304688, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02084827423095703, "timer/logger.write_frac": 6.945993471746348e-05, "timer/logger.write_avg": 0.02084827423095703, "timer/logger.write_min": 0.02084827423095703, "timer/logger.write_max": 0.02084827423095703, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1488.0, "timer/agent.policy_total": 10.515380382537842, "timer/agent.policy_frac": 0.03503396141133961, "timer/agent.policy_avg": 0.007066787891490485, "timer/agent.policy_min": 0.005774021148681641, "timer/agent.policy_max": 0.017212867736816406, "timer/dataset_count": 744.0, "timer/dataset_total": 0.058307647705078125, "timer/dataset_frac": 0.00019426286119691308, "timer/dataset_avg": 7.837049422725554e-05, "timer/dataset_min": 5.5789947509765625e-05, "timer/dataset_max": 0.00015854835510253906, "timer/agent.train_count": 744.0, "timer/agent.train_total": 273.1029043197632, "timer/agent.train_frac": 0.909893533395336, "timer/agent.train_avg": 0.36707379612871394, "timer/agent.train_min": 0.36079859733581543, "timer/agent.train_max": 0.3812265396118164, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21973967552185059, "timer/agent.report_frac": 0.0007321039308817506, "timer/agent.report_avg": 0.21973967552185059, "timer/agent.report_min": 0.21973967552185059, "timer/agent.report_max": 0.21973967552185059, "fps": 4.957437775103173}
{"step": 617080, "episode/length": 205.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.05825242718446602}
{"step": 617287, "episode/length": 206.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.06280193236714976}
{"step": 617564, "episode/length": 276.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.30000003427267, "episode/reward_rate": 0.04332129963898917}
{"step": 617774, "episode/length": 209.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.500000044703484, "episode/reward_rate": 0.05714285714285714}
{"step": 618022, "episode/length": 247.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.700000002980232, "episode/reward_rate": 0.04032258064516129}
{"step": 618235, "episode/length": 212.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.700000040233135, "episode/reward_rate": 0.06103286384976526}
{"step": 618456, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.539280361599392, "train/action_min": 0.0, "train/action_std": 3.463570925924513, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04274130053818226, "train/actor_opt_grad_steps": 308315.0, "train/actor_opt_loss": -13.315954827600056, "train/adv_mag": 0.42822790518403053, "train/adv_max": 0.3776032386554612, "train/adv_mean": 0.0021783871130891283, "train/adv_min": -0.37241874386866886, "train/adv_std": 0.048216754777563944, "train/cont_avg": 0.9949408637152778, "train/cont_loss_mean": 1.2085748745091803e-05, "train/cont_loss_std": 0.0003409986074590026, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.000582800649766667, "train/cont_pos_acc": 0.9999999817874696, "train/cont_pos_loss": 8.481951124868678e-06, "train/cont_pred": 0.9949364314476649, "train/cont_rate": 0.9949408637152778, "train/dyn_loss_mean": 5.288700719674428, "train/dyn_loss_std": 8.7371476954884, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0273149361213048, "train/extr_critic_critic_opt_grad_steps": 308315.0, "train/extr_critic_critic_opt_loss": 16246.958808051215, "train/extr_critic_mag": 11.033238622877333, "train/extr_critic_max": 11.033238622877333, "train/extr_critic_mean": 2.7768914418088064, "train/extr_critic_min": -0.4970260262489319, "train/extr_critic_std": 2.6610510498285294, "train/extr_return_normed_mag": 1.4543660398986604, "train/extr_return_normed_max": 1.4543660398986604, "train/extr_return_normed_mean": 0.3556794902930657, "train/extr_return_normed_min": -0.081501345615834, "train/extr_return_normed_std": 0.32673231822748977, "train/extr_return_rate": 0.7338759063018693, "train/extr_return_raw_mag": 11.865857707129585, "train/extr_return_raw_max": 11.865857707129585, "train/extr_return_raw_mean": 2.794843912124634, "train/extr_return_raw_min": -0.8148869934181372, "train/extr_return_raw_std": 2.6979774600929685, "train/extr_reward_mag": 1.050662683116065, "train/extr_reward_max": 1.050662683116065, "train/extr_reward_mean": 0.053735513938590884, "train/extr_reward_min": -0.6433193302816815, "train/extr_reward_std": 0.22426191034416357, "train/image_loss_mean": 3.153831824660301, "train/image_loss_std": 8.06476785739263, "train/model_loss_mean": 6.37794389989641, "train/model_loss_std": 12.193252152866787, "train/model_opt_grad_norm": 33.64786460664537, "train/model_opt_grad_steps": 308070.0, "train/model_opt_loss": 15944.859768337674, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.684821297725042, "train/policy_entropy_max": 2.684821297725042, "train/policy_entropy_mean": 0.43988630010022056, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6279422516624132, "train/policy_logprob_mag": 7.438384281264411, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4395100048018826, "train/policy_logprob_min": -7.438384281264411, "train/policy_logprob_std": 1.0540238693356514, "train/policy_randomness_mag": 0.947624103890525, "train/policy_randomness_max": 0.947624103890525, "train/policy_randomness_mean": 0.15526055958535936, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2216360570035047, "train/post_ent_mag": 55.24660857518514, "train/post_ent_max": 55.24660857518514, "train/post_ent_mean": 40.67283291286893, "train/post_ent_min": 19.03348186280992, "train/post_ent_std": 5.678527812163035, "train/prior_ent_mag": 76.54930157131619, "train/prior_ent_max": 76.54930157131619, "train/prior_ent_mean": 45.93102275000678, "train/prior_ent_min": 28.327785306506687, "train/prior_ent_std": 7.525741550657484, "train/rep_loss_mean": 5.288700719674428, "train/rep_loss_std": 8.7371476954884, "train/reward_avg": 0.03548583954883119, "train/reward_loss_mean": 0.050879590316779084, "train/reward_loss_std": 0.19789344424174893, "train/reward_max_data": 1.0152777814202838, "train/reward_max_pred": 1.016063888867696, "train/reward_neg_acc": 0.9943659090333514, "train/reward_neg_loss": 0.023062801066165168, "train/reward_pos_acc": 0.9904265685213937, "train/reward_pos_loss": 0.7156829759478569, "train/reward_pred": 0.03535656540447639, "train/reward_rate": 0.04018825954861111, "stats/sum_log_reward": 10.93333371480306, "stats/max_log_achievement_collect_coal": 1.1666666666666667, "stats/max_log_achievement_collect_drink": 2.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 14.5, "stats/max_log_achievement_collect_wood": 10.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.6666666666666667, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.5, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 4.166666666666667, "stats/max_log_achievement_place_table": 2.3333333333333335, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.4215106318394343, "replay/size": 618393.0, "replay/inserts": 1451.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.3746662836580915e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3697147369384766e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0115077495575, "timer/env.step_count": 1451.0, "timer/env.step_total": 18.381195783615112, "timer/env.step_frac": 0.06126830241111717, "timer/env.step_avg": 0.012667950229920821, "timer/env.step_min": 0.0027773380279541016, "timer/env.step_max": 1.6196796894073486, "timer/replay.add_count": 1451.0, "timer/replay.add_total": 0.27437591552734375, "timer/replay.add_frac": 0.0009145513036666122, "timer/replay.add_avg": 0.00018909435942615006, "timer/replay.add_min": 5.817413330078125e-05, "timer/replay.add_max": 0.009160757064819336, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02876448631286621, "timer/logger.write_frac": 9.587794324502419e-05, "timer/logger.write_avg": 0.02876448631286621, "timer/logger.write_min": 0.02876448631286621, "timer/logger.write_max": 0.02876448631286621, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1451.0, "timer/agent.policy_total": 10.913967847824097, "timer/agent.policy_frac": 0.03637849737729, "timer/agent.policy_avg": 0.00752168700745975, "timer/agent.policy_min": 0.006027698516845703, "timer/agent.policy_max": 0.020318269729614258, "timer/dataset_count": 725.0, "timer/dataset_total": 0.05921316146850586, "timer/dataset_frac": 0.00019736963396062662, "timer/dataset_avg": 8.167332616345635e-05, "timer/dataset_min": 6.0558319091796875e-05, "timer/dataset_max": 0.0001494884490966797, "timer/agent.train_count": 725.0, "timer/agent.train_total": 269.70991611480713, "timer/agent.train_frac": 0.8989985688814129, "timer/agent.train_avg": 0.37201367739973396, "timer/agent.train_min": 0.3621647357940674, "timer/agent.train_max": 0.38587284088134766, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2184162139892578, "timer/agent.report_frac": 0.0007280261201566524, "timer/agent.report_avg": 0.2184162139892578, "timer/agent.report_min": 0.2184162139892578, "timer/agent.report_max": 0.2184162139892578, "fps": 4.836374986975482}
{"step": 618496, "episode/length": 260.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.04597701149425287}
{"step": 618695, "episode/length": 198.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.06532663316582915}
{"step": 619172, "episode/length": 476.0, "episode/score": 11.099999994039536, "episode/sum_abs_reward": 14.900000035762787, "episode/reward_rate": 0.027253668763102725}
{"step": 619305, "episode/length": 132.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 11.899999991059303, "episode/reward_rate": 0.09022556390977443}
{"step": 619492, "episode/length": 186.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.900000028312206, "episode/reward_rate": 0.053475935828877004}
{"step": 619668, "episode/length": 175.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.0625}
{"step": 619911, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.630790814961473, "train/action_min": 0.0, "train/action_std": 3.490910376587959, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.042447113317169556, "train/actor_opt_grad_steps": 309040.0, "train/actor_opt_loss": -13.406259396304822, "train/adv_mag": 0.40132509355675683, "train/adv_max": 0.3771353686509067, "train/adv_mean": 0.0021560736605937413, "train/adv_min": -0.331977807495692, "train/adv_std": 0.04780638605764467, "train/cont_avg": 0.994488441780822, "train/cont_loss_mean": 4.5713695019162205e-05, "train/cont_loss_std": 0.001358458721248497, "train/cont_neg_acc": 0.9954337902265052, "train/cont_neg_loss": 0.008027884570156968, "train/cont_pos_acc": 0.9999865146532451, "train/cont_pos_loss": 2.1161833267155562e-05, "train/cont_pred": 0.994486050246513, "train/cont_rate": 0.994488441780822, "train/dyn_loss_mean": 5.164444720908387, "train/dyn_loss_std": 8.719055188845282, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0482394458496407, "train/extr_critic_critic_opt_grad_steps": 309040.0, "train/extr_critic_critic_opt_loss": 16209.71750588613, "train/extr_critic_mag": 10.95946737838118, "train/extr_critic_max": 10.95946737838118, "train/extr_critic_mean": 2.7584701253943247, "train/extr_critic_min": -0.49260611566778734, "train/extr_critic_std": 2.6849576316467703, "train/extr_return_normed_mag": 1.4459480047225952, "train/extr_return_normed_max": 1.4459480047225952, "train/extr_return_normed_mean": 0.3583678637873636, "train/extr_return_normed_min": -0.0865372189716117, "train/extr_return_normed_std": 0.3342961464842705, "train/extr_return_rate": 0.7155233670587409, "train/extr_return_raw_mag": 11.621480954836493, "train/extr_return_raw_max": 11.621480954836493, "train/extr_return_raw_mean": 2.776026136254611, "train/extr_return_raw_min": -0.8427973369213, "train/extr_return_raw_std": 2.7192459400386024, "train/extr_reward_mag": 1.0549713977395672, "train/extr_reward_max": 1.0549713977395672, "train/extr_reward_mean": 0.056219883263111115, "train/extr_reward_min": -0.6620121655398852, "train/extr_reward_std": 0.22912972144884605, "train/image_loss_mean": 3.0934180331556766, "train/image_loss_std": 8.166483663532832, "train/model_loss_mean": 6.24620880492746, "train/model_loss_std": 12.253357482283082, "train/model_opt_grad_norm": 26.197826725162873, "train/model_opt_grad_steps": 308794.01369863015, "train/model_opt_loss": 15615.522046232876, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2534.246575342466, "train/policy_entropy_mag": 2.670752665767931, "train/policy_entropy_max": 2.670752665767931, "train/policy_entropy_mean": 0.4470215166268283, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6331168621370237, "train/policy_logprob_mag": 7.438384225923721, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.44700481120037705, "train/policy_logprob_min": -7.438384225923721, "train/policy_logprob_std": 1.0590768603429401, "train/policy_randomness_mag": 0.9426584872480941, "train/policy_randomness_max": 0.9426584872480941, "train/policy_randomness_mean": 0.15777897957253129, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22346246722218108, "train/post_ent_mag": 55.19275665283203, "train/post_ent_max": 55.19275665283203, "train/post_ent_mean": 40.81006381936269, "train/post_ent_min": 18.85338154884234, "train/post_ent_std": 5.647438277936962, "train/prior_ent_mag": 76.67627235308085, "train/prior_ent_max": 76.67627235308085, "train/prior_ent_mean": 46.004608311065255, "train/prior_ent_min": 28.577713587512708, "train/prior_ent_std": 7.541230658962302, "train/rep_loss_mean": 5.164444720908387, "train/rep_loss_std": 8.719055188845282, "train/reward_avg": 0.03732207823187521, "train/reward_loss_mean": 0.05407826306476985, "train/reward_loss_std": 0.20712140059634432, "train/reward_max_data": 1.0150684967432937, "train/reward_max_pred": 1.0169334215660617, "train/reward_neg_acc": 0.9942119676772863, "train/reward_neg_loss": 0.0245243544524459, "train/reward_pos_acc": 0.9889918892350915, "train/reward_pos_loss": 0.7233294591511765, "train/reward_pred": 0.03698119684441449, "train/reward_rate": 0.042313249143835614, "stats/sum_log_reward": 10.600000222524008, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 3.8333333333333335, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.5, "stats/max_log_achievement_collect_stone": 10.333333333333334, "stats/max_log_achievement_collect_wood": 10.0, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 0.6666666666666666, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.1666666666666667, "stats/max_log_achievement_place_plant": 2.3333333333333335, "stats/max_log_achievement_place_stone": 5.166666666666667, "stats/max_log_achievement_place_table": 2.1666666666666665, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.43078822642564774, "replay/size": 619848.0, "replay/inserts": 1455.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.2505218925344984e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4661882932369526e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.08278465270996, "timer/env.step_count": 1455.0, "timer/env.step_total": 16.052247285842896, "timer/env.step_frac": 0.05349272969597502, "timer/env.step_avg": 0.011032472361404052, "timer/env.step_min": 0.0023660659790039062, "timer/env.step_max": 1.4091317653656006, "timer/replay.add_count": 1455.0, "timer/replay.add_total": 0.27343249320983887, "timer/replay.add_frac": 0.0009111902021513369, "timer/replay.add_avg": 0.00018792611217171055, "timer/replay.add_min": 6.008148193359375e-05, "timer/replay.add_max": 0.0032737255096435547, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021709918975830078, "timer/logger.write_frac": 7.234643267175514e-05, "timer/logger.write_avg": 0.021709918975830078, "timer/logger.write_min": 0.021709918975830078, "timer/logger.write_max": 0.021709918975830078, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0005004405975341797, "timer/checkpoint.save_frac": 1.667675132091788e-06, "timer/checkpoint.save_avg": 0.0005004405975341797, "timer/checkpoint.save_min": 0.0005004405975341797, "timer/checkpoint.save_max": 0.0005004405975341797, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3975074291229248, "timer/agent.save_frac": 0.0046570729831778915, "timer/agent.save_avg": 1.3975074291229248, "timer/agent.save_min": 1.3975074291229248, "timer/agent.save_max": 1.3975074291229248, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.296966552734375e-05, "timer/replay.save_frac": 2.764892548680049e-07, "timer/replay.save_avg": 8.296966552734375e-05, "timer/replay.save_min": 8.296966552734375e-05, "timer/replay.save_max": 8.296966552734375e-05, "timer/agent.policy_count": 1455.0, "timer/agent.policy_total": 11.692151308059692, "timer/agent.policy_frac": 0.03896308587509005, "timer/agent.policy_avg": 0.008035842823408723, "timer/agent.policy_min": 0.005853176116943359, "timer/agent.policy_max": 1.0042259693145752, "timer/dataset_count": 728.0, "timer/dataset_total": 0.059967994689941406, "timer/dataset_frac": 0.000199838170521322, "timer/dataset_avg": 8.237361907958984e-05, "timer/dataset_min": 5.5789947509765625e-05, "timer/dataset_max": 0.0010180473327636719, "timer/agent.train_count": 728.0, "timer/agent.train_total": 271.33620166778564, "timer/agent.train_frac": 0.9042044913766275, "timer/agent.train_avg": 0.37271456273047476, "timer/agent.train_min": 0.3609497547149658, "timer/agent.train_max": 3.088204860687256, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22574281692504883, "timer/agent.report_frac": 0.0007522684688037142, "timer/agent.report_avg": 0.22574281692504883, "timer/agent.report_min": 0.22574281692504883, "timer/agent.report_max": 0.22574281692504883, "fps": 4.848547995566262}
{"step": 620092, "episode/length": 423.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.030660377358490566}
{"step": 620244, "episode/length": 151.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.06578947368421052}
{"step": 620437, "episode/length": 192.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.06217616580310881}
{"step": 620600, "episode/length": 162.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.0736196319018405}
{"step": 620706, "episode/length": 105.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 11.10000005364418, "episode/reward_rate": 0.09433962264150944}
{"step": 620944, "episode/length": 237.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.046218487394957986}
{"step": 621059, "episode/length": 114.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 11.100000031292439, "episode/reward_rate": 0.08695652173913043}
{"step": 621244, "episode/length": 184.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.07027027027027027}
{"step": 621381, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.570305076805321, "train/action_min": 0.0, "train/action_std": 3.4662808276511528, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.043289889531159725, "train/actor_opt_grad_steps": 309775.0, "train/actor_opt_loss": -12.793689152678928, "train/adv_mag": 0.4053951691131334, "train/adv_max": 0.37726522015558706, "train/adv_mean": 0.001979001442491977, "train/adv_min": -0.3419969114097389, "train/adv_std": 0.04807228897068951, "train/cont_avg": 0.9945365287162162, "train/cont_loss_mean": 1.0277795713453063e-05, "train/cont_loss_std": 0.00030588400293857384, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0010892505217287708, "train/cont_pos_acc": 0.9999999855015729, "train/cont_pos_loss": 3.649684842560002e-06, "train/cont_pred": 0.99453939215557, "train/cont_rate": 0.9945365287162162, "train/dyn_loss_mean": 5.200082411637178, "train/dyn_loss_std": 8.753613413991156, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9953103532662263, "train/extr_critic_critic_opt_grad_steps": 309775.0, "train/extr_critic_critic_opt_loss": 16206.957347972973, "train/extr_critic_mag": 10.769368017042005, "train/extr_critic_max": 10.769368017042005, "train/extr_critic_mean": 2.7271032671670654, "train/extr_critic_min": -0.5155945855218012, "train/extr_critic_std": 2.6169793992429167, "train/extr_return_normed_mag": 1.4406685104241241, "train/extr_return_normed_max": 1.4406685104241241, "train/extr_return_normed_mean": 0.3582342220722018, "train/extr_return_normed_min": -0.08907643197154677, "train/extr_return_normed_std": 0.32831515110022313, "train/extr_return_rate": 0.7218090513268033, "train/extr_return_raw_mag": 11.465677171140104, "train/extr_return_raw_max": 11.465677171140104, "train/extr_return_raw_mean": 2.7430520267099947, "train/extr_return_raw_min": -0.8611514379043836, "train/extr_return_raw_std": 2.645504775884989, "train/extr_reward_mag": 1.0583169782483899, "train/extr_reward_max": 1.0583169782483899, "train/extr_reward_mean": 0.05262176226824522, "train/extr_reward_min": -0.6597931497805828, "train/extr_reward_std": 0.22197833033026876, "train/image_loss_mean": 3.156584913666184, "train/image_loss_std": 8.298448923471812, "train/model_loss_mean": 6.328854084014893, "train/model_loss_std": 12.422876448244661, "train/model_opt_grad_norm": 28.195213652945853, "train/model_opt_grad_steps": 309528.4864864865, "train/model_opt_loss": 17539.730666701857, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2770.2702702702704, "train/policy_entropy_mag": 2.6929982997275688, "train/policy_entropy_max": 2.6929982997275688, "train/policy_entropy_mean": 0.4521232750770208, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6448060560065347, "train/policy_logprob_mag": 7.43838424940367, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.45083084501124715, "train/policy_logprob_min": -7.43838424940367, "train/policy_logprob_std": 1.0613865852355957, "train/policy_randomness_mag": 0.9505102247805208, "train/policy_randomness_max": 0.9505102247805208, "train/policy_randomness_mean": 0.15957967665147138, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22758824176884987, "train/post_ent_mag": 55.400379077808275, "train/post_ent_max": 55.400379077808275, "train/post_ent_mean": 40.8811463536443, "train/post_ent_min": 19.280302473016686, "train/post_ent_std": 5.657691562497938, "train/prior_ent_mag": 76.62827084515546, "train/prior_ent_max": 76.62827084515546, "train/prior_ent_mean": 46.121238708496094, "train/prior_ent_min": 28.61576912854169, "train/prior_ent_std": 7.523040075559874, "train/rep_loss_mean": 5.200082411637178, "train/rep_loss_std": 8.753613413991156, "train/reward_avg": 0.03611829569814978, "train/reward_loss_mean": 0.052209496900842, "train/reward_loss_std": 0.19933227852389618, "train/reward_max_data": 1.0216216267766178, "train/reward_max_pred": 1.0220000131710156, "train/reward_neg_acc": 0.9947558713925851, "train/reward_neg_loss": 0.023758467551119423, "train/reward_pos_acc": 0.9909697908001978, "train/reward_pos_loss": 0.7144993277820381, "train/reward_pred": 0.03593760862241726, "train/reward_rate": 0.041068412162162164, "stats/sum_log_reward": 10.474999904632568, "stats/max_log_achievement_collect_coal": 0.875, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.375, "stats/max_log_achievement_collect_stone": 14.5, "stats/max_log_achievement_collect_wood": 8.375, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.25, "stats/max_log_achievement_place_plant": 1.25, "stats/max_log_achievement_place_stone": 4.25, "stats/max_log_achievement_place_table": 1.875, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.4214642606675625, "replay/size": 621318.0, "replay/inserts": 1470.0, "replay/samples": 11760.0, "replay/insert_wait_avg": 3.1654526587246227e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4409524242894179e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0424792766571, "timer/env.step_count": 1470.0, "timer/env.step_total": 18.33397078514099, "timer/env.step_frac": 0.06110458368875153, "timer/env.step_avg": 0.012472088969483668, "timer/env.step_min": 0.0023088455200195312, "timer/env.step_max": 1.5159249305725098, "timer/replay.add_count": 1470.0, "timer/replay.add_total": 0.2613205909729004, "timer/replay.add_frac": 0.000870945312820013, "timer/replay.add_avg": 0.00017776910950537443, "timer/replay.add_min": 6.103515625e-05, "timer/replay.add_max": 0.0008089542388916016, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02338719367980957, "timer/logger.write_frac": 7.79462752613945e-05, "timer/logger.write_avg": 0.02338719367980957, "timer/logger.write_min": 0.02338719367980957, "timer/logger.write_max": 0.02338719367980957, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1470.0, "timer/agent.policy_total": 10.548731327056885, "timer/agent.policy_frac": 0.03515745954535432, "timer/agent.policy_avg": 0.007176007705480874, "timer/agent.policy_min": 0.005812406539916992, "timer/agent.policy_max": 0.014769554138183594, "timer/dataset_count": 735.0, "timer/dataset_total": 0.05762767791748047, "timer/dataset_frac": 0.0001920650637750007, "timer/dataset_avg": 7.840500396936118e-05, "timer/dataset_min": 5.6743621826171875e-05, "timer/dataset_max": 0.00014972686767578125, "timer/agent.train_count": 735.0, "timer/agent.train_total": 270.1837854385376, "timer/agent.train_frac": 0.9004851116078534, "timer/agent.train_avg": 0.36759698699120763, "timer/agent.train_min": 0.3601112365722656, "timer/agent.train_max": 0.3830392360687256, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.224259614944458, "timer/agent.report_frac": 0.0007474262160648167, "timer/agent.report_avg": 0.224259614944458, "timer/agent.report_min": 0.224259614944458, "timer/agent.report_max": 0.224259614944458, "fps": 4.899196316712924}
{"step": 621651, "episode/length": 406.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.03194103194103194}
{"step": 621886, "episode/length": 234.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.05106382978723404}
{"step": 622085, "episode/length": 198.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06030150753768844}
{"step": 622343, "episode/length": 257.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.046511627906976744}
{"step": 622553, "episode/length": 209.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.06190476190476191}
{"step": 622817, "episode/length": 263.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 8.899999991059303, "episode/reward_rate": 0.03409090909090909}
{"step": 622869, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.510436186919341, "train/action_min": 0.0, "train/action_std": 3.4145314596794747, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.042790390047672634, "train/actor_opt_grad_steps": 310515.0, "train/actor_opt_loss": -11.882825441457129, "train/adv_mag": 0.4435088658655012, "train/adv_max": 0.38306645082460866, "train/adv_mean": 0.002486983505543715, "train/adv_min": -0.38416597529037577, "train/adv_std": 0.048184040380088056, "train/cont_avg": 0.9944969383445946, "train/cont_loss_mean": 6.317289866220644e-05, "train/cont_loss_std": 0.001976325245474807, "train/cont_neg_acc": 0.9972972974583909, "train/cont_neg_loss": 0.007119821809843535, "train/cont_pos_acc": 0.9999866421158249, "train/cont_pos_loss": 2.7528258185596412e-05, "train/cont_pred": 0.9944974610934386, "train/cont_rate": 0.9944969383445946, "train/dyn_loss_mean": 5.185295034099269, "train/dyn_loss_std": 8.823265674951914, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0715372369096086, "train/extr_critic_critic_opt_grad_steps": 310515.0, "train/extr_critic_critic_opt_loss": 16190.879486908783, "train/extr_critic_mag": 10.825712745254105, "train/extr_critic_max": 10.825712745254105, "train/extr_critic_mean": 2.741363180650247, "train/extr_critic_min": -0.4918128058717057, "train/extr_critic_std": 2.63558609743376, "train/extr_return_normed_mag": 1.449971933622618, "train/extr_return_normed_max": 1.449971933622618, "train/extr_return_normed_mean": 0.3606659099459648, "train/extr_return_normed_min": -0.07842512418692177, "train/extr_return_normed_std": 0.3308221725998698, "train/extr_return_rate": 0.7233055693072241, "train/extr_return_raw_mag": 11.557686509312811, "train/extr_return_raw_max": 11.557686509312811, "train/extr_return_raw_mean": 2.7614577928104915, "train/extr_return_raw_min": -0.7844331812214207, "train/extr_return_raw_std": 2.6715053158837394, "train/extr_reward_mag": 1.0552341938018799, "train/extr_reward_max": 1.0552341938018799, "train/extr_reward_mean": 0.05311385970059279, "train/extr_reward_min": -0.6769124446688471, "train/extr_reward_std": 0.22345443130344958, "train/image_loss_mean": 3.223613265398386, "train/image_loss_std": 8.595746336756525, "train/model_loss_mean": 6.388465127429447, "train/model_loss_std": 12.768653805191452, "train/model_opt_grad_norm": 26.184549666739798, "train/model_opt_grad_steps": 310267.8378378378, "train/model_opt_loss": 15971.16284839527, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6849800928218945, "train/policy_entropy_max": 2.6849800928218945, "train/policy_entropy_mean": 0.43899091635201426, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6253116606055079, "train/policy_logprob_mag": 7.438384204297452, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.43989169476805506, "train/policy_logprob_min": -7.438384204297452, "train/policy_logprob_std": 1.055945159615697, "train/policy_randomness_mag": 0.9476801455020905, "train/policy_randomness_max": 0.9476801455020905, "train/policy_randomness_mean": 0.1549445298072454, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2207075773260078, "train/post_ent_mag": 55.16863451777278, "train/post_ent_max": 55.16863451777278, "train/post_ent_mean": 40.801061681798984, "train/post_ent_min": 19.20144594037855, "train/post_ent_std": 5.699121178807439, "train/prior_ent_mag": 76.65103829873574, "train/prior_ent_max": 76.65103829873574, "train/prior_ent_mean": 45.96398487606564, "train/prior_ent_min": 28.288990922876305, "train/prior_ent_std": 7.563621559658566, "train/rep_loss_mean": 5.185295034099269, "train/rep_loss_std": 8.823265674951914, "train/reward_avg": 0.036597339335728334, "train/reward_loss_mean": 0.053611701505409705, "train/reward_loss_std": 0.20949120839705337, "train/reward_max_data": 1.0310810884913884, "train/reward_max_pred": 1.0259897386705554, "train/reward_neg_acc": 0.9945992336079881, "train/reward_neg_loss": 0.023980217759270925, "train/reward_pos_acc": 0.9875565106804306, "train/reward_pos_loss": 0.7359567413458953, "train/reward_pred": 0.03608653129304986, "train/reward_rate": 0.0415698902027027, "stats/sum_log_reward": 10.766666809717814, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 3.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.5, "stats/max_log_achievement_collect_stone": 15.0, "stats/max_log_achievement_collect_wood": 10.0, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.3333333333333333, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.3333333333333333, "stats/max_log_achievement_place_furnace": 2.3333333333333335, "stats/max_log_achievement_place_plant": 2.1666666666666665, "stats/max_log_achievement_place_stone": 4.333333333333333, "stats/max_log_achievement_place_table": 2.8333333333333335, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.4586871365706126, "replay/size": 622806.0, "replay/inserts": 1488.0, "replay/samples": 11904.0, "replay/insert_wait_avg": 3.031985734098701e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3555049575785155e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.06053853034973, "timer/env.step_count": 1488.0, "timer/env.step_total": 15.801002502441406, "timer/env.step_frac": 0.05265938193616622, "timer/env.step_avg": 0.010618953294651482, "timer/env.step_min": 0.002380847930908203, "timer/env.step_max": 1.2886128425598145, "timer/replay.add_count": 1488.0, "timer/replay.add_total": 0.261002779006958, "timer/replay.add_frac": 0.0008698337351699406, "timer/replay.add_avg": 0.00017540509341865457, "timer/replay.add_min": 6.079673767089844e-05, "timer/replay.add_max": 0.0007951259613037109, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.018634796142578125, "timer/logger.write_frac": 6.210345496894888e-05, "timer/logger.write_avg": 0.018634796142578125, "timer/logger.write_min": 0.018634796142578125, "timer/logger.write_max": 0.018634796142578125, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1488.0, "timer/agent.policy_total": 10.704762697219849, "timer/agent.policy_frac": 0.03567534321457305, "timer/agent.policy_avg": 0.007194060952432694, "timer/agent.policy_min": 0.005701303482055664, "timer/agent.policy_max": 0.01483297348022461, "timer/dataset_count": 744.0, "timer/dataset_total": 0.05696868896484375, "timer/dataset_frac": 0.0001898573176061991, "timer/dataset_avg": 7.657081850113408e-05, "timer/dataset_min": 5.6743621826171875e-05, "timer/dataset_max": 0.0002346038818359375, "timer/agent.train_count": 744.0, "timer/agent.train_total": 272.5986087322235, "timer/agent.train_frac": 0.9084787025557225, "timer/agent.train_avg": 0.36639597947879504, "timer/agent.train_min": 0.36063671112060547, "timer/agent.train_max": 0.38208794593811035, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22095608711242676, "timer/agent.report_frac": 0.0007363716941742344, "timer/agent.report_avg": 0.22095608711242676, "timer/agent.report_min": 0.22095608711242676, "timer/agent.report_max": 0.22095608711242676, "fps": 4.958886904768025}
{"step": 623047, "episode/length": 229.0, "episode/score": 12.099999971687794, "episode/sum_abs_reward": 15.300000049173832, "episode/reward_rate": 0.06086956521739131}
{"step": 623299, "episode/length": 251.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.051587301587301584}
{"step": 623491, "episode/length": 191.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 14.300000056624413, "episode/reward_rate": 0.0625}
{"step": 623710, "episode/length": 218.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.0502283105022831}
{"step": 623939, "episode/length": 228.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.048034934497816595}
{"step": 623981, "episode/length": 41.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.14285714285714285}
{"step": 624167, "episode/length": 185.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.05913978494623656}
{"step": 624319, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.457919186108733, "train/action_min": 0.0, "train/action_std": 3.333191695278638, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04325020593935496, "train/actor_opt_grad_steps": 311250.0, "train/actor_opt_loss": -13.667371932774374, "train/adv_mag": 0.42065622096192345, "train/adv_max": 0.3769505787385653, "train/adv_mean": 0.002288884725377812, "train/adv_min": -0.36758166531177416, "train/adv_std": 0.04830410556025701, "train/cont_avg": 0.9946088398972602, "train/cont_loss_mean": 8.625012875577169e-05, "train/cont_loss_std": 0.0027468825018255195, "train/cont_neg_acc": 0.9971830987594497, "train/cont_neg_loss": 0.017259093407950142, "train/cont_pos_acc": 0.9999999853029643, "train/cont_pos_loss": 5.14078801073442e-06, "train/cont_pred": 0.9946198251149426, "train/cont_rate": 0.9946088398972602, "train/dyn_loss_mean": 5.146817814813901, "train/dyn_loss_std": 8.737283131847644, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0544653698189619, "train/extr_critic_critic_opt_grad_steps": 311250.0, "train/extr_critic_critic_opt_loss": 16189.431694135274, "train/extr_critic_mag": 10.750155370529384, "train/extr_critic_max": 10.750155370529384, "train/extr_critic_mean": 2.783002304704222, "train/extr_critic_min": -0.48983457806992203, "train/extr_critic_std": 2.6399067623974526, "train/extr_return_normed_mag": 1.4316671825435063, "train/extr_return_normed_max": 1.4316671825435063, "train/extr_return_normed_mean": 0.36343418020908147, "train/extr_return_normed_min": -0.08315524586463628, "train/extr_return_normed_std": 0.32929205955707863, "train/extr_return_rate": 0.729051657735485, "train/extr_return_raw_mag": 11.482260220671353, "train/extr_return_raw_max": 11.482260220671353, "train/extr_return_raw_mean": 2.8016002749743527, "train/extr_return_raw_min": -0.8271041169558486, "train/extr_return_raw_std": 2.6758065876895434, "train/extr_reward_mag": 1.0641181305663225, "train/extr_reward_max": 1.0641181305663225, "train/extr_reward_mean": 0.055335187034247675, "train/extr_reward_min": -0.654359370061796, "train/extr_reward_std": 0.22696991162757352, "train/image_loss_mean": 2.9601718138342035, "train/image_loss_std": 8.106403795007157, "train/model_loss_mean": 6.102753070935811, "train/model_loss_std": 12.236048685361261, "train/model_opt_grad_norm": 25.588970105941982, "train/model_opt_grad_steps": 311002.0, "train/model_opt_loss": 15256.882692101884, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6906794881167477, "train/policy_entropy_max": 2.6906794881167477, "train/policy_entropy_mean": 0.4282349552193733, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6202807912271316, "train/policy_logprob_mag": 7.438384238987753, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.42920977754952155, "train/policy_logprob_min": -7.438384238987753, "train/policy_logprob_std": 1.0491626344314993, "train/policy_randomness_mag": 0.9496917830754633, "train/policy_randomness_max": 0.9496917830754633, "train/policy_randomness_mean": 0.1511481459418388, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21893190092419926, "train/post_ent_mag": 55.07219852813303, "train/post_ent_max": 55.07219852813303, "train/post_ent_mean": 40.830679436252545, "train/post_ent_min": 19.680704443422083, "train/post_ent_std": 5.6474920952156795, "train/prior_ent_mag": 76.69844650895628, "train/prior_ent_max": 76.69844650895628, "train/prior_ent_mean": 45.99652778939025, "train/prior_ent_min": 28.62230178101422, "train/prior_ent_std": 7.551877968931851, "train/rep_loss_mean": 5.146817814813901, "train/rep_loss_std": 8.737283131847644, "train/reward_avg": 0.03761638433047353, "train/reward_loss_mean": 0.05440433813284521, "train/reward_loss_std": 0.217703178933222, "train/reward_max_data": 1.0246575401253897, "train/reward_max_pred": 1.0224235384431604, "train/reward_neg_acc": 0.9941633008930781, "train/reward_neg_loss": 0.02428454340575901, "train/reward_pos_acc": 0.9874776087395133, "train/reward_pos_loss": 0.7355454858035257, "train/reward_pred": 0.03722713862175811, "train/reward_rate": 0.042447024828767124, "stats/sum_log_reward": 9.95714282989502, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 4.714285714285714, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.2857142857142856, "stats/max_log_achievement_collect_stone": 6.428571428571429, "stats/max_log_achievement_collect_wood": 11.0, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.4285714285714286, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 0.5714285714285714, "stats/max_log_achievement_place_plant": 1.8571428571428572, "stats/max_log_achievement_place_stone": 2.5714285714285716, "stats/max_log_achievement_place_table": 2.7142857142857144, "stats/max_log_achievement_wake_up": 0.8571428571428571, "stats/mean_log_entropy": 0.3454347274133137, "replay/size": 624256.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.105525312752559e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4913493189318427e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.26002979278564, "timer/env.step_count": 1450.0, "timer/env.step_total": 17.861879110336304, "timer/env.step_frac": 0.05948803482988754, "timer/env.step_avg": 0.012318537317473312, "timer/env.step_min": 0.0028803348541259766, "timer/env.step_max": 1.4207746982574463, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.29540467262268066, "timer/replay.add_frac": 0.000983829492145672, "timer/replay.add_avg": 0.00020372736042943495, "timer/replay.add_min": 6.151199340820312e-05, "timer/replay.add_max": 0.0009233951568603516, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.01884627342224121, "timer/logger.write_frac": 6.276650753431061e-05, "timer/logger.write_avg": 0.01884627342224121, "timer/logger.write_min": 0.01884627342224121, "timer/logger.write_max": 0.01884627342224121, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002636909484863281, "timer/checkpoint.save_frac": 8.782086269301497e-07, "timer/checkpoint.save_avg": 0.0002636909484863281, "timer/checkpoint.save_min": 0.0002636909484863281, "timer/checkpoint.save_max": 0.0002636909484863281, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2015447616577148, "timer/agent.save_frac": 0.004001680684861454, "timer/agent.save_avg": 1.2015447616577148, "timer/agent.save_min": 1.2015447616577148, "timer/agent.save_max": 1.2015447616577148, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.724761962890625e-05, "timer/replay.save_frac": 2.572690733502428e-07, "timer/replay.save_avg": 7.724761962890625e-05, "timer/replay.save_min": 7.724761962890625e-05, "timer/replay.save_max": 7.724761962890625e-05, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 14.864990234375, "timer/agent.policy_frac": 0.049507056415845865, "timer/agent.policy_avg": 0.010251717403017242, "timer/agent.policy_min": 0.0059092044830322266, "timer/agent.policy_max": 2.898407220840454, "timer/dataset_count": 725.0, "timer/dataset_total": 0.059345245361328125, "timer/dataset_frac": 0.00019764617156097417, "timer/dataset_avg": 8.18555108432112e-05, "timer/dataset_min": 5.53131103515625e-05, "timer/dataset_max": 0.00016689300537109375, "timer/agent.train_count": 725.0, "timer/agent.train_total": 266.5257613658905, "timer/agent.train_frac": 0.8876498198905272, "timer/agent.train_avg": 0.3676217398150214, "timer/agent.train_min": 0.3607497215270996, "timer/agent.train_max": 0.3804507255554199, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22165632247924805, "timer/agent.report_frac": 0.0007382145490101253, "timer/agent.report_avg": 0.22165632247924805, "timer/agent.report_min": 0.22165632247924805, "timer/agent.report_max": 0.22165632247924805, "fps": 4.829032992388412}
{"step": 624403, "episode/length": 235.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.05084745762711865}
{"step": 624828, "episode/length": 424.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.900000043213367, "episode/reward_rate": 0.02823529411764706}
{"step": 624994, "episode/length": 165.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.06626506024096386}
{"step": 625045, "episode/length": 50.0, "episode/score": 5.100000001490116, "episode/sum_abs_reward": 7.100000001490116, "episode/reward_rate": 0.13725490196078433}
{"step": 625247, "episode/length": 201.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.06435643564356436}
{"step": 625329, "episode/length": 81.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 9.899999976158142, "episode/reward_rate": 0.12195121951219512}
{"step": 625514, "episode/length": 184.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.05945945945945946}
{"step": 625682, "episode/length": 167.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.300000041723251, "episode/reward_rate": 0.07142857142857142}
{"step": 625781, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.45958469338613, "train/action_min": 0.0, "train/action_std": 3.34940640893701, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04360819914161342, "train/actor_opt_grad_steps": 311980.0, "train/actor_opt_loss": -15.643893313530373, "train/adv_mag": 0.4105753767980288, "train/adv_max": 0.35761870729596645, "train/adv_mean": 0.001351877791035206, "train/adv_min": -0.371236311246271, "train/adv_std": 0.048302955108962646, "train/cont_avg": 0.9945954623287672, "train/cont_loss_mean": 8.965743246009992e-05, "train/cont_loss_std": 0.0028128178072116556, "train/cont_neg_acc": 0.9965753424657534, "train/cont_neg_loss": 0.02173389520843676, "train/cont_pos_acc": 0.9999999779544465, "train/cont_pos_loss": 4.808916903724921e-06, "train/cont_pred": 0.9946042723851661, "train/cont_rate": 0.9945954623287672, "train/dyn_loss_mean": 5.247392576034755, "train/dyn_loss_std": 8.719269523881886, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0673248384096852, "train/extr_critic_critic_opt_grad_steps": 311980.0, "train/extr_critic_critic_opt_loss": 16358.101468857021, "train/extr_critic_mag": 10.78762113231502, "train/extr_critic_max": 10.78762113231502, "train/extr_critic_mean": 2.831659331713637, "train/extr_critic_min": -0.4824818242086123, "train/extr_critic_std": 2.6638653180370593, "train/extr_return_normed_mag": 1.4345822807860702, "train/extr_return_normed_max": 1.4345822807860702, "train/extr_return_normed_mean": 0.36634686140164935, "train/extr_return_normed_min": -0.08166232118255472, "train/extr_return_normed_std": 0.3288948454268991, "train/extr_return_rate": 0.7344401405282217, "train/extr_return_raw_mag": 11.594648700870879, "train/extr_return_raw_max": 11.594648700870879, "train/extr_return_raw_mean": 2.8427159737234247, "train/extr_return_raw_min": -0.8280747732887529, "train/extr_return_raw_std": 2.6947244487396658, "train/extr_reward_mag": 1.058169567421691, "train/extr_reward_max": 1.058169567421691, "train/extr_reward_mean": 0.05657062898964098, "train/extr_reward_min": -0.6792438781424744, "train/extr_reward_std": 0.22992023641932502, "train/image_loss_mean": 3.0938072710821074, "train/image_loss_std": 8.118194194689188, "train/model_loss_mean": 6.29765393635998, "train/model_loss_std": 12.210458063099482, "train/model_opt_grad_norm": 27.854125480129294, "train/model_opt_grad_steps": 311731.20547945204, "train/model_opt_loss": 15744.13495291096, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7022870501426803, "train/policy_entropy_max": 2.7022870501426803, "train/policy_entropy_mean": 0.42570444859870493, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6171805793291902, "train/policy_logprob_mag": 7.438384258583801, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.42725089131152794, "train/policy_logprob_min": -7.438384258583801, "train/policy_logprob_std": 1.048710189453543, "train/policy_randomness_mag": 0.953788745076689, "train/policy_randomness_max": 0.953788745076689, "train/policy_randomness_mean": 0.15025499075242918, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21783766027999252, "train/post_ent_mag": 55.54109474077617, "train/post_ent_max": 55.54109474077617, "train/post_ent_mean": 40.735493333372354, "train/post_ent_min": 19.41835608547681, "train/post_ent_std": 5.701986691723131, "train/prior_ent_mag": 76.61082834740208, "train/prior_ent_max": 76.61082834740208, "train/prior_ent_mean": 45.997700782671366, "train/prior_ent_min": 28.647365021379027, "train/prior_ent_std": 7.594565169451988, "train/rep_loss_mean": 5.247392576034755, "train/rep_loss_std": 8.719269523881886, "train/reward_avg": 0.039465164714684225, "train/reward_loss_mean": 0.05532147143393347, "train/reward_loss_std": 0.20832887067370218, "train/reward_max_data": 1.026027403465689, "train/reward_max_pred": 1.0254255876149216, "train/reward_neg_acc": 0.9937452469786553, "train/reward_neg_loss": 0.02457223754784424, "train/reward_pos_acc": 0.9905410751904526, "train/reward_pos_loss": 0.7200420286557446, "train/reward_pred": 0.03912406769415287, "train/reward_rate": 0.044306506849315065, "stats/sum_log_reward": 9.850000262260437, "stats/max_log_achievement_collect_coal": 0.25, "stats/max_log_achievement_collect_drink": 3.625, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 16.375, "stats/max_log_achievement_collect_wood": 7.375, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 0.25, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 2.375, "stats/max_log_achievement_place_plant": 1.25, "stats/max_log_achievement_place_stone": 5.375, "stats/max_log_achievement_place_table": 1.875, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.3739646002650261, "replay/size": 625718.0, "replay/inserts": 1462.0, "replay/samples": 11696.0, "replay/insert_wait_avg": 3.138416932154289e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4572153339307709e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0806384086609, "timer/env.step_count": 1462.0, "timer/env.step_total": 18.948318243026733, "timer/env.step_frac": 0.06314408801417642, "timer/env.step_avg": 0.012960545993862335, "timer/env.step_min": 0.0024216175079345703, "timer/env.step_max": 1.6034228801727295, "timer/replay.add_count": 1462.0, "timer/replay.add_total": 0.29228639602661133, "timer/replay.add_frac": 0.0009740261736865707, "timer/replay.add_avg": 0.00019992229550383812, "timer/replay.add_min": 5.793571472167969e-05, "timer/replay.add_max": 0.0008015632629394531, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030900001525878906, "timer/logger.write_frac": 0.00010297232667106681, "timer/logger.write_avg": 0.030900001525878906, "timer/logger.write_min": 0.030900001525878906, "timer/logger.write_max": 0.030900001525878906, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1462.0, "timer/agent.policy_total": 10.821650743484497, "timer/agent.policy_frac": 0.036062475742760766, "timer/agent.policy_avg": 0.007401949892944252, "timer/agent.policy_min": 0.005632162094116211, "timer/agent.policy_max": 0.01881575584411621, "timer/dataset_count": 731.0, "timer/dataset_total": 0.059322357177734375, "timer/dataset_frac": 0.00019768805309240578, "timer/dataset_avg": 8.115233540045742e-05, "timer/dataset_min": 5.5789947509765625e-05, "timer/dataset_max": 0.00020837783813476562, "timer/agent.train_count": 731.0, "timer/agent.train_total": 269.28860688209534, "timer/agent.train_frac": 0.8973874766134301, "timer/agent.train_avg": 0.36838386714376925, "timer/agent.train_min": 0.36077046394348145, "timer/agent.train_max": 0.38507652282714844, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2211451530456543, "timer/agent.report_frac": 0.0007369524212504862, "timer/agent.report_avg": 0.2211451530456543, "timer/agent.report_min": 0.2211451530456543, "timer/agent.report_max": 0.2211451530456543, "fps": 4.871967105413372}
{"step": 625912, "episode/length": 229.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.700000002980232, "episode/reward_rate": 0.05652173913043478}
{"step": 626123, "episode/length": 210.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.05687203791469194}
{"step": 626445, "episode/length": 321.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 17.300000064074993, "episode/reward_rate": 0.043478260869565216}
{"step": 626681, "episode/length": 235.0, "episode/score": 8.099999994039536, "episode/sum_abs_reward": 10.300000041723251, "episode/reward_rate": 0.038135593220338986}
{"step": 626849, "episode/length": 167.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.06547619047619048}
{"step": 627160, "episode/length": 310.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 13.899999991059303, "episode/reward_rate": 0.04501607717041801}
{"step": 627259, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.589530326224662, "train/action_min": 0.0, "train/action_std": 3.4137913053100175, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04444707829404522, "train/actor_opt_grad_steps": 312715.0, "train/actor_opt_loss": -10.98824739033306, "train/adv_mag": 0.4081041092002714, "train/adv_max": 0.37086136115563884, "train/adv_mean": 0.002408450884300888, "train/adv_min": -0.36138655366124334, "train/adv_std": 0.04870765359216445, "train/cont_avg": 0.9947212837837838, "train/cont_loss_mean": 2.4733965891973515e-05, "train/cont_loss_std": 0.0007702278323334111, "train/cont_neg_acc": 0.9980694989900332, "train/cont_neg_loss": 0.002780218931530723, "train/cont_pos_acc": 0.9999999887234455, "train/cont_pos_loss": 5.779687318915046e-06, "train/cont_pred": 0.9947259997999346, "train/cont_rate": 0.9947212837837838, "train/dyn_loss_mean": 5.447390092385782, "train/dyn_loss_std": 8.77939306723105, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0289772040135152, "train/extr_critic_critic_opt_grad_steps": 312715.0, "train/extr_critic_critic_opt_loss": 16284.481854413007, "train/extr_critic_mag": 10.860560107875514, "train/extr_critic_max": 10.860560107875514, "train/extr_critic_mean": 2.734198902104352, "train/extr_critic_min": -0.5081218754923021, "train/extr_critic_std": 2.636781428311322, "train/extr_return_normed_mag": 1.4562602848620028, "train/extr_return_normed_max": 1.4562602848620028, "train/extr_return_normed_mean": 0.36008691546079274, "train/extr_return_normed_min": -0.07988588240098309, "train/extr_return_normed_std": 0.3298562326141306, "train/extr_return_rate": 0.7236733162725294, "train/extr_return_raw_mag": 11.639770211400213, "train/extr_return_raw_max": 11.639770211400213, "train/extr_return_raw_mean": 2.7537278371888236, "train/extr_return_raw_min": -0.8129251470436921, "train/extr_return_raw_std": 2.6745958263809615, "train/extr_reward_mag": 1.0519178525821582, "train/extr_reward_max": 1.0519178525821582, "train/extr_reward_mean": 0.0551510891197501, "train/extr_reward_min": -0.6576990050238531, "train/extr_reward_std": 0.22656711734629967, "train/image_loss_mean": 3.171895323572932, "train/image_loss_std": 8.439405138428146, "train/model_loss_mean": 6.4944888514441415, "train/model_loss_std": 12.569509312913224, "train/model_opt_grad_norm": 28.94286012649536, "train/model_opt_grad_steps": 312465.0945945946, "train/model_opt_loss": 8862.3865801837, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1368.2432432432433, "train/policy_entropy_mag": 2.7080065398602873, "train/policy_entropy_max": 2.7080065398602873, "train/policy_entropy_mean": 0.4408193826675415, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6345393569082827, "train/policy_logprob_mag": 7.438384236516179, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4416318829800632, "train/policy_logprob_min": -7.438384236516179, "train/policy_logprob_std": 1.0578753311891813, "train/policy_randomness_mag": 0.955807472402985, "train/policy_randomness_max": 0.955807472402985, "train/policy_randomness_mean": 0.1555898974876146, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22396455020517916, "train/post_ent_mag": 55.25671541368639, "train/post_ent_max": 55.25671541368639, "train/post_ent_mean": 40.91998337410592, "train/post_ent_min": 19.62831499769881, "train/post_ent_std": 5.6617735076594995, "train/prior_ent_mag": 76.58988457757073, "train/prior_ent_max": 76.58988457757073, "train/prior_ent_mean": 46.34806256680875, "train/prior_ent_min": 28.688964379800332, "train/prior_ent_std": 7.4579382136061385, "train/rep_loss_mean": 5.447390092385782, "train/rep_loss_std": 8.77939306723105, "train/reward_avg": 0.03771774684758605, "train/reward_loss_mean": 0.05413475310480272, "train/reward_loss_std": 0.21411815466913017, "train/reward_max_data": 1.0202702751030792, "train/reward_max_pred": 1.0194332889608435, "train/reward_neg_acc": 0.9929763602243887, "train/reward_neg_loss": 0.023939648278158258, "train/reward_pos_acc": 0.9873539120764345, "train/reward_pos_loss": 0.738328297395964, "train/reward_pred": 0.037439371861920166, "train/reward_rate": 0.0424144847972973, "stats/sum_log_reward": 10.93333371480306, "stats/max_log_achievement_collect_coal": 0.3333333333333333, "stats/max_log_achievement_collect_drink": 4.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 14.333333333333334, "stats/max_log_achievement_collect_wood": 12.0, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.1666666666666667, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 0.3333333333333333, "stats/max_log_achievement_make_stone_sword": 0.16666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.3333333333333333, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 1.1666666666666667, "stats/max_log_achievement_place_stone": 5.333333333333333, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.6095925072828928, "replay/size": 627196.0, "replay/inserts": 1478.0, "replay/samples": 11824.0, "replay/insert_wait_avg": 3.0755674080855145e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.5007021946577967e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3112778663635, "timer/env.step_count": 1478.0, "timer/env.step_total": 16.679017305374146, "timer/env.step_frac": 0.05553909737880772, "timer/env.step_avg": 0.011284856092945971, "timer/env.step_min": 0.0026743412017822266, "timer/env.step_max": 1.3977735042572021, "timer/replay.add_count": 1478.0, "timer/replay.add_total": 0.26879119873046875, "timer/replay.add_frac": 0.0008950419732490999, "timer/replay.add_avg": 0.00018186143351181917, "timer/replay.add_min": 6.151199340820312e-05, "timer/replay.add_max": 0.0009436607360839844, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.020848512649536133, "timer/logger.write_frac": 6.942300934436961e-05, "timer/logger.write_avg": 0.020848512649536133, "timer/logger.write_min": 0.020848512649536133, "timer/logger.write_max": 0.020848512649536133, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1478.0, "timer/agent.policy_total": 10.882397174835205, "timer/agent.policy_frac": 0.036237057935858796, "timer/agent.policy_avg": 0.007362920957263332, "timer/agent.policy_min": 0.005974531173706055, "timer/agent.policy_max": 0.013590812683105469, "timer/dataset_count": 739.0, "timer/dataset_total": 0.05987358093261719, "timer/dataset_frac": 0.00019937173641297788, "timer/dataset_avg": 8.101973062600431e-05, "timer/dataset_min": 6.079673767089844e-05, "timer/dataset_max": 0.0001800060272216797, "timer/agent.train_count": 739.0, "timer/agent.train_total": 271.77540349960327, "timer/agent.train_frac": 0.9049790118789394, "timer/agent.train_avg": 0.3677610331523725, "timer/agent.train_min": 0.36159491539001465, "timer/agent.train_max": 0.38347482681274414, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22156953811645508, "timer/agent.report_frac": 0.0007377995914460861, "timer/agent.report_avg": 0.22156953811645508, "timer/agent.report_min": 0.22156953811645508, "timer/agent.report_max": 0.22156953811645508, "fps": 4.9214480139933725}
{"step": 627356, "episode/length": 195.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.05612244897959184}
{"step": 627604, "episode/length": 247.0, "episode/score": 10.099999971687794, "episode/sum_abs_reward": 12.30000003427267, "episode/reward_rate": 0.04838709677419355}
{"step": 627795, "episode/length": 190.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.900000050663948, "episode/reward_rate": 0.05759162303664921}
{"step": 627950, "episode/length": 154.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.07741935483870968}
{"step": 628139, "episode/length": 188.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.0582010582010582}
{"step": 628259, "episode/length": 119.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.899999976158142, "episode/reward_rate": 0.1}
{"step": 628440, "episode/length": 180.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.0718232044198895}
{"step": 628715, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.592231750488281, "train/action_min": 0.0, "train/action_std": 3.5293887323803372, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.041820464034875236, "train/actor_opt_grad_steps": 313445.0, "train/actor_opt_loss": -13.248112611472607, "train/adv_mag": 0.4251391871107949, "train/adv_max": 0.37112899786896175, "train/adv_mean": 0.0015168616431158928, "train/adv_min": -0.3732159522672494, "train/adv_std": 0.04723577294498682, "train/cont_avg": 0.9948866102430556, "train/cont_loss_mean": 7.681922981747944e-05, "train/cont_loss_std": 0.0024133458916091558, "train/cont_neg_acc": 0.9921193844835523, "train/cont_neg_loss": 0.013728458394292346, "train/cont_pos_acc": 0.9999999776482582, "train/cont_pos_loss": 2.6861719774926328e-06, "train/cont_pred": 0.9949174523353577, "train/cont_rate": 0.9948866102430556, "train/dyn_loss_mean": 5.201664808723661, "train/dyn_loss_std": 8.72869571712282, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0298441300789516, "train/extr_critic_critic_opt_grad_steps": 313445.0, "train/extr_critic_critic_opt_loss": 16195.919935438367, "train/extr_critic_mag": 10.843980802430046, "train/extr_critic_max": 10.843980802430046, "train/extr_critic_mean": 2.6744936721192465, "train/extr_critic_min": -0.5017656104432212, "train/extr_critic_std": 2.6432141628530292, "train/extr_return_normed_mag": 1.4325125366449356, "train/extr_return_normed_max": 1.4325125366449356, "train/extr_return_normed_mean": 0.350498891952965, "train/extr_return_normed_min": -0.07818935733909409, "train/extr_return_normed_std": 0.3282302545590533, "train/extr_return_rate": 0.7037200203372372, "train/extr_return_raw_mag": 11.492974387274849, "train/extr_return_raw_max": 11.492974387274849, "train/extr_return_raw_mean": 2.6868687089946537, "train/extr_return_raw_min": -0.8016731300287776, "train/extr_return_raw_std": 2.6712003582053714, "train/extr_reward_mag": 1.0542166497972276, "train/extr_reward_max": 1.0542166497972276, "train/extr_reward_mean": 0.05147765726885862, "train/extr_reward_min": -0.6496502823299832, "train/extr_reward_std": 0.21983663158284295, "train/image_loss_mean": 3.070414384206136, "train/image_loss_std": 8.232591251532236, "train/model_loss_mean": 6.243270244863298, "train/model_loss_std": 12.35057106282976, "train/model_opt_grad_norm": 24.978686928749084, "train/model_opt_grad_steps": 313195.0, "train/model_opt_loss": 12021.346015082465, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1927.0833333333333, "train/policy_entropy_mag": 2.6882814831203885, "train/policy_entropy_max": 2.6882814831203885, "train/policy_entropy_mean": 0.4667819492104981, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6589468427830272, "train/policy_logprob_mag": 7.438384221659766, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4650821172528797, "train/policy_logprob_min": -7.438384221659766, "train/policy_logprob_std": 1.0705873279107943, "train/policy_randomness_mag": 0.9488453889886538, "train/policy_randomness_max": 0.9488453889886538, "train/policy_randomness_mean": 0.16475354486869442, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23257931735780504, "train/post_ent_mag": 55.24172364340888, "train/post_ent_max": 55.24172364340888, "train/post_ent_mean": 40.84988816579183, "train/post_ent_min": 19.189299053615994, "train/post_ent_std": 5.679493539863163, "train/prior_ent_mag": 76.58862082163493, "train/prior_ent_max": 76.58862082163493, "train/prior_ent_mean": 46.06557109620836, "train/prior_ent_min": 28.154575533337063, "train/prior_ent_std": 7.503529237376319, "train/rep_loss_mean": 5.201664808723661, "train/rep_loss_std": 8.72869571712282, "train/reward_avg": 0.03561876070064803, "train/reward_loss_mean": 0.051780217016736664, "train/reward_loss_std": 0.20261391955945227, "train/reward_max_data": 1.0263888951804903, "train/reward_max_pred": 1.0270569225152333, "train/reward_neg_acc": 0.9942267098360591, "train/reward_neg_loss": 0.023308510180666216, "train/reward_pos_acc": 0.988245723148187, "train/reward_pos_loss": 0.7289686310622427, "train/reward_pred": 0.03530089420059489, "train/reward_rate": 0.04031032986111111, "stats/sum_log_reward": 10.528571673801967, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 12.428571428571429, "stats/max_log_achievement_collect_wood": 8.857142857142858, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.7142857142857143, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 3.2857142857142856, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3265122153929302, "replay/size": 628652.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.2070246371594106e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.419949662554395e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3308935165405, "timer/env.step_count": 1456.0, "timer/env.step_total": 17.401265144348145, "timer/env.step_frac": 0.05794031023781369, "timer/env.step_avg": 0.011951418368370978, "timer/env.step_min": 0.002443075180053711, "timer/env.step_max": 1.3362126350402832, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.2990591526031494, "timer/replay.add_frac": 0.0009957655341463528, "timer/replay.add_avg": 0.0002053977696450202, "timer/replay.add_min": 6.270408630371094e-05, "timer/replay.add_max": 0.0008041858673095703, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02773571014404297, "timer/logger.write_frac": 9.235050653393885e-05, "timer/logger.write_avg": 0.02773571014404297, "timer/logger.write_min": 0.02773571014404297, "timer/logger.write_max": 0.02773571014404297, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003592967987060547, "timer/checkpoint.save_frac": 1.196336462423459e-06, "timer/checkpoint.save_avg": 0.0003592967987060547, "timer/checkpoint.save_min": 0.0003592967987060547, "timer/checkpoint.save_max": 0.0003592967987060547, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.184607982635498, "timer/agent.save_frac": 0.003944342750640991, "timer/agent.save_avg": 1.184607982635498, "timer/agent.save_min": 1.184607982635498, "timer/agent.save_max": 1.184607982635498, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.00010824203491210938, "timer/replay.save_frac": 3.6040925941622457e-07, "timer/replay.save_avg": 0.00010824203491210938, "timer/replay.save_min": 0.00010824203491210938, "timer/replay.save_max": 0.00010824203491210938, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 14.575003623962402, "timer/agent.policy_frac": 0.04852981807267754, "timer/agent.policy_avg": 0.010010304686787364, "timer/agent.policy_min": 0.005831241607666016, "timer/agent.policy_max": 2.7928545475006104, "timer/dataset_count": 728.0, "timer/dataset_total": 0.058714866638183594, "timer/dataset_frac": 0.0001955005892024555, "timer/dataset_avg": 8.065228933816428e-05, "timer/dataset_min": 5.6743621826171875e-05, "timer/dataset_max": 0.0001575946807861328, "timer/agent.train_count": 728.0, "timer/agent.train_total": 267.3483633995056, "timer/agent.train_frac": 0.8901793627327306, "timer/agent.train_avg": 0.36723676291140883, "timer/agent.train_min": 0.36042189598083496, "timer/agent.train_max": 0.4012584686279297, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2196500301361084, "timer/agent.report_frac": 0.0007313600927438766, "timer/agent.report_avg": 0.2196500301361084, "timer/agent.report_min": 0.2196500301361084, "timer/agent.report_max": 0.2196500301361084, "fps": 4.8478739410680705}
{"step": 628976, "episode/length": 535.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 12.500000037252903, "episode/reward_rate": 0.018656716417910446}
{"step": 629138, "episode/length": 161.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.07407407407407407}
{"step": 629342, "episode/length": 203.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.05392156862745098}
{"step": 629487, "episode/length": 144.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.07586206896551724}
{"step": 629665, "episode/length": 177.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.0449438202247191}
{"step": 629961, "episode/length": 295.0, "episode/score": 11.099999994039536, "episode/sum_abs_reward": 13.500000014901161, "episode/reward_rate": 0.04391891891891892}
{"step": 630178, "episode/length": 216.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.900000050663948, "episode/reward_rate": 0.055299539170506916}
{"step": 630189, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.49977647936022, "train/action_min": 0.0, "train/action_std": 3.421676200789374, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04257075090867442, "train/actor_opt_grad_steps": 314175.0, "train/actor_opt_loss": -12.276119950655344, "train/adv_mag": 0.4140313501293595, "train/adv_max": 0.3721701671948304, "train/adv_mean": 0.0025692814867422408, "train/adv_min": -0.34316810160069855, "train/adv_std": 0.04765486395036852, "train/cont_avg": 0.9949720228040541, "train/cont_loss_mean": 0.00018422084378423088, "train/cont_loss_std": 0.005796329816882072, "train/cont_neg_acc": 0.9949771696574068, "train/cont_neg_loss": 0.035609939737285795, "train/cont_pos_acc": 0.9999999822797002, "train/cont_pos_loss": 9.647618358829621e-06, "train/cont_pred": 0.9949872123228537, "train/cont_rate": 0.9949720228040541, "train/dyn_loss_mean": 5.122816710858731, "train/dyn_loss_std": 8.734704913319769, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0482993077587437, "train/extr_critic_critic_opt_grad_steps": 314175.0, "train/extr_critic_critic_opt_loss": 16296.736182960303, "train/extr_critic_mag": 10.788169139140361, "train/extr_critic_max": 10.788169139140361, "train/extr_critic_mean": 2.6522750194008284, "train/extr_critic_min": -0.5211555329529015, "train/extr_critic_std": 2.5923602194399447, "train/extr_return_normed_mag": 1.4454269554163959, "train/extr_return_normed_max": 1.4454269554163959, "train/extr_return_normed_mean": 0.3525168748723494, "train/extr_return_normed_min": -0.08064686582499259, "train/extr_return_normed_std": 0.32643688973542806, "train/extr_return_rate": 0.7207348354764886, "train/extr_return_raw_mag": 11.474191150149784, "train/extr_return_raw_max": 11.474191150149784, "train/extr_return_raw_mean": 2.6729308189572514, "train/extr_return_raw_min": -0.8150794353034045, "train/extr_return_raw_std": 2.6288394654119336, "train/extr_reward_mag": 1.0484491490029, "train/extr_reward_max": 1.0484491490029, "train/extr_reward_mean": 0.05237802178473086, "train/extr_reward_min": -0.6431442128645407, "train/extr_reward_std": 0.22123177389840823, "train/image_loss_mean": 3.102867322999078, "train/image_loss_std": 7.9418414927817675, "train/model_loss_mean": 6.229076900997677, "train/model_loss_std": 12.065284844991323, "train/model_opt_grad_norm": 26.233588592426198, "train/model_opt_grad_steps": 313924.8783783784, "train/model_opt_loss": 16432.59666649071, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2635.135135135135, "train/policy_entropy_mag": 2.6670443077345154, "train/policy_entropy_max": 2.6670443077345154, "train/policy_entropy_mean": 0.4495171906577574, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6284811194684055, "train/policy_logprob_mag": 7.438384255847415, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4488633742203584, "train/policy_logprob_min": -7.438384255847415, "train/policy_logprob_std": 1.0574365620677535, "train/policy_randomness_mag": 0.9413495982015455, "train/policy_randomness_max": 0.9413495982015455, "train/policy_randomness_mean": 0.158659843576921, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2218262576372237, "train/post_ent_mag": 55.11459427910882, "train/post_ent_max": 55.11459427910882, "train/post_ent_mean": 40.98929307267473, "train/post_ent_min": 19.131664134360648, "train/post_ent_std": 5.587855003975533, "train/prior_ent_mag": 76.69733666084907, "train/prior_ent_max": 76.69733666084907, "train/prior_ent_mean": 46.09188528318663, "train/prior_ent_min": 28.506646646035684, "train/prior_ent_std": 7.359895738395485, "train/rep_loss_mean": 5.122816710858731, "train/rep_loss_std": 8.734704913319769, "train/reward_avg": 0.03576726103956635, "train/reward_loss_mean": 0.05233540974960134, "train/reward_loss_std": 0.21239089059668617, "train/reward_max_data": 1.0202702751030792, "train/reward_max_pred": 1.0191730003099184, "train/reward_neg_acc": 0.994926192470499, "train/reward_neg_loss": 0.0238716319153035, "train/reward_pos_acc": 0.9889303614964357, "train/reward_pos_loss": 0.7269173127573889, "train/reward_pred": 0.03550489473383169, "train/reward_rate": 0.04052734375, "stats/sum_log_reward": 9.81428575515747, "stats/max_log_achievement_collect_coal": 0.14285714285714285, "stats/max_log_achievement_collect_drink": 5.571428571428571, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 3.142857142857143, "stats/max_log_achievement_collect_stone": 9.142857142857142, "stats/max_log_achievement_collect_wood": 12.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.2857142857142857, "stats/max_log_achievement_defeat_zombie": 0.8571428571428571, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.4285714285714286, "stats/max_log_achievement_place_plant": 2.5714285714285716, "stats/max_log_achievement_place_stone": 2.4285714285714284, "stats/max_log_achievement_place_table": 2.857142857142857, "stats/max_log_achievement_wake_up": 1.8571428571428572, "stats/mean_log_entropy": 0.47164187261036467, "replay/size": 630126.0, "replay/inserts": 1474.0, "replay/samples": 11792.0, "replay/insert_wait_avg": 3.172713995303357e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3962206070588112e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1279048919678, "timer/env.step_count": 1474.0, "timer/env.step_total": 17.415989637374878, "timer/env.step_frac": 0.05802855833629943, "timer/env.step_avg": 0.011815461083700731, "timer/env.step_min": 0.0023179054260253906, "timer/env.step_max": 1.4809532165527344, "timer/replay.add_count": 1474.0, "timer/replay.add_total": 0.27544736862182617, "timer/replay.add_frac": 0.0009177666059441375, "timer/replay.add_avg": 0.000186870670706802, "timer/replay.add_min": 6.246566772460938e-05, "timer/replay.add_max": 0.0029647350311279297, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.020581483840942383, "timer/logger.write_frac": 6.857570890767644e-05, "timer/logger.write_avg": 0.020581483840942383, "timer/logger.write_min": 0.020581483840942383, "timer/logger.write_max": 0.020581483840942383, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1474.0, "timer/agent.policy_total": 10.696170091629028, "timer/agent.policy_frac": 0.03563870575606476, "timer/agent.policy_avg": 0.007256560442082108, "timer/agent.policy_min": 0.0057642459869384766, "timer/agent.policy_max": 0.016837596893310547, "timer/dataset_count": 737.0, "timer/dataset_total": 0.05897045135498047, "timer/dataset_frac": 0.00019648440013002828, "timer/dataset_avg": 8.001418094298572e-05, "timer/dataset_min": 5.555152893066406e-05, "timer/dataset_max": 0.00016427040100097656, "timer/agent.train_count": 737.0, "timer/agent.train_total": 271.02391266822815, "timer/agent.train_frac": 0.9030280365492315, "timer/agent.train_avg": 0.3677393658999025, "timer/agent.train_min": 0.36009693145751953, "timer/agent.train_max": 0.38457226753234863, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22019624710083008, "timer/agent.report_frac": 0.000733674688396904, "timer/agent.report_avg": 0.22019624710083008, "timer/agent.report_min": 0.22019624710083008, "timer/agent.report_max": 0.22019624710083008, "fps": 4.911129944528552}
{"step": 630602, "episode/length": 423.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.02830188679245283}
{"step": 630769, "episode/length": 166.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 11.30000003427267, "episode/reward_rate": 0.059880239520958084}
{"step": 631026, "episode/length": 256.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.054474708171206226}
{"step": 631307, "episode/length": 280.0, "episode/score": 13.100000016391277, "episode/sum_abs_reward": 14.900000043213367, "episode/reward_rate": 0.0498220640569395}
{"step": 631372, "episode/length": 64.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.12307692307692308}
{"step": 631533, "episode/length": 160.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.07453416149068323}
{"step": 631665, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.5447099015519425, "train/action_min": 0.0, "train/action_std": 3.4571029237798743, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04262500170718979, "train/actor_opt_grad_steps": 314915.0, "train/actor_opt_loss": -13.427846767058647, "train/adv_mag": 0.42447859894584966, "train/adv_max": 0.36971503294803, "train/adv_mean": 0.0017623761255718647, "train/adv_min": -0.37175829527345866, "train/adv_std": 0.04804045948627833, "train/cont_avg": 0.9943913640202703, "train/cont_loss_mean": 5.948427768679402e-05, "train/cont_loss_std": 0.0018850131931243152, "train/cont_neg_acc": 0.9972972974583909, "train/cont_neg_loss": 0.011106586356980202, "train/cont_pos_acc": 0.9999999830851684, "train/cont_pos_loss": 4.563240227293984e-06, "train/cont_pred": 0.9944021387680156, "train/cont_rate": 0.9943913640202703, "train/dyn_loss_mean": 5.201464240615432, "train/dyn_loss_std": 8.787898179647085, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0319222252111178, "train/extr_critic_critic_opt_grad_steps": 314915.0, "train/extr_critic_critic_opt_loss": 16227.10765941723, "train/extr_critic_mag": 10.81674928922911, "train/extr_critic_max": 10.81674928922911, "train/extr_critic_mean": 2.7875494860314034, "train/extr_critic_min": -0.5140595452205555, "train/extr_critic_std": 2.6735967188268095, "train/extr_return_normed_mag": 1.4557638925475043, "train/extr_return_normed_max": 1.4557638925475043, "train/extr_return_normed_mean": 0.36678403817318583, "train/extr_return_normed_min": -0.0798431303654168, "train/extr_return_normed_std": 0.3343122331677256, "train/extr_return_rate": 0.7281927836907877, "train/extr_return_raw_mag": 11.610807934322873, "train/extr_return_raw_max": 11.610807934322873, "train/extr_return_raw_mean": 2.8018511904252543, "train/extr_return_raw_min": -0.811813669430243, "train/extr_return_raw_std": 2.7045665786073014, "train/extr_reward_mag": 1.060050191106023, "train/extr_reward_max": 1.060050191106023, "train/extr_reward_mean": 0.0552692368525911, "train/extr_reward_min": -0.6320613139384502, "train/extr_reward_std": 0.22718725172249046, "train/image_loss_mean": 3.080119877248197, "train/image_loss_std": 8.290475368499756, "train/model_loss_mean": 6.255742659439912, "train/model_loss_std": 12.4410910993009, "train/model_opt_grad_norm": 26.468211122461266, "train/model_opt_grad_steps": 314664.0, "train/model_opt_loss": 15639.35670924831, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.667970950539048, "train/policy_entropy_max": 2.667970950539048, "train/policy_entropy_mean": 0.43568667527791616, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.619953957361144, "train/policy_logprob_mag": 7.438384230072434, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4341007934228794, "train/policy_logprob_min": -7.438384230072434, "train/policy_logprob_std": 1.0464793371187675, "train/policy_randomness_mag": 0.9416766649967915, "train/policy_randomness_max": 0.9416766649967915, "train/policy_randomness_mean": 0.15377827663276647, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2188165409339441, "train/post_ent_mag": 55.25087387497361, "train/post_ent_max": 55.25087387497361, "train/post_ent_mean": 40.90623443191116, "train/post_ent_min": 19.657500898515856, "train/post_ent_std": 5.683407197127471, "train/prior_ent_mag": 76.69536064766548, "train/prior_ent_max": 76.69536064766548, "train/prior_ent_mean": 46.12305001954775, "train/prior_ent_min": 28.24175909403208, "train/prior_ent_std": 7.510176007812087, "train/rep_loss_mean": 5.201464240615432, "train/rep_loss_std": 8.787898179647085, "train/reward_avg": 0.0381651179160218, "train/reward_loss_mean": 0.05468476890913538, "train/reward_loss_std": 0.21231008341183533, "train/reward_max_data": 1.017567571756002, "train/reward_max_pred": 1.0172466007438865, "train/reward_neg_acc": 0.9941381304650694, "train/reward_neg_loss": 0.02454005741841487, "train/reward_pos_acc": 0.9894640792060543, "train/reward_pos_loss": 0.7253336197621113, "train/reward_pred": 0.0379006106255425, "train/reward_rate": 0.0430347339527027, "stats/sum_log_reward": 10.766667048136393, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.1666666666666667, "stats/max_log_achievement_collect_stone": 20.833333333333332, "stats/max_log_achievement_collect_wood": 8.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.6666666666666666, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 3.1666666666666665, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 4.166666666666667, "stats/max_log_achievement_place_table": 2.1666666666666665, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.5263861293594042, "replay/size": 631602.0, "replay/inserts": 1476.0, "replay/samples": 11808.0, "replay/insert_wait_avg": 3.0879728839326357e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.5014838073957903e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0330002307892, "timer/env.step_count": 1476.0, "timer/env.step_total": 16.443068981170654, "timer/env.step_frac": 0.05480420143291717, "timer/env.step_avg": 0.011140290637649495, "timer/env.step_min": 0.002566814422607422, "timer/env.step_max": 1.408177375793457, "timer/replay.add_count": 1476.0, "timer/replay.add_total": 0.2572472095489502, "timer/replay.add_frac": 0.0008573963842346421, "timer/replay.add_avg": 0.0001742867273366871, "timer/replay.add_min": 5.984306335449219e-05, "timer/replay.add_max": 0.0008223056793212891, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022634029388427734, "timer/logger.write_frac": 7.543846633876058e-05, "timer/logger.write_avg": 0.022634029388427734, "timer/logger.write_min": 0.022634029388427734, "timer/logger.write_max": 0.022634029388427734, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1476.0, "timer/agent.policy_total": 10.894611358642578, "timer/agent.policy_frac": 0.036311376916080246, "timer/agent.policy_avg": 0.0073811730072104184, "timer/agent.policy_min": 0.006076335906982422, "timer/agent.policy_max": 0.016290903091430664, "timer/dataset_count": 738.0, "timer/dataset_total": 0.058754682540893555, "timer/dataset_frac": 0.00019582740063825882, "timer/dataset_avg": 7.961339097682054e-05, "timer/dataset_min": 5.9604644775390625e-05, "timer/dataset_max": 0.00015616416931152344, "timer/agent.train_count": 738.0, "timer/agent.train_total": 271.7304949760437, "timer/agent.train_frac": 0.9056686923339271, "timer/agent.train_avg": 0.368198502677566, "timer/agent.train_min": 0.36165642738342285, "timer/agent.train_max": 0.38162660598754883, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22067618370056152, "timer/agent.report_frac": 0.0007355063727350478, "timer/agent.report_avg": 0.22067618370056152, "timer/agent.report_min": 0.22067618370056152, "timer/agent.report_max": 0.22067618370056152, "fps": 4.919347930652296}
{"step": 631708, "episode/length": 174.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.05714285714285714}
{"step": 631885, "episode/length": 176.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.04519774011299435}
{"step": 632118, "episode/length": 232.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.05150214592274678}
{"step": 632179, "episode/length": 60.0, "episode/score": 1.1000000089406967, "episode/sum_abs_reward": 3.0999999940395355, "episode/reward_rate": 0.04918032786885246}
{"step": 632425, "episode/length": 245.0, "episode/score": 12.100000016391277, "episode/sum_abs_reward": 13.700000040233135, "episode/reward_rate": 0.052845528455284556}
{"step": 632648, "episode/length": 222.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.04932735426008968}
{"step": 632860, "episode/length": 211.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.06132075471698113}
{"step": 633017, "episode/length": 156.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.08280254777070063}
{"step": 633107, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.565082126193577, "train/action_min": 0.0, "train/action_std": 3.4902828766240015, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.042482520919293165, "train/actor_opt_grad_steps": 315645.0, "train/actor_opt_loss": -11.806780878247487, "train/adv_mag": 0.3911335840821266, "train/adv_max": 0.35713155878086883, "train/adv_mean": 0.0020949637268030427, "train/adv_min": -0.3362785283890035, "train/adv_std": 0.04713684837851259, "train/cont_avg": 0.9950086805555556, "train/cont_loss_mean": 5.055734398353964e-05, "train/cont_loss_std": 0.0016070929425918085, "train/cont_neg_acc": 0.9980158739619784, "train/cont_neg_loss": 0.006734333537018837, "train/cont_pos_acc": 0.9999999817874696, "train/cont_pos_loss": 4.588967447174655e-06, "train/cont_pred": 0.9950174772077136, "train/cont_rate": 0.9950086805555556, "train/dyn_loss_mean": 5.274440040191014, "train/dyn_loss_std": 8.823228021462759, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0412733231981595, "train/extr_critic_critic_opt_grad_steps": 315645.0, "train/extr_critic_critic_opt_loss": 16090.871771918402, "train/extr_critic_mag": 10.775269892480638, "train/extr_critic_max": 10.775269892480638, "train/extr_critic_mean": 2.693692824906773, "train/extr_critic_min": -0.5065251605378257, "train/extr_critic_std": 2.6399048136340246, "train/extr_return_normed_mag": 1.4320362541410658, "train/extr_return_normed_max": 1.4320362541410658, "train/extr_return_normed_mean": 0.3531038980517123, "train/extr_return_normed_min": -0.07635955854008596, "train/extr_return_normed_std": 0.32721661983264816, "train/extr_return_rate": 0.7043186161253188, "train/extr_return_raw_mag": 11.514331844117907, "train/extr_return_raw_max": 11.514331844117907, "train/extr_return_raw_mean": 2.710786642299758, "train/extr_return_raw_min": -0.7935301102697849, "train/extr_return_raw_std": 2.670022812154558, "train/extr_reward_mag": 1.0554690923955705, "train/extr_reward_max": 1.0554690923955705, "train/extr_reward_mean": 0.05317400207018687, "train/extr_reward_min": -0.6340055796835158, "train/extr_reward_std": 0.22274405798978275, "train/image_loss_mean": 3.2500772459639444, "train/image_loss_std": 8.261093934377035, "train/model_loss_mean": 6.469507945908441, "train/model_loss_std": 12.435719397332933, "train/model_opt_grad_norm": 25.843196868896484, "train/model_opt_grad_steps": 315393.25, "train/model_opt_loss": 16384.846069335938, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2534.722222222222, "train/policy_entropy_mag": 2.656465712520811, "train/policy_entropy_max": 2.656465712520811, "train/policy_entropy_mean": 0.4620897780276007, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6407334908015199, "train/policy_logprob_mag": 7.438384268018934, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4620784984694587, "train/policy_logprob_min": -7.438384268018934, "train/policy_logprob_std": 1.067266695201397, "train/policy_randomness_mag": 0.937615821758906, "train/policy_randomness_max": 0.937615821758906, "train/policy_randomness_mean": 0.1630974140846067, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22615080440623891, "train/post_ent_mag": 55.33469157748752, "train/post_ent_max": 55.33469157748752, "train/post_ent_mean": 40.86655590269301, "train/post_ent_min": 18.994451774491203, "train/post_ent_std": 5.711476763089498, "train/prior_ent_mag": 76.69188457065158, "train/prior_ent_max": 76.69188457065158, "train/prior_ent_mean": 46.14862224790785, "train/prior_ent_min": 28.606510480244953, "train/prior_ent_std": 7.527418090237512, "train/rep_loss_mean": 5.274440040191014, "train/rep_loss_std": 8.823228021462759, "train/reward_avg": 0.03845350452077886, "train/reward_loss_mean": 0.05471615307033062, "train/reward_loss_std": 0.21495630405843258, "train/reward_max_data": 1.027777784400516, "train/reward_max_pred": 1.028904891676373, "train/reward_neg_acc": 0.9942049301332898, "train/reward_neg_loss": 0.024187074456777837, "train/reward_pos_acc": 0.9893034820755323, "train/reward_pos_loss": 0.7338642246193356, "train/reward_pred": 0.03807592327292594, "train/reward_rate": 0.04310438368055555, "stats/sum_log_reward": 9.350000157952309, "stats/max_log_achievement_collect_coal": 0.75, "stats/max_log_achievement_collect_drink": 5.375, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.375, "stats/max_log_achievement_collect_stone": 11.25, "stats/max_log_achievement_collect_wood": 9.0, "stats/max_log_achievement_defeat_skeleton": 0.25, "stats/max_log_achievement_defeat_zombie": 1.125, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.875, "stats/max_log_achievement_make_wood_sword": 1.25, "stats/max_log_achievement_place_furnace": 1.75, "stats/max_log_achievement_place_plant": 1.25, "stats/max_log_achievement_place_stone": 2.75, "stats/max_log_achievement_place_table": 1.75, "stats/max_log_achievement_wake_up": 1.125, "stats/mean_log_entropy": 0.29645627923309803, "replay/size": 633044.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.140776233435008e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4739955843900344e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.02109813690186, "timer/env.step_count": 1442.0, "timer/env.step_total": 20.488667726516724, "timer/env.step_frac": 0.06829075639596384, "timer/env.step_avg": 0.014208507438638504, "timer/env.step_min": 0.0024154186248779297, "timer/env.step_max": 1.769200086593628, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.28337764739990234, "timer/replay.add_frac": 0.0009445257322223219, "timer/replay.add_avg": 0.0001965170925103345, "timer/replay.add_min": 6.246566772460938e-05, "timer/replay.add_max": 0.0007987022399902344, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.020657062530517578, "timer/logger.write_frac": 6.885203293633572e-05, "timer/logger.write_avg": 0.020657062530517578, "timer/logger.write_min": 0.020657062530517578, "timer/logger.write_max": 0.020657062530517578, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.000591278076171875, "timer/checkpoint.save_frac": 1.9707883207002678e-06, "timer/checkpoint.save_avg": 0.000591278076171875, "timer/checkpoint.save_min": 0.000591278076171875, "timer/checkpoint.save_max": 0.000591278076171875, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4104502201080322, "timer/agent.save_frac": 0.004701170113924566, "timer/agent.save_avg": 1.4104502201080322, "timer/agent.save_min": 1.4104502201080322, "timer/agent.save_max": 1.4104502201080322, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.344650268554688e-05, "timer/replay.save_frac": 2.781354484859249e-07, "timer/replay.save_avg": 8.344650268554688e-05, "timer/replay.save_min": 8.344650268554688e-05, "timer/replay.save_max": 8.344650268554688e-05, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 12.575067520141602, "timer/agent.policy_frac": 0.04191394404670669, "timer/agent.policy_avg": 0.008720573869723719, "timer/agent.policy_min": 0.005898475646972656, "timer/agent.policy_max": 1.3919074535369873, "timer/dataset_count": 721.0, "timer/dataset_total": 0.059546709060668945, "timer/dataset_frac": 0.0001984750720214261, "timer/dataset_avg": 8.258905556264764e-05, "timer/dataset_min": 5.841255187988281e-05, "timer/dataset_max": 0.0010104179382324219, "timer/agent.train_count": 721.0, "timer/agent.train_total": 265.9612765312195, "timer/agent.train_frac": 0.8864752451837883, "timer/agent.train_avg": 0.3688783308338689, "timer/agent.train_min": 0.36098241806030273, "timer/agent.train_max": 0.8191978931427002, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22157859802246094, "timer/agent.report_frac": 0.0007385433871099058, "timer/agent.report_avg": 0.22157859802246094, "timer/agent.report_min": 0.22157859802246094, "timer/agent.report_max": 0.22157859802246094, "fps": 4.806219512860209}
{"step": 633190, "episode/length": 172.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.06936416184971098}
{"step": 633432, "episode/length": 241.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 13.300000011920929, "episode/reward_rate": 0.05371900826446281}
{"step": 633612, "episode/length": 179.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06111111111111111}
{"step": 633781, "episode/length": 168.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.05917159763313609}
{"step": 634032, "episode/length": 250.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.03187250996015936}
{"step": 634238, "episode/length": 205.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 12.900000005960464, "episode/reward_rate": 0.06310679611650485}
{"step": 634447, "episode/length": 208.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.05263157894736842}
{"step": 634579, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.533641918285473, "train/action_min": 0.0, "train/action_std": 3.4733670402217554, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.041293939676236464, "train/actor_opt_grad_steps": 316375.0, "train/actor_opt_loss": -12.867593330305976, "train/adv_mag": 0.37631579428105744, "train/adv_max": 0.3479207935365471, "train/adv_mean": 0.0017615974435545001, "train/adv_min": -0.32777101546525955, "train/adv_std": 0.04665483640053788, "train/cont_avg": 0.9948796452702703, "train/cont_loss_mean": 1.300387802836565e-05, "train/cont_loss_std": 0.00040113560352658147, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0006889397792786892, "train/cont_pos_acc": 0.9999999790578276, "train/cont_pos_loss": 9.658076577817138e-06, "train/cont_pred": 0.9948744153654253, "train/cont_rate": 0.9948796452702703, "train/dyn_loss_mean": 5.153830051422119, "train/dyn_loss_std": 8.709559047544325, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0325027003481582, "train/extr_critic_critic_opt_grad_steps": 316375.0, "train/extr_critic_critic_opt_loss": 15905.528769003378, "train/extr_critic_mag": 10.90071625322909, "train/extr_critic_max": 10.90071625322909, "train/extr_critic_mean": 2.804276406764984, "train/extr_critic_min": -0.5071210635674966, "train/extr_critic_std": 2.654858147775805, "train/extr_return_normed_mag": 1.4266287426690798, "train/extr_return_normed_max": 1.4266287426690798, "train/extr_return_normed_mean": 0.36396788986953527, "train/extr_return_normed_min": -0.08028599811164108, "train/extr_return_normed_std": 0.3270307686683294, "train/extr_return_rate": 0.7321438990734719, "train/extr_return_raw_mag": 11.540126993849471, "train/extr_return_raw_max": 11.540126993849471, "train/extr_return_raw_mean": 2.818711053680729, "train/extr_return_raw_min": -0.8271501970452231, "train/extr_return_raw_std": 2.6838588424631067, "train/extr_reward_mag": 1.0487783889512758, "train/extr_reward_max": 1.0487783889512758, "train/extr_reward_mean": 0.05525573212149981, "train/extr_reward_min": -0.643479996436351, "train/extr_reward_std": 0.22647620737552643, "train/image_loss_mean": 3.036003731392525, "train/image_loss_std": 8.038350633672765, "train/model_loss_mean": 6.180761994542302, "train/model_loss_std": 12.12638979989129, "train/model_opt_grad_norm": 26.9615503646232, "train/model_opt_grad_steps": 316122.6081081081, "train/model_opt_loss": 12421.303743929477, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2010.1351351351352, "train/policy_entropy_mag": 2.6817997049640967, "train/policy_entropy_max": 2.6817997049640967, "train/policy_entropy_mean": 0.46766539119385386, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6568630361879194, "train/policy_logprob_mag": 7.438384242959924, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4676496132805541, "train/policy_logprob_min": -7.438384242959924, "train/policy_logprob_std": 1.0758778243451506, "train/policy_randomness_mag": 0.946557608810631, "train/policy_randomness_max": 0.946557608810631, "train/policy_randomness_mean": 0.16506536153925433, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23184382532899445, "train/post_ent_mag": 55.231517740198086, "train/post_ent_max": 55.231517740198086, "train/post_ent_mean": 40.8580142356254, "train/post_ent_min": 19.093633986808157, "train/post_ent_std": 5.634460494324967, "train/prior_ent_mag": 76.684102960535, "train/prior_ent_max": 76.684102960535, "train/prior_ent_mean": 46.03922132543615, "train/prior_ent_min": 28.4680097683056, "train/prior_ent_std": 7.448970846227698, "train/rep_loss_mean": 5.153830051422119, "train/rep_loss_std": 8.709559047544325, "train/reward_avg": 0.038531988909518394, "train/reward_loss_mean": 0.052447207926495654, "train/reward_loss_std": 0.20452170134396166, "train/reward_max_data": 1.0229729784501564, "train/reward_max_pred": 1.020992912150718, "train/reward_neg_acc": 0.9946744345329903, "train/reward_neg_loss": 0.022272098715089866, "train/reward_pos_acc": 0.9895781769945815, "train/reward_pos_loss": 0.7254326569067465, "train/reward_pred": 0.038236876244883276, "train/reward_rate": 0.042915962837837836, "stats/sum_log_reward": 9.957143170492989, "stats/max_log_achievement_collect_coal": 1.1428571428571428, "stats/max_log_achievement_collect_drink": 1.8571428571428572, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 7.857142857142857, "stats/max_log_achievement_collect_wood": 9.857142857142858, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.8571428571428571, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2857142857142858, "stats/max_log_achievement_place_furnace": 0.8571428571428571, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 3.2857142857142856, "stats/max_log_achievement_place_table": 1.7142857142857142, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.3997532980782645, "replay/size": 634516.0, "replay/inserts": 1472.0, "replay/samples": 11776.0, "replay/insert_wait_avg": 3.153539222219716e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.5041062041469242e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.30771017074585, "timer/env.step_count": 1472.0, "timer/env.step_total": 17.695829391479492, "timer/env.step_frac": 0.05892565789076205, "timer/env.step_avg": 0.012021623227907263, "timer/env.step_min": 0.0025892257690429688, "timer/env.step_max": 1.4572911262512207, "timer/replay.add_count": 1472.0, "timer/replay.add_total": 0.2676575183868408, "timer/replay.add_frac": 0.0008912775440719084, "timer/replay.add_avg": 0.0001818325532519299, "timer/replay.add_min": 6.198883056640625e-05, "timer/replay.add_max": 0.0008623600006103516, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022526264190673828, "timer/logger.write_frac": 7.50106088780274e-05, "timer/logger.write_avg": 0.022526264190673828, "timer/logger.write_min": 0.022526264190673828, "timer/logger.write_max": 0.022526264190673828, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1472.0, "timer/agent.policy_total": 10.882488489151001, "timer/agent.policy_frac": 0.03623779250610498, "timer/agent.policy_avg": 0.00739299489752106, "timer/agent.policy_min": 0.006098747253417969, "timer/agent.policy_max": 0.019742965698242188, "timer/dataset_count": 736.0, "timer/dataset_total": 0.05986166000366211, "timer/dataset_frac": 0.0001993344092618421, "timer/dataset_avg": 8.133377717888874e-05, "timer/dataset_min": 6.0558319091796875e-05, "timer/dataset_max": 0.0001347064971923828, "timer/agent.train_count": 736.0, "timer/agent.train_total": 270.75164008140564, "timer/agent.train_frac": 0.9015807150854185, "timer/agent.train_avg": 0.367869076197562, "timer/agent.train_min": 0.35924744606018066, "timer/agent.train_max": 0.3810582160949707, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21868276596069336, "timer/agent.report_frac": 0.0007281956425173265, "timer/agent.report_avg": 0.21868276596069336, "timer/agent.report_min": 0.21868276596069336, "timer/agent.report_max": 0.21868276596069336, "fps": 4.901580280364179}
{"step": 634738, "episode/length": 290.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.041237113402061855}
{"step": 634908, "episode/length": 169.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.07647058823529412}
{"step": 635063, "episode/length": 154.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.07741935483870968}
{"step": 635148, "episode/length": 84.0, "episode/score": 7.100000023841858, "episode/sum_abs_reward": 8.899999976158142, "episode/reward_rate": 0.10588235294117647}
{"step": 635451, "episode/length": 302.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.0429042904290429}
{"step": 635525, "episode/length": 73.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.12162162162162163}
{"step": 635687, "episode/length": 161.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.07407407407407407}
{"step": 635842, "episode/length": 154.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.07096774193548387}
{"step": 636025, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.57790289984809, "train/action_min": 0.0, "train/action_std": 3.444715542925729, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04185377488223215, "train/actor_opt_grad_steps": 317105.0, "train/actor_opt_loss": -12.993283142646154, "train/adv_mag": 0.406988756524192, "train/adv_max": 0.3527611763113075, "train/adv_mean": 0.0020282256124978127, "train/adv_min": -0.3488708624823226, "train/adv_std": 0.04718201576421658, "train/cont_avg": 0.9943576388888888, "train/cont_loss_mean": 1.4647154428596801e-05, "train/cont_loss_std": 0.000329697774099142, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 6.441197945841439e-05, "train/cont_pos_acc": 0.9999999784761004, "train/cont_pos_loss": 1.4236682376002187e-05, "train/cont_pred": 0.9943444050020642, "train/cont_rate": 0.9943576388888888, "train/dyn_loss_mean": 5.272887620660994, "train/dyn_loss_std": 8.815513994958666, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0198216545912955, "train/extr_critic_critic_opt_grad_steps": 317105.0, "train/extr_critic_critic_opt_loss": 16110.473876953125, "train/extr_critic_mag": 10.965813451343113, "train/extr_critic_max": 10.965813451343113, "train/extr_critic_mean": 2.717210175262557, "train/extr_critic_min": -0.4975507805744807, "train/extr_critic_std": 2.71456785996755, "train/extr_return_normed_mag": 1.4605324152443144, "train/extr_return_normed_max": 1.4605324152443144, "train/extr_return_normed_mean": 0.35553017631173134, "train/extr_return_normed_min": -0.07716431779166062, "train/extr_return_normed_std": 0.33572447217173046, "train/extr_return_rate": 0.7049425285723474, "train/extr_return_raw_mag": 11.765588204065958, "train/extr_return_raw_max": 11.765588204065958, "train/extr_return_raw_mean": 2.7338108867406845, "train/extr_return_raw_min": -0.8024468955894312, "train/extr_return_raw_std": 2.743990570306778, "train/extr_reward_mag": 1.0374889704916213, "train/extr_reward_max": 1.0374889704916213, "train/extr_reward_mean": 0.05463340733614233, "train/extr_reward_min": -0.6311046679814657, "train/extr_reward_std": 0.22633090739448866, "train/image_loss_mean": 3.2512084444363913, "train/image_loss_std": 8.211425231562721, "train/model_loss_mean": 6.469019949436188, "train/model_loss_std": 12.387189984321594, "train/model_opt_grad_norm": 26.2139849530326, "train/model_opt_grad_steps": 316852.0, "train/model_opt_loss": 8192.927924262152, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1267.361111111111, "train/policy_entropy_mag": 2.6942968832121954, "train/policy_entropy_max": 2.6942968832121954, "train/policy_entropy_mean": 0.4815472534133328, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6716780335538917, "train/policy_logprob_mag": 7.438384201791552, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4818802653915352, "train/policy_logprob_min": -7.438384201791552, "train/policy_logprob_std": 1.0865713333090146, "train/policy_randomness_mag": 0.9509685610731443, "train/policy_randomness_max": 0.9509685610731443, "train/policy_randomness_mean": 0.16996504863103232, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23707286682393816, "train/post_ent_mag": 55.64137988620334, "train/post_ent_max": 55.64137988620334, "train/post_ent_mean": 40.997934606340195, "train/post_ent_min": 19.33589510122935, "train/post_ent_std": 5.801867716842228, "train/prior_ent_mag": 76.67151398128934, "train/prior_ent_max": 76.67151398128934, "train/prior_ent_mean": 46.26535622278849, "train/prior_ent_min": 28.493635416030884, "train/prior_ent_std": 7.6448617577552795, "train/rep_loss_mean": 5.272887620660994, "train/rep_loss_std": 8.815513994958666, "train/reward_avg": 0.037723795873009495, "train/reward_loss_mean": 0.054064334732376866, "train/reward_loss_std": 0.2133661446472009, "train/reward_max_data": 1.0194444490803614, "train/reward_max_pred": 1.018681741423077, "train/reward_neg_acc": 0.9943041751782099, "train/reward_neg_loss": 0.02399716483584295, "train/reward_pos_acc": 0.9893897664215829, "train/reward_pos_loss": 0.7304161811868349, "train/reward_pred": 0.03747777873650193, "train/reward_rate": 0.042643229166666664, "stats/sum_log_reward": 10.350000321865082, "stats/max_log_achievement_collect_coal": 0.75, "stats/max_log_achievement_collect_drink": 2.25, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.125, "stats/max_log_achievement_collect_stone": 11.375, "stats/max_log_achievement_collect_wood": 10.25, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.25, "stats/max_log_achievement_make_wood_sword": 1.375, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 1.125, "stats/max_log_achievement_place_stone": 3.75, "stats/max_log_achievement_place_table": 2.875, "stats/max_log_achievement_wake_up": 1.375, "stats/mean_log_entropy": 0.41376485489308834, "replay/size": 635962.0, "replay/inserts": 1446.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.2414044582002884e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3965665057487014e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2925524711609, "timer/env.step_count": 1446.0, "timer/env.step_total": 20.45776128768921, "timer/env.step_frac": 0.06812610275992077, "timer/env.step_avg": 0.014147829382910933, "timer/env.step_min": 0.002848386764526367, "timer/env.step_max": 1.5924673080444336, "timer/replay.add_count": 1446.0, "timer/replay.add_total": 0.270524263381958, "timer/replay.add_frac": 0.0009008690397273115, "timer/replay.add_avg": 0.00018708455282293084, "timer/replay.add_min": 5.745887756347656e-05, "timer/replay.add_max": 0.0008709430694580078, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021634817123413086, "timer/logger.write_frac": 7.204579982212786e-05, "timer/logger.write_avg": 0.021634817123413086, "timer/logger.write_min": 0.021634817123413086, "timer/logger.write_max": 0.021634817123413086, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1446.0, "timer/agent.policy_total": 10.752978324890137, "timer/agent.policy_frac": 0.03580834168680496, "timer/agent.policy_avg": 0.007436361220532598, "timer/agent.policy_min": 0.006018877029418945, "timer/agent.policy_max": 0.01818084716796875, "timer/dataset_count": 723.0, "timer/dataset_total": 0.06001162528991699, "timer/dataset_frac": 0.00019984386824138876, "timer/dataset_avg": 8.300363110638588e-05, "timer/dataset_min": 6.079673767089844e-05, "timer/dataset_max": 0.00026035308837890625, "timer/agent.train_count": 723.0, "timer/agent.train_total": 268.0849826335907, "timer/agent.train_frac": 0.8927460252592735, "timer/agent.train_avg": 0.37079527335213097, "timer/agent.train_min": 0.36183762550354004, "timer/agent.train_max": 0.38596391677856445, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22269678115844727, "timer/agent.report_frac": 0.0007415994147235281, "timer/agent.report_avg": 0.22269678115844727, "timer/agent.report_min": 0.22269678115844727, "timer/agent.report_max": 0.22269678115844727, "fps": 4.815216256030776}
{"step": 636056, "episode/length": 213.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06074766355140187}
{"step": 636192, "episode/length": 135.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.900000013411045, "episode/reward_rate": 0.0661764705882353}
{"step": 636440, "episode/length": 247.0, "episode/score": 12.100000023841858, "episode/sum_abs_reward": 13.899999976158142, "episode/reward_rate": 0.056451612903225805}
{"step": 636765, "episode/length": 324.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.033846153846153845}
{"step": 636971, "episode/length": 205.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.043689320388349516}
{"step": 637015, "episode/length": 43.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.1590909090909091}
{"step": 637204, "episode/length": 188.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.0582010582010582}
{"step": 637445, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.578553105743838, "train/action_min": 0.0, "train/action_std": 3.4537023121202495, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04270908677242172, "train/actor_opt_grad_steps": 317820.0, "train/actor_opt_loss": -11.834430591321327, "train/adv_mag": 0.4443865242138715, "train/adv_max": 0.3924228700113968, "train/adv_mean": 0.0022727483354904343, "train/adv_min": -0.39290950122013896, "train/adv_std": 0.048760733449123274, "train/cont_avg": 0.9945945202464789, "train/cont_loss_mean": 1.2738707974015495e-05, "train/cont_loss_std": 0.00037711177149401306, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 7.111398711336111e-05, "train/cont_pos_acc": 0.999999979012449, "train/cont_pos_loss": 1.2442670020552956e-05, "train/cont_pred": 0.9945840869151371, "train/cont_rate": 0.9945945202464789, "train/dyn_loss_mean": 5.392825314696406, "train/dyn_loss_std": 8.849066358217051, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0343548084648562, "train/extr_critic_critic_opt_grad_steps": 317820.0, "train/extr_critic_critic_opt_loss": 16251.725517165492, "train/extr_critic_mag": 10.912550308334996, "train/extr_critic_max": 10.912550308334996, "train/extr_critic_mean": 2.7687941856787237, "train/extr_critic_min": -0.50202519792906, "train/extr_critic_std": 2.697825532563975, "train/extr_return_normed_mag": 1.4467235602123636, "train/extr_return_normed_max": 1.4467235602123636, "train/extr_return_normed_mean": 0.360777863314454, "train/extr_return_normed_min": -0.0811290175352298, "train/extr_return_normed_std": 0.3324153423309326, "train/extr_return_rate": 0.7158781155733995, "train/extr_return_raw_mag": 11.715581665576345, "train/extr_return_raw_max": 11.715581665576345, "train/extr_return_raw_mean": 2.7874842093024457, "train/extr_return_raw_min": -0.8460274338722229, "train/extr_return_raw_std": 2.73336029724336, "train/extr_reward_mag": 1.0520636598828812, "train/extr_reward_max": 1.0520636598828812, "train/extr_reward_mean": 0.05741707820602706, "train/extr_reward_min": -0.6704493559582133, "train/extr_reward_std": 0.23112239174439875, "train/image_loss_mean": 3.21416505961351, "train/image_loss_std": 8.460711136670179, "train/model_loss_mean": 6.5041686581893705, "train/model_loss_std": 12.636848463139064, "train/model_opt_grad_norm": 26.340596776613047, "train/model_opt_grad_steps": 317567.0, "train/model_opt_loss": 16260.421613666373, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6970799540130184, "train/policy_entropy_max": 2.6970799540130184, "train/policy_entropy_mean": 0.46153335000427675, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6668061962429906, "train/policy_logprob_mag": 7.438384237423749, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.45977932718438164, "train/policy_logprob_min": -7.438384237423749, "train/policy_logprob_std": 1.0684001680830835, "train/policy_randomness_mag": 0.9519508632136063, "train/policy_randomness_max": 0.9519508632136063, "train/policy_randomness_mean": 0.1629010179722813, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23535332503453107, "train/post_ent_mag": 55.16018585419991, "train/post_ent_max": 55.16018585419991, "train/post_ent_mean": 40.799810866235006, "train/post_ent_min": 19.30380239621015, "train/post_ent_std": 5.7274618686085015, "train/prior_ent_mag": 76.53563314088633, "train/prior_ent_max": 76.53563314088633, "train/prior_ent_mean": 46.18368621611259, "train/prior_ent_min": 28.641262752909057, "train/prior_ent_std": 7.567041806771722, "train/rep_loss_mean": 5.392825314696406, "train/rep_loss_std": 8.849066358217051, "train/reward_avg": 0.038041923562405815, "train/reward_loss_mean": 0.054295661426346065, "train/reward_loss_std": 0.21523425591663575, "train/reward_max_data": 1.0183098635203403, "train/reward_max_pred": 1.0208757158736108, "train/reward_neg_acc": 0.9942677507937794, "train/reward_neg_loss": 0.02424344639490608, "train/reward_pos_acc": 0.9887416068936737, "train/reward_pos_loss": 0.729486990142876, "train/reward_pred": 0.03780003663309863, "train/reward_rate": 0.04276243397887324, "stats/sum_log_reward": 9.528571741921562, "stats/max_log_achievement_collect_coal": 1.7142857142857142, "stats/max_log_achievement_collect_drink": 2.5714285714285716, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 15.857142857142858, "stats/max_log_achievement_collect_wood": 7.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.2857142857142857, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 2.5714285714285716, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 3.2857142857142856, "stats/max_log_achievement_place_table": 2.2857142857142856, "stats/max_log_achievement_wake_up": 0.7142857142857143, "stats/mean_log_entropy": 0.41534845743860516, "replay/size": 637382.0, "replay/inserts": 1420.0, "replay/samples": 11360.0, "replay/insert_wait_avg": 3.431212734168684e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.359216763939656e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3252532482147, "timer/env.step_count": 1420.0, "timer/env.step_total": 21.377098560333252, "timer/env.step_frac": 0.07117982363829183, "timer/env.step_avg": 0.015054294760798064, "timer/env.step_min": 0.0029039382934570312, "timer/env.step_max": 1.7925081253051758, "timer/replay.add_count": 1420.0, "timer/replay.add_total": 0.26253390312194824, "timer/replay.add_frac": 0.0008741652601054083, "timer/replay.add_avg": 0.0001848830303675692, "timer/replay.add_min": 6.079673767089844e-05, "timer/replay.add_max": 0.0009369850158691406, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022996902465820312, "timer/logger.write_frac": 7.657332247985715e-05, "timer/logger.write_avg": 0.022996902465820312, "timer/logger.write_min": 0.022996902465820312, "timer/logger.write_max": 0.022996902465820312, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004818439483642578, "timer/checkpoint.save_frac": 1.6044070325515395e-06, "timer/checkpoint.save_avg": 0.0004818439483642578, "timer/checkpoint.save_min": 0.0004818439483642578, "timer/checkpoint.save_max": 0.0004818439483642578, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.6114463806152344, "timer/agent.save_frac": 0.00536567059608336, "timer/agent.save_avg": 1.6114463806152344, "timer/agent.save_min": 1.6114463806152344, "timer/agent.save_max": 1.6114463806152344, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.58306884765625e-05, "timer/replay.save_frac": 2.8579244518483635e-07, "timer/replay.save_avg": 8.58306884765625e-05, "timer/replay.save_min": 8.58306884765625e-05, "timer/replay.save_max": 8.58306884765625e-05, "timer/agent.policy_count": 1420.0, "timer/agent.policy_total": 12.895975112915039, "timer/agent.policy_frac": 0.042940029096576474, "timer/agent.policy_avg": 0.0090816726147289, "timer/agent.policy_min": 0.005797863006591797, "timer/agent.policy_max": 1.6000142097473145, "timer/dataset_count": 710.0, "timer/dataset_total": 0.06029248237609863, "timer/dataset_frac": 0.00020075728472379817, "timer/dataset_avg": 8.491898926211075e-05, "timer/dataset_min": 6.246566772460938e-05, "timer/dataset_max": 0.00018715858459472656, "timer/agent.train_count": 710.0, "timer/agent.train_total": 265.0541663169861, "timer/agent.train_frac": 0.8825570392441239, "timer/agent.train_avg": 0.37331572720702266, "timer/agent.train_min": 0.36583542823791504, "timer/agent.train_max": 0.8194575309753418, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22046184539794922, "timer/agent.report_frac": 0.0007340769482869311, "timer/agent.report_avg": 0.22046184539794922, "timer/agent.report_min": 0.22046184539794922, "timer/agent.report_max": 0.22046184539794922, "fps": 4.728110791636773}
{"step": 637596, "episode/length": 391.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.030612244897959183}
{"step": 637953, "episode/length": 356.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.025210084033613446}
{"step": 638144, "episode/length": 190.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.06282722513089005}
{"step": 638315, "episode/length": 170.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.04093567251461988}
{"step": 638459, "episode/length": 143.0, "episode/score": 9.100000016391277, "episode/sum_abs_reward": 12.1000000461936, "episode/reward_rate": 0.0763888888888889}
{"step": 638657, "episode/length": 197.0, "episode/score": 11.099999971687794, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.06565656565656566}
{"step": 638865, "episode/length": 207.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 8.500000037252903, "episode/reward_rate": 0.03365384615384615}
{"step": 638893, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.635787116156684, "train/action_min": 0.0, "train/action_std": 3.4685260785950556, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04357286087340779, "train/actor_opt_grad_steps": 318535.0, "train/actor_opt_loss": -12.97330773373445, "train/adv_mag": 0.4218406147427029, "train/adv_max": 0.38210839074518943, "train/adv_mean": 0.0018958556880129941, "train/adv_min": -0.35662805040677387, "train/adv_std": 0.048900650762435466, "train/cont_avg": 0.9948594835069444, "train/cont_loss_mean": 0.00011675042766354536, "train/cont_loss_std": 0.0036594321545572305, "train/cont_neg_acc": 0.9962273651445416, "train/cont_neg_loss": 0.015693810667372278, "train/cont_pos_acc": 0.9999999793039428, "train/cont_pos_loss": 6.846322802308198e-06, "train/cont_pred": 0.994882319536474, "train/cont_rate": 0.9948594835069444, "train/dyn_loss_mean": 5.19190388917923, "train/dyn_loss_std": 8.706598281860352, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0392082929611206, "train/extr_critic_critic_opt_grad_steps": 318535.0, "train/extr_critic_critic_opt_loss": 16330.89662000868, "train/extr_critic_mag": 10.91190332836575, "train/extr_critic_max": 10.91190332836575, "train/extr_critic_mean": 2.73068186475171, "train/extr_critic_min": -0.5151880184809366, "train/extr_critic_std": 2.6762748459974923, "train/extr_return_normed_mag": 1.4455005990134344, "train/extr_return_normed_max": 1.4455005990134344, "train/extr_return_normed_mean": 0.3559106070962217, "train/extr_return_normed_min": -0.08314500723241104, "train/extr_return_normed_std": 0.3306071845193704, "train/extr_return_rate": 0.7142750273148218, "train/extr_return_raw_mag": 11.671743326716953, "train/extr_return_raw_max": 11.671743326716953, "train/extr_return_raw_mean": 2.7462062438329062, "train/extr_return_raw_min": -0.8504076153039932, "train/extr_return_raw_std": 2.708454022804896, "train/extr_reward_mag": 1.0572426451577082, "train/extr_reward_max": 1.0572426451577082, "train/extr_reward_mean": 0.05663580623351865, "train/extr_reward_min": -0.6603962977727255, "train/extr_reward_std": 0.22986469438506496, "train/image_loss_mean": 3.142283409833908, "train/image_loss_std": 8.193286604351467, "train/model_loss_mean": 6.3122073080804615, "train/model_loss_std": 12.296392440795898, "train/model_opt_grad_norm": 27.748732311624877, "train/model_opt_grad_steps": 318281.5138888889, "train/model_opt_loss": 18150.062622070312, "train/model_opt_model_opt_grad_overflow": 0.013888888888888888, "train/model_opt_model_opt_grad_scale": 2812.5, "train/policy_entropy_mag": 2.698370936844084, "train/policy_entropy_max": 2.698370936844084, "train/policy_entropy_mean": 0.46832378291421467, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6636584959924221, "train/policy_logprob_mag": 7.438384221659766, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.46792589252193767, "train/policy_logprob_min": -7.438384221659766, "train/policy_logprob_std": 1.0746146490176518, "train/policy_randomness_mag": 0.9524065256118774, "train/policy_randomness_max": 0.9524065256118774, "train/policy_randomness_mean": 0.16529774251911375, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23424232440690199, "train/post_ent_mag": 55.221155961354576, "train/post_ent_max": 55.221155961354576, "train/post_ent_mean": 40.789410008324516, "train/post_ent_min": 19.20724109808604, "train/post_ent_std": 5.678567336665259, "train/prior_ent_mag": 76.63781536950006, "train/prior_ent_max": 76.63781536950006, "train/prior_ent_mean": 46.03566397560967, "train/prior_ent_min": 28.123789495891995, "train/prior_ent_std": 7.525110761324565, "train/rep_loss_mean": 5.19190388917923, "train/rep_loss_std": 8.706598281860352, "train/reward_avg": 0.039264593868412904, "train/reward_loss_mean": 0.05466484806189934, "train/reward_loss_std": 0.20964576759272152, "train/reward_max_data": 1.0263888951804903, "train/reward_max_pred": 1.0265969634056091, "train/reward_neg_acc": 0.9947340819570754, "train/reward_neg_loss": 0.023892085869900055, "train/reward_pos_acc": 0.9905460841125913, "train/reward_pos_loss": 0.7187618066867193, "train/reward_pred": 0.03912982352388402, "train/reward_rate": 0.044135199652777776, "stats/sum_log_reward": 8.814285823277064, "stats/max_log_achievement_collect_coal": 0.2857142857142857, "stats/max_log_achievement_collect_drink": 3.7142857142857144, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 0.8571428571428571, "stats/max_log_achievement_collect_stone": 7.428571428571429, "stats/max_log_achievement_collect_wood": 10.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.1428571428571428, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.14285714285714285, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.2857142857142858, "stats/max_log_achievement_make_wood_sword": 1.7142857142857142, "stats/max_log_achievement_place_furnace": 0.8571428571428571, "stats/max_log_achievement_place_plant": 0.7142857142857143, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 2.857142857142857, "stats/max_log_achievement_wake_up": 1.5714285714285714, "stats/mean_log_entropy": 0.4863142264740808, "replay/size": 638830.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.379517497278709e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3438830388843683e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.08058643341064, "timer/env.step_count": 1448.0, "timer/env.step_total": 19.18611478805542, "timer/env.step_frac": 0.06393654123410916, "timer/env.step_avg": 0.013250079273518936, "timer/env.step_min": 0.0028638839721679688, "timer/env.step_max": 1.6240859031677246, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.25290942192077637, "timer/replay.add_frac": 0.0008428050109029569, "timer/replay.add_avg": 0.0001746612029839616, "timer/replay.add_min": 5.888938903808594e-05, "timer/replay.add_max": 0.0009770393371582031, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02279376983642578, "timer/logger.write_frac": 7.595882861780474e-05, "timer/logger.write_avg": 0.02279376983642578, "timer/logger.write_min": 0.02279376983642578, "timer/logger.write_max": 0.02279376983642578, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 10.598285913467407, "timer/agent.policy_frac": 0.03531813250378068, "timer/agent.policy_avg": 0.0073192582275327395, "timer/agent.policy_min": 0.005991220474243164, "timer/agent.policy_max": 0.017795801162719727, "timer/dataset_count": 724.0, "timer/dataset_total": 0.05881977081298828, "timer/dataset_frac": 0.00019601324934774038, "timer/dataset_avg": 8.124277736600591e-05, "timer/dataset_min": 6.0558319091796875e-05, "timer/dataset_max": 0.0001556873321533203, "timer/agent.train_count": 724.0, "timer/agent.train_total": 269.3080720901489, "timer/agent.train_frac": 0.8974524986470916, "timer/agent.train_avg": 0.37197247526263666, "timer/agent.train_min": 0.3658576011657715, "timer/agent.train_max": 0.38481640815734863, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21909594535827637, "timer/agent.report_frac": 0.0007301236909802388, "timer/agent.report_avg": 0.21909594535827637, "timer/agent.report_min": 0.21909594535827637, "timer/agent.report_max": 0.21909594535827637, "fps": 4.825274908524711}
{"step": 639019, "episode/length": 153.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.07142857142857142}
{"step": 639206, "episode/length": 186.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.053475935828877004}
{"step": 639391, "episode/length": 184.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.05405405405405406}
{"step": 639573, "episode/length": 181.0, "episode/score": 12.099999979138374, "episode/sum_abs_reward": 14.30000002682209, "episode/reward_rate": 0.07142857142857142}
{"step": 639763, "episode/length": 189.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.06315789473684211}
{"step": 639913, "episode/length": 149.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.5, "episode/reward_rate": 0.08}
{"step": 640116, "episode/length": 202.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.06403940886699508}
{"step": 640337, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.559822082519531, "train/action_min": 0.0, "train/action_std": 3.4259258144431644, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.042961200802690454, "train/actor_opt_grad_steps": 319255.0, "train/actor_opt_loss": -12.64909970180856, "train/adv_mag": 0.4228170191248258, "train/adv_max": 0.3866058753596412, "train/adv_mean": 0.0020490019570489596, "train/adv_min": -0.3539862972166803, "train/adv_std": 0.048856765342255436, "train/cont_avg": 0.9948323567708334, "train/cont_loss_mean": 7.577919277173489e-05, "train/cont_loss_std": 0.002377836352280443, "train/cont_neg_acc": 0.9985915497994758, "train/cont_neg_loss": 0.005890879199502648, "train/cont_pos_acc": 0.9999863555034002, "train/cont_pos_loss": 3.627164416318706e-05, "train/cont_pred": 0.9948348758949174, "train/cont_rate": 0.9948323567708334, "train/dyn_loss_mean": 5.294406380918291, "train/dyn_loss_std": 8.825288613637289, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1204514495200582, "train/extr_critic_critic_opt_grad_steps": 319255.0, "train/extr_critic_critic_opt_loss": 16435.734049479168, "train/extr_critic_mag": 10.766036126348707, "train/extr_critic_max": 10.766036126348707, "train/extr_critic_mean": 2.6382477117909326, "train/extr_critic_min": -0.49215926726659137, "train/extr_critic_std": 2.601754605770111, "train/extr_return_normed_mag": 1.4502144389682345, "train/extr_return_normed_max": 1.4502144389682345, "train/extr_return_normed_mean": 0.3492232755654388, "train/extr_return_normed_min": -0.08209861044047607, "train/extr_return_normed_std": 0.32619631062779164, "train/extr_return_rate": 0.7202528582678901, "train/extr_return_raw_mag": 11.541102170944214, "train/extr_return_raw_max": 11.541102170944214, "train/extr_return_raw_mean": 2.6548002047671213, "train/extr_return_raw_min": -0.826300231118997, "train/extr_return_raw_std": 2.6326761262284384, "train/extr_reward_mag": 1.0539261102676392, "train/extr_reward_max": 1.0539261102676392, "train/extr_reward_mean": 0.05414209602814582, "train/extr_reward_min": -0.6450934956471125, "train/extr_reward_std": 0.22491780813369486, "train/image_loss_mean": 3.1717070755031376, "train/image_loss_std": 8.4061232275433, "train/model_loss_mean": 6.402654800150129, "train/model_loss_std": 12.590804325209724, "train/model_opt_grad_norm": 27.94970871025408, "train/model_opt_grad_steps": 319000.9861111111, "train/model_opt_loss": 17342.12569173177, "train/model_opt_model_opt_grad_overflow": 0.013888888888888888, "train/model_opt_model_opt_grad_scale": 2673.6111111111113, "train/policy_entropy_mag": 2.680308391650518, "train/policy_entropy_max": 2.680308391650518, "train/policy_entropy_mean": 0.44458336010575294, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6371320014198621, "train/policy_logprob_mag": 7.438384281264411, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4444238270322482, "train/policy_logprob_min": -7.438384281264411, "train/policy_logprob_std": 1.0587513662046857, "train/policy_randomness_mag": 0.9460312384698126, "train/policy_randomness_max": 0.9460312384698126, "train/policy_randomness_mean": 0.1569184169380201, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22487963549792767, "train/post_ent_mag": 55.25525903701782, "train/post_ent_max": 55.25525903701782, "train/post_ent_mean": 40.739121437072754, "train/post_ent_min": 19.283083505100674, "train/post_ent_std": 5.678915235731337, "train/prior_ent_mag": 76.74644067552354, "train/prior_ent_max": 76.74644067552354, "train/prior_ent_mean": 46.026561896006264, "train/prior_ent_min": 28.064302444458008, "train/prior_ent_std": 7.563151723808712, "train/rep_loss_mean": 5.294406380918291, "train/rep_loss_std": 8.825288613637289, "train/reward_avg": 0.03837483715162509, "train/reward_loss_mean": 0.054228063051899277, "train/reward_loss_std": 0.21203810576763418, "train/reward_max_data": 1.0208333383003871, "train/reward_max_pred": 1.0196654697259266, "train/reward_neg_acc": 0.9948945376608107, "train/reward_neg_loss": 0.023551528924144804, "train/reward_pos_acc": 0.990244657629066, "train/reward_pos_loss": 0.7344011921021674, "train/reward_pred": 0.037803642813944154, "train/reward_rate": 0.04306369357638889, "stats/sum_log_reward": 10.528571673801967, "stats/max_log_achievement_collect_coal": 0.42857142857142855, "stats/max_log_achievement_collect_drink": 2.142857142857143, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 14.285714285714286, "stats/max_log_achievement_collect_wood": 9.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5714285714285714, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 2.142857142857143, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 5.142857142857143, "stats/max_log_achievement_place_table": 2.857142857142857, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.2670327425003052, "replay/size": 640274.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.3776515738785763e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3455624725679941e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.06366991996765, "timer/env.step_count": 1444.0, "timer/env.step_total": 19.816582679748535, "timer/env.step_frac": 0.06604125946014715, "timer/env.step_avg": 0.013723395207582088, "timer/env.step_min": 0.002927064895629883, "timer/env.step_max": 1.6900112628936768, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.2653334140777588, "timer/replay.add_frac": 0.0008842570450082409, "timer/replay.add_avg": 0.00018374890171589945, "timer/replay.add_min": 6.29425048828125e-05, "timer/replay.add_max": 0.0009005069732666016, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.020289897918701172, "timer/logger.write_frac": 6.761864215055708e-05, "timer/logger.write_avg": 0.020289897918701172, "timer/logger.write_min": 0.020289897918701172, "timer/logger.write_max": 0.020289897918701172, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.66274881362915, "timer/agent.policy_frac": 0.035534954353098114, "timer/agent.policy_avg": 0.007384175078690548, "timer/agent.policy_min": 0.005889892578125, "timer/agent.policy_max": 0.015250682830810547, "timer/dataset_count": 722.0, "timer/dataset_total": 0.058513641357421875, "timer/dataset_frac": 0.00019500408487648142, "timer/dataset_avg": 8.104382459476715e-05, "timer/dataset_min": 6.079673767089844e-05, "timer/dataset_max": 0.0001392364501953125, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.5871911048889, "timer/agent.train_frac": 0.8951006670568481, "timer/agent.train_avg": 0.3720044198128655, "timer/agent.train_min": 0.3658008575439453, "timer/agent.train_max": 0.38417816162109375, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2203845977783203, "timer/agent.report_frac": 0.0007344594493465365, "timer/agent.report_avg": 0.2203845977783203, "timer/agent.report_min": 0.2203845977783203, "timer/agent.report_max": 0.2203845977783203, "fps": 4.812237230885986}
{"step": 640470, "episode/length": 353.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.03954802259887006}
{"step": 640791, "episode/length": 320.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.04361370716510903}
{"step": 641013, "episode/length": 221.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.05405405405405406}
{"step": 641237, "episode/length": 223.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.099999994039536, "episode/reward_rate": 0.05803571428571429}
{"step": 641506, "episode/length": 268.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 13.100000008940697, "episode/reward_rate": 0.04460966542750929}
{"step": 641693, "episode/length": 186.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.30000001937151, "episode/reward_rate": 0.0374331550802139}
{"step": 641769, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.5760142008463545, "train/action_min": 0.0, "train/action_std": 3.4569521182113223, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0432979593363901, "train/actor_opt_grad_steps": 319975.0, "train/actor_opt_loss": -11.132209025116431, "train/adv_mag": 0.4282824227379428, "train/adv_max": 0.3883611270123058, "train/adv_mean": 0.0024356677632668936, "train/adv_min": -0.3531058780435059, "train/adv_std": 0.04844320472329855, "train/cont_avg": 0.9945610894097222, "train/cont_loss_mean": 7.768591066417387e-05, "train/cont_loss_std": 0.0024373344403794623, "train/cont_neg_acc": 0.9957010596990585, "train/cont_neg_loss": 0.004182470128287245, "train/cont_pos_acc": 0.9999727432926496, "train/cont_pos_loss": 5.196651315841905e-05, "train/cont_pred": 0.9945445160071055, "train/cont_rate": 0.9945610894097222, "train/dyn_loss_mean": 5.20329933696323, "train/dyn_loss_std": 8.736660381158194, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.023275679184331, "train/extr_critic_critic_opt_grad_steps": 319975.0, "train/extr_critic_critic_opt_loss": 16238.234768337674, "train/extr_critic_mag": 10.859204239315456, "train/extr_critic_max": 10.859204239315456, "train/extr_critic_mean": 2.682030341691441, "train/extr_critic_min": -0.509416659673055, "train/extr_critic_std": 2.62386996878518, "train/extr_return_normed_mag": 1.4439551333586376, "train/extr_return_normed_max": 1.4439551333586376, "train/extr_return_normed_mean": 0.35420009969837135, "train/extr_return_normed_min": -0.08060646139913136, "train/extr_return_normed_std": 0.32783716999822193, "train/extr_return_rate": 0.7224257091681162, "train/extr_return_raw_mag": 11.52930900785658, "train/extr_return_raw_max": 11.52930900785658, "train/extr_return_raw_mean": 2.70174221528901, "train/extr_return_raw_min": -0.820936094969511, "train/extr_return_raw_std": 2.655908508433236, "train/extr_reward_mag": 1.0563846396075354, "train/extr_reward_max": 1.0563846396075354, "train/extr_reward_mean": 0.054265357398738466, "train/extr_reward_min": -0.651943153805203, "train/extr_reward_std": 0.2248692305551635, "train/image_loss_mean": 3.086579336060418, "train/image_loss_std": 8.282988376087612, "train/model_loss_mean": 6.262606183687846, "train/model_loss_std": 12.408160779211256, "train/model_opt_grad_norm": 25.93621195687188, "train/model_opt_grad_steps": 319720.0, "train/model_opt_loss": 15656.515421549479, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6918492780791388, "train/policy_entropy_max": 2.6918492780791388, "train/policy_entropy_mean": 0.45451453804141945, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6491630483004782, "train/policy_logprob_mag": 7.438384268018934, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4554502986785438, "train/policy_logprob_min": -7.438384268018934, "train/policy_logprob_std": 1.0692523974511359, "train/policy_randomness_mag": 0.9501046645972464, "train/policy_randomness_max": 0.9501046645972464, "train/policy_randomness_mean": 0.16042368455479541, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2291260701086786, "train/post_ent_mag": 55.072932455274795, "train/post_ent_max": 55.072932455274795, "train/post_ent_mean": 40.93911753760444, "train/post_ent_min": 19.684210618336994, "train/post_ent_std": 5.6911311282051935, "train/prior_ent_mag": 76.5484733581543, "train/prior_ent_max": 76.5484733581543, "train/prior_ent_mean": 46.16335577434964, "train/prior_ent_min": 28.3654551770952, "train/prior_ent_std": 7.517407225237952, "train/rep_loss_mean": 5.20329933696323, "train/rep_loss_std": 8.736660381158194, "train/reward_avg": 0.03691270582688352, "train/reward_loss_mean": 0.0539695310095946, "train/reward_loss_std": 0.21081400704052713, "train/reward_max_data": 1.0194444490803614, "train/reward_max_pred": 1.018120793832673, "train/reward_neg_acc": 0.9942927435040474, "train/reward_neg_loss": 0.02417714529049893, "train/reward_pos_acc": 0.9875318250722356, "train/reward_pos_loss": 0.7336418305834135, "train/reward_pred": 0.036529109347611666, "train/reward_rate": 0.0419921875, "stats/sum_log_reward": 10.766666809717814, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 6.166666666666667, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 11.666666666666666, "stats/max_log_achievement_collect_wood": 10.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 0.16666666666666666, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.8333333333333333, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_stone": 2.0, "stats/max_log_achievement_place_table": 2.6666666666666665, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.554064599176248, "replay/size": 641706.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.42660110090032e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3484302179773427e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.14093685150146, "timer/env.step_count": 1432.0, "timer/env.step_total": 19.76483130455017, "timer/env.step_frac": 0.06585183451442704, "timer/env.step_avg": 0.013802256497590901, "timer/env.step_min": 0.0029866695404052734, "timer/env.step_max": 1.7986361980438232, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.2618286609649658, "timer/replay.add_frac": 0.0008723523812231881, "timer/replay.add_avg": 0.0001828412436906186, "timer/replay.add_min": 6.222724914550781e-05, "timer/replay.add_max": 0.0008835792541503906, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022887706756591797, "timer/logger.write_frac": 7.62565313371957e-05, "timer/logger.write_avg": 0.022887706756591797, "timer/logger.write_min": 0.022887706756591797, "timer/logger.write_max": 0.022887706756591797, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003216266632080078, "timer/checkpoint.save_frac": 1.0715854577582553e-06, "timer/checkpoint.save_avg": 0.0003216266632080078, "timer/checkpoint.save_min": 0.0003216266632080078, "timer/checkpoint.save_max": 0.0003216266632080078, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2454962730407715, "timer/agent.save_frac": 0.004149704755726129, "timer/agent.save_avg": 1.2454962730407715, "timer/agent.save_min": 1.2454962730407715, "timer/agent.save_max": 1.2454962730407715, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.772445678710938e-05, "timer/replay.save_frac": 2.5895986599643534e-07, "timer/replay.save_avg": 7.772445678710938e-05, "timer/replay.save_min": 7.772445678710938e-05, "timer/replay.save_max": 7.772445678710938e-05, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 12.38538408279419, "timer/agent.policy_frac": 0.04126522763844778, "timer/agent.policy_avg": 0.008649011231001529, "timer/agent.policy_min": 0.006068706512451172, "timer/agent.policy_max": 1.2407279014587402, "timer/dataset_count": 716.0, "timer/dataset_total": 0.058106184005737305, "timer/dataset_frac": 0.0001935963304948504, "timer/dataset_avg": 8.115388827616942e-05, "timer/dataset_min": 5.626678466796875e-05, "timer/dataset_max": 0.0001430511474609375, "timer/agent.train_count": 716.0, "timer/agent.train_total": 266.99218678474426, "timer/agent.train_frac": 0.8895560518518739, "timer/agent.train_avg": 0.3728941156211512, "timer/agent.train_min": 0.3658030033111572, "timer/agent.train_max": 0.8988795280456543, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21875739097595215, "timer/agent.report_frac": 0.0007288488976903045, "timer/agent.report_avg": 0.21875739097595215, "timer/agent.report_min": 0.21875739097595215, "timer/agent.report_max": 0.21875739097595215, "fps": 4.7709877222207115}
{"step": 641868, "episode/length": 174.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06285714285714286}
{"step": 642060, "episode/length": 191.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.07291666666666667}
{"step": 642417, "episode/length": 356.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.03361344537815126}
{"step": 642770, "episode/length": 352.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.100000038743019, "episode/reward_rate": 0.0339943342776204}
{"step": 643060, "episode/length": 289.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 16.30000001192093, "episode/reward_rate": 0.05172413793103448}
{"step": 643104, "episode/length": 43.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.500000014901161, "episode/reward_rate": 0.18181818181818182}
{"step": 643219, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.489174202696918, "train/action_min": 0.0, "train/action_std": 3.349033584333446, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.044455673851787225, "train/actor_opt_grad_steps": 320700.0, "train/actor_opt_loss": -11.598842119313266, "train/adv_mag": 0.4182204947079698, "train/adv_max": 0.3734328906013541, "train/adv_mean": 0.002860554895636447, "train/adv_min": -0.36547813962583675, "train/adv_std": 0.049393549510469176, "train/cont_avg": 0.9946222174657534, "train/cont_loss_mean": 2.42272323775441e-05, "train/cont_loss_std": 0.0007542024425551918, "train/cont_neg_acc": 0.9980430537707186, "train/cont_neg_loss": 0.0026841808491868406, "train/cont_pos_acc": 0.9999999795874505, "train/cont_pos_loss": 6.080484142247993e-06, "train/cont_pred": 0.9946270519739961, "train/cont_rate": 0.9946222174657534, "train/dyn_loss_mean": 5.223582548637912, "train/dyn_loss_std": 8.764881016456918, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0635471931875569, "train/extr_critic_critic_opt_grad_steps": 320700.0, "train/extr_critic_critic_opt_loss": 16444.14184235873, "train/extr_critic_mag": 10.85408832602305, "train/extr_critic_max": 10.85408832602305, "train/extr_critic_mean": 2.803428979769145, "train/extr_critic_min": -0.5418353864591415, "train/extr_critic_std": 2.6761257321867222, "train/extr_return_normed_mag": 1.4420883181976945, "train/extr_return_normed_max": 1.4420883181976945, "train/extr_return_normed_mean": 0.36808540069893614, "train/extr_return_normed_min": -0.08562271470484668, "train/extr_return_normed_std": 0.33177859080980904, "train/extr_return_rate": 0.7352980906016207, "train/extr_return_raw_mag": 11.612082938625388, "train/extr_return_raw_max": 11.612082938625388, "train/extr_return_raw_mean": 2.826820574394644, "train/extr_return_raw_min": -0.8857009917089383, "train/extr_return_raw_std": 2.7146570682525635, "train/extr_reward_mag": 1.0674760798885399, "train/extr_reward_max": 1.0674760798885399, "train/extr_reward_mean": 0.05675623354132045, "train/extr_reward_min": -0.6724105289537613, "train/extr_reward_std": 0.23007742305324502, "train/image_loss_mean": 3.109505058967904, "train/image_loss_std": 8.30243032272548, "train/model_loss_mean": 6.2995627742924105, "train/model_loss_std": 12.466054145603964, "train/model_opt_grad_norm": 27.019924973788328, "train/model_opt_grad_steps": 320444.4794520548, "train/model_opt_loss": 17227.70283069349, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2739.72602739726, "train/policy_entropy_mag": 2.683015032990338, "train/policy_entropy_max": 2.683015032990338, "train/policy_entropy_mean": 0.4153948773259986, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5995844324974164, "train/policy_logprob_mag": 7.438384252051785, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4150909675310736, "train/policy_logprob_min": -7.438384252051785, "train/policy_logprob_std": 1.0345338942253426, "train/policy_randomness_mag": 0.9469865683006914, "train/policy_randomness_max": 0.9469865683006914, "train/policy_randomness_mean": 0.1466161636252926, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21162699326260448, "train/post_ent_mag": 54.91680056428256, "train/post_ent_max": 54.91680056428256, "train/post_ent_mean": 40.70373273875615, "train/post_ent_min": 19.515911807752634, "train/post_ent_std": 5.6200474255705535, "train/prior_ent_mag": 76.62532733237907, "train/prior_ent_max": 76.62532733237907, "train/prior_ent_mean": 45.92825228547397, "train/prior_ent_min": 28.187632155744996, "train/prior_ent_std": 7.487400270488164, "train/rep_loss_mean": 5.223582548637912, "train/rep_loss_std": 8.764881016456918, "train/reward_avg": 0.03877889535912912, "train/reward_loss_mean": 0.05588398817671488, "train/reward_loss_std": 0.21466989243683748, "train/reward_max_data": 1.026027403465689, "train/reward_max_pred": 1.0245903158841068, "train/reward_neg_acc": 0.9937886628386092, "train/reward_neg_loss": 0.024878891886607427, "train/reward_pos_acc": 0.9879504172769311, "train/reward_pos_loss": 0.7332650912951116, "train/reward_pred": 0.03834642921510625, "train/reward_rate": 0.04379815924657534, "stats/sum_log_reward": 10.766666809717814, "stats/max_log_achievement_collect_coal": 1.1666666666666667, "stats/max_log_achievement_collect_drink": 2.6666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 19.0, "stats/max_log_achievement_collect_wood": 9.166666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.16666666666666666, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 2.5, "stats/max_log_achievement_place_plant": 1.1666666666666667, "stats/max_log_achievement_place_stone": 4.5, "stats/max_log_achievement_place_table": 2.6666666666666665, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.608732134103775, "replay/size": 643156.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.49340767695986e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3459550923314589e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.17052841186523, "timer/env.step_count": 1450.0, "timer/env.step_total": 18.531394481658936, "timer/env.step_frac": 0.06173622233902967, "timer/env.step_avg": 0.012780272056316508, "timer/env.step_min": 0.003187894821166992, "timer/env.step_max": 1.6767773628234863, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.2846825122833252, "timer/replay.add_frac": 0.0009484026089753593, "timer/replay.add_avg": 0.0001963327670919484, "timer/replay.add_min": 6.604194641113281e-05, "timer/replay.add_max": 0.0008709430694580078, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02217388153076172, "timer/logger.write_frac": 7.387094811765413e-05, "timer/logger.write_avg": 0.02217388153076172, "timer/logger.write_min": 0.02217388153076172, "timer/logger.write_max": 0.02217388153076172, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 10.810410976409912, "timer/agent.policy_frac": 0.03601423175554697, "timer/agent.policy_avg": 0.007455455845799939, "timer/agent.policy_min": 0.0061228275299072266, "timer/agent.policy_max": 0.01609969139099121, "timer/dataset_count": 725.0, "timer/dataset_total": 0.06013822555541992, "timer/dataset_frac": 0.00020034686907338222, "timer/dataset_avg": 8.294927662816541e-05, "timer/dataset_min": 6.008148193359375e-05, "timer/dataset_max": 0.0001385211944580078, "timer/agent.train_count": 725.0, "timer/agent.train_total": 269.7984154224396, "timer/agent.train_frac": 0.8988171385441546, "timer/agent.train_avg": 0.3721357454102615, "timer/agent.train_min": 0.36594653129577637, "timer/agent.train_max": 0.3858797550201416, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22092294692993164, "timer/agent.report_frac": 0.0007359914649142449, "timer/agent.report_avg": 0.22092294692993164, "timer/agent.report_min": 0.22092294692993164, "timer/agent.report_max": 0.22092294692993164, "fps": 4.830523805335869}
{"step": 643272, "episode/length": 167.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.07142857142857142}
{"step": 643500, "episode/length": 227.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.043859649122807015}
{"step": 643768, "episode/length": 267.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.900000043213367, "episode/reward_rate": 0.05223880597014925}
{"step": 644145, "episode/length": 376.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 15.100000068545341, "episode/reward_rate": 0.03183023872679045}
{"step": 644184, "episode/length": 38.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 8.899999991059303, "episode/reward_rate": 0.23076923076923078}
{"step": 644405, "episode/length": 220.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.049773755656108594}
{"step": 644644, "episode/length": 238.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 13.299999982118607, "episode/reward_rate": 0.05439330543933055}
{"step": 644663, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.509009467230903, "train/action_min": 0.0, "train/action_std": 3.3830012712213726, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.043854209697908826, "train/actor_opt_grad_steps": 321425.0, "train/actor_opt_loss": -13.273532341751787, "train/adv_mag": 0.45257287555270725, "train/adv_max": 0.3848409259484874, "train/adv_mean": 0.0019199240870067216, "train/adv_min": -0.3981461367673344, "train/adv_std": 0.04952119057998061, "train/cont_avg": 0.9944254557291666, "train/cont_loss_mean": 3.322989837196822e-05, "train/cont_loss_std": 0.001052053894591312, "train/cont_neg_acc": 0.9982638888888888, "train/cont_neg_loss": 0.0029167956201834816, "train/cont_pos_acc": 0.999999982615312, "train/cont_pos_loss": 1.0642147241828819e-05, "train/cont_pred": 0.994427224000295, "train/cont_rate": 0.9944254557291666, "train/dyn_loss_mean": 5.297804216543834, "train/dyn_loss_std": 8.86226342784034, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0189540750450559, "train/extr_critic_critic_opt_grad_steps": 321425.0, "train/extr_critic_critic_opt_loss": 16282.911960177951, "train/extr_critic_mag": 11.093601187070211, "train/extr_critic_max": 11.093601187070211, "train/extr_critic_mean": 2.9697852532068887, "train/extr_critic_min": -0.5263021836678187, "train/extr_critic_std": 2.755921777751711, "train/extr_return_normed_mag": 1.4417377611001332, "train/extr_return_normed_max": 1.4417377611001332, "train/extr_return_normed_mean": 0.38062971002525753, "train/extr_return_normed_min": -0.07546763135016793, "train/extr_return_normed_std": 0.3356860259340869, "train/extr_return_rate": 0.7421287645896276, "train/extr_return_raw_mag": 11.813839713732401, "train/extr_return_raw_max": 11.813839713732401, "train/extr_return_raw_mean": 2.985752605729633, "train/extr_return_raw_min": -0.8091817928685082, "train/extr_return_raw_std": 2.7929564151499005, "train/extr_reward_mag": 1.0639325545893774, "train/extr_reward_max": 1.0639325545893774, "train/extr_reward_mean": 0.057064395760082536, "train/extr_reward_min": -0.6416829642322328, "train/extr_reward_std": 0.23094980397986042, "train/image_loss_mean": 2.997767569290267, "train/image_loss_std": 8.098385605547163, "train/model_loss_mean": 6.232240716616313, "train/model_loss_std": 12.32483622762892, "train/model_opt_grad_norm": 27.463427901268005, "train/model_opt_grad_steps": 321168.8611111111, "train/model_opt_loss": 15580.601820203992, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6981623470783234, "train/policy_entropy_max": 2.6981623470783234, "train/policy_entropy_mean": 0.4157999677376615, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6034295236070951, "train/policy_logprob_mag": 7.438384195168813, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41449649901025826, "train/policy_logprob_min": -7.438384195168813, "train/policy_logprob_std": 1.0339055069618754, "train/policy_randomness_mag": 0.9523329022857878, "train/policy_randomness_max": 0.9523329022857878, "train/policy_randomness_mean": 0.14675914175394508, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21298413972059885, "train/post_ent_mag": 55.09390931659274, "train/post_ent_max": 55.09390931659274, "train/post_ent_mean": 40.73381996154785, "train/post_ent_min": 19.59664331542121, "train/post_ent_std": 5.681681838300493, "train/prior_ent_mag": 76.58566538492839, "train/prior_ent_max": 76.58566538492839, "train/prior_ent_mean": 46.04251050949097, "train/prior_ent_min": 28.352354976865982, "train/prior_ent_std": 7.570055385430654, "train/rep_loss_mean": 5.297804216543834, "train/rep_loss_std": 8.86226342784034, "train/reward_avg": 0.038848198743330106, "train/reward_loss_mean": 0.05575744445539183, "train/reward_loss_std": 0.22295648956464398, "train/reward_max_data": 1.0291666736205418, "train/reward_max_pred": 1.0284761190414429, "train/reward_neg_acc": 0.9943563648396068, "train/reward_neg_loss": 0.024302268866449594, "train/reward_pos_acc": 0.9851219405730566, "train/reward_pos_loss": 0.7446990170412593, "train/reward_pred": 0.038427282564548984, "train/reward_rate": 0.04372829861111111, "stats/sum_log_reward": 10.385714530944824, "stats/max_log_achievement_collect_coal": 0.8571428571428571, "stats/max_log_achievement_collect_drink": 4.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.1428571428571428, "stats/max_log_achievement_collect_stone": 17.142857142857142, "stats/max_log_achievement_collect_wood": 8.857142857142858, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.7142857142857143, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.2857142857142858, "stats/max_log_achievement_place_furnace": 2.5714285714285716, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 5.142857142857143, "stats/max_log_achievement_place_table": 2.2857142857142856, "stats/max_log_achievement_wake_up": 2.0, "stats/mean_log_entropy": 0.5758864837033408, "replay/size": 644600.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.4407235248597373e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3450465043826117e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.37319827079773, "timer/env.step_count": 1444.0, "timer/env.step_total": 20.286994218826294, "timer/env.step_frac": 0.06753929556836429, "timer/env.step_avg": 0.014049164971486353, "timer/env.step_min": 0.0028848648071289062, "timer/env.step_max": 1.7742786407470703, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.25180530548095703, "timer/replay.add_frac": 0.0008383081677412013, "timer/replay.add_avg": 0.00017438040545772647, "timer/replay.add_min": 6.270408630371094e-05, "timer/replay.add_max": 0.0008749961853027344, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022631168365478516, "timer/logger.write_frac": 7.534350100395997e-05, "timer/logger.write_avg": 0.022631168365478516, "timer/logger.write_min": 0.022631168365478516, "timer/logger.write_max": 0.022631168365478516, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.560953617095947, "timer/agent.policy_frac": 0.03515944058222815, "timer/agent.policy_avg": 0.00731367979023265, "timer/agent.policy_min": 0.005938529968261719, "timer/agent.policy_max": 0.015128374099731445, "timer/dataset_count": 722.0, "timer/dataset_total": 0.05750703811645508, "timer/dataset_frac": 0.00019145196191775512, "timer/dataset_avg": 7.96496372804087e-05, "timer/dataset_min": 5.888938903808594e-05, "timer/dataset_max": 0.00017571449279785156, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.5312957763672, "timer/agent.train_frac": 0.8939921981130824, "timer/agent.train_avg": 0.3719270024603424, "timer/agent.train_min": 0.3658716678619385, "timer/agent.train_max": 0.38460278511047363, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2227921485900879, "timer/agent.report_frac": 0.0007417178026290894, "timer/agent.report_avg": 0.2227921485900879, "timer/agent.report_min": 0.2227921485900879, "timer/agent.report_max": 0.2227921485900879, "fps": 4.807249550863675}
{"step": 644822, "episode/length": 177.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.07303370786516854}
{"step": 644991, "episode/length": 168.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.0650887573964497}
{"step": 645229, "episode/length": 237.0, "episode/score": 9.099999979138374, "episode/sum_abs_reward": 11.30000002682209, "episode/reward_rate": 0.04201680672268908}
{"step": 645390, "episode/length": 160.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.049689440993788817}
{"step": 645663, "episode/length": 272.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 15.1000000461936, "episode/reward_rate": 0.047619047619047616}
{"step": 645832, "episode/length": 168.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.07100591715976332}
{"step": 646093, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.549815003301056, "train/action_min": 0.0, "train/action_std": 3.4583197815317503, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04215989230384289, "train/actor_opt_grad_steps": 322140.0, "train/actor_opt_loss": -12.389944710362126, "train/adv_mag": 0.39889515285760585, "train/adv_max": 0.37328941175635433, "train/adv_mean": 0.002394065601524936, "train/adv_min": -0.35382606340965755, "train/adv_std": 0.047821180711329826, "train/cont_avg": 0.9949246258802817, "train/cont_loss_mean": 3.540119479599609e-05, "train/cont_loss_std": 0.001072456891222373, "train/cont_neg_acc": 0.9982394366197183, "train/cont_neg_loss": 0.0020397842413939554, "train/cont_pos_acc": 0.999986148216355, "train/cont_pos_loss": 1.9992372251619958e-05, "train/cont_pred": 0.994919478053778, "train/cont_rate": 0.9949246258802817, "train/dyn_loss_mean": 5.2572428474963555, "train/dyn_loss_std": 8.855868534303047, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0365971419173228, "train/extr_critic_critic_opt_grad_steps": 322140.0, "train/extr_critic_critic_opt_loss": 16235.59405259683, "train/extr_critic_mag": 11.074390545697279, "train/extr_critic_max": 11.074390545697279, "train/extr_critic_mean": 2.7876380111130192, "train/extr_critic_min": -0.483473925523355, "train/extr_critic_std": 2.6758983706084774, "train/extr_return_normed_mag": 1.4346511347193114, "train/extr_return_normed_max": 1.4346511347193114, "train/extr_return_normed_mean": 0.35795367645545745, "train/extr_return_normed_min": -0.07865282085160134, "train/extr_return_normed_std": 0.32590889217148367, "train/extr_return_rate": 0.7229047841589216, "train/extr_return_raw_mag": 11.76351609028561, "train/extr_return_raw_max": 11.76351609028561, "train/extr_return_raw_mean": 2.8075538873672485, "train/extr_return_raw_min": -0.8241502911272184, "train/extr_return_raw_std": 2.7109127027887694, "train/extr_reward_mag": 1.0494910361061633, "train/extr_reward_max": 1.0494910361061633, "train/extr_reward_mean": 0.054935007133114507, "train/extr_reward_min": -0.6375600922275597, "train/extr_reward_std": 0.22642537007029628, "train/image_loss_mean": 3.176204155868208, "train/image_loss_std": 8.50849829257374, "train/model_loss_mean": 6.3840563532332295, "train/model_loss_std": 12.67425418907488, "train/model_opt_grad_norm": 25.042567400865153, "train/model_opt_grad_steps": 321883.0, "train/model_opt_loss": 15960.140886333627, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6979126325795346, "train/policy_entropy_max": 2.6979126325795346, "train/policy_entropy_mean": 0.4562082481636128, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6519968648191908, "train/policy_logprob_mag": 7.438384223991717, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4572911927817573, "train/policy_logprob_min": -7.438384223991717, "train/policy_logprob_std": 1.0715040421821702, "train/policy_randomness_mag": 0.9522447653219733, "train/policy_randomness_max": 0.9522447653219733, "train/policy_randomness_mean": 0.16102148959754217, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23012628070485425, "train/post_ent_mag": 54.79839738657777, "train/post_ent_max": 54.79839738657777, "train/post_ent_mean": 40.825617508149485, "train/post_ent_min": 19.415009726940745, "train/post_ent_std": 5.687551041723976, "train/prior_ent_mag": 76.70930663632674, "train/prior_ent_max": 76.70930663632674, "train/prior_ent_mean": 46.01900514414613, "train/prior_ent_min": 28.560422010824713, "train/prior_ent_std": 7.506792249813886, "train/rep_loss_mean": 5.2572428474963555, "train/rep_loss_std": 8.855868534303047, "train/reward_avg": 0.03729093276803762, "train/reward_loss_mean": 0.05347108400203812, "train/reward_loss_std": 0.2080521136522293, "train/reward_max_data": 1.0140845104002616, "train/reward_max_pred": 1.0142951750419509, "train/reward_neg_acc": 0.9943271908961552, "train/reward_neg_loss": 0.023781345973552113, "train/reward_pos_acc": 0.9879557582694041, "train/reward_pos_loss": 0.7315984460669505, "train/reward_pred": 0.03692416350921275, "train/reward_rate": 0.042047205105633804, "stats/sum_log_reward": 10.266666889190674, "stats/max_log_achievement_collect_coal": 0.3333333333333333, "stats/max_log_achievement_collect_drink": 2.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 0.6666666666666666, "stats/max_log_achievement_collect_stone": 16.0, "stats/max_log_achievement_collect_wood": 11.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.8333333333333333, "stats/max_log_achievement_place_furnace": 2.6666666666666665, "stats/max_log_achievement_place_plant": 0.6666666666666666, "stats/max_log_achievement_place_stone": 3.6666666666666665, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.3617972781260808, "replay/size": 646030.0, "replay/inserts": 1430.0, "replay/samples": 11440.0, "replay/insert_wait_avg": 3.431893728829764e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3645503904436018e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0215382575989, "timer/env.step_count": 1430.0, "timer/env.step_total": 20.471863746643066, "timer/env.step_frac": 0.06823464697079813, "timer/env.step_avg": 0.01431598863401613, "timer/env.step_min": 0.0029845237731933594, "timer/env.step_max": 2.3482210636138916, "timer/replay.add_count": 1430.0, "timer/replay.add_total": 0.26674342155456543, "timer/replay.add_frac": 0.0008890809076698326, "timer/replay.add_avg": 0.00018653386122696882, "timer/replay.add_min": 6.365776062011719e-05, "timer/replay.add_max": 0.0009653568267822266, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021439313888549805, "timer/logger.write_frac": 7.145924926943739e-05, "timer/logger.write_avg": 0.021439313888549805, "timer/logger.write_min": 0.021439313888549805, "timer/logger.write_max": 0.021439313888549805, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00030803680419921875, "timer/checkpoint.save_frac": 1.0267156351112964e-06, "timer/checkpoint.save_avg": 0.00030803680419921875, "timer/checkpoint.save_min": 0.00030803680419921875, "timer/checkpoint.save_max": 0.00030803680419921875, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4887444972991943, "timer/agent.save_frac": 0.004962125405879882, "timer/agent.save_avg": 1.4887444972991943, "timer/agent.save_min": 1.4887444972991943, "timer/agent.save_max": 1.4887444972991943, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.794929504394531e-05, "timer/replay.save_frac": 2.264813900980801e-07, "timer/replay.save_avg": 6.794929504394531e-05, "timer/replay.save_min": 6.794929504394531e-05, "timer/replay.save_max": 6.794929504394531e-05, "timer/agent.policy_count": 1430.0, "timer/agent.policy_total": 12.605239391326904, "timer/agent.policy_frac": 0.042014448244392474, "timer/agent.policy_avg": 0.008814852721207625, "timer/agent.policy_min": 0.0059702396392822266, "timer/agent.policy_max": 1.487398386001587, "timer/dataset_count": 715.0, "timer/dataset_total": 0.05728435516357422, "timer/dataset_frac": 0.00019093414258275617, "timer/dataset_avg": 8.011797924975415e-05, "timer/dataset_min": 5.7697296142578125e-05, "timer/dataset_max": 0.00013184547424316406, "timer/agent.train_count": 715.0, "timer/agent.train_total": 265.9473521709442, "timer/agent.train_frac": 0.8864275335546126, "timer/agent.train_avg": 0.3719543387006213, "timer/agent.train_min": 0.36536335945129395, "timer/agent.train_max": 0.42815542221069336, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22069931030273438, "timer/agent.report_frac": 0.0007356115550385641, "timer/agent.report_avg": 0.22069931030273438, "timer/agent.report_min": 0.22069931030273438, "timer/agent.report_max": 0.22069931030273438, "fps": 4.766220844061451}
{"step": 646174, "episode/length": 341.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 14.900000013411045, "episode/reward_rate": 0.04093567251461988}
{"step": 646370, "episode/length": 195.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.061224489795918366}
{"step": 646563, "episode/length": 192.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.05699481865284974}
{"step": 646717, "episode/length": 153.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.700000025331974, "episode/reward_rate": 0.05844155844155844}
{"step": 646907, "episode/length": 189.0, "episode/score": 11.1000000461936, "episode/sum_abs_reward": 13.500000081956387, "episode/reward_rate": 0.06315789473684211}
{"step": 647182, "episode/length": 274.0, "episode/score": 12.1000000461936, "episode/sum_abs_reward": 15.300000049173832, "episode/reward_rate": 0.05090909090909091}
{"step": 647429, "episode/length": 246.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.024291497975708502}
{"step": 647539, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.584103100920377, "train/action_min": 0.0, "train/action_std": 3.465607042181982, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04101381609088754, "train/actor_opt_grad_steps": 322860.0, "train/actor_opt_loss": -12.35995354799375, "train/adv_mag": 0.4166217197294105, "train/adv_max": 0.37323563964399575, "train/adv_mean": 0.00231249223839793, "train/adv_min": -0.34898940994314953, "train/adv_std": 0.046234018794477805, "train/cont_avg": 0.9950502996575342, "train/cont_loss_mean": 0.0001364913906617674, "train/cont_loss_std": 0.004037021022264402, "train/cont_neg_acc": 0.9980430537707186, "train/cont_neg_loss": 0.0022182988862159336, "train/cont_pos_acc": 0.9999730407375179, "train/cont_pos_loss": 0.000122614543328026, "train/cont_pred": 0.9950213211856477, "train/cont_rate": 0.9950502996575342, "train/dyn_loss_mean": 5.1925735734913445, "train/dyn_loss_std": 8.76958757557281, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.1121645365675834, "train/extr_critic_critic_opt_grad_steps": 322860.0, "train/extr_critic_critic_opt_loss": 16263.375040132705, "train/extr_critic_mag": 11.068998676456816, "train/extr_critic_max": 11.068998676456816, "train/extr_critic_mean": 2.7266555306029647, "train/extr_critic_min": -0.5362272883114749, "train/extr_critic_std": 2.687655757551324, "train/extr_return_normed_mag": 1.4238935284418603, "train/extr_return_normed_max": 1.4238935284418603, "train/extr_return_normed_mean": 0.3477420649708134, "train/extr_return_normed_min": -0.08331405779678527, "train/extr_return_normed_std": 0.32363101248055287, "train/extr_return_rate": 0.7249527736885907, "train/extr_return_raw_mag": 11.799623136651027, "train/extr_return_raw_max": 11.799623136651027, "train/extr_return_raw_mean": 2.7460953699399346, "train/extr_return_raw_min": -0.8813122257794419, "train/extr_return_raw_std": 2.7230551112188053, "train/extr_reward_mag": 1.0594073354381404, "train/extr_reward_max": 1.0594073354381404, "train/extr_reward_mean": 0.053946849596622874, "train/extr_reward_min": -0.6543225866474517, "train/extr_reward_std": 0.22441923965329993, "train/image_loss_mean": 3.2445682009605514, "train/image_loss_std": 8.372928449552353, "train/model_loss_mean": 6.412301174581867, "train/model_loss_std": 12.478185562238302, "train/model_opt_grad_norm": 25.97271940152939, "train/model_opt_grad_steps": 322602.27397260274, "train/model_opt_loss": 16030.752943065068, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2534.246575342466, "train/policy_entropy_mag": 2.694828663786797, "train/policy_entropy_max": 2.694828663786797, "train/policy_entropy_mean": 0.4695855856758274, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.658042358209009, "train/policy_logprob_mag": 7.4383842324557365, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4698236596910921, "train/policy_logprob_min": -7.4383842324557365, "train/policy_logprob_std": 1.078735931278908, "train/policy_randomness_mag": 0.9511562585830688, "train/policy_randomness_max": 0.9511562585830688, "train/policy_randomness_mean": 0.1657431031743141, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23226007125149034, "train/post_ent_mag": 55.09345997849556, "train/post_ent_max": 55.09345997849556, "train/post_ent_mean": 40.879778300246144, "train/post_ent_min": 19.139384335034514, "train/post_ent_std": 5.706174732887582, "train/prior_ent_mag": 76.66283918406866, "train/prior_ent_max": 76.66283918406866, "train/prior_ent_mean": 46.0760519471887, "train/prior_ent_min": 28.432703540749745, "train/prior_ent_std": 7.48015003334986, "train/rep_loss_mean": 5.1925735734913445, "train/rep_loss_std": 8.76958757557281, "train/reward_avg": 0.03625187280345453, "train/reward_loss_mean": 0.05205233349171404, "train/reward_loss_std": 0.20492775881127134, "train/reward_max_data": 1.026027403465689, "train/reward_max_pred": 1.0223091383502907, "train/reward_neg_acc": 0.9940981399523069, "train/reward_neg_loss": 0.0231379354500199, "train/reward_pos_acc": 0.9874910320321174, "train/reward_pos_loss": 0.7296246094246434, "train/reward_pred": 0.03593855006747866, "train/reward_rate": 0.0409086044520548, "stats/sum_log_reward": 10.100000040871757, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 3.142857142857143, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 0.5714285714285714, "stats/max_log_achievement_collect_stone": 14.285714285714286, "stats/max_log_achievement_collect_wood": 10.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.1428571428571428, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.14285714285714285, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_wood_sword": 1.4285714285714286, "stats/max_log_achievement_place_furnace": 2.142857142857143, "stats/max_log_achievement_place_plant": 0.5714285714285714, "stats/max_log_achievement_place_stone": 4.428571428571429, "stats/max_log_achievement_place_table": 2.2857142857142856, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.5080802972827639, "replay/size": 647476.0, "replay/inserts": 1446.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.4264014469637417e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3461952222663173e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1184620857239, "timer/env.step_count": 1446.0, "timer/env.step_total": 19.618285417556763, "timer/env.step_frac": 0.06536847243990317, "timer/env.step_avg": 0.013567278988628466, "timer/env.step_min": 0.0028460025787353516, "timer/env.step_max": 1.6586670875549316, "timer/replay.add_count": 1446.0, "timer/replay.add_total": 0.259401798248291, "timer/replay.add_frac": 0.000864331359175755, "timer/replay.add_avg": 0.00017939266822150139, "timer/replay.add_min": 6.222724914550781e-05, "timer/replay.add_max": 0.0009212493896484375, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02138972282409668, "timer/logger.write_frac": 7.127093306904611e-05, "timer/logger.write_avg": 0.02138972282409668, "timer/logger.write_min": 0.02138972282409668, "timer/logger.write_max": 0.02138972282409668, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1446.0, "timer/agent.policy_total": 10.608018159866333, "timer/agent.policy_frac": 0.03534610328916162, "timer/agent.policy_avg": 0.007336112143752651, "timer/agent.policy_min": 0.00610041618347168, "timer/agent.policy_max": 0.01616501808166504, "timer/dataset_count": 723.0, "timer/dataset_total": 0.05784869194030762, "timer/dataset_frac": 0.00019275286011489722, "timer/dataset_avg": 8.001202204745175e-05, "timer/dataset_min": 5.793571472167969e-05, "timer/dataset_max": 0.00014901161193847656, "timer/agent.train_count": 723.0, "timer/agent.train_total": 268.8947825431824, "timer/agent.train_frac": 0.8959621499938815, "timer/agent.train_avg": 0.37191532855211945, "timer/agent.train_min": 0.3659038543701172, "timer/agent.train_max": 0.3827195167541504, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2206575870513916, "timer/agent.report_frac": 0.0007352349652796914, "timer/agent.report_avg": 0.2206575870513916, "timer/agent.report_min": 0.2206575870513916, "timer/agent.report_max": 0.2206575870513916, "fps": 4.818020672964704}
{"step": 647728, "episode/length": 298.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.900000050663948, "episode/reward_rate": 0.04013377926421405}
{"step": 647927, "episode/length": 198.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.700000040233135, "episode/reward_rate": 0.05527638190954774}
{"step": 647984, "episode/length": 56.0, "episode/score": 0.09999998658895493, "episode/sum_abs_reward": 2.1000000163912773, "episode/reward_rate": 0.017543859649122806}
{"step": 648133, "episode/length": 148.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.700000025331974, "episode/reward_rate": 0.040268456375838924}
{"step": 648309, "episode/length": 175.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.500000044703484, "episode/reward_rate": 0.05113636363636364}
{"step": 648707, "episode/length": 397.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.032663316582914576}
{"step": 648991, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.580570644802517, "train/action_min": 0.0, "train/action_std": 3.4388884670204587, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04129395649457971, "train/actor_opt_grad_steps": 323585.0, "train/actor_opt_loss": -14.642078073488342, "train/adv_mag": 0.42085212510493064, "train/adv_max": 0.377585309661097, "train/adv_mean": 0.0011308452308311542, "train/adv_min": -0.3608558451135953, "train/adv_std": 0.04723363643926051, "train/cont_avg": 0.99462890625, "train/cont_loss_mean": 5.038240116858914e-06, "train/cont_loss_std": 9.743418684296203e-05, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00015483233593806113, "train/cont_pos_acc": 0.999999982615312, "train/cont_pos_loss": 3.92968920771687e-06, "train/cont_pred": 0.9946261586414443, "train/cont_rate": 0.99462890625, "train/dyn_loss_mean": 5.380920900238885, "train/dyn_loss_std": 8.856108731693691, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9911376809080442, "train/extr_critic_critic_opt_grad_steps": 323585.0, "train/extr_critic_critic_opt_loss": 16117.731228298611, "train/extr_critic_mag": 10.939803189701504, "train/extr_critic_max": 10.939803189701504, "train/extr_critic_mean": 2.7633516126208835, "train/extr_critic_min": -0.48662445114718544, "train/extr_critic_std": 2.6757330927583904, "train/extr_return_normed_mag": 1.433776040871938, "train/extr_return_normed_max": 1.433776040871938, "train/extr_return_normed_mean": 0.35664912727144027, "train/extr_return_normed_min": -0.08049841952096257, "train/extr_return_normed_std": 0.32720547459191746, "train/extr_return_rate": 0.7272533666756418, "train/extr_return_raw_mag": 11.657769163449606, "train/extr_return_raw_max": 11.657769163449606, "train/extr_return_raw_mean": 2.772670621673266, "train/extr_return_raw_min": -0.8336025476455688, "train/extr_return_raw_std": 2.7001220881938934, "train/extr_reward_mag": 1.0501546065012615, "train/extr_reward_max": 1.0501546065012615, "train/extr_reward_mean": 0.054243149132364325, "train/extr_reward_min": -0.6410912109745873, "train/extr_reward_std": 0.22489917112721336, "train/image_loss_mean": 3.0887358801232443, "train/image_loss_std": 8.116875880294376, "train/model_loss_mean": 6.3713815742068824, "train/model_loss_std": 12.310741464296976, "train/model_opt_grad_norm": 28.963389966222977, "train/model_opt_grad_steps": 323326.4583333333, "train/model_opt_loss": 14632.033569335938, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2291.6666666666665, "train/policy_entropy_mag": 2.705939074357351, "train/policy_entropy_max": 2.705939074357351, "train/policy_entropy_mean": 0.4536639830718438, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6466878913342953, "train/policy_logprob_mag": 7.438384301132626, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4553669107457002, "train/policy_logprob_min": -7.438384301132626, "train/policy_logprob_std": 1.0725711360573769, "train/policy_randomness_mag": 0.9550777417090204, "train/policy_randomness_max": 0.9550777417090204, "train/policy_randomness_mean": 0.16012347686207956, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22825244472672543, "train/post_ent_mag": 54.71538729137845, "train/post_ent_max": 54.71538729137845, "train/post_ent_mean": 40.673149320814346, "train/post_ent_min": 19.14780655172136, "train/post_ent_std": 5.6574577821625605, "train/prior_ent_mag": 76.69985919528537, "train/prior_ent_max": 76.69985919528537, "train/prior_ent_mean": 46.05614619784885, "train/prior_ent_min": 28.12138342857361, "train/prior_ent_std": 7.5217123826344805, "train/rep_loss_mean": 5.380920900238885, "train/rep_loss_std": 8.856108731693691, "train/reward_avg": 0.03788926830101344, "train/reward_loss_mean": 0.054088168415344424, "train/reward_loss_std": 0.20696793475912678, "train/reward_max_data": 1.0194444490803614, "train/reward_max_pred": 1.0165125959449344, "train/reward_neg_acc": 0.9946002711852392, "train/reward_neg_loss": 0.024090947311682005, "train/reward_pos_acc": 0.9870086229509778, "train/reward_pos_loss": 0.7271455046203401, "train/reward_pred": 0.037591569461963244, "train/reward_rate": 0.04273817274305555, "stats/sum_log_reward": 7.766666745146115, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 1.8333333333333333, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 0.8333333333333334, "stats/max_log_achievement_collect_stone": 18.5, "stats/max_log_achievement_collect_wood": 7.666666666666667, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 0.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.16666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 0.6666666666666666, "stats/max_log_achievement_place_furnace": 2.3333333333333335, "stats/max_log_achievement_place_plant": 0.8333333333333334, "stats/max_log_achievement_place_stone": 6.0, "stats/max_log_achievement_place_table": 2.3333333333333335, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.5045952027042707, "replay/size": 648928.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.4459037885849797e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3406940071379187e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2484288215637, "timer/env.step_count": 1452.0, "timer/env.step_total": 18.62144112586975, "timer/env.step_frac": 0.062020111808599634, "timer/env.step_avg": 0.012824683970984676, "timer/env.step_min": 0.0029921531677246094, "timer/env.step_max": 1.6967146396636963, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.24828076362609863, "timer/replay.add_frac": 0.0008269177780565531, "timer/replay.add_avg": 0.00017099226145048116, "timer/replay.add_min": 5.9604644775390625e-05, "timer/replay.add_max": 0.0008594989776611328, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02643442153930664, "timer/logger.write_frac": 8.804183136963723e-05, "timer/logger.write_avg": 0.02643442153930664, "timer/logger.write_min": 0.02643442153930664, "timer/logger.write_max": 0.02643442153930664, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 10.670017004013062, "timer/agent.policy_frac": 0.03553729505227221, "timer/agent.policy_avg": 0.007348496559237645, "timer/agent.policy_min": 0.005980014801025391, "timer/agent.policy_max": 0.014461278915405273, "timer/dataset_count": 726.0, "timer/dataset_total": 0.05726814270019531, "timer/dataset_frac": 0.00019073586138307325, "timer/dataset_avg": 7.888173925646737e-05, "timer/dataset_min": 6.008148193359375e-05, "timer/dataset_max": 0.00012922286987304688, "timer/agent.train_count": 726.0, "timer/agent.train_total": 269.97058033943176, "timer/agent.train_frac": 0.8991573457987154, "timer/agent.train_avg": 0.3718603034978399, "timer/agent.train_min": 0.3619983196258545, "timer/agent.train_max": 0.3853294849395752, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22052216529846191, "timer/agent.report_frac": 0.000734465676186826, "timer/agent.report_avg": 0.22052216529846191, "timer/agent.report_min": 0.22052216529846191, "timer/agent.report_max": 0.22052216529846191, "fps": 4.835891965019721}
{"step": 649031, "episode/length": 323.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.500000037252903, "episode/reward_rate": 0.040123456790123455}
{"step": 649209, "episode/length": 177.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.033707865168539325}
{"step": 649422, "episode/length": 212.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.056338028169014086}
{"step": 649610, "episode/length": 187.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.05319148936170213}
{"step": 649848, "episode/length": 237.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.50000000745058, "episode/reward_rate": 0.0546218487394958}
{"step": 650065, "episode/length": 216.0, "episode/score": 11.099999979138374, "episode/sum_abs_reward": 13.30000002682209, "episode/reward_rate": 0.055299539170506916}
{"step": 650423, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.551156785753038, "train/action_min": 0.0, "train/action_std": 3.39105024933815, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04199852297703425, "train/actor_opt_grad_steps": 324305.0, "train/actor_opt_loss": -12.534260611981153, "train/adv_mag": 0.4320309033824338, "train/adv_max": 0.391055178311136, "train/adv_mean": 0.0023581499068667552, "train/adv_min": -0.3640295130511125, "train/adv_std": 0.0485207068009509, "train/cont_avg": 0.9944661458333334, "train/cont_loss_mean": 2.110778914291937e-05, "train/cont_loss_std": 0.000617197986788535, "train/cont_neg_acc": 0.9980158739619784, "train/cont_neg_loss": 0.0019315864515841873, "train/cont_pos_acc": 0.9999999817874696, "train/cont_pos_loss": 8.866858626493328e-06, "train/cont_pred": 0.9944664496514533, "train/cont_rate": 0.9944661458333334, "train/dyn_loss_mean": 5.397948145866394, "train/dyn_loss_std": 8.807114508416918, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0240735560655594, "train/extr_critic_critic_opt_grad_steps": 324305.0, "train/extr_critic_critic_opt_loss": 16335.164605034723, "train/extr_critic_mag": 10.882330391142103, "train/extr_critic_max": 10.882330391142103, "train/extr_critic_mean": 2.7509283555878534, "train/extr_critic_min": -0.4753361576133304, "train/extr_critic_std": 2.6493016382058463, "train/extr_return_normed_mag": 1.4439296192593045, "train/extr_return_normed_max": 1.4439296192593045, "train/extr_return_normed_mean": 0.36207466800179744, "train/extr_return_normed_min": -0.07956696513833271, "train/extr_return_normed_std": 0.3306199432247215, "train/extr_return_rate": 0.7303295392129157, "train/extr_return_raw_mag": 11.546981281704372, "train/extr_return_raw_max": 11.546981281704372, "train/extr_return_raw_mean": 2.770071271393034, "train/extr_return_raw_min": -0.8128141239285469, "train/extr_return_raw_std": 2.6822230319182077, "train/extr_reward_mag": 1.0524737338225048, "train/extr_reward_max": 1.0524737338225048, "train/extr_reward_mean": 0.0564971475655006, "train/extr_reward_min": -0.6200807127687666, "train/extr_reward_std": 0.2292982041835785, "train/image_loss_mean": 3.187495779660013, "train/image_loss_std": 8.24371486902237, "train/model_loss_mean": 6.480559137132433, "train/model_loss_std": 12.407784435484144, "train/model_opt_grad_norm": 25.62785605589549, "train/model_opt_grad_steps": 324045.0, "train/model_opt_loss": 8100.698947482639, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.6892016563150616, "train/policy_entropy_max": 2.6892016563150616, "train/policy_entropy_mean": 0.4231223286026054, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6147300944560103, "train/policy_logprob_mag": 7.438384201791552, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4223439436819818, "train/policy_logprob_min": -7.438384201791552, "train/policy_logprob_std": 1.0430477460225422, "train/policy_randomness_mag": 0.9491701689031389, "train/policy_randomness_max": 0.9491701689031389, "train/policy_randomness_mean": 0.1493436134316855, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2169727459549904, "train/post_ent_mag": 54.87536965476142, "train/post_ent_max": 54.87536965476142, "train/post_ent_mean": 40.75348006354438, "train/post_ent_min": 19.367753360006546, "train/post_ent_std": 5.682589557435778, "train/prior_ent_mag": 76.72920693291559, "train/prior_ent_max": 76.72920693291559, "train/prior_ent_mean": 46.133054150475395, "train/prior_ent_min": 28.21904993057251, "train/prior_ent_std": 7.570688691404131, "train/rep_loss_mean": 5.397948145866394, "train/rep_loss_std": 8.807114508416918, "train/reward_avg": 0.03898518868825502, "train/reward_loss_mean": 0.05427344733228286, "train/reward_loss_std": 0.21329420328968102, "train/reward_max_data": 1.0166666706403096, "train/reward_max_pred": 1.014090034696791, "train/reward_neg_acc": 0.9945501486460367, "train/reward_neg_loss": 0.023436292837787833, "train/reward_pos_acc": 0.9883230825265249, "train/reward_pos_loss": 0.7285448064406713, "train/reward_pred": 0.03873878725183507, "train/reward_rate": 0.043782552083333336, "stats/sum_log_reward": 9.933333476384481, "stats/max_log_achievement_collect_coal": 0.3333333333333333, "stats/max_log_achievement_collect_drink": 4.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 16.5, "stats/max_log_achievement_collect_wood": 8.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 0.8333333333333334, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 2.3333333333333335, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 5.666666666666667, "stats/max_log_achievement_place_table": 2.3333333333333335, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.41364698608716327, "replay/size": 650360.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.4285990219542434e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3590649852539574e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.05663418769836, "timer/env.step_count": 1432.0, "timer/env.step_total": 19.82066059112549, "timer/env.step_frac": 0.06605639846885308, "timer/env.step_avg": 0.013841243429556905, "timer/env.step_min": 0.0030553340911865234, "timer/env.step_max": 1.8636276721954346, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.25450754165649414, "timer/replay.add_frac": 0.0008481983487733475, "timer/replay.add_avg": 0.00017772873020704898, "timer/replay.add_min": 6.389617919921875e-05, "timer/replay.add_max": 0.001379251480102539, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022620677947998047, "timer/logger.write_frac": 7.538802802756175e-05, "timer/logger.write_avg": 0.022620677947998047, "timer/logger.write_min": 0.022620677947998047, "timer/logger.write_max": 0.022620677947998047, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.000186920166015625, "timer/checkpoint.save_frac": 6.22949619233209e-07, "timer/checkpoint.save_avg": 0.000186920166015625, "timer/checkpoint.save_min": 0.000186920166015625, "timer/checkpoint.save_max": 0.000186920166015625, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.220529317855835, "timer/agent.save_frac": 0.004067663163522461, "timer/agent.save_avg": 1.220529317855835, "timer/agent.save_min": 1.220529317855835, "timer/agent.save_max": 1.220529317855835, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.367134094238281e-05, "timer/replay.save_frac": 2.455247861518643e-07, "timer/replay.save_avg": 7.367134094238281e-05, "timer/replay.save_min": 7.367134094238281e-05, "timer/replay.save_max": 7.367134094238281e-05, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 12.34470248222351, "timer/agent.policy_frac": 0.04114124160474775, "timer/agent.policy_avg": 0.008620602292055524, "timer/agent.policy_min": 0.0061151981353759766, "timer/agent.policy_max": 1.2168922424316406, "timer/dataset_count": 716.0, "timer/dataset_total": 0.05717802047729492, "timer/dataset_frac": 0.00019055742804049319, "timer/dataset_avg": 7.985757049901525e-05, "timer/dataset_min": 5.793571472167969e-05, "timer/dataset_max": 0.0001671314239501953, "timer/agent.train_count": 716.0, "timer/agent.train_total": 266.9029018878937, "timer/agent.train_frac": 0.8895084176706934, "timer/agent.train_avg": 0.3727694160445442, "timer/agent.train_min": 0.3661210536956787, "timer/agent.train_max": 0.875870943069458, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21766996383666992, "timer/agent.report_frac": 0.0007254295990686478, "timer/agent.report_avg": 0.21766996383666992, "timer/agent.report_min": 0.21766996383666992, "timer/agent.report_max": 0.21766996383666992, "fps": 4.772375248502474}
{"step": 650451, "episode/length": 385.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.900000043213367, "episode/reward_rate": 0.03626943005181347}
{"step": 650652, "episode/length": 200.0, "episode/score": 11.099999971687794, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.06467661691542288}
{"step": 650822, "episode/length": 169.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.07647058823529412}
{"step": 650975, "episode/length": 152.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.08496732026143791}
{"step": 651161, "episode/length": 185.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.053763440860215055}
{"step": 651217, "episode/length": 55.0, "episode/score": 3.100000001490116, "episode/sum_abs_reward": 5.100000001490116, "episode/reward_rate": 0.08928571428571429}
{"step": 651425, "episode/length": 207.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.0625}
{"step": 651658, "episode/length": 232.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.500000044703484, "episode/reward_rate": 0.055793991416309016}
{"step": 651861, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.566920810275608, "train/action_min": 0.0, "train/action_std": 3.421540038453208, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.042554608597937554, "train/actor_opt_grad_steps": 325025.0, "train/actor_opt_loss": -13.960632293588585, "train/adv_mag": 0.4189346018764708, "train/adv_max": 0.37951784953475, "train/adv_mean": 0.0018701484118032062, "train/adv_min": -0.3561813812702894, "train/adv_std": 0.048628610817508564, "train/cont_avg": 0.994873046875, "train/cont_loss_mean": 1.0550645028059887e-05, "train/cont_loss_std": 0.0002586274561432826, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00014830897695697034, "train/cont_pos_acc": 0.9999999809596274, "train/cont_pos_loss": 9.86396984240893e-06, "train/cont_pred": 0.9948648744159274, "train/cont_rate": 0.994873046875, "train/dyn_loss_mean": 5.319078213638729, "train/dyn_loss_std": 8.764887697166866, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.022368400461144, "train/extr_critic_critic_opt_grad_steps": 325025.0, "train/extr_critic_critic_opt_loss": 16146.333808051215, "train/extr_critic_mag": 10.6806687646442, "train/extr_critic_max": 10.6806687646442, "train/extr_critic_mean": 2.727906294994884, "train/extr_critic_min": -0.4972626765569051, "train/extr_critic_std": 2.599712563885583, "train/extr_return_normed_mag": 1.4453300999270544, "train/extr_return_normed_max": 1.4453300999270544, "train/extr_return_normed_mean": 0.3628523504982392, "train/extr_return_normed_min": -0.07634242272211446, "train/extr_return_normed_std": 0.3281698359383477, "train/extr_return_rate": 0.7234474826190207, "train/extr_return_raw_mag": 11.423610779974195, "train/extr_return_raw_max": 11.423610779974195, "train/extr_return_raw_mean": 2.742943081590864, "train/extr_return_raw_min": -0.7790807605617576, "train/extr_return_raw_std": 2.631565590699514, "train/extr_reward_mag": 1.0629491077529059, "train/extr_reward_max": 1.0629491077529059, "train/extr_reward_mean": 0.05553851033457451, "train/extr_reward_min": -0.6466254161463844, "train/extr_reward_std": 0.22726769145164225, "train/image_loss_mean": 3.209327765636974, "train/image_loss_std": 8.369989540841845, "train/model_loss_mean": 6.456332445144653, "train/model_loss_std": 12.500627676645914, "train/model_opt_grad_norm": 25.60077608956231, "train/model_opt_grad_steps": 324764.7083333333, "train/model_opt_loss": 12304.193596733941, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1927.0833333333333, "train/policy_entropy_mag": 2.6898378597365484, "train/policy_entropy_max": 2.6898378597365484, "train/policy_entropy_mean": 0.44676393187708324, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6353848021891382, "train/policy_logprob_mag": 7.438384201791552, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.44659110427730614, "train/policy_logprob_min": -7.438384201791552, "train/policy_logprob_std": 1.0615957313113742, "train/policy_randomness_mag": 0.949394726090961, "train/policy_randomness_max": 0.949394726090961, "train/policy_randomness_mean": 0.1576880624310838, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2242629529080457, "train/post_ent_mag": 54.848702324761284, "train/post_ent_max": 54.848702324761284, "train/post_ent_mean": 40.572954972585045, "train/post_ent_min": 19.301833828290302, "train/post_ent_std": 5.623487121529049, "train/prior_ent_mag": 76.69434197743733, "train/prior_ent_max": 76.69434197743733, "train/prior_ent_mean": 45.94744194878472, "train/prior_ent_min": 28.22106173303392, "train/prior_ent_std": 7.54335535897149, "train/rep_loss_mean": 5.319078213638729, "train/rep_loss_std": 8.764887697166866, "train/reward_avg": 0.039916991954669356, "train/reward_loss_mean": 0.05554714372071127, "train/reward_loss_std": 0.21408141694135135, "train/reward_max_data": 1.0152777814202838, "train/reward_max_pred": 1.0166990988784366, "train/reward_neg_acc": 0.9942699215478368, "train/reward_neg_loss": 0.023783352251888976, "train/reward_pos_acc": 0.9878543226255311, "train/reward_pos_loss": 0.7349645305011008, "train/reward_pred": 0.03950431849807501, "train/reward_rate": 0.044623480902777776, "stats/sum_log_reward": 10.600000351667404, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 3.625, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.375, "stats/max_log_achievement_collect_stone": 13.5, "stats/max_log_achievement_collect_wood": 9.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.125, "stats/max_log_achievement_place_stone": 4.375, "stats/max_log_achievement_place_table": 2.75, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.3174546640366316, "replay/size": 651798.0, "replay/inserts": 1438.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.438499938795066e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3689172450292425e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.17562460899353, "timer/env.step_count": 1438.0, "timer/env.step_total": 21.22104024887085, "timer/env.step_frac": 0.07069541464771903, "timer/env.step_avg": 0.014757329797545793, "timer/env.step_min": 0.0031120777130126953, "timer/env.step_max": 1.6935694217681885, "timer/replay.add_count": 1438.0, "timer/replay.add_total": 0.2628345489501953, "timer/replay.add_frac": 0.0008756025719695315, "timer/replay.add_avg": 0.0001827778504521525, "timer/replay.add_min": 6.198883056640625e-05, "timer/replay.add_max": 0.0008940696716308594, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.01958441734313965, "timer/logger.write_frac": 6.524319677405572e-05, "timer/logger.write_avg": 0.01958441734313965, "timer/logger.write_min": 0.01958441734313965, "timer/logger.write_max": 0.01958441734313965, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1438.0, "timer/agent.policy_total": 10.645660161972046, "timer/agent.policy_frac": 0.03546477225070824, "timer/agent.policy_avg": 0.00740310164253967, "timer/agent.policy_min": 0.005982398986816406, "timer/agent.policy_max": 0.016556978225708008, "timer/dataset_count": 719.0, "timer/dataset_total": 0.0578160285949707, "timer/dataset_frac": 0.0001926073400206343, "timer/dataset_avg": 8.041172266338067e-05, "timer/dataset_min": 6.031990051269531e-05, "timer/dataset_max": 0.00017571449279785156, "timer/agent.train_count": 719.0, "timer/agent.train_total": 267.30638122558594, "timer/agent.train_frac": 0.8904999583952801, "timer/agent.train_avg": 0.3717752172817607, "timer/agent.train_min": 0.3651282787322998, "timer/agent.train_max": 0.38332176208496094, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22113299369812012, "timer/agent.report_frac": 0.0007366787159555885, "timer/agent.report_avg": 0.22113299369812012, "timer/agent.report_min": 0.22113299369812012, "timer/agent.report_max": 0.22113299369812012, "fps": 4.790438682045047}
{"step": 651867, "episode/length": 208.0, "episode/score": 11.099999994039536, "episode/sum_abs_reward": 13.300000011920929, "episode/reward_rate": 0.06220095693779904}
{"step": 652173, "episode/length": 305.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.042483660130718956}
{"step": 652409, "episode/length": 235.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.05508474576271186}
{"step": 652578, "episode/length": 168.0, "episode/score": 11.100000038743019, "episode/sum_abs_reward": 13.299999997019768, "episode/reward_rate": 0.07692307692307693}
{"step": 652840, "episode/length": 261.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.299999997019768, "episode/reward_rate": 0.05343511450381679}
{"step": 652972, "episode/length": 131.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.08333333333333333}
{"step": 653219, "episode/length": 246.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.032388663967611336}
{"step": 653270, "episode/length": 50.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.0784313725490196}
{"step": 653301, "stats/sum_log_reward": 9.850000262260437, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 2.625, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.875, "stats/max_log_achievement_collect_stone": 9.375, "stats/max_log_achievement_collect_wood": 10.375, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.375, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 0.875, "stats/max_log_achievement_make_wood_sword": 1.125, "stats/max_log_achievement_place_furnace": 1.375, "stats/max_log_achievement_place_plant": 1.75, "stats/max_log_achievement_place_stone": 3.25, "stats/max_log_achievement_place_table": 2.25, "stats/max_log_achievement_wake_up": 1.625, "stats/mean_log_entropy": 0.4097640346735716, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.5387115478515625, "train/action_min": 0.0, "train/action_std": 3.3808455732133655, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.044253630460136466, "train/actor_opt_grad_steps": 325745.0, "train/actor_opt_loss": -12.377780604693625, "train/adv_mag": 0.44735370948910713, "train/adv_max": 0.388943365878529, "train/adv_mean": 0.0022706151590278344, "train/adv_min": -0.3895097488744391, "train/adv_std": 0.04962989977664418, "train/cont_avg": 0.9943440755208334, "train/cont_loss_mean": 3.317784042226416e-05, "train/cont_loss_std": 0.0010183207425475712, "train/cont_neg_acc": 0.9972222223877907, "train/cont_neg_loss": 0.00549115657427832, "train/cont_pos_acc": 0.9999999793039428, "train/cont_pos_loss": 6.392561883690935e-06, "train/cont_pred": 0.9943498745560646, "train/cont_rate": 0.9943440755208334, "train/dyn_loss_mean": 5.229615562491947, "train/dyn_loss_std": 8.760352114836374, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0074177384376526, "train/extr_critic_critic_opt_grad_steps": 325745.0, "train/extr_critic_critic_opt_loss": 16182.554429796008, "train/extr_critic_mag": 10.740765160984463, "train/extr_critic_max": 10.740765160984463, "train/extr_critic_mean": 2.7346138159434, "train/extr_critic_min": -0.4662305778927273, "train/extr_critic_std": 2.6128996544414096, "train/extr_return_normed_mag": 1.4741392036279042, "train/extr_return_normed_max": 1.4741392036279042, "train/extr_return_normed_mean": 0.36633512419131065, "train/extr_return_normed_min": -0.08118114987802175, "train/extr_return_normed_std": 0.33308450919058585, "train/extr_return_rate": 0.7349085319373343, "train/extr_return_raw_mag": 11.545690920617846, "train/extr_return_raw_max": 11.545690920617846, "train/extr_return_raw_mean": 2.752615792883767, "train/extr_return_raw_min": -0.7994918376207352, "train/extr_return_raw_std": 2.6435803638564215, "train/extr_reward_mag": 1.0611398816108704, "train/extr_reward_max": 1.0611398816108704, "train/extr_reward_mean": 0.0547357559359322, "train/extr_reward_min": -0.6634027080403434, "train/extr_reward_std": 0.2261875050349368, "train/image_loss_mean": 3.119036293692059, "train/image_loss_std": 7.984412478076087, "train/model_loss_mean": 6.31115143166648, "train/model_loss_std": 12.116970790757073, "train/model_opt_grad_norm": 27.573908024364048, "train/model_opt_grad_steps": 325484.0, "train/model_opt_loss": 7888.939256456163, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.6762093471156225, "train/policy_entropy_max": 2.6762093471156225, "train/policy_entropy_mean": 0.43090978388984996, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6143309999671247, "train/policy_logprob_mag": 7.43838424815072, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4315459562672509, "train/policy_logprob_min": -7.43838424815072, "train/policy_logprob_std": 1.0505444688929453, "train/policy_randomness_mag": 0.9445844582385488, "train/policy_randomness_max": 0.9445844582385488, "train/policy_randomness_mean": 0.15209224540740252, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2168318855886658, "train/post_ent_mag": 55.05697017245822, "train/post_ent_max": 55.05697017245822, "train/post_ent_mean": 40.74305878745185, "train/post_ent_min": 19.454865005281235, "train/post_ent_std": 5.662915050983429, "train/prior_ent_mag": 76.64503224690755, "train/prior_ent_max": 76.64503224690755, "train/prior_ent_mean": 46.01827626758151, "train/prior_ent_min": 28.303938150405884, "train/prior_ent_std": 7.573063373565674, "train/rep_loss_mean": 5.229615562491947, "train/rep_loss_std": 8.760352114836374, "train/reward_avg": 0.03819715674035251, "train/reward_loss_mean": 0.05431270175096062, "train/reward_loss_std": 0.20775464156435597, "train/reward_max_data": 1.0305555628405676, "train/reward_max_pred": 1.0238807764318254, "train/reward_neg_acc": 0.9944353178143501, "train/reward_neg_loss": 0.023915283588899508, "train/reward_pos_acc": 0.9879807208975157, "train/reward_pos_loss": 0.7270829611354404, "train/reward_pred": 0.03790906832243005, "train/reward_rate": 0.04332139756944445, "replay/size": 653238.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.3375289705064563e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3599586155679492e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.20127511024475, "timer/env.step_count": 1440.0, "timer/env.step_total": 21.047481536865234, "timer/env.step_frac": 0.07011123296906663, "timer/env.step_avg": 0.014616306622823079, "timer/env.step_min": 0.0029349327087402344, "timer/env.step_max": 1.6368980407714844, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.25113868713378906, "timer/replay.add_frac": 0.0008365676895994591, "timer/replay.add_avg": 0.00017440186606513129, "timer/replay.add_min": 6.246566772460938e-05, "timer/replay.add_max": 0.0008895397186279297, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027619361877441406, "timer/logger.write_frac": 9.200281333681404e-05, "timer/logger.write_avg": 0.027619361877441406, "timer/logger.write_min": 0.027619361877441406, "timer/logger.write_max": 0.027619361877441406, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 10.565621852874756, "timer/agent.policy_frac": 0.03519512649969484, "timer/agent.policy_avg": 0.007337237397829692, "timer/agent.policy_min": 0.0060422420501708984, "timer/agent.policy_max": 0.018039703369140625, "timer/dataset_count": 720.0, "timer/dataset_total": 0.05816984176635742, "timer/dataset_frac": 0.000193769469316862, "timer/dataset_avg": 8.079144689771864e-05, "timer/dataset_min": 5.793571472167969e-05, "timer/dataset_max": 0.00013828277587890625, "timer/agent.train_count": 720.0, "timer/agent.train_total": 267.58721375465393, "timer/agent.train_frac": 0.8913593510100389, "timer/agent.train_avg": 0.3716489079925749, "timer/agent.train_min": 0.36582422256469727, "timer/agent.train_max": 0.3845670223236084, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22245121002197266, "timer/agent.report_frac": 0.0007410068792688523, "timer/agent.report_avg": 0.22245121002197266, "timer/agent.report_min": 0.22245121002197266, "timer/agent.report_max": 0.22245121002197266, "fps": 4.796686862556697}
{"step": 653308, "episode/length": 37.0, "episode/score": 4.100000001490116, "episode/sum_abs_reward": 5.700000025331974, "episode/reward_rate": 0.13157894736842105}
{"step": 653491, "episode/length": 182.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.06557377049180328}
{"step": 653757, "episode/length": 265.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.03383458646616541}
{"step": 653944, "episode/length": 186.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.0481283422459893}
{"step": 654124, "episode/length": 179.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.06111111111111111}
{"step": 654279, "episode/length": 154.0, "episode/score": 9.099999971687794, "episode/sum_abs_reward": 11.100000031292439, "episode/reward_rate": 0.07096774193548387}
{"step": 654339, "episode/length": 59.0, "episode/score": 4.100000001490116, "episode/sum_abs_reward": 5.700000025331974, "episode/reward_rate": 0.08333333333333333}
{"step": 654723, "episode/length": 383.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.036458333333333336}
{"step": 654724, "stats/sum_log_reward": 8.475000321865082, "stats/max_log_achievement_collect_coal": 0.125, "stats/max_log_achievement_collect_drink": 4.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.625, "stats/max_log_achievement_collect_stone": 9.875, "stats/max_log_achievement_collect_wood": 8.75, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 0.625, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 1.375, "stats/max_log_achievement_place_plant": 1.375, "stats/max_log_achievement_place_stone": 2.75, "stats/max_log_achievement_place_table": 2.125, "stats/max_log_achievement_wake_up": 0.875, "stats/mean_log_entropy": 0.37349382787942886, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.528537803972271, "train/action_min": 0.0, "train/action_std": 3.398371505065703, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.044161630033607215, "train/actor_opt_grad_steps": 326460.0, "train/actor_opt_loss": -12.2972468104161, "train/adv_mag": 0.4429632152470065, "train/adv_max": 0.3988375080303407, "train/adv_mean": 0.003132980110486117, "train/adv_min": -0.38450070166252026, "train/adv_std": 0.04998744231924205, "train/cont_avg": 0.9947320642605634, "train/cont_loss_mean": 0.0001364186415750103, "train/cont_loss_std": 0.00430588060702044, "train/cont_neg_acc": 0.9976190481867109, "train/cont_neg_loss": 0.008528148174934, "train/cont_pos_acc": 0.9999861255497999, "train/cont_pos_loss": 8.781711060849753e-05, "train/cont_pred": 0.9947181881313593, "train/cont_rate": 0.9947320642605634, "train/dyn_loss_mean": 5.226630869046064, "train/dyn_loss_std": 8.778420703511843, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0706526032635864, "train/extr_critic_critic_opt_grad_steps": 326460.0, "train/extr_critic_critic_opt_loss": 16332.25331481074, "train/extr_critic_mag": 10.983486645658251, "train/extr_critic_max": 10.983486645658251, "train/extr_critic_mean": 2.7550638175346482, "train/extr_critic_min": -0.4786222384009563, "train/extr_critic_std": 2.639295196869004, "train/extr_return_normed_mag": 1.4817566569422331, "train/extr_return_normed_max": 1.4817566569422331, "train/extr_return_normed_mean": 0.36128330524538604, "train/extr_return_normed_min": -0.08504003010900088, "train/extr_return_normed_std": 0.33054270857656504, "train/extr_return_rate": 0.7359604650819805, "train/extr_return_raw_mag": 11.85960502355871, "train/extr_return_raw_max": 11.85960502355871, "train/extr_return_raw_mean": 2.7804624648161336, "train/extr_return_raw_min": -0.837235517485041, "train/extr_return_raw_std": 2.6789482378623855, "train/extr_reward_mag": 1.0566973820538588, "train/extr_reward_max": 1.0566973820538588, "train/extr_reward_mean": 0.0557383474119952, "train/extr_reward_min": -0.6869745539947295, "train/extr_reward_std": 0.2280353460933121, "train/image_loss_mean": 3.1426148145971164, "train/image_loss_std": 8.479318115073191, "train/model_loss_mean": 6.333044555825247, "train/model_loss_std": 12.603397611161354, "train/model_opt_grad_norm": 25.17937280090762, "train/model_opt_grad_steps": 326199.0, "train/model_opt_loss": 15046.24345978213, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2376.760563380282, "train/policy_entropy_mag": 2.695628156124706, "train/policy_entropy_max": 2.695628156124706, "train/policy_entropy_mean": 0.450724806584103, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6439875670721833, "train/policy_logprob_mag": 7.438384223991717, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.44941024503237764, "train/policy_logprob_min": -7.438384223991717, "train/policy_logprob_std": 1.0612539002593135, "train/policy_randomness_mag": 0.9514384429219743, "train/policy_randomness_max": 0.9514384429219743, "train/policy_randomness_mean": 0.15908607903500677, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22729935486551742, "train/post_ent_mag": 55.21165702712368, "train/post_ent_max": 55.21165702712368, "train/post_ent_mean": 40.76069238152302, "train/post_ent_min": 19.509626187069316, "train/post_ent_std": 5.702214314904012, "train/prior_ent_mag": 76.66337445756079, "train/prior_ent_max": 76.66337445756079, "train/prior_ent_mean": 45.99193100190499, "train/prior_ent_min": 28.909440161476674, "train/prior_ent_std": 7.569526235822221, "train/rep_loss_mean": 5.226630869046064, "train/rep_loss_std": 8.778420703511843, "train/reward_avg": 0.03851782559404071, "train/reward_loss_mean": 0.054314817131405145, "train/reward_loss_std": 0.2083896537062148, "train/reward_max_data": 1.0197183145603663, "train/reward_max_pred": 1.0199215395349852, "train/reward_neg_acc": 0.9938392454469708, "train/reward_neg_loss": 0.024406952980223676, "train/reward_pos_acc": 0.9924879275577169, "train/reward_pos_loss": 0.7162830300734077, "train/reward_pred": 0.038309916670263656, "train/reward_rate": 0.043133802816901406, "replay/size": 654661.0, "replay/inserts": 1423.0, "replay/samples": 11376.0, "replay/insert_wait_avg": 3.454639973643793e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3363889501064638e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 301.2096300125122, "timer/env.step_count": 1423.0, "timer/env.step_total": 21.648510456085205, "timer/env.step_frac": 0.07187190680187061, "timer/env.step_avg": 0.015213289146932681, "timer/env.step_min": 0.0032258033752441406, "timer/env.step_max": 1.7095832824707031, "timer/replay.add_count": 1423.0, "timer/replay.add_total": 0.2530629634857178, "timer/replay.add_frac": 0.0008401556201081804, "timer/replay.add_avg": 0.00017783764124084173, "timer/replay.add_min": 6.151199340820312e-05, "timer/replay.add_max": 0.0008692741394042969, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021641254425048828, "timer/logger.write_frac": 7.184781716358091e-05, "timer/logger.write_avg": 0.021641254425048828, "timer/logger.write_min": 0.021641254425048828, "timer/logger.write_max": 0.021641254425048828, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00021767616271972656, "timer/checkpoint.save_frac": 7.22673317950307e-07, "timer/checkpoint.save_avg": 0.00021767616271972656, "timer/checkpoint.save_min": 0.00021767616271972656, "timer/checkpoint.save_max": 0.00021767616271972656, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.240452527999878, "timer/agent.save_frac": 0.004118236617960553, "timer/agent.save_avg": 1.240452527999878, "timer/agent.save_min": 1.240452527999878, "timer/agent.save_max": 1.240452527999878, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.985664367675781e-05, "timer/replay.save_frac": 2.3192035285809415e-07, "timer/replay.save_avg": 6.985664367675781e-05, "timer/replay.save_min": 6.985664367675781e-05, "timer/replay.save_max": 6.985664367675781e-05, "timer/agent.policy_count": 1423.0, "timer/agent.policy_total": 14.088301420211792, "timer/agent.policy_frac": 0.04677241368287782, "timer/agent.policy_avg": 0.009900422642453824, "timer/agent.policy_min": 0.005940914154052734, "timer/agent.policy_max": 2.460679769515991, "timer/dataset_count": 711.0, "timer/dataset_total": 0.05578804016113281, "timer/dataset_frac": 0.000185213335173963, "timer/dataset_avg": 7.846419150651591e-05, "timer/dataset_min": 5.91278076171875e-05, "timer/dataset_max": 0.00017571449279785156, "timer/agent.train_count": 711.0, "timer/agent.train_total": 264.4940137863159, "timer/agent.train_frac": 0.8781061009746896, "timer/agent.train_avg": 0.3720028323295583, "timer/agent.train_min": 0.36589980125427246, "timer/agent.train_max": 0.5068180561065674, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2176365852355957, "timer/agent.report_frac": 0.0007225419228015888, "timer/agent.report_avg": 0.2176365852355957, "timer/agent.report_min": 0.2176365852355957, "timer/agent.report_max": 0.2176365852355957, "fps": 4.724182580402297}
{"step": 654869, "episode/length": 145.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.07534246575342465}
{"step": 655029, "episode/length": 159.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.05}
{"step": 655253, "episode/length": 223.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.30000003427267, "episode/reward_rate": 0.05803571428571429}
{"step": 655478, "episode/length": 224.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.044444444444444446}
{"step": 655533, "episode/length": 54.0, "episode/score": 5.100000001490116, "episode/sum_abs_reward": 7.100000001490116, "episode/reward_rate": 0.12727272727272726}
{"step": 655730, "episode/length": 196.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.05583756345177665}
{"step": 655945, "episode/length": 214.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.05581395348837209}
{"step": 656133, "episode/length": 187.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.100000038743019, "episode/reward_rate": 0.05851063829787234}
{"step": 656161, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.525267706976996, "train/action_min": 0.0, "train/action_std": 3.4238763882054224, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.043149248179462224, "train/actor_opt_grad_steps": 327175.0, "train/actor_opt_loss": -12.114155105418629, "train/adv_mag": 0.42638944793078637, "train/adv_max": 0.37713417121105725, "train/adv_mean": 0.0025848626992228674, "train/adv_min": -0.37216193394528496, "train/adv_std": 0.048464274396085076, "train/cont_avg": 0.9944254557291666, "train/cont_loss_mean": 6.777651483425018e-05, "train/cont_loss_std": 0.0021232642691712852, "train/cont_neg_acc": 0.9965277777777778, "train/cont_neg_loss": 0.010567431193244067, "train/cont_pos_acc": 0.9999862867924902, "train/cont_pos_loss": 2.609062794611816e-05, "train/cont_pred": 0.9944254549013244, "train/cont_rate": 0.9944254557291666, "train/dyn_loss_mean": 5.220788664287991, "train/dyn_loss_std": 8.832621627383762, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0710442902313337, "train/extr_critic_critic_opt_grad_steps": 327175.0, "train/extr_critic_critic_opt_loss": 16198.92884657118, "train/extr_critic_mag": 11.14958667755127, "train/extr_critic_max": 11.14958667755127, "train/extr_critic_mean": 2.822069216105673, "train/extr_critic_min": -0.4581782900624805, "train/extr_critic_std": 2.6639167070388794, "train/extr_return_normed_mag": 1.4705576913224325, "train/extr_return_normed_max": 1.4705576913224325, "train/extr_return_normed_mean": 0.3664788136051761, "train/extr_return_normed_min": -0.08133388905682498, "train/extr_return_normed_std": 0.3306219354271889, "train/extr_return_rate": 0.7466200457678901, "train/extr_return_raw_mag": 11.85628855228424, "train/extr_return_raw_max": 11.85628855228424, "train/extr_return_raw_mean": 2.843149264653524, "train/extr_return_raw_min": -0.8129152398970392, "train/extr_return_raw_std": 2.6992218130164676, "train/extr_reward_mag": 1.056519713666704, "train/extr_reward_max": 1.056519713666704, "train/extr_reward_mean": 0.05789233594098025, "train/extr_reward_min": -0.6430734131071303, "train/extr_reward_std": 0.23193115575446022, "train/image_loss_mean": 3.2354482445451946, "train/image_loss_std": 8.567636695173052, "train/model_loss_mean": 6.423388560612996, "train/model_loss_std": 12.703181054857042, "train/model_opt_grad_norm": 26.861417214075725, "train/model_opt_grad_steps": 326913.3611111111, "train/model_opt_loss": 10976.721374511719, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1701.388888888889, "train/policy_entropy_mag": 2.69941583275795, "train/policy_entropy_max": 2.69941583275795, "train/policy_entropy_mean": 0.4420826238476568, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.634221751242876, "train/policy_logprob_mag": 7.438384268018934, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.44334485485321945, "train/policy_logprob_min": -7.438384268018934, "train/policy_logprob_std": 1.061899767981635, "train/policy_randomness_mag": 0.9527753310071098, "train/policy_randomness_max": 0.9527753310071098, "train/policy_randomness_mean": 0.15603576652291748, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.223852446095811, "train/post_ent_mag": 55.172045389811196, "train/post_ent_max": 55.172045389811196, "train/post_ent_mean": 40.71254014968872, "train/post_ent_min": 19.31458740764194, "train/post_ent_std": 5.654344075255924, "train/prior_ent_mag": 76.70783276028104, "train/prior_ent_max": 76.70783276028104, "train/prior_ent_mean": 45.9022224744161, "train/prior_ent_min": 28.171618700027466, "train/prior_ent_std": 7.634004109435612, "train/rep_loss_mean": 5.220788664287991, "train/rep_loss_std": 8.832621627383762, "train/reward_avg": 0.03859727630495197, "train/reward_loss_mean": 0.05539944224680463, "train/reward_loss_std": 0.2179576119201051, "train/reward_max_data": 1.0166666706403096, "train/reward_max_pred": 1.0175197786755033, "train/reward_neg_acc": 0.9934744445814027, "train/reward_neg_loss": 0.02477246715635475, "train/reward_pos_acc": 0.989913603497876, "train/reward_pos_loss": 0.7297947348819839, "train/reward_pred": 0.038351318488518395, "train/reward_rate": 0.04336208767361111, "stats/sum_log_reward": 9.350000321865082, "stats/max_log_achievement_collect_coal": 0.125, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.875, "stats/max_log_achievement_collect_stone": 10.0, "stats/max_log_achievement_collect_wood": 7.875, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.875, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.625, "stats/max_log_achievement_place_furnace": 1.75, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 2.25, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.3150973953306675, "replay/size": 656098.0, "replay/inserts": 1437.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.401737040584089e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3522337474478137e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1695501804352, "timer/env.step_count": 1437.0, "timer/env.step_total": 21.38101100921631, "timer/env.step_frac": 0.07122977995724067, "timer/env.step_avg": 0.014878922066260479, "timer/env.step_min": 0.0027561187744140625, "timer/env.step_max": 1.692979335784912, "timer/replay.add_count": 1437.0, "timer/replay.add_total": 0.2775912284851074, "timer/replay.add_frac": 0.0009247814387510136, "timer/replay.add_avg": 0.00019317413255748602, "timer/replay.add_min": 6.723403930664062e-05, "timer/replay.add_max": 0.0008299350738525391, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0300443172454834, "timer/logger.write_frac": 0.00010009115590646497, "timer/logger.write_avg": 0.0300443172454834, "timer/logger.write_min": 0.0300443172454834, "timer/logger.write_max": 0.0300443172454834, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1437.0, "timer/agent.policy_total": 10.507583856582642, "timer/agent.policy_frac": 0.03500549556164647, "timer/agent.policy_avg": 0.007312166914810467, "timer/agent.policy_min": 0.006002902984619141, "timer/agent.policy_max": 0.01717853546142578, "timer/dataset_count": 719.0, "timer/dataset_total": 0.05716109275817871, "timer/dataset_frac": 0.0001904293514242819, "timer/dataset_avg": 7.950082442027637e-05, "timer/dataset_min": 5.841255187988281e-05, "timer/dataset_max": 0.00012826919555664062, "timer/agent.train_count": 719.0, "timer/agent.train_total": 267.26223397254944, "timer/agent.train_frac": 0.8903709047499828, "timer/agent.train_avg": 0.3717138163735041, "timer/agent.train_min": 0.3650047779083252, "timer/agent.train_max": 0.3834555149078369, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2208399772644043, "timer/agent.report_frac": 0.0007357174541243607, "timer/agent.report_avg": 0.2208399772644043, "timer/agent.report_min": 0.2208399772644043, "timer/agent.report_max": 0.2208399772644043, "fps": 4.787192158814601}
{"step": 656408, "episode/length": 274.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 15.300000056624413, "episode/reward_rate": 0.04727272727272727}
{"step": 656597, "episode/length": 188.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.06349206349206349}
{"step": 656728, "episode/length": 130.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.899999976158142, "episode/reward_rate": 0.0916030534351145}
{"step": 657008, "episode/length": 279.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 11.30000003427267, "episode/reward_rate": 0.03214285714285714}
{"step": 657258, "episode/length": 249.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.300000041723251, "episode/reward_rate": 0.052}
{"step": 657489, "episode/length": 230.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.05194805194805195}
{"step": 657615, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.56842041015625, "train/action_min": 0.0, "train/action_std": 3.425236956940757, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.042913091058532395, "train/actor_opt_grad_steps": 327895.0, "train/actor_opt_loss": -14.715059823563529, "train/adv_mag": 0.41881976276636124, "train/adv_max": 0.386892252912124, "train/adv_mean": 0.0011268918947785601, "train/adv_min": -0.36250775017672116, "train/adv_std": 0.04753874842491415, "train/cont_avg": 0.9946695963541666, "train/cont_loss_mean": 2.095642533599889e-05, "train/cont_loss_std": 0.0006117582784526121, "train/cont_neg_acc": 0.9980158739619784, "train/cont_neg_loss": 0.0021203931208493287, "train/cont_pos_acc": 0.9999999834431542, "train/cont_pos_loss": 6.693780732665762e-06, "train/cont_pred": 0.9946727024184333, "train/cont_rate": 0.9946695963541666, "train/dyn_loss_mean": 5.206332213348812, "train/dyn_loss_std": 8.835421966181862, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0337936472561624, "train/extr_critic_critic_opt_grad_steps": 327895.0, "train/extr_critic_critic_opt_loss": 16092.045437282986, "train/extr_critic_mag": 10.871050755182901, "train/extr_critic_max": 10.871050755182901, "train/extr_critic_mean": 2.7890804923242993, "train/extr_critic_min": -0.4555123332473967, "train/extr_critic_std": 2.657582390639517, "train/extr_return_normed_mag": 1.4288595037327871, "train/extr_return_normed_max": 1.4288595037327871, "train/extr_return_normed_mean": 0.36049686765505207, "train/extr_return_normed_min": -0.07488849878104197, "train/extr_return_normed_std": 0.3280566835569011, "train/extr_return_rate": 0.7407416825493177, "train/extr_return_raw_mag": 11.53831058078342, "train/extr_return_raw_max": 11.53831058078342, "train/extr_return_raw_mean": 2.7983096407519445, "train/extr_return_raw_min": -0.7638736942576038, "train/extr_return_raw_std": 2.6840112888150744, "train/extr_reward_mag": 1.0599296854601965, "train/extr_reward_max": 1.0599296854601965, "train/extr_reward_mean": 0.054791664239019156, "train/extr_reward_min": -0.6420860870016946, "train/extr_reward_std": 0.22560674655768606, "train/image_loss_mean": 3.196211940712399, "train/image_loss_std": 8.097157365745968, "train/model_loss_mean": 6.373131983810001, "train/model_loss_std": 12.268309473991394, "train/model_opt_grad_norm": 24.759386976559956, "train/model_opt_grad_steps": 327633.0, "train/model_opt_loss": 9956.18809000651, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1562.5, "train/policy_entropy_mag": 2.6855735315216913, "train/policy_entropy_max": 2.6855735315216913, "train/policy_entropy_mean": 0.45257480152779156, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6460586289564768, "train/policy_logprob_mag": 7.438384228282505, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4534076853758759, "train/policy_logprob_min": -7.438384228282505, "train/policy_logprob_std": 1.068451840016577, "train/policy_randomness_mag": 0.9478896003630426, "train/policy_randomness_max": 0.9478896003630426, "train/policy_randomness_mean": 0.15973904501232836, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22803034405741426, "train/post_ent_mag": 55.06358528137207, "train/post_ent_max": 55.06358528137207, "train/post_ent_mean": 40.85742817984687, "train/post_ent_min": 19.362455050150555, "train/post_ent_std": 5.685549120108287, "train/prior_ent_mag": 76.70641326904297, "train/prior_ent_max": 76.70641326904297, "train/prior_ent_mean": 46.02368603812324, "train/prior_ent_min": 28.420496781667072, "train/prior_ent_std": 7.534775793552399, "train/rep_loss_mean": 5.206332213348812, "train/rep_loss_std": 8.835421966181862, "train/reward_avg": 0.0377671982989543, "train/reward_loss_mean": 0.05309978251655897, "train/reward_loss_std": 0.2082750621355242, "train/reward_max_data": 1.0319444520605936, "train/reward_max_pred": 1.0260904994275835, "train/reward_neg_acc": 0.9946142410238584, "train/reward_neg_loss": 0.023245421445204154, "train/reward_pos_acc": 0.9881646972563531, "train/reward_pos_loss": 0.7292617327637143, "train/reward_pred": 0.03748427962677346, "train/reward_rate": 0.042412651909722224, "stats/sum_log_reward": 10.766666730244955, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 3.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 15.666666666666666, "stats/max_log_achievement_collect_wood": 10.0, "stats/max_log_achievement_defeat_skeleton": 0.3333333333333333, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 2.5, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 3.8333333333333335, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.4712526922424634, "replay/size": 657552.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.3839368754600722e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3765639419240833e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.23456478118896, "timer/env.step_count": 1454.0, "timer/env.step_total": 18.514227867126465, "timer/env.step_frac": 0.061665877413613714, "timer/env.step_avg": 0.012733306648642686, "timer/env.step_min": 0.0029468536376953125, "timer/env.step_max": 1.7534234523773193, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.2625892162322998, "timer/replay.add_frac": 0.0008746135423270631, "timer/replay.add_avg": 0.00018059781033858308, "timer/replay.add_min": 6.389617919921875e-05, "timer/replay.add_max": 0.0009407997131347656, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023839712142944336, "timer/logger.write_frac": 7.940362283176397e-05, "timer/logger.write_avg": 0.023839712142944336, "timer/logger.write_min": 0.023839712142944336, "timer/logger.write_max": 0.023839712142944336, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 10.72958517074585, "timer/agent.policy_frac": 0.03573734149685788, "timer/agent.policy_avg": 0.007379357063786692, "timer/agent.policy_min": 0.005947113037109375, "timer/agent.policy_max": 0.013854265213012695, "timer/dataset_count": 727.0, "timer/dataset_total": 0.05847048759460449, "timer/dataset_frac": 0.0001947493541831794, "timer/dataset_avg": 8.042708059780535e-05, "timer/dataset_min": 6.008148193359375e-05, "timer/dataset_max": 0.0001361370086669922, "timer/agent.train_count": 727.0, "timer/agent.train_total": 269.98665404319763, "timer/agent.train_frac": 0.8992524036663266, "timer/agent.train_avg": 0.37137091340192246, "timer/agent.train_min": 0.3641667366027832, "timer/agent.train_max": 0.38399529457092285, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22491145133972168, "timer/agent.report_frac": 0.000749119114595074, "timer/agent.report_avg": 0.22491145133972168, "timer/agent.report_min": 0.22491145133972168, "timer/agent.report_max": 0.22491145133972168, "fps": 4.842776607854497}
{"step": 657656, "episode/length": 166.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.0718562874251497}
{"step": 657906, "episode/length": 249.0, "episode/score": 12.099999971687794, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.056}
{"step": 658132, "episode/length": 225.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.04424778761061947}
{"step": 658303, "episode/length": 170.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06432748538011696}
{"step": 658461, "episode/length": 157.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.0759493670886076}
{"step": 658665, "episode/length": 203.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.05392156862745098}
{"step": 658771, "episode/length": 105.0, "episode/score": 9.099999971687794, "episode/sum_abs_reward": 11.100000031292439, "episode/reward_rate": 0.10377358490566038}
{"step": 659035, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.552508287026849, "train/action_min": 0.0, "train/action_std": 3.46823015347333, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04254032031331264, "train/actor_opt_grad_steps": 328610.0, "train/actor_opt_loss": -14.332199313271214, "train/adv_mag": 0.44613242737004455, "train/adv_max": 0.386164943936845, "train/adv_mean": 0.0012130643140473797, "train/adv_min": -0.3677458939417987, "train/adv_std": 0.0474677932199458, "train/cont_avg": 0.9947183098591549, "train/cont_loss_mean": 0.00013115327468111944, "train/cont_loss_std": 0.004179481705851569, "train/cont_neg_acc": 0.9930583515637358, "train/cont_neg_loss": 0.017904846750199346, "train/cont_pos_acc": 0.9999861843149427, "train/cont_pos_loss": 1.3926788147174854e-05, "train/cont_pred": 0.9947420870754081, "train/cont_rate": 0.9947183098591549, "train/dyn_loss_mean": 5.285108525988082, "train/dyn_loss_std": 8.780912103787275, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0239938850134191, "train/extr_critic_critic_opt_grad_steps": 328610.0, "train/extr_critic_critic_opt_loss": 16118.304632482394, "train/extr_critic_mag": 10.727866522023376, "train/extr_critic_max": 10.727866522023376, "train/extr_critic_mean": 2.678812282186159, "train/extr_critic_min": -0.4916348306226059, "train/extr_critic_std": 2.6074929640326703, "train/extr_return_normed_mag": 1.4486532345624037, "train/extr_return_normed_max": 1.4486532345624037, "train/extr_return_normed_mean": 0.35520388794616914, "train/extr_return_normed_min": -0.08237305194349356, "train/extr_return_normed_std": 0.3278965968901003, "train/extr_return_rate": 0.7269797560194848, "train/extr_return_raw_mag": 11.470912758733185, "train/extr_return_raw_max": 11.470912758733185, "train/extr_return_raw_mean": 2.6885845543633047, "train/extr_return_raw_min": -0.8256676176064451, "train/extr_return_raw_std": 2.633327405217668, "train/extr_reward_mag": 1.0581357579835704, "train/extr_reward_max": 1.0581357579835704, "train/extr_reward_mean": 0.05387238428836137, "train/extr_reward_min": -0.6480649206000315, "train/extr_reward_std": 0.2252693195158327, "train/image_loss_mean": 3.1645868160355257, "train/image_loss_std": 8.221608860391965, "train/model_loss_mean": 6.3890134112935675, "train/model_loss_std": 12.38934408107274, "train/model_opt_grad_norm": 26.265797991148183, "train/model_opt_grad_steps": 328348.0, "train/model_opt_loss": 15972.533450704226, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6829026383413397, "train/policy_entropy_max": 2.6829026383413397, "train/policy_entropy_mean": 0.4415562241010263, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6336073380121043, "train/policy_logprob_mag": 7.438384237423749, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4407955680934476, "train/policy_logprob_min": -7.438384237423749, "train/policy_logprob_std": 1.056028040362076, "train/policy_randomness_mag": 0.9469468954583289, "train/policy_randomness_max": 0.9469468954583289, "train/policy_randomness_mean": 0.15584997234629913, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22363558453573307, "train/post_ent_mag": 55.278978428370515, "train/post_ent_max": 55.278978428370515, "train/post_ent_mean": 40.81975501691792, "train/post_ent_min": 19.386621125986878, "train/post_ent_std": 5.711522794105638, "train/prior_ent_mag": 76.5761870263328, "train/prior_ent_max": 76.5761870263328, "train/prior_ent_mean": 46.082209949762046, "train/prior_ent_min": 28.63956924223564, "train/prior_ent_std": 7.550172443121252, "train/rep_loss_mean": 5.285108525988082, "train/rep_loss_std": 8.780912103787275, "train/reward_avg": 0.03652618801824643, "train/reward_loss_mean": 0.053230388273655525, "train/reward_loss_std": 0.20977707270165563, "train/reward_max_data": 1.0211267656003926, "train/reward_max_pred": 1.0201167523021428, "train/reward_neg_acc": 0.9951569572300978, "train/reward_neg_loss": 0.0241608664813176, "train/reward_pos_acc": 0.9874004646086357, "train/reward_pos_loss": 0.7273458804882748, "train/reward_pred": 0.03619095174149728, "train/reward_rate": 0.041318221830985914, "stats/sum_log_reward": 10.385714530944824, "stats/max_log_achievement_collect_coal": 0.8571428571428571, "stats/max_log_achievement_collect_drink": 2.5714285714285716, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.1428571428571428, "stats/max_log_achievement_collect_stone": 11.857142857142858, "stats/max_log_achievement_collect_wood": 11.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.42857142857142855, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.42857142857142855, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.8571428571428572, "stats/max_log_achievement_place_plant": 0.7142857142857143, "stats/max_log_achievement_place_stone": 2.857142857142857, "stats/max_log_achievement_place_table": 2.857142857142857, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.3202051988669804, "replay/size": 658972.0, "replay/inserts": 1420.0, "replay/samples": 11360.0, "replay/insert_wait_avg": 3.429365829682686e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3523538347700952e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1423671245575, "timer/env.step_count": 1420.0, "timer/env.step_total": 20.350526571273804, "timer/env.step_frac": 0.06780291221874865, "timer/env.step_avg": 0.014331356740333664, "timer/env.step_min": 0.0030820369720458984, "timer/env.step_max": 1.649022102355957, "timer/replay.add_count": 1420.0, "timer/replay.add_total": 0.2621302604675293, "timer/replay.add_frac": 0.0008733530790031606, "timer/replay.add_avg": 0.0001845987749771333, "timer/replay.add_min": 6.29425048828125e-05, "timer/replay.add_max": 0.009119272232055664, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021596193313598633, "timer/logger.write_frac": 7.195316516123939e-05, "timer/logger.write_avg": 0.021596193313598633, "timer/logger.write_min": 0.021596193313598633, "timer/logger.write_max": 0.021596193313598633, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002491474151611328, "timer/checkpoint.save_frac": 8.300974552444239e-07, "timer/checkpoint.save_avg": 0.0002491474151611328, "timer/checkpoint.save_min": 0.0002491474151611328, "timer/checkpoint.save_max": 0.0002491474151611328, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4919326305389404, "timer/agent.save_frac": 0.004970749863913069, "timer/agent.save_avg": 1.4919326305389404, "timer/agent.save_min": 1.4919326305389404, "timer/agent.save_max": 1.4919326305389404, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.106231689453125e-05, "timer/replay.save_frac": 2.7007955481636757e-07, "timer/replay.save_avg": 8.106231689453125e-05, "timer/replay.save_min": 8.106231689453125e-05, "timer/replay.save_max": 8.106231689453125e-05, "timer/agent.policy_count": 1420.0, "timer/agent.policy_total": 14.615151405334473, "timer/agent.policy_frac": 0.04869406323856059, "timer/agent.policy_avg": 0.01029236014460174, "timer/agent.policy_min": 0.00603485107421875, "timer/agent.policy_max": 2.434140682220459, "timer/dataset_count": 710.0, "timer/dataset_total": 0.05769705772399902, "timer/dataset_frac": 0.0001922323005470769, "timer/dataset_avg": 8.126346158309722e-05, "timer/dataset_min": 5.9604644775390625e-05, "timer/dataset_max": 0.0001556873321533203, "timer/agent.train_count": 710.0, "timer/agent.train_total": 264.1773579120636, "timer/agent.train_frac": 0.8801735004722988, "timer/agent.train_avg": 0.3720807857916389, "timer/agent.train_min": 0.3654947280883789, "timer/agent.train_max": 0.44458913803100586, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22142982482910156, "timer/agent.report_frac": 0.0007377493119363897, "timer/agent.report_avg": 0.22142982482910156, "timer/agent.report_min": 0.22142982482910156, "timer/agent.report_max": 0.22142982482910156, "fps": 4.730984672336353}
{"step": 659098, "episode/length": 326.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.04281345565749235}
{"step": 659139, "episode/length": 40.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.0975609756097561}
{"step": 659358, "episode/length": 218.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.500000044703484, "episode/reward_rate": 0.0547945205479452}
{"step": 659515, "episode/length": 156.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.07643312101910828}
{"step": 659764, "episode/length": 248.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.04417670682730924}
{"step": 659922, "episode/length": 157.0, "episode/score": 10.100000016391277, "episode/sum_abs_reward": 11.900000043213367, "episode/reward_rate": 0.06962025316455696}
{"step": 660104, "episode/length": 181.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.04945054945054945}
{"step": 660273, "episode/length": 168.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.07100591715976332}
{"step": 660473, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.576822916666667, "train/action_min": 0.0, "train/action_std": 3.4641203549173145, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.041269391464690365, "train/actor_opt_grad_steps": 329325.0, "train/actor_opt_loss": -10.476800092056187, "train/adv_mag": 0.4023001434074508, "train/adv_max": 0.3707682175768746, "train/adv_mean": 0.0025505757565851025, "train/adv_min": -0.3386123122440444, "train/adv_std": 0.047212956524971456, "train/cont_avg": 0.9948052300347222, "train/cont_loss_mean": 6.196913143770762e-05, "train/cont_loss_std": 0.0019275565245617798, "train/cont_neg_acc": 0.9976851857370801, "train/cont_neg_loss": 0.004061223462684794, "train/cont_pos_acc": 0.9999863679210345, "train/cont_pos_loss": 3.825565026928225e-05, "train/cont_pred": 0.9947965972953372, "train/cont_rate": 0.9948052300347222, "train/dyn_loss_mean": 5.3484745091862145, "train/dyn_loss_std": 8.804514216052162, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0469156362944179, "train/extr_critic_critic_opt_grad_steps": 329325.0, "train/extr_critic_critic_opt_loss": 16144.556627061633, "train/extr_critic_mag": 10.642007244957817, "train/extr_critic_max": 10.642007244957817, "train/extr_critic_mean": 2.6811401396989822, "train/extr_critic_min": -0.48202159504095715, "train/extr_critic_std": 2.587630225552453, "train/extr_return_normed_mag": 1.442652016878128, "train/extr_return_normed_max": 1.442652016878128, "train/extr_return_normed_mean": 0.3600203388681014, "train/extr_return_normed_min": -0.07905205520283845, "train/extr_return_normed_std": 0.32927435263991356, "train/extr_return_rate": 0.7273383662104607, "train/extr_return_raw_mag": 11.318174997965494, "train/extr_return_raw_max": 11.318174997965494, "train/extr_return_raw_mean": 2.7014529589149685, "train/extr_return_raw_min": -0.7927552250524362, "train/extr_return_raw_std": 2.6206715868579016, "train/extr_reward_mag": 1.0566224687629275, "train/extr_reward_max": 1.0566224687629275, "train/extr_reward_mean": 0.05391359789710906, "train/extr_reward_min": -0.6175910151667066, "train/extr_reward_std": 0.22415724852018887, "train/image_loss_mean": 3.197601858112547, "train/image_loss_std": 8.78126800722546, "train/model_loss_mean": 6.4600827892621355, "train/model_loss_std": 12.932494507895576, "train/model_opt_grad_norm": 25.585989289813572, "train/model_opt_grad_steps": 329062.2361111111, "train/model_opt_loss": 17640.464179144965, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2708.3333333333335, "train/policy_entropy_mag": 2.6989397274123297, "train/policy_entropy_max": 2.6989397274123297, "train/policy_entropy_mean": 0.4569775304860539, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6495357635948393, "train/policy_logprob_mag": 7.43838424815072, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4568821539481481, "train/policy_logprob_min": -7.43838424815072, "train/policy_logprob_std": 1.067766059603956, "train/policy_randomness_mag": 0.9526072839895884, "train/policy_randomness_max": 0.9526072839895884, "train/policy_randomness_mean": 0.1612930145735542, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2292576221128305, "train/post_ent_mag": 55.17509709464179, "train/post_ent_max": 55.17509709464179, "train/post_ent_mean": 40.62533028920492, "train/post_ent_min": 19.29454535908169, "train/post_ent_std": 5.732048571109772, "train/prior_ent_mag": 76.64499505360921, "train/prior_ent_max": 76.64499505360921, "train/prior_ent_mean": 45.94782829284668, "train/prior_ent_min": 27.92791019545661, "train/prior_ent_std": 7.631310356987847, "train/rep_loss_mean": 5.3484745091862145, "train/rep_loss_std": 8.804514216052162, "train/reward_avg": 0.037883842984835304, "train/reward_loss_mean": 0.053334269776112504, "train/reward_loss_std": 0.20926278001732296, "train/reward_max_data": 1.0236111167404387, "train/reward_max_pred": 1.0240295661820307, "train/reward_neg_acc": 0.9944622094432513, "train/reward_neg_loss": 0.02353043045796868, "train/reward_pos_acc": 0.9884481761190627, "train/reward_pos_loss": 0.7269182238313887, "train/reward_pred": 0.037623966216213174, "train/reward_rate": 0.042439778645833336, "stats/sum_log_reward": 9.600000083446503, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 2.375, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 13.875, "stats/max_log_achievement_collect_wood": 9.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.125, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 0.875, "stats/max_log_achievement_make_wood_sword": 1.125, "stats/max_log_achievement_place_furnace": 2.25, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 3.25, "stats/max_log_achievement_place_table": 2.25, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.35205352678894997, "replay/size": 660410.0, "replay/inserts": 1438.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.472654477943134e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.353373613742197e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.23950600624084, "timer/env.step_count": 1438.0, "timer/env.step_total": 21.182457447052002, "timer/env.step_frac": 0.07055186617117502, "timer/env.step_avg": 0.01473049892006398, "timer/env.step_min": 0.0029191970825195312, "timer/env.step_max": 1.6782803535461426, "timer/replay.add_count": 1438.0, "timer/replay.add_total": 0.2834439277648926, "timer/replay.add_frac": 0.0009440593995614983, "timer/replay.add_avg": 0.00019710982459311026, "timer/replay.add_min": 6.699562072753906e-05, "timer/replay.add_max": 0.005166053771972656, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023902177810668945, "timer/logger.write_frac": 7.961036883058324e-05, "timer/logger.write_avg": 0.023902177810668945, "timer/logger.write_min": 0.023902177810668945, "timer/logger.write_max": 0.023902177810668945, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1438.0, "timer/agent.policy_total": 10.533078670501709, "timer/agent.policy_frac": 0.03508225419969471, "timer/agent.policy_avg": 0.007324811314674345, "timer/agent.policy_min": 0.005861759185791016, "timer/agent.policy_max": 0.015433073043823242, "timer/dataset_count": 719.0, "timer/dataset_total": 0.0574643611907959, "timer/dataset_frac": 0.0001913950697400942, "timer/dataset_avg": 7.992261639888164e-05, "timer/dataset_min": 5.7220458984375e-05, "timer/dataset_max": 0.0001742839813232422, "timer/agent.train_count": 719.0, "timer/agent.train_total": 267.4985113143921, "timer/agent.train_frac": 0.8909504111322106, "timer/agent.train_avg": 0.37204243576410584, "timer/agent.train_min": 0.36530303955078125, "timer/agent.train_max": 0.3861250877380371, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22643518447875977, "timer/agent.report_frac": 0.0007541818446572219, "timer/agent.report_avg": 0.22643518447875977, "timer/agent.report_min": 0.22643518447875977, "timer/agent.report_max": 0.22643518447875977, "fps": 4.789436966082594}
{"step": 660528, "episode/length": 254.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.047058823529411764}
{"step": 660775, "episode/length": 246.0, "episode/score": 12.100000016391277, "episode/sum_abs_reward": 14.700000040233135, "episode/reward_rate": 0.05668016194331984}
{"step": 661003, "episode/length": 227.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 10.300000011920929, "episode/reward_rate": 0.043859649122807015}
{"step": 661433, "episode/length": 429.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.018604651162790697}
{"step": 661590, "episode/length": 156.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.07643312101910828}
{"step": 661870, "episode/length": 279.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.30000003427267, "episode/reward_rate": 0.04285714285714286}
{"step": 661927, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.548968589469178, "train/action_min": 0.0, "train/action_std": 3.3896208266689354, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.043364130215693825, "train/actor_opt_grad_steps": 330050.0, "train/actor_opt_loss": -10.946953731040432, "train/adv_mag": 0.44667016316766606, "train/adv_max": 0.36889899715985336, "train/adv_mean": 0.0027699823756797927, "train/adv_min": -0.397530637375296, "train/adv_std": 0.04870906145605322, "train/cont_avg": 0.9943680436643836, "train/cont_loss_mean": 5.3565974206848086e-05, "train/cont_loss_std": 0.0016039837384490567, "train/cont_neg_acc": 0.9946727556725071, "train/cont_neg_loss": 0.00615511295979889, "train/cont_pos_acc": 0.9999999853029643, "train/cont_pos_loss": 9.604985709460977e-06, "train/cont_pred": 0.994385691538249, "train/cont_rate": 0.9943680436643836, "train/dyn_loss_mean": 5.2201536518253695, "train/dyn_loss_std": 8.745577021820905, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0574912420690876, "train/extr_critic_critic_opt_grad_steps": 330050.0, "train/extr_critic_critic_opt_loss": 16232.354278146404, "train/extr_critic_mag": 10.933053656800153, "train/extr_critic_max": 10.933053656800153, "train/extr_critic_mean": 2.8126012919700307, "train/extr_critic_min": -0.4940086505184435, "train/extr_critic_std": 2.6345221963647294, "train/extr_return_normed_mag": 1.4698289861417797, "train/extr_return_normed_max": 1.4698289861417797, "train/extr_return_normed_mean": 0.37400041132757106, "train/extr_return_normed_min": -0.0773643703289228, "train/extr_return_normed_std": 0.3331948077841981, "train/extr_return_rate": 0.7487247120844175, "train/extr_return_raw_mag": 11.606551405501692, "train/extr_return_raw_max": 11.606551405501692, "train/extr_return_raw_mean": 2.8347462007444197, "train/extr_return_raw_min": -0.7789335597867835, "train/extr_return_raw_std": 2.667393152027914, "train/extr_reward_mag": 1.0569945884077516, "train/extr_reward_max": 1.0569945884077516, "train/extr_reward_mean": 0.05668147811538553, "train/extr_reward_min": -0.6430022455241582, "train/extr_reward_std": 0.23029223860126652, "train/image_loss_mean": 3.0056903117323577, "train/image_loss_std": 8.16178522371266, "train/model_loss_mean": 6.191793716117127, "train/model_loss_std": 12.293580695374372, "train/model_opt_grad_norm": 27.250497857729595, "train/model_opt_grad_steps": 329786.16438356164, "train/model_opt_loss": 9211.706047998716, "train/model_opt_model_opt_grad_overflow": 0.0136986301369863, "train/model_opt_model_opt_grad_scale": 1455.4794520547946, "train/policy_entropy_mag": 2.663334892220693, "train/policy_entropy_max": 2.663334892220693, "train/policy_entropy_mean": 0.41539575404500306, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5998839282826202, "train/policy_logprob_mag": 7.438384284711864, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41419133993044294, "train/policy_logprob_min": -7.438384284711864, "train/policy_logprob_std": 1.0305001245786065, "train/policy_randomness_mag": 0.9400403393458013, "train/policy_randomness_max": 0.9400403393458013, "train/policy_randomness_mean": 0.14661647297748148, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21173270220217638, "train/post_ent_mag": 55.1967109784688, "train/post_ent_max": 55.1967109784688, "train/post_ent_mean": 40.633070697523145, "train/post_ent_min": 19.15321070527377, "train/post_ent_std": 5.68782848201386, "train/prior_ent_mag": 76.58790933269344, "train/prior_ent_max": 76.58790933269344, "train/prior_ent_mean": 45.886992258568334, "train/prior_ent_min": 28.608020886982956, "train/prior_ent_std": 7.507897331290049, "train/rep_loss_mean": 5.2201536518253695, "train/rep_loss_std": 8.745577021820905, "train/reward_avg": 0.03846586003185135, "train/reward_loss_mean": 0.05395768399107946, "train/reward_loss_std": 0.20661740127491623, "train/reward_max_data": 1.0232876767850902, "train/reward_max_pred": 1.020117406975733, "train/reward_neg_acc": 0.9942798255241081, "train/reward_neg_loss": 0.023615171048432998, "train/reward_pos_acc": 0.9902243826487293, "train/reward_pos_loss": 0.7206236401649371, "train/reward_pred": 0.03827195134881425, "train/reward_rate": 0.043503852739726026, "stats/sum_log_reward": 10.100000301996866, "stats/max_log_achievement_collect_coal": 0.3333333333333333, "stats/max_log_achievement_collect_drink": 5.666666666666667, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.8333333333333335, "stats/max_log_achievement_collect_stone": 10.166666666666666, "stats/max_log_achievement_collect_wood": 11.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.1666666666666667, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.16666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.8333333333333333, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 2.3333333333333335, "stats/max_log_achievement_place_stone": 2.6666666666666665, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 2.0, "stats/mean_log_entropy": 0.6580387751261393, "replay/size": 661864.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.3801654674000063e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.351537369960276e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.13464641571045, "timer/env.step_count": 1454.0, "timer/env.step_total": 17.954733848571777, "timer/env.step_frac": 0.05982226331745465, "timer/env.step_avg": 0.01234851021222268, "timer/env.step_min": 0.0029261112213134766, "timer/env.step_max": 1.6620774269104004, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.26001858711242676, "timer/replay.add_frac": 0.0008663397918822083, "timer/replay.add_avg": 0.00017882983982972956, "timer/replay.add_min": 5.91278076171875e-05, "timer/replay.add_max": 0.0012252330780029297, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023012638092041016, "timer/logger.write_frac": 7.667438053841566e-05, "timer/logger.write_avg": 0.023012638092041016, "timer/logger.write_min": 0.023012638092041016, "timer/logger.write_max": 0.023012638092041016, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 10.69848108291626, "timer/agent.policy_frac": 0.03564560509984578, "timer/agent.policy_avg": 0.007357964981372944, "timer/agent.policy_min": 0.006053447723388672, "timer/agent.policy_max": 0.015438079833984375, "timer/dataset_count": 727.0, "timer/dataset_total": 0.05768585205078125, "timer/dataset_frac": 0.00019219991007263367, "timer/dataset_avg": 7.934780199557256e-05, "timer/dataset_min": 5.9604644775390625e-05, "timer/dataset_max": 0.0001304149627685547, "timer/agent.train_count": 727.0, "timer/agent.train_total": 270.47998881340027, "timer/agent.train_frac": 0.901195486904114, "timer/agent.train_avg": 0.37204950318211866, "timer/agent.train_min": 0.3658602237701416, "timer/agent.train_max": 0.3839070796966553, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21969246864318848, "timer/agent.report_frac": 0.0007319797006670695, "timer/agent.report_avg": 0.21969246864318848, "timer/agent.report_min": 0.21969246864318848, "timer/agent.report_max": 0.21969246864318848, "fps": 4.844386170269264}
{"step": 662091, "episode/length": 220.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.05429864253393665}
{"step": 662227, "episode/length": 135.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.07352941176470588}
{"step": 662386, "episode/length": 158.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.06918238993710692}
{"step": 662624, "episode/length": 237.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 14.899999991059303, "episode/reward_rate": 0.06302521008403361}
{"step": 662929, "episode/length": 304.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 11.100000031292439, "episode/reward_rate": 0.029508196721311476}
{"step": 663022, "episode/length": 92.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 9.899999976158142, "episode/reward_rate": 0.10752688172043011}
{"step": 663088, "episode/length": 65.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.12121212121212122}
{"step": 663319, "episode/length": 230.0, "episode/score": 11.099999994039536, "episode/sum_abs_reward": 14.100000023841858, "episode/reward_rate": 0.05627705627705628}
{"step": 663341, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.572834713358275, "train/action_min": 0.0, "train/action_std": 3.434040751255734, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04366135229946862, "train/actor_opt_grad_steps": 330770.0, "train/actor_opt_loss": -10.405688556567045, "train/adv_mag": 0.45252268457076916, "train/adv_max": 0.3958708685888371, "train/adv_mean": 0.0024830597023127936, "train/adv_min": -0.38627975990234964, "train/adv_std": 0.0484530503376269, "train/cont_avg": 0.9952134683098591, "train/cont_loss_mean": 6.516197345263208e-05, "train/cont_loss_std": 0.0020070173850463492, "train/cont_neg_acc": 0.9964788732394366, "train/cont_neg_loss": 0.009107407531920396, "train/cont_pos_acc": 0.9999861322658162, "train/cont_pos_loss": 2.911619531101345e-05, "train/cont_pred": 0.9952060445933275, "train/cont_rate": 0.9952134683098591, "train/dyn_loss_mean": 5.183644120122345, "train/dyn_loss_std": 8.747637527089724, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0815715437204065, "train/extr_critic_critic_opt_grad_steps": 330770.0, "train/extr_critic_critic_opt_loss": 16063.110901738557, "train/extr_critic_mag": 11.003998205695353, "train/extr_critic_max": 11.003998205695353, "train/extr_critic_mean": 2.717311577058174, "train/extr_critic_min": -0.4410718545107774, "train/extr_critic_std": 2.5731169740918656, "train/extr_return_normed_mag": 1.4836804933950936, "train/extr_return_normed_max": 1.4836804933950936, "train/extr_return_normed_mean": 0.3562453412254092, "train/extr_return_normed_min": -0.0724713110273153, "train/extr_return_normed_std": 0.3210428627863736, "train/extr_return_rate": 0.7516579048734315, "train/extr_return_raw_mag": 11.893306006847972, "train/extr_return_raw_max": 11.893306006847972, "train/extr_return_raw_mean": 2.737505489671734, "train/extr_return_raw_min": -0.7447917696455835, "train/extr_return_raw_std": 2.607632425469412, "train/extr_reward_mag": 1.0598774157779318, "train/extr_reward_max": 1.0598774157779318, "train/extr_reward_mean": 0.05452007238923664, "train/extr_reward_min": -0.6080451364248571, "train/extr_reward_std": 0.22494244512537837, "train/image_loss_mean": 3.099845908057522, "train/image_loss_std": 7.93027628643412, "train/model_loss_mean": 6.261112152690619, "train/model_loss_std": 12.03727437408877, "train/model_opt_grad_norm": 24.12395287903262, "train/model_opt_grad_steps": 330506.0, "train/model_opt_loss": 11201.121437610036, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1795.774647887324, "train/policy_entropy_mag": 2.680799541339068, "train/policy_entropy_max": 2.680799541339068, "train/policy_entropy_mean": 0.48018494836041625, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6702489924262947, "train/policy_logprob_mag": 7.438384318015944, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.48046183502170403, "train/policy_logprob_min": -7.438384318015944, "train/policy_logprob_std": 1.0851395860524244, "train/policy_randomness_mag": 0.946204596841839, "train/policy_randomness_max": 0.946204596841839, "train/policy_randomness_mean": 0.16948421404395306, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2365684834584384, "train/post_ent_mag": 55.048877125055014, "train/post_ent_max": 55.048877125055014, "train/post_ent_mean": 40.78633176776725, "train/post_ent_min": 19.233658817452444, "train/post_ent_std": 5.765323262819102, "train/prior_ent_mag": 76.64835765999807, "train/prior_ent_max": 76.64835765999807, "train/prior_ent_mean": 45.97795454213317, "train/prior_ent_min": 28.25812474103041, "train/prior_ent_std": 7.492167754912041, "train/rep_loss_mean": 5.183644120122345, "train/rep_loss_std": 8.747637527089724, "train/reward_avg": 0.036471170806129216, "train/reward_loss_mean": 0.05101467700491489, "train/reward_loss_std": 0.20153930657346483, "train/reward_max_data": 1.025352118720471, "train/reward_max_pred": 1.025755334907854, "train/reward_neg_acc": 0.9941517089454222, "train/reward_neg_loss": 0.022653645704644666, "train/reward_pos_acc": 0.9912484414140943, "train/reward_pos_loss": 0.7186193214335912, "train/reward_pred": 0.036409927269732446, "train/reward_rate": 0.040781800176056336, "stats/sum_log_reward": 9.725000083446503, "stats/max_log_achievement_collect_coal": 0.75, "stats/max_log_achievement_collect_drink": 2.375, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.625, "stats/max_log_achievement_collect_stone": 9.5, "stats/max_log_achievement_collect_wood": 7.75, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.75, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.375, "stats/max_log_achievement_make_wood_pickaxe": 1.125, "stats/max_log_achievement_make_wood_sword": 1.125, "stats/max_log_achievement_place_furnace": 1.25, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 1.875, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.5266999527812004, "replay/size": 663278.0, "replay/inserts": 1414.0, "replay/samples": 11312.0, "replay/insert_wait_avg": 3.4179512142629232e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.357185958635689e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.02297163009644, "timer/env.step_count": 1414.0, "timer/env.step_total": 23.293342113494873, "timer/env.step_frac": 0.07763852876643607, "timer/env.step_avg": 0.016473367831325934, "timer/env.step_min": 0.0031120777130126953, "timer/env.step_max": 1.8362939357757568, "timer/replay.add_count": 1414.0, "timer/replay.add_total": 0.2469336986541748, "timer/replay.add_frac": 0.0008230493062332029, "timer/replay.add_avg": 0.00017463486467763424, "timer/replay.add_min": 6.723403930664062e-05, "timer/replay.add_max": 0.0009005069732666016, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02214217185974121, "timer/logger.write_frac": 7.380158838984063e-05, "timer/logger.write_avg": 0.02214217185974121, "timer/logger.write_min": 0.02214217185974121, "timer/logger.write_max": 0.02214217185974121, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00016069412231445312, "timer/checkpoint.save_frac": 5.356060619004058e-07, "timer/checkpoint.save_avg": 0.00016069412231445312, "timer/checkpoint.save_min": 0.00016069412231445312, "timer/checkpoint.save_max": 0.00016069412231445312, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1612844467163086, "timer/agent.save_frac": 0.00387065177178525, "timer/agent.save_avg": 1.1612844467163086, "timer/agent.save_min": 1.1612844467163086, "timer/agent.save_max": 1.1612844467163086, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.271766662597656e-05, "timer/replay.save_frac": 2.4237366302614803e-07, "timer/replay.save_avg": 7.271766662597656e-05, "timer/replay.save_min": 7.271766662597656e-05, "timer/replay.save_max": 7.271766662597656e-05, "timer/agent.policy_count": 1414.0, "timer/agent.policy_total": 12.28380012512207, "timer/agent.policy_frac": 0.04094286533588162, "timer/agent.policy_avg": 0.008687270244075014, "timer/agent.policy_min": 0.005911350250244141, "timer/agent.policy_max": 1.1610612869262695, "timer/dataset_count": 707.0, "timer/dataset_total": 0.056443214416503906, "timer/dataset_frac": 0.00018812964257314846, "timer/dataset_avg": 7.983481529915686e-05, "timer/dataset_min": 5.8650970458984375e-05, "timer/dataset_max": 0.00017380714416503906, "timer/agent.train_count": 707.0, "timer/agent.train_total": 263.47061252593994, "timer/agent.train_frac": 0.8781681319081709, "timer/agent.train_avg": 0.3726599894284865, "timer/agent.train_min": 0.3656423091888428, "timer/agent.train_max": 0.881340503692627, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22137451171875, "timer/agent.report_frac": 0.0007378585396843763, "timer/agent.report_avg": 0.22137451171875, "timer/agent.report_min": 0.22137451171875, "timer/agent.report_max": 0.22137451171875, "fps": 4.712872574998195}
{"step": 663468, "episode/length": 148.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 10.30000003427267, "episode/reward_rate": 0.06040268456375839}
{"step": 663675, "episode/length": 206.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.500000037252903, "episode/reward_rate": 0.05314009661835749}
{"step": 663899, "episode/length": 223.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.0625}
{"step": 664148, "episode/length": 248.0, "episode/score": 12.099999979138374, "episode/sum_abs_reward": 14.30000002682209, "episode/reward_rate": 0.05220883534136546}
{"step": 664366, "episode/length": 217.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.500000037252903, "episode/reward_rate": 0.05963302752293578}
{"step": 664419, "episode/length": 52.0, "episode/score": 5.100000023841858, "episode/sum_abs_reward": 6.9000000059604645, "episode/reward_rate": 0.1320754716981132}
{"step": 664720, "episode/length": 300.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.500000037252903, "episode/reward_rate": 0.03986710963455149}
{"step": 664787, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.586977640787761, "train/action_min": 0.0, "train/action_std": 3.439744965897666, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.042701855250116855, "train/actor_opt_grad_steps": 331485.0, "train/actor_opt_loss": -11.886448001696003, "train/adv_mag": 0.46252064365479684, "train/adv_max": 0.4082303694966767, "train/adv_mean": 0.002408175927586045, "train/adv_min": -0.40825024288561607, "train/adv_std": 0.04811753389529056, "train/cont_avg": 0.9951714409722222, "train/cont_loss_mean": 9.359417484786389e-06, "train/cont_loss_std": 0.0002662975134886854, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00027406422271367446, "train/cont_pos_acc": 0.9999999817874696, "train/cont_pos_loss": 8.208907353572196e-06, "train/cont_pred": 0.9951655268669128, "train/cont_rate": 0.9951714409722222, "train/dyn_loss_mean": 5.226565725273556, "train/dyn_loss_std": 8.705925405025482, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9898358401325014, "train/extr_critic_critic_opt_grad_steps": 331485.0, "train/extr_critic_critic_opt_loss": 16048.648179796008, "train/extr_critic_mag": 11.031184328926933, "train/extr_critic_max": 11.031184328926933, "train/extr_critic_mean": 2.859481655889087, "train/extr_critic_min": -0.48632556034459007, "train/extr_critic_std": 2.609462880425983, "train/extr_return_normed_mag": 1.4602079457706876, "train/extr_return_normed_max": 1.4602079457706876, "train/extr_return_normed_mean": 0.3732316792011261, "train/extr_return_normed_min": -0.07444595395483905, "train/extr_return_normed_std": 0.3242454497764508, "train/extr_return_rate": 0.7544361659222178, "train/extr_return_raw_mag": 11.734751489427355, "train/extr_return_raw_max": 11.734751489427355, "train/extr_return_raw_mean": 2.879112175769276, "train/extr_return_raw_min": -0.7674374803900719, "train/extr_return_raw_std": 2.6412798547082477, "train/extr_reward_mag": 1.0628083811865912, "train/extr_reward_max": 1.0628083811865912, "train/extr_reward_mean": 0.05721222288492653, "train/extr_reward_min": -0.6307815329896079, "train/extr_reward_std": 0.23029208928346634, "train/image_loss_mean": 3.0891843918297024, "train/image_loss_std": 8.105399125152164, "train/model_loss_mean": 6.278984294997321, "train/model_loss_std": 12.210770123534733, "train/model_opt_grad_norm": 26.004027631547714, "train/model_opt_grad_steps": 331220.97222222225, "train/model_opt_loss": 15907.726603190104, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2534.722222222222, "train/policy_entropy_mag": 2.691696779595481, "train/policy_entropy_max": 2.691696779595481, "train/policy_entropy_mean": 0.44830163816610974, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6437493045296934, "train/policy_logprob_mag": 7.438384234905243, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4469755140857564, "train/policy_logprob_min": -7.438384234905243, "train/policy_logprob_std": 1.0577474981546402, "train/policy_randomness_mag": 0.9500508374638028, "train/policy_randomness_max": 0.9500508374638028, "train/policy_randomness_mean": 0.15823080566608244, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2272152536445194, "train/post_ent_mag": 55.730537202623154, "train/post_ent_max": 55.730537202623154, "train/post_ent_mean": 40.775653786129425, "train/post_ent_min": 19.27176919248369, "train/post_ent_std": 5.798576149675581, "train/prior_ent_mag": 76.71053049299452, "train/prior_ent_max": 76.71053049299452, "train/prior_ent_mean": 46.02317084206475, "train/prior_ent_min": 28.052966250313652, "train/prior_ent_std": 7.593314541710748, "train/rep_loss_mean": 5.226565725273556, "train/rep_loss_std": 8.705925405025482, "train/reward_avg": 0.039443629845562905, "train/reward_loss_mean": 0.05385111706952254, "train/reward_loss_std": 0.21005328165160286, "train/reward_max_data": 1.0250000059604645, "train/reward_max_pred": 1.0228353374534183, "train/reward_neg_acc": 0.9943995873133341, "train/reward_neg_loss": 0.02272526200653778, "train/reward_pos_acc": 0.986911797689067, "train/reward_pos_loss": 0.7328597803910574, "train/reward_pred": 0.0391656888079726, "train/reward_rate": 0.043863932291666664, "stats/sum_log_reward": 10.242857456207275, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 2.5714285714285716, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 9.714285714285714, "stats/max_log_achievement_collect_wood": 9.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.2857142857142858, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.7142857142857142, "stats/max_log_achievement_place_stone": 2.0, "stats/max_log_achievement_place_table": 3.142857142857143, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.3675777954714639, "replay/size": 664724.0, "replay/inserts": 1446.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.4501443760029013e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3483799015008232e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1785945892334, "timer/env.step_count": 1446.0, "timer/env.step_total": 19.66132926940918, "timer/env.step_frac": 0.06549877181054128, "timer/env.step_avg": 0.013597046521029861, "timer/env.step_min": 0.0029120445251464844, "timer/env.step_max": 1.6909267902374268, "timer/replay.add_count": 1446.0, "timer/replay.add_total": 0.27120089530944824, "timer/replay.add_frac": 0.0009034651377476183, "timer/replay.add_avg": 0.00018755248638274428, "timer/replay.add_min": 6.771087646484375e-05, "timer/replay.add_max": 0.003418445587158203, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022675514221191406, "timer/logger.write_frac": 7.554007724041998e-05, "timer/logger.write_avg": 0.022675514221191406, "timer/logger.write_min": 0.022675514221191406, "timer/logger.write_max": 0.022675514221191406, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1446.0, "timer/agent.policy_total": 10.660741567611694, "timer/agent.policy_frac": 0.03551466280332191, "timer/agent.policy_avg": 0.007372573698210024, "timer/agent.policy_min": 0.005903482437133789, "timer/agent.policy_max": 0.01457834243774414, "timer/dataset_count": 723.0, "timer/dataset_total": 0.05717206001281738, "timer/dataset_frac": 0.00019046014953548587, "timer/dataset_avg": 7.907615492782487e-05, "timer/dataset_min": 5.650520324707031e-05, "timer/dataset_max": 0.0001361370086669922, "timer/agent.train_count": 723.0, "timer/agent.train_total": 268.8475081920624, "timer/agent.train_frac": 0.8956251812690218, "timer/agent.train_avg": 0.3718499421743601, "timer/agent.train_min": 0.365797758102417, "timer/agent.train_max": 0.38460707664489746, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22406315803527832, "timer/agent.report_frac": 0.0007464328305683755, "timer/agent.report_avg": 0.22406315803527832, "timer/agent.report_min": 0.22406315803527832, "timer/agent.report_max": 0.22406315803527832, "fps": 4.817028145035909}
{"step": 664945, "episode/length": 224.0, "episode/score": 14.100000023841858, "episode/sum_abs_reward": 17.100000023841858, "episode/reward_rate": 0.07111111111111111}
{"step": 665116, "episode/length": 170.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.06432748538011696}
{"step": 665299, "episode/length": 182.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.060109289617486336}
{"step": 665502, "episode/length": 202.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.059113300492610835}
{"step": 665884, "episode/length": 381.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.034031413612565446}
{"step": 666179, "episode/length": 294.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.04067796610169491}
{"step": 666243, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.5940050098994005, "train/action_min": 0.0, "train/action_std": 3.405921064011038, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04293653945604416, "train/actor_opt_grad_steps": 332210.0, "train/actor_opt_loss": -12.799805577895413, "train/adv_mag": 0.450569797052096, "train/adv_max": 0.4064794472635609, "train/adv_mean": 0.0025827827548305137, "train/adv_min": -0.38646564581622816, "train/adv_std": 0.04859600527441665, "train/cont_avg": 0.9944215539383562, "train/cont_loss_mean": 4.557633286127658e-06, "train/cont_loss_std": 0.00013787436595737756, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0002813076247895352, "train/cont_pos_acc": 0.9999999812204544, "train/cont_pos_loss": 3.4474441307386843e-06, "train/cont_pred": 0.9944194049051364, "train/cont_rate": 0.9944215539383562, "train/dyn_loss_mean": 5.1783230402698255, "train/dyn_loss_std": 8.802616903226669, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0748094140666804, "train/extr_critic_critic_opt_grad_steps": 332210.0, "train/extr_critic_critic_opt_loss": 16155.469258347603, "train/extr_critic_mag": 11.29210368901083, "train/extr_critic_max": 11.29210368901083, "train/extr_critic_mean": 2.845591910897869, "train/extr_critic_min": -0.5093051015514217, "train/extr_critic_std": 2.7398116751892925, "train/extr_return_normed_mag": 1.491232991218567, "train/extr_return_normed_max": 1.491232991218567, "train/extr_return_normed_mean": 0.36974347392990164, "train/extr_return_normed_min": -0.08172096896355283, "train/extr_return_normed_std": 0.3386648256484776, "train/extr_return_rate": 0.7387753667896741, "train/extr_return_raw_mag": 12.049159272076333, "train/extr_return_raw_max": 12.049159272076333, "train/extr_return_raw_mean": 2.8667382312147587, "train/extr_return_raw_min": -0.829853988673589, "train/extr_return_raw_std": 2.77298311011432, "train/extr_reward_mag": 1.0559719327377945, "train/extr_reward_max": 1.0559719327377945, "train/extr_reward_mean": 0.057193017679534545, "train/extr_reward_min": -0.6221952128083739, "train/extr_reward_std": 0.231142667058396, "train/image_loss_mean": 3.0633735607748163, "train/image_loss_std": 8.148866424821827, "train/model_loss_mean": 6.2245397502428865, "train/model_loss_std": 12.311130484489546, "train/model_opt_grad_norm": 25.50348262264304, "train/model_opt_grad_steps": 331945.0, "train/model_opt_loss": 15561.349462221746, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6814224132119793, "train/policy_entropy_max": 2.6814224132119793, "train/policy_entropy_mean": 0.4343939605232787, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6191126977744168, "train/policy_logprob_mag": 7.438384206327673, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.43441698669570766, "train/policy_logprob_min": -7.438384206327673, "train/policy_logprob_std": 1.0483216145267225, "train/policy_randomness_mag": 0.9464244385288186, "train/policy_randomness_max": 0.9464244385288186, "train/policy_randomness_mean": 0.1533220063333642, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21851961426947214, "train/post_ent_mag": 55.41880861047196, "train/post_ent_max": 55.41880861047196, "train/post_ent_mean": 40.891571619739274, "train/post_ent_min": 19.383588882341776, "train/post_ent_std": 5.697291099861877, "train/prior_ent_mag": 76.68381552500267, "train/prior_ent_max": 76.68381552500267, "train/prior_ent_mean": 46.07407478437032, "train/prior_ent_min": 28.343666155044346, "train/prior_ent_std": 7.557078074102533, "train/rep_loss_mean": 5.1783230402698255, "train/rep_loss_std": 8.802616903226669, "train/reward_avg": 0.03811670579526522, "train/reward_loss_mean": 0.05416784011950231, "train/reward_loss_std": 0.20683398863224134, "train/reward_max_data": 1.0136986334029943, "train/reward_max_pred": 1.0164702755131134, "train/reward_neg_acc": 0.9945315171594489, "train/reward_neg_loss": 0.02422743494150369, "train/reward_pos_acc": 0.9902680924493973, "train/reward_pos_loss": 0.719063254251872, "train/reward_pred": 0.03788525945417685, "train/reward_rate": 0.04303563784246575, "stats/sum_log_reward": 11.43333371480306, "stats/max_log_achievement_collect_coal": 0.3333333333333333, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 12.833333333333334, "stats/max_log_achievement_collect_wood": 11.5, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.1666666666666667, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.8333333333333333, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_stone": 3.3333333333333335, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.49855878700812656, "replay/size": 666180.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.3661886885925962e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3472450958503472e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.19524478912354, "timer/env.step_count": 1456.0, "timer/env.step_total": 17.764933347702026, "timer/env.step_frac": 0.059177930550436464, "timer/env.step_avg": 0.012201190486059084, "timer/env.step_min": 0.0029473304748535156, "timer/env.step_max": 1.5921931266784668, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.257155179977417, "timer/replay.add_frac": 0.0008566264271043312, "timer/replay.add_avg": 0.00017661756866580838, "timer/replay.add_min": 6.389617919921875e-05, "timer/replay.add_max": 0.0008594989776611328, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.020288467407226562, "timer/logger.write_frac": 6.758423978860321e-05, "timer/logger.write_avg": 0.020288467407226562, "timer/logger.write_min": 0.020288467407226562, "timer/logger.write_max": 0.020288467407226562, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 10.774821281433105, "timer/agent.policy_frac": 0.035892711388556583, "timer/agent.policy_avg": 0.007400289341643616, "timer/agent.policy_min": 0.006007194519042969, "timer/agent.policy_max": 0.014261484146118164, "timer/dataset_count": 728.0, "timer/dataset_total": 0.05911397933959961, "timer/dataset_frac": 0.0001969184401342702, "timer/dataset_avg": 8.120052107087858e-05, "timer/dataset_min": 5.936622619628906e-05, "timer/dataset_max": 0.0001723766326904297, "timer/agent.train_count": 728.0, "timer/agent.train_total": 270.66154193878174, "timer/agent.train_frac": 0.9016183521791353, "timer/agent.train_avg": 0.3717878323334914, "timer/agent.train_min": 0.3654193878173828, "timer/agent.train_max": 0.38466501235961914, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21880769729614258, "timer/agent.report_frac": 0.0007288846212399107, "timer/agent.report_avg": 0.21880769729614258, "timer/agent.report_min": 0.21880769729614258, "timer/agent.report_max": 0.21880769729614258, "fps": 4.850097690776318}
{"step": 666354, "episode/length": 174.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.06285714285714286}
{"step": 666508, "episode/length": 153.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.07792207792207792}
{"step": 666656, "episode/length": 147.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.08108108108108109}
{"step": 666849, "episode/length": 192.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.046632124352331605}
{"step": 667071, "episode/length": 221.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.05855855855855856}
{"step": 667531, "episode/length": 459.0, "episode/score": 13.099999979138374, "episode/sum_abs_reward": 17.300000056624413, "episode/reward_rate": 0.030434782608695653}
{"step": 667695, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.598097907172309, "train/action_min": 0.0, "train/action_std": 3.4072817862033844, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.042202417790475816, "train/actor_opt_grad_steps": 332935.0, "train/actor_opt_loss": -11.542193951602611, "train/adv_mag": 0.42525657307770515, "train/adv_max": 0.380986529091994, "train/adv_mean": 0.0026754219895034717, "train/adv_min": -0.35595013739334214, "train/adv_std": 0.04724310912812749, "train/cont_avg": 0.9947238498263888, "train/cont_loss_mean": 2.8789442493367307e-05, "train/cont_loss_std": 0.0008270455361720034, "train/cont_neg_acc": 0.9984567902154393, "train/cont_neg_loss": 0.0024684551827907817, "train/cont_pos_acc": 0.999999982615312, "train/cont_pos_loss": 8.1947425564345e-06, "train/cont_pred": 0.9947276206480132, "train/cont_rate": 0.9947238498263888, "train/dyn_loss_mean": 5.220206793811586, "train/dyn_loss_std": 8.759296708636814, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.020195489956273, "train/extr_critic_critic_opt_grad_steps": 332935.0, "train/extr_critic_critic_opt_loss": 15996.951836480035, "train/extr_critic_mag": 11.198396497302586, "train/extr_critic_max": 11.198396497302586, "train/extr_critic_mean": 2.922515776422289, "train/extr_critic_min": -0.49488233029842377, "train/extr_critic_std": 2.7206540041499667, "train/extr_return_normed_mag": 1.4549839976761076, "train/extr_return_normed_max": 1.4549839976761076, "train/extr_return_normed_mean": 0.3729991668628322, "train/extr_return_normed_min": -0.07589132307718198, "train/extr_return_normed_std": 0.3307763739592499, "train/extr_return_rate": 0.7420292985108163, "train/extr_return_raw_mag": 11.96059348848131, "train/extr_return_raw_max": 11.96059348848131, "train/extr_return_raw_mean": 2.944784108135435, "train/extr_return_raw_min": -0.7970998560388883, "train/extr_return_raw_std": 2.7571383118629456, "train/extr_reward_mag": 1.0645269420411851, "train/extr_reward_max": 1.0645269420411851, "train/extr_reward_mean": 0.05656861839815974, "train/extr_reward_min": -0.643796925743421, "train/extr_reward_std": 0.23001873389714295, "train/image_loss_mean": 3.1037034855948553, "train/image_loss_std": 8.337037954065535, "train/model_loss_mean": 6.290247665511237, "train/model_loss_std": 12.476714796490139, "train/model_opt_grad_norm": 26.52224557929569, "train/model_opt_grad_steps": 332669.3611111111, "train/model_opt_loss": 16046.823052300348, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2534.722222222222, "train/policy_entropy_mag": 2.6925002700752683, "train/policy_entropy_max": 2.6925002700752683, "train/policy_entropy_mean": 0.44370240676734185, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6409518909123209, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.44476190209388733, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 1.0622349116537306, "train/policy_randomness_mag": 0.9503344363636441, "train/policy_randomness_max": 0.9503344363636441, "train/policy_randomness_mean": 0.15660747647699383, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22622789287318787, "train/post_ent_mag": 55.803676181369354, "train/post_ent_max": 55.803676181369354, "train/post_ent_mean": 40.89355903201633, "train/post_ent_min": 19.411068783866035, "train/post_ent_std": 5.699836744202508, "train/prior_ent_mag": 76.76560062832303, "train/prior_ent_max": 76.76560062832303, "train/prior_ent_mean": 46.112545331319176, "train/prior_ent_min": 28.86287021636963, "train/prior_ent_std": 7.539954728550381, "train/rep_loss_mean": 5.220206793811586, "train/rep_loss_std": 8.759296708636814, "train/reward_avg": 0.03784315290653871, "train/reward_loss_mean": 0.054391296218252845, "train/reward_loss_std": 0.21433240382207763, "train/reward_max_data": 1.0263888951804903, "train/reward_max_pred": 1.0244302153587341, "train/reward_neg_acc": 0.994020999305778, "train/reward_neg_loss": 0.024214160098280344, "train/reward_pos_acc": 0.9868492318524255, "train/reward_pos_loss": 0.7353680473234918, "train/reward_pred": 0.037478321257771716, "train/reward_rate": 0.04248046875, "stats/sum_log_reward": 10.93333355585734, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 3.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 13.0, "stats/max_log_achievement_collect_wood": 10.5, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 0.8333333333333334, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.16666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.6666666666666667, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 2.1666666666666665, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 3.1666666666666665, "stats/max_log_achievement_place_table": 2.8333333333333335, "stats/max_log_achievement_wake_up": 1.6666666666666667, "stats/mean_log_entropy": 0.3243704487880071, "replay/size": 667632.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.4097797614483795e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3469951868714051e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0447700023651, "timer/env.step_count": 1452.0, "timer/env.step_total": 18.29582452774048, "timer/env.step_frac": 0.06097698196037965, "timer/env.step_avg": 0.012600430115523746, "timer/env.step_min": 0.0029697418212890625, "timer/env.step_max": 1.6721484661102295, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.27640843391418457, "timer/replay.add_frac": 0.0009212239690497047, "timer/replay.add_avg": 0.00019036393520260644, "timer/replay.add_min": 6.914138793945312e-05, "timer/replay.add_max": 0.0030448436737060547, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022849559783935547, "timer/logger.write_frac": 7.615383458860301e-05, "timer/logger.write_avg": 0.022849559783935547, "timer/logger.write_min": 0.022849559783935547, "timer/logger.write_max": 0.022849559783935547, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 10.869230270385742, "timer/agent.policy_frac": 0.03622536153621363, "timer/agent.policy_avg": 0.007485695778502577, "timer/agent.policy_min": 0.0061321258544921875, "timer/agent.policy_max": 0.015530824661254883, "timer/dataset_count": 726.0, "timer/dataset_total": 0.059168100357055664, "timer/dataset_frac": 0.00019719757273752603, "timer/dataset_avg": 8.149876082239072e-05, "timer/dataset_min": 5.91278076171875e-05, "timer/dataset_max": 0.00016570091247558594, "timer/agent.train_count": 726.0, "timer/agent.train_total": 269.8653612136841, "timer/agent.train_frac": 0.899416981044385, "timer/agent.train_avg": 0.3717153735725676, "timer/agent.train_min": 0.3652677536010742, "timer/agent.train_max": 0.38446784019470215, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2204453945159912, "timer/agent.report_frac": 0.0007347083387397606, "timer/agent.report_avg": 0.2204453945159912, "timer/agent.report_min": 0.2204453945159912, "timer/agent.report_max": 0.2204453945159912, "fps": 4.839183940126254}
{"step": 667716, "episode/length": 184.0, "episode/score": 13.100000023841858, "episode/sum_abs_reward": 15.10000005364418, "episode/reward_rate": 0.07567567567567568}
{"step": 667909, "episode/length": 192.0, "episode/score": 10.100000038743019, "episode/sum_abs_reward": 13.100000008940697, "episode/reward_rate": 0.06217616580310881}
{"step": 668091, "episode/length": 181.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06043956043956044}
{"step": 668237, "episode/length": 145.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 14.10000005364418, "episode/reward_rate": 0.0821917808219178}
{"step": 668470, "episode/length": 232.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.060085836909871244}
{"step": 668698, "episode/length": 227.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.05701754385964912}
{"step": 668754, "episode/length": 55.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.10714285714285714}
{"step": 669119, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.613827175564236, "train/action_min": 0.0, "train/action_std": 3.4664984345436096, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04183801506749458, "train/actor_opt_grad_steps": 333655.0, "train/actor_opt_loss": -13.128564993540445, "train/adv_mag": 0.432142961356375, "train/adv_max": 0.36950870644715095, "train/adv_mean": 0.0018942590699629767, "train/adv_min": -0.3942957783324851, "train/adv_std": 0.04704198479238483, "train/cont_avg": 0.9942626953125, "train/cont_loss_mean": 0.00018943633888213185, "train/cont_loss_std": 0.005908169320717447, "train/cont_neg_acc": 0.9959490746259689, "train/cont_neg_loss": 0.02838643631713052, "train/cont_pos_acc": 0.9999999850988388, "train/cont_pos_loss": 1.238337374450301e-05, "train/cont_pred": 0.9942777388625674, "train/cont_rate": 0.9942626953125, "train/dyn_loss_mean": 5.364740795559353, "train/dyn_loss_std": 8.892706513404846, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0270342760615878, "train/extr_critic_critic_opt_grad_steps": 333655.0, "train/extr_critic_critic_opt_loss": 16107.341145833334, "train/extr_critic_mag": 11.187013520134819, "train/extr_critic_max": 11.187013520134819, "train/extr_critic_mean": 2.894580682118734, "train/extr_critic_min": -0.5057343757814832, "train/extr_critic_std": 2.771955728530884, "train/extr_return_normed_mag": 1.440500357084804, "train/extr_return_normed_max": 1.440500357084804, "train/extr_return_normed_mean": 0.364842835192879, "train/extr_return_normed_min": -0.08114935261093909, "train/extr_return_normed_std": 0.3332021613087919, "train/extr_return_rate": 0.7346038056744469, "train/extr_return_raw_mag": 11.957812441719902, "train/extr_return_raw_max": 11.957812441719902, "train/extr_return_raw_mean": 2.9105083131127887, "train/extr_return_raw_min": -0.8413315680291917, "train/extr_return_raw_std": 2.8030300637086234, "train/extr_reward_mag": 1.0533423920472462, "train/extr_reward_max": 1.0533423920472462, "train/extr_reward_mean": 0.05604178525714411, "train/extr_reward_min": -0.6661010748810239, "train/extr_reward_std": 0.22909594078858694, "train/image_loss_mean": 3.214989102549023, "train/image_loss_std": 8.60710334777832, "train/model_loss_mean": 6.489333166016473, "train/model_loss_std": 12.797774977154202, "train/model_opt_grad_norm": 27.230948633617825, "train/model_opt_grad_steps": 333388.80555555556, "train/model_opt_loss": 17089.23346625434, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2638.8888888888887, "train/policy_entropy_mag": 2.692820558945338, "train/policy_entropy_max": 2.692820558945338, "train/policy_entropy_mean": 0.4458918612864282, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6404710461695989, "train/policy_logprob_mag": 7.43838428788715, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4460979762176673, "train/policy_logprob_min": -7.43838428788715, "train/policy_logprob_std": 1.0612913486030366, "train/policy_randomness_mag": 0.9504474873344103, "train/policy_randomness_max": 0.9504474873344103, "train/policy_randomness_mean": 0.15738025980277193, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22605817351076338, "train/post_ent_mag": 55.34146446651883, "train/post_ent_max": 55.34146446651883, "train/post_ent_mean": 40.8242834409078, "train/post_ent_min": 19.190012852350872, "train/post_ent_std": 5.763279312186771, "train/prior_ent_mag": 76.64694489373102, "train/prior_ent_max": 76.64694489373102, "train/prior_ent_mean": 46.17103338241577, "train/prior_ent_min": 28.575240241156685, "train/prior_ent_std": 7.591777735286289, "train/rep_loss_mean": 5.364740795559353, "train/rep_loss_std": 8.892706513404846, "train/reward_avg": 0.037586805358943015, "train/reward_loss_mean": 0.055310137673384614, "train/reward_loss_std": 0.2147008532451259, "train/reward_max_data": 1.0194444490803614, "train/reward_max_pred": 1.0165257304906845, "train/reward_neg_acc": 0.9937955265243849, "train/reward_neg_loss": 0.02524379812853618, "train/reward_pos_acc": 0.9886278212070465, "train/reward_pos_loss": 0.7298598504728742, "train/reward_pred": 0.037304693988213934, "train/reward_rate": 0.04271104600694445, "stats/sum_log_reward": 10.671428612300328, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 3.7142857142857144, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 12.571428571428571, "stats/max_log_achievement_collect_wood": 8.857142857142858, "stats/max_log_achievement_defeat_skeleton": 0.2857142857142857, "stats/max_log_achievement_defeat_zombie": 0.5714285714285714, "stats/max_log_achievement_eat_cow": 0.42857142857142855, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.2857142857142857, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.7142857142857143, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 1.5714285714285714, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.3061806985310146, "replay/size": 669056.0, "replay/inserts": 1424.0, "replay/samples": 11392.0, "replay/insert_wait_avg": 3.4676174099525707e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3704464006959723e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.22613501548767, "timer/env.step_count": 1424.0, "timer/env.step_total": 21.758688926696777, "timer/env.step_frac": 0.07247433314083172, "timer/env.step_avg": 0.015279978178860096, "timer/env.step_min": 0.0029296875, "timer/env.step_max": 1.8220641613006592, "timer/replay.add_count": 1424.0, "timer/replay.add_total": 0.29664087295532227, "timer/replay.add_frac": 0.000988058128050776, "timer/replay.add_avg": 0.00020831521977199597, "timer/replay.add_min": 6.222724914550781e-05, "timer/replay.add_max": 0.0032296180725097656, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02201390266418457, "timer/logger.write_frac": 7.332440482920964e-05, "timer/logger.write_avg": 0.02201390266418457, "timer/logger.write_min": 0.02201390266418457, "timer/logger.write_max": 0.02201390266418457, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003008842468261719, "timer/checkpoint.save_frac": 1.0021920537019546e-06, "timer/checkpoint.save_avg": 0.0003008842468261719, "timer/checkpoint.save_min": 0.0003008842468261719, "timer/checkpoint.save_max": 0.0003008842468261719, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1819875240325928, "timer/agent.save_frac": 0.003936990775208887, "timer/agent.save_avg": 1.1819875240325928, "timer/agent.save_min": 1.1819875240325928, "timer/agent.save_max": 1.1819875240325928, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.510185241699219e-05, "timer/replay.save_frac": 2.501509484279839e-07, "timer/replay.save_avg": 7.510185241699219e-05, "timer/replay.save_min": 7.510185241699219e-05, "timer/replay.save_max": 7.510185241699219e-05, "timer/agent.policy_count": 1424.0, "timer/agent.policy_total": 12.295979499816895, "timer/agent.policy_frac": 0.040955726586503156, "timer/agent.policy_avg": 0.008634817064478157, "timer/agent.policy_min": 0.006013393402099609, "timer/agent.policy_max": 1.1765131950378418, "timer/dataset_count": 712.0, "timer/dataset_total": 0.05821061134338379, "timer/dataset_frac": 0.00019388922067154778, "timer/dataset_avg": 8.175647660587611e-05, "timer/dataset_min": 6.031990051269531e-05, "timer/dataset_max": 0.000141143798828125, "timer/agent.train_count": 712.0, "timer/agent.train_total": 265.14233565330505, "timer/agent.train_frac": 0.8831420876787667, "timer/agent.train_avg": 0.3723909208613835, "timer/agent.train_min": 0.3625609874725342, "timer/agent.train_max": 0.8093466758728027, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22082972526550293, "timer/agent.report_frac": 0.0007355446428876388, "timer/agent.report_avg": 0.22082972526550293, "timer/agent.report_min": 0.22082972526550293, "timer/agent.report_max": 0.22082972526550293, "fps": 4.743016576459621}
{"step": 669122, "episode/length": 367.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.03260869565217391}
{"step": 669482, "episode/length": 359.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.022222222222222223}
{"step": 669543, "episode/length": 60.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.06557377049180328}
{"step": 669742, "episode/length": 198.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.07035175879396985}
{"step": 670006, "episode/length": 263.0, "episode/score": 12.099999971687794, "episode/sum_abs_reward": 15.300000049173832, "episode/reward_rate": 0.05303030303030303}
{"step": 670463, "episode/length": 456.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.500000037252903, "episode/reward_rate": 0.03282275711159737}
{"step": 670563, "stats/sum_log_reward": 10.100000063578287, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 6.333333333333333, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 8.5, "stats/max_log_achievement_collect_wood": 11.0, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.1666666666666667, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 0.16666666666666666, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.1666666666666667, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_stone": 3.5, "stats/max_log_achievement_place_table": 2.6666666666666665, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.608736976981163, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.528356764051649, "train/action_min": 0.0, "train/action_std": 3.410956131087409, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04050672908003131, "train/actor_opt_grad_steps": 334375.0, "train/actor_opt_loss": -12.122005676229795, "train/adv_mag": 0.4178550959461265, "train/adv_max": 0.3667258359491825, "train/adv_mean": 0.002380083435835129, "train/adv_min": -0.35821010048190755, "train/adv_std": 0.04682831124713024, "train/cont_avg": 0.99462890625, "train/cont_loss_mean": 2.8737451314400334e-05, "train/cont_loss_std": 0.0008107532792555913, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0007332934049878324, "train/cont_pos_acc": 0.9999863488806618, "train/cont_pos_loss": 2.410117635677346e-05, "train/cont_pred": 0.9946159687307146, "train/cont_rate": 0.99462890625, "train/dyn_loss_mean": 5.136044883065754, "train/dyn_loss_std": 8.74070038398107, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0636620041396883, "train/extr_critic_critic_opt_grad_steps": 334375.0, "train/extr_critic_critic_opt_loss": 16234.304158528646, "train/extr_critic_mag": 11.098543047904968, "train/extr_critic_max": 11.098543047904968, "train/extr_critic_mean": 2.7804433587524624, "train/extr_critic_min": -0.4818060083521737, "train/extr_critic_std": 2.701611489057541, "train/extr_return_normed_mag": 1.4392317550049887, "train/extr_return_normed_max": 1.4392317550049887, "train/extr_return_normed_mean": 0.3537291909257571, "train/extr_return_normed_min": -0.08088987328422566, "train/extr_return_normed_std": 0.32756373410423595, "train/extr_return_rate": 0.7398745351367526, "train/extr_return_raw_mag": 11.847470164299011, "train/extr_return_raw_max": 11.847470164299011, "train/extr_return_raw_mean": 2.8002590553628073, "train/extr_return_raw_min": -0.822198995285564, "train/extr_return_raw_std": 2.730535798602634, "train/extr_reward_mag": 1.061867379479938, "train/extr_reward_max": 1.061867379479938, "train/extr_reward_mean": 0.05430545171515809, "train/extr_reward_min": -0.6260248902771208, "train/extr_reward_std": 0.22576486774616772, "train/image_loss_mean": 3.1165408343076706, "train/image_loss_std": 8.205158743593428, "train/model_loss_mean": 6.252708613872528, "train/model_loss_std": 12.364118509822422, "train/model_opt_grad_norm": 26.309456811824315, "train/model_opt_grad_steps": 334107.75, "train/model_opt_loss": 13725.595933702258, "train/model_opt_model_opt_grad_overflow": 0.013888888888888888, "train/model_opt_model_opt_grad_scale": 2187.5, "train/policy_entropy_mag": 2.7024466825856104, "train/policy_entropy_max": 2.7024466825856104, "train/policy_entropy_mean": 0.4448128876586755, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.64152484262983, "train/policy_logprob_mag": 7.438384234905243, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4441427066922188, "train/policy_logprob_min": -7.438384234905243, "train/policy_logprob_std": 1.0571378759211965, "train/policy_randomness_mag": 0.9538450853692161, "train/policy_randomness_max": 0.9538450853692161, "train/policy_randomness_mean": 0.15699942948089707, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2264301162213087, "train/post_ent_mag": 55.171907371944855, "train/post_ent_max": 55.171907371944855, "train/post_ent_mean": 40.777568870120575, "train/post_ent_min": 19.726629071765476, "train/post_ent_std": 5.635203301906586, "train/prior_ent_mag": 76.71793736351862, "train/prior_ent_max": 76.71793736351862, "train/prior_ent_mean": 45.953179624345566, "train/prior_ent_min": 28.465483877393936, "train/prior_ent_std": 7.538475791613261, "train/rep_loss_mean": 5.136044883065754, "train/rep_loss_std": 8.74070038398107, "train/reward_avg": 0.037524413524402514, "train/reward_loss_mean": 0.05451213216616048, "train/reward_loss_std": 0.20902777732246453, "train/reward_max_data": 1.022222227520413, "train/reward_max_pred": 1.0245624399847455, "train/reward_neg_acc": 0.9935547841919793, "train/reward_neg_loss": 0.024638661765493453, "train/reward_pos_acc": 0.9876689728763368, "train/reward_pos_loss": 0.7261807181768947, "train/reward_pred": 0.03724592217865089, "train/reward_rate": 0.04257541232638889, "replay/size": 670500.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.452116102392984e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.368615931090886e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.06349062919617, "timer/env.step_count": 1444.0, "timer/env.step_total": 18.40615701675415, "timer/env.step_frac": 0.061340874820054604, "timer/env.step_avg": 0.012746646133486254, "timer/env.step_min": 0.003049135208129883, "timer/env.step_max": 1.6348669528961182, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.25683164596557617, "timer/replay.add_frac": 0.0008559243426350599, "timer/replay.add_avg": 0.00017786125066868156, "timer/replay.add_min": 6.151199340820312e-05, "timer/replay.add_max": 0.0007789134979248047, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0281674861907959, "timer/logger.write_frac": 9.387175404689237e-05, "timer/logger.write_avg": 0.0281674861907959, "timer/logger.write_min": 0.0281674861907959, "timer/logger.write_max": 0.0281674861907959, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.678877115249634, "timer/agent.policy_frac": 0.03558872521564468, "timer/agent.policy_avg": 0.00739534426263825, "timer/agent.policy_min": 0.006005287170410156, "timer/agent.policy_max": 0.016739368438720703, "timer/dataset_count": 722.0, "timer/dataset_total": 0.057969093322753906, "timer/dataset_frac": 0.00019318942534861491, "timer/dataset_avg": 8.028960294010236e-05, "timer/dataset_min": 6.0558319091796875e-05, "timer/dataset_max": 0.00013971328735351562, "timer/agent.train_count": 722.0, "timer/agent.train_total": 269.9778220653534, "timer/agent.train_frac": 0.8997356576078055, "timer/agent.train_avg": 0.37393050147555873, "timer/agent.train_min": 0.36528444290161133, "timer/agent.train_max": 2.080327033996582, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21933388710021973, "timer/agent.report_frac": 0.0007309582603345165, "timer/agent.report_avg": 0.21933388710021973, "timer/agent.report_min": 0.21933388710021973, "timer/agent.report_max": 0.21933388710021973, "fps": 4.812213054690442}
{"step": 670677, "episode/length": 213.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.06074766355140187}
{"step": 670816, "episode/length": 138.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.07913669064748201}
{"step": 670970, "episode/length": 153.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 12.100000031292439, "episode/reward_rate": 0.06493506493506493}
{"step": 671485, "episode/length": 514.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 18.1000000461936, "episode/reward_rate": 0.02912621359223301}
{"step": 671662, "episode/length": 176.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 11.700000032782555, "episode/reward_rate": 0.062146892655367235}
{"step": 671832, "episode/length": 169.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.07647058823529412}
{"step": 672019, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.564081897474315, "train/action_min": 0.0, "train/action_std": 3.40550113050905, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0426156965326773, "train/actor_opt_grad_steps": 335100.0, "train/actor_opt_loss": -10.377501474667902, "train/adv_mag": 0.4326457646611619, "train/adv_max": 0.3759655376819715, "train/adv_mean": 0.003084254967589378, "train/adv_min": -0.37731314889372214, "train/adv_std": 0.04776219758268905, "train/cont_avg": 0.9947158604452054, "train/cont_loss_mean": 3.11348229950591e-05, "train/cont_loss_std": 0.0009647323631841959, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0013475502618241722, "train/cont_pos_acc": 0.999986522001763, "train/cont_pos_loss": 2.3109914352459654e-05, "train/cont_pred": 0.9947070667188461, "train/cont_rate": 0.9947158604452054, "train/dyn_loss_mean": 5.353443491948794, "train/dyn_loss_std": 8.89096567728748, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0246771557690346, "train/extr_critic_critic_opt_grad_steps": 335100.0, "train/extr_critic_critic_opt_loss": 16111.371147260274, "train/extr_critic_mag": 11.148947519798801, "train/extr_critic_max": 11.148947519798801, "train/extr_critic_mean": 2.973071333480208, "train/extr_critic_min": -0.48564633604598373, "train/extr_critic_std": 2.708557991132344, "train/extr_return_normed_mag": 1.4561764165146711, "train/extr_return_normed_max": 1.4561764165146711, "train/extr_return_normed_mean": 0.3789652700293554, "train/extr_return_normed_min": -0.07770653400723249, "train/extr_return_normed_std": 0.3306758558913453, "train/extr_return_rate": 0.765222820517135, "train/extr_return_raw_mag": 11.948348254373629, "train/extr_return_raw_max": 11.948348254373629, "train/extr_return_raw_mean": 2.998680137608149, "train/extr_return_raw_min": -0.7958790708894599, "train/extr_return_raw_std": 2.7476564923377884, "train/extr_reward_mag": 1.0573879790632692, "train/extr_reward_max": 1.0573879790632692, "train/extr_reward_mean": 0.058664478769857586, "train/extr_reward_min": -0.632279340534994, "train/extr_reward_std": 0.232850410554507, "train/image_loss_mean": 3.231573320414922, "train/image_loss_std": 8.551854963171971, "train/model_loss_mean": 6.497979742206939, "train/model_loss_std": 12.748186124514227, "train/model_opt_grad_norm": 27.70135415743475, "train/model_opt_grad_steps": 334832.0, "train/model_opt_loss": 8122.474649507705, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.6910451177048356, "train/policy_entropy_max": 2.6910451177048356, "train/policy_entropy_mean": 0.41937636288061536, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6139771501495414, "train/policy_logprob_mag": 7.438384271647832, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41817623009420424, "train/policy_logprob_min": -7.438384271647832, "train/policy_logprob_std": 1.0367206416717947, "train/policy_randomness_mag": 0.9498208328469159, "train/policy_randomness_max": 0.9498208328469159, "train/policy_randomness_mean": 0.14802144957731847, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21670699037917673, "train/post_ent_mag": 55.24977305164076, "train/post_ent_max": 55.24977305164076, "train/post_ent_mean": 40.68133085067958, "train/post_ent_min": 19.64840084232696, "train/post_ent_std": 5.78644576138013, "train/prior_ent_mag": 76.6393485918437, "train/prior_ent_max": 76.6393485918437, "train/prior_ent_mean": 46.0090068137809, "train/prior_ent_min": 28.054723739624023, "train/prior_ent_std": 7.672001237738622, "train/rep_loss_mean": 5.353443491948794, "train/rep_loss_std": 8.89096567728748, "train/reward_avg": 0.03962970846523977, "train/reward_loss_mean": 0.05430919386140288, "train/reward_loss_std": 0.2057469617830564, "train/reward_max_data": 1.0246575401253897, "train/reward_max_pred": 1.0250998392497024, "train/reward_neg_acc": 0.9947245602738367, "train/reward_neg_loss": 0.02347157153058542, "train/reward_pos_acc": 0.9912333088378383, "train/reward_pos_loss": 0.7217206260929369, "train/reward_pred": 0.03926413924726721, "train/reward_rate": 0.044252996575342464, "stats/sum_log_reward": 10.93333355585734, "stats/max_log_achievement_collect_coal": 1.1666666666666667, "stats/max_log_achievement_collect_drink": 4.833333333333333, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.1666666666666665, "stats/max_log_achievement_collect_stone": 9.666666666666666, "stats/max_log_achievement_collect_wood": 10.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 0.6666666666666666, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.3333333333333333, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_stone": 2.6666666666666665, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.39375877877076465, "replay/size": 671956.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.4107284231500312e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3659738904827244e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.03913140296936, "timer/env.step_count": 1456.0, "timer/env.step_total": 17.900652170181274, "timer/env.step_frac": 0.059661058497532095, "timer/env.step_avg": 0.01229440396303659, "timer/env.step_min": 0.003004312515258789, "timer/env.step_max": 1.617621898651123, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.27600860595703125, "timer/replay.add_frac": 0.0009199086954639134, "timer/replay.add_avg": 0.00018956635024521378, "timer/replay.add_min": 5.984306335449219e-05, "timer/replay.add_max": 0.00989079475402832, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027811288833618164, "timer/logger.write_frac": 9.26922055252388e-05, "timer/logger.write_avg": 0.027811288833618164, "timer/logger.write_min": 0.027811288833618164, "timer/logger.write_max": 0.027811288833618164, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 10.748457908630371, "timer/agent.policy_frac": 0.03582352028007504, "timer/agent.policy_avg": 0.007382182629553826, "timer/agent.policy_min": 0.006109476089477539, "timer/agent.policy_max": 0.015004158020019531, "timer/dataset_count": 728.0, "timer/dataset_total": 0.05768227577209473, "timer/dataset_frac": 0.00019224917597373056, "timer/dataset_avg": 7.923389529133891e-05, "timer/dataset_min": 5.793571472167969e-05, "timer/dataset_max": 0.0001347064971923828, "timer/agent.train_count": 728.0, "timer/agent.train_total": 270.36645436286926, "timer/agent.train_frac": 0.9011039763335136, "timer/agent.train_avg": 0.37138249225668857, "timer/agent.train_min": 0.36496639251708984, "timer/agent.train_max": 0.38519787788391113, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2244091033935547, "timer/agent.report_frac": 0.0007479327857810677, "timer/agent.report_avg": 0.2244091033935547, "timer/agent.report_min": 0.2244091033935547, "timer/agent.report_max": 0.2244091033935547, "fps": 4.852595643395069}
{"step": 672021, "episode/length": 188.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06349206349206349}
{"step": 672223, "episode/length": 201.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.900000005960464, "episode/reward_rate": 0.054455445544554455}
{"step": 672556, "episode/length": 332.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.700000047683716, "episode/reward_rate": 0.04504504504504504}
{"step": 672786, "episode/length": 229.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.05652173913043478}
{"step": 673096, "episode/length": 309.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.30000003427267, "episode/reward_rate": 0.035483870967741936}
{"step": 673312, "episode/length": 215.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.05092592592592592}
{"step": 673451, "stats/sum_log_reward": 10.93333371480306, "stats/max_log_achievement_collect_coal": 0.16666666666666666, "stats/max_log_achievement_collect_drink": 4.833333333333333, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 13.833333333333334, "stats/max_log_achievement_collect_wood": 10.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.1666666666666667, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.3333333333333335, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 2.1666666666666665, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.46287623544534046, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.56299257950044, "train/action_min": 0.0, "train/action_std": 3.4345513330379003, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04223592841709164, "train/actor_opt_grad_steps": 335820.0, "train/actor_opt_loss": -13.674317020765493, "train/adv_mag": 0.4310753437834726, "train/adv_max": 0.3623833807421402, "train/adv_mean": 0.0015300019826048504, "train/adv_min": -0.3798342907512692, "train/adv_std": 0.04706709380720703, "train/cont_avg": 0.994567011443662, "train/cont_loss_mean": 1.7292295829918203e-05, "train/cont_loss_std": 0.0005096843623253873, "train/cont_neg_acc": 0.998435054866361, "train/cont_neg_loss": 0.0017619588638180157, "train/cont_pos_acc": 0.9999999840494612, "train/cont_pos_loss": 3.7298340754972917e-06, "train/cont_pred": 0.9945735923001464, "train/cont_rate": 0.994567011443662, "train/dyn_loss_mean": 5.431815221276082, "train/dyn_loss_std": 8.905002688018369, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9793412038977717, "train/extr_critic_critic_opt_grad_steps": 335820.0, "train/extr_critic_critic_opt_loss": 16017.421132262323, "train/extr_critic_mag": 11.134198806655238, "train/extr_critic_max": 11.134198806655238, "train/extr_critic_mean": 2.9510616937153777, "train/extr_critic_min": -0.4659439896194028, "train/extr_critic_std": 2.7326970553733934, "train/extr_return_normed_mag": 1.430904102997041, "train/extr_return_normed_max": 1.430904102997041, "train/extr_return_normed_mean": 0.37245756534623425, "train/extr_return_normed_min": -0.07865298082920867, "train/extr_return_normed_std": 0.329506537863906, "train/extr_return_rate": 0.7495232190884334, "train/extr_return_raw_mag": 11.831374571356974, "train/extr_return_raw_max": 11.831374571356974, "train/extr_return_raw_mean": 2.9638846844014988, "train/extr_return_raw_min": -0.8153066265750939, "train/extr_return_raw_std": 2.7606905262235184, "train/extr_reward_mag": 1.0592920343640824, "train/extr_reward_max": 1.0592920343640824, "train/extr_reward_mean": 0.05676670535139634, "train/extr_reward_min": -0.6299233654855003, "train/extr_reward_std": 0.2297351595381616, "train/image_loss_mean": 3.237484545774863, "train/image_loss_std": 8.506163395626444, "train/model_loss_mean": 6.550963952507772, "train/model_loss_std": 12.729052543640137, "train/model_opt_grad_norm": 28.229824616875447, "train/model_opt_grad_steps": 335551.4647887324, "train/model_opt_loss": 10861.617146236797, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1654.9295774647887, "train/policy_entropy_mag": 2.678156439687165, "train/policy_entropy_max": 2.678156439687165, "train/policy_entropy_mean": 0.4293954462652475, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6226016190690054, "train/policy_logprob_mag": 7.438384257571798, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4299727057067441, "train/policy_logprob_min": -7.438384257571798, "train/policy_logprob_std": 1.0513409040343593, "train/policy_randomness_mag": 0.9452716934848839, "train/policy_randomness_max": 0.9452716934848839, "train/policy_randomness_mean": 0.15155774774685712, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21975105129916903, "train/post_ent_mag": 55.05448005568813, "train/post_ent_max": 55.05448005568813, "train/post_ent_mean": 40.71675797583352, "train/post_ent_min": 19.118371762020487, "train/post_ent_std": 5.718582052580068, "train/prior_ent_mag": 76.69257924254511, "train/prior_ent_max": 76.69257924254511, "train/prior_ent_mean": 46.126309945549764, "train/prior_ent_min": 28.462462922217142, "train/prior_ent_std": 7.6225810050964355, "train/rep_loss_mean": 5.431815221276082, "train/rep_loss_std": 8.905002688018369, "train/reward_avg": 0.03810381805393058, "train/reward_loss_mean": 0.05437298360424982, "train/reward_loss_std": 0.21010761823452695, "train/reward_max_data": 1.0267605697604971, "train/reward_max_pred": 1.0294088410659574, "train/reward_neg_acc": 0.9942356180137312, "train/reward_neg_loss": 0.023963694985378797, "train/reward_pos_acc": 0.9883435024342067, "train/reward_pos_loss": 0.7345230545796139, "train/reward_pred": 0.03772981417640834, "train/reward_rate": 0.04277618838028169, "replay/size": 673388.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.424103699582915e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.351364664525293e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1053547859192, "timer/env.step_count": 1432.0, "timer/env.step_total": 19.604739665985107, "timer/env.step_frac": 0.0653261907971292, "timer/env.step_avg": 0.013690460660604125, "timer/env.step_min": 0.002956867218017578, "timer/env.step_max": 1.8016321659088135, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.28261232376098633, "timer/replay.add_frac": 0.0009417103668896159, "timer/replay.add_avg": 0.0001973549746934262, "timer/replay.add_min": 6.389617919921875e-05, "timer/replay.add_max": 0.0024623870849609375, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02176380157470703, "timer/logger.write_frac": 7.25205372967513e-05, "timer/logger.write_avg": 0.02176380157470703, "timer/logger.write_min": 0.02176380157470703, "timer/logger.write_max": 0.02176380157470703, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00043511390686035156, "timer/checkpoint.save_frac": 1.4498705202069487e-06, "timer/checkpoint.save_avg": 0.00043511390686035156, "timer/checkpoint.save_min": 0.00043511390686035156, "timer/checkpoint.save_max": 0.00043511390686035156, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.5157291889190674, "timer/agent.save_frac": 0.005050656926799311, "timer/agent.save_avg": 1.5157291889190674, "timer/agent.save_min": 1.5157291889190674, "timer/agent.save_max": 1.5157291889190674, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.794929504394531e-05, "timer/replay.save_frac": 2.26418136032318e-07, "timer/replay.save_avg": 6.794929504394531e-05, "timer/replay.save_min": 6.794929504394531e-05, "timer/replay.save_max": 6.794929504394531e-05, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 12.714478015899658, "timer/agent.policy_frac": 0.04236671493239286, "timer/agent.policy_avg": 0.008878825430097527, "timer/agent.policy_min": 0.006080150604248047, "timer/agent.policy_max": 1.5108487606048584, "timer/dataset_count": 716.0, "timer/dataset_total": 0.05772709846496582, "timer/dataset_frac": 0.00019235610942745614, "timer/dataset_avg": 8.062443919687964e-05, "timer/dataset_min": 6.151199340820312e-05, "timer/dataset_max": 0.00013947486877441406, "timer/agent.train_count": 716.0, "timer/agent.train_total": 266.75029706954956, "timer/agent.train_frac": 0.8888555062932365, "timer/agent.train_avg": 0.37255628082339326, "timer/agent.train_min": 0.36165404319763184, "timer/agent.train_max": 0.8725888729095459, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2245924472808838, "timer/agent.report_frac": 0.0007483786733532206, "timer/agent.report_avg": 0.2245924472808838, "timer/agent.report_min": 0.2245924472808838, "timer/agent.report_max": 0.2245924472808838, "fps": 4.771551624330568}
{"step": 673650, "episode/length": 337.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.30000003427267, "episode/reward_rate": 0.038461538461538464}
{"step": 673854, "episode/length": 203.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.05392156862745098}
{"step": 673897, "episode/length": 42.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.13953488372093023}
{"step": 674080, "episode/length": 182.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.900000043213367, "episode/reward_rate": 0.07103825136612021}
{"step": 674167, "episode/length": 86.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.900000013411045, "episode/reward_rate": 0.10344827586206896}
{"step": 674439, "episode/length": 271.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.04411764705882353}
{"step": 674690, "episode/length": 250.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.500000037252903, "episode/reward_rate": 0.043824701195219126}
{"step": 674897, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.5755199856228295, "train/action_min": 0.0, "train/action_std": 3.456694785091612, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04242681088443431, "train/actor_opt_grad_steps": 336535.0, "train/actor_opt_loss": -12.533559261096848, "train/adv_mag": 0.40309957911570865, "train/adv_max": 0.3529575756854481, "train/adv_mean": 0.002082023486511591, "train/adv_min": -0.35475557918349904, "train/adv_std": 0.04683643098299702, "train/cont_avg": 0.9948594835069444, "train/cont_loss_mean": 0.0002017235782284151, "train/cont_loss_std": 0.006410448662637612, "train/cont_neg_acc": 0.9980158739619784, "train/cont_neg_loss": 0.017490765459800883, "train/cont_pos_acc": 0.9999863505363464, "train/cont_pos_loss": 8.263759712513597e-05, "train/cont_pred": 0.9948460434873899, "train/cont_rate": 0.9948594835069444, "train/dyn_loss_mean": 5.2193483710289, "train/dyn_loss_std": 8.703049884902107, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.014405808515019, "train/extr_critic_critic_opt_grad_steps": 336535.0, "train/extr_critic_critic_opt_loss": 15961.672417534723, "train/extr_critic_mag": 11.17737759484185, "train/extr_critic_max": 11.17737759484185, "train/extr_critic_mean": 2.948449535502328, "train/extr_critic_min": -0.46284760865900254, "train/extr_critic_std": 2.6860166821214886, "train/extr_return_normed_mag": 1.438927173614502, "train/extr_return_normed_max": 1.438927173614502, "train/extr_return_normed_mean": 0.373195819142792, "train/extr_return_normed_min": -0.07274690011723174, "train/extr_return_normed_std": 0.3247967300315698, "train/extr_return_rate": 0.7674542880720563, "train/extr_return_raw_mag": 11.875559224022759, "train/extr_return_raw_max": 11.875559224022759, "train/extr_return_raw_mean": 2.9658676286538443, "train/extr_return_raw_min": -0.7619761493470933, "train/extr_return_raw_std": 2.7153877086109586, "train/extr_reward_mag": 1.0561288363403745, "train/extr_reward_max": 1.0561288363403745, "train/extr_reward_mean": 0.056565130698598094, "train/extr_reward_min": -0.6265692959229151, "train/extr_reward_std": 0.22879845731788212, "train/image_loss_mean": 3.0657420638534756, "train/image_loss_std": 7.911216788821751, "train/model_loss_mean": 6.252386854754554, "train/model_loss_std": 12.03953382703993, "train/model_opt_grad_norm": 24.724979201952618, "train/model_opt_grad_steps": 336266.0, "train/model_opt_loss": 8896.511840820312, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1423.611111111111, "train/policy_entropy_mag": 2.6811025871170893, "train/policy_entropy_max": 2.6811025871170893, "train/policy_entropy_mean": 0.4401071154408985, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6337896179821756, "train/policy_logprob_mag": 7.438384215037028, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.44129975450535613, "train/policy_logprob_min": -7.438384215037028, "train/policy_logprob_std": 1.059860282474094, "train/policy_randomness_mag": 0.9463115558028221, "train/policy_randomness_max": 0.9463115558028221, "train/policy_randomness_mean": 0.15533849824633864, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22369992463952965, "train/post_ent_mag": 55.01778909895155, "train/post_ent_max": 55.01778909895155, "train/post_ent_mean": 40.60825877719455, "train/post_ent_min": 19.209497690200806, "train/post_ent_std": 5.708644184801313, "train/prior_ent_mag": 76.65500990549724, "train/prior_ent_max": 76.65500990549724, "train/prior_ent_mean": 45.858863512674965, "train/prior_ent_min": 27.975008249282837, "train/prior_ent_std": 7.570939057403141, "train/rep_loss_mean": 5.2193483710289, "train/rep_loss_std": 8.703049884902107, "train/reward_avg": 0.038519965226037636, "train/reward_loss_mean": 0.05483409658902221, "train/reward_loss_std": 0.22361784718102878, "train/reward_max_data": 1.022222227520413, "train/reward_max_pred": 1.0212201360199187, "train/reward_neg_acc": 0.9943757669793235, "train/reward_neg_loss": 0.023965552863147523, "train/reward_pos_acc": 0.9871233362290595, "train/reward_pos_loss": 0.7416232277949651, "train/reward_pred": 0.038095767635645136, "train/reward_rate": 0.043158637152777776, "stats/sum_log_reward": 9.671428952898298, "stats/max_log_achievement_collect_coal": 0.0, "stats/max_log_achievement_collect_drink": 1.8571428571428572, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 8.857142857142858, "stats/max_log_achievement_collect_wood": 10.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.42857142857142855, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.7142857142857143, "stats/max_log_achievement_place_furnace": 1.1428571428571428, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 3.2857142857142856, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.3986539606537138, "replay/size": 674834.0, "replay/inserts": 1446.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.4374485042250174e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3484623422266536e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3239281177521, "timer/env.step_count": 1446.0, "timer/env.step_total": 19.88757085800171, "timer/env.step_frac": 0.0662204006941602, "timer/env.step_avg": 0.013753506817428568, "timer/env.step_min": 0.002976655960083008, "timer/env.step_max": 1.6623315811157227, "timer/replay.add_count": 1446.0, "timer/replay.add_total": 0.26585960388183594, "timer/replay.add_frac": 0.0008852428294611169, "timer/replay.add_avg": 0.00018385864722118668, "timer/replay.add_min": 6.175041198730469e-05, "timer/replay.add_max": 0.00098419189453125, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023526906967163086, "timer/logger.write_frac": 7.833843648295175e-05, "timer/logger.write_avg": 0.023526906967163086, "timer/logger.write_min": 0.023526906967163086, "timer/logger.write_max": 0.023526906967163086, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1446.0, "timer/agent.policy_total": 10.779312372207642, "timer/agent.policy_frac": 0.035892286171687424, "timer/agent.policy_avg": 0.007454572871512892, "timer/agent.policy_min": 0.0061643123626708984, "timer/agent.policy_max": 0.014540910720825195, "timer/dataset_count": 723.0, "timer/dataset_total": 0.0577235221862793, "timer/dataset_frac": 0.00019220420613187656, "timer/dataset_avg": 7.983889652320788e-05, "timer/dataset_min": 5.745887756347656e-05, "timer/dataset_max": 0.0001480579376220703, "timer/agent.train_count": 723.0, "timer/agent.train_total": 268.65080165863037, "timer/agent.train_frac": 0.8945367868034039, "timer/agent.train_avg": 0.3715778722802633, "timer/agent.train_min": 0.3651587963104248, "timer/agent.train_max": 0.38475656509399414, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22316408157348633, "timer/agent.report_frac": 0.0007430779257987974, "timer/agent.report_avg": 0.22316408157348633, "timer/agent.report_min": 0.22316408157348633, "timer/agent.report_max": 0.22316408157348633, "fps": 4.814706441386186}
{"step": 674899, "episode/length": 208.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.04784688995215311}
{"step": 675074, "episode/length": 174.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.05142857142857143}
{"step": 675256, "episode/length": 181.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.054945054945054944}
{"step": 675307, "episode/length": 50.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.13725490196078433}
{"step": 675371, "episode/length": 63.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.300000041723251, "episode/reward_rate": 0.109375}
{"step": 675515, "episode/length": 143.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.700000047683716, "episode/reward_rate": 0.0763888888888889}
{"step": 675940, "episode/length": 424.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.03058823529411765}
{"step": 676133, "episode/length": 192.0, "episode/score": 12.100000016391277, "episode/sum_abs_reward": 13.30000003427267, "episode/reward_rate": 0.06735751295336788}
{"step": 676324, "episode/length": 190.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.06282722513089005}
{"step": 676331, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.606444464789496, "train/action_min": 0.0, "train/action_std": 3.454769876268175, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04114839988243249, "train/actor_opt_grad_steps": 337255.0, "train/actor_opt_loss": -13.158754248999887, "train/adv_mag": 0.43436095325483215, "train/adv_max": 0.378733791410923, "train/adv_mean": 0.0015712385133813062, "train/adv_min": -0.38057982673247653, "train/adv_std": 0.04685992861373557, "train/cont_avg": 0.9947102864583334, "train/cont_loss_mean": 1.2695525440599277e-05, "train/cont_loss_std": 0.0003595927108802262, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0006297893041353259, "train/cont_pos_acc": 0.999999985926681, "train/cont_pos_loss": 9.136903313352226e-06, "train/cont_pred": 0.9947051902612051, "train/cont_rate": 0.9947102864583334, "train/dyn_loss_mean": 5.31591714753045, "train/dyn_loss_std": 8.788155734539032, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0081541041533153, "train/extr_critic_critic_opt_grad_steps": 337255.0, "train/extr_critic_critic_opt_loss": 15884.467366536459, "train/extr_critic_mag": 10.873174640867445, "train/extr_critic_max": 10.873174640867445, "train/extr_critic_mean": 2.837418263157209, "train/extr_critic_min": -0.44630014730824363, "train/extr_critic_std": 2.6300776071018643, "train/extr_return_normed_mag": 1.434928524825308, "train/extr_return_normed_max": 1.434928524825308, "train/extr_return_normed_mean": 0.36398661674724686, "train/extr_return_normed_min": -0.07508839586646193, "train/extr_return_normed_std": 0.32367805101805264, "train/extr_return_rate": 0.7523926140533553, "train/extr_return_raw_mag": 11.649755676587423, "train/extr_return_raw_max": 11.649755676587423, "train/extr_return_raw_mean": 2.85031441019641, "train/extr_return_raw_min": -0.7574809619949924, "train/extr_return_raw_std": 2.6593242635329566, "train/extr_reward_mag": 1.0589962138070002, "train/extr_reward_max": 1.0589962138070002, "train/extr_reward_mean": 0.05408243922930625, "train/extr_reward_min": -0.6478722757763333, "train/extr_reward_std": 0.2245450588977999, "train/image_loss_mean": 3.0778698407941394, "train/image_loss_std": 7.981523672739665, "train/model_loss_mean": 6.321639464961158, "train/model_loss_std": 12.090425742997063, "train/model_opt_grad_norm": 25.247431384192573, "train/model_opt_grad_steps": 336986.0, "train/model_opt_loss": 15804.098605685764, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6875625318951077, "train/policy_entropy_max": 2.6875625318951077, "train/policy_entropy_mean": 0.4552084029548698, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6513262482153045, "train/policy_logprob_mag": 7.438384228282505, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.45651834375328487, "train/policy_logprob_min": -7.438384228282505, "train/policy_logprob_std": 1.0716865898834333, "train/policy_randomness_mag": 0.9485916304919455, "train/policy_randomness_max": 0.9485916304919455, "train/policy_randomness_mean": 0.16066859155479404, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.229889583773911, "train/post_ent_mag": 55.663979583316376, "train/post_ent_max": 55.663979583316376, "train/post_ent_mean": 40.80558040406969, "train/post_ent_min": 19.22896491156684, "train/post_ent_std": 5.779663238260481, "train/prior_ent_mag": 76.68343575795491, "train/prior_ent_max": 76.68343575795491, "train/prior_ent_mean": 46.0993570221795, "train/prior_ent_min": 28.0700782140096, "train/prior_ent_std": 7.6324472361140785, "train/rep_loss_mean": 5.31591714753045, "train/rep_loss_std": 8.788155734539032, "train/reward_avg": 0.03745252776166631, "train/reward_loss_mean": 0.05420667046888007, "train/reward_loss_std": 0.21120029812057814, "train/reward_max_data": 1.0263888951804903, "train/reward_max_pred": 1.0227694014708202, "train/reward_neg_acc": 0.9941512842973074, "train/reward_neg_loss": 0.024412434173023537, "train/reward_pos_acc": 0.9866029578778479, "train/reward_pos_loss": 0.7300022898448838, "train/reward_pred": 0.037149585498910814, "train/reward_rate": 0.04222276475694445, "stats/sum_log_reward": 9.211111227671305, "stats/max_log_achievement_collect_coal": 0.5555555555555556, "stats/max_log_achievement_collect_drink": 4.111111111111111, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 0.7777777777777778, "stats/max_log_achievement_collect_stone": 10.0, "stats/max_log_achievement_collect_wood": 9.777777777777779, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.3333333333333333, "stats/max_log_achievement_eat_cow": 0.1111111111111111, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.1111111111111111, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8888888888888888, "stats/max_log_achievement_place_furnace": 1.3333333333333333, "stats/max_log_achievement_place_plant": 0.7777777777777778, "stats/max_log_achievement_place_stone": 3.5555555555555554, "stats/max_log_achievement_place_table": 2.4444444444444446, "stats/max_log_achievement_wake_up": 1.2222222222222223, "stats/mean_log_entropy": 0.3655780586931441, "replay/size": 676268.0, "replay/inserts": 1434.0, "replay/samples": 11472.0, "replay/insert_wait_avg": 3.386408381548553e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3512464414248074e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.36869525909424, "timer/env.step_count": 1434.0, "timer/env.step_total": 22.258660316467285, "timer/env.step_frac": 0.07410446117651258, "timer/env.step_avg": 0.015522078323896293, "timer/env.step_min": 0.002763986587524414, "timer/env.step_max": 1.6948316097259521, "timer/replay.add_count": 1434.0, "timer/replay.add_total": 0.2502739429473877, "timer/replay.add_frac": 0.0008332224592562968, "timer/replay.add_avg": 0.00017452855156721597, "timer/replay.add_min": 5.91278076171875e-05, "timer/replay.add_max": 0.00077056884765625, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02426457405090332, "timer/logger.write_frac": 8.078263292375727e-05, "timer/logger.write_avg": 0.02426457405090332, "timer/logger.write_min": 0.02426457405090332, "timer/logger.write_max": 0.02426457405090332, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1434.0, "timer/agent.policy_total": 10.448680400848389, "timer/agent.policy_frac": 0.03478618300031396, "timer/agent.policy_avg": 0.007286388006170425, "timer/agent.policy_min": 0.0059545040130615234, "timer/agent.policy_max": 0.017661094665527344, "timer/dataset_count": 717.0, "timer/dataset_total": 0.05707693099975586, "timer/dataset_frac": 0.00019002290152281688, "timer/dataset_avg": 7.960520362587986e-05, "timer/dataset_min": 5.793571472167969e-05, "timer/dataset_max": 0.00017642974853515625, "timer/agent.train_count": 717.0, "timer/agent.train_total": 266.6612141132355, "timer/agent.train_frac": 0.8877796465547679, "timer/agent.train_avg": 0.37191243251497275, "timer/agent.train_min": 0.3658721446990967, "timer/agent.train_max": 0.3886699676513672, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22230076789855957, "timer/agent.report_frac": 0.0007400929970641772, "timer/agent.report_avg": 0.22230076789855957, "timer/agent.report_min": 0.22230076789855957, "timer/agent.report_max": 0.22230076789855957, "fps": 4.774030735284164}
{"step": 676455, "episode/length": 130.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 12.900000020861626, "episode/reward_rate": 0.09923664122137404}
{"step": 676707, "episode/length": 251.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.04365079365079365}
{"step": 676807, "episode/length": 99.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 9.899999976158142, "episode/reward_rate": 0.1}
{"step": 677066, "episode/length": 258.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.05019305019305019}
{"step": 677115, "episode/length": 48.0, "episode/score": 4.099999979138374, "episode/sum_abs_reward": 5.900000020861626, "episode/reward_rate": 0.10204081632653061}
{"step": 677327, "episode/length": 211.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.05660377358490566}
{"step": 677547, "episode/length": 219.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.299999997019768, "episode/reward_rate": 0.05909090909090909}
{"step": 677753, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.478789853378081, "train/action_min": 0.0, "train/action_std": 3.334483845133177, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04315052118519662, "train/actor_opt_grad_steps": 337970.0, "train/actor_opt_loss": -12.106932614890622, "train/adv_mag": 0.4007881292155091, "train/adv_max": 0.36963586698115714, "train/adv_mean": 0.00215684041264262, "train/adv_min": -0.355712009987361, "train/adv_std": 0.04811419808948544, "train/cont_avg": 0.9949383802816901, "train/cont_loss_mean": 4.85579843371743e-06, "train/cont_loss_std": 0.00010909957885299353, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 9.324105743051943e-06, "train/cont_pos_acc": 0.9999999815309552, "train/cont_pos_loss": 4.830378667669476e-06, "train/cont_pred": 0.9949337554649568, "train/cont_rate": 0.9949383802816901, "train/dyn_loss_mean": 5.138779499161411, "train/dyn_loss_std": 8.738499057125038, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0221768676395147, "train/extr_critic_critic_opt_grad_steps": 337970.0, "train/extr_critic_critic_opt_loss": 16174.328042473591, "train/extr_critic_mag": 10.92740980336364, "train/extr_critic_max": 10.92740980336364, "train/extr_critic_mean": 2.937370651204821, "train/extr_critic_min": -0.45603864797404114, "train/extr_critic_std": 2.6503004121108793, "train/extr_return_normed_mag": 1.4339020537658476, "train/extr_return_normed_max": 1.4339020537658476, "train/extr_return_normed_mean": 0.3746682237571394, "train/extr_return_normed_min": -0.07541669107658762, "train/extr_return_normed_std": 0.32470243665534004, "train/extr_return_rate": 0.7705206908810307, "train/extr_return_raw_mag": 11.710991671387578, "train/extr_return_raw_max": 11.710991671387578, "train/extr_return_raw_mean": 2.9551943658103403, "train/extr_return_raw_min": -0.7659133958144927, "train/extr_return_raw_std": 2.684443965764113, "train/extr_reward_mag": 1.0543357352135887, "train/extr_reward_max": 1.0543357352135887, "train/extr_reward_mean": 0.057449839746868105, "train/extr_reward_min": -0.6743257012165768, "train/extr_reward_std": 0.23066199728300874, "train/image_loss_mean": 2.970217832377259, "train/image_loss_std": 7.962508678436279, "train/model_loss_mean": 6.107979217045743, "train/model_loss_std": 12.123222028705436, "train/model_opt_grad_norm": 26.533582861994354, "train/model_opt_grad_steps": 337700.45070422534, "train/model_opt_loss": 18269.254538952464, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2992.957746478873, "train/policy_entropy_mag": 2.665363741592622, "train/policy_entropy_max": 2.665363741592622, "train/policy_entropy_mean": 0.4059692978019446, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5906201454115586, "train/policy_logprob_mag": 7.438384250855782, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4067538489758129, "train/policy_logprob_min": -7.438384250855782, "train/policy_logprob_std": 1.0284958893144633, "train/policy_randomness_mag": 0.9407564359651485, "train/policy_randomness_max": 0.9407564359651485, "train/policy_randomness_mean": 0.14328934734975787, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20846299092534562, "train/post_ent_mag": 55.357184557847575, "train/post_ent_max": 55.357184557847575, "train/post_ent_mean": 40.812772885174816, "train/post_ent_min": 19.281565625902633, "train/post_ent_std": 5.703149976864667, "train/prior_ent_mag": 76.71337815405617, "train/prior_ent_max": 76.71337815405617, "train/prior_ent_mean": 45.93753959763218, "train/prior_ent_min": 28.115081061779613, "train/prior_ent_std": 7.506295110138369, "train/rep_loss_mean": 5.138779499161411, "train/rep_loss_std": 8.738499057125038, "train/reward_avg": 0.03957141277340936, "train/reward_loss_mean": 0.05448879857718105, "train/reward_loss_std": 0.21009537430716232, "train/reward_max_data": 1.0267605697604971, "train/reward_max_pred": 1.0224325086029482, "train/reward_neg_acc": 0.9940710882066002, "train/reward_neg_loss": 0.023530673537350878, "train/reward_pos_acc": 0.9887950000628619, "train/reward_pos_loss": 0.7274352966899603, "train/reward_pred": 0.03919459336345464, "train/reward_rate": 0.044041593309859156, "stats/sum_log_reward": 9.671428884778704, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 2.4285714285714284, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 9.428571428571429, "stats/max_log_achievement_collect_wood": 10.857142857142858, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.42857142857142855, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 1.7142857142857142, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.7142857142857143, "stats/max_log_achievement_place_furnace": 0.7142857142857143, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 3.142857142857143, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 0.8571428571428571, "stats/mean_log_entropy": 0.3153934053012303, "replay/size": 677690.0, "replay/inserts": 1422.0, "replay/samples": 11376.0, "replay/insert_wait_avg": 3.4128060320761635e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3489008955814668e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0845034122467, "timer/env.step_count": 1422.0, "timer/env.step_total": 20.05129313468933, "timer/env.step_frac": 0.06681882238731765, "timer/env.step_avg": 0.014100768730442567, "timer/env.step_min": 0.0029129981994628906, "timer/env.step_max": 1.614297866821289, "timer/replay.add_count": 1422.0, "timer/replay.add_total": 0.26313281059265137, "timer/replay.add_frac": 0.0008768623757660946, "timer/replay.add_avg": 0.00018504417059961417, "timer/replay.add_min": 6.413459777832031e-05, "timer/replay.add_max": 0.0009057521820068359, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02330636978149414, "timer/logger.write_frac": 7.766602245860253e-05, "timer/logger.write_avg": 0.02330636978149414, "timer/logger.write_min": 0.02330636978149414, "timer/logger.write_max": 0.02330636978149414, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00026726722717285156, "timer/checkpoint.save_frac": 8.906398835453633e-07, "timer/checkpoint.save_avg": 0.00026726722717285156, "timer/checkpoint.save_min": 0.00026726722717285156, "timer/checkpoint.save_max": 0.00026726722717285156, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4525108337402344, "timer/agent.save_frac": 0.00484033936182576, "timer/agent.save_avg": 1.4525108337402344, "timer/agent.save_min": 1.4525108337402344, "timer/agent.save_max": 1.4525108337402344, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.43865966796875e-05, "timer/replay.save_frac": 2.4788549836409754e-07, "timer/replay.save_avg": 7.43865966796875e-05, "timer/replay.save_min": 7.43865966796875e-05, "timer/replay.save_max": 7.43865966796875e-05, "timer/agent.policy_count": 1422.0, "timer/agent.policy_total": 14.622615337371826, "timer/agent.policy_frac": 0.04872832542533439, "timer/agent.policy_avg": 0.010283133148644041, "timer/agent.policy_min": 0.005928754806518555, "timer/agent.policy_max": 2.431727170944214, "timer/dataset_count": 711.0, "timer/dataset_total": 0.056850433349609375, "timer/dataset_frac": 0.00018944808113436644, "timer/dataset_avg": 7.995841540029448e-05, "timer/dataset_min": 6.008148193359375e-05, "timer/dataset_max": 0.00013685226440429688, "timer/agent.train_count": 711.0, "timer/agent.train_total": 264.4154119491577, "timer/agent.train_frac": 0.8811365096914454, "timer/agent.train_avg": 0.37189228122244405, "timer/agent.train_min": 0.36521053314208984, "timer/agent.train_max": 0.383685827255249, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22125744819641113, "timer/agent.report_frac": 0.0007373171412735518, "timer/agent.report_avg": 0.22125744819641113, "timer/agent.report_min": 0.22125744819641113, "timer/agent.report_max": 0.22125744819641113, "fps": 4.738562570735067}
{"step": 677858, "episode/length": 310.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.04501607717041801}
{"step": 677922, "episode/length": 63.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.09375}
{"step": 678080, "episode/length": 157.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 10.899999991059303, "episode/reward_rate": 0.06962025316455696}
{"step": 678135, "episode/length": 54.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.14545454545454545}
{"step": 678490, "episode/length": 354.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.03380281690140845}
{"step": 678749, "episode/length": 258.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.05019305019305019}
{"step": 678914, "episode/length": 164.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06666666666666667}
{"step": 679099, "episode/length": 184.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.07027027027027027}
{"step": 679189, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.476843092176649, "train/action_min": 0.0, "train/action_std": 3.3129688964949713, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.041044762978951134, "train/actor_opt_grad_steps": 338685.0, "train/actor_opt_loss": -11.737671927238503, "train/adv_mag": 0.43376151555114323, "train/adv_max": 0.35590482296215165, "train/adv_mean": 0.002888252106239343, "train/adv_min": -0.39549511339929366, "train/adv_std": 0.04716688668769267, "train/cont_avg": 0.9948187934027778, "train/cont_loss_mean": 3.3339427661063484e-05, "train/cont_loss_std": 0.0010190023511387697, "train/cont_neg_acc": 0.9953703706463178, "train/cont_neg_loss": 0.007169358584986895, "train/cont_pos_acc": 0.9999999850988388, "train/cont_pos_loss": 1.0219730056980501e-05, "train/cont_pred": 0.9948241222235892, "train/cont_rate": 0.9948187934027778, "train/dyn_loss_mean": 5.241685635513729, "train/dyn_loss_std": 8.75671405924691, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.06120465695858, "train/extr_critic_critic_opt_grad_steps": 338685.0, "train/extr_critic_critic_opt_loss": 16247.832112630209, "train/extr_critic_mag": 11.111840698454115, "train/extr_critic_max": 11.111840698454115, "train/extr_critic_mean": 2.8974208964241877, "train/extr_critic_min": -0.44365058177047306, "train/extr_critic_std": 2.701006097926034, "train/extr_return_normed_mag": 1.4293865892622206, "train/extr_return_normed_max": 1.4293865892622206, "train/extr_return_normed_mean": 0.36592431532012093, "train/extr_return_normed_min": -0.08392759764360057, "train/extr_return_normed_std": 0.328689220878813, "train/extr_return_rate": 0.757569300631682, "train/extr_return_raw_mag": 11.765925076272753, "train/extr_return_raw_max": 11.765925076272753, "train/extr_return_raw_mean": 2.921435448858473, "train/extr_return_raw_min": -0.820172808236546, "train/extr_return_raw_std": 2.733914746178521, "train/extr_reward_mag": 1.0564501020643446, "train/extr_reward_max": 1.0564501020643446, "train/extr_reward_mean": 0.056407112886922225, "train/extr_reward_min": -0.6644775917132696, "train/extr_reward_std": 0.2291669278509087, "train/image_loss_mean": 3.184232940276464, "train/image_loss_std": 8.636654158433279, "train/model_loss_mean": 6.382985538906521, "train/model_loss_std": 12.685964107513428, "train/model_opt_grad_norm": 27.17866285641988, "train/model_opt_grad_steps": 338414.8611111111, "train/model_opt_loss": 16213.552476671008, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2534.722222222222, "train/policy_entropy_mag": 2.6908724870946674, "train/policy_entropy_max": 2.6908724870946674, "train/policy_entropy_mean": 0.41566648541225326, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.609353505488899, "train/policy_logprob_mag": 7.438384268018934, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4151010397407744, "train/policy_logprob_min": -7.438384268018934, "train/policy_logprob_std": 1.0349270916647382, "train/policy_randomness_mag": 0.9497599005699158, "train/policy_randomness_max": 0.9497599005699158, "train/policy_randomness_mean": 0.14671202811102071, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2150750458240509, "train/post_ent_mag": 55.61002344555325, "train/post_ent_max": 55.61002344555325, "train/post_ent_mean": 40.815091609954834, "train/post_ent_min": 19.263879895210266, "train/post_ent_std": 5.77599659230974, "train/prior_ent_mag": 76.64894697401259, "train/prior_ent_max": 76.64894697401259, "train/prior_ent_mean": 46.06811470455594, "train/prior_ent_min": 28.051460160149468, "train/prior_ent_std": 7.652485138840145, "train/rep_loss_mean": 5.241685635513729, "train/rep_loss_std": 8.75671405924691, "train/reward_avg": 0.037660047593009144, "train/reward_loss_mean": 0.05370793538168073, "train/reward_loss_std": 0.20679979543719026, "train/reward_max_data": 1.0263888951804903, "train/reward_max_pred": 1.026612530152003, "train/reward_neg_acc": 0.9933457920948664, "train/reward_neg_loss": 0.0241611399817177, "train/reward_pos_acc": 0.990942077504264, "train/reward_pos_loss": 0.7202971362405353, "train/reward_pred": 0.03742723873195549, "train/reward_rate": 0.042412651909722224, "stats/sum_log_reward": 9.975000321865082, "stats/max_log_achievement_collect_coal": 1.25, "stats/max_log_achievement_collect_drink": 2.625, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.375, "stats/max_log_achievement_collect_stone": 10.375, "stats/max_log_achievement_collect_wood": 9.125, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.625, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.375, "stats/max_log_achievement_place_plant": 1.125, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 2.375, "stats/max_log_achievement_wake_up": 1.125, "stats/mean_log_entropy": 0.43807574175298214, "replay/size": 679126.0, "replay/inserts": 1436.0, "replay/samples": 11488.0, "replay/insert_wait_avg": 3.3923178330105328e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.359948872855779e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.05297565460205, "timer/env.step_count": 1436.0, "timer/env.step_total": 21.346909761428833, "timer/env.step_frac": 0.07114380290632998, "timer/env.step_avg": 0.014865536045563255, "timer/env.step_min": 0.00278472900390625, "timer/env.step_max": 1.683156967163086, "timer/replay.add_count": 1436.0, "timer/replay.add_total": 0.2667977809906006, "timer/replay.add_frac": 0.0008891689222829695, "timer/replay.add_avg": 0.00018579232659512575, "timer/replay.add_min": 6.246566772460938e-05, "timer/replay.add_max": 0.0009429454803466797, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.031548261642456055, "timer/logger.write_frac": 0.00010514230553331352, "timer/logger.write_avg": 0.031548261642456055, "timer/logger.write_min": 0.031548261642456055, "timer/logger.write_max": 0.031548261642456055, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1436.0, "timer/agent.policy_total": 10.62638545036316, "timer/agent.policy_frac": 0.035415031053034576, "timer/agent.policy_avg": 0.007399989867940919, "timer/agent.policy_min": 0.005988597869873047, "timer/agent.policy_max": 0.015424489974975586, "timer/dataset_count": 718.0, "timer/dataset_total": 0.057659149169921875, "timer/dataset_frac": 0.00019216323065662466, "timer/dataset_avg": 8.030522168512796e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.0001399517059326172, "timer/agent.train_count": 718.0, "timer/agent.train_total": 267.058185338974, "timer/agent.train_frac": 0.8900367835258227, "timer/agent.train_avg": 0.3719473333411894, "timer/agent.train_min": 0.3654158115386963, "timer/agent.train_max": 0.3849360942840576, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2225666046142578, "timer/agent.report_frac": 0.0007417576983820997, "timer/agent.report_avg": 0.2225666046142578, "timer/agent.report_min": 0.2225666046142578, "timer/agent.report_max": 0.2225666046142578, "fps": 4.785736159090784}
{"step": 679267, "episode/length": 167.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.07142857142857142}
{"step": 679587, "episode/length": 319.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.900000028312206, "episode/reward_rate": 0.025}
{"step": 679744, "episode/length": 156.0, "episode/score": 11.099999971687794, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.08280254777070063}
{"step": 679943, "episode/length": 198.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.04522613065326633}
{"step": 680188, "episode/length": 244.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 12.30000003427267, "episode/reward_rate": 0.04081632653061224}
{"step": 680411, "episode/length": 222.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.04932735426008968}
{"step": 680643, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.493382284086045, "train/action_min": 0.0, "train/action_std": 3.371571175039631, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04174579435015378, "train/actor_opt_grad_steps": 339410.0, "train/actor_opt_loss": -13.140915746558202, "train/adv_mag": 0.41558578977846117, "train/adv_max": 0.36238252790006875, "train/adv_mean": 0.00195365241243925, "train/adv_min": -0.3595795643656221, "train/adv_std": 0.04672557227823832, "train/cont_avg": 0.9947158604452054, "train/cont_loss_mean": 0.0001409637701269668, "train/cont_loss_std": 0.004418249906835122, "train/cont_neg_acc": 0.9960045667543803, "train/cont_neg_loss": 0.019981126436945343, "train/cont_pos_acc": 0.9999999804039524, "train/cont_pos_loss": 6.752787349058377e-06, "train/cont_pred": 0.9947402069013412, "train/cont_rate": 0.9947158604452054, "train/dyn_loss_mean": 5.237280231632599, "train/dyn_loss_std": 8.804360357049394, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0288739710637969, "train/extr_critic_critic_opt_grad_steps": 339410.0, "train/extr_critic_critic_opt_loss": 15940.133093428938, "train/extr_critic_mag": 10.986967125984087, "train/extr_critic_max": 10.986967125984087, "train/extr_critic_mean": 3.024379653473423, "train/extr_critic_min": -0.44276014746051945, "train/extr_critic_std": 2.7014076775067473, "train/extr_return_normed_mag": 1.4298649944671213, "train/extr_return_normed_max": 1.4298649944671213, "train/extr_return_normed_mean": 0.38379617933541127, "train/extr_return_normed_min": -0.07993885583869398, "train/extr_return_normed_std": 0.33041797108846166, "train/extr_return_rate": 0.7718090463991034, "train/extr_return_raw_mag": 11.68912259193316, "train/extr_return_raw_max": 11.68912259193316, "train/extr_return_raw_mean": 3.0405230326195287, "train/extr_return_raw_min": -0.7932202468996179, "train/extr_return_raw_std": 2.7317651004007417, "train/extr_reward_mag": 1.0589016430998501, "train/extr_reward_max": 1.0589016430998501, "train/extr_reward_mean": 0.05709927666881313, "train/extr_reward_min": -0.6398499844825432, "train/extr_reward_std": 0.23086972575481624, "train/image_loss_mean": 3.062746096963752, "train/image_loss_std": 8.314228188501646, "train/model_loss_mean": 6.260246440155865, "train/model_loss_std": 12.472155570983887, "train/model_opt_grad_norm": 24.703143145940075, "train/model_opt_grad_steps": 339139.0, "train/model_opt_loss": 15650.616050406677, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6848635542882633, "train/policy_entropy_max": 2.6848635542882633, "train/policy_entropy_mean": 0.42210660895256147, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6146244214822169, "train/policy_logprob_mag": 7.43838429124388, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.42087694226878963, "train/policy_logprob_min": -7.43838429124388, "train/policy_logprob_std": 1.0393161022499815, "train/policy_randomness_mag": 0.9476390129899326, "train/policy_randomness_max": 0.9476390129899326, "train/policy_randomness_mean": 0.14898510981504232, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21693544661345548, "train/post_ent_mag": 55.16461155512562, "train/post_ent_max": 55.16461155512562, "train/post_ent_mean": 40.786382649042835, "train/post_ent_min": 19.69901692377378, "train/post_ent_std": 5.7186010243141485, "train/prior_ent_mag": 76.70532017537992, "train/prior_ent_max": 76.70532017537992, "train/prior_ent_mean": 45.993003270397445, "train/prior_ent_min": 28.349809960143208, "train/prior_ent_std": 7.627559465904758, "train/rep_loss_mean": 5.237280231632599, "train/rep_loss_std": 8.804360357049394, "train/reward_avg": 0.03911199693708387, "train/reward_loss_mean": 0.054991125703266225, "train/reward_loss_std": 0.21209699915696498, "train/reward_max_data": 1.0219178134447908, "train/reward_max_pred": 1.0205002353615957, "train/reward_neg_acc": 0.9941067017921029, "train/reward_neg_loss": 0.024463063131456506, "train/reward_pos_acc": 0.9903021454811096, "train/reward_pos_loss": 0.7233165118792285, "train/reward_pred": 0.03881916232815344, "train/reward_rate": 0.04381153681506849, "stats/sum_log_reward": 9.4333336353302, "stats/max_log_achievement_collect_coal": 0.16666666666666666, "stats/max_log_achievement_collect_drink": 2.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 11.0, "stats/max_log_achievement_collect_wood": 12.0, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.8333333333333333, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.5, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 2.8333333333333335, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 1.6666666666666667, "stats/mean_log_entropy": 0.3866327181458473, "replay/size": 680580.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.464448238829307e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3439535602742738e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.37567591667175, "timer/env.step_count": 1454.0, "timer/env.step_total": 18.2654972076416, "timer/env.step_frac": 0.06080884263314549, "timer/env.step_avg": 0.01256224017031747, "timer/env.step_min": 0.0031194686889648438, "timer/env.step_max": 1.6009929180145264, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.26281261444091797, "timer/replay.add_frac": 0.0008749463938412434, "timer/replay.add_avg": 0.0001807514542234649, "timer/replay.add_min": 6.4849853515625e-05, "timer/replay.add_max": 0.0009250640869140625, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02118706703186035, "timer/logger.write_frac": 7.053522881705618e-05, "timer/logger.write_avg": 0.02118706703186035, "timer/logger.write_min": 0.02118706703186035, "timer/logger.write_max": 0.02118706703186035, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 10.879506349563599, "timer/agent.policy_frac": 0.03621966497907014, "timer/agent.policy_avg": 0.007482466540277578, "timer/agent.policy_min": 0.005995035171508789, "timer/agent.policy_max": 0.01456141471862793, "timer/dataset_count": 727.0, "timer/dataset_total": 0.05807995796203613, "timer/dataset_frac": 0.00019335772706891317, "timer/dataset_avg": 7.988990091064117e-05, "timer/dataset_min": 5.888938903808594e-05, "timer/dataset_max": 0.0001342296600341797, "timer/agent.train_count": 727.0, "timer/agent.train_total": 270.2293939590454, "timer/agent.train_frac": 0.899638072005573, "timer/agent.train_avg": 0.3717048059959359, "timer/agent.train_min": 0.3652307987213135, "timer/agent.train_max": 0.3847806453704834, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2215733528137207, "timer/agent.report_frac": 0.0007376541130953231, "timer/agent.report_avg": 0.2215733528137207, "timer/agent.report_min": 0.2215733528137207, "timer/agent.report_max": 0.2215733528137207, "fps": 4.840499278123239}
{"step": 680679, "episode/length": 267.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.05223880597014925}
{"step": 680742, "episode/length": 62.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.8999999687075615, "episode/reward_rate": 0.09523809523809523}
{"step": 680997, "episode/length": 254.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.500000074505806, "episode/reward_rate": 0.054901960784313725}
{"step": 681204, "episode/length": 206.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.057971014492753624}
{"step": 681371, "episode/length": 166.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 11.100000031292439, "episode/reward_rate": 0.05389221556886228}
{"step": 681595, "episode/length": 223.0, "episode/score": 12.099999971687794, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.0625}
{"step": 682075, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.442784269091109, "train/action_min": 0.0, "train/action_std": 3.3669055515611674, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04146659022695582, "train/actor_opt_grad_steps": 340130.0, "train/actor_opt_loss": -11.859499608127164, "train/adv_mag": 0.4051340961120498, "train/adv_max": 0.36368523391199786, "train/adv_mean": 0.002210349603892225, "train/adv_min": -0.35148150400376654, "train/adv_std": 0.046400924331285585, "train/cont_avg": 0.9947595730633803, "train/cont_loss_mean": 8.928741944863516e-06, "train/cont_loss_std": 0.00022843146128342224, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0008796417399653893, "train/cont_pos_acc": 0.9999999806914531, "train/cont_pos_loss": 3.7947632273551814e-06, "train/cont_pred": 0.9947601825418607, "train/cont_rate": 0.9947595730633803, "train/dyn_loss_mean": 5.1767424395386605, "train/dyn_loss_std": 8.792562028052101, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9957269203494972, "train/extr_critic_critic_opt_grad_steps": 340130.0, "train/extr_critic_critic_opt_loss": 16004.460786201584, "train/extr_critic_mag": 11.142718247964348, "train/extr_critic_max": 11.142718247964348, "train/extr_critic_mean": 2.983396117116364, "train/extr_critic_min": -0.43381834030151367, "train/extr_critic_std": 2.687498717240884, "train/extr_return_normed_mag": 1.4401263989193338, "train/extr_return_normed_max": 1.4401263989193338, "train/extr_return_normed_mean": 0.3736046181178429, "train/extr_return_normed_min": -0.07794155862549661, "train/extr_return_normed_std": 0.32581957377178566, "train/extr_return_rate": 0.7703813138142438, "train/extr_return_raw_mag": 11.909889758472712, "train/extr_return_raw_max": 11.909889758472712, "train/extr_return_raw_mean": 3.0018653332347602, "train/extr_return_raw_min": -0.7702669455132014, "train/extr_return_raw_std": 2.7215447425842285, "train/extr_reward_mag": 1.0659571096930704, "train/extr_reward_max": 1.0659571096930704, "train/extr_reward_mean": 0.056996315560290514, "train/extr_reward_min": -0.6594337392860735, "train/extr_reward_std": 0.23028226910342633, "train/image_loss_mean": 3.003826791132, "train/image_loss_std": 8.236812195307772, "train/model_loss_mean": 6.163219404892183, "train/model_loss_std": 12.422973108963228, "train/model_opt_grad_norm": 27.986139910561697, "train/model_opt_grad_steps": 339858.23943661974, "train/model_opt_loss": 15622.682300836268, "train/model_opt_model_opt_grad_overflow": 0.014084507042253521, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6436918084050567, "train/policy_entropy_max": 2.6436918084050567, "train/policy_entropy_mean": 0.4057223704499258, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5885370487058666, "train/policy_logprob_mag": 7.43838429115188, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4061948088273196, "train/policy_logprob_min": -7.43838429115188, "train/policy_logprob_std": 1.029334909479383, "train/policy_randomness_mag": 0.9331071956056944, "train/policy_randomness_max": 0.9331071956056944, "train/policy_randomness_mean": 0.14320219234681467, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20772774632967694, "train/post_ent_mag": 54.875082150311535, "train/post_ent_max": 54.875082150311535, "train/post_ent_mean": 40.82527773145219, "train/post_ent_min": 19.428013506069988, "train/post_ent_std": 5.673402410157969, "train/prior_ent_mag": 76.6883652378136, "train/prior_ent_max": 76.6883652378136, "train/prior_ent_mean": 45.9702446091343, "train/prior_ent_min": 28.673450577426966, "train/prior_ent_std": 7.49126412163318, "train/rep_loss_mean": 5.1767424395386605, "train/rep_loss_std": 8.792562028052101, "train/reward_avg": 0.03835964989914021, "train/reward_loss_mean": 0.05333822944634397, "train/reward_loss_std": 0.20895800791995625, "train/reward_max_data": 1.0281690208005234, "train/reward_max_pred": 1.028417060072993, "train/reward_neg_acc": 0.9943070747482945, "train/reward_neg_loss": 0.023165856540517907, "train/reward_pos_acc": 0.9893672357142811, "train/reward_pos_loss": 0.7238400477758595, "train/reward_pred": 0.03804994135780234, "train/reward_rate": 0.043023767605633804, "stats/sum_log_reward": 10.099999984105429, "stats/max_log_achievement_collect_coal": 0.16666666666666666, "stats/max_log_achievement_collect_drink": 1.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 17.166666666666668, "stats/max_log_achievement_collect_wood": 8.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.6666666666666666, "stats/max_log_achievement_place_furnace": 2.1666666666666665, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 5.333333333333333, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 0.6666666666666666, "stats/mean_log_entropy": 0.3451105033357938, "replay/size": 682012.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.3841452785044408e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3457455115611328e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0859487056732, "timer/env.step_count": 1432.0, "timer/env.step_total": 18.62991738319397, "timer/env.step_frac": 0.06208193840314179, "timer/env.step_avg": 0.013009718843012549, "timer/env.step_min": 0.0029249191284179688, "timer/env.step_max": 1.637213945388794, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.26361560821533203, "timer/replay.add_frac": 0.0008784670170408025, "timer/replay.add_avg": 0.0001840891118822151, "timer/replay.add_min": 6.365776062011719e-05, "timer/replay.add_max": 0.0008413791656494141, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.019833803176879883, "timer/logger.write_frac": 6.609374168443002e-05, "timer/logger.write_avg": 0.019833803176879883, "timer/logger.write_min": 0.019833803176879883, "timer/logger.write_max": 0.019833803176879883, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00030303001403808594, "timer/checkpoint.save_frac": 1.0098107403732532e-06, "timer/checkpoint.save_avg": 0.00030303001403808594, "timer/checkpoint.save_min": 0.00030303001403808594, "timer/checkpoint.save_max": 0.00030303001403808594, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2339682579040527, "timer/agent.save_frac": 0.00411204944192285, "timer/agent.save_avg": 1.2339682579040527, "timer/agent.save_min": 1.2339682579040527, "timer/agent.save_max": 1.2339682579040527, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.584426879882812e-05, "timer/replay.save_frac": 3.1938939231317685e-07, "timer/replay.save_avg": 9.584426879882812e-05, "timer/replay.save_min": 9.584426879882812e-05, "timer/replay.save_max": 9.584426879882812e-05, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 14.184039115905762, "timer/agent.policy_frac": 0.04726658871261442, "timer/agent.policy_avg": 0.009905055248537542, "timer/agent.policy_min": 0.006018400192260742, "timer/agent.policy_max": 2.420560359954834, "timer/dataset_count": 716.0, "timer/dataset_total": 0.057401180267333984, "timer/dataset_frac": 0.0001912824659565568, "timer/dataset_avg": 8.016924618342735e-05, "timer/dataset_min": 5.936622619628906e-05, "timer/dataset_max": 0.00014138221740722656, "timer/agent.train_count": 716.0, "timer/agent.train_total": 266.2764046192169, "timer/agent.train_frac": 0.8873337980925692, "timer/agent.train_avg": 0.3718944198592415, "timer/agent.train_min": 0.3657815456390381, "timer/agent.train_max": 0.38457489013671875, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22147679328918457, "timer/agent.report_frac": 0.0007380445310567035, "timer/agent.report_avg": 0.22147679328918457, "timer/agent.report_min": 0.22147679328918457, "timer/agent.report_max": 0.22147679328918457, "fps": 4.771862593508441}
{"step": 682151, "episode/length": 555.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.019784172661870502}
{"step": 682336, "episode/length": 184.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.05405405405405406}
{"step": 682518, "episode/length": 181.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.06593406593406594}
{"step": 682825, "episode/length": 306.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.04234527687296417}
{"step": 683051, "episode/length": 225.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.05752212389380531}
{"step": 683289, "episode/length": 237.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.046218487394957986}
{"step": 683529, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.521486883294092, "train/action_min": 0.0, "train/action_std": 3.3813317246633035, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.041842083204282475, "train/actor_opt_grad_steps": 340850.0, "train/actor_opt_loss": -13.014505021784403, "train/adv_mag": 0.42894573162679805, "train/adv_max": 0.38390739813242875, "train/adv_mean": 0.0014815487061553055, "train/adv_min": -0.37055715346989565, "train/adv_std": 0.047356281786748805, "train/cont_avg": 0.9947292380136986, "train/cont_loss_mean": 3.703235210969225e-05, "train/cont_loss_std": 0.0011526157596354594, "train/cont_neg_acc": 0.9980430537707186, "train/cont_neg_loss": 0.004179882384897292, "train/cont_pos_acc": 0.9999999820369564, "train/cont_pos_loss": 1.1323052705796265e-05, "train/cont_pred": 0.9947335352636364, "train/cont_rate": 0.9947292380136986, "train/dyn_loss_mean": 5.461698238163779, "train/dyn_loss_std": 8.866859599335553, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0320334295703941, "train/extr_critic_critic_opt_grad_steps": 340850.0, "train/extr_critic_critic_opt_loss": 16014.34686697346, "train/extr_critic_mag": 11.376149660920444, "train/extr_critic_max": 11.376149660920444, "train/extr_critic_mean": 3.0180485477186227, "train/extr_critic_min": -0.41112355826652214, "train/extr_critic_std": 2.7918656166285682, "train/extr_return_normed_mag": 1.4576196637872147, "train/extr_return_normed_max": 1.4576196637872147, "train/extr_return_normed_mean": 0.37250153699966326, "train/extr_return_normed_min": -0.07434130097701125, "train/extr_return_normed_std": 0.33377649114556507, "train/extr_return_rate": 0.7684102482991676, "train/extr_return_raw_mag": 12.19580463513936, "train/extr_return_raw_max": 12.19580463513936, "train/extr_return_raw_mean": 3.0305080511798597, "train/extr_return_raw_min": -0.7436727795698871, "train/extr_return_raw_std": 2.8195869008155716, "train/extr_reward_mag": 1.0580820906652164, "train/extr_reward_max": 1.0580820906652164, "train/extr_reward_mean": 0.05524349130996286, "train/extr_reward_min": -0.6244667245917124, "train/extr_reward_std": 0.22710578837623335, "train/image_loss_mean": 3.1913556775001632, "train/image_loss_std": 8.456955766024654, "train/model_loss_mean": 6.523129737540467, "train/model_loss_std": 12.602916221096091, "train/model_opt_grad_norm": 31.13134092827366, "train/model_opt_grad_steps": 340577.2602739726, "train/model_opt_loss": 10255.354365100598, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1575.3424657534247, "train/policy_entropy_mag": 2.680151838145844, "train/policy_entropy_max": 2.680151838145844, "train/policy_entropy_mean": 0.4345905501140307, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6308648974111636, "train/policy_logprob_mag": 7.4383842651158165, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.43508478182635896, "train/policy_logprob_min": -7.4383842651158165, "train/policy_logprob_std": 1.0535296699772143, "train/policy_randomness_mag": 0.9459759813465484, "train/policy_randomness_max": 0.9459759813465484, "train/policy_randomness_mean": 0.15339139593790654, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2226676229540616, "train/post_ent_mag": 54.8506511531464, "train/post_ent_max": 54.8506511531464, "train/post_ent_mean": 40.585105739227714, "train/post_ent_min": 19.23589702501689, "train/post_ent_std": 5.703318674270421, "train/prior_ent_mag": 76.64472031266722, "train/prior_ent_max": 76.64472031266722, "train/prior_ent_mean": 46.062194615194244, "train/prior_ent_min": 28.281604714589577, "train/prior_ent_std": 7.538508990039564, "train/rep_loss_mean": 5.461698238163779, "train/rep_loss_std": 8.866859599335553, "train/reward_avg": 0.039042433570713214, "train/reward_loss_mean": 0.05471810642374705, "train/reward_loss_std": 0.21285372400937014, "train/reward_max_data": 1.0246575401253897, "train/reward_max_pred": 1.0234624849606866, "train/reward_neg_acc": 0.9939503833039166, "train/reward_neg_loss": 0.023668834901325507, "train/reward_pos_acc": 0.9868314168224596, "train/reward_pos_loss": 0.7368532582505108, "train/reward_pred": 0.03856123455685295, "train/reward_rate": 0.043584118150684935, "stats/sum_log_reward": 10.766667048136393, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 4.666666666666667, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 15.5, "stats/max_log_achievement_collect_wood": 9.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_stone_pickaxe": 0.16666666666666666, "stats/max_log_achievement_make_stone_sword": 0.3333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 1.8333333333333333, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_stone": 4.333333333333333, "stats/max_log_achievement_place_table": 2.8333333333333335, "stats/max_log_achievement_wake_up": 1.8333333333333333, "stats/mean_log_entropy": 0.5460754955808321, "replay/size": 683466.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.3854126438314027e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.378429149171181e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.35186982154846, "timer/env.step_count": 1454.0, "timer/env.step_total": 18.343918323516846, "timer/env.step_frac": 0.061074759862210046, "timer/env.step_avg": 0.01261617491301021, "timer/env.step_min": 0.0028772354125976562, "timer/env.step_max": 1.6431512832641602, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.25989770889282227, "timer/replay.add_frac": 0.0008653107738175171, "timer/replay.add_avg": 0.00017874670487814462, "timer/replay.add_min": 6.771087646484375e-05, "timer/replay.add_max": 0.0009367465972900391, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02135300636291504, "timer/logger.write_frac": 7.109330258407164e-05, "timer/logger.write_avg": 0.02135300636291504, "timer/logger.write_min": 0.02135300636291504, "timer/logger.write_max": 0.02135300636291504, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 10.755369663238525, "timer/agent.policy_frac": 0.035809231584370486, "timer/agent.policy_avg": 0.007397090552433649, "timer/agent.policy_min": 0.0060689449310302734, "timer/agent.policy_max": 0.0186007022857666, "timer/dataset_count": 727.0, "timer/dataset_total": 0.057159423828125, "timer/dataset_frac": 0.00019030820038538727, "timer/dataset_avg": 7.862369164803989e-05, "timer/dataset_min": 6.031990051269531e-05, "timer/dataset_max": 0.0001423358917236328, "timer/agent.train_count": 727.0, "timer/agent.train_total": 270.25255823135376, "timer/agent.train_frac": 0.8997865017185411, "timer/agent.train_avg": 0.37173666881891854, "timer/agent.train_min": 0.3628525733947754, "timer/agent.train_max": 0.3847205638885498, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22052645683288574, "timer/agent.report_frac": 0.0007342270150137893, "timer/agent.report_avg": 0.22052645683288574, "timer/agent.report_min": 0.22052645683288574, "timer/agent.report_max": 0.22052645683288574, "fps": 4.840901114271969}
{"step": 683596, "episode/length": 306.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 15.900000013411045, "episode/reward_rate": 0.048859934853420196}
{"step": 683807, "episode/length": 210.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.700000047683716, "episode/reward_rate": 0.061611374407582936}
{"step": 683994, "episode/length": 186.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.06951871657754011}
{"step": 684302, "episode/length": 307.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.048701298701298704}
{"step": 684536, "episode/length": 233.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.05982905982905983}
{"step": 684730, "episode/length": 193.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06701030927835051}
{"step": 684975, "episode/length": 244.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.04897959183673469}
{"step": 684976, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.457543267144097, "train/action_min": 0.0, "train/action_std": 3.3704164028167725, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04192892493059238, "train/actor_opt_grad_steps": 341575.0, "train/actor_opt_loss": -12.683931547734472, "train/adv_mag": 0.3800109666254785, "train/adv_max": 0.35887301506267655, "train/adv_mean": 0.002054152075894914, "train/adv_min": -0.32865615540908444, "train/adv_std": 0.04669453524467018, "train/cont_avg": 0.9949001736111112, "train/cont_loss_mean": 3.0346144193455553e-05, "train/cont_loss_std": 0.0009272927532841319, "train/cont_neg_acc": 0.9952380963497691, "train/cont_neg_loss": 0.004657994733295447, "train/cont_pos_acc": 0.999999980131785, "train/cont_pos_loss": 4.176164560289032e-06, "train/cont_pred": 0.9949152254396014, "train/cont_rate": 0.9949001736111112, "train/dyn_loss_mean": 5.251320117049747, "train/dyn_loss_std": 8.78394209014045, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0085318030582533, "train/extr_critic_critic_opt_grad_steps": 341575.0, "train/extr_critic_critic_opt_loss": 16097.012288411459, "train/extr_critic_mag": 11.104650894800821, "train/extr_critic_max": 11.104650894800821, "train/extr_critic_mean": 2.9469852066702313, "train/extr_critic_min": -0.4526856376065148, "train/extr_critic_std": 2.671524158782429, "train/extr_return_normed_mag": 1.4154988593525357, "train/extr_return_normed_max": 1.4154988593525357, "train/extr_return_normed_mean": 0.36796150563491714, "train/extr_return_normed_min": -0.08075608644220564, "train/extr_return_normed_std": 0.3230320486343569, "train/extr_return_rate": 0.7894160921374956, "train/extr_return_raw_mag": 11.711126340760124, "train/extr_return_raw_max": 11.711126340760124, "train/extr_return_raw_mean": 2.964145988225937, "train/extr_return_raw_min": -0.7825454158915414, "train/extr_return_raw_std": 2.6975141217311225, "train/extr_reward_mag": 1.053202509880066, "train/extr_reward_max": 1.053202509880066, "train/extr_reward_mean": 0.05653302314587765, "train/extr_reward_min": -0.5997258010837767, "train/extr_reward_std": 0.22937996375064054, "train/image_loss_mean": 3.0652893533309302, "train/image_loss_std": 8.260415507687462, "train/model_loss_mean": 6.270265625582801, "train/model_loss_std": 12.438711298836601, "train/model_opt_grad_norm": 25.228166143099468, "train/model_opt_grad_steps": 341302.0, "train/model_opt_loss": 10573.377638075086, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1701.388888888889, "train/policy_entropy_mag": 2.682202008035448, "train/policy_entropy_max": 2.682202008035448, "train/policy_entropy_mean": 0.4230853294332822, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6182779744267464, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.42275343566305107, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 1.043618395096726, "train/policy_randomness_mag": 0.9466996060477363, "train/policy_randomness_max": 0.9466996060477363, "train/policy_randomness_mean": 0.14933055587526825, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21822499194078976, "train/post_ent_mag": 55.57421345180936, "train/post_ent_max": 55.57421345180936, "train/post_ent_mean": 40.85411638683743, "train/post_ent_min": 19.443294207255047, "train/post_ent_std": 5.736677851941851, "train/prior_ent_mag": 76.65399593777127, "train/prior_ent_max": 76.65399593777127, "train/prior_ent_mean": 46.09183496899075, "train/prior_ent_min": 28.507416513231064, "train/prior_ent_std": 7.55293157365587, "train/rep_loss_mean": 5.251320117049747, "train/rep_loss_std": 8.78394209014045, "train/reward_avg": 0.0393174910503957, "train/reward_loss_mean": 0.05415377765893936, "train/reward_loss_std": 0.21400720274282825, "train/reward_max_data": 1.022222227520413, "train/reward_max_pred": 1.0203325615988836, "train/reward_neg_acc": 0.9942688064442741, "train/reward_neg_loss": 0.02308928852693902, "train/reward_pos_acc": 0.9902418346868621, "train/reward_pos_loss": 0.7301768834392229, "train/reward_pred": 0.03896697062171168, "train/reward_rate": 0.043863932291666664, "stats/sum_log_reward": 12.671428680419922, "stats/max_log_achievement_collect_coal": 1.2857142857142858, "stats/max_log_achievement_collect_drink": 2.142857142857143, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 14.571428571428571, "stats/max_log_achievement_collect_wood": 11.857142857142858, "stats/max_log_achievement_defeat_skeleton": 0.42857142857142855, "stats/max_log_achievement_defeat_zombie": 1.4285714285714286, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 1.1428571428571428, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.7142857142857142, "stats/max_log_achievement_place_stone": 4.285714285714286, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.4211215249129704, "replay/size": 684913.0, "replay/inserts": 1447.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.3970116415597194e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3443609161165906e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.46208238601685, "timer/env.step_count": 1447.0, "timer/env.step_total": 19.95098352432251, "timer/env.step_frac": 0.06640100263530292, "timer/env.step_avg": 0.01378782551784555, "timer/env.step_min": 0.002894878387451172, "timer/env.step_max": 1.6545145511627197, "timer/replay.add_count": 1447.0, "timer/replay.add_total": 0.2550983428955078, "timer/replay.add_frac": 0.0008490200855619836, "timer/replay.add_avg": 0.00017629463918141522, "timer/replay.add_min": 6.008148193359375e-05, "timer/replay.add_max": 0.0009143352508544922, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021131038665771484, "timer/logger.write_frac": 7.032847039455551e-05, "timer/logger.write_avg": 0.021131038665771484, "timer/logger.write_min": 0.021131038665771484, "timer/logger.write_max": 0.021131038665771484, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1447.0, "timer/agent.policy_total": 10.67771053314209, "timer/agent.policy_frac": 0.0355376307331318, "timer/agent.policy_avg": 0.007379205620692529, "timer/agent.policy_min": 0.006039619445800781, "timer/agent.policy_max": 0.016398906707763672, "timer/dataset_count": 723.0, "timer/dataset_total": 0.05729055404663086, "timer/dataset_frac": 0.00019067482189991336, "timer/dataset_avg": 7.924004709077574e-05, "timer/dataset_min": 5.9604644775390625e-05, "timer/dataset_max": 0.0001621246337890625, "timer/agent.train_count": 723.0, "timer/agent.train_total": 268.8327884674072, "timer/agent.train_frac": 0.8947311631889242, "timer/agent.train_avg": 0.371829582942472, "timer/agent.train_min": 0.3658897876739502, "timer/agent.train_max": 0.38404417037963867, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2231581211090088, "timer/agent.report_frac": 0.0007427164164505382, "timer/agent.report_avg": 0.2231581211090088, "timer/agent.report_min": 0.2231581211090088, "timer/agent.report_max": 0.2231581211090088, "fps": 4.8158264701934215}
{"step": 685272, "episode/length": 296.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.04040404040404041}
{"step": 685460, "episode/length": 187.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.06914893617021277}
{"step": 685618, "episode/length": 157.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 13.500000059604645, "episode/reward_rate": 0.0759493670886076}
{"step": 685837, "episode/length": 218.0, "episode/score": 10.099999971687794, "episode/sum_abs_reward": 12.500000037252903, "episode/reward_rate": 0.0547945205479452}
{"step": 686032, "episode/length": 194.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.06153846153846154}
{"step": 686086, "episode/length": 53.0, "episode/score": 5.100000001490116, "episode/sum_abs_reward": 7.100000001490116, "episode/reward_rate": 0.12962962962962962}
{"step": 686375, "episode/length": 288.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.04844290657439446}
{"step": 686397, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.512733137103873, "train/action_min": 0.0, "train/action_std": 3.39623804831169, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04245458590522618, "train/actor_opt_grad_steps": 342290.0, "train/actor_opt_loss": -11.56614764643387, "train/adv_mag": 0.4175548704577164, "train/adv_max": 0.3643396198749542, "train/adv_mean": 0.0025960123329894767, "train/adv_min": -0.36771355716275494, "train/adv_std": 0.04792078684123469, "train/cont_avg": 0.9948008362676056, "train/cont_loss_mean": 7.248988450262247e-05, "train/cont_loss_std": 0.0022929576658094154, "train/cont_neg_acc": 0.9976525827192925, "train/cont_neg_loss": 0.01125895162945867, "train/cont_pos_acc": 0.9999999815309552, "train/cont_pos_loss": 7.025143527037769e-06, "train/cont_pred": 0.9948110790319846, "train/cont_rate": 0.9948008362676056, "train/dyn_loss_mean": 5.223437208524892, "train/dyn_loss_std": 8.786913979221397, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0341216107489357, "train/extr_critic_critic_opt_grad_steps": 342290.0, "train/extr_critic_critic_opt_loss": 16113.427981954226, "train/extr_critic_mag": 11.129544137229383, "train/extr_critic_max": 11.129544137229383, "train/extr_critic_mean": 2.9911309295976665, "train/extr_critic_min": -0.49075002569547843, "train/extr_critic_std": 2.657452680695225, "train/extr_return_normed_mag": 1.429652769800643, "train/extr_return_normed_max": 1.429652769800643, "train/extr_return_normed_mean": 0.37681206410199825, "train/extr_return_normed_min": -0.08469977565634419, "train/extr_return_normed_std": 0.3231907820617649, "train/extr_return_rate": 0.7836671446410703, "train/extr_return_raw_mag": 11.77574512320505, "train/extr_return_raw_max": 11.77574512320505, "train/extr_return_raw_mean": 3.0127263388163605, "train/extr_return_raw_min": -0.8286138873704723, "train/extr_return_raw_std": 2.6902423710890218, "train/extr_reward_mag": 1.053447038355008, "train/extr_reward_max": 1.053447038355008, "train/extr_reward_mean": 0.0582731742359383, "train/extr_reward_min": -0.6492883101315565, "train/extr_reward_std": 0.2328751118670047, "train/image_loss_mean": 3.1178579951675847, "train/image_loss_std": 8.300559319240946, "train/model_loss_mean": 6.306430098036645, "train/model_loss_std": 12.453874977541641, "train/model_opt_grad_norm": 25.31947499933377, "train/model_opt_grad_steps": 342017.0, "train/model_opt_loss": 15766.075236575703, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.66921779471384, "train/policy_entropy_max": 2.66921779471384, "train/policy_entropy_mean": 0.4219970142757389, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6155184847368321, "train/policy_logprob_mag": 7.438384264287814, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4219094619784557, "train/policy_logprob_min": -7.438384264287814, "train/policy_logprob_std": 1.0452692609437755, "train/policy_randomness_mag": 0.942116744921241, "train/policy_randomness_max": 0.942116744921241, "train/policy_randomness_mean": 0.14894642785821163, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21725101475144776, "train/post_ent_mag": 55.37720892462932, "train/post_ent_max": 55.37720892462932, "train/post_ent_mean": 40.833943326708294, "train/post_ent_min": 19.471823813210072, "train/post_ent_std": 5.752955987419881, "train/prior_ent_mag": 76.63789410658286, "train/prior_ent_max": 76.63789410658286, "train/prior_ent_mean": 46.033833248514526, "train/prior_ent_min": 28.37788501255949, "train/prior_ent_std": 7.570097869550678, "train/rep_loss_mean": 5.223437208524892, "train/rep_loss_std": 8.786913979221397, "train/reward_avg": 0.039139524154679875, "train/reward_loss_mean": 0.05443725944824622, "train/reward_loss_std": 0.21008945812641736, "train/reward_max_data": 1.0183098635203403, "train/reward_max_pred": 1.017972341725524, "train/reward_neg_acc": 0.9941977170151723, "train/reward_neg_loss": 0.023441201469428102, "train/reward_pos_acc": 0.9896434419591662, "train/reward_pos_loss": 0.7307302884652581, "train/reward_pred": 0.03884025450638482, "train/reward_rate": 0.04383527728873239, "stats/sum_log_reward": 10.528571605682373, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 2.142857142857143, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 17.142857142857142, "stats/max_log_achievement_collect_wood": 10.0, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.7142857142857143, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.5714285714285714, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.4285714285714284, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 3.857142857142857, "stats/max_log_achievement_place_table": 2.2857142857142856, "stats/max_log_achievement_wake_up": 0.8571428571428571, "stats/mean_log_entropy": 0.35243149527481626, "replay/size": 686334.0, "replay/inserts": 1421.0, "replay/samples": 11376.0, "replay/insert_wait_avg": 3.4928909076258466e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.337332061574429e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1801209449768, "timer/env.step_count": 1421.0, "timer/env.step_total": 22.090524435043335, "timer/env.step_frac": 0.07359089724363374, "timer/env.step_avg": 0.015545759630572368, "timer/env.step_min": 0.002928018569946289, "timer/env.step_max": 2.3420844078063965, "timer/replay.add_count": 1421.0, "timer/replay.add_total": 0.28825926780700684, "timer/replay.add_frac": 0.0009602876662836875, "timer/replay.add_avg": 0.00020285662759113781, "timer/replay.add_min": 6.723403930664062e-05, "timer/replay.add_max": 0.0009512901306152344, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028311491012573242, "timer/logger.write_frac": 9.431500967968081e-05, "timer/logger.write_avg": 0.028311491012573242, "timer/logger.write_min": 0.028311491012573242, "timer/logger.write_max": 0.028311491012573242, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002598762512207031, "timer/checkpoint.save_frac": 8.657343810862765e-07, "timer/checkpoint.save_avg": 0.0002598762512207031, "timer/checkpoint.save_min": 0.0002598762512207031, "timer/checkpoint.save_max": 0.0002598762512207031, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4781842231750488, "timer/agent.save_frac": 0.004924324164177417, "timer/agent.save_avg": 1.4781842231750488, "timer/agent.save_min": 1.4781842231750488, "timer/agent.save_max": 1.4781842231750488, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.390975952148438e-05, "timer/replay.save_frac": 2.462180349878401e-07, "timer/replay.save_avg": 7.390975952148438e-05, "timer/replay.save_min": 7.390975952148438e-05, "timer/replay.save_max": 7.390975952148438e-05, "timer/agent.policy_count": 1421.0, "timer/agent.policy_total": 12.56353235244751, "timer/agent.policy_frac": 0.041853312314276844, "timer/agent.policy_avg": 0.008841331704748424, "timer/agent.policy_min": 0.0058934688568115234, "timer/agent.policy_max": 1.4722063541412354, "timer/dataset_count": 711.0, "timer/dataset_total": 0.056943416595458984, "timer/dataset_frac": 0.00018969749367879276, "timer/dataset_avg": 8.00891935238523e-05, "timer/dataset_min": 5.984306335449219e-05, "timer/dataset_max": 0.00018167495727539062, "timer/agent.train_count": 711.0, "timer/agent.train_total": 264.4986047744751, "timer/agent.train_frac": 0.8811329808976852, "timer/agent.train_avg": 0.3720092894155768, "timer/agent.train_min": 0.3656036853790283, "timer/agent.train_max": 0.38544487953186035, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22257733345031738, "timer/agent.report_frac": 0.0007414792583520744, "timer/agent.report_avg": 0.22257733345031738, "timer/agent.report_min": 0.22257733345031738, "timer/agent.report_max": 0.22257733345031738, "fps": 4.7337258372631466}
{"step": 686436, "episode/length": 60.0, "episode/score": 6.099999971687794, "episode/sum_abs_reward": 7.900000028312206, "episode/reward_rate": 0.13114754098360656}
{"step": 686636, "episode/length": 199.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.700000047683716, "episode/reward_rate": 0.07}
{"step": 686825, "episode/length": 188.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.06349206349206349}
{"step": 687076, "episode/length": 250.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.05179282868525897}
{"step": 687265, "episode/length": 188.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.06878306878306878}
{"step": 687437, "episode/length": 171.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.06395348837209303}
{"step": 687616, "episode/length": 178.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.07262569832402235}
{"step": 687803, "episode/length": 186.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.053475935828877004}
{"step": 687833, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.522128634982639, "train/action_min": 0.0, "train/action_std": 3.431783619854185, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04202014228536023, "train/actor_opt_grad_steps": 343005.0, "train/actor_opt_loss": -13.140454044772518, "train/adv_mag": 0.42186509672966266, "train/adv_max": 0.3618069046901332, "train/adv_mean": 0.002211276723856928, "train/adv_min": -0.3844701672593753, "train/adv_std": 0.04682519623181886, "train/cont_avg": 0.9948323567708334, "train/cont_loss_mean": 0.0001334180080038531, "train/cont_loss_std": 0.004115635945233404, "train/cont_neg_acc": 0.9964726641774178, "train/cont_neg_loss": 0.008746856572642514, "train/cont_pos_acc": 0.9999726903107431, "train/cont_pos_loss": 7.757703511816298e-05, "train/cont_pred": 0.9948189299967554, "train/cont_rate": 0.9948323567708334, "train/dyn_loss_mean": 5.204961127705044, "train/dyn_loss_std": 8.792852103710175, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0219623951448336, "train/extr_critic_critic_opt_grad_steps": 343005.0, "train/extr_critic_critic_opt_loss": 15822.082261827258, "train/extr_critic_mag": 11.21437550915612, "train/extr_critic_max": 11.21437550915612, "train/extr_critic_mean": 3.020779248740938, "train/extr_critic_min": -0.49034475452370113, "train/extr_critic_std": 2.7127988967630596, "train/extr_return_normed_mag": 1.4401046468151941, "train/extr_return_normed_max": 1.4401046468151941, "train/extr_return_normed_mean": 0.3812859658565786, "train/extr_return_normed_min": -0.08044337776179115, "train/extr_return_normed_std": 0.3289845238129298, "train/extr_return_rate": 0.7691433777411779, "train/extr_return_raw_mag": 11.865579936239454, "train/extr_return_raw_max": 11.865579936239454, "train/extr_return_raw_mean": 3.039218344622188, "train/extr_return_raw_min": -0.8096729835702313, "train/extr_return_raw_std": 2.742524676852756, "train/extr_reward_mag": 1.0557459261682298, "train/extr_reward_max": 1.0557459261682298, "train/extr_reward_mean": 0.05594767495575878, "train/extr_reward_min": -0.6095147778590521, "train/extr_reward_std": 0.2279466481672393, "train/image_loss_mean": 3.20609421034654, "train/image_loss_std": 8.427810231844584, "train/model_loss_mean": 6.38405907816357, "train/model_loss_std": 12.536797867880928, "train/model_opt_grad_norm": 27.651296880510117, "train/model_opt_grad_steps": 342731.125, "train/model_opt_loss": 17017.459567599828, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2673.6111111111113, "train/policy_entropy_mag": 2.6764944824907513, "train/policy_entropy_max": 2.6764944824907513, "train/policy_entropy_mean": 0.4498152302371131, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6468150528768698, "train/policy_logprob_mag": 7.438384221659766, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4507221658196714, "train/policy_logprob_min": -7.438384221659766, "train/policy_logprob_std": 1.0691456952028804, "train/policy_randomness_mag": 0.9446850948863559, "train/policy_randomness_max": 0.9446850948863559, "train/policy_randomness_mean": 0.15876503816495338, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22829732836948502, "train/post_ent_mag": 55.48868910471598, "train/post_ent_max": 55.48868910471598, "train/post_ent_mean": 40.72349574830797, "train/post_ent_min": 19.498776780234444, "train/post_ent_std": 5.732674578825633, "train/prior_ent_mag": 76.73004055023193, "train/prior_ent_max": 76.73004055023193, "train/prior_ent_mean": 45.929829915364586, "train/prior_ent_min": 28.179275618659126, "train/prior_ent_std": 7.655791037612492, "train/rep_loss_mean": 5.204961127705044, "train/rep_loss_std": 8.792852103710175, "train/reward_avg": 0.038926866164224014, "train/reward_loss_mean": 0.054854762740433216, "train/reward_loss_std": 0.21460182406008244, "train/reward_max_data": 1.022222227520413, "train/reward_max_pred": 1.020817819568846, "train/reward_neg_acc": 0.9940347431434525, "train/reward_neg_loss": 0.024248302914202213, "train/reward_pos_acc": 0.9875850536757045, "train/reward_pos_loss": 0.7274271092481084, "train/reward_pred": 0.038617716998689704, "train/reward_rate": 0.04345703125, "stats/sum_log_reward": 10.725000083446503, "stats/max_log_achievement_collect_coal": 1.5, "stats/max_log_achievement_collect_drink": 3.75, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 12.25, "stats/max_log_achievement_collect_wood": 11.875, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 0.875, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.25, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.125, "stats/max_log_achievement_place_furnace": 1.875, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 3.125, "stats/max_log_achievement_place_table": 2.875, "stats/max_log_achievement_wake_up": 0.875, "stats/mean_log_entropy": 0.2477949559688568, "replay/size": 687770.0, "replay/inserts": 1436.0, "replay/samples": 11488.0, "replay/insert_wait_avg": 3.5686413225689306e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3899794860138534e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.16318225860596, "timer/env.step_count": 1436.0, "timer/env.step_total": 21.52756690979004, "timer/env.step_frac": 0.07171954517474077, "timer/env.step_avg": 0.014991341859185265, "timer/env.step_min": 0.0031185150146484375, "timer/env.step_max": 1.6463251113891602, "timer/replay.add_count": 1436.0, "timer/replay.add_total": 0.25838375091552734, "timer/replay.add_frac": 0.0008608109394739709, "timer/replay.add_avg": 0.00017993297417515832, "timer/replay.add_min": 6.365776062011719e-05, "timer/replay.add_max": 0.0008738040924072266, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030012130737304688, "timer/logger.write_frac": 9.998604929317314e-05, "timer/logger.write_avg": 0.030012130737304688, "timer/logger.write_min": 0.030012130737304688, "timer/logger.write_max": 0.030012130737304688, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1436.0, "timer/agent.policy_total": 10.68220591545105, "timer/agent.policy_frac": 0.03558799528666971, "timer/agent.policy_avg": 0.0074388620581135444, "timer/agent.policy_min": 0.005856037139892578, "timer/agent.policy_max": 0.017659425735473633, "timer/dataset_count": 718.0, "timer/dataset_total": 0.05996537208557129, "timer/dataset_frac": 0.00019977590733932202, "timer/dataset_avg": 8.351723131695166e-05, "timer/dataset_min": 6.151199340820312e-05, "timer/dataset_max": 0.00014352798461914062, "timer/agent.train_count": 718.0, "timer/agent.train_total": 266.93618416786194, "timer/agent.train_frac": 0.8893035520188574, "timer/agent.train_avg": 0.37177741527557373, "timer/agent.train_min": 0.3636596202850342, "timer/agent.train_max": 0.38286447525024414, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2202446460723877, "timer/agent.report_frac": 0.0007337497037949033, "timer/agent.report_avg": 0.2202446460723877, "timer/agent.report_min": 0.2202446460723877, "timer/agent.report_max": 0.2202446460723877, "fps": 4.783962957806646}
{"step": 687994, "episode/length": 190.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.06806282722513089}
{"step": 688235, "episode/length": 240.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.05394190871369295}
{"step": 688433, "episode/length": 197.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.099999994039536, "episode/reward_rate": 0.06060606060606061}
{"step": 688618, "episode/length": 184.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.299999997019768, "episode/reward_rate": 0.07027027027027027}
{"step": 688717, "episode/length": 98.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.500000044703484, "episode/reward_rate": 0.06060606060606061}
{"step": 688874, "episode/length": 156.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.07643312101910828}
{"step": 689063, "episode/length": 188.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.0582010582010582}
{"step": 689277, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.475669860839844, "train/action_min": 0.0, "train/action_std": 3.33829735716184, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04139032646910184, "train/actor_opt_grad_steps": 343725.0, "train/actor_opt_loss": -11.434595628745026, "train/adv_mag": 0.4108488998479313, "train/adv_max": 0.3673458585722579, "train/adv_mean": 0.0024920548781261053, "train/adv_min": -0.34777720976206994, "train/adv_std": 0.04654946907733878, "train/cont_avg": 0.9952799479166666, "train/cont_loss_mean": 6.630654984185469e-06, "train/cont_loss_std": 0.00017459048946832922, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00033972207964438894, "train/cont_pos_acc": 0.999999980131785, "train/cont_pos_loss": 4.919199414723765e-06, "train/cont_pred": 0.995276990864012, "train/cont_rate": 0.9952799479166666, "train/dyn_loss_mean": 5.20024006234275, "train/dyn_loss_std": 8.687864581743876, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.995582597123252, "train/extr_critic_critic_opt_grad_steps": 343725.0, "train/extr_critic_critic_opt_loss": 15978.717759874133, "train/extr_critic_mag": 11.008083383242289, "train/extr_critic_max": 11.008083383242289, "train/extr_critic_mean": 2.988739639520645, "train/extr_critic_min": -0.4812502861022949, "train/extr_critic_std": 2.6585242499907813, "train/extr_return_normed_mag": 1.4177915039989684, "train/extr_return_normed_max": 1.4177915039989684, "train/extr_return_normed_mean": 0.37561066614256966, "train/extr_return_normed_min": -0.07405533150045408, "train/extr_return_normed_std": 0.32057094097965294, "train/extr_return_rate": 0.7866998008555837, "train/extr_return_raw_mag": 11.758602195315891, "train/extr_return_raw_max": 11.758602195315891, "train/extr_return_raw_mean": 3.009647011756897, "train/extr_return_raw_min": -0.7652000627583928, "train/extr_return_raw_std": 2.6913916286495, "train/extr_reward_mag": 1.0555340150992076, "train/extr_reward_max": 1.0555340150992076, "train/extr_reward_mean": 0.055689375640617475, "train/extr_reward_min": -0.592821392748091, "train/extr_reward_std": 0.22710034768614504, "train/image_loss_mean": 3.0088857809702554, "train/image_loss_std": 7.857812066872914, "train/model_loss_mean": 6.1822578178511725, "train/model_loss_std": 11.983364780743917, "train/model_opt_grad_norm": 24.082402017381455, "train/model_opt_grad_steps": 343450.5416666667, "train/model_opt_loss": 15877.848103841146, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2569.4444444444443, "train/policy_entropy_mag": 2.6757145292229123, "train/policy_entropy_max": 2.6757145292229123, "train/policy_entropy_mean": 0.41362419351935387, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6088596702449851, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4142711791727278, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 1.040213635398282, "train/policy_randomness_mag": 0.9444098083509339, "train/policy_randomness_max": 0.9444098083509339, "train/policy_randomness_mean": 0.14599118806007835, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2149007444580396, "train/post_ent_mag": 54.91115829679701, "train/post_ent_max": 54.91115829679701, "train/post_ent_mean": 40.68145015504625, "train/post_ent_min": 19.533315896987915, "train/post_ent_std": 5.668773882918888, "train/prior_ent_mag": 76.70775847964816, "train/prior_ent_max": 76.70775847964816, "train/prior_ent_mean": 45.90831449296739, "train/prior_ent_min": 28.09221911430359, "train/prior_ent_std": 7.505696879492866, "train/rep_loss_mean": 5.20024006234275, "train/rep_loss_std": 8.687864581743876, "train/reward_avg": 0.03745795312958459, "train/reward_loss_mean": 0.05322141733227505, "train/reward_loss_std": 0.2134053527067105, "train/reward_max_data": 1.0305555628405676, "train/reward_max_pred": 1.0254651771651373, "train/reward_neg_acc": 0.9935539902912246, "train/reward_neg_loss": 0.02312203234113339, "train/reward_pos_acc": 0.9859918852647146, "train/reward_pos_loss": 0.742570531864961, "train/reward_pred": 0.03707066778507498, "train/reward_rate": 0.041924370659722224, "stats/sum_log_reward": 10.242857524326869, "stats/max_log_achievement_collect_coal": 0.42857142857142855, "stats/max_log_achievement_collect_drink": 3.142857142857143, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8571428571428572, "stats/max_log_achievement_collect_stone": 8.428571428571429, "stats/max_log_achievement_collect_wood": 10.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.8571428571428571, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.2857142857142857, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.8571428571428571, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 3.4285714285714284, "stats/max_log_achievement_place_table": 1.7142857142857142, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.2935563964503152, "replay/size": 689214.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.432137814254972e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3580489026542515e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2797989845276, "timer/env.step_count": 1444.0, "timer/env.step_total": 20.075985431671143, "timer/env.step_frac": 0.06685759581418126, "timer/env.step_avg": 0.013903037002542343, "timer/env.step_min": 0.0028340816497802734, "timer/env.step_max": 1.740880012512207, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.2684824466705322, "timer/replay.add_frac": 0.0008941075875848919, "timer/replay.add_avg": 0.00018592967220950986, "timer/replay.add_min": 6.079673767089844e-05, "timer/replay.add_max": 0.0010094642639160156, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022733688354492188, "timer/logger.write_frac": 7.570835078274306e-05, "timer/logger.write_avg": 0.022733688354492188, "timer/logger.write_min": 0.022733688354492188, "timer/logger.write_max": 0.022733688354492188, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.742807626724243, "timer/agent.policy_frac": 0.03577599180182542, "timer/agent.policy_avg": 0.007439617470030639, "timer/agent.policy_min": 0.006096363067626953, "timer/agent.policy_max": 0.015044927597045898, "timer/dataset_count": 722.0, "timer/dataset_total": 0.05703282356262207, "timer/dataset_frac": 0.00018993226902206891, "timer/dataset_avg": 7.899283041914414e-05, "timer/dataset_min": 5.984306335449219e-05, "timer/dataset_max": 0.00012826919555664062, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.4598846435547, "timer/agent.train_frac": 0.8940324509055221, "timer/agent.train_avg": 0.37182809507417547, "timer/agent.train_min": 0.36443233489990234, "timer/agent.train_max": 0.3845221996307373, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22250580787658691, "timer/agent.report_frac": 0.0007409949274944463, "timer/agent.report_avg": 0.22250580787658691, "timer/agent.report_min": 0.22250580787658691, "timer/agent.report_max": 0.22250580787658691, "fps": 4.808768536888421}
{"step": 689491, "episode/length": 427.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.035046728971962614}
{"step": 689575, "episode/length": 83.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 9.899999976158142, "episode/reward_rate": 0.11904761904761904}
{"step": 689735, "episode/length": 159.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.075}
{"step": 689961, "episode/length": 225.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.03982300884955752}
{"step": 690137, "episode/length": 175.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.06818181818181818}
{"step": 690324, "episode/length": 186.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.06417112299465241}
{"step": 690528, "episode/length": 203.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.058823529411764705}
{"step": 690690, "episode/length": 161.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.900000028312206, "episode/reward_rate": 0.05555555555555555}
{"step": 690691, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.512514785981514, "train/action_min": 0.0, "train/action_std": 3.3582514675570208, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.041185288886788865, "train/actor_opt_grad_steps": 344440.0, "train/actor_opt_loss": -12.175407698246795, "train/adv_mag": 0.3999727196256879, "train/adv_max": 0.33850301571295294, "train/adv_mean": 0.0018566717309100491, "train/adv_min": -0.3707522044719105, "train/adv_std": 0.04585513761135894, "train/cont_avg": 0.9948283450704225, "train/cont_loss_mean": 5.6213541874683415e-06, "train/cont_loss_std": 0.0001575692380703551, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0006162587332648598, "train/cont_pos_acc": 0.9999999815309552, "train/cont_pos_loss": 1.4613246975559505e-06, "train/cont_pred": 0.9948307712313155, "train/cont_rate": 0.9948283450704225, "train/dyn_loss_mean": 5.2249536850083045, "train/dyn_loss_std": 8.746310462414378, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0376498354992396, "train/extr_critic_critic_opt_grad_steps": 344440.0, "train/extr_critic_critic_opt_loss": 15891.607738226232, "train/extr_critic_mag": 11.023122720315422, "train/extr_critic_max": 11.023122720315422, "train/extr_critic_mean": 3.0655338159749204, "train/extr_critic_min": -0.4821607915448471, "train/extr_critic_std": 2.6794167186172917, "train/extr_return_normed_mag": 1.4145640235551646, "train/extr_return_normed_max": 1.4145640235551646, "train/extr_return_normed_mean": 0.3853536674254377, "train/extr_return_normed_min": -0.07727347109729135, "train/extr_return_normed_std": 0.32328233416651336, "train/extr_return_rate": 0.7786522935813581, "train/extr_return_raw_mag": 11.69856782026694, "train/extr_return_raw_max": 11.69856782026694, "train/extr_return_raw_mean": 3.0810331626677177, "train/extr_return_raw_min": -0.7929798855747975, "train/extr_return_raw_std": 2.7072613524719022, "train/extr_reward_mag": 1.0590402878506082, "train/extr_reward_max": 1.0590402878506082, "train/extr_reward_mean": 0.05689916318990815, "train/extr_reward_min": -0.6312736776513113, "train/extr_reward_std": 0.23020582887488353, "train/image_loss_mean": 2.976789565153525, "train/image_loss_std": 7.627084765635746, "train/model_loss_mean": 6.165557700143734, "train/model_loss_std": 11.753889567415479, "train/model_opt_grad_norm": 28.10495612990688, "train/model_opt_grad_steps": 344164.9718309859, "train/model_opt_loss": 15853.427981954226, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2570.4225352112676, "train/policy_entropy_mag": 2.7071469535290356, "train/policy_entropy_max": 2.7071469535290356, "train/policy_entropy_mean": 0.41541085654581095, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6124384906929983, "train/policy_logprob_mag": 7.438384244139765, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.415480567955635, "train/policy_logprob_min": -7.438384244139765, "train/policy_logprob_std": 1.0394111913694462, "train/policy_randomness_mag": 0.9555040765816057, "train/policy_randomness_max": 0.9555040765816057, "train/policy_randomness_mean": 0.14662180148379902, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21616391040069957, "train/post_ent_mag": 55.35706619477608, "train/post_ent_max": 55.35706619477608, "train/post_ent_mean": 40.50734425934268, "train/post_ent_min": 19.296420352559693, "train/post_ent_std": 5.690167521087217, "train/prior_ent_mag": 76.64308961680237, "train/prior_ent_max": 76.64308961680237, "train/prior_ent_mean": 45.73439230045802, "train/prior_ent_min": 28.1386901962925, "train/prior_ent_std": 7.621672059448672, "train/rep_loss_mean": 5.2249536850083045, "train/rep_loss_std": 8.746310462414378, "train/reward_avg": 0.039189040398513765, "train/reward_loss_mean": 0.05379031477889545, "train/reward_loss_std": 0.20365659724658644, "train/reward_max_data": 1.0323943739206018, "train/reward_max_pred": 1.0305160015401706, "train/reward_neg_acc": 0.994387944819222, "train/reward_neg_loss": 0.023040269042404606, "train/reward_pos_acc": 0.9908426781775246, "train/reward_pos_loss": 0.7205540848449922, "train/reward_pred": 0.038836470004958164, "train/reward_rate": 0.0439728213028169, "stats/sum_log_reward": 10.350000381469727, "stats/max_log_achievement_collect_coal": 0.625, "stats/max_log_achievement_collect_drink": 3.125, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.75, "stats/max_log_achievement_collect_stone": 12.875, "stats/max_log_achievement_collect_wood": 8.125, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.375, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.125, "stats/max_log_achievement_make_stone_sword": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.75, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 1.625, "stats/max_log_achievement_place_stone": 4.875, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.375, "stats/mean_log_entropy": 0.36630059219896793, "replay/size": 690628.0, "replay/inserts": 1414.0, "replay/samples": 11312.0, "replay/insert_wait_avg": 3.4346438870571626e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.351895730262767e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.09678411483765, "timer/env.step_count": 1414.0, "timer/env.step_total": 23.318453311920166, "timer/env.step_frac": 0.07770310961745236, "timer/env.step_avg": 0.016491126811824727, "timer/env.step_min": 0.002864837646484375, "timer/env.step_max": 1.8865950107574463, "timer/replay.add_count": 1414.0, "timer/replay.add_total": 0.2742347717285156, "timer/replay.add_frac": 0.0009138210945425345, "timer/replay.add_avg": 0.0001939425542634481, "timer/replay.add_min": 6.723403930664062e-05, "timer/replay.add_max": 0.0007998943328857422, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029729366302490234, "timer/logger.write_frac": 9.906592764790753e-05, "timer/logger.write_avg": 0.029729366302490234, "timer/logger.write_min": 0.029729366302490234, "timer/logger.write_max": 0.029729366302490234, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003120899200439453, "timer/checkpoint.save_frac": 1.0399642267559865e-06, "timer/checkpoint.save_avg": 0.0003120899200439453, "timer/checkpoint.save_min": 0.0003120899200439453, "timer/checkpoint.save_max": 0.0003120899200439453, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2404537200927734, "timer/agent.save_frac": 0.00413351220590918, "timer/agent.save_avg": 1.2404537200927734, "timer/agent.save_min": 1.2404537200927734, "timer/agent.save_max": 1.2404537200927734, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.270408630371094e-05, "timer/replay.save_frac": 2.0894621209841437e-07, "timer/replay.save_avg": 6.270408630371094e-05, "timer/replay.save_min": 6.270408630371094e-05, "timer/replay.save_max": 6.270408630371094e-05, "timer/agent.policy_count": 1414.0, "timer/agent.policy_total": 12.309842824935913, "timer/agent.policy_frac": 0.04101957593862559, "timer/agent.policy_avg": 0.008705687995004182, "timer/agent.policy_min": 0.005840778350830078, "timer/agent.policy_max": 1.2338712215423584, "timer/dataset_count": 707.0, "timer/dataset_total": 0.05686187744140625, "timer/dataset_frac": 0.0001894784631202412, "timer/dataset_avg": 8.042698365121111e-05, "timer/dataset_min": 6.175041198730469e-05, "timer/dataset_max": 0.00015854835510253906, "timer/agent.train_count": 707.0, "timer/agent.train_total": 263.45380902290344, "timer/agent.train_frac": 0.8778961420729118, "timer/agent.train_avg": 0.3726362220974589, "timer/agent.train_min": 0.36278772354125977, "timer/agent.train_max": 0.8791577816009521, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21970200538635254, "timer/agent.report_frac": 0.0007321038312169298, "timer/agent.report_avg": 0.21970200538635254, "timer/agent.report_min": 0.21970200538635254, "timer/agent.report_max": 0.21970200538635254, "fps": 4.7117344553696086}
{"step": 690874, "episode/length": 183.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.06521739130434782}
{"step": 690940, "episode/length": 65.0, "episode/score": 7.099999971687794, "episode/sum_abs_reward": 9.100000031292439, "episode/reward_rate": 0.13636363636363635}
{"step": 691163, "episode/length": 222.0, "episode/score": 11.1000000461936, "episode/sum_abs_reward": 14.300000049173832, "episode/reward_rate": 0.05829596412556054}
{"step": 691332, "episode/length": 168.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 11.500000044703484, "episode/reward_rate": 0.05917159763313609}
{"step": 691381, "episode/length": 48.0, "episode/score": 3.0999999716877937, "episode/sum_abs_reward": 5.1000000312924385, "episode/reward_rate": 0.10204081632653061}
{"step": 691549, "episode/length": 167.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.100000031292439, "episode/reward_rate": 0.06547619047619048}
{"step": 691720, "episode/length": 170.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.500000022351742, "episode/reward_rate": 0.05263157894736842}
{"step": 691926, "episode/length": 205.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.06310679611650485}
{"step": 692129, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.540364583333333, "train/action_min": 0.0, "train/action_std": 3.415116161108017, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0398684644088563, "train/actor_opt_grad_steps": 345155.0, "train/actor_opt_loss": -13.960575309064653, "train/adv_mag": 0.4227825216948986, "train/adv_max": 0.37579256089197266, "train/adv_mean": 0.001535300668668545, "train/adv_min": -0.3681307178404596, "train/adv_std": 0.04576915792293019, "train/cont_avg": 0.9947645399305556, "train/cont_loss_mean": 1.6919579787592436e-05, "train/cont_loss_std": 0.0004752184006425371, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0018621798404634404, "train/cont_pos_acc": 0.9999999809596274, "train/cont_pos_loss": 5.497482946993494e-06, "train/cont_pred": 0.9947687031494247, "train/cont_rate": 0.9947645399305556, "train/dyn_loss_mean": 5.252902044190301, "train/dyn_loss_std": 8.77755476368798, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0072746922572453, "train/extr_critic_critic_opt_grad_steps": 345155.0, "train/extr_critic_critic_opt_loss": 15929.164428710938, "train/extr_critic_mag": 11.213211880789864, "train/extr_critic_max": 11.213211880789864, "train/extr_critic_mean": 2.952617804209391, "train/extr_critic_min": -0.4701005568106969, "train/extr_critic_std": 2.727867133087582, "train/extr_return_normed_mag": 1.4336904618475173, "train/extr_return_normed_max": 1.4336904618475173, "train/extr_return_normed_mean": 0.3706849147048261, "train/extr_return_normed_min": -0.07800417083005111, "train/extr_return_normed_std": 0.32771355741553837, "train/extr_return_rate": 0.7618146356609132, "train/extr_return_raw_mag": 11.903989593187967, "train/extr_return_raw_max": 11.903989593187967, "train/extr_return_raw_mean": 2.965556596716245, "train/extr_return_raw_min": -0.808144983732038, "train/extr_return_raw_std": 2.7558620472749076, "train/extr_reward_mag": 1.0531564719147153, "train/extr_reward_max": 1.0531564719147153, "train/extr_reward_mean": 0.05426805487109555, "train/extr_reward_min": -0.6687419629759259, "train/extr_reward_std": 0.22499709079662958, "train/image_loss_mean": 3.0992629395590887, "train/image_loss_std": 8.241059680779776, "train/model_loss_mean": 6.305733780066173, "train/model_loss_std": 12.383441633648342, "train/model_opt_grad_norm": 24.328032029999626, "train/model_opt_grad_steps": 344879.0, "train/model_opt_loss": 15764.334350585938, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6762457258171506, "train/policy_entropy_max": 2.6762457258171506, "train/policy_entropy_mean": 0.4471541816989581, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6413060811658701, "train/policy_logprob_mag": 7.438384268018934, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4469649977982044, "train/policy_logprob_min": -7.438384268018934, "train/policy_logprob_std": 1.0618650457925267, "train/policy_randomness_mag": 0.9445972939332327, "train/policy_randomness_max": 0.9445972939332327, "train/policy_randomness_mean": 0.15782580545379055, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22635290461281934, "train/post_ent_mag": 55.02910481558906, "train/post_ent_max": 55.02910481558906, "train/post_ent_mean": 40.752674155765106, "train/post_ent_min": 19.303153024779427, "train/post_ent_std": 5.688020560476515, "train/prior_ent_mag": 76.61944919162326, "train/prior_ent_max": 76.61944919162326, "train/prior_ent_mean": 46.011538664499916, "train/prior_ent_min": 28.203710476557415, "train/prior_ent_std": 7.591214173369938, "train/rep_loss_mean": 5.252902044190301, "train/rep_loss_std": 8.77755476368798, "train/reward_avg": 0.037338595656264156, "train/reward_loss_mean": 0.05471264695127805, "train/reward_loss_std": 0.21391010926001602, "train/reward_max_data": 1.0152777814202838, "train/reward_max_pred": 1.0133271896176868, "train/reward_neg_acc": 0.9937397597564591, "train/reward_neg_loss": 0.02514712407719344, "train/reward_pos_acc": 0.9882563799619675, "train/reward_pos_loss": 0.7279934651321835, "train/reward_pred": 0.037140357644400664, "train/reward_rate": 0.04212782118055555, "stats/sum_log_reward": 8.975000202655792, "stats/max_log_achievement_collect_coal": 0.375, "stats/max_log_achievement_collect_drink": 3.375, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.25, "stats/max_log_achievement_collect_stone": 7.375, "stats/max_log_achievement_collect_wood": 8.25, "stats/max_log_achievement_defeat_skeleton": 0.25, "stats/max_log_achievement_defeat_zombie": 0.375, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 1.125, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 2.5, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.2705341726541519, "replay/size": 692066.0, "replay/inserts": 1438.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.3753306212445127e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.349601692549874e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.24152755737305, "timer/env.step_count": 1438.0, "timer/env.step_total": 21.273852825164795, "timer/env.step_frac": 0.0708557973250372, "timer/env.step_avg": 0.014794056206651456, "timer/env.step_min": 0.0028505325317382812, "timer/env.step_max": 1.7264204025268555, "timer/replay.add_count": 1438.0, "timer/replay.add_total": 0.2558279037475586, "timer/replay.add_frac": 0.0008520736815751529, "timer/replay.add_avg": 0.00017790535726533977, "timer/replay.add_min": 5.984306335449219e-05, "timer/replay.add_max": 0.0008480548858642578, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03115701675415039, "timer/logger.write_frac": 0.00010377317557510964, "timer/logger.write_avg": 0.03115701675415039, "timer/logger.write_min": 0.03115701675415039, "timer/logger.write_max": 0.03115701675415039, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1438.0, "timer/agent.policy_total": 10.499101877212524, "timer/agent.policy_frac": 0.03496885311844896, "timer/agent.policy_avg": 0.007301183502929433, "timer/agent.policy_min": 0.005820751190185547, "timer/agent.policy_max": 0.01517629623413086, "timer/dataset_count": 719.0, "timer/dataset_total": 0.05613112449645996, "timer/dataset_frac": 0.00018695323379519472, "timer/dataset_avg": 7.806832336086226e-05, "timer/dataset_min": 5.888938903808594e-05, "timer/dataset_max": 0.0001201629638671875, "timer/agent.train_count": 719.0, "timer/agent.train_total": 267.47459602355957, "timer/agent.train_frac": 0.8908647587814046, "timer/agent.train_avg": 0.37200917388534016, "timer/agent.train_min": 0.36518073081970215, "timer/agent.train_max": 0.3857302665710449, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22105813026428223, "timer/agent.report_frac": 0.0007362676711070233, "timer/agent.report_avg": 0.22105813026428223, "timer/agent.report_min": 0.22105813026428223, "timer/agent.report_max": 0.22105813026428223, "fps": 4.7893816604634765}
{"step": 692192, "episode/length": 265.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.05263157894736842}
{"step": 692346, "episode/length": 153.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.07792207792207792}
{"step": 692540, "episode/length": 193.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.05670103092783505}
{"step": 692685, "episode/length": 144.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.900000028312206, "episode/reward_rate": 0.06206896551724138}
{"step": 692912, "episode/length": 226.0, "episode/score": 13.099999994039536, "episode/sum_abs_reward": 15.300000011920929, "episode/reward_rate": 0.06607929515418502}
{"step": 693147, "episode/length": 234.0, "episode/score": 12.100000023841858, "episode/sum_abs_reward": 13.900000005960464, "episode/reward_rate": 0.059574468085106386}
{"step": 693335, "episode/length": 187.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.06914893617021277}
{"step": 693575, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.472096761067708, "train/action_min": 0.0, "train/action_std": 3.3608724176883698, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04016379996513327, "train/actor_opt_grad_steps": 345875.0, "train/actor_opt_loss": -14.24334775045928, "train/adv_mag": 0.4107104709578885, "train/adv_max": 0.37388948496017194, "train/adv_mean": 0.0012988329744985094, "train/adv_min": -0.3494960880941815, "train/adv_std": 0.04573657953490814, "train/cont_avg": 0.9949951171875, "train/cont_loss_mean": 2.790376764218018e-06, "train/cont_loss_std": 7.603346731214582e-05, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 4.615596215824274e-05, "train/cont_pos_acc": 0.9999999834431542, "train/cont_pos_loss": 2.5699029738824997e-06, "train/cont_pred": 0.9949929300281737, "train/cont_rate": 0.9949951171875, "train/dyn_loss_mean": 5.448170257939233, "train/dyn_loss_std": 8.878191166453892, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0298826719323795, "train/extr_critic_critic_opt_grad_steps": 345875.0, "train/extr_critic_critic_opt_loss": 15987.260281032986, "train/extr_critic_mag": 11.019122057490879, "train/extr_critic_max": 11.019122057490879, "train/extr_critic_mean": 2.932306836048762, "train/extr_critic_min": -0.47430651386578876, "train/extr_critic_std": 2.6520811551147037, "train/extr_return_normed_mag": 1.4228815817170672, "train/extr_return_normed_max": 1.4228815817170672, "train/extr_return_normed_mean": 0.3693258660948939, "train/extr_return_normed_min": -0.07750636693607602, "train/extr_return_normed_std": 0.31935716420412064, "train/extr_return_rate": 0.7802825189299054, "train/extr_return_raw_mag": 11.791753239101833, "train/extr_return_raw_max": 11.791753239101833, "train/extr_return_raw_mean": 2.9432002289427652, "train/extr_return_raw_min": -0.8096439929472076, "train/extr_return_raw_std": 2.6822539369265237, "train/extr_reward_mag": 1.0556393199496799, "train/extr_reward_max": 1.0556393199496799, "train/extr_reward_mean": 0.055064154892332025, "train/extr_reward_min": -0.6443603800402747, "train/extr_reward_std": 0.22638825182285574, "train/image_loss_mean": 3.2112305180894003, "train/image_loss_std": 8.399594757292006, "train/model_loss_mean": 6.535217202372021, "train/model_loss_std": 12.620601481861538, "train/model_opt_grad_norm": 26.648579200108845, "train/model_opt_grad_steps": 345598.5138888889, "train/model_opt_loss": 19057.584391276043, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2881.9444444444443, "train/policy_entropy_mag": 2.657881442043516, "train/policy_entropy_max": 2.657881442043516, "train/policy_entropy_mean": 0.4300537461207973, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6215379006332822, "train/policy_logprob_mag": 7.43838424815072, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4309069835063484, "train/policy_logprob_min": -7.43838424815072, "train/policy_logprob_std": 1.0511528162492647, "train/policy_randomness_mag": 0.9381155115034845, "train/policy_randomness_max": 0.9381155115034845, "train/policy_randomness_mean": 0.15179009849412572, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21937560269402134, "train/post_ent_mag": 55.25835503472222, "train/post_ent_max": 55.25835503472222, "train/post_ent_mean": 40.71717309951782, "train/post_ent_min": 19.39410126209259, "train/post_ent_std": 5.753279209136963, "train/prior_ent_mag": 76.66529729631212, "train/prior_ent_max": 76.66529729631212, "train/prior_ent_mean": 46.16275665495131, "train/prior_ent_min": 27.86996955341763, "train/prior_ent_std": 7.604091114468044, "train/rep_loss_mean": 5.448170257939233, "train/rep_loss_std": 8.878191166453892, "train/reward_avg": 0.03976779480257796, "train/reward_loss_mean": 0.05508181292356716, "train/reward_loss_std": 0.2161063382195102, "train/reward_max_data": 1.022222227520413, "train/reward_max_pred": 1.0226129293441772, "train/reward_neg_acc": 0.99385430994961, "train/reward_neg_loss": 0.023610522479025856, "train/reward_pos_acc": 0.9873137043582069, "train/reward_pos_loss": 0.7372470133834415, "train/reward_pred": 0.03944716537888679, "train/reward_rate": 0.04428439670138889, "stats/sum_log_reward": 11.385714530944824, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 4.714285714285714, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 10.714285714285714, "stats/max_log_achievement_collect_wood": 13.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.2857142857142858, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.7142857142857143, "stats/max_log_achievement_make_wood_pickaxe": 1.2857142857142858, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.7142857142857142, "stats/max_log_achievement_place_stone": 2.4285714285714284, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3610406241246632, "replay/size": 693512.0, "replay/inserts": 1446.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.4870778211749275e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3866736186490515e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.309419631958, "timer/env.step_count": 1446.0, "timer/env.step_total": 19.714783906936646, "timer/env.step_frac": 0.06564823684551072, "timer/env.step_avg": 0.013634013766899478, "timer/env.step_min": 0.002882242202758789, "timer/env.step_max": 1.6464953422546387, "timer/replay.add_count": 1446.0, "timer/replay.add_total": 0.2765953540802002, "timer/replay.add_frac": 0.0009210345596857388, "timer/replay.add_avg": 0.00019128309410802226, "timer/replay.add_min": 6.198883056640625e-05, "timer/replay.add_max": 0.010868549346923828, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02185535430908203, "timer/logger.write_frac": 7.277611982956345e-05, "timer/logger.write_avg": 0.02185535430908203, "timer/logger.write_min": 0.02185535430908203, "timer/logger.write_max": 0.02185535430908203, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1446.0, "timer/agent.policy_total": 10.662452459335327, "timer/agent.policy_frac": 0.035504888499343835, "timer/agent.policy_avg": 0.007373756887507142, "timer/agent.policy_min": 0.005854129791259766, "timer/agent.policy_max": 0.015269994735717773, "timer/dataset_count": 723.0, "timer/dataset_total": 0.0575251579284668, "timer/dataset_frac": 0.00019155295894136896, "timer/dataset_avg": 7.956453378764425e-05, "timer/dataset_min": 5.7697296142578125e-05, "timer/dataset_max": 0.0002014636993408203, "timer/agent.train_count": 723.0, "timer/agent.train_total": 268.91428112983704, "timer/agent.train_frac": 0.8954573634733234, "timer/agent.train_avg": 0.3719422975516418, "timer/agent.train_min": 0.36383676528930664, "timer/agent.train_max": 0.3839139938354492, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2206716537475586, "timer/agent.report_frac": 0.0007348142925986175, "timer/agent.report_avg": 0.2206716537475586, "timer/agent.report_min": 0.2206716537475586, "timer/agent.report_max": 0.2206716537475586, "fps": 4.8149385125643285}
{"step": 693614, "episode/length": 278.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.100000038743019, "episode/reward_rate": 0.04659498207885305}
{"step": 693827, "episode/length": 212.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.056338028169014086}
{"step": 694258, "episode/length": 430.0, "episode/score": 13.099999971687794, "episode/sum_abs_reward": 17.10000006109476, "episode/reward_rate": 0.03480278422273782}
{"step": 694450, "episode/length": 191.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.06770833333333333}
{"step": 694611, "episode/length": 160.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.08074534161490683}
{"step": 694818, "episode/length": 206.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.06763285024154589}
{"step": 695007, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.48142835828993, "train/action_min": 0.0, "train/action_std": 3.3738311496045856, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04167698504817155, "train/actor_opt_grad_steps": 346595.0, "train/actor_opt_loss": -10.949206670125326, "train/adv_mag": 0.3977534878585074, "train/adv_max": 0.35190195134944385, "train/adv_mean": 0.00244744330785175, "train/adv_min": -0.3502887479133076, "train/adv_std": 0.046866228648771845, "train/cont_avg": 0.9950222439236112, "train/cont_loss_mean": 7.1305611932557e-06, "train/cont_loss_std": 0.0001875952275400334, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 6.786966704477752e-05, "train/cont_pos_acc": 0.9999999867545234, "train/cont_pos_loss": 7.0220059973122616e-06, "train/cont_pred": 0.9950157735082839, "train/cont_rate": 0.9950222439236112, "train/dyn_loss_mean": 5.311031116379632, "train/dyn_loss_std": 8.730169905556572, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0242418100436528, "train/extr_critic_critic_opt_grad_steps": 346595.0, "train/extr_critic_critic_opt_loss": 16104.37164984809, "train/extr_critic_mag": 11.07762062549591, "train/extr_critic_max": 11.07762062549591, "train/extr_critic_mean": 2.941450231605106, "train/extr_critic_min": -0.4643643581204944, "train/extr_critic_std": 2.653571269578404, "train/extr_return_normed_mag": 1.4261299272378285, "train/extr_return_normed_max": 1.4261299272378285, "train/extr_return_normed_mean": 0.37171868835058475, "train/extr_return_normed_min": -0.0709010271045069, "train/extr_return_normed_std": 0.32182055960098904, "train/extr_return_rate": 0.7812952515151765, "train/extr_return_raw_mag": 11.746864411565992, "train/extr_return_raw_max": 11.746864411565992, "train/extr_return_raw_mean": 2.9618426064650216, "train/extr_return_raw_min": -0.7263993463582463, "train/extr_return_raw_std": 2.6818041569656796, "train/extr_reward_mag": 1.0551409092214372, "train/extr_reward_max": 1.0551409092214372, "train/extr_reward_mean": 0.05709621568934785, "train/extr_reward_min": -0.6270087824927436, "train/extr_reward_std": 0.22982863460977873, "train/image_loss_mean": 3.0870328313774533, "train/image_loss_std": 8.089220570193397, "train/model_loss_mean": 6.327675011422899, "train/model_loss_std": 12.200600266456604, "train/model_opt_grad_norm": 28.23840794298384, "train/model_opt_grad_steps": 346317.90277777775, "train/model_opt_loss": 15819.187554253473, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.665246307849884, "train/policy_entropy_max": 2.665246307849884, "train/policy_entropy_mean": 0.4162698274271356, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6036476054125361, "train/policy_logprob_mag": 7.438384274641673, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4169229177965058, "train/policy_logprob_min": -7.438384274641673, "train/policy_logprob_std": 1.037874004079236, "train/policy_randomness_mag": 0.9407149876157442, "train/policy_randomness_max": 0.9407149876157442, "train/policy_randomness_mean": 0.1469249843309323, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21306111260006824, "train/post_ent_mag": 54.9899410671658, "train/post_ent_max": 54.9899410671658, "train/post_ent_mean": 40.63541926278008, "train/post_ent_min": 19.16298113928901, "train/post_ent_std": 5.724100742075178, "train/prior_ent_mag": 76.74834304385715, "train/prior_ent_max": 76.74834304385715, "train/prior_ent_mean": 45.973273012373184, "train/prior_ent_min": 28.125193383958603, "train/prior_ent_std": 7.593085077073839, "train/rep_loss_mean": 5.311031116379632, "train/rep_loss_std": 8.730169905556572, "train/reward_avg": 0.03919406455113656, "train/reward_loss_mean": 0.05401642822350065, "train/reward_loss_std": 0.20901760769387087, "train/reward_max_data": 1.0194444490803614, "train/reward_max_pred": 1.0153093834718068, "train/reward_neg_acc": 0.994305486480395, "train/reward_neg_loss": 0.023138209530669782, "train/reward_pos_acc": 0.9877505285872353, "train/reward_pos_loss": 0.7308697195516692, "train/reward_pred": 0.03878337752798365, "train/reward_rate": 0.043755425347222224, "stats/sum_log_reward": 12.266667048136393, "stats/max_log_achievement_collect_coal": 1.8333333333333333, "stats/max_log_achievement_collect_drink": 5.666666666666667, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.6666666666666665, "stats/max_log_achievement_collect_stone": 9.833333333333334, "stats/max_log_achievement_collect_wood": 10.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.1666666666666667, "stats/max_log_achievement_place_plant": 2.3333333333333335, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 2.1666666666666665, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.42947421471277875, "replay/size": 694944.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.469223416717359e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3479099260362166e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3711647987366, "timer/env.step_count": 1432.0, "timer/env.step_total": 20.006547451019287, "timer/env.step_frac": 0.06660608538913733, "timer/env.step_avg": 0.01397105268925928, "timer/env.step_min": 0.00286865234375, "timer/env.step_max": 1.7837498188018799, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.26200413703918457, "timer/replay.add_frac": 0.0008722679396164415, "timer/replay.add_avg": 0.00018296378284859258, "timer/replay.add_min": 6.103515625e-05, "timer/replay.add_max": 0.003765583038330078, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02347111701965332, "timer/logger.write_frac": 7.81403802038725e-05, "timer/logger.write_avg": 0.02347111701965332, "timer/logger.write_min": 0.02347111701965332, "timer/logger.write_max": 0.02347111701965332, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00048351287841796875, "timer/checkpoint.save_frac": 1.6097180258362886e-06, "timer/checkpoint.save_avg": 0.00048351287841796875, "timer/checkpoint.save_min": 0.00048351287841796875, "timer/checkpoint.save_max": 0.00048351287841796875, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2499744892120361, "timer/agent.save_frac": 0.004161433039185304, "timer/agent.save_avg": 1.2499744892120361, "timer/agent.save_min": 1.2499744892120361, "timer/agent.save_max": 1.2499744892120361, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.939338684082031e-05, "timer/replay.save_frac": 2.6431760483406516e-07, "timer/replay.save_avg": 7.939338684082031e-05, "timer/replay.save_min": 7.939338684082031e-05, "timer/replay.save_max": 7.939338684082031e-05, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 12.417994499206543, "timer/agent.policy_frac": 0.0413421658085163, "timer/agent.policy_avg": 0.008671783868160993, "timer/agent.policy_min": 0.005986690521240234, "timer/agent.policy_max": 1.2415533065795898, "timer/dataset_count": 716.0, "timer/dataset_total": 0.056856393814086914, "timer/dataset_frac": 0.0001892871236564385, "timer/dataset_avg": 7.940837124872474e-05, "timer/dataset_min": 5.8650970458984375e-05, "timer/dataset_max": 0.00012826919555664062, "timer/agent.train_count": 716.0, "timer/agent.train_total": 266.9453933238983, "timer/agent.train_frac": 0.8887184410752771, "timer/agent.train_avg": 0.3728287616255563, "timer/agent.train_min": 0.3657553195953369, "timer/agent.train_max": 0.8889753818511963, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22280669212341309, "timer/agent.report_frac": 0.0007417712424982755, "timer/agent.report_avg": 0.22280669212341309, "timer/agent.report_min": 0.22280669212341309, "timer/agent.report_max": 0.22280669212341309, "fps": 4.767331303461667}
{"step": 695013, "episode/length": 194.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.06153846153846154}
{"step": 695191, "episode/length": 177.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.300000041723251, "episode/reward_rate": 0.0449438202247191}
{"step": 695496, "episode/length": 304.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.900000050663948, "episode/reward_rate": 0.04262295081967213}
{"step": 695724, "episode/length": 227.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.05701754385964912}
{"step": 695890, "episode/length": 165.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.06626506024096386}
{"step": 696077, "episode/length": 186.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 11.5, "episode/reward_rate": 0.058823529411764705}
{"step": 696250, "episode/length": 172.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.06936416184971098}
{"step": 696444, "episode/length": 193.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.061855670103092786}
{"step": 696445, "stats/sum_log_reward": 10.475000143051147, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 2.375, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.125, "stats/max_log_achievement_collect_stone": 9.25, "stats/max_log_achievement_collect_wood": 13.125, "stats/max_log_achievement_defeat_skeleton": 0.25, "stats/max_log_achievement_defeat_zombie": 0.875, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.125, "stats/max_log_achievement_place_furnace": 0.875, "stats/max_log_achievement_place_plant": 1.625, "stats/max_log_achievement_place_stone": 2.75, "stats/max_log_achievement_place_table": 2.625, "stats/max_log_achievement_wake_up": 1.125, "stats/mean_log_entropy": 0.3462960198521614, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.562090555826823, "train/action_min": 0.0, "train/action_std": 3.4594596558147006, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04275039485138324, "train/actor_opt_grad_steps": 347315.0, "train/actor_opt_loss": -11.400927895990511, "train/adv_mag": 0.4205034354494678, "train/adv_max": 0.36201442115836674, "train/adv_mean": 0.0028069110452532994, "train/adv_min": -0.3704119978679551, "train/adv_std": 0.047713587526232004, "train/cont_avg": 0.9946017795138888, "train/cont_loss_mean": 1.1912766204602576e-05, "train/cont_loss_std": 0.0003450659059431871, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 3.808517659499423e-05, "train/cont_pos_acc": 0.9999999817874696, "train/cont_pos_loss": 1.1762913829945395e-05, "train/cont_pred": 0.9945924505591393, "train/cont_rate": 0.9946017795138888, "train/dyn_loss_mean": 5.26406510008706, "train/dyn_loss_std": 8.837530182467567, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0350852054026392, "train/extr_critic_critic_opt_grad_steps": 347315.0, "train/extr_critic_critic_opt_loss": 16140.573133680555, "train/extr_critic_mag": 11.250898321469625, "train/extr_critic_max": 11.250898321469625, "train/extr_critic_mean": 2.996464788913727, "train/extr_critic_min": -0.46314679582913715, "train/extr_critic_std": 2.708144403166241, "train/extr_return_normed_mag": 1.4370363222228155, "train/extr_return_normed_max": 1.4370363222228155, "train/extr_return_normed_mean": 0.3736526543895404, "train/extr_return_normed_min": -0.07358649600711134, "train/extr_return_normed_std": 0.3268469004995293, "train/extr_return_rate": 0.7771231631437937, "train/extr_return_raw_mag": 11.951402147610983, "train/extr_return_raw_max": 11.951402147610983, "train/extr_return_raw_mean": 3.0200389391846127, "train/extr_return_raw_min": -0.73651063359446, "train/extr_return_raw_std": 2.745555645889706, "train/extr_reward_mag": 1.0692464013894398, "train/extr_reward_max": 1.0692464013894398, "train/extr_reward_mean": 0.057530438993126154, "train/extr_reward_min": -0.6322445273399353, "train/extr_reward_std": 0.2315601162198517, "train/image_loss_mean": 3.175563802321752, "train/image_loss_std": 8.27797630098131, "train/model_loss_mean": 6.389371587170495, "train/model_loss_std": 12.423952526516384, "train/model_opt_grad_norm": 26.427805821100872, "train/model_opt_grad_steps": 347037.0, "train/model_opt_loss": 15973.428982204861, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.696602053112454, "train/policy_entropy_max": 2.696602053112454, "train/policy_entropy_mean": 0.4214871364335219, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6108607057895925, "train/policy_logprob_mag": 7.438384228282505, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.42024141425887745, "train/policy_logprob_min": -7.438384228282505, "train/policy_logprob_std": 1.0390156226025686, "train/policy_randomness_mag": 0.951782189309597, "train/policy_randomness_max": 0.951782189309597, "train/policy_randomness_mean": 0.14876645906931824, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21560702203876442, "train/post_ent_mag": 55.195048809051514, "train/post_ent_max": 55.195048809051514, "train/post_ent_mean": 40.67153141233656, "train/post_ent_min": 19.495051781336468, "train/post_ent_std": 5.753360006544325, "train/prior_ent_mag": 76.56898922390408, "train/prior_ent_max": 76.56898922390408, "train/prior_ent_mean": 45.91487693786621, "train/prior_ent_min": 28.406690067715115, "train/prior_ent_std": 7.58783268266254, "train/rep_loss_mean": 5.26406510008706, "train/rep_loss_std": 8.837530182467567, "train/reward_avg": 0.03880208316776487, "train/reward_loss_mean": 0.055356801125324435, "train/reward_loss_std": 0.20677451685898834, "train/reward_max_data": 1.027777784400516, "train/reward_max_pred": 1.0263754543330934, "train/reward_neg_acc": 0.9931900766160753, "train/reward_neg_loss": 0.024925361904833052, "train/reward_pos_acc": 0.990471386247211, "train/reward_pos_loss": 0.720256802936395, "train/reward_pred": 0.0386342599004921, "train/reward_rate": 0.04368760850694445, "replay/size": 696382.0, "replay/inserts": 1438.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.4066665819191965e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3380372308723121e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.10164880752563, "timer/env.step_count": 1438.0, "timer/env.step_total": 21.292452096939087, "timer/env.step_frac": 0.07095080010905004, "timer/env.step_avg": 0.01480699033166835, "timer/env.step_min": 0.0029299259185791016, "timer/env.step_max": 1.7099888324737549, "timer/replay.add_count": 1438.0, "timer/replay.add_total": 0.2521538734436035, "timer/replay.add_frac": 0.0008402282174908206, "timer/replay.add_avg": 0.0001753503987785838, "timer/replay.add_min": 5.984306335449219e-05, "timer/replay.add_max": 0.0008900165557861328, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023392438888549805, "timer/logger.write_frac": 7.794838509385488e-05, "timer/logger.write_avg": 0.023392438888549805, "timer/logger.write_min": 0.023392438888549805, "timer/logger.write_max": 0.023392438888549805, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1438.0, "timer/agent.policy_total": 10.532804250717163, "timer/agent.policy_frac": 0.03509745545407691, "timer/agent.policy_avg": 0.007324620480331824, "timer/agent.policy_min": 0.005935192108154297, "timer/agent.policy_max": 0.017697572708129883, "timer/dataset_count": 719.0, "timer/dataset_total": 0.05661940574645996, "timer/dataset_frac": 0.00018866742642514972, "timer/dataset_avg": 7.874743497421413e-05, "timer/dataset_min": 5.7697296142578125e-05, "timer/dataset_max": 0.000240325927734375, "timer/agent.train_count": 719.0, "timer/agent.train_total": 267.28268933296204, "timer/agent.train_frac": 0.8906405226196791, "timer/agent.train_avg": 0.37174226610982203, "timer/agent.train_min": 0.3658020496368408, "timer/agent.train_max": 0.38287806510925293, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22530555725097656, "timer/agent.report_frac": 0.0007507641432369451, "timer/agent.report_avg": 0.22530555725097656, "timer/agent.report_min": 0.22530555725097656, "timer/agent.report_max": 0.22530555725097656, "fps": 4.791628791719091}
{"step": 696628, "episode/length": 183.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 12.700000062584877, "episode/reward_rate": 0.059782608695652176}
{"step": 696877, "episode/length": 248.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.05220883534136546}
{"step": 697082, "episode/length": 204.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.05365853658536585}
{"step": 697286, "episode/length": 203.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.058823529411764705}
{"step": 697491, "episode/length": 204.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.05365853658536585}
{"step": 697735, "episode/length": 243.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.06147540983606557}
{"step": 697899, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.471365314640411, "train/action_min": 0.0, "train/action_std": 3.2895395429167027, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04092272031695059, "train/actor_opt_grad_steps": 348040.0, "train/actor_opt_loss": -11.626124610231347, "train/adv_mag": 0.3832084152796497, "train/adv_max": 0.3507229216294746, "train/adv_mean": 0.002510268605562973, "train/adv_min": -0.3361759883900211, "train/adv_std": 0.046249931295440624, "train/cont_avg": 0.994943279109589, "train/cont_loss_mean": 2.235274432654278e-05, "train/cont_loss_std": 0.0006889800427244545, "train/cont_neg_acc": 0.9980158739619784, "train/cont_neg_loss": 0.0018383380778516705, "train/cont_pos_acc": 0.9999999844864623, "train/cont_pos_loss": 1.0577452939369619e-05, "train/cont_pred": 0.9949421572358641, "train/cont_rate": 0.994943279109589, "train/dyn_loss_mean": 5.20145622671467, "train/dyn_loss_std": 8.751307820620601, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0016743695899233, "train/extr_critic_critic_opt_grad_steps": 348040.0, "train/extr_critic_critic_opt_loss": 15881.141400898972, "train/extr_critic_mag": 11.15410457245291, "train/extr_critic_max": 11.15410457245291, "train/extr_critic_mean": 3.1484575010325813, "train/extr_critic_min": -0.45873101770061336, "train/extr_critic_std": 2.71035568354881, "train/extr_return_normed_mag": 1.423312926945621, "train/extr_return_normed_max": 1.423312926945621, "train/extr_return_normed_mean": 0.38665171600367926, "train/extr_return_normed_min": -0.07664211737374736, "train/extr_return_normed_std": 0.3244463450288119, "train/extr_return_rate": 0.7953232428798936, "train/extr_return_raw_mag": 11.917583256551664, "train/extr_return_raw_max": 11.917583256551664, "train/extr_return_raw_mean": 3.169648399091747, "train/extr_return_raw_min": -0.7393112888891403, "train/extr_return_raw_std": 2.737924040180363, "train/extr_reward_mag": 1.0603022836659053, "train/extr_reward_max": 1.0603022836659053, "train/extr_reward_mean": 0.05802990093010746, "train/extr_reward_min": -0.6350400464175499, "train/extr_reward_std": 0.2315832351985043, "train/image_loss_mean": 3.093813040485121, "train/image_loss_std": 8.134103944856827, "train/model_loss_mean": 6.2684419318421245, "train/model_loss_std": 12.257587393669233, "train/model_opt_grad_norm": 24.30253952079349, "train/model_opt_grad_steps": 347761.30136986304, "train/model_opt_loss": 16201.078887521404, "train/model_opt_model_opt_grad_overflow": 0.0136986301369863, "train/model_opt_model_opt_grad_scale": 2534.246575342466, "train/policy_entropy_mag": 2.6931888501938075, "train/policy_entropy_max": 2.6931888501938075, "train/policy_entropy_mean": 0.4040860135669578, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5972456438084172, "train/policy_logprob_mag": 7.438384297775896, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4050130250111018, "train/policy_logprob_min": -7.438384297775896, "train/policy_logprob_std": 1.033872467197784, "train/policy_randomness_mag": 0.9505774770697503, "train/policy_randomness_max": 0.9505774770697503, "train/policy_randomness_mean": 0.14262463203439973, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21080150108223092, "train/post_ent_mag": 55.83238335178323, "train/post_ent_max": 55.83238335178323, "train/post_ent_mean": 40.85568550841449, "train/post_ent_min": 19.358733072672806, "train/post_ent_std": 5.813657388295213, "train/prior_ent_mag": 76.65627236562233, "train/prior_ent_max": 76.65627236562233, "train/prior_ent_mean": 46.038436471599425, "train/prior_ent_min": 28.21389093790969, "train/prior_ent_std": 7.599187733375863, "train/rep_loss_mean": 5.20145622671467, "train/rep_loss_std": 8.751307820620601, "train/reward_avg": 0.040263805487384535, "train/reward_loss_mean": 0.05373280602571082, "train/reward_loss_std": 0.20470000007381178, "train/reward_max_data": 1.0315068568268868, "train/reward_max_pred": 1.0278918187912196, "train/reward_neg_acc": 0.9943739396252044, "train/reward_neg_loss": 0.022579565848389715, "train/reward_pos_acc": 0.9910022820511909, "train/reward_pos_loss": 0.7179633828058635, "train/reward_pred": 0.04003079087562757, "train/reward_rate": 0.04470783390410959, "stats/sum_log_reward": 11.266667048136393, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 1.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 16.833333333333332, "stats/max_log_achievement_collect_wood": 11.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.16666666666666666, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.6666666666666665, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 2.8333333333333335, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.2960509757200877, "replay/size": 697836.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.437392485354921e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.403373734003248e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2218871116638, "timer/env.step_count": 1454.0, "timer/env.step_total": 18.24540400505066, "timer/env.step_frac": 0.06077306415126392, "timer/env.step_avg": 0.01254842091131407, "timer/env.step_min": 0.002871990203857422, "timer/env.step_max": 1.6161129474639893, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.26197171211242676, "timer/replay.add_frac": 0.0008725936494263312, "timer/replay.add_avg": 0.00018017311699616696, "timer/replay.add_min": 5.8650970458984375e-05, "timer/replay.add_max": 0.0030744075775146484, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02087092399597168, "timer/logger.write_frac": 6.951832924895645e-05, "timer/logger.write_avg": 0.02087092399597168, "timer/logger.write_min": 0.02087092399597168, "timer/logger.write_max": 0.02087092399597168, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 10.841369152069092, "timer/agent.policy_frac": 0.03611118848252652, "timer/agent.policy_avg": 0.0074562373810654, "timer/agent.policy_min": 0.0060689449310302734, "timer/agent.policy_max": 0.017694473266601562, "timer/dataset_count": 727.0, "timer/dataset_total": 0.05879497528076172, "timer/dataset_frac": 0.0001958384042096626, "timer/dataset_avg": 8.0873418543001e-05, "timer/dataset_min": 6.151199340820312e-05, "timer/dataset_max": 0.00020599365234375, "timer/agent.train_count": 727.0, "timer/agent.train_total": 270.1306405067444, "timer/agent.train_frac": 0.899769977151175, "timer/agent.train_avg": 0.3715689690601711, "timer/agent.train_min": 0.36435985565185547, "timer/agent.train_max": 0.38506603240966797, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22397232055664062, "timer/agent.report_frac": 0.0007460226258365263, "timer/agent.report_avg": 0.22397232055664062, "timer/agent.report_min": 0.22397232055664062, "timer/agent.report_max": 0.22397232055664062, "fps": 4.842980568052315}
{"step": 697961, "episode/length": 225.0, "episode/score": 12.099999994039536, "episode/sum_abs_reward": 13.500000029802322, "episode/reward_rate": 0.05752212389380531}
{"step": 698487, "episode/length": 525.0, "episode/score": 13.1000000461936, "episode/sum_abs_reward": 17.500000067055225, "episode/reward_rate": 0.028517110266159697}
{"step": 698744, "episode/length": 256.0, "episode/score": 11.099999994039536, "episode/sum_abs_reward": 14.30000002682209, "episode/reward_rate": 0.05058365758754864}
{"step": 698931, "episode/length": 186.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.058823529411764705}
{"step": 699141, "episode/length": 209.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 14.900000013411045, "episode/reward_rate": 0.06666666666666667}
{"step": 699337, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.45703125, "train/action_min": 0.0, "train/action_std": 3.3242253451280193, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04077773053251522, "train/actor_opt_grad_steps": 348760.0, "train/actor_opt_loss": -12.411089813205558, "train/adv_mag": 0.4091795091058167, "train/adv_max": 0.3595615881429592, "train/adv_mean": 0.00196034414765448, "train/adv_min": -0.35598826786162147, "train/adv_std": 0.04588759722004474, "train/cont_avg": 0.9948145906690141, "train/cont_loss_mean": 8.322371859302705e-06, "train/cont_loss_std": 0.00020824714671648973, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0002695052242037151, "train/cont_pos_acc": 0.9999999815309552, "train/cont_pos_loss": 6.821269990318412e-06, "train/cont_pred": 0.9948095729653265, "train/cont_rate": 0.9948145906690141, "train/dyn_loss_mean": 5.3163870421933455, "train/dyn_loss_std": 8.826634124970772, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9954637095961772, "train/extr_critic_critic_opt_grad_steps": 348760.0, "train/extr_critic_critic_opt_loss": 15812.703193772008, "train/extr_critic_mag": 11.159198680394132, "train/extr_critic_max": 11.159198680394132, "train/extr_critic_mean": 3.052480497830351, "train/extr_critic_min": -0.4610447413484815, "train/extr_critic_std": 2.662821848627547, "train/extr_return_normed_mag": 1.4180885150399007, "train/extr_return_normed_max": 1.4180885150399007, "train/extr_return_normed_mean": 0.3762221703646888, "train/extr_return_normed_min": -0.08051251997830162, "train/extr_return_normed_std": 0.3196953707177874, "train/extr_return_rate": 0.7826704131045812, "train/extr_return_raw_mag": 11.841121284055038, "train/extr_return_raw_max": 11.841121284055038, "train/extr_return_raw_mean": 3.068975715570047, "train/extr_return_raw_min": -0.7770705038393048, "train/extr_return_raw_std": 2.69202286760572, "train/extr_reward_mag": 1.0629355302998718, "train/extr_reward_max": 1.0629355302998718, "train/extr_reward_mean": 0.055319313904349236, "train/extr_reward_min": -0.6490869135923789, "train/extr_reward_std": 0.22665877220496325, "train/image_loss_mean": 3.165086034318091, "train/image_loss_std": 8.567020268507406, "train/model_loss_mean": 6.408379044331295, "train/model_loss_std": 12.698683416339714, "train/model_opt_grad_norm": 27.53102564475906, "train/model_opt_grad_steps": 348480.76056338026, "train/model_opt_loss": 16922.18320862676, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2640.845070422535, "train/policy_entropy_mag": 2.68814836421483, "train/policy_entropy_max": 2.68814836421483, "train/policy_entropy_mean": 0.43020053627625315, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.63049030681731, "train/policy_logprob_mag": 7.438384297867896, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.43027470775053533, "train/policy_logprob_min": -7.438384297867896, "train/policy_logprob_std": 1.0529237431539615, "train/policy_randomness_mag": 0.9487984062920154, "train/policy_randomness_max": 0.9487984062920154, "train/policy_randomness_mean": 0.1518419121562595, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22253541081724032, "train/post_ent_mag": 55.62010294954542, "train/post_ent_max": 55.62010294954542, "train/post_ent_mean": 40.76188933681434, "train/post_ent_min": 19.684738105451558, "train/post_ent_std": 5.787814341800313, "train/prior_ent_mag": 76.70630452330683, "train/prior_ent_max": 76.70630452330683, "train/prior_ent_mean": 46.086715322145274, "train/prior_ent_min": 28.70840236502634, "train/prior_ent_std": 7.606709151200845, "train/rep_loss_mean": 5.3163870421933455, "train/rep_loss_std": 8.826634124970772, "train/reward_avg": 0.03829500409708896, "train/reward_loss_mean": 0.05345250776326153, "train/reward_loss_std": 0.20471372214001668, "train/reward_max_data": 1.0239436676804448, "train/reward_max_pred": 1.0219346469556783, "train/reward_neg_acc": 0.994111009047065, "train/reward_neg_loss": 0.023626020217550472, "train/reward_pos_acc": 0.9902906174391088, "train/reward_pos_loss": 0.7207526472252859, "train/reward_pred": 0.03803242252431285, "train/reward_rate": 0.042844960387323945, "stats/sum_log_reward": 11.900000381469727, "stats/max_log_achievement_collect_coal": 0.6, "stats/max_log_achievement_collect_drink": 4.8, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 17.0, "stats/max_log_achievement_collect_wood": 13.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.6, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_stone_pickaxe": 0.2, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.2, "stats/max_log_achievement_make_wood_sword": 1.6, "stats/max_log_achievement_place_furnace": 2.2, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 5.2, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.4, "stats/mean_log_entropy": 0.3829145222902298, "replay/size": 699274.0, "replay/inserts": 1438.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.4623749564519678e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3541818825691234e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.24369740486145, "timer/env.step_count": 1438.0, "timer/env.step_total": 18.365115880966187, "timer/env.step_frac": 0.06116736517603525, "timer/env.step_avg": 0.012771290598724748, "timer/env.step_min": 0.0027341842651367188, "timer/env.step_max": 1.8381242752075195, "timer/replay.add_count": 1438.0, "timer/replay.add_total": 0.3353111743927002, "timer/replay.add_frac": 0.0011167967131065278, "timer/replay.add_avg": 0.00023317884171954116, "timer/replay.add_min": 6.198883056640625e-05, "timer/replay.add_max": 0.07344245910644531, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.020711898803710938, "timer/logger.write_frac": 6.898362557726608e-05, "timer/logger.write_avg": 0.020711898803710938, "timer/logger.write_min": 0.020711898803710938, "timer/logger.write_max": 0.020711898803710938, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002512931823730469, "timer/checkpoint.save_frac": 8.369640546831943e-07, "timer/checkpoint.save_avg": 0.0002512931823730469, "timer/checkpoint.save_min": 0.0002512931823730469, "timer/checkpoint.save_max": 0.0002512931823730469, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.5050938129425049, "timer/agent.save_frac": 0.0050129072681681375, "timer/agent.save_avg": 1.5050938129425049, "timer/agent.save_min": 1.5050938129425049, "timer/agent.save_max": 1.5050938129425049, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.821487426757812e-05, "timer/replay.save_frac": 2.9381091103679493e-07, "timer/replay.save_avg": 8.821487426757812e-05, "timer/replay.save_min": 8.821487426757812e-05, "timer/replay.save_max": 8.821487426757812e-05, "timer/agent.policy_count": 1438.0, "timer/agent.policy_total": 12.83337116241455, "timer/agent.policy_frac": 0.04274318253251952, "timer/agent.policy_avg": 0.008924458388327226, "timer/agent.policy_min": 0.006182432174682617, "timer/agent.policy_max": 1.5044550895690918, "timer/dataset_count": 719.0, "timer/dataset_total": 0.058686017990112305, "timer/dataset_frac": 0.00019546128194317287, "timer/dataset_avg": 8.162172182213116e-05, "timer/dataset_min": 5.9604644775390625e-05, "timer/dataset_max": 0.00027179718017578125, "timer/agent.train_count": 719.0, "timer/agent.train_total": 267.9752893447876, "timer/agent.train_frac": 0.8925259436285127, "timer/agent.train_avg": 0.3727055484628478, "timer/agent.train_min": 0.36571407318115234, "timer/agent.train_max": 0.8739769458770752, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22025752067565918, "timer/agent.report_frac": 0.0007335958175956463, "timer/agent.report_avg": 0.22025752067565918, "timer/agent.report_min": 0.22025752067565918, "timer/agent.report_max": 0.22025752067565918, "fps": 4.789384219965041}
{"step": 699352, "episode/length": 210.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.05687203791469194}
{"step": 699417, "episode/length": 64.0, "episode/score": 7.100000023841858, "episode/sum_abs_reward": 8.899999976158142, "episode/reward_rate": 0.13846153846153847}
{"step": 699603, "episode/length": 185.0, "episode/score": 9.100000016391277, "episode/sum_abs_reward": 10.500000037252903, "episode/reward_rate": 0.053763440860215055}
{"step": 699806, "episode/length": 202.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.054187192118226604}
{"step": 699888, "episode/length": 81.0, "episode/score": 7.100000023841858, "episode/sum_abs_reward": 8.899999976158142, "episode/reward_rate": 0.10975609756097561}
{"step": 700103, "episode/length": 214.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 8.500000037252903, "episode/reward_rate": 0.027906976744186046}
{"step": 700383, "episode/length": 279.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 13.699999988079071, "episode/reward_rate": 0.04642857142857143}
{"step": 700576, "episode/length": 192.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.05181347150259067}
{"step": 700763, "episode/length": 186.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.053475935828877004}
{"step": 700767, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.540735032823351, "train/action_min": 0.0, "train/action_std": 3.441280427906248, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.040058371067668, "train/actor_opt_grad_steps": 349475.0, "train/actor_opt_loss": -12.128137444456419, "train/adv_mag": 0.3972402873138587, "train/adv_max": 0.35382237243983483, "train/adv_mean": 0.0021367468739804784, "train/adv_min": -0.3445891570299864, "train/adv_std": 0.045261658262461424, "train/cont_avg": 0.9949951171875, "train/cont_loss_mean": 3.5666592241807076e-05, "train/cont_loss_std": 0.0009953858811684313, "train/cont_neg_acc": 0.9976851857370801, "train/cont_neg_loss": 0.0020302816421510095, "train/cont_pos_acc": 0.9999863414300812, "train/cont_pos_loss": 2.3890554511080746e-05, "train/cont_pred": 0.9949827036923833, "train/cont_rate": 0.9949951171875, "train/dyn_loss_mean": 5.246490882502662, "train/dyn_loss_std": 8.813119365109337, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.023866071469254, "train/extr_critic_critic_opt_grad_steps": 349475.0, "train/extr_critic_critic_opt_loss": 15863.876776801215, "train/extr_critic_mag": 11.208682749006483, "train/extr_critic_max": 11.208682749006483, "train/extr_critic_mean": 3.035265564918518, "train/extr_critic_min": -0.4462517648935318, "train/extr_critic_std": 2.7132496568891735, "train/extr_return_normed_mag": 1.4160411804914474, "train/extr_return_normed_max": 1.4160411804914474, "train/extr_return_normed_mean": 0.3732852449433671, "train/extr_return_normed_min": -0.08404936879459354, "train/extr_return_normed_std": 0.32531776196426815, "train/extr_return_rate": 0.7848805040121078, "train/extr_return_raw_mag": 11.859270029597813, "train/extr_return_raw_max": 11.859270029597813, "train/extr_return_raw_mean": 3.0533202257421284, "train/extr_return_raw_min": -0.8087681370476881, "train/extr_return_raw_std": 2.7473454574743905, "train/extr_reward_mag": 1.05920633342531, "train/extr_reward_max": 1.05920633342531, "train/extr_reward_mean": 0.054653643578704864, "train/extr_reward_min": -0.6272397057877647, "train/extr_reward_std": 0.22597232274711132, "train/image_loss_mean": 3.132134815057119, "train/image_loss_std": 8.321951104534996, "train/model_loss_mean": 6.3323849770757885, "train/model_loss_std": 12.461583375930786, "train/model_opt_grad_norm": 25.671779195467632, "train/model_opt_grad_steps": 349194.5138888889, "train/model_opt_loss": 12082.374389648438, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1892.361111111111, "train/policy_entropy_mag": 2.6896603306134543, "train/policy_entropy_max": 2.6896603306134543, "train/policy_entropy_mean": 0.44085249801476795, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6343675057093302, "train/policy_logprob_mag": 7.4383842547734575, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.440724881986777, "train/policy_logprob_min": -7.4383842547734575, "train/policy_logprob_std": 1.0589614883065224, "train/policy_randomness_mag": 0.9493320683638254, "train/policy_randomness_max": 0.9493320683638254, "train/policy_randomness_mean": 0.1556015880778432, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22390389069914818, "train/post_ent_mag": 55.484505123562286, "train/post_ent_max": 55.484505123562286, "train/post_ent_mean": 40.741575717926025, "train/post_ent_min": 19.471499416563248, "train/post_ent_std": 5.771918793519338, "train/prior_ent_mag": 76.8176343705919, "train/prior_ent_max": 76.8176343705919, "train/prior_ent_mean": 45.977254708607994, "train/prior_ent_min": 28.261566506491768, "train/prior_ent_std": 7.61357855796814, "train/rep_loss_mean": 5.246490882502662, "train/rep_loss_std": 8.813119365109337, "train/reward_avg": 0.037604437597716846, "train/reward_loss_mean": 0.052319960228891835, "train/reward_loss_std": 0.20022150170471933, "train/reward_max_data": 1.0236111167404387, "train/reward_max_pred": 1.0256424678696527, "train/reward_neg_acc": 0.9944342805279626, "train/reward_neg_loss": 0.023451174195441935, "train/reward_pos_acc": 0.9934607139892049, "train/reward_pos_loss": 0.7100171272953352, "train/reward_pred": 0.03761075380154782, "train/reward_rate": 0.042073567708333336, "stats/sum_log_reward": 8.76666678322686, "stats/max_log_achievement_collect_coal": 0.2222222222222222, "stats/max_log_achievement_collect_drink": 2.2222222222222223, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 8.777777777777779, "stats/max_log_achievement_collect_wood": 8.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.1111111111111112, "stats/max_log_achievement_eat_cow": 0.1111111111111111, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.2222222222222222, "stats/max_log_achievement_make_wood_pickaxe": 0.8888888888888888, "stats/max_log_achievement_make_wood_sword": 0.7777777777777778, "stats/max_log_achievement_place_furnace": 0.6666666666666666, "stats/max_log_achievement_place_plant": 0.6666666666666666, "stats/max_log_achievement_place_stone": 2.4444444444444446, "stats/max_log_achievement_place_table": 2.111111111111111, "stats/max_log_achievement_wake_up": 1.1111111111111112, "stats/mean_log_entropy": 0.3625389155414369, "replay/size": 700704.0, "replay/inserts": 1430.0, "replay/samples": 11440.0, "replay/insert_wait_avg": 3.4078851446405156e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3521084418663611e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1656861305237, "timer/env.step_count": 1430.0, "timer/env.step_total": 22.840537309646606, "timer/env.step_frac": 0.07609309912830828, "timer/env.step_avg": 0.015972403713039585, "timer/env.step_min": 0.0027403831481933594, "timer/env.step_max": 1.7152395248413086, "timer/replay.add_count": 1430.0, "timer/replay.add_total": 0.23795151710510254, "timer/replay.add_frac": 0.0007927339069717383, "timer/replay.add_avg": 0.0001663996623112605, "timer/replay.add_min": 6.031990051269531e-05, "timer/replay.add_max": 0.0006368160247802734, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02253556251525879, "timer/logger.write_frac": 7.507707761592527e-05, "timer/logger.write_avg": 0.02253556251525879, "timer/logger.write_min": 0.02253556251525879, "timer/logger.write_max": 0.02253556251525879, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1430.0, "timer/agent.policy_total": 10.482050657272339, "timer/agent.policy_frac": 0.03492088250458561, "timer/agent.policy_avg": 0.007330105354735901, "timer/agent.policy_min": 0.006074666976928711, "timer/agent.policy_max": 0.014950752258300781, "timer/dataset_count": 715.0, "timer/dataset_total": 0.05662727355957031, "timer/dataset_frac": 0.00018865338769917417, "timer/dataset_avg": 7.919898399939903e-05, "timer/dataset_min": 5.841255187988281e-05, "timer/dataset_max": 0.0001621246337890625, "timer/agent.train_count": 715.0, "timer/agent.train_total": 265.86943078041077, "timer/agent.train_frac": 0.8857422519134996, "timer/agent.train_avg": 0.37184535773484023, "timer/agent.train_min": 0.36541271209716797, "timer/agent.train_max": 0.383256196975708, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2226545810699463, "timer/agent.report_frac": 0.0007417722656450726, "timer/agent.report_avg": 0.2226545810699463, "timer/agent.report_min": 0.2226545810699463, "timer/agent.report_max": 0.2226545810699463, "fps": 4.763934062095703}
{"step": 701044, "episode/length": 280.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.500000037252903, "episode/reward_rate": 0.03914590747330961}
{"step": 701361, "episode/length": 316.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.0473186119873817}
{"step": 701580, "episode/length": 218.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.0593607305936073}
{"step": 701795, "episode/length": 214.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.900000005960464, "episode/reward_rate": 0.05581395348837209}
{"step": 702021, "episode/length": 225.0, "episode/score": 11.099999994039536, "episode/sum_abs_reward": 13.300000011920929, "episode/reward_rate": 0.05752212389380531}
{"step": 702188, "episode/length": 166.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.0718562874251497}
{"step": 702219, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.490490220997431, "train/action_min": 0.0, "train/action_std": 3.362091658866569, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03941568517929887, "train/actor_opt_grad_steps": 350200.0, "train/actor_opt_loss": -11.590602273810399, "train/adv_mag": 0.42931941314919353, "train/adv_max": 0.36018752684331923, "train/adv_mean": 0.002065619949150945, "train/adv_min": -0.37936574935096584, "train/adv_std": 0.0451114258843742, "train/cont_avg": 0.9949031464041096, "train/cont_loss_mean": 1.9283796280445767e-05, "train/cont_loss_std": 0.0005275285908728371, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0002606569871585329, "train/cont_pos_acc": 0.9999999787709485, "train/cont_pos_loss": 1.7687193591215987e-05, "train/cont_pred": 0.9948894528493489, "train/cont_rate": 0.9949031464041096, "train/dyn_loss_mean": 5.437012371951586, "train/dyn_loss_std": 8.755946819096396, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0050263413011211, "train/extr_critic_critic_opt_grad_steps": 350200.0, "train/extr_critic_critic_opt_loss": 15746.478997217466, "train/extr_critic_mag": 11.450619449354198, "train/extr_critic_max": 11.450619449354198, "train/extr_critic_mean": 3.131270660112982, "train/extr_critic_min": -0.4676367567010122, "train/extr_critic_std": 2.7928990141986167, "train/extr_return_normed_mag": 1.4170414193035805, "train/extr_return_normed_max": 1.4170414193035805, "train/extr_return_normed_mean": 0.3778480246458968, "train/extr_return_normed_min": -0.07067293757955505, "train/extr_return_normed_std": 0.326650665639198, "train/extr_return_rate": 0.7810850510858509, "train/extr_return_raw_mag": 12.123645233781371, "train/extr_return_raw_max": 12.123645233781371, "train/extr_return_raw_mean": 3.1491043861598182, "train/extr_return_raw_min": -0.7244085334751704, "train/extr_return_raw_std": 2.821216883724683, "train/extr_reward_mag": 1.0629776046700674, "train/extr_reward_max": 1.0629776046700674, "train/extr_reward_mean": 0.05466778739674451, "train/extr_reward_min": -0.6024026070555596, "train/extr_reward_std": 0.2259032034302411, "train/image_loss_mean": 3.106093618967762, "train/image_loss_std": 8.132852926646194, "train/model_loss_mean": 6.422091542857967, "train/model_loss_std": 12.240932216383007, "train/model_opt_grad_norm": 26.809176902248435, "train/model_opt_grad_steps": 349919.0, "train/model_opt_loss": 8872.955539651113, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1386.986301369863, "train/policy_entropy_mag": 2.7077028588072896, "train/policy_entropy_max": 2.7077028588072896, "train/policy_entropy_mean": 0.4542051657830199, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6559582013789922, "train/policy_logprob_mag": 7.4383842651158165, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.45436610444767833, "train/policy_logprob_min": -7.4383842651158165, "train/policy_logprob_std": 1.0729424479889542, "train/policy_randomness_mag": 0.9557002823646754, "train/policy_randomness_max": 0.9557002823646754, "train/policy_randomness_mean": 0.16031448900291365, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23152446277337532, "train/post_ent_mag": 55.21503871760956, "train/post_ent_max": 55.21503871760956, "train/post_ent_mean": 40.752090558613816, "train/post_ent_min": 19.224162977035732, "train/post_ent_std": 5.772104491926219, "train/prior_ent_mag": 76.71600153674818, "train/prior_ent_max": 76.71600153674818, "train/prior_ent_mean": 46.17158555331295, "train/prior_ent_min": 28.2985649631448, "train/prior_ent_std": 7.47152657051609, "train/rep_loss_mean": 5.437012371951586, "train/rep_loss_std": 8.755946819096396, "train/reward_avg": 0.038139447263658866, "train/reward_loss_mean": 0.0537711892225971, "train/reward_loss_std": 0.2106209158489149, "train/reward_max_data": 1.0246575401253897, "train/reward_max_pred": 1.0248672717238125, "train/reward_neg_acc": 0.9943107080786195, "train/reward_neg_loss": 0.02384891256383837, "train/reward_pos_acc": 0.989737286143107, "train/reward_pos_loss": 0.7251376991402613, "train/reward_pred": 0.03788657039914229, "train/reward_rate": 0.04275470890410959, "stats/sum_log_reward": 11.43333371480306, "stats/max_log_achievement_collect_coal": 1.6666666666666667, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.1666666666666665, "stats/max_log_achievement_collect_stone": 11.0, "stats/max_log_achievement_collect_wood": 10.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 0.6666666666666666, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.16666666666666666, "stats/max_log_achievement_make_stone_sword": 0.5, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.6666666666666666, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 3.1666666666666665, "stats/max_log_achievement_place_table": 2.8333333333333335, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.48103444774945575, "replay/size": 702156.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.4628164012898426e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.341453432708404e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.09175300598145, "timer/env.step_count": 1452.0, "timer/env.step_total": 18.261669158935547, "timer/env.step_frac": 0.060853618854935856, "timer/env.step_avg": 0.012576907134253131, "timer/env.step_min": 0.002882242202758789, "timer/env.step_max": 1.61533784866333, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.24091815948486328, "timer/replay.add_frac": 0.000802814995985782, "timer/replay.add_avg": 0.00016592159744136588, "timer/replay.add_min": 6.198883056640625e-05, "timer/replay.add_max": 0.0005288124084472656, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02176666259765625, "timer/logger.write_frac": 7.253335814670787e-05, "timer/logger.write_avg": 0.02176666259765625, "timer/logger.write_min": 0.02176666259765625, "timer/logger.write_max": 0.02176666259765625, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 10.719748973846436, "timer/agent.policy_frac": 0.03572157137431487, "timer/agent.policy_avg": 0.007382747227166967, "timer/agent.policy_min": 0.0058553218841552734, "timer/agent.policy_max": 0.01679849624633789, "timer/dataset_count": 726.0, "timer/dataset_total": 0.057880401611328125, "timer/dataset_frac": 0.00019287568229232362, "timer/dataset_avg": 7.972507108998364e-05, "timer/dataset_min": 6.0558319091796875e-05, "timer/dataset_max": 0.00014138221740722656, "timer/agent.train_count": 726.0, "timer/agent.train_total": 270.13309049606323, "timer/agent.train_frac": 0.9001683244880072, "timer/agent.train_avg": 0.3720841466887923, "timer/agent.train_min": 0.3658454418182373, "timer/agent.train_max": 0.3834850788116455, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21973919868469238, "timer/agent.report_frac": 0.0007322400448649202, "timer/agent.report_avg": 0.21973919868469238, "timer/agent.report_min": 0.21973919868469238, "timer/agent.report_max": 0.21973919868469238, "fps": 4.838425310915271}
{"step": 702272, "episode/length": 83.0, "episode/score": 6.100000023841858, "episode/sum_abs_reward": 7.899999976158142, "episode/reward_rate": 0.09523809523809523}
{"step": 702324, "episode/length": 51.0, "episode/score": 4.099999979138374, "episode/sum_abs_reward": 6.30000002682209, "episode/reward_rate": 0.09615384615384616}
{"step": 702625, "episode/length": 300.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.04318936877076412}
{"step": 702906, "episode/length": 280.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.500000037252903, "episode/reward_rate": 0.042704626334519574}
{"step": 703062, "episode/length": 155.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 11.500000037252903, "episode/reward_rate": 0.0641025641025641}
{"step": 703264, "episode/length": 201.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.0594059405940594}
{"step": 703617, "episode/length": 352.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 14.900000013411045, "episode/reward_rate": 0.039660056657223795}
{"step": 703645, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.484089596170775, "train/action_min": 0.0, "train/action_std": 3.3183994629013704, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04118984937667847, "train/actor_opt_grad_steps": 350920.0, "train/actor_opt_loss": -10.91345089673996, "train/adv_mag": 0.4293249727974475, "train/adv_max": 0.3798076791662565, "train/adv_mean": 0.002555550844987574, "train/adv_min": -0.3631800509674448, "train/adv_std": 0.04689960937264939, "train/cont_avg": 0.9949383802816901, "train/cont_loss_mean": 9.850951472786142e-05, "train/cont_loss_std": 0.0030910738282791885, "train/cont_neg_acc": 0.9971830987594497, "train/cont_neg_loss": 0.018677717827770234, "train/cont_pos_acc": 0.9999999773334449, "train/cont_pos_loss": 7.332383872303229e-06, "train/cont_pred": 0.994945464839398, "train/cont_rate": 0.9949383802816901, "train/dyn_loss_mean": 5.3219498782090735, "train/dyn_loss_std": 8.784255685940595, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0117652617709738, "train/extr_critic_critic_opt_grad_steps": 350920.0, "train/extr_critic_critic_opt_loss": 15980.679673745599, "train/extr_critic_mag": 11.313756499491946, "train/extr_critic_max": 11.313756499491946, "train/extr_critic_mean": 3.173367157788344, "train/extr_critic_min": -0.4238364595762441, "train/extr_critic_std": 2.760906760121735, "train/extr_return_normed_mag": 1.4023655401149266, "train/extr_return_normed_max": 1.4023655401149266, "train/extr_return_normed_mean": 0.38195073247795375, "train/extr_return_normed_min": -0.0731725126085147, "train/extr_return_normed_std": 0.3233962424204383, "train/extr_return_rate": 0.7937610434814238, "train/extr_return_raw_mag": 12.010564992125605, "train/extr_return_raw_max": 12.010564992125605, "train/extr_return_raw_mean": 3.195431799955771, "train/extr_return_raw_min": -0.7361339095612647, "train/extr_return_raw_std": 2.7938496898597394, "train/extr_reward_mag": 1.0586478340793664, "train/extr_reward_max": 1.0586478340793664, "train/extr_reward_mean": 0.05679942557299641, "train/extr_reward_min": -0.6047830615245121, "train/extr_reward_std": 0.22998939076779593, "train/image_loss_mean": 3.153801704796267, "train/image_loss_std": 8.23089668784343, "train/model_loss_mean": 6.402104384462598, "train/model_loss_std": 12.36978924442345, "train/model_opt_grad_norm": 24.76198799509398, "train/model_opt_grad_steps": 350639.0, "train/model_opt_loss": 16005.260893485916, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.686232697795814, "train/policy_entropy_max": 2.686232697795814, "train/policy_entropy_mean": 0.40703931073067895, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.599358340804006, "train/policy_logprob_mag": 7.438384297867896, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4051636881391767, "train/policy_logprob_min": -7.438384297867896, "train/policy_logprob_std": 1.0261615447595085, "train/policy_randomness_mag": 0.9481222629547119, "train/policy_randomness_max": 0.9481222629547119, "train/policy_randomness_mean": 0.14366701381727004, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21154719318302584, "train/post_ent_mag": 55.37279317076777, "train/post_ent_max": 55.37279317076777, "train/post_ent_mean": 40.72504237000371, "train/post_ent_min": 19.501548552177322, "train/post_ent_std": 5.6628372837120375, "train/prior_ent_mag": 76.77499486359072, "train/prior_ent_max": 76.77499486359072, "train/prior_ent_mean": 46.06411700181558, "train/prior_ent_min": 28.775390302631216, "train/prior_ent_std": 7.526195418666786, "train/rep_loss_mean": 5.3219498782090735, "train/rep_loss_std": 8.784255685940595, "train/reward_avg": 0.03958516706988006, "train/reward_loss_mean": 0.055034289320170036, "train/reward_loss_std": 0.2139019097240878, "train/reward_max_data": 1.0267605697604971, "train/reward_max_pred": 1.023265754672843, "train/reward_neg_acc": 0.9942402780895502, "train/reward_neg_loss": 0.023761024016519666, "train/reward_pos_acc": 0.9899666577997343, "train/reward_pos_loss": 0.7326934110950416, "train/reward_pred": 0.03925728763807827, "train/reward_rate": 0.044247909330985914, "stats/sum_log_reward": 9.528571673801967, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 3.2857142857142856, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 11.857142857142858, "stats/max_log_achievement_collect_wood": 7.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.7142857142857143, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.14285714285714285, "stats/max_log_achievement_make_stone_sword": 0.42857142857142855, "stats/max_log_achievement_make_wood_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_wood_sword": 0.7142857142857143, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 4.0, "stats/max_log_achievement_place_table": 1.8571428571428572, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.4340068740504129, "replay/size": 703582.0, "replay/inserts": 1426.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 3.396377991493086e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.353644054032977e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3783931732178, "timer/env.step_count": 1426.0, "timer/env.step_total": 21.16194200515747, "timer/env.step_frac": 0.07045094616027896, "timer/env.step_avg": 0.014840071532368493, "timer/env.step_min": 0.0031194686889648438, "timer/env.step_max": 1.8150815963745117, "timer/replay.add_count": 1426.0, "timer/replay.add_total": 0.2730064392089844, "timer/replay.add_frac": 0.000908875090265068, "timer/replay.add_avg": 0.00019144911585482774, "timer/replay.add_min": 6.270408630371094e-05, "timer/replay.add_max": 0.0008723735809326172, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.019240856170654297, "timer/logger.write_frac": 6.405539349016613e-05, "timer/logger.write_avg": 0.019240856170654297, "timer/logger.write_min": 0.019240856170654297, "timer/logger.write_max": 0.019240856170654297, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002315044403076172, "timer/checkpoint.save_frac": 7.707093638193764e-07, "timer/checkpoint.save_avg": 0.0002315044403076172, "timer/checkpoint.save_min": 0.0002315044403076172, "timer/checkpoint.save_max": 0.0002315044403076172, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3700273036956787, "timer/agent.save_frac": 0.004561004835343239, "timer/agent.save_avg": 1.3700273036956787, "timer/agent.save_min": 1.3700273036956787, "timer/agent.save_max": 1.3700273036956787, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.031990051269531e-05, "timer/replay.save_frac": 2.008130474215265e-07, "timer/replay.save_avg": 6.031990051269531e-05, "timer/replay.save_min": 6.031990051269531e-05, "timer/replay.save_max": 6.031990051269531e-05, "timer/agent.policy_count": 1426.0, "timer/agent.policy_total": 12.384706497192383, "timer/agent.policy_frac": 0.04123035071317714, "timer/agent.policy_avg": 0.008684927417385963, "timer/agent.policy_min": 0.006055116653442383, "timer/agent.policy_max": 1.369584321975708, "timer/dataset_count": 713.0, "timer/dataset_total": 0.05696511268615723, "timer/dataset_frac": 0.00018964450832955693, "timer/dataset_avg": 7.989496870428784e-05, "timer/dataset_min": 5.6743621826171875e-05, "timer/dataset_max": 0.0001647472381591797, "timer/agent.train_count": 713.0, "timer/agent.train_total": 265.8287615776062, "timer/agent.train_frac": 0.884979637747486, "timer/agent.train_avg": 0.3728313626614393, "timer/agent.train_min": 0.3659641742706299, "timer/agent.train_max": 0.870976448059082, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.220750093460083, "timer/agent.report_frac": 0.0007349066992737527, "timer/agent.report_avg": 0.220750093460083, "timer/agent.report_min": 0.220750093460083, "timer/agent.report_max": 0.220750093460083, "fps": 4.747240980528275}
{"step": 703847, "episode/length": 229.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.05652173913043478}
{"step": 704039, "episode/length": 191.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.0625}
{"step": 704329, "episode/length": 289.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.041379310344827586}
{"step": 704511, "episode/length": 181.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.054945054945054944}
{"step": 704724, "episode/length": 212.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.100000031292439, "episode/reward_rate": 0.051643192488262914}
{"step": 704882, "episode/length": 157.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.500000037252903, "episode/reward_rate": 0.0759493670886076}
{"step": 705092, "episode/length": 209.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.05238095238095238}
{"step": 705093, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.520739237467448, "train/action_min": 0.0, "train/action_std": 3.4110211630662284, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04077172056875295, "train/actor_opt_grad_steps": 351635.0, "train/actor_opt_loss": -13.24726340919733, "train/adv_mag": 0.4353719916608598, "train/adv_max": 0.3737498525944021, "train/adv_mean": 0.0014836453551936302, "train/adv_min": -0.372185626377662, "train/adv_std": 0.045715232017553516, "train/cont_avg": 0.9943033854166666, "train/cont_loss_mean": 1.0112948176457496e-05, "train/cont_loss_std": 0.0002791533630488945, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00016563450456510666, "train/cont_pos_acc": 0.9999999776482582, "train/cont_pos_loss": 9.293425453194004e-06, "train/cont_pred": 0.9942960979210006, "train/cont_rate": 0.9943033854166666, "train/dyn_loss_mean": 5.376810067229801, "train/dyn_loss_std": 8.930455724398294, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.00908902204699, "train/extr_critic_critic_opt_grad_steps": 351635.0, "train/extr_critic_critic_opt_loss": 15917.21009657118, "train/extr_critic_mag": 11.394241333007812, "train/extr_critic_max": 11.394241333007812, "train/extr_critic_mean": 3.1168952650494046, "train/extr_critic_min": -0.46401463945706684, "train/extr_critic_std": 2.820436269044876, "train/extr_return_normed_mag": 1.4229613012737699, "train/extr_return_normed_max": 1.4229613012737699, "train/extr_return_normed_mean": 0.3728832345869806, "train/extr_return_normed_min": -0.0782022476196289, "train/extr_return_normed_std": 0.3276527250806491, "train/extr_return_rate": 0.781658749613497, "train/extr_return_raw_mag": 12.25359426604377, "train/extr_return_raw_max": 12.25359426604377, "train/extr_return_raw_mean": 3.129774226082696, "train/extr_return_raw_min": -0.789293552438418, "train/extr_return_raw_std": 2.847217169072893, "train/extr_reward_mag": 1.0519183079401653, "train/extr_reward_max": 1.0519183079401653, "train/extr_reward_mean": 0.05455019997639789, "train/extr_reward_min": -0.6338377147912979, "train/extr_reward_std": 0.22572856230868232, "train/image_loss_mean": 3.285943047867881, "train/image_loss_std": 8.389576766226027, "train/model_loss_mean": 6.567952864699894, "train/model_loss_std": 12.576288792822096, "train/model_opt_grad_norm": 23.76884561114841, "train/model_opt_grad_steps": 351353.31944444444, "train/model_opt_loss": 16893.81955295139, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2569.4444444444443, "train/policy_entropy_mag": 2.6851615475283728, "train/policy_entropy_max": 2.6851615475283728, "train/policy_entropy_mean": 0.424021116975281, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6141067114141252, "train/policy_logprob_mag": 7.438384307755364, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4241213376323382, "train/policy_logprob_min": -7.438384307755364, "train/policy_logprob_std": 1.0438045759995778, "train/policy_randomness_mag": 0.947744189037217, "train/policy_randomness_max": 0.947744189037217, "train/policy_randomness_mean": 0.14966084683934847, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21675271768536833, "train/post_ent_mag": 55.44402127795749, "train/post_ent_max": 55.44402127795749, "train/post_ent_mean": 40.77826007207235, "train/post_ent_min": 19.410524368286133, "train/post_ent_std": 5.786348448859321, "train/prior_ent_mag": 76.73990069495306, "train/prior_ent_max": 76.73990069495306, "train/prior_ent_mean": 46.108123779296875, "train/prior_ent_min": 28.4268704785241, "train/prior_ent_std": 7.709851821263631, "train/rep_loss_mean": 5.376810067229801, "train/rep_loss_std": 8.930455724398294, "train/reward_avg": 0.03886311840162509, "train/reward_loss_mean": 0.0559137011360791, "train/reward_loss_std": 0.22115646944277817, "train/reward_max_data": 1.0236111167404387, "train/reward_max_pred": 1.0207168741358652, "train/reward_neg_acc": 0.9942177815569772, "train/reward_neg_loss": 0.024493665744860966, "train/reward_pos_acc": 0.9845452929536501, "train/reward_pos_loss": 0.7455573330322901, "train/reward_pred": 0.03843396930541429, "train/reward_rate": 0.043741861979166664, "stats/sum_log_reward": 10.671428952898298, "stats/max_log_achievement_collect_coal": 0.42857142857142855, "stats/max_log_achievement_collect_drink": 7.571428571428571, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 0.5714285714285714, "stats/max_log_achievement_collect_stone": 16.857142857142858, "stats/max_log_achievement_collect_wood": 9.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.2857142857142857, "stats/max_log_achievement_make_stone_sword": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 2.7142857142857144, "stats/max_log_achievement_place_plant": 0.2857142857142857, "stats/max_log_achievement_place_stone": 4.428571428571429, "stats/max_log_achievement_place_table": 2.2857142857142856, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.32318652527672903, "replay/size": 705030.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.480450224481235e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.347279021753132e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.66307258605957, "timer/env.step_count": 1448.0, "timer/env.step_total": 19.74735379219055, "timer/env.step_frac": 0.06567934539596051, "timer/env.step_avg": 0.013637675270849829, "timer/env.step_min": 0.0027616024017333984, "timer/env.step_max": 1.633981466293335, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.2509915828704834, "timer/replay.add_frac": 0.0008347935139212728, "timer/replay.add_avg": 0.00017333672850171504, "timer/replay.add_min": 6.341934204101562e-05, "timer/replay.add_max": 0.0009016990661621094, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023179054260253906, "timer/logger.write_frac": 7.709311975323909e-05, "timer/logger.write_avg": 0.023179054260253906, "timer/logger.write_min": 0.023179054260253906, "timer/logger.write_max": 0.023179054260253906, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 10.674677848815918, "timer/agent.policy_frac": 0.03550378753533318, "timer/agent.policy_avg": 0.007372015088961269, "timer/agent.policy_min": 0.005979299545288086, "timer/agent.policy_max": 0.015246152877807617, "timer/dataset_count": 724.0, "timer/dataset_total": 0.056620121002197266, "timer/dataset_frac": 0.0001883175094140992, "timer/dataset_avg": 7.820458701960949e-05, "timer/dataset_min": 5.8650970458984375e-05, "timer/dataset_max": 0.00013184547424316406, "timer/agent.train_count": 724.0, "timer/agent.train_total": 269.24898409843445, "timer/agent.train_frac": 0.8955173037465937, "timer/agent.train_avg": 0.37189086201441224, "timer/agent.train_min": 0.3650550842285156, "timer/agent.train_max": 0.3843855857849121, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22331833839416504, "timer/agent.report_frac": 0.00074275279791882, "timer/agent.report_avg": 0.22331833839416504, "timer/agent.report_min": 0.22331833839416504, "timer/agent.report_max": 0.22331833839416504, "fps": 4.815921372663501}
{"step": 705314, "episode/length": 221.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.06306306306306306}
{"step": 705532, "episode/length": 217.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 13.700000062584877, "episode/reward_rate": 0.05504587155963303}
{"step": 705740, "episode/length": 207.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.057692307692307696}
{"step": 705945, "episode/length": 204.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.05853658536585366}
{"step": 706196, "episode/length": 250.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.900000005960464, "episode/reward_rate": 0.055776892430278883}
{"step": 706533, "episode/length": 336.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.032640949554896145}
{"step": 706545, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.47063205666738, "train/action_min": 0.0, "train/action_std": 3.2860167124500013, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.040198344660744276, "train/actor_opt_grad_steps": 352360.0, "train/actor_opt_loss": -14.84704992869129, "train/adv_mag": 0.40767169162018657, "train/adv_max": 0.34995836264466584, "train/adv_mean": 0.0017191346655947624, "train/adv_min": -0.37410889749657616, "train/adv_std": 0.046167639683778974, "train/cont_avg": 0.9948095034246576, "train/cont_loss_mean": 0.00012191293729839899, "train/cont_loss_std": 0.003831918042625484, "train/cont_neg_acc": 0.9918981484240956, "train/cont_neg_loss": 0.0317293935267195, "train/cont_pos_acc": 0.9999999820369564, "train/cont_pos_loss": 1.419724658741453e-05, "train/cont_pred": 0.9948238118054116, "train/cont_rate": 0.9948095034246576, "train/dyn_loss_mean": 5.5181326114968074, "train/dyn_loss_std": 8.932310626931386, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9932777865292275, "train/extr_critic_critic_opt_grad_steps": 352360.0, "train/extr_critic_critic_opt_loss": 15989.98358572346, "train/extr_critic_mag": 11.367756791310768, "train/extr_critic_max": 11.367756791310768, "train/extr_critic_mean": 3.108228268688672, "train/extr_critic_min": -0.44026456793693647, "train/extr_critic_std": 2.761419573875323, "train/extr_return_normed_mag": 1.4080896573523953, "train/extr_return_normed_max": 1.4080896573523953, "train/extr_return_normed_mean": 0.3726718503318421, "train/extr_return_normed_min": -0.0721157478959593, "train/extr_return_normed_std": 0.3233032606235922, "train/extr_return_rate": 0.7921277913328719, "train/extr_return_raw_mag": 12.060248048338172, "train/extr_return_raw_max": 12.060248048338172, "train/extr_return_raw_mean": 3.123064266492243, "train/extr_return_raw_min": -0.7159459276558602, "train/extr_return_raw_std": 2.790516360165322, "train/extr_reward_mag": 1.056977144659382, "train/extr_reward_max": 1.056977144659382, "train/extr_reward_mean": 0.05669785000077666, "train/extr_reward_min": -0.6462825487737787, "train/extr_reward_std": 0.22947819245188203, "train/image_loss_mean": 3.2838157693000687, "train/image_loss_std": 8.729596493995352, "train/model_loss_mean": 6.650727673752667, "train/model_loss_std": 12.93677388152031, "train/model_opt_grad_norm": 28.599955480392666, "train/model_opt_grad_steps": 352077.1095890411, "train/model_opt_loss": 9273.379795858305, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1386.986301369863, "train/policy_entropy_mag": 2.6820292995400625, "train/policy_entropy_max": 2.6820292995400625, "train/policy_entropy_mean": 0.4040438667552112, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.587625801155012, "train/policy_logprob_mag": 7.438384219391705, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40488428918466174, "train/policy_logprob_min": -7.438384219391705, "train/policy_logprob_std": 1.0327180272912326, "train/policy_randomness_mag": 0.9466386445581096, "train/policy_randomness_max": 0.9466386445581096, "train/policy_randomness_mean": 0.1426097566950811, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.207406123615291, "train/post_ent_mag": 55.5860331809684, "train/post_ent_max": 55.5860331809684, "train/post_ent_mean": 40.66583481880083, "train/post_ent_min": 19.34200553371482, "train/post_ent_std": 5.761966522425821, "train/prior_ent_mag": 76.66378209362291, "train/prior_ent_max": 76.66378209362291, "train/prior_ent_mean": 46.17957206621562, "train/prior_ent_min": 28.452764720132905, "train/prior_ent_std": 7.6743465841633, "train/rep_loss_mean": 5.5181326114968074, "train/rep_loss_std": 8.932310626931386, "train/reward_avg": 0.03976080890693893, "train/reward_loss_mean": 0.055910535105695464, "train/reward_loss_std": 0.22096289183995496, "train/reward_max_data": 1.0219178134447908, "train/reward_max_pred": 1.0210022861010408, "train/reward_neg_acc": 0.9944159396707195, "train/reward_neg_loss": 0.024010997456944967, "train/reward_pos_acc": 0.9847016122243176, "train/reward_pos_loss": 0.7457516299535151, "train/reward_pred": 0.03919048668587045, "train/reward_rate": 0.044413527397260275, "stats/sum_log_reward": 11.433333396911621, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 2.6666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.3333333333333335, "stats/max_log_achievement_collect_stone": 12.333333333333334, "stats/max_log_achievement_collect_wood": 13.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.3333333333333333, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.8333333333333333, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 3.3333333333333335, "stats/max_log_achievement_place_table": 3.5, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.39131411413351697, "replay/size": 706482.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.4270207743999386e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3443885099132526e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.08866333961487, "timer/env.step_count": 1452.0, "timer/env.step_total": 18.31275463104248, "timer/env.step_frac": 0.06102447998949451, "timer/env.step_avg": 0.0126120899662827, "timer/env.step_min": 0.002915620803833008, "timer/env.step_max": 1.631589651107788, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.2556593418121338, "timer/replay.add_frac": 0.0008519460181099886, "timer/replay.add_avg": 0.00017607392686786073, "timer/replay.add_min": 6.318092346191406e-05, "timer/replay.add_max": 0.0008733272552490234, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02781057357788086, "timer/logger.write_frac": 9.267452248406736e-05, "timer/logger.write_avg": 0.02781057357788086, "timer/logger.write_min": 0.02781057357788086, "timer/logger.write_max": 0.02781057357788086, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 10.694828987121582, "timer/agent.policy_frac": 0.0356388970782881, "timer/agent.policy_avg": 0.007365584701874368, "timer/agent.policy_min": 0.006041288375854492, "timer/agent.policy_max": 0.01610851287841797, "timer/dataset_count": 726.0, "timer/dataset_total": 0.05673933029174805, "timer/dataset_frac": 0.00018907522083743393, "timer/dataset_avg": 7.815334750929483e-05, "timer/dataset_min": 5.841255187988281e-05, "timer/dataset_max": 0.00016570091247558594, "timer/agent.train_count": 726.0, "timer/agent.train_total": 270.07797050476074, "timer/agent.train_frac": 0.8999939134625337, "timer/agent.train_avg": 0.3720082238357586, "timer/agent.train_min": 0.36159491539001465, "timer/agent.train_max": 0.38437366485595703, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2228076457977295, "timer/agent.report_frac": 0.000742472718956313, "timer/agent.report_avg": 0.2228076457977295, "timer/agent.report_min": 0.2228076457977295, "timer/agent.report_max": 0.2228076457977295, "fps": 4.838467010812177}
{"step": 706727, "episode/length": 193.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.06701030927835051}
{"step": 706917, "episode/length": 189.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06842105263157895}
{"step": 707325, "episode/length": 407.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.03676470588235294}
{"step": 707476, "episode/length": 150.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.07947019867549669}
{"step": 707644, "episode/length": 167.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06547619047619048}
{"step": 707983, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.48561774359809, "train/action_min": 0.0, "train/action_std": 3.3708799050913916, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04077310109924939, "train/actor_opt_grad_steps": 353085.0, "train/actor_opt_loss": -13.170705311440138, "train/adv_mag": 0.42813245124287075, "train/adv_max": 0.3708736610909303, "train/adv_mean": 0.0016886855846678372, "train/adv_min": -0.37391977984872127, "train/adv_std": 0.046370555025835834, "train/cont_avg": 0.9946017795138888, "train/cont_loss_mean": 5.6409356005025936e-05, "train/cont_loss_std": 0.0017804589186954563, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00034434155289433634, "train/cont_pos_acc": 0.9999863000379668, "train/cont_pos_loss": 5.486481080464579e-05, "train/cont_pred": 0.9945888833867179, "train/cont_rate": 0.9946017795138888, "train/dyn_loss_mean": 5.12558247976833, "train/dyn_loss_std": 8.690668304761251, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0083065041237407, "train/extr_critic_critic_opt_grad_steps": 353085.0, "train/extr_critic_critic_opt_loss": 15877.968899197049, "train/extr_critic_mag": 11.292610221438938, "train/extr_critic_max": 11.292610221438938, "train/extr_critic_mean": 3.0998085455762014, "train/extr_critic_min": -0.4867989122867584, "train/extr_critic_std": 2.7308266394668155, "train/extr_return_normed_mag": 1.428572921289338, "train/extr_return_normed_max": 1.428572921289338, "train/extr_return_normed_mean": 0.3785703018721607, "train/extr_return_normed_min": -0.08160836441028449, "train/extr_return_normed_std": 0.32574224202997154, "train/extr_return_rate": 0.7907037080989944, "train/extr_return_raw_mag": 12.011528889338175, "train/extr_return_raw_max": 12.011528889338175, "train/extr_return_raw_mean": 3.1141271177265377, "train/extr_return_raw_min": -0.7858089341057671, "train/extr_return_raw_std": 2.7604599164591894, "train/extr_reward_mag": 1.0603918102052476, "train/extr_reward_max": 1.0603918102052476, "train/extr_reward_mean": 0.05710367488467859, "train/extr_reward_min": -0.6591987328396903, "train/extr_reward_std": 0.23017362277540895, "train/image_loss_mean": 2.9878206666972904, "train/image_loss_std": 7.978287465042538, "train/model_loss_mean": 6.118281781673431, "train/model_loss_std": 12.090223418341743, "train/model_opt_grad_norm": 26.594872911771137, "train/model_opt_grad_steps": 352801.7638888889, "train/model_opt_loss": 9803.460394965277, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1597.2222222222222, "train/policy_entropy_mag": 2.698871440357632, "train/policy_entropy_max": 2.698871440357632, "train/policy_entropy_mean": 0.4186725231508414, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6116206107868088, "train/policy_logprob_mag": 7.438384261396196, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4195709704524941, "train/policy_logprob_min": -7.438384261396196, "train/policy_logprob_std": 1.0429697326487966, "train/policy_randomness_mag": 0.9525831797056727, "train/policy_randomness_max": 0.9525831797056727, "train/policy_randomness_mean": 0.14777302804092565, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21587523590359423, "train/post_ent_mag": 55.6273832321167, "train/post_ent_max": 55.6273832321167, "train/post_ent_mean": 40.70526801215278, "train/post_ent_min": 19.53892081313663, "train/post_ent_std": 5.700756496853298, "train/prior_ent_mag": 76.70441818237305, "train/prior_ent_max": 76.70441818237305, "train/prior_ent_mean": 45.86138688193427, "train/prior_ent_min": 28.079675992329914, "train/prior_ent_std": 7.640569554434882, "train/rep_loss_mean": 5.12558247976833, "train/rep_loss_std": 8.690668304761251, "train/reward_avg": 0.03977864571950502, "train/reward_loss_mean": 0.05505518853250477, "train/reward_loss_std": 0.2078235973086622, "train/reward_max_data": 1.0250000059604645, "train/reward_max_pred": 1.0226962831285265, "train/reward_neg_acc": 0.9940368880828222, "train/reward_neg_loss": 0.023495122065974608, "train/reward_pos_acc": 0.9870996996760368, "train/reward_pos_loss": 0.7327870552738508, "train/reward_pred": 0.03932311846357253, "train/reward_rate": 0.04469129774305555, "stats/sum_log_reward": 11.900000190734863, "stats/max_log_achievement_collect_coal": 0.6, "stats/max_log_achievement_collect_drink": 3.2, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.4, "stats/max_log_achievement_collect_stone": 17.8, "stats/max_log_achievement_collect_wood": 12.0, "stats/max_log_achievement_defeat_skeleton": 0.2, "stats/max_log_achievement_defeat_zombie": 0.8, "stats/max_log_achievement_eat_cow": 0.4, "stats/max_log_achievement_make_stone_pickaxe": 0.2, "stats/max_log_achievement_make_stone_sword": 0.4, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.6, "stats/max_log_achievement_place_plant": 1.2, "stats/max_log_achievement_place_stone": 3.2, "stats/max_log_achievement_place_table": 2.4, "stats/max_log_achievement_wake_up": 2.0, "stats/mean_log_entropy": 0.3974000811576843, "replay/size": 707920.0, "replay/inserts": 1438.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.4714938868070345e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.33936362074214e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.13449907302856, "timer/env.step_count": 1438.0, "timer/env.step_total": 18.683321714401245, "timer/env.step_frac": 0.06224983056631297, "timer/env.step_avg": 0.012992574210292937, "timer/env.step_min": 0.0030558109283447266, "timer/env.step_max": 1.7614355087280273, "timer/replay.add_count": 1438.0, "timer/replay.add_total": 0.2676384449005127, "timer/replay.add_frac": 0.0008917283608752723, "timer/replay.add_avg": 0.00018611852913804776, "timer/replay.add_min": 6.151199340820312e-05, "timer/replay.add_max": 0.0008587837219238281, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027718067169189453, "timer/logger.write_frac": 9.235215296741048e-05, "timer/logger.write_avg": 0.027718067169189453, "timer/logger.write_min": 0.027718067169189453, "timer/logger.write_max": 0.027718067169189453, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00016641616821289062, "timer/checkpoint.save_frac": 5.544719741544885e-07, "timer/checkpoint.save_avg": 0.00016641616821289062, "timer/checkpoint.save_min": 0.00016641616821289062, "timer/checkpoint.save_max": 0.00016641616821289062, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2953004837036133, "timer/agent.save_frac": 0.004315733405203917, "timer/agent.save_avg": 1.2953004837036133, "timer/agent.save_min": 1.2953004837036133, "timer/agent.save_max": 1.2953004837036133, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.43865966796875e-05, "timer/replay.save_frac": 2.478442062123215e-07, "timer/replay.save_avg": 7.43865966796875e-05, "timer/replay.save_min": 7.43865966796875e-05, "timer/replay.save_max": 7.43865966796875e-05, "timer/agent.policy_count": 1438.0, "timer/agent.policy_total": 12.61638069152832, "timer/agent.policy_frac": 0.042035756404193006, "timer/agent.policy_avg": 0.008773560981591322, "timer/agent.policy_min": 0.006022453308105469, "timer/agent.policy_max": 1.2948181629180908, "timer/dataset_count": 719.0, "timer/dataset_total": 0.057737112045288086, "timer/dataset_frac": 0.00019237079450583095, "timer/dataset_avg": 8.030196390165241e-05, "timer/dataset_min": 6.031990051269531e-05, "timer/dataset_max": 0.00013756752014160156, "timer/agent.train_count": 719.0, "timer/agent.train_total": 267.82357573509216, "timer/agent.train_frac": 0.8923451871153455, "timer/agent.train_avg": 0.37249454205158855, "timer/agent.train_min": 0.3639969825744629, "timer/agent.train_max": 0.8349320888519287, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2229325771331787, "timer/agent.report_frac": 0.0007427755816865787, "timer/agent.report_avg": 0.2229325771331787, "timer/agent.report_min": 0.2229325771331787, "timer/agent.report_max": 0.2229325771331787, "fps": 4.791080192462087}
{"step": 708162, "episode/length": 517.0, "episode/score": 15.100000008940697, "episode/sum_abs_reward": 18.700000017881393, "episode/reward_rate": 0.032818532818532815}
{"step": 708350, "episode/length": 187.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.06382978723404255}
{"step": 708616, "episode/length": 265.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 16.30000003427267, "episode/reward_rate": 0.05263157894736842}
{"step": 708811, "episode/length": 194.0, "episode/score": 11.099999979138374, "episode/sum_abs_reward": 13.700000032782555, "episode/reward_rate": 0.06153846153846154}
{"step": 709064, "episode/length": 252.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.05138339920948617}
{"step": 709210, "episode/length": 145.0, "episode/score": 11.099999994039536, "episode/sum_abs_reward": 13.500000059604645, "episode/reward_rate": 0.08904109589041095}
{"step": 709376, "episode/length": 165.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06626506024096386}
{"step": 709429, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4736438327365455, "train/action_min": 0.0, "train/action_std": 3.323586235443751, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.041205556261249714, "train/actor_opt_grad_steps": 353805.0, "train/actor_opt_loss": -12.496118851006031, "train/adv_mag": 0.410834447791179, "train/adv_max": 0.33830493109093773, "train/adv_mean": 0.0023702510060401335, "train/adv_min": -0.3730182246201568, "train/adv_std": 0.046225785484744444, "train/cont_avg": 0.9947374131944444, "train/cont_loss_mean": 7.754560162299818e-05, "train/cont_loss_std": 0.0023890269974043855, "train/cont_neg_acc": 0.9964788732394366, "train/cont_neg_loss": 0.016892810789667617, "train/cont_pos_acc": 0.999999980131785, "train/cont_pos_loss": 1.1041463788904101e-05, "train/cont_pred": 0.9947460037138727, "train/cont_rate": 0.9947374131944444, "train/dyn_loss_mean": 5.33878739674886, "train/dyn_loss_std": 8.827102329995897, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.010840031835768, "train/extr_critic_critic_opt_grad_steps": 353805.0, "train/extr_critic_critic_opt_loss": 16115.296888563367, "train/extr_critic_mag": 11.243874549865723, "train/extr_critic_max": 11.243874549865723, "train/extr_critic_mean": 2.9765240814950733, "train/extr_critic_min": -0.45086581508318585, "train/extr_critic_std": 2.7060592903031244, "train/extr_return_normed_mag": 1.4137121902571783, "train/extr_return_normed_max": 1.4137121902571783, "train/extr_return_normed_mean": 0.3628324253691567, "train/extr_return_normed_min": -0.08148806319675511, "train/extr_return_normed_std": 0.3211553568641345, "train/extr_return_rate": 0.7902271846930186, "train/extr_return_raw_mag": 11.944966316223145, "train/extr_return_raw_max": 11.944966316223145, "train/extr_return_raw_mean": 2.9966967271433935, "train/extr_return_raw_min": -0.7862667226129108, "train/extr_return_raw_std": 2.7345322337415485, "train/extr_reward_mag": 1.0717297163274553, "train/extr_reward_max": 1.0717297163274553, "train/extr_reward_mean": 0.055475530266347856, "train/extr_reward_min": -0.6330752505196465, "train/extr_reward_std": 0.2273930994172891, "train/image_loss_mean": 3.271384153101179, "train/image_loss_std": 8.44639069504208, "train/model_loss_mean": 6.528450349966685, "train/model_loss_std": 12.59570156203376, "train/model_opt_grad_norm": 25.597291390101116, "train/model_opt_grad_steps": 353521.0, "train/model_opt_loss": 8160.562927246094, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.6941964758767023, "train/policy_entropy_max": 2.6941964758767023, "train/policy_entropy_mean": 0.4246249848769771, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6187962591648102, "train/policy_logprob_mag": 7.4383842084142895, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.42473680650194484, "train/policy_logprob_min": -7.4383842084142895, "train/policy_logprob_std": 1.0472911505235567, "train/policy_randomness_mag": 0.9509331261118253, "train/policy_randomness_max": 0.9509331261118253, "train/policy_randomness_mean": 0.14987398570196497, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21840792666706774, "train/post_ent_mag": 55.009418381585014, "train/post_ent_max": 55.009418381585014, "train/post_ent_mean": 40.713785330454506, "train/post_ent_min": 19.333785004085964, "train/post_ent_std": 5.73377138376236, "train/prior_ent_mag": 76.74421162075467, "train/prior_ent_max": 76.74421162075467, "train/prior_ent_mean": 46.05612277984619, "train/prior_ent_min": 28.195723056793213, "train/prior_ent_std": 7.643600953949822, "train/rep_loss_mean": 5.33878739674886, "train/rep_loss_std": 8.827102329995897, "train/reward_avg": 0.037497287072862186, "train/reward_loss_mean": 0.05371624050248, "train/reward_loss_std": 0.20370651429726017, "train/reward_max_data": 1.0250000059604645, "train/reward_max_pred": 1.0257047282324896, "train/reward_neg_acc": 0.993497311241097, "train/reward_neg_loss": 0.024310812729203865, "train/reward_pos_acc": 0.9903659944732984, "train/reward_pos_loss": 0.7212422043085098, "train/reward_pred": 0.037377468672477536, "train/reward_rate": 0.042195638020833336, "stats/sum_log_reward": 11.957142966134208, "stats/max_log_achievement_collect_coal": 1.1428571428571428, "stats/max_log_achievement_collect_drink": 3.4285714285714284, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.4285714285714284, "stats/max_log_achievement_collect_stone": 12.571428571428571, "stats/max_log_achievement_collect_wood": 12.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.1428571428571428, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_stone_pickaxe": 0.2857142857142857, "stats/max_log_achievement_make_stone_sword": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 2.142857142857143, "stats/max_log_achievement_place_stone": 3.4285714285714284, "stats/max_log_achievement_place_table": 2.142857142857143, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.42992841984544483, "replay/size": 709366.0, "replay/inserts": 1446.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.4714140832671485e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.345020441923234e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.11862540245056, "timer/env.step_count": 1446.0, "timer/env.step_total": 19.695499658584595, "timer/env.step_frac": 0.06562571593873419, "timer/env.step_avg": 0.013620677495563343, "timer/env.step_min": 0.0028214454650878906, "timer/env.step_max": 1.6426849365234375, "timer/replay.add_count": 1446.0, "timer/replay.add_total": 0.25246620178222656, "timer/replay.add_frac": 0.000841221371861465, "timer/replay.add_avg": 0.0001745962667926878, "timer/replay.add_min": 6.198883056640625e-05, "timer/replay.add_max": 0.0008180141448974609, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022158384323120117, "timer/logger.write_frac": 7.38320865404683e-05, "timer/logger.write_avg": 0.022158384323120117, "timer/logger.write_min": 0.022158384323120117, "timer/logger.write_max": 0.022158384323120117, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1446.0, "timer/agent.policy_total": 10.680628776550293, "timer/agent.policy_frac": 0.03558802377635801, "timer/agent.policy_avg": 0.007386326954737408, "timer/agent.policy_min": 0.006064176559448242, "timer/agent.policy_max": 0.01653432846069336, "timer/dataset_count": 723.0, "timer/dataset_total": 0.05730152130126953, "timer/dataset_frac": 0.00019092957401237534, "timer/dataset_avg": 7.925521618432854e-05, "timer/dataset_min": 5.888938903808594e-05, "timer/dataset_max": 0.00013637542724609375, "timer/agent.train_count": 723.0, "timer/agent.train_total": 268.74547696113586, "timer/agent.train_frac": 0.8954641738770988, "timer/agent.train_avg": 0.37170882013988366, "timer/agent.train_min": 0.3653833866119385, "timer/agent.train_max": 0.38373780250549316, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22199082374572754, "timer/agent.report_frac": 0.000739676930907051, "timer/agent.report_avg": 0.22199082374572754, "timer/agent.report_min": 0.22199082374572754, "timer/agent.report_max": 0.22199082374572754, "fps": 4.8179912247718795}
{"step": 709544, "episode/length": 167.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.07142857142857142}
{"step": 709824, "episode/length": 279.0, "episode/score": 10.099999971687794, "episode/sum_abs_reward": 12.900000043213367, "episode/reward_rate": 0.04285714285714286}
{"step": 710064, "episode/length": 239.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.05416666666666667}
{"step": 710409, "episode/length": 344.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.03768115942028986}
{"step": 710473, "episode/length": 63.0, "episode/score": 5.100000001490116, "episode/sum_abs_reward": 7.300000049173832, "episode/reward_rate": 0.09375}
{"step": 710720, "episode/length": 246.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.05263157894736842}
{"step": 710881, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4630060065282535, "train/action_min": 0.0, "train/action_std": 3.3183775274720912, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.041794776763409786, "train/actor_opt_grad_steps": 354530.0, "train/actor_opt_loss": -11.855042544129777, "train/adv_mag": 0.3842365892782603, "train/adv_max": 0.34073809279154427, "train/adv_mean": 0.0027707396830633055, "train/adv_min": -0.33990729222558946, "train/adv_std": 0.045706069173469935, "train/cont_avg": 0.9951706977739726, "train/cont_loss_mean": 1.0285306772872234e-05, "train/cont_loss_std": 0.0002863577959738618, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0003503924022287617, "train/cont_pos_acc": 0.9999999820369564, "train/cont_pos_loss": 8.541045344294187e-06, "train/cont_pred": 0.9951645486975369, "train/cont_rate": 0.9951706977739726, "train/dyn_loss_mean": 5.336756719301825, "train/dyn_loss_std": 8.81699795918922, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0100308027985978, "train/extr_critic_critic_opt_grad_steps": 354530.0, "train/extr_critic_critic_opt_loss": 16084.74200021404, "train/extr_critic_mag": 11.299535372485852, "train/extr_critic_max": 11.299535372485852, "train/extr_critic_mean": 3.0117824502187234, "train/extr_critic_min": -0.4221614615557945, "train/extr_critic_std": 2.66671876221487, "train/extr_return_normed_mag": 1.4124945238844988, "train/extr_return_normed_max": 1.4124945238844988, "train/extr_return_normed_mean": 0.36667046012127236, "train/extr_return_normed_min": -0.07786068590740634, "train/extr_return_normed_std": 0.3157785563436273, "train/extr_return_rate": 0.7969026900317571, "train/extr_return_raw_mag": 11.973244549476938, "train/extr_return_raw_max": 11.973244549476938, "train/extr_return_raw_mean": 3.0354932432305324, "train/extr_return_raw_min": -0.7643320597197911, "train/extr_return_raw_std": 2.6990193095925736, "train/extr_reward_mag": 1.0571327764694005, "train/extr_reward_max": 1.0571327764694005, "train/extr_reward_mean": 0.056574169036051995, "train/extr_reward_min": -0.6262790062656142, "train/extr_reward_std": 0.22847776849792428, "train/image_loss_mean": 3.162010712166355, "train/image_loss_std": 8.492068192730212, "train/model_loss_mean": 6.4178219494754325, "train/model_loss_std": 12.65798749009224, "train/model_opt_grad_norm": 26.377605216143884, "train/model_opt_grad_steps": 354246.0, "train/model_opt_loss": 14854.012541470462, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2311.6438356164385, "train/policy_entropy_mag": 2.7171368174356956, "train/policy_entropy_max": 2.7171368174356956, "train/policy_entropy_mean": 0.42703524762636996, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6251126617601473, "train/policy_logprob_mag": 7.438384245519769, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4280761715075741, "train/policy_logprob_min": -7.438384245519769, "train/policy_logprob_std": 1.0506021747850391, "train/policy_randomness_mag": 0.9590300648179773, "train/policy_randomness_max": 0.9590300648179773, "train/policy_randomness_mean": 0.15072470158338547, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22063733749601938, "train/post_ent_mag": 55.443149514394264, "train/post_ent_max": 55.443149514394264, "train/post_ent_mean": 40.733877678440045, "train/post_ent_min": 19.33023136609221, "train/post_ent_std": 5.7976412054610575, "train/prior_ent_mag": 76.82095190596907, "train/prior_ent_max": 76.82095190596907, "train/prior_ent_mean": 46.0714905098693, "train/prior_ent_min": 28.193756861229467, "train/prior_ent_std": 7.661513119527738, "train/rep_loss_mean": 5.336756719301825, "train/rep_loss_std": 8.81699795918922, "train/reward_avg": 0.03804179074319258, "train/reward_loss_mean": 0.05374693115280099, "train/reward_loss_std": 0.2079219403740478, "train/reward_max_data": 1.0219178134447908, "train/reward_max_pred": 1.0192472575462028, "train/reward_neg_acc": 0.993306185284706, "train/reward_neg_loss": 0.02402739113273278, "train/reward_pos_acc": 0.990009365832969, "train/reward_pos_loss": 0.7254720950779849, "train/reward_pred": 0.03797443922966311, "train/reward_rate": 0.042487157534246575, "stats/sum_log_reward": 10.43333371480306, "stats/max_log_achievement_collect_coal": 0.16666666666666666, "stats/max_log_achievement_collect_drink": 3.1666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 16.0, "stats/max_log_achievement_collect_wood": 9.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.3333333333333333, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.5, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.6666666666666665, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 2.3333333333333335, "stats/max_log_achievement_place_table": 2.6666666666666665, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.4449763000011444, "replay/size": 710818.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.5575598724617445e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.383139739023424e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.21760416030884, "timer/env.step_count": 1452.0, "timer/env.step_total": 18.48498845100403, "timer/env.step_frac": 0.061571967116003955, "timer/env.step_avg": 0.012730708299589551, "timer/env.step_min": 0.0029058456420898438, "timer/env.step_max": 1.6709537506103516, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.2570223808288574, "timer/replay.add_frac": 0.000856120284977072, "timer/replay.add_avg": 0.0001770126589730423, "timer/replay.add_min": 6.175041198730469e-05, "timer/replay.add_max": 0.0007970333099365234, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023864030838012695, "timer/logger.write_frac": 7.948911225495587e-05, "timer/logger.write_avg": 0.023864030838012695, "timer/logger.write_min": 0.023864030838012695, "timer/logger.write_max": 0.023864030838012695, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 10.755567073822021, "timer/agent.policy_frac": 0.03582590402686317, "timer/agent.policy_avg": 0.007407415340097811, "timer/agent.policy_min": 0.0059964656829833984, "timer/agent.policy_max": 0.046750783920288086, "timer/dataset_count": 726.0, "timer/dataset_total": 0.05782604217529297, "timer/dataset_frac": 0.00019261376206445002, "timer/dataset_avg": 7.965019583373687e-05, "timer/dataset_min": 5.936622619628906e-05, "timer/dataset_max": 0.00019216537475585938, "timer/agent.train_count": 726.0, "timer/agent.train_total": 269.97267413139343, "timer/agent.train_frac": 0.8992566404841291, "timer/agent.train_avg": 0.37186318750880637, "timer/agent.train_min": 0.3652620315551758, "timer/agent.train_max": 0.38591551780700684, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22115778923034668, "timer/agent.report_frac": 0.0007366582977334461, "timer/agent.report_avg": 0.22115778923034668, "timer/agent.report_min": 0.22115778923034668, "timer/agent.report_max": 0.22115778923034668, "fps": 4.836386875102232}
{"step": 710929, "episode/length": 208.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.06220095693779904}
{"step": 711117, "episode/length": 187.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.06382978723404255}
{"step": 711169, "episode/length": 51.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.900000013411045, "episode/reward_rate": 0.1346153846153846}
{"step": 711387, "episode/length": 217.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.5, "episode/reward_rate": 0.05963302752293578}
{"step": 711583, "episode/length": 195.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.061224489795918366}
{"step": 711766, "episode/length": 182.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.06557377049180328}
{"step": 711936, "episode/length": 169.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.07058823529411765}
{"step": 712163, "episode/length": 226.0, "episode/score": 13.099999971687794, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.06607929515418502}
{"step": 712297, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.575258091517857, "train/action_min": 0.0, "train/action_std": 3.417444596971784, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04226412525666612, "train/actor_opt_grad_steps": 355245.0, "train/actor_opt_loss": -12.379835548145431, "train/adv_mag": 0.4068656287022999, "train/adv_max": 0.35633886584213803, "train/adv_mean": 0.002134887758750535, "train/adv_min": -0.3560686249818121, "train/adv_std": 0.04697310780840261, "train/cont_avg": 0.9949358258928571, "train/cont_loss_mean": 1.0404628036399442e-05, "train/cont_loss_std": 0.0002906711315400149, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0008811726246906103, "train/cont_pos_acc": 0.9999999795641218, "train/cont_pos_loss": 4.517341403241306e-06, "train/cont_pred": 0.9949363418987819, "train/cont_rate": 0.9949358258928571, "train/dyn_loss_mean": 5.293316650390625, "train/dyn_loss_std": 8.799535294941494, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0365219107695989, "train/extr_critic_critic_opt_grad_steps": 355245.0, "train/extr_critic_critic_opt_loss": 16145.296023995536, "train/extr_critic_mag": 11.33067260469709, "train/extr_critic_max": 11.33067260469709, "train/extr_critic_mean": 3.1613090447017123, "train/extr_critic_min": -0.47816902909960063, "train/extr_critic_std": 2.780076626368931, "train/extr_return_normed_mag": 1.4165832315172469, "train/extr_return_normed_max": 1.4165832315172469, "train/extr_return_normed_mean": 0.3797559346471514, "train/extr_return_normed_min": -0.08095595059650285, "train/extr_return_normed_std": 0.3263755066054208, "train/extr_return_rate": 0.7943043572562082, "train/extr_return_raw_mag": 12.116260623931884, "train/extr_return_raw_max": 12.116260623931884, "train/extr_return_raw_mean": 3.1796956368855067, "train/extr_return_raw_min": -0.7923819537673678, "train/extr_return_raw_std": 2.813767712456839, "train/extr_reward_mag": 1.0609936237335205, "train/extr_reward_max": 1.0609936237335205, "train/extr_reward_mean": 0.05836244071168559, "train/extr_reward_min": -0.6485186866351537, "train/extr_reward_std": 0.23300873509475162, "train/image_loss_mean": 3.224260721887861, "train/image_loss_std": 8.018495171410697, "train/model_loss_mean": 6.4542946543012345, "train/model_loss_std": 12.166555540902275, "train/model_opt_grad_norm": 27.677876717703683, "train/model_opt_grad_steps": 354960.2, "train/model_opt_loss": 9749.104903738838, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1500.0, "train/policy_entropy_mag": 2.709144796643938, "train/policy_entropy_max": 2.709144796643938, "train/policy_entropy_mean": 0.4306047737598419, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6282504107270922, "train/policy_logprob_mag": 7.43838427407401, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.42981321471078054, "train/policy_logprob_min": -7.43838427407401, "train/policy_logprob_std": 1.0516900275434766, "train/policy_randomness_mag": 0.9562092244625091, "train/policy_randomness_max": 0.9562092244625091, "train/policy_randomness_mean": 0.15198458795036587, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22174482622316904, "train/post_ent_mag": 55.485393960135326, "train/post_ent_max": 55.485393960135326, "train/post_ent_mean": 40.66793959481375, "train/post_ent_min": 19.177542563847133, "train/post_ent_std": 5.779923711504255, "train/prior_ent_mag": 76.72412251063756, "train/prior_ent_max": 76.72412251063756, "train/prior_ent_mean": 45.9618713923863, "train/prior_ent_min": 28.027114268711635, "train/prior_ent_std": 7.672591522761754, "train/rep_loss_mean": 5.293316650390625, "train/rep_loss_std": 8.799535294941494, "train/reward_avg": 0.03862165127481733, "train/reward_loss_mean": 0.05403356600020613, "train/reward_loss_std": 0.20850859816585268, "train/reward_max_data": 1.0171428612300328, "train/reward_max_pred": 1.0162986857550484, "train/reward_neg_acc": 0.9944269529410771, "train/reward_neg_loss": 0.023860583627330404, "train/reward_pos_acc": 0.9881215478692736, "train/reward_pos_loss": 0.7261601771627154, "train/reward_pred": 0.03839299910302673, "train/reward_rate": 0.0431640625, "stats/sum_log_reward": 10.850000321865082, "stats/max_log_achievement_collect_coal": 0.375, "stats/max_log_achievement_collect_drink": 3.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.875, "stats/max_log_achievement_collect_stone": 9.0, "stats/max_log_achievement_collect_wood": 9.0, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 1.125, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 2.625, "stats/max_log_achievement_place_table": 2.25, "stats/max_log_achievement_wake_up": 1.125, "stats/mean_log_entropy": 0.3094543404877186, "replay/size": 712234.0, "replay/inserts": 1416.0, "replay/samples": 11328.0, "replay/insert_wait_avg": 3.4281089480987375e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3467661068264374e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.250608921051, "timer/env.step_count": 1416.0, "timer/env.step_total": 22.96506643295288, "timer/env.step_frac": 0.07648632758973488, "timer/env.step_avg": 0.016218267254910226, "timer/env.step_min": 0.002653360366821289, "timer/env.step_max": 1.79437255859375, "timer/replay.add_count": 1416.0, "timer/replay.add_total": 0.2570774555206299, "timer/replay.add_frac": 0.0008562096058503806, "timer/replay.add_avg": 0.00018155187536767647, "timer/replay.add_min": 6.008148193359375e-05, "timer/replay.add_max": 0.014837026596069336, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023567676544189453, "timer/logger.write_frac": 7.849335136697898e-05, "timer/logger.write_avg": 0.023567676544189453, "timer/logger.write_min": 0.023567676544189453, "timer/logger.write_max": 0.023567676544189453, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004687309265136719, "timer/checkpoint.save_frac": 1.5611323094332897e-06, "timer/checkpoint.save_avg": 0.0004687309265136719, "timer/checkpoint.save_min": 0.0004687309265136719, "timer/checkpoint.save_max": 0.0004687309265136719, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.482407808303833, "timer/agent.save_frac": 0.004937234977244035, "timer/agent.save_avg": 1.482407808303833, "timer/agent.save_min": 1.482407808303833, "timer/agent.save_max": 1.482407808303833, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.963180541992188e-05, "timer/replay.save_frac": 2.6521779824553346e-07, "timer/replay.save_avg": 7.963180541992188e-05, "timer/replay.save_min": 7.963180541992188e-05, "timer/replay.save_max": 7.963180541992188e-05, "timer/agent.policy_count": 1416.0, "timer/agent.policy_total": 12.56917405128479, "timer/agent.policy_frac": 0.04186227663767961, "timer/agent.policy_avg": 0.008876535346952536, "timer/agent.policy_min": 0.006113767623901367, "timer/agent.policy_max": 1.4674086570739746, "timer/dataset_count": 708.0, "timer/dataset_total": 0.05755758285522461, "timer/dataset_frac": 0.00019169847169355452, "timer/dataset_avg": 8.129602098195566e-05, "timer/dataset_min": 5.8650970458984375e-05, "timer/dataset_max": 0.00013184547424316406, "timer/agent.train_count": 708.0, "timer/agent.train_total": 263.7232401371002, "timer/agent.train_frac": 0.878343731207701, "timer/agent.train_avg": 0.3724904521710455, "timer/agent.train_min": 0.36533522605895996, "timer/agent.train_max": 0.8701558113098145, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22141551971435547, "timer/agent.report_frac": 0.0007374357058259132, "timer/agent.report_avg": 0.22141551971435547, "timer/agent.report_min": 0.22141551971435547, "timer/agent.report_max": 0.22141551971435547, "fps": 4.715958863851673}
{"step": 712517, "episode/length": 353.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.0423728813559322}
{"step": 712710, "episode/length": 192.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.06217616580310881}
{"step": 712966, "episode/length": 255.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.05859375}
{"step": 713184, "episode/length": 217.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.500000037252903, "episode/reward_rate": 0.06422018348623854}
{"step": 713378, "episode/length": 193.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06701030927835051}
{"step": 713565, "episode/length": 186.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.06417112299465241}
{"step": 713749, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.5029405567744005, "train/action_min": 0.0, "train/action_std": 3.335888738501562, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04089469345260973, "train/actor_opt_grad_steps": 355960.0, "train/actor_opt_loss": -10.645843736521185, "train/adv_mag": 0.43857073396036067, "train/adv_max": 0.37727962270991444, "train/adv_mean": 0.0027263398869888066, "train/adv_min": -0.38430587804480776, "train/adv_std": 0.046569456843888926, "train/cont_avg": 0.9945419520547946, "train/cont_loss_mean": 1.3130829744193151e-05, "train/cont_loss_std": 0.00034210505323509184, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0001395756924607636, "train/cont_pos_acc": 0.9999999812204544, "train/cont_pos_loss": 1.1852718306137724e-05, "train/cont_pred": 0.9945319637860337, "train/cont_rate": 0.9945419520547946, "train/dyn_loss_mean": 5.2766032610854054, "train/dyn_loss_std": 8.765086147883167, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0227228590886888, "train/extr_critic_critic_opt_grad_steps": 355960.0, "train/extr_critic_critic_opt_loss": 16072.620933219177, "train/extr_critic_mag": 11.412043545344105, "train/extr_critic_max": 11.412043545344105, "train/extr_critic_mean": 3.139507855454536, "train/extr_critic_min": -0.44402848531122074, "train/extr_critic_std": 2.773265547948341, "train/extr_return_normed_mag": 1.427568149893251, "train/extr_return_normed_max": 1.427568149893251, "train/extr_return_normed_mean": 0.3774776381172546, "train/extr_return_normed_min": -0.07969619119412279, "train/extr_return_normed_std": 0.32819305176604285, "train/extr_return_rate": 0.8035789899630089, "train/extr_return_raw_mag": 12.133074721244917, "train/extr_return_raw_max": 12.133074721244917, "train/extr_return_raw_mean": 3.162808202717402, "train/extr_return_raw_min": -0.7427897490050694, "train/extr_return_raw_std": 2.8036670619494295, "train/extr_reward_mag": 1.055039742221571, "train/extr_reward_max": 1.055039742221571, "train/extr_reward_mean": 0.05684540390151821, "train/extr_reward_min": -0.6537062174653354, "train/extr_reward_std": 0.23024343219521928, "train/image_loss_mean": 3.152000846928113, "train/image_loss_std": 8.36207911086409, "train/model_loss_mean": 6.37285482720153, "train/model_loss_std": 12.482078277901428, "train/model_opt_grad_norm": 25.13337668327436, "train/model_opt_grad_steps": 355675.0, "train/model_opt_loss": 11158.966101241438, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1746.5753424657535, "train/policy_entropy_mag": 2.712621724768861, "train/policy_entropy_max": 2.712621724768861, "train/policy_entropy_mean": 0.42297411393629364, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.613052681700824, "train/policy_logprob_mag": 7.438384258583801, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.42358269613899596, "train/policy_logprob_min": -7.438384258583801, "train/policy_logprob_std": 1.0464627554971877, "train/policy_randomness_mag": 0.9574364284946494, "train/policy_randomness_max": 0.9574364284946494, "train/policy_randomness_mean": 0.1492913020391987, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21638069220193445, "train/post_ent_mag": 54.89542059702416, "train/post_ent_max": 54.89542059702416, "train/post_ent_mean": 40.69653633849261, "train/post_ent_min": 19.53172034433443, "train/post_ent_std": 5.680420993125602, "train/prior_ent_mag": 76.73425418383455, "train/prior_ent_max": 76.73425418383455, "train/prior_ent_mean": 45.97908411940483, "train/prior_ent_min": 28.419649803475156, "train/prior_ent_std": 7.622680004328897, "train/rep_loss_mean": 5.2766032610854054, "train/rep_loss_std": 8.765086147883167, "train/reward_avg": 0.038532748103958285, "train/reward_loss_mean": 0.05487895108861466, "train/reward_loss_std": 0.21339727244148515, "train/reward_max_data": 1.026027403465689, "train/reward_max_pred": 1.0231539696863252, "train/reward_neg_acc": 0.9943235777828792, "train/reward_neg_loss": 0.024005079846063704, "train/reward_pos_acc": 0.986115571570723, "train/reward_pos_loss": 0.7394873001804091, "train/reward_pred": 0.03804650453672017, "train/reward_rate": 0.043303189212328765, "stats/sum_log_reward": 12.600000381469727, "stats/max_log_achievement_collect_coal": 1.1666666666666667, "stats/max_log_achievement_collect_drink": 1.5, "stats/max_log_achievement_collect_iron": 0.3333333333333333, "stats/max_log_achievement_collect_sapling": 2.6666666666666665, "stats/max_log_achievement_collect_stone": 15.5, "stats/max_log_achievement_collect_wood": 9.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "stats/max_log_achievement_make_stone_sword": 0.3333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 2.1666666666666665, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.3509693642457326, "replay/size": 713686.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.448859390805247e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3414739577238225e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.11885023117065, "timer/env.step_count": 1452.0, "timer/env.step_total": 18.331613063812256, "timer/env.step_frac": 0.06108117850542237, "timer/env.step_avg": 0.012625077867639294, "timer/env.step_min": 0.0031168460845947266, "timer/env.step_max": 1.6584157943725586, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.2638719081878662, "timer/replay.add_frac": 0.0008792247070939238, "timer/replay.add_avg": 0.00018172996431671228, "timer/replay.add_min": 6.031990051269531e-05, "timer/replay.add_max": 0.0010802745819091797, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024078845977783203, "timer/logger.write_frac": 8.023103500242035e-05, "timer/logger.write_avg": 0.024078845977783203, "timer/logger.write_min": 0.024078845977783203, "timer/logger.write_max": 0.024078845977783203, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 10.745359897613525, "timer/agent.policy_frac": 0.035803682072408194, "timer/agent.policy_avg": 0.007400385604417028, "timer/agent.policy_min": 0.005995035171508789, "timer/agent.policy_max": 0.01448678970336914, "timer/dataset_count": 726.0, "timer/dataset_total": 0.05804729461669922, "timer/dataset_frac": 0.00019341435758529494, "timer/dataset_avg": 7.99549512626711e-05, "timer/dataset_min": 6.031990051269531e-05, "timer/dataset_max": 0.00016498565673828125, "timer/agent.train_count": 726.0, "timer/agent.train_total": 270.0381078720093, "timer/agent.train_frac": 0.8997705664406241, "timer/agent.train_avg": 0.37195331662811193, "timer/agent.train_min": 0.3657054901123047, "timer/agent.train_max": 0.3846282958984375, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2210221290588379, "timer/agent.report_frac": 0.0007364486732126042, "timer/agent.report_avg": 0.2210221290588379, "timer/agent.report_min": 0.2210221290588379, "timer/agent.report_max": 0.2210221290588379, "fps": 4.838007275345608}
{"step": 713749, "episode/length": 183.0, "episode/score": 9.099999979138374, "episode/sum_abs_reward": 11.30000002682209, "episode/reward_rate": 0.05434782608695652}
{"step": 713959, "episode/length": 209.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.05714285714285714}
{"step": 714172, "episode/length": 212.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.06103286384976526}
{"step": 714389, "episode/length": 216.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.055299539170506916}
{"step": 714613, "episode/length": 223.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.500000037252903, "episode/reward_rate": 0.05803571428571429}
{"step": 714855, "episode/length": 241.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.05785123966942149}
{"step": 715077, "episode/length": 221.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.06306306306306306}
{"step": 715193, "stats/sum_log_reward": 11.671428952898298, "stats/max_log_achievement_collect_coal": 1.7142857142857142, "stats/max_log_achievement_collect_drink": 3.5714285714285716, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8571428571428572, "stats/max_log_achievement_collect_stone": 14.428571428571429, "stats/max_log_achievement_collect_wood": 9.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.2857142857142858, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.7142857142857143, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.7142857142857142, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 3.4285714285714284, "stats/max_log_achievement_place_table": 2.4285714285714284, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.36818474744047436, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.495669047037761, "train/action_min": 0.0, "train/action_std": 3.3765098452568054, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.041214265705396734, "train/actor_opt_grad_steps": 356685.0, "train/actor_opt_loss": -11.203932106494904, "train/adv_mag": 0.4279114368061225, "train/adv_max": 0.37228839471936226, "train/adv_mean": 0.002387664818115809, "train/adv_min": -0.3764874968263838, "train/adv_std": 0.046066335454169244, "train/cont_avg": 0.9947238498263888, "train/cont_loss_mean": 9.44790724391156e-06, "train/cont_loss_std": 0.0002197282684801078, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0007637747314174584, "train/cont_pos_acc": 0.999999976820416, "train/cont_pos_loss": 4.940876483061629e-06, "train/cont_pred": 0.9947229309214486, "train/cont_rate": 0.9947238498263888, "train/dyn_loss_mean": 5.170108596483867, "train/dyn_loss_std": 8.731736818949381, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9750156319803662, "train/extr_critic_critic_opt_grad_steps": 356685.0, "train/extr_critic_critic_opt_loss": 15993.409369574652, "train/extr_critic_mag": 11.524489442507425, "train/extr_critic_max": 11.524489442507425, "train/extr_critic_mean": 3.17386061946551, "train/extr_critic_min": -0.4430999192926619, "train/extr_critic_std": 2.7561883363458843, "train/extr_return_normed_mag": 1.4307921214236154, "train/extr_return_normed_max": 1.4307921214236154, "train/extr_return_normed_mean": 0.37550041389962036, "train/extr_return_normed_min": -0.0794463833897478, "train/extr_return_normed_std": 0.32128312604294884, "train/extr_return_rate": 0.8147596998347176, "train/extr_return_raw_mag": 12.347041461202833, "train/extr_return_raw_max": 12.347041461202833, "train/extr_return_raw_mean": 3.194579071468777, "train/extr_return_raw_min": -0.7515437106291453, "train/extr_return_raw_std": 2.7867241700490317, "train/extr_reward_mag": 1.064675745036867, "train/extr_reward_max": 1.064675745036867, "train/extr_reward_mean": 0.05725814231360952, "train/extr_reward_min": -0.6438708636495802, "train/extr_reward_std": 0.23094066480795541, "train/image_loss_mean": 3.1122452004088297, "train/image_loss_std": 8.307824293772379, "train/model_loss_mean": 6.267707559797499, "train/model_loss_std": 12.400687403149075, "train/model_opt_grad_norm": 27.734888553619385, "train/model_opt_grad_steps": 356399.7361111111, "train/model_opt_loss": 13604.170233832465, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2170.1388888888887, "train/policy_entropy_mag": 2.68688541981909, "train/policy_entropy_max": 2.68688541981909, "train/policy_entropy_mean": 0.40552560798823833, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5961787191530069, "train/policy_logprob_mag": 7.438384274641673, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4051293238169617, "train/policy_logprob_min": -7.438384274641673, "train/policy_logprob_std": 1.0302107681830723, "train/policy_randomness_mag": 0.9483526415295072, "train/policy_randomness_max": 0.9483526415295072, "train/policy_randomness_mean": 0.14313274321870673, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21042492406235802, "train/post_ent_mag": 55.169187492794464, "train/post_ent_max": 55.169187492794464, "train/post_ent_mean": 40.67157114876641, "train/post_ent_min": 19.736115376154583, "train/post_ent_std": 5.715537442101373, "train/prior_ent_mag": 76.69274202982585, "train/prior_ent_max": 76.69274202982585, "train/prior_ent_mean": 45.85298379262289, "train/prior_ent_min": 27.931656890445286, "train/prior_ent_std": 7.6769618193308515, "train/rep_loss_mean": 5.170108596483867, "train/rep_loss_std": 8.731736818949381, "train/reward_avg": 0.03820122589564158, "train/reward_loss_mean": 0.05338779909329282, "train/reward_loss_std": 0.20048268656763765, "train/reward_max_data": 1.0305555628405676, "train/reward_max_pred": 1.031136456463072, "train/reward_neg_acc": 0.9939318713214662, "train/reward_neg_loss": 0.0233702963968325, "train/reward_pos_acc": 0.9900745037529204, "train/reward_pos_loss": 0.7236519985728793, "train/reward_pred": 0.03789708848732213, "train/reward_rate": 0.04306369357638889, "replay/size": 715130.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.4720943905309956e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3473167643982948e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.32977175712585, "timer/env.step_count": 1444.0, "timer/env.step_total": 20.175865650177002, "timer/env.step_frac": 0.06717903966741284, "timer/env.step_avg": 0.013972206128931441, "timer/env.step_min": 0.002917051315307617, "timer/env.step_max": 1.6801862716674805, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.25984835624694824, "timer/replay.add_frac": 0.0008652101146238855, "timer/replay.add_avg": 0.00017995038521256804, "timer/replay.add_min": 6.151199340820312e-05, "timer/replay.add_max": 0.0008230209350585938, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02219390869140625, "timer/logger.write_frac": 7.389846355077404e-05, "timer/logger.write_avg": 0.02219390869140625, "timer/logger.write_min": 0.02219390869140625, "timer/logger.write_max": 0.02219390869140625, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.67027997970581, "timer/agent.policy_frac": 0.03552854556269158, "timer/agent.policy_avg": 0.0073893905676633035, "timer/agent.policy_min": 0.00582575798034668, "timer/agent.policy_max": 0.010318279266357422, "timer/dataset_count": 722.0, "timer/dataset_total": 0.05801510810852051, "timer/dataset_frac": 0.00019317135217429205, "timer/dataset_avg": 8.035333533036082e-05, "timer/dataset_min": 6.031990051269531e-05, "timer/dataset_max": 0.000141143798828125, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.45506858825684, "timer/agent.train_frac": 0.8938676542708999, "timer/agent.train_avg": 0.37182142463747486, "timer/agent.train_min": 0.36568307876586914, "timer/agent.train_max": 0.385944128036499, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22264671325683594, "timer/agent.report_frac": 0.000741340799995308, "timer/agent.report_avg": 0.22264671325683594, "timer/agent.report_min": 0.22264671325683594, "timer/agent.report_max": 0.22264671325683594, "fps": 4.807940290548844}
{"step": 715243, "episode/length": 165.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 13.300000056624413, "episode/reward_rate": 0.07228915662650602}
{"step": 715308, "episode/length": 64.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.700000040233135, "episode/reward_rate": 0.15384615384615385}
{"step": 715575, "episode/length": 266.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.0449438202247191}
{"step": 715783, "episode/length": 207.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.057692307692307696}
{"step": 715997, "episode/length": 213.0, "episode/score": 12.099999994039536, "episode/sum_abs_reward": 13.300000011920929, "episode/reward_rate": 0.06074766355140187}
{"step": 716189, "episode/length": 191.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.052083333333333336}
{"step": 716374, "episode/length": 184.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06486486486486487}
{"step": 716583, "episode/length": 208.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.05741626794258373}
{"step": 716609, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.467641051386444, "train/action_min": 0.0, "train/action_std": 3.3047369936822166, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04137766712778051, "train/actor_opt_grad_steps": 357400.0, "train/actor_opt_loss": -10.951780499287054, "train/adv_mag": 0.40193564707124735, "train/adv_max": 0.3605611370482915, "train/adv_mean": 0.0023660320605390743, "train/adv_min": -0.3426391381612966, "train/adv_std": 0.04618026935298678, "train/cont_avg": 0.9949383802816901, "train/cont_loss_mean": 2.830248122000086e-05, "train/cont_loss_std": 0.000805447179262456, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00029825784440507924, "train/cont_pos_acc": 0.9999861331053184, "train/cont_pos_loss": 2.6603966116662263e-05, "train/cont_pred": 0.9949220351769891, "train/cont_rate": 0.9949383802816901, "train/dyn_loss_mean": 5.390652461790703, "train/dyn_loss_std": 8.896527720169283, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0438519288116777, "train/extr_critic_critic_opt_grad_steps": 357400.0, "train/extr_critic_critic_opt_loss": 15904.240564480633, "train/extr_critic_mag": 11.300480856022364, "train/extr_critic_max": 11.300480856022364, "train/extr_critic_mean": 3.300446412932705, "train/extr_critic_min": -0.42718396388309104, "train/extr_critic_std": 2.754156938740905, "train/extr_return_normed_mag": 1.4040455247314882, "train/extr_return_normed_max": 1.4040455247314882, "train/extr_return_normed_mean": 0.391484302534184, "train/extr_return_normed_min": -0.07739900314891843, "train/extr_return_normed_std": 0.32140235099154457, "train/extr_return_rate": 0.8203198767044175, "train/extr_return_raw_mag": 12.094261518666443, "train/extr_return_raw_max": 12.094261518666443, "train/extr_return_raw_mean": 3.3209202020940647, "train/extr_return_raw_min": -0.7419324240214388, "train/extr_return_raw_std": 2.785023504579571, "train/extr_reward_mag": 1.054176045135713, "train/extr_reward_max": 1.054176045135713, "train/extr_reward_mean": 0.05831512092599567, "train/extr_reward_min": -0.6312633215541571, "train/extr_reward_std": 0.23237526815542034, "train/image_loss_mean": 3.2386777300230216, "train/image_loss_std": 8.600296752553591, "train/model_loss_mean": 6.528262776388249, "train/model_loss_std": 12.778953511949997, "train/model_opt_grad_norm": 25.27328258836773, "train/model_opt_grad_steps": 357114.0, "train/model_opt_loss": 8160.328503246039, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.708769271071528, "train/policy_entropy_max": 2.708769271071528, "train/policy_entropy_mean": 0.3970156060138219, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5911569158795854, "train/policy_logprob_mag": 7.438384264287814, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39682617699596245, "train/policy_logprob_min": -7.438384264287814, "train/policy_logprob_std": 1.0244746317326183, "train/policy_randomness_mag": 0.956076679095416, "train/policy_randomness_max": 0.956076679095416, "train/policy_randomness_mean": 0.14012908610239835, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.208652450794905, "train/post_ent_mag": 55.60596713213853, "train/post_ent_max": 55.60596713213853, "train/post_ent_mean": 40.77457218438807, "train/post_ent_min": 19.33188008590483, "train/post_ent_std": 5.866669910054811, "train/prior_ent_mag": 76.62167218705298, "train/prior_ent_max": 76.62167218705298, "train/prior_ent_mean": 46.13687477649098, "train/prior_ent_min": 28.235903001167404, "train/prior_ent_std": 7.615705745320924, "train/rep_loss_mean": 5.390652461790703, "train/rep_loss_std": 8.896527720169283, "train/reward_avg": 0.040311399112704774, "train/reward_loss_mean": 0.055165295449780744, "train/reward_loss_std": 0.21311080329854723, "train/reward_max_data": 1.025352118720471, "train/reward_max_pred": 1.0221923807976951, "train/reward_neg_acc": 0.993581665233827, "train/reward_neg_loss": 0.023843531877222195, "train/reward_pos_acc": 0.9888718892151201, "train/reward_pos_loss": 0.7223112641925543, "train/reward_pred": 0.04009521314480775, "train/reward_rate": 0.04490812059859155, "stats/sum_log_reward": 10.600000381469727, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 2.375, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.375, "stats/max_log_achievement_collect_stone": 14.375, "stats/max_log_achievement_collect_wood": 9.125, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.125, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.25, "stats/max_log_achievement_place_plant": 0.625, "stats/max_log_achievement_place_stone": 3.875, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 0.875, "stats/mean_log_entropy": 0.30035531520843506, "replay/size": 716546.0, "replay/inserts": 1416.0, "replay/samples": 11328.0, "replay/insert_wait_avg": 3.4489874112404e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3553953103426487e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0585913658142, "timer/env.step_count": 1416.0, "timer/env.step_total": 22.9466655254364, "timer/env.step_frac": 0.07647394937431118, "timer/env.step_avg": 0.016205272263726273, "timer/env.step_min": 0.002821683883666992, "timer/env.step_max": 1.8323373794555664, "timer/replay.add_count": 1416.0, "timer/replay.add_total": 0.2808859348297119, "timer/replay.add_frac": 0.0009361036241327678, "timer/replay.add_avg": 0.0001983657731848248, "timer/replay.add_min": 6.508827209472656e-05, "timer/replay.add_max": 0.0008366107940673828, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.032491207122802734, "timer/logger.write_frac": 0.00010828287560408933, "timer/logger.write_avg": 0.032491207122802734, "timer/logger.write_min": 0.032491207122802734, "timer/logger.write_max": 0.032491207122802734, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002884864807128906, "timer/checkpoint.save_frac": 9.614338299721753e-07, "timer/checkpoint.save_avg": 0.0002884864807128906, "timer/checkpoint.save_min": 0.0002884864807128906, "timer/checkpoint.save_max": 0.0002884864807128906, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2061805725097656, "timer/agent.save_frac": 0.004019816819839895, "timer/agent.save_avg": 1.2061805725097656, "timer/agent.save_min": 1.2061805725097656, "timer/agent.save_max": 1.2061805725097656, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.866455078125e-05, "timer/replay.save_frac": 2.288371430016417e-07, "timer/replay.save_avg": 6.866455078125e-05, "timer/replay.save_min": 6.866455078125e-05, "timer/replay.save_max": 6.866455078125e-05, "timer/agent.policy_count": 1416.0, "timer/agent.policy_total": 12.2451331615448, "timer/agent.policy_frac": 0.04080914032758434, "timer/agent.policy_avg": 0.00864769291069548, "timer/agent.policy_min": 0.006012916564941406, "timer/agent.policy_max": 1.2013523578643799, "timer/dataset_count": 708.0, "timer/dataset_total": 0.057004451751708984, "timer/dataset_frac": 0.00018997773565567543, "timer/dataset_avg": 8.051476236117088e-05, "timer/dataset_min": 5.8650970458984375e-05, "timer/dataset_max": 0.00013947486877441406, "timer/agent.train_count": 708.0, "timer/agent.train_total": 263.8435728549957, "timer/agent.train_frac": 0.8793068435535405, "timer/agent.train_avg": 0.3726604136369996, "timer/agent.train_min": 0.36621785163879395, "timer/agent.train_max": 0.8950896263122559, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22131085395812988, "timer/agent.report_frac": 0.0007375587979359684, "timer/agent.report_avg": 0.22131085395812988, "timer/agent.report_min": 0.22131085395812988, "timer/agent.report_max": 0.22131085395812988, "fps": 4.718977760185415}
{"step": 716833, "episode/length": 249.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 16.500000059604645, "episode/reward_rate": 0.056}
{"step": 717051, "episode/length": 217.0, "episode/score": 12.100000023841858, "episode/sum_abs_reward": 14.500000059604645, "episode/reward_rate": 0.05963302752293578}
{"step": 717258, "episode/length": 206.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.057971014492753624}
{"step": 717476, "episode/length": 217.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.30000001937151, "episode/reward_rate": 0.03211009174311927}
{"step": 717718, "episode/length": 241.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.05371900826446281}
{"step": 717971, "episode/length": 252.0, "episode/score": 12.100000023841858, "episode/sum_abs_reward": 14.500000059604645, "episode/reward_rate": 0.05138339920948617}
{"step": 718059, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.488499471586045, "train/action_min": 0.0, "train/action_std": 3.3105206652863384, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.041071810491689266, "train/actor_opt_grad_steps": 358120.0, "train/actor_opt_loss": -12.447158513227095, "train/adv_mag": 0.41735464946864403, "train/adv_max": 0.35490543956625953, "train/adv_mean": 0.0023335340941741055, "train/adv_min": -0.3802974724198041, "train/adv_std": 0.04642317581870784, "train/cont_avg": 0.9945419520547946, "train/cont_loss_mean": 0.00012793310235157486, "train/cont_loss_std": 0.00400570112374101, "train/cont_neg_acc": 0.9929060674693486, "train/cont_neg_loss": 0.017216273852698947, "train/cont_pos_acc": 0.9999865742578898, "train/cont_pos_loss": 1.8744299516689752e-05, "train/cont_pred": 0.9945628267444976, "train/cont_rate": 0.9945419520547946, "train/dyn_loss_mean": 5.346020006153681, "train/dyn_loss_std": 8.819702925747388, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0077388923462123, "train/extr_critic_critic_opt_grad_steps": 358120.0, "train/extr_critic_critic_opt_loss": 15860.543878424658, "train/extr_critic_mag": 11.602589907711499, "train/extr_critic_max": 11.602589907711499, "train/extr_critic_mean": 3.3676301028630506, "train/extr_critic_min": -0.4709903214075794, "train/extr_critic_std": 2.85835200139921, "train/extr_return_normed_mag": 1.4157676092565876, "train/extr_return_normed_max": 1.4157676092565876, "train/extr_return_normed_mean": 0.39457171992079854, "train/extr_return_normed_min": -0.08209306608936558, "train/extr_return_normed_std": 0.3289916298977316, "train/extr_return_rate": 0.8097736957955034, "train/extr_return_raw_mag": 12.368427446443741, "train/extr_return_raw_max": 12.368427446443741, "train/extr_return_raw_mean": 3.388165183263282, "train/extr_return_raw_min": -0.8032308914890028, "train/extr_return_raw_std": 2.8931199753121155, "train/extr_reward_mag": 1.0546592784254518, "train/extr_reward_max": 1.0546592784254518, "train/extr_reward_mean": 0.05963056825407564, "train/extr_reward_min": -0.6360426145057155, "train/extr_reward_std": 0.2355459161000709, "train/image_loss_mean": 3.181431295120553, "train/image_loss_std": 8.136472754282494, "train/model_loss_mean": 6.446215512001351, "train/model_loss_std": 12.288186595864492, "train/model_opt_grad_norm": 26.229668551928377, "train/model_opt_grad_steps": 357834.0, "train/model_opt_loss": 14938.381802493579, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2328.7671232876714, "train/policy_entropy_mag": 2.7091638192738574, "train/policy_entropy_max": 2.7091638192738574, "train/policy_entropy_mean": 0.3962123261330879, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5832163601705472, "train/policy_logprob_mag": 7.4383842651158165, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3970653218765781, "train/policy_logprob_min": -7.4383842651158165, "train/policy_logprob_std": 1.0255879718963414, "train/policy_randomness_mag": 0.956215938476667, "train/policy_randomness_max": 0.956215938476667, "train/policy_randomness_mean": 0.1398455638387432, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20584978346955285, "train/post_ent_mag": 55.618844594040965, "train/post_ent_max": 55.618844594040965, "train/post_ent_mean": 40.634212493896484, "train/post_ent_min": 19.2494717428129, "train/post_ent_std": 5.779015338584168, "train/prior_ent_mag": 76.53511193680437, "train/prior_ent_max": 76.53511193680437, "train/prior_ent_mean": 45.99582677344753, "train/prior_ent_min": 28.361634633312487, "train/prior_ent_std": 7.703091954531735, "train/rep_loss_mean": 5.346020006153681, "train/rep_loss_std": 8.819702925747388, "train/reward_avg": 0.04113736045738197, "train/reward_loss_mean": 0.0570443102656162, "train/reward_loss_std": 0.2151844713785877, "train/reward_max_data": 1.0232876767850902, "train/reward_max_pred": 1.022602822682629, "train/reward_neg_acc": 0.9938911452685317, "train/reward_neg_loss": 0.02496447807101354, "train/reward_pos_acc": 0.9906683613176215, "train/reward_pos_loss": 0.7257589918293365, "train/reward_pred": 0.04077576986220602, "train/reward_rate": 0.0458984375, "stats/sum_log_reward": 11.100000301996866, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 8.666666666666666, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.1666666666666665, "stats/max_log_achievement_collect_stone": 14.666666666666666, "stats/max_log_achievement_collect_wood": 11.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.16666666666666666, "stats/max_log_achievement_make_stone_sword": 1.5, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 2.1666666666666665, "stats/max_log_achievement_place_stone": 2.1666666666666665, "stats/max_log_achievement_place_table": 3.3333333333333335, "stats/max_log_achievement_wake_up": 0.8333333333333334, "stats/mean_log_entropy": 0.3004438728094101, "replay/size": 717996.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.4749918970568426e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.351751130202721e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.07573437690735, "timer/env.step_count": 1450.0, "timer/env.step_total": 18.528988361358643, "timer/env.step_frac": 0.06174770645761539, "timer/env.step_avg": 0.01277861266300596, "timer/env.step_min": 0.0031723976135253906, "timer/env.step_max": 1.6749014854431152, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.2676093578338623, "timer/replay.add_frac": 0.0008918060581924096, "timer/replay.add_avg": 0.00018455817781645677, "timer/replay.add_min": 6.318092346191406e-05, "timer/replay.add_max": 0.0009472370147705078, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029445409774780273, "timer/logger.write_frac": 9.812659406107006e-05, "timer/logger.write_avg": 0.029445409774780273, "timer/logger.write_min": 0.029445409774780273, "timer/logger.write_max": 0.029445409774780273, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 10.80939769744873, "timer/agent.policy_frac": 0.03602223192053139, "timer/agent.policy_avg": 0.007454757032723263, "timer/agent.policy_min": 0.006005764007568359, "timer/agent.policy_max": 0.018869638442993164, "timer/dataset_count": 725.0, "timer/dataset_total": 0.0579221248626709, "timer/dataset_frac": 0.00019302502077664951, "timer/dataset_avg": 7.98925860174771e-05, "timer/dataset_min": 5.9604644775390625e-05, "timer/dataset_max": 0.00013685226440429688, "timer/agent.train_count": 725.0, "timer/agent.train_total": 269.7170236110687, "timer/agent.train_frac": 0.8988298376445633, "timer/agent.train_avg": 0.3720234808428534, "timer/agent.train_min": 0.365523099899292, "timer/agent.train_max": 0.3852837085723877, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22060132026672363, "timer/agent.report_frac": 0.0007351521465898985, "timer/agent.report_avg": 0.22060132026672363, "timer/agent.report_min": 0.22060132026672363, "timer/agent.report_max": 0.22060132026672363, "fps": 4.832037633137924}
{"step": 718190, "episode/length": 218.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 14.900000013411045, "episode/reward_rate": 0.0639269406392694}
{"step": 718388, "episode/length": 197.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.100000038743019, "episode/reward_rate": 0.0707070707070707}
{"step": 718584, "episode/length": 195.0, "episode/score": 12.099999979138374, "episode/sum_abs_reward": 14.500000014901161, "episode/reward_rate": 0.0663265306122449}
{"step": 718834, "episode/length": 249.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.056}
{"step": 719012, "episode/length": 177.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.06741573033707865}
{"step": 719164, "episode/length": 151.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.700000047683716, "episode/reward_rate": 0.05263157894736842}
{"step": 719337, "episode/length": 172.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06358381502890173}
{"step": 719503, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.5694325764973955, "train/action_min": 0.0, "train/action_std": 3.3731317586368985, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03962590470392671, "train/actor_opt_grad_steps": 358845.0, "train/actor_opt_loss": -12.335951047639051, "train/adv_mag": 0.381170808027188, "train/adv_max": 0.34568978825377095, "train/adv_mean": 0.002103026791802323, "train/adv_min": -0.33671049401164055, "train/adv_std": 0.04398438008502126, "train/cont_avg": 0.9950086805555556, "train/cont_loss_mean": 1.3067337783291401e-05, "train/cont_loss_std": 0.00033670102768784064, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 7.725089990475966e-05, "train/cont_pos_acc": 0.9999999817874696, "train/cont_pos_loss": 1.2580742215106966e-05, "train/cont_pred": 0.9949976396229532, "train/cont_rate": 0.9950086805555556, "train/dyn_loss_mean": 5.418070412344402, "train/dyn_loss_std": 8.90598099761539, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0277466277281444, "train/extr_critic_critic_opt_grad_steps": 358845.0, "train/extr_critic_critic_opt_loss": 15787.743760850695, "train/extr_critic_mag": 11.37082142300076, "train/extr_critic_max": 11.37082142300076, "train/extr_critic_mean": 3.129114788439539, "train/extr_critic_min": -0.45638784435060287, "train/extr_critic_std": 2.7727670007281833, "train/extr_return_normed_mag": 1.3809706072012584, "train/extr_return_normed_max": 1.3809706072012584, "train/extr_return_normed_mean": 0.3652306944131851, "train/extr_return_normed_min": -0.07738237367529008, "train/extr_return_normed_std": 0.3177476084480683, "train/extr_return_rate": 0.7987892818119791, "train/extr_return_raw_mag": 12.10047788090176, "train/extr_return_raw_max": 12.10047788090176, "train/extr_return_raw_mean": 3.14765146209134, "train/extr_return_raw_min": -0.7534333144625028, "train/extr_return_raw_std": 2.800968564218945, "train/extr_reward_mag": 1.0554623471366034, "train/extr_reward_max": 1.0554623471366034, "train/extr_reward_mean": 0.05676516476604673, "train/extr_reward_min": -0.6365618705749512, "train/extr_reward_std": 0.22920206044283178, "train/image_loss_mean": 3.4178388317426047, "train/image_loss_std": 8.752353290716806, "train/model_loss_mean": 6.723123318619198, "train/model_loss_std": 12.950863692495558, "train/model_opt_grad_norm": 23.408099240726894, "train/model_opt_grad_steps": 358558.5416666667, "train/model_opt_loss": 17411.956081814234, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2569.4444444444443, "train/policy_entropy_mag": 2.708828992313809, "train/policy_entropy_max": 2.708828992313809, "train/policy_entropy_mean": 0.42101194916499984, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6062192598150836, "train/policy_logprob_mag": 7.438384274641673, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.42241547629237175, "train/policy_logprob_min": -7.438384274641673, "train/policy_logprob_std": 1.0482553102903895, "train/policy_randomness_mag": 0.956097754339377, "train/policy_randomness_max": 0.956097754339377, "train/policy_randomness_mean": 0.1485987432921926, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21396879417200884, "train/post_ent_mag": 55.176678286658394, "train/post_ent_max": 55.176678286658394, "train/post_ent_mean": 40.69253804948595, "train/post_ent_min": 19.262528949313694, "train/post_ent_std": 5.717410908804999, "train/prior_ent_mag": 76.65055412716336, "train/prior_ent_max": 76.65055412716336, "train/prior_ent_mean": 46.08670573764377, "train/prior_ent_min": 27.905399746365017, "train/prior_ent_std": 7.7075314323107404, "train/rep_loss_mean": 5.418070412344402, "train/rep_loss_std": 8.90598099761539, "train/reward_avg": 0.038106281853591405, "train/reward_loss_mean": 0.05442918407627278, "train/reward_loss_std": 0.2127438560128212, "train/reward_max_data": 1.0236111167404387, "train/reward_max_pred": 1.020330645971828, "train/reward_neg_acc": 0.9939777014984025, "train/reward_neg_loss": 0.024235605572660763, "train/reward_pos_acc": 0.9880037431915601, "train/reward_pos_loss": 0.7315849413474401, "train/reward_pred": 0.037688602745119065, "train/reward_rate": 0.04269748263888889, "stats/sum_log_reward": 11.385714667184013, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 1.5714285714285714, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 14.857142857142858, "stats/max_log_achievement_collect_wood": 9.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.2857142857142858, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_stone_pickaxe": 0.14285714285714285, "stats/max_log_achievement_make_stone_sword": 0.42857142857142855, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 2.4285714285714284, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.2983470857143402, "replay/size": 719440.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.442869952510929e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3434573223716335e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.08891677856445, "timer/env.step_count": 1444.0, "timer/env.step_total": 19.92892050743103, "timer/env.step_frac": 0.06641005179853603, "timer/env.step_avg": 0.013801191487140603, "timer/env.step_min": 0.0029261112213134766, "timer/env.step_max": 1.7008476257324219, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.24426817893981934, "timer/replay.add_frac": 0.0008139860064211061, "timer/replay.add_avg": 0.00016916078873948707, "timer/replay.add_min": 6.008148193359375e-05, "timer/replay.add_max": 0.0008122920989990234, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02357339859008789, "timer/logger.write_frac": 7.855471252702976e-05, "timer/logger.write_avg": 0.02357339859008789, "timer/logger.write_min": 0.02357339859008789, "timer/logger.write_max": 0.02357339859008789, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.59549069404602, "timer/agent.policy_frac": 0.035307837449606416, "timer/agent.policy_avg": 0.007337597433549876, "timer/agent.policy_min": 0.0059583187103271484, "timer/agent.policy_max": 0.013248682022094727, "timer/dataset_count": 722.0, "timer/dataset_total": 0.05722951889038086, "timer/dataset_frac": 0.00019070853900482606, "timer/dataset_avg": 7.926526162102612e-05, "timer/dataset_min": 5.91278076171875e-05, "timer/dataset_max": 0.00015997886657714844, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.581659078598, "timer/agent.train_frac": 0.89500692648634, "timer/agent.train_avg": 0.3719967577265901, "timer/agent.train_min": 0.3659195899963379, "timer/agent.train_max": 0.38500094413757324, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22231435775756836, "timer/agent.report_frac": 0.0007408282856431318, "timer/agent.report_avg": 0.22231435775756836, "timer/agent.report_min": 0.22231435775756836, "timer/agent.report_max": 0.22231435775756836, "fps": 4.811817089833828}
{"step": 719547, "episode/length": 209.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.05238095238095238}
{"step": 719794, "episode/length": 246.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.06072874493927125}
{"step": 720035, "episode/length": 240.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.06224066390041494}
{"step": 720214, "episode/length": 178.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.0782122905027933}
{"step": 720322, "episode/length": 107.0, "episode/score": 7.100000023841858, "episode/sum_abs_reward": 8.899999976158142, "episode/reward_rate": 0.08333333333333333}
{"step": 720622, "episode/length": 299.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.30000003427267, "episode/reward_rate": 0.04}
{"step": 720823, "episode/length": 200.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.06467661691542288}
{"step": 720927, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.471348722216109, "train/action_min": 0.0, "train/action_std": 3.3280838005979296, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04051790570079441, "train/actor_opt_grad_steps": 359560.0, "train/actor_opt_loss": -12.391928749185213, "train/adv_mag": 0.4133470180168958, "train/adv_max": 0.3617825449352533, "train/adv_mean": 0.001804747571884651, "train/adv_min": -0.35710774865788475, "train/adv_std": 0.0451508175424287, "train/cont_avg": 0.9949521346830986, "train/cont_loss_mean": 2.3338664265207292e-05, "train/cont_loss_std": 0.0006694466834188192, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0017184631099555973, "train/cont_pos_acc": 0.9999999848889632, "train/cont_pos_loss": 1.3729703871665062e-05, "train/cont_pred": 0.9949475787055324, "train/cont_rate": 0.9949521346830986, "train/dyn_loss_mean": 5.314758576137919, "train/dyn_loss_std": 8.80251737379692, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0018161233042326, "train/extr_critic_critic_opt_grad_steps": 359560.0, "train/extr_critic_critic_opt_loss": 15849.617558868838, "train/extr_critic_mag": 11.331040637593874, "train/extr_critic_max": 11.331040637593874, "train/extr_critic_mean": 3.1803759521162007, "train/extr_critic_min": -0.4039429090392422, "train/extr_critic_std": 2.7346661628132134, "train/extr_return_normed_mag": 1.402575649006266, "train/extr_return_normed_max": 1.402575649006266, "train/extr_return_normed_mean": 0.3775989990419065, "train/extr_return_normed_min": -0.08060874312486448, "train/extr_return_normed_std": 0.3193137246957967, "train/extr_return_rate": 0.8161073604100187, "train/extr_return_raw_mag": 12.049376836964782, "train/extr_return_raw_max": 12.049376836964782, "train/extr_return_raw_mean": 3.195973940298591, "train/extr_return_raw_min": -0.7613257115155878, "train/extr_return_raw_std": 2.7580240242917773, "train/extr_reward_mag": 1.067209952314135, "train/extr_reward_max": 1.067209952314135, "train/extr_reward_mean": 0.05587704962408039, "train/extr_reward_min": -0.6135952758117461, "train/extr_reward_std": 0.2279952882041394, "train/image_loss_mean": 3.1634971541418158, "train/image_loss_std": 8.256250085965009, "train/model_loss_mean": 6.407470783717196, "train/model_loss_std": 12.402522181121396, "train/model_opt_grad_norm": 26.76597968625351, "train/model_opt_grad_steps": 359272.94366197183, "train/model_opt_loss": 16018.676991637323, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7147398397956097, "train/policy_entropy_max": 2.7147398397956097, "train/policy_entropy_mean": 0.4086779712791174, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5991195410909788, "train/policy_logprob_mag": 7.438384257571798, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4083503640033829, "train/policy_logprob_min": -7.438384257571798, "train/policy_logprob_std": 1.0326408760648378, "train/policy_randomness_mag": 0.9581840315335234, "train/policy_randomness_max": 0.9581840315335234, "train/policy_randomness_mean": 0.14424538906191436, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21146290728323897, "train/post_ent_mag": 55.1630005097725, "train/post_ent_max": 55.1630005097725, "train/post_ent_mean": 40.671447431537466, "train/post_ent_min": 19.52664063682019, "train/post_ent_std": 5.6608105041611365, "train/prior_ent_mag": 76.7102202294578, "train/prior_ent_max": 76.7102202294578, "train/prior_ent_mean": 45.96884311085016, "train/prior_ent_min": 28.510493882944886, "train/prior_ent_std": 7.508634876197492, "train/rep_loss_mean": 5.314758576137919, "train/rep_loss_std": 8.80251737379692, "train/reward_avg": 0.03903361546321654, "train/reward_loss_mean": 0.05509512845269391, "train/reward_loss_std": 0.21121332741958995, "train/reward_max_data": 1.0239436676804448, "train/reward_max_pred": 1.0214620140236867, "train/reward_neg_acc": 0.9937029077973164, "train/reward_neg_loss": 0.024314769255128543, "train/reward_pos_acc": 0.988798116294431, "train/reward_pos_loss": 0.7295081623843018, "train/reward_pred": 0.038720362386862994, "train/reward_rate": 0.043601452464788734, "stats/sum_log_reward": 11.671428884778704, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 2.857142857142857, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 13.857142857142858, "stats/max_log_achievement_collect_wood": 12.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.8571428571428571, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.42857142857142855, "stats/max_log_achievement_make_stone_sword": 0.5714285714285714, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.7142857142857142, "stats/max_log_achievement_place_stone": 2.7142857142857144, "stats/max_log_achievement_place_table": 3.2857142857142856, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.3676750830241612, "replay/size": 720864.0, "replay/inserts": 1424.0, "replay/samples": 11392.0, "replay/insert_wait_avg": 3.4701288416144554e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.347655158364371e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.10178112983704, "timer/env.step_count": 1424.0, "timer/env.step_total": 21.412841320037842, "timer/env.step_frac": 0.07135193013324276, "timer/env.step_avg": 0.0150371076685659, "timer/env.step_min": 0.003031015396118164, "timer/env.step_max": 1.7789382934570312, "timer/replay.add_count": 1424.0, "timer/replay.add_total": 0.2827024459838867, "timer/replay.add_frac": 0.0009420218864398455, "timer/replay.add_avg": 0.0001985269985841901, "timer/replay.add_min": 6.914138793945312e-05, "timer/replay.add_max": 0.002540111541748047, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.020784854888916016, "timer/logger.write_frac": 6.925935197939924e-05, "timer/logger.write_avg": 0.020784854888916016, "timer/logger.write_min": 0.020784854888916016, "timer/logger.write_max": 0.020784854888916016, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00024318695068359375, "timer/checkpoint.save_frac": 8.103482417466244e-07, "timer/checkpoint.save_avg": 0.00024318695068359375, "timer/checkpoint.save_min": 0.00024318695068359375, "timer/checkpoint.save_max": 0.00024318695068359375, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2490630149841309, "timer/agent.save_frac": 0.004162131295194586, "timer/agent.save_avg": 1.2490630149841309, "timer/agent.save_min": 1.2490630149841309, "timer/agent.save_max": 1.2490630149841309, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.009506225585938e-05, "timer/replay.save_frac": 2.3357096379755645e-07, "timer/replay.save_avg": 7.009506225585938e-05, "timer/replay.save_min": 7.009506225585938e-05, "timer/replay.save_max": 7.009506225585938e-05, "timer/agent.policy_count": 1424.0, "timer/agent.policy_total": 12.341713666915894, "timer/agent.policy_frac": 0.04112509302827608, "timer/agent.policy_avg": 0.008666933754856667, "timer/agent.policy_min": 0.005994558334350586, "timer/agent.policy_max": 1.2451035976409912, "timer/dataset_count": 712.0, "timer/dataset_total": 0.0574498176574707, "timer/dataset_frac": 0.00019143444414485304, "timer/dataset_avg": 8.068794614813301e-05, "timer/dataset_min": 5.936622619628906e-05, "timer/dataset_max": 0.0002257823944091797, "timer/agent.train_count": 712.0, "timer/agent.train_total": 265.3332188129425, "timer/agent.train_frac": 0.8841440987587736, "timer/agent.train_avg": 0.372659015186717, "timer/agent.train_min": 0.3654019832611084, "timer/agent.train_max": 0.8681783676147461, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2196040153503418, "timer/agent.report_frac": 0.0007317651182327758, "timer/agent.report_avg": 0.2196040153503418, "timer/agent.report_min": 0.2196040153503418, "timer/agent.report_max": 0.2196040153503418, "fps": 4.7449588617093355}
{"step": 721105, "episode/length": 281.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 13.30000003427267, "episode/reward_rate": 0.03900709219858156}
{"step": 721303, "episode/length": 197.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.05555555555555555}
{"step": 721421, "episode/length": 117.0, "episode/score": 7.100000023841858, "episode/sum_abs_reward": 8.899999976158142, "episode/reward_rate": 0.07627118644067797}
{"step": 721617, "episode/length": 195.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.0663265306122449}
{"step": 722006, "episode/length": 388.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.030848329048843187}
{"step": 722280, "episode/length": 273.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.043795620437956206}
{"step": 722377, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.466551886664496, "train/action_min": 0.0, "train/action_std": 3.3390586409303875, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.040727213542494506, "train/actor_opt_grad_steps": 360275.0, "train/actor_opt_loss": -13.896943282335997, "train/adv_mag": 0.4055865311788188, "train/adv_max": 0.3420991698900859, "train/adv_mean": 0.0017093051049717662, "train/adv_min": -0.3692639602555169, "train/adv_std": 0.04578951565134856, "train/cont_avg": 0.9947781032986112, "train/cont_loss_mean": 0.000206743979314873, "train/cont_loss_std": 0.006562394212952485, "train/cont_neg_acc": 0.9967206791043282, "train/cont_neg_loss": 0.025504798423728905, "train/cont_pos_acc": 0.9999999784761004, "train/cont_pos_loss": 6.422144128690219e-06, "train/cont_pred": 0.9947939539949099, "train/cont_rate": 0.9947781032986112, "train/dyn_loss_mean": 5.3321542673640785, "train/dyn_loss_std": 8.889008316728804, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9531716638141208, "train/extr_critic_critic_opt_grad_steps": 360275.0, "train/extr_critic_critic_opt_loss": 15545.049981011285, "train/extr_critic_mag": 11.293139325247871, "train/extr_critic_max": 11.293139325247871, "train/extr_critic_mean": 3.242681552966436, "train/extr_critic_min": -0.446884799334738, "train/extr_critic_std": 2.73969993657536, "train/extr_return_normed_mag": 1.4130453831619687, "train/extr_return_normed_max": 1.4130453831619687, "train/extr_return_normed_mean": 0.38801524105171364, "train/extr_return_normed_min": -0.07908929351510273, "train/extr_return_normed_std": 0.32383497183521587, "train/extr_return_rate": 0.8167842585179541, "train/extr_return_raw_mag": 12.026696854167515, "train/extr_return_raw_max": 12.026696854167515, "train/extr_return_raw_mean": 3.2573206987645893, "train/extr_return_raw_min": -0.7388293283681074, "train/extr_return_raw_std": 2.770471705330743, "train/extr_reward_mag": 1.0660726891623602, "train/extr_reward_max": 1.0660726891623602, "train/extr_reward_mean": 0.0575081138457689, "train/extr_reward_min": -0.645817917254236, "train/extr_reward_std": 0.23078343168728882, "train/image_loss_mean": 3.231304513083564, "train/image_loss_std": 8.710730526182386, "train/model_loss_mean": 6.485730350017548, "train/model_loss_std": 12.891753315925598, "train/model_opt_grad_norm": 24.694524857732986, "train/model_opt_grad_steps": 359987.0, "train/model_opt_loss": 16214.325900607639, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7080538173516593, "train/policy_entropy_max": 2.7080538173516593, "train/policy_entropy_mean": 0.4241873208019469, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6211228163705932, "train/policy_logprob_mag": 7.438384327623579, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.42424467102520996, "train/policy_logprob_min": -7.438384327623579, "train/policy_logprob_std": 1.0463921626408894, "train/policy_randomness_mag": 0.9558241590857506, "train/policy_randomness_max": 0.9558241590857506, "train/policy_randomness_mean": 0.14971951105528408, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21922909665024942, "train/post_ent_mag": 54.91734822591146, "train/post_ent_max": 54.91734822591146, "train/post_ent_mean": 40.4917844136556, "train/post_ent_min": 19.52453312608931, "train/post_ent_std": 5.707530538241069, "train/prior_ent_mag": 76.72779411739774, "train/prior_ent_max": 76.72779411739774, "train/prior_ent_mean": 45.817593256632485, "train/prior_ent_min": 27.932905673980713, "train/prior_ent_std": 7.672490470939213, "train/rep_loss_mean": 5.3321542673640785, "train/rep_loss_std": 8.889008316728804, "train/reward_avg": 0.03951822927532097, "train/reward_loss_mean": 0.05492649253250824, "train/reward_loss_std": 0.21300313911504215, "train/reward_max_data": 1.022222227520413, "train/reward_max_pred": 1.0192565752400293, "train/reward_neg_acc": 0.9942370545532968, "train/reward_neg_loss": 0.023547456573901906, "train/reward_pos_acc": 0.9876431003212929, "train/reward_pos_loss": 0.7338607708613077, "train/reward_pred": 0.03904227252739171, "train/reward_rate": 0.04417588975694445, "stats/sum_log_reward": 10.266666809717814, "stats/max_log_achievement_collect_coal": 0.3333333333333333, "stats/max_log_achievement_collect_drink": 5.333333333333333, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 0.6666666666666666, "stats/max_log_achievement_collect_stone": 14.0, "stats/max_log_achievement_collect_wood": 9.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.3333333333333333, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.16666666666666666, "stats/max_log_achievement_make_stone_sword": 0.3333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 0.5, "stats/max_log_achievement_place_stone": 3.8333333333333335, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.5026677747567495, "replay/size": 722314.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.4989981815732757e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3456056857931202e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.16764664649963, "timer/env.step_count": 1450.0, "timer/env.step_total": 18.792799472808838, "timer/env.step_frac": 0.06260767835162687, "timer/env.step_avg": 0.012960551360557819, "timer/env.step_min": 0.002958536148071289, "timer/env.step_max": 1.682673692703247, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.25557923316955566, "timer/replay.add_frac": 0.0008514549653332403, "timer/replay.add_avg": 0.00017626154011693494, "timer/replay.add_min": 6.079673767089844e-05, "timer/replay.add_max": 0.0008473396301269531, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023534536361694336, "timer/logger.write_frac": 7.840464028893295e-05, "timer/logger.write_avg": 0.023534536361694336, "timer/logger.write_min": 0.023534536361694336, "timer/logger.write_max": 0.023534536361694336, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 10.816588163375854, "timer/agent.policy_frac": 0.03603515663403357, "timer/agent.policy_avg": 0.007459715974741969, "timer/agent.policy_min": 0.005957841873168945, "timer/agent.policy_max": 0.014801740646362305, "timer/dataset_count": 725.0, "timer/dataset_total": 0.05835390090942383, "timer/dataset_frac": 0.0001944043655649066, "timer/dataset_avg": 8.048813918541217e-05, "timer/dataset_min": 5.745887756347656e-05, "timer/dataset_max": 0.000133514404296875, "timer/agent.train_count": 725.0, "timer/agent.train_total": 269.5577278137207, "timer/agent.train_frac": 0.8980239237147782, "timer/agent.train_avg": 0.37180376250168373, "timer/agent.train_min": 0.36576080322265625, "timer/agent.train_max": 0.38471269607543945, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21882104873657227, "timer/agent.report_frac": 0.0007289961166077058, "timer/agent.report_avg": 0.21882104873657227, "timer/agent.report_min": 0.21882104873657227, "timer/agent.report_max": 0.21882104873657227, "fps": 4.83053226149013}
{"step": 722508, "episode/length": 227.0, "episode/score": 14.099999994039536, "episode/sum_abs_reward": 16.30000001192093, "episode/reward_rate": 0.07017543859649122}
{"step": 722715, "episode/length": 206.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.07246376811594203}
{"step": 722796, "episode/length": 80.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.12345679012345678}
{"step": 723001, "episode/length": 204.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.06829268292682927}
{"step": 723191, "episode/length": 189.0, "episode/score": 12.100000023841858, "episode/sum_abs_reward": 14.10000005364418, "episode/reward_rate": 0.06842105263157895}
{"step": 723444, "episode/length": 252.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.03557312252964427}
{"step": 723645, "episode/length": 200.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.06965174129353234}
{"step": 723819, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.490618143996147, "train/action_min": 0.0, "train/action_std": 3.3394014802697587, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04208470013451903, "train/actor_opt_grad_steps": 361000.0, "train/actor_opt_loss": -11.326910879513989, "train/adv_mag": 0.4337052541644606, "train/adv_max": 0.3745118059115867, "train/adv_mean": 0.00227356475059498, "train/adv_min": -0.38517498765906244, "train/adv_std": 0.0471071541207294, "train/cont_avg": 0.994675727739726, "train/cont_loss_mean": 8.973630945489862e-05, "train/cont_loss_std": 0.002779592694672025, "train/cont_neg_acc": 0.9972602741359031, "train/cont_neg_loss": 0.015302596304576132, "train/cont_pos_acc": 0.9999999836699603, "train/cont_pos_loss": 1.5134026118560491e-05, "train/cont_pred": 0.9946754493125497, "train/cont_rate": 0.994675727739726, "train/dyn_loss_mean": 5.232619899592987, "train/dyn_loss_std": 8.734722921293075, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.026763188512358, "train/extr_critic_critic_opt_grad_steps": 361000.0, "train/extr_critic_critic_opt_loss": 15887.697479666096, "train/extr_critic_mag": 11.449668008987217, "train/extr_critic_max": 11.449668008987217, "train/extr_critic_mean": 3.239896676311754, "train/extr_critic_min": -0.41289090457027905, "train/extr_critic_std": 2.740868227122581, "train/extr_return_normed_mag": 1.4443156800857961, "train/extr_return_normed_max": 1.4443156800857961, "train/extr_return_normed_mean": 0.385756425049207, "train/extr_return_normed_min": -0.07690443389423907, "train/extr_return_normed_std": 0.32212165263417647, "train/extr_return_rate": 0.8236649624288899, "train/extr_return_raw_mag": 12.37115508562898, "train/extr_return_raw_max": 12.37115508562898, "train/extr_return_raw_mean": 3.259462937916795, "train/extr_return_raw_min": -0.7225250569108415, "train/extr_return_raw_std": 2.7727867560843897, "train/extr_reward_mag": 1.0701679007647789, "train/extr_reward_max": 1.0701679007647789, "train/extr_reward_mean": 0.05987120557525386, "train/extr_reward_min": -0.6138198881933133, "train/extr_reward_std": 0.23533542168467012, "train/image_loss_mean": 3.1670129642094653, "train/image_loss_std": 8.317881401271036, "train/model_loss_mean": 6.364631574447841, "train/model_loss_std": 12.418125361612399, "train/model_opt_grad_norm": 25.94138752924253, "train/model_opt_grad_steps": 360711.3698630137, "train/model_opt_loss": 16571.114926690923, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2602.7397260273974, "train/policy_entropy_mag": 2.7070429423083997, "train/policy_entropy_max": 2.7070429423083997, "train/policy_entropy_mean": 0.39873166300662577, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5895693212339322, "train/policy_logprob_mag": 7.438384245519769, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39876718982441783, "train/policy_logprob_min": -7.438384245519769, "train/policy_logprob_std": 1.0273428151052293, "train/policy_randomness_mag": 0.9554673621099289, "train/policy_randomness_max": 0.9554673621099289, "train/policy_randomness_mean": 0.14073478042671125, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20809209632546935, "train/post_ent_mag": 55.38851531564373, "train/post_ent_max": 55.38851531564373, "train/post_ent_mean": 40.70229888288942, "train/post_ent_min": 19.50330103260197, "train/post_ent_std": 5.738531942236913, "train/prior_ent_mag": 76.78135858823175, "train/prior_ent_max": 76.78135858823175, "train/prior_ent_mean": 45.94834842420604, "train/prior_ent_min": 28.07212113680905, "train/prior_ent_std": 7.624154051689253, "train/rep_loss_mean": 5.232619899592987, "train/rep_loss_std": 8.734722921293075, "train/reward_avg": 0.04252996532986426, "train/reward_loss_mean": 0.05795697617816598, "train/reward_loss_std": 0.2172935721400666, "train/reward_max_data": 1.0273972668059885, "train/reward_max_pred": 1.0256798202044344, "train/reward_neg_acc": 0.9939488850227775, "train/reward_neg_loss": 0.02508085152159815, "train/reward_pos_acc": 0.989688468306032, "train/reward_pos_loss": 0.7214011484629488, "train/reward_pred": 0.042165711853806284, "train/reward_rate": 0.047222816780821915, "stats/sum_log_reward": 11.957143102373395, "stats/max_log_achievement_collect_coal": 1.2857142857142858, "stats/max_log_achievement_collect_drink": 2.857142857142857, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.142857142857143, "stats/max_log_achievement_collect_stone": 12.571428571428571, "stats/max_log_achievement_collect_wood": 11.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.1428571428571428, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.42857142857142855, "stats/max_log_achievement_make_stone_sword": 0.5714285714285714, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.7142857142857142, "stats/max_log_achievement_place_plant": 1.8571428571428572, "stats/max_log_achievement_place_stone": 2.2857142857142856, "stats/max_log_achievement_place_table": 2.857142857142857, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.3084165283611843, "replay/size": 723756.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.488979789321201e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3604078147348518e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0308678150177, "timer/env.step_count": 1442.0, "timer/env.step_total": 19.934260606765747, "timer/env.step_frac": 0.06644069909185511, "timer/env.step_avg": 0.013824036481807037, "timer/env.step_min": 0.003023386001586914, "timer/env.step_max": 1.5957047939300537, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.2576892375946045, "timer/replay.add_frac": 0.000858875753255766, "timer/replay.add_avg": 0.0001787026613000031, "timer/replay.add_min": 5.888938903808594e-05, "timer/replay.add_max": 0.0009310245513916016, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03237771987915039, "timer/logger.write_frac": 0.00010791462930111806, "timer/logger.write_avg": 0.03237771987915039, "timer/logger.write_min": 0.03237771987915039, "timer/logger.write_max": 0.03237771987915039, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 10.742933511734009, "timer/agent.policy_frac": 0.03580609418614055, "timer/agent.policy_avg": 0.007450023239760062, "timer/agent.policy_min": 0.006101369857788086, "timer/agent.policy_max": 0.01547384262084961, "timer/dataset_count": 721.0, "timer/dataset_total": 0.05814790725708008, "timer/dataset_frac": 0.00019380641625491292, "timer/dataset_avg": 8.06489698433843e-05, "timer/dataset_min": 5.817413330078125e-05, "timer/dataset_max": 0.0001499652862548828, "timer/agent.train_count": 721.0, "timer/agent.train_total": 268.3426878452301, "timer/agent.train_frac": 0.8943836005923071, "timer/agent.train_avg": 0.3721812591473372, "timer/agent.train_min": 0.3627607822418213, "timer/agent.train_max": 0.3862287998199463, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22098064422607422, "timer/agent.report_frac": 0.0007365263642216926, "timer/agent.report_avg": 0.22098064422607422, "timer/agent.report_min": 0.22098064422607422, "timer/agent.report_max": 0.22098064422607422, "fps": 4.806068357962026}
{"step": 724031, "episode/length": 385.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.03626943005181347}
{"step": 724263, "episode/length": 231.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.04310344827586207}
{"step": 724442, "episode/length": 178.0, "episode/score": 12.099999979138374, "episode/sum_abs_reward": 13.5, "episode/reward_rate": 0.07262569832402235}
{"step": 724480, "episode/length": 37.0, "episode/score": 3.0999999716877937, "episode/sum_abs_reward": 5.1000000312924385, "episode/reward_rate": 0.13157894736842105}
{"step": 724655, "episode/length": 174.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.07428571428571429}
{"step": 724904, "episode/length": 248.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.05220883534136546}
{"step": 725099, "episode/length": 194.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.07179487179487179}
{"step": 725241, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.469323386608715, "train/action_min": 0.0, "train/action_std": 3.308707640204631, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04087874917706973, "train/actor_opt_grad_steps": 361720.0, "train/actor_opt_loss": -13.224666807013499, "train/adv_mag": 0.4251893624453477, "train/adv_max": 0.36317751042439905, "train/adv_mean": 0.002442503594965543, "train/adv_min": -0.3773698135161064, "train/adv_std": 0.04632431174248037, "train/cont_avg": 0.9950621698943662, "train/cont_loss_mean": 1.3856155971511022e-05, "train/cont_loss_std": 0.00034904083420563334, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0008281403550361607, "train/cont_pos_acc": 0.9999999815309552, "train/cont_pos_loss": 1.0169879541716858e-05, "train/cont_pred": 0.9950561002946235, "train/cont_rate": 0.9950621698943662, "train/dyn_loss_mean": 5.373490340273145, "train/dyn_loss_std": 8.737754875505475, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9707607954320773, "train/extr_critic_critic_opt_grad_steps": 361720.0, "train/extr_critic_critic_opt_loss": 15943.84844025088, "train/extr_critic_mag": 11.448571151411029, "train/extr_critic_max": 11.448571151411029, "train/extr_critic_mean": 3.1795688582138277, "train/extr_critic_min": -0.3965629607858792, "train/extr_critic_std": 2.715214148373671, "train/extr_return_normed_mag": 1.4370399998946928, "train/extr_return_normed_max": 1.4370399998946928, "train/extr_return_normed_mean": 0.3794035260945978, "train/extr_return_normed_min": -0.07765584942740454, "train/extr_return_normed_std": 0.3209833582522164, "train/extr_return_rate": 0.8319065881447053, "train/extr_return_raw_mag": 12.258144110021457, "train/extr_return_raw_max": 12.258144110021457, "train/extr_return_raw_mean": 3.200498513772454, "train/extr_return_raw_min": -0.7146607754935681, "train/extr_return_raw_std": 2.7493613807248396, "train/extr_reward_mag": 1.067263986023379, "train/extr_reward_max": 1.067263986023379, "train/extr_reward_mean": 0.05818434143570107, "train/extr_reward_min": -0.6021755094259558, "train/extr_reward_std": 0.23192585920783834, "train/image_loss_mean": 3.1085931566399587, "train/image_loss_std": 8.087735565615372, "train/model_loss_mean": 6.388875323282162, "train/model_loss_std": 12.190662343737106, "train/model_opt_grad_norm": 25.197680514199394, "train/model_opt_grad_steps": 361430.78873239434, "train/model_opt_loss": 16403.383692781692, "train/model_opt_model_opt_grad_overflow": 0.014084507042253521, "train/model_opt_model_opt_grad_scale": 2570.4225352112676, "train/policy_entropy_mag": 2.693109411588857, "train/policy_entropy_max": 2.693109411588857, "train/policy_entropy_mean": 0.39358363982657313, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5895002030990493, "train/policy_logprob_mag": 7.438384277719847, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39299986333074705, "train/policy_logprob_min": -7.438384277719847, "train/policy_logprob_std": 1.0184589767120253, "train/policy_randomness_mag": 0.9505494354476391, "train/policy_randomness_max": 0.9505494354476391, "train/policy_randomness_mean": 0.13891775360409642, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20806770404459726, "train/post_ent_mag": 54.967937845579335, "train/post_ent_max": 54.967937845579335, "train/post_ent_mean": 40.672055580246614, "train/post_ent_min": 19.59627530272578, "train/post_ent_std": 5.757230469878291, "train/prior_ent_mag": 76.80965219417088, "train/prior_ent_max": 76.80965219417088, "train/prior_ent_mean": 46.07706558872277, "train/prior_ent_min": 28.12565113121355, "train/prior_ent_std": 7.585097111446757, "train/rep_loss_mean": 5.373490340273145, "train/rep_loss_std": 8.737754875505475, "train/reward_avg": 0.040100957122696956, "train/reward_loss_mean": 0.05617410206878689, "train/reward_loss_std": 0.21696829208185975, "train/reward_max_data": 1.0281690208005234, "train/reward_max_pred": 1.0244132800840995, "train/reward_neg_acc": 0.993173490947401, "train/reward_neg_loss": 0.024055243063140924, "train/reward_pos_acc": 0.9871066716355337, "train/reward_pos_loss": 0.7430373379881953, "train/reward_pred": 0.039536305585167776, "train/reward_rate": 0.04481183978873239, "stats/sum_log_reward": 10.671428748539515, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 2.5714285714285716, "stats/max_log_achievement_collect_iron": 0.2857142857142857, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 15.714285714285714, "stats/max_log_achievement_collect_wood": 10.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.2857142857142858, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 2.2857142857142856, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 4.0, "stats/max_log_achievement_place_table": 2.5714285714285716, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.3919536939689091, "replay/size": 725178.0, "replay/inserts": 1422.0, "replay/samples": 11376.0, "replay/insert_wait_avg": 3.447177205575334e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3425925277624118e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.03761196136475, "timer/env.step_count": 1422.0, "timer/env.step_total": 21.413007497787476, "timer/env.step_frac": 0.07136774405651777, "timer/env.step_avg": 0.015058373767783035, "timer/env.step_min": 0.0029799938201904297, "timer/env.step_max": 1.8094348907470703, "timer/replay.add_count": 1422.0, "timer/replay.add_total": 0.25832533836364746, "timer/replay.add_frac": 0.0008609765178270766, "timer/replay.add_avg": 0.0001816633884413836, "timer/replay.add_min": 6.29425048828125e-05, "timer/replay.add_max": 0.0008499622344970703, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023183345794677734, "timer/logger.write_frac": 7.726813196227881e-05, "timer/logger.write_avg": 0.023183345794677734, "timer/logger.write_min": 0.023183345794677734, "timer/logger.write_max": 0.023183345794677734, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003094673156738281, "timer/checkpoint.save_frac": 1.0314284054283088e-06, "timer/checkpoint.save_avg": 0.0003094673156738281, "timer/checkpoint.save_min": 0.0003094673156738281, "timer/checkpoint.save_max": 0.0003094673156738281, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.460481882095337, "timer/agent.save_frac": 0.004867662665850708, "timer/agent.save_avg": 1.460481882095337, "timer/agent.save_min": 1.460481882095337, "timer/agent.save_max": 1.460481882095337, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.794929504394531e-05, "timer/replay.save_frac": 2.2646925697000619e-07, "timer/replay.save_avg": 6.794929504394531e-05, "timer/replay.save_min": 6.794929504394531e-05, "timer/replay.save_max": 6.794929504394531e-05, "timer/agent.policy_count": 1422.0, "timer/agent.policy_total": 12.595701694488525, "timer/agent.policy_frac": 0.04198040909654503, "timer/agent.policy_avg": 0.008857736775308387, "timer/agent.policy_min": 0.006039619445800781, "timer/agent.policy_max": 1.4589684009552002, "timer/dataset_count": 711.0, "timer/dataset_total": 0.05715584754943848, "timer/dataset_frac": 0.00019049560878653548, "timer/dataset_avg": 8.038797123690362e-05, "timer/dataset_min": 5.984306335449219e-05, "timer/dataset_max": 0.00014901161193847656, "timer/agent.train_count": 711.0, "timer/agent.train_total": 265.03202199935913, "timer/agent.train_frac": 0.8833293275027359, "timer/agent.train_avg": 0.3727595246123194, "timer/agent.train_min": 0.3654751777648926, "timer/agent.train_max": 0.8724558353424072, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2220141887664795, "timer/agent.report_frac": 0.0007399545254181926, "timer/agent.report_avg": 0.2220141887664795, "timer/agent.report_min": 0.2220141887664795, "timer/agent.report_max": 0.2220141887664795, "fps": 4.739314129858229}
{"step": 725332, "episode/length": 232.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.060085836909871244}
{"step": 725636, "episode/length": 303.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.900000043213367, "episode/reward_rate": 0.046052631578947366}
{"step": 725818, "episode/length": 181.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.07142857142857142}
{"step": 725950, "episode/length": 131.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.08333333333333333}
{"step": 726137, "episode/length": 186.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.06951871657754011}
{"step": 726404, "episode/length": 266.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 8.899999991059303, "episode/reward_rate": 0.033707865168539325}
{"step": 726693, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.416863335503472, "train/action_min": 0.0, "train/action_std": 3.2775002320607505, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03952439455315471, "train/actor_opt_grad_steps": 362435.0, "train/actor_opt_loss": -12.12636366652118, "train/adv_mag": 0.4119652435183525, "train/adv_max": 0.3720244864622752, "train/adv_mean": 0.0020470848461021283, "train/adv_min": -0.34102682396769524, "train/adv_std": 0.04506129693860809, "train/cont_avg": 0.9946424696180556, "train/cont_loss_mean": 0.0001476495804348943, "train/cont_loss_std": 0.0046632500251632, "train/cont_neg_acc": 0.9953703706463178, "train/cont_neg_loss": 0.04744786037237425, "train/cont_pos_acc": 0.9999999784761004, "train/cont_pos_loss": 6.141885542376713e-06, "train/cont_pred": 0.9946554270055559, "train/cont_rate": 0.9946424696180556, "train/dyn_loss_mean": 5.325392584005992, "train/dyn_loss_std": 8.772626095347935, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.999071872068776, "train/extr_critic_critic_opt_grad_steps": 362435.0, "train/extr_critic_critic_opt_loss": 15740.276665581598, "train/extr_critic_mag": 11.44163147608439, "train/extr_critic_max": 11.44163147608439, "train/extr_critic_mean": 3.1734376152356467, "train/extr_critic_min": -0.4354432076215744, "train/extr_critic_std": 2.750246329440011, "train/extr_return_normed_mag": 1.4247633053196802, "train/extr_return_normed_max": 1.4247633053196802, "train/extr_return_normed_mean": 0.37634334299299455, "train/extr_return_normed_min": -0.08113628351646993, "train/extr_return_normed_std": 0.3214325530247556, "train/extr_return_rate": 0.8115478927890459, "train/extr_return_raw_mag": 12.253150092230904, "train/extr_return_raw_max": 12.253150092230904, "train/extr_return_raw_mean": 3.1911387311087713, "train/extr_return_raw_min": -0.7628017349375619, "train/extr_return_raw_std": 2.778315860364172, "train/extr_reward_mag": 1.0651001864009433, "train/extr_reward_max": 1.0651001864009433, "train/extr_reward_mean": 0.05607971781864762, "train/extr_reward_min": -0.6001088900698556, "train/extr_reward_std": 0.2289072929157151, "train/image_loss_mean": 3.1977813243865967, "train/image_loss_std": 8.037452744113075, "train/model_loss_mean": 6.44803567065133, "train/model_loss_std": 12.149664137098524, "train/model_opt_grad_norm": 26.357182171609665, "train/model_opt_grad_steps": 362145.0, "train/model_opt_loss": 16120.089111328125, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.696624825398127, "train/policy_entropy_max": 2.696624825398127, "train/policy_entropy_mean": 0.40142077455917996, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5944639320174853, "train/policy_logprob_mag": 7.438384327623579, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4016516674309969, "train/policy_logprob_min": -7.438384327623579, "train/policy_logprob_std": 1.0281299394037988, "train/policy_randomness_mag": 0.9517902251746919, "train/policy_randomness_max": 0.9517902251746919, "train/policy_randomness_mean": 0.1416839166647858, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2098196783206529, "train/post_ent_mag": 55.04547198613485, "train/post_ent_max": 55.04547198613485, "train/post_ent_mean": 40.712516201867, "train/post_ent_min": 19.496313015619915, "train/post_ent_std": 5.716918031374614, "train/prior_ent_mag": 76.73876910739475, "train/prior_ent_max": 76.73876910739475, "train/prior_ent_mean": 46.05680327945285, "train/prior_ent_min": 28.531253708733452, "train/prior_ent_std": 7.593391716480255, "train/rep_loss_mean": 5.325392584005992, "train/rep_loss_std": 8.772626095347935, "train/reward_avg": 0.038468424463644624, "train/reward_loss_mean": 0.05487122303909726, "train/reward_loss_std": 0.2147365084124936, "train/reward_max_data": 1.0263888951804903, "train/reward_max_pred": 1.0248743759261236, "train/reward_neg_acc": 0.9938755068514082, "train/reward_neg_loss": 0.024191318267387234, "train/reward_pos_acc": 0.988653241760201, "train/reward_pos_loss": 0.736223905450768, "train/reward_pred": 0.03818207117728889, "train/reward_rate": 0.043158637152777776, "stats/sum_log_reward": 11.100000301996866, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 12.833333333333334, "stats/max_log_achievement_collect_wood": 10.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.8333333333333334, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.3333333333333333, "stats/max_log_achievement_make_stone_sword": 0.5, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.3333333333333333, "stats/max_log_achievement_place_furnace": 1.3333333333333333, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 3.3333333333333335, "stats/max_log_achievement_place_table": 2.8333333333333335, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.3951645642518997, "replay/size": 726630.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.457726197466049e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3429312338185377e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1529803276062, "timer/env.step_count": 1452.0, "timer/env.step_total": 18.385709524154663, "timer/env.step_frac": 0.06125446265463472, "timer/env.step_avg": 0.012662334383026627, "timer/env.step_min": 0.0031239986419677734, "timer/env.step_max": 1.6571037769317627, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.2534346580505371, "timer/replay.add_frac": 0.0008443516295387848, "timer/replay.add_avg": 0.00017454177551689884, "timer/replay.add_min": 6.341934204101562e-05, "timer/replay.add_max": 0.0008423328399658203, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029202938079833984, "timer/logger.write_frac": 9.729351362082104e-05, "timer/logger.write_avg": 0.029202938079833984, "timer/logger.write_min": 0.029202938079833984, "timer/logger.write_max": 0.029202938079833984, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 10.714962720870972, "timer/agent.policy_frac": 0.03569833859112768, "timer/agent.policy_avg": 0.007379450909690752, "timer/agent.policy_min": 0.005836963653564453, "timer/agent.policy_max": 0.015102148056030273, "timer/dataset_count": 726.0, "timer/dataset_total": 0.05775141716003418, "timer/dataset_frac": 0.00019240660911312818, "timer/dataset_avg": 7.954740655652091e-05, "timer/dataset_min": 5.745887756347656e-05, "timer/dataset_max": 0.0002105236053466797, "timer/agent.train_count": 726.0, "timer/agent.train_total": 270.05593490600586, "timer/agent.train_frac": 0.8997276475857394, "timer/agent.train_avg": 0.37197787177135794, "timer/agent.train_min": 0.36577558517456055, "timer/agent.train_max": 0.38388943672180176, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22139310836791992, "timer/agent.report_frac": 0.0007376008998020852, "timer/agent.report_avg": 0.22139310836791992, "timer/agent.report_min": 0.22139310836791992, "timer/agent.report_max": 0.22139310836791992, "fps": 4.837448786326887}
{"step": 726770, "episode/length": 365.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.03825136612021858}
{"step": 726962, "episode/length": 191.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.700000025331974, "episode/reward_rate": 0.046875}
{"step": 727191, "episode/length": 228.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.0611353711790393}
{"step": 727395, "episode/length": 203.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.299999997019768, "episode/reward_rate": 0.058823529411764705}
{"step": 727577, "episode/length": 181.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.07142857142857142}
{"step": 727893, "episode/length": 315.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 18.700000070035458, "episode/reward_rate": 0.05063291139240506}
{"step": 728143, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.481214549443493, "train/action_min": 0.0, "train/action_std": 3.355980285226482, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04035704044548616, "train/actor_opt_grad_steps": 363160.0, "train/actor_opt_loss": -12.868888115637922, "train/adv_mag": 0.43331888481362224, "train/adv_max": 0.37620194235893145, "train/adv_mean": 0.0017973286478131553, "train/adv_min": -0.3705315438851918, "train/adv_std": 0.04600041609716742, "train/cont_avg": 0.9948362585616438, "train/cont_loss_mean": 0.00026347331014340067, "train/cont_loss_std": 0.008296319168993848, "train/cont_neg_acc": 0.9963470329977062, "train/cont_neg_loss": 0.007271155970049217, "train/cont_pos_acc": 0.9999864983232054, "train/cont_pos_loss": 0.00021451941525399838, "train/cont_pred": 0.9948397458416142, "train/cont_rate": 0.9948362585616438, "train/dyn_loss_mean": 5.4270180414800775, "train/dyn_loss_std": 8.861050893182624, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9765087790685157, "train/extr_critic_critic_opt_grad_steps": 363160.0, "train/extr_critic_critic_opt_loss": 15781.964121361301, "train/extr_critic_mag": 11.406000085072975, "train/extr_critic_max": 11.406000085072975, "train/extr_critic_mean": 3.2484072691773713, "train/extr_critic_min": -0.4336225186308769, "train/extr_critic_std": 2.7263199907459623, "train/extr_return_normed_mag": 1.4242706331488204, "train/extr_return_normed_max": 1.4242706331488204, "train/extr_return_normed_mean": 0.3867965873381863, "train/extr_return_normed_min": -0.08631420594780412, "train/extr_return_normed_std": 0.3201576779558234, "train/extr_return_rate": 0.8231994215756246, "train/extr_return_raw_mag": 12.197265220015016, "train/extr_return_raw_max": 12.197265220015016, "train/extr_return_raw_mean": 3.26388204587649, "train/extr_return_raw_min": -0.8095816745333475, "train/extr_return_raw_std": 2.7567850710594493, "train/extr_reward_mag": 1.0557175499119171, "train/extr_reward_max": 1.0557175499119171, "train/extr_reward_mean": 0.058105108187827346, "train/extr_reward_min": -0.6356487829391271, "train/extr_reward_std": 0.2321260195888885, "train/image_loss_mean": 3.4325329571554106, "train/image_loss_std": 8.686326856482518, "train/model_loss_mean": 6.744518025280678, "train/model_loss_std": 12.848730622905574, "train/model_opt_grad_norm": 23.368983386314078, "train/model_opt_grad_steps": 362869.2191780822, "train/model_opt_loss": 17291.169895119863, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2568.4931506849316, "train/policy_entropy_mag": 2.715702073214805, "train/policy_entropy_max": 2.715702073214805, "train/policy_entropy_mean": 0.40766303343315646, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6085080696295385, "train/policy_logprob_mag": 7.438384271647832, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40847215321782515, "train/policy_logprob_min": -7.438384271647832, "train/policy_logprob_std": 1.036314701380795, "train/policy_randomness_mag": 0.9585236564074477, "train/policy_randomness_max": 0.9585236564074477, "train/policy_randomness_mean": 0.14388716180030614, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21477664272262625, "train/post_ent_mag": 55.385277316994866, "train/post_ent_max": 55.385277316994866, "train/post_ent_mean": 40.745622399735126, "train/post_ent_min": 19.678604517897515, "train/post_ent_std": 5.743483445415758, "train/prior_ent_mag": 76.71975164544092, "train/prior_ent_max": 76.71975164544092, "train/prior_ent_mean": 46.15113020596439, "train/prior_ent_min": 27.919642069568372, "train/prior_ent_std": 7.644576771618569, "train/rep_loss_mean": 5.4270180414800775, "train/rep_loss_std": 8.861050893182624, "train/reward_avg": 0.04065443016588688, "train/reward_loss_mean": 0.05551072337651906, "train/reward_loss_std": 0.212653127639261, "train/reward_max_data": 1.019178086764192, "train/reward_max_pred": 1.019528434701162, "train/reward_neg_acc": 0.9939375715712978, "train/reward_neg_loss": 0.023358399112236826, "train/reward_pos_acc": 0.9867760637035109, "train/reward_pos_loss": 0.736633737609811, "train/reward_pred": 0.04010461176401132, "train/reward_rate": 0.045256314212328765, "stats/sum_log_reward": 11.933333079020182, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 3.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.1666666666666665, "stats/max_log_achievement_collect_stone": 15.666666666666666, "stats/max_log_achievement_collect_wood": 11.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 0.5, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.1666666666666665, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 4.0, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.4687723567088445, "replay/size": 728080.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.4837065071895204e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3412894873783506e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.29553484916687, "timer/env.step_count": 1450.0, "timer/env.step_total": 18.789573192596436, "timer/env.step_frac": 0.06257027165600083, "timer/env.step_avg": 0.01295832633972168, "timer/env.step_min": 0.003268003463745117, "timer/env.step_max": 1.6637918949127197, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.2620735168457031, "timer/replay.add_frac": 0.0008727186602269594, "timer/replay.add_avg": 0.0001807403564453125, "timer/replay.add_min": 6.794929504394531e-05, "timer/replay.add_max": 0.0008072853088378906, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.020590782165527344, "timer/logger.write_frac": 6.856839271975764e-05, "timer/logger.write_avg": 0.020590782165527344, "timer/logger.write_min": 0.020590782165527344, "timer/logger.write_max": 0.020590782165527344, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 10.785403728485107, "timer/agent.policy_frac": 0.0359159643645798, "timer/agent.policy_avg": 0.007438209467920764, "timer/agent.policy_min": 0.006106853485107422, "timer/agent.policy_max": 0.01643085479736328, "timer/dataset_count": 725.0, "timer/dataset_total": 0.058034420013427734, "timer/dataset_frac": 0.00019325768544170126, "timer/dataset_avg": 8.004747588058998e-05, "timer/dataset_min": 5.888938903808594e-05, "timer/dataset_max": 0.0001735687255859375, "timer/agent.train_count": 725.0, "timer/agent.train_total": 269.71793699264526, "timer/agent.train_frac": 0.8981749832814524, "timer/agent.train_avg": 0.3720247406795107, "timer/agent.train_min": 0.36561131477355957, "timer/agent.train_max": 0.38439345359802246, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21978163719177246, "timer/agent.report_frac": 0.000731884466088265, "timer/agent.report_avg": 0.21978163719177246, "timer/agent.report_min": 0.21978163719177246, "timer/agent.report_max": 0.21978163719177246, "fps": 4.828477875961489}
{"step": 728308, "episode/length": 414.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.02891566265060241}
{"step": 728360, "episode/length": 51.0, "episode/score": 6.099999979138374, "episode/sum_abs_reward": 8.30000002682209, "episode/reward_rate": 0.1346153846153846}
{"step": 728553, "episode/length": 192.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.046632124352331605}
{"step": 728729, "episode/length": 175.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.07386363636363637}
{"step": 728899, "episode/length": 169.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.07058823529411765}
{"step": 729251, "episode/length": 351.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.04261363636363636}
{"step": 729539, "episode/length": 287.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.04861111111111111}
{"step": 729567, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.526941433758803, "train/action_min": 0.0, "train/action_std": 3.4005154253731313, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04044700246041929, "train/actor_opt_grad_steps": 363880.0, "train/actor_opt_loss": -11.277497588538788, "train/adv_mag": 0.39221762099736174, "train/adv_max": 0.353363091467132, "train/adv_mean": 0.002230360685592734, "train/adv_min": -0.34792042471153634, "train/adv_std": 0.04601219658490638, "train/cont_avg": 0.9948971170774648, "train/cont_loss_mean": 9.788353379767165e-06, "train/cont_loss_std": 0.00026759782177260976, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00037425238641665436, "train/cont_pos_acc": 0.9999999832099592, "train/cont_pos_loss": 7.93955017186331e-06, "train/cont_pred": 0.9948922110275483, "train/cont_rate": 0.9948971170774648, "train/dyn_loss_mean": 5.3066234118501905, "train/dyn_loss_std": 8.833133348276917, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.009358504288633, "train/extr_critic_critic_opt_grad_steps": 363880.0, "train/extr_critic_critic_opt_loss": 15761.561592209508, "train/extr_critic_mag": 11.39221601083245, "train/extr_critic_max": 11.39221601083245, "train/extr_critic_mean": 3.2488519138013814, "train/extr_critic_min": -0.40486343981514517, "train/extr_critic_std": 2.7446511261899706, "train/extr_return_normed_mag": 1.4284899150821524, "train/extr_return_normed_max": 1.4284899150821524, "train/extr_return_normed_mean": 0.38741129384913914, "train/extr_return_normed_min": -0.07634553811709646, "train/extr_return_normed_std": 0.32342001606880777, "train/extr_return_rate": 0.8261306537708766, "train/extr_return_raw_mag": 12.18628671135701, "train/extr_return_raw_max": 12.18628671135701, "train/extr_return_raw_mean": 3.267950612054744, "train/extr_return_raw_min": -0.7051862763686919, "train/extr_return_raw_std": 2.770901146069379, "train/extr_reward_mag": 1.0677779190976855, "train/extr_reward_max": 1.0677779190976855, "train/extr_reward_mean": 0.058925295379799854, "train/extr_reward_min": -0.6171770565946337, "train/extr_reward_std": 0.23381269397869917, "train/image_loss_mean": 3.107117602522944, "train/image_loss_std": 8.017052992968493, "train/model_loss_mean": 6.3452887938056195, "train/model_loss_std": 12.171139179820745, "train/model_opt_grad_norm": 26.70243386819329, "train/model_opt_grad_steps": 363588.6338028169, "train/model_opt_loss": 16302.158822073063, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2570.4225352112676, "train/policy_entropy_mag": 2.7171627131985945, "train/policy_entropy_max": 2.7171627131985945, "train/policy_entropy_mean": 0.41442106601218104, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6163068837682966, "train/policy_logprob_mag": 7.438384271003831, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41424607684914494, "train/policy_logprob_min": -7.438384271003831, "train/policy_logprob_std": 1.0384525438429604, "train/policy_randomness_mag": 0.9590391995201648, "train/policy_randomness_max": 0.9590391995201648, "train/policy_randomness_mean": 0.14627245058056335, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.217529285751598, "train/post_ent_mag": 55.074097593065716, "train/post_ent_max": 55.074097593065716, "train/post_ent_mean": 40.686302131330464, "train/post_ent_min": 19.3345795752297, "train/post_ent_std": 5.74040540507142, "train/prior_ent_mag": 76.63879093653719, "train/prior_ent_max": 76.63879093653719, "train/prior_ent_mean": 45.97884965278733, "train/prior_ent_min": 27.981824391324754, "train/prior_ent_std": 7.6395105576850995, "train/rep_loss_mean": 5.3066234118501905, "train/rep_loss_std": 8.833133348276917, "train/reward_avg": 0.039728212681874424, "train/reward_loss_mean": 0.054187369204952686, "train/reward_loss_std": 0.20591416325367673, "train/reward_max_data": 1.025352118720471, "train/reward_max_pred": 1.0254486631339705, "train/reward_neg_acc": 0.9940006800100837, "train/reward_neg_loss": 0.02315149874701886, "train/reward_pos_acc": 0.9887712984017922, "train/reward_pos_loss": 0.7233168675865925, "train/reward_pred": 0.03940909190601866, "train/reward_rate": 0.04445422535211268, "stats/sum_log_reward": 10.81428575515747, "stats/max_log_achievement_collect_coal": 1.2857142857142858, "stats/max_log_achievement_collect_drink": 4.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 12.142857142857142, "stats/max_log_achievement_collect_wood": 12.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.7142857142857143, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.2857142857142857, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.4285714285714286, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 2.0, "stats/max_log_achievement_place_table": 2.7142857142857144, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.4569473160164697, "replay/size": 729504.0, "replay/inserts": 1424.0, "replay/samples": 11392.0, "replay/insert_wait_avg": 3.4594133998570816e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3523640927304043e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1560733318329, "timer/env.step_count": 1424.0, "timer/env.step_total": 21.506603717803955, "timer/env.step_frac": 0.07165140281545349, "timer/env.step_avg": 0.015102952049019631, "timer/env.step_min": 0.0029449462890625, "timer/env.step_max": 1.8143372535705566, "timer/replay.add_count": 1424.0, "timer/replay.add_total": 0.2651522159576416, "timer/replay.add_frac": 0.0008833811457298307, "timer/replay.add_avg": 0.00018620239884665842, "timer/replay.add_min": 6.389617919921875e-05, "timer/replay.add_max": 0.0008835792541503906, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.020198345184326172, "timer/logger.write_frac": 6.729280857161336e-05, "timer/logger.write_avg": 0.020198345184326172, "timer/logger.write_min": 0.020198345184326172, "timer/logger.write_max": 0.020198345184326172, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00027251243591308594, "timer/checkpoint.save_frac": 9.079024551730927e-07, "timer/checkpoint.save_avg": 0.00027251243591308594, "timer/checkpoint.save_min": 0.00027251243591308594, "timer/checkpoint.save_max": 0.00027251243591308594, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2476418018341064, "timer/agent.save_frac": 0.004156643535427635, "timer/agent.save_avg": 1.2476418018341064, "timer/agent.save_min": 1.2476418018341064, "timer/agent.save_max": 1.2476418018341064, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.05718994140625e-05, "timer/replay.save_frac": 2.351173462215533e-07, "timer/replay.save_avg": 7.05718994140625e-05, "timer/replay.save_min": 7.05718994140625e-05, "timer/replay.save_max": 7.05718994140625e-05, "timer/agent.policy_count": 1424.0, "timer/agent.policy_total": 12.291833639144897, "timer/agent.policy_frac": 0.040951474020503496, "timer/agent.policy_avg": 0.008631905645466922, "timer/agent.policy_min": 0.005915641784667969, "timer/agent.policy_max": 1.2460784912109375, "timer/dataset_count": 712.0, "timer/dataset_total": 0.0572514533996582, "timer/dataset_frac": 0.00019073894712223513, "timer/dataset_avg": 8.04093446624413e-05, "timer/dataset_min": 5.7697296142578125e-05, "timer/dataset_max": 0.00015783309936523438, "timer/agent.train_count": 712.0, "timer/agent.train_total": 265.3605492115021, "timer/agent.train_frac": 0.8840752288164992, "timer/agent.train_avg": 0.37269740057795236, "timer/agent.train_min": 0.3657243251800537, "timer/agent.train_max": 0.8654658794403076, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22133398056030273, "timer/agent.report_frac": 0.0007373963088716528, "timer/agent.report_avg": 0.22133398056030273, "timer/agent.report_min": 0.22133398056030273, "timer/agent.report_max": 0.22133398056030273, "fps": 4.744108879235153}
{"step": 729696, "episode/length": 156.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.06369426751592357}
{"step": 729862, "episode/length": 165.0, "episode/score": 9.099999979138374, "episode/sum_abs_reward": 11.30000002682209, "episode/reward_rate": 0.060240963855421686}
{"step": 730167, "episode/length": 304.0, "episode/score": 13.099999979138374, "episode/sum_abs_reward": 15.30000002682209, "episode/reward_rate": 0.04590163934426229}
{"step": 730363, "episode/length": 195.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.05612244897959184}
{"step": 730550, "episode/length": 186.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 12.100000031292439, "episode/reward_rate": 0.053475935828877004}
{"step": 730781, "episode/length": 230.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.047619047619047616}
{"step": 730986, "episode/length": 204.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.04878048780487805}
{"step": 731013, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.409143235948351, "train/action_min": 0.0, "train/action_std": 3.2887211508221097, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04140298477270537, "train/actor_opt_grad_steps": 364595.0, "train/actor_opt_loss": -12.144656889554527, "train/adv_mag": 0.4335828862256474, "train/adv_max": 0.37198052265577847, "train/adv_mean": 0.002551496645385972, "train/adv_min": -0.3900568899181154, "train/adv_std": 0.04689356658814682, "train/cont_avg": 0.9948187934027778, "train/cont_loss_mean": 9.882229292262284e-06, "train/cont_loss_std": 0.0002734637758123881, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00020462097726357974, "train/cont_pos_acc": 0.9999999817874696, "train/cont_pos_loss": 8.691037084871153e-06, "train/cont_pred": 0.9948120936751366, "train/cont_rate": 0.9948187934027778, "train/dyn_loss_mean": 5.339745495054457, "train/dyn_loss_std": 8.903708073827955, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0060048227508862, "train/extr_critic_critic_opt_grad_steps": 364595.0, "train/extr_critic_critic_opt_loss": 15906.022013346354, "train/extr_critic_mag": 11.45149146185981, "train/extr_critic_max": 11.45149146185981, "train/extr_critic_mean": 3.2467862831221685, "train/extr_critic_min": -0.4149174309439129, "train/extr_critic_std": 2.706118017435074, "train/extr_return_normed_mag": 1.4266595111952887, "train/extr_return_normed_max": 1.4266595111952887, "train/extr_return_normed_mean": 0.38622796245747143, "train/extr_return_normed_min": -0.08510186445588867, "train/extr_return_normed_std": 0.319128124250306, "train/extr_return_rate": 0.8266574856307771, "train/extr_return_raw_mag": 12.194992714458042, "train/extr_return_raw_max": 12.194992714458042, "train/extr_return_raw_mean": 3.268681291076872, "train/extr_return_raw_min": -0.7741522644129064, "train/extr_return_raw_std": 2.7376467320654125, "train/extr_reward_mag": 1.0649365054236517, "train/extr_reward_max": 1.0649365054236517, "train/extr_reward_mean": 0.05830303238083919, "train/extr_reward_min": -0.6457408153348498, "train/extr_reward_std": 0.23305641176799932, "train/image_loss_mean": 3.3025226129425898, "train/image_loss_std": 8.831718570656246, "train/model_loss_mean": 6.560693654749128, "train/model_loss_std": 12.985344449679056, "train/model_opt_grad_norm": 26.820725003878277, "train/model_opt_grad_steps": 364303.0, "train/model_opt_loss": 16401.734144422742, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7070280843310885, "train/policy_entropy_max": 2.7070280843310885, "train/policy_entropy_mean": 0.399927060223288, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6056530276934305, "train/policy_logprob_mag": 7.438384321000841, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4009041316393349, "train/policy_logprob_min": -7.438384321000841, "train/policy_logprob_std": 1.0333050572209888, "train/policy_randomness_mag": 0.955462117989858, "train/policy_randomness_max": 0.955462117989858, "train/policy_randomness_mean": 0.141156701474554, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21376894279900524, "train/post_ent_mag": 55.35142834981283, "train/post_ent_max": 55.35142834981283, "train/post_ent_mean": 40.63065587149726, "train/post_ent_min": 19.608311653137207, "train/post_ent_std": 5.730048464404212, "train/prior_ent_mag": 76.81687090131972, "train/prior_ent_max": 76.81687090131972, "train/prior_ent_mean": 45.923846615685356, "train/prior_ent_min": 28.442714346779717, "train/prior_ent_std": 7.664888044198354, "train/rep_loss_mean": 5.339745495054457, "train/rep_loss_std": 8.903708073827955, "train/reward_avg": 0.039165581214345165, "train/reward_loss_mean": 0.054313798228071794, "train/reward_loss_std": 0.2130287858761019, "train/reward_max_data": 1.0319444520605936, "train/reward_max_pred": 1.030895084142685, "train/reward_neg_acc": 0.9938435273038017, "train/reward_neg_loss": 0.02326734585221857, "train/reward_pos_acc": 0.988971540497409, "train/reward_pos_loss": 0.731948090924157, "train/reward_pred": 0.038905635450242296, "train/reward_rate": 0.043782552083333336, "stats/sum_log_reward": 9.957143238612584, "stats/max_log_achievement_collect_coal": 0.42857142857142855, "stats/max_log_achievement_collect_drink": 4.714285714285714, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 9.571428571428571, "stats/max_log_achievement_collect_wood": 10.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.8571428571428571, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.14285714285714285, "stats/max_log_achievement_make_stone_sword": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.7142857142857143, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 2.0, "stats/max_log_achievement_place_table": 2.4285714285714284, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.34267080255917143, "replay/size": 730950.0, "replay/inserts": 1446.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.5116451574723913e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3421762368820845e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3149938583374, "timer/env.step_count": 1446.0, "timer/env.step_total": 19.771580934524536, "timer/env.step_frac": 0.06583614317922153, "timer/env.step_avg": 0.013673292485839927, "timer/env.step_min": 0.0028448104858398438, "timer/env.step_max": 1.67832350730896, "timer/replay.add_count": 1446.0, "timer/replay.add_total": 0.2822704315185547, "timer/replay.add_frac": 0.0009399145473625784, "timer/replay.add_avg": 0.00019520776730190504, "timer/replay.add_min": 6.175041198730469e-05, "timer/replay.add_max": 0.0009007453918457031, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029129981994628906, "timer/logger.write_frac": 9.699809396919393e-05, "timer/logger.write_avg": 0.029129981994628906, "timer/logger.write_min": 0.029129981994628906, "timer/logger.write_max": 0.029129981994628906, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1446.0, "timer/agent.policy_total": 10.650503158569336, "timer/agent.policy_frac": 0.035464440258994596, "timer/agent.policy_avg": 0.0073654931940313525, "timer/agent.policy_min": 0.005972146987915039, "timer/agent.policy_max": 0.017357826232910156, "timer/dataset_count": 723.0, "timer/dataset_total": 0.05781197547912598, "timer/dataset_frac": 0.00019250445918926265, "timer/dataset_avg": 7.996123856034021e-05, "timer/dataset_min": 5.888938903808594e-05, "timer/dataset_max": 0.00014925003051757812, "timer/agent.train_count": 723.0, "timer/agent.train_total": 268.86414432525635, "timer/agent.train_frac": 0.8952737952607294, "timer/agent.train_avg": 0.3718729520404652, "timer/agent.train_min": 0.3660242557525635, "timer/agent.train_max": 0.3852231502532959, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22263073921203613, "timer/agent.report_frac": 0.0007413240889232925, "timer/agent.report_avg": 0.22263073921203613, "timer/agent.report_min": 0.22263073921203613, "timer/agent.report_max": 0.22263073921203613, "fps": 4.814835298253616}
{"step": 731119, "episode/length": 132.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.08270676691729323}
{"step": 731299, "episode/length": 179.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.07222222222222222}
{"step": 731474, "episode/length": 174.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.05714285714285714}
{"step": 731680, "episode/length": 205.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.06796116504854369}
{"step": 732009, "episode/length": 328.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.03951367781155015}
{"step": 732232, "episode/length": 222.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.04932735426008968}
{"step": 732431, "episode/length": 198.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.06532663316582915}
{"step": 732459, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.435343703178511, "train/action_min": 0.0, "train/action_std": 3.3508921518717725, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0403518440737708, "train/actor_opt_grad_steps": 365320.0, "train/actor_opt_loss": -13.314395582839234, "train/adv_mag": 0.4135642941683939, "train/adv_max": 0.3602403618701517, "train/adv_mean": 0.0019035088578127453, "train/adv_min": -0.3692355892837864, "train/adv_std": 0.04555044236452612, "train/cont_avg": 0.9946355950342466, "train/cont_loss_mean": 1.2655716335607956e-05, "train/cont_loss_std": 0.000319443239235413, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 2.076687579505831e-05, "train/cont_pos_acc": 0.9999999787709485, "train/cont_pos_loss": 1.2619315706247917e-05, "train/cont_pred": 0.9946239084413607, "train/cont_rate": 0.9946355950342466, "train/dyn_loss_mean": 5.473601027710797, "train/dyn_loss_std": 8.933833879967258, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0062775391421905, "train/extr_critic_critic_opt_grad_steps": 365320.0, "train/extr_critic_critic_opt_loss": 15728.961405714897, "train/extr_critic_mag": 11.441713346193914, "train/extr_critic_max": 11.441713346193914, "train/extr_critic_mean": 3.2275923964095443, "train/extr_critic_min": -0.40439341329548456, "train/extr_critic_std": 2.731405207555588, "train/extr_return_normed_mag": 1.4359897326116693, "train/extr_return_normed_max": 1.4359897326116693, "train/extr_return_normed_mean": 0.38431790430251866, "train/extr_return_normed_min": -0.08165639036730545, "train/extr_return_normed_std": 0.32142026069229596, "train/extr_return_rate": 0.8224511693601739, "train/extr_return_raw_mag": 12.27421760559082, "train/extr_return_raw_max": 12.27421760559082, "train/extr_return_raw_mean": 3.243951225933963, "train/extr_return_raw_min": -0.7571664272922359, "train/extr_return_raw_std": 2.7600541457737964, "train/extr_reward_mag": 1.0705683002733204, "train/extr_reward_max": 1.0705683002733204, "train/extr_reward_mean": 0.05536927400182371, "train/extr_reward_min": -0.6476592576667054, "train/extr_reward_std": 0.22761084118934527, "train/image_loss_mean": 3.2795232256797897, "train/image_loss_std": 8.93103166475688, "train/model_loss_mean": 6.6200383460685, "train/model_loss_std": 13.11826598807557, "train/model_opt_grad_norm": 24.42439539138585, "train/model_opt_grad_steps": 365027.1780821918, "train/model_opt_loss": 19059.855615903252, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2876.7123287671234, "train/policy_entropy_mag": 2.6924647958311314, "train/policy_entropy_max": 2.6924647958311314, "train/policy_entropy_mean": 0.40103449478541336, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5960265144909898, "train/policy_logprob_mag": 7.43838429124388, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4014117364605812, "train/policy_logprob_min": -7.43838429124388, "train/policy_logprob_std": 1.0272869916811382, "train/policy_randomness_mag": 0.9503219152150089, "train/policy_randomness_max": 0.9503219152150089, "train/policy_randomness_mean": 0.14154758049200658, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21037120555769906, "train/post_ent_mag": 55.58440080407548, "train/post_ent_max": 55.58440080407548, "train/post_ent_mean": 40.74736002046768, "train/post_ent_min": 19.428862192859388, "train/post_ent_std": 5.778457804901959, "train/prior_ent_mag": 76.78721629103569, "train/prior_ent_max": 76.78721629103569, "train/prior_ent_mean": 46.19754305277785, "train/prior_ent_min": 28.397022769875722, "train/prior_ent_std": 7.674464460921614, "train/rep_loss_mean": 5.473601027710797, "train/rep_loss_std": 8.933833879967258, "train/reward_avg": 0.03948656890592347, "train/reward_loss_mean": 0.05634188167240522, "train/reward_loss_std": 0.21497288938254527, "train/reward_max_data": 1.0273972668059885, "train/reward_max_pred": 1.0267005162696317, "train/reward_neg_acc": 0.9935911224312979, "train/reward_neg_loss": 0.02475227737059332, "train/reward_pos_acc": 0.9860062411386673, "train/reward_pos_loss": 0.7385240719742971, "train/reward_pred": 0.039040805261633164, "train/reward_rate": 0.04434663955479452, "stats/sum_log_reward": 11.242857251848493, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 6.285714285714286, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 16.142857142857142, "stats/max_log_achievement_collect_wood": 10.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.1428571428571428, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.2857142857142857, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.5714285714285714, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 4.714285714285714, "stats/max_log_achievement_place_table": 2.7142857142857144, "stats/max_log_achievement_wake_up": 1.7142857142857142, "stats/mean_log_entropy": 0.36576085005487713, "replay/size": 732396.0, "replay/inserts": 1446.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.396557904213131e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3356221991785663e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1388826370239, "timer/env.step_count": 1446.0, "timer/env.step_total": 19.723458290100098, "timer/env.step_frac": 0.06571443898507767, "timer/env.step_avg": 0.013640012648755254, "timer/env.step_min": 0.002995014190673828, "timer/env.step_max": 1.7813749313354492, "timer/replay.add_count": 1446.0, "timer/replay.add_total": 0.25287795066833496, "timer/replay.add_frac": 0.0008425364566115065, "timer/replay.add_avg": 0.00017488101705970605, "timer/replay.add_min": 6.413459777832031e-05, "timer/replay.add_max": 0.0008244514465332031, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0211331844329834, "timer/logger.write_frac": 7.041135172926273e-05, "timer/logger.write_avg": 0.0211331844329834, "timer/logger.write_min": 0.0211331844329834, "timer/logger.write_max": 0.0211331844329834, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1446.0, "timer/agent.policy_total": 10.636525630950928, "timer/agent.policy_frac": 0.03543867937902041, "timer/agent.policy_avg": 0.007355826854046284, "timer/agent.policy_min": 0.006124019622802734, "timer/agent.policy_max": 0.014467477798461914, "timer/dataset_count": 723.0, "timer/dataset_total": 0.05794525146484375, "timer/dataset_frac": 0.00019306146193300933, "timer/dataset_avg": 8.014557602329703e-05, "timer/dataset_min": 5.91278076171875e-05, "timer/dataset_max": 0.00013685226440429688, "timer/agent.train_count": 723.0, "timer/agent.train_total": 268.7850995063782, "timer/agent.train_frac": 0.8955357504660142, "timer/agent.train_avg": 0.37176362310702377, "timer/agent.train_min": 0.36567163467407227, "timer/agent.train_max": 0.38706016540527344, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22079229354858398, "timer/agent.report_frac": 0.0007356337559755676, "timer/agent.report_avg": 0.22079229354858398, "timer/agent.report_min": 0.22079229354858398, "timer/agent.report_max": 0.22079229354858398, "fps": 4.817675381668167}
{"step": 732636, "episode/length": 204.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.06829268292682927}
{"step": 732920, "episode/length": 283.0, "episode/score": 11.099999979138374, "episode/sum_abs_reward": 13.30000002682209, "episode/reward_rate": 0.04225352112676056}
{"step": 733137, "episode/length": 216.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.05069124423963134}
{"step": 733323, "episode/length": 185.0, "episode/score": 13.099999994039536, "episode/sum_abs_reward": 14.900000035762787, "episode/reward_rate": 0.07526881720430108}
{"step": 733559, "episode/length": 235.0, "episode/score": 15.1000000461936, "episode/sum_abs_reward": 17.300000078976154, "episode/reward_rate": 0.06779661016949153}
{"step": 733886, "episode/length": 326.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.900000028312206, "episode/reward_rate": 0.027522935779816515}
{"step": 733889, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.466974822568222, "train/action_min": 0.0, "train/action_std": 3.3284357299267406, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03963120562404814, "train/actor_opt_grad_steps": 366040.0, "train/actor_opt_loss": -12.095130930484181, "train/adv_mag": 0.3987133112591757, "train/adv_max": 0.33932750997409017, "train/adv_mean": 0.0019051402674628828, "train/adv_min": -0.3511650474138663, "train/adv_std": 0.04427227467088632, "train/cont_avg": 0.9943056778169014, "train/cont_loss_mean": 1.583806138723061e-05, "train/cont_loss_std": 0.00041985901420605546, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0014869281446206668, "train/cont_pos_acc": 0.9999999882469714, "train/cont_pos_loss": 6.918724059520993e-06, "train/cont_pred": 0.9943063066039287, "train/cont_rate": 0.9943056778169014, "train/dyn_loss_mean": 5.440083879820058, "train/dyn_loss_std": 8.918253697140116, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9945764096689896, "train/extr_critic_critic_opt_grad_steps": 366040.0, "train/extr_critic_critic_opt_loss": 15767.44023712588, "train/extr_critic_mag": 11.35464720658853, "train/extr_critic_max": 11.35464720658853, "train/extr_critic_mean": 3.112587655094308, "train/extr_critic_min": -0.39669698728641994, "train/extr_critic_std": 2.793081891368812, "train/extr_return_normed_mag": 1.4191116296069723, "train/extr_return_normed_max": 1.4191116296069723, "train/extr_return_normed_mean": 0.36951952501082086, "train/extr_return_normed_min": -0.07660222242415791, "train/extr_return_normed_std": 0.3272380377625076, "train/extr_return_rate": 0.7975004088710731, "train/extr_return_raw_mag": 12.18531741558666, "train/extr_return_raw_max": 12.18531741558666, "train/extr_return_raw_mean": 3.1290492004072163, "train/extr_return_raw_min": -0.7200821692674932, "train/extr_return_raw_std": 2.823545371982413, "train/extr_reward_mag": 1.0572696974579716, "train/extr_reward_max": 1.0572696974579716, "train/extr_reward_mean": 0.05483856172838681, "train/extr_reward_min": -0.6094965901173336, "train/extr_reward_std": 0.2264512145603207, "train/image_loss_mean": 3.415663279278178, "train/image_loss_std": 8.869909790200246, "train/model_loss_mean": 6.734557447299151, "train/model_loss_std": 13.067118698442487, "train/model_opt_grad_norm": 34.50957162615279, "train/model_opt_grad_steps": 365746.4647887324, "train/model_opt_loss": 16105.982580050617, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2411.9718309859154, "train/policy_entropy_mag": 2.695275105221171, "train/policy_entropy_max": 2.695275105221171, "train/policy_entropy_mean": 0.43144291723278205, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6284410642905974, "train/policy_logprob_mag": 7.438384264287814, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.430499597334526, "train/policy_logprob_min": -7.438384264287814, "train/policy_logprob_std": 1.0493327966878112, "train/policy_randomness_mag": 0.9513138331158061, "train/policy_randomness_max": 0.9513138331158061, "train/policy_randomness_mean": 0.15228041492297617, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22181211684791136, "train/post_ent_mag": 55.36797316645233, "train/post_ent_max": 55.36797316645233, "train/post_ent_mean": 40.76810283392248, "train/post_ent_min": 19.355505956730372, "train/post_ent_std": 5.792000582520391, "train/prior_ent_mag": 76.76984932053257, "train/prior_ent_max": 76.76984932053257, "train/prior_ent_mean": 46.20915883023974, "train/prior_ent_min": 28.32824798369072, "train/prior_ent_std": 7.805020513668866, "train/rep_loss_mean": 5.440083879820058, "train/rep_loss_std": 8.918253697140116, "train/reward_avg": 0.036498679372836164, "train/reward_loss_mean": 0.05482796946881523, "train/reward_loss_std": 0.21377077572782274, "train/reward_max_data": 1.0197183145603663, "train/reward_max_pred": 1.0197011316326303, "train/reward_neg_acc": 0.9935623247858504, "train/reward_neg_loss": 0.025613442902833645, "train/reward_pos_acc": 0.9893692908152728, "train/reward_pos_loss": 0.732492639145381, "train/reward_pred": 0.03632902267428351, "train/reward_rate": 0.041469520246478875, "stats/sum_log_reward": 11.766666889190674, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 4.166666666666667, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.3333333333333335, "stats/max_log_achievement_collect_stone": 10.166666666666666, "stats/max_log_achievement_collect_wood": 11.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 0.16666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.3333333333333333, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 2.8333333333333335, "stats/max_log_achievement_place_table": 2.1666666666666665, "stats/max_log_achievement_wake_up": 2.1666666666666665, "stats/mean_log_entropy": 0.4660486926635106, "replay/size": 733826.0, "replay/inserts": 1430.0, "replay/samples": 11440.0, "replay/insert_wait_avg": 3.4837456016273765e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3551511964597902e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.09846019744873, "timer/env.step_count": 1430.0, "timer/env.step_total": 18.79273295402527, "timer/env.step_frac": 0.06262189063436266, "timer/env.step_avg": 0.013141771296521167, "timer/env.step_min": 0.002999544143676758, "timer/env.step_max": 1.6708109378814697, "timer/replay.add_count": 1430.0, "timer/replay.add_total": 0.27321624755859375, "timer/replay.add_frac": 0.0009104220240878013, "timer/replay.add_avg": 0.0001910603129780376, "timer/replay.add_min": 5.9604644775390625e-05, "timer/replay.add_max": 0.0009212493896484375, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.020645856857299805, "timer/logger.write_frac": 6.879694365547872e-05, "timer/logger.write_avg": 0.020645856857299805, "timer/logger.write_min": 0.020645856857299805, "timer/logger.write_max": 0.020645856857299805, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003981590270996094, "timer/checkpoint.save_frac": 1.3267613130625264e-06, "timer/checkpoint.save_avg": 0.0003981590270996094, "timer/checkpoint.save_min": 0.0003981590270996094, "timer/checkpoint.save_max": 0.0003981590270996094, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2459080219268799, "timer/agent.save_frac": 0.004151664160846207, "timer/agent.save_avg": 1.2459080219268799, "timer/agent.save_min": 1.2459080219268799, "timer/agent.save_max": 1.2459080219268799, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.009506225585938e-05, "timer/replay.save_frac": 2.335735485271753e-07, "timer/replay.save_avg": 7.009506225585938e-05, "timer/replay.save_min": 7.009506225585938e-05, "timer/replay.save_max": 7.009506225585938e-05, "timer/agent.policy_count": 1430.0, "timer/agent.policy_total": 14.243604183197021, "timer/agent.policy_frac": 0.047463103188951694, "timer/agent.policy_avg": 0.009960562365872044, "timer/agent.policy_min": 0.006007671356201172, "timer/agent.policy_max": 2.495413064956665, "timer/dataset_count": 715.0, "timer/dataset_total": 0.05715751647949219, "timer/dataset_frac": 0.00019046254499901667, "timer/dataset_avg": 7.994058248880026e-05, "timer/dataset_min": 5.817413330078125e-05, "timer/dataset_max": 0.000148773193359375, "timer/agent.train_count": 715.0, "timer/agent.train_total": 266.0555806159973, "timer/agent.train_frac": 0.8865609654942813, "timer/agent.train_avg": 0.372105707155241, "timer/agent.train_min": 0.3644568920135498, "timer/agent.train_max": 0.3843259811401367, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2211604118347168, "timer/agent.report_frac": 0.0007369595021887319, "timer/agent.report_avg": 0.2211604118347168, "timer/agent.report_min": 0.2211604118347168, "timer/agent.report_max": 0.2211604118347168, "fps": 4.76503940360784}
{"step": 734079, "episode/length": 192.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.06735751295336788}
{"step": 734135, "episode/length": 55.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.125}
{"step": 734324, "episode/length": 188.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.05291005291005291}
{"step": 734633, "episode/length": 308.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.042071197411003236}
{"step": 734933, "episode/length": 299.0, "episode/score": 11.099999964237213, "episode/sum_abs_reward": 12.699999988079071, "episode/reward_rate": 0.04}
{"step": 735098, "episode/length": 164.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06666666666666667}
{"step": 735275, "episode/length": 176.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.500000037252903, "episode/reward_rate": 0.062146892655367235}
{"step": 735333, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.347416347927517, "train/action_min": 0.0, "train/action_std": 3.2087598178121777, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04086441205193599, "train/actor_opt_grad_steps": 366755.0, "train/actor_opt_loss": -11.499905820108122, "train/adv_mag": 0.3771932042307324, "train/adv_max": 0.34206822431749767, "train/adv_mean": 0.002324554944506316, "train/adv_min": -0.3237717112319337, "train/adv_std": 0.04528389508939452, "train/cont_avg": 0.9949273003472222, "train/cont_loss_mean": 0.00012225226111637098, "train/cont_loss_std": 0.0038081212804191487, "train/cont_neg_acc": 0.9957010596990585, "train/cont_neg_loss": 0.017520948643465317, "train/cont_pos_acc": 0.9999999784761004, "train/cont_pos_loss": 1.313726674270457e-05, "train/cont_pred": 0.9949472066428926, "train/cont_rate": 0.9949273003472222, "train/dyn_loss_mean": 5.4222167531649275, "train/dyn_loss_std": 8.71061489979426, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9972716040081449, "train/extr_critic_critic_opt_grad_steps": 366755.0, "train/extr_critic_critic_opt_loss": 16002.347154405383, "train/extr_critic_mag": 11.340568860371908, "train/extr_critic_max": 11.340568860371908, "train/extr_critic_mean": 3.237007293436262, "train/extr_critic_min": -0.4249062074555291, "train/extr_critic_std": 2.718064139286677, "train/extr_return_normed_mag": 1.4019085847669177, "train/extr_return_normed_max": 1.4019085847669177, "train/extr_return_normed_mean": 0.3843321098635594, "train/extr_return_normed_min": -0.08154543934182988, "train/extr_return_normed_std": 0.3186889410846763, "train/extr_return_rate": 0.8243878839744462, "train/extr_return_raw_mag": 12.027157968944973, "train/extr_return_raw_max": 12.027157968944973, "train/extr_return_raw_mean": 3.257044172949261, "train/extr_return_raw_min": -0.758427155100637, "train/extr_return_raw_std": 2.746818866994646, "train/extr_reward_mag": 1.057611409160826, "train/extr_reward_max": 1.057611409160826, "train/extr_reward_mean": 0.057713987357500524, "train/extr_reward_min": -0.6186335881551107, "train/extr_reward_std": 0.2315052609062857, "train/image_loss_mean": 3.0553231438001, "train/image_loss_std": 7.934536013338301, "train/model_loss_mean": 6.36345014307234, "train/model_loss_std": 12.031421105066935, "train/model_opt_grad_norm": 28.445618404282463, "train/model_opt_grad_steps": 366460.0, "train/model_opt_loss": 7954.312608506944, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.690508226553599, "train/policy_entropy_max": 2.690508226553599, "train/policy_entropy_mean": 0.37879524048831725, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5741921307312118, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3784591857757833, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 1.0091178798013263, "train/policy_randomness_mag": 0.949631332523293, "train/policy_randomness_max": 0.949631332523293, "train/policy_randomness_mean": 0.13369809691276816, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20266462531354693, "train/post_ent_mag": 54.37923002243042, "train/post_ent_max": 54.37923002243042, "train/post_ent_mean": 40.38835774527656, "train/post_ent_min": 19.52087550693088, "train/post_ent_std": 5.5743124220106335, "train/prior_ent_mag": 76.64372942182753, "train/prior_ent_max": 76.64372942182753, "train/prior_ent_mean": 45.79358598921034, "train/prior_ent_min": 28.026494873894585, "train/prior_ent_std": 7.530032985740238, "train/rep_loss_mean": 5.4222167531649275, "train/rep_loss_std": 8.71061489979426, "train/reward_avg": 0.03972167896831201, "train/reward_loss_mean": 0.05467481285126673, "train/reward_loss_std": 0.20532235958509976, "train/reward_max_data": 1.0208333383003871, "train/reward_max_pred": 1.022588266266717, "train/reward_neg_acc": 0.9933492930399047, "train/reward_neg_loss": 0.02414210314034588, "train/reward_pos_acc": 0.991458061668608, "train/reward_pos_loss": 0.7154100802209642, "train/reward_pred": 0.039506043773144484, "train/reward_rate": 0.044243706597222224, "stats/sum_log_reward": 10.100000177110944, "stats/max_log_achievement_collect_coal": 0.2857142857142857, "stats/max_log_achievement_collect_drink": 2.2857142857142856, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.1428571428571428, "stats/max_log_achievement_collect_stone": 17.571428571428573, "stats/max_log_achievement_collect_wood": 9.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.42857142857142855, "stats/max_log_achievement_defeat_zombie": 0.7142857142857143, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.5714285714285714, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.7142857142857144, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 3.5714285714285716, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.29770619315760477, "replay/size": 735270.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.430982045519715e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3479772036755844e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.21205282211304, "timer/env.step_count": 1444.0, "timer/env.step_total": 19.978006601333618, "timer/env.step_frac": 0.06654631755631524, "timer/env.step_avg": 0.01383518462696234, "timer/env.step_min": 0.0030317306518554688, "timer/env.step_max": 1.7160208225250244, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.2683401107788086, "timer/replay.add_frac": 0.0008938352349824217, "timer/replay.add_avg": 0.00018583110164737437, "timer/replay.add_min": 6.079673767089844e-05, "timer/replay.add_max": 0.0008132457733154297, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029882192611694336, "timer/logger.write_frac": 9.953695173391544e-05, "timer/logger.write_avg": 0.029882192611694336, "timer/logger.write_min": 0.029882192611694336, "timer/logger.write_max": 0.029882192611694336, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.611776113510132, "timer/agent.policy_frac": 0.035347601849276884, "timer/agent.policy_avg": 0.007348875424868512, "timer/agent.policy_min": 0.005993366241455078, "timer/agent.policy_max": 0.016168832778930664, "timer/dataset_count": 722.0, "timer/dataset_total": 0.05677151679992676, "timer/dataset_frac": 0.0001891047220331491, "timer/dataset_avg": 7.863090969518941e-05, "timer/dataset_min": 5.936622619628906e-05, "timer/dataset_max": 0.0001385211944580078, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.6090979576111, "timer/agent.train_frac": 0.8947312255873088, "timer/agent.train_avg": 0.3720347617141428, "timer/agent.train_min": 0.3661017417907715, "timer/agent.train_max": 0.3863656520843506, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22063612937927246, "timer/agent.report_frac": 0.0007349342816359465, "timer/agent.report_avg": 0.22063612937927246, "timer/agent.report_min": 0.22063612937927246, "timer/agent.report_max": 0.22063612937927246, "fps": 4.809831600068526}
{"step": 735458, "episode/length": 182.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.07103825136612021}
{"step": 735649, "episode/length": 190.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.04712041884816754}
{"step": 735816, "episode/length": 166.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.05389221556886228}
{"step": 736209, "episode/length": 392.0, "episode/score": 8.099999964237213, "episode/sum_abs_reward": 10.700000002980232, "episode/reward_rate": 0.022900763358778626}
{"step": 736416, "episode/length": 206.0, "episode/score": 13.1000000461936, "episode/sum_abs_reward": 15.900000087916851, "episode/reward_rate": 0.06763285024154589}
{"step": 736630, "episode/length": 213.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06074766355140187}
{"step": 736785, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.30938720703125, "train/action_min": 0.0, "train/action_std": 3.2335096907942265, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04105165519126474, "train/actor_opt_grad_steps": 367480.0, "train/actor_opt_loss": -12.817073898772671, "train/adv_mag": 0.42096362824309363, "train/adv_max": 0.36116903734533756, "train/adv_mean": 0.0021987859611116408, "train/adv_min": -0.3713461538291957, "train/adv_std": 0.046064093862086125, "train/cont_avg": 0.994408176369863, "train/cont_loss_mean": 0.00015206333743171635, "train/cont_loss_std": 0.004815220863029586, "train/cont_neg_acc": 0.9965209838462202, "train/cont_neg_loss": 0.012475580726809562, "train/cont_pos_acc": 0.999986515469747, "train/cont_pos_loss": 5.040562249333384e-05, "train/cont_pred": 0.9944189133709425, "train/cont_rate": 0.994408176369863, "train/dyn_loss_mean": 5.211491806866372, "train/dyn_loss_std": 8.798558169848299, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0241840138827285, "train/extr_critic_critic_opt_grad_steps": 367480.0, "train/extr_critic_critic_opt_loss": 15794.146778681506, "train/extr_critic_mag": 11.367979049682617, "train/extr_critic_max": 11.367979049682617, "train/extr_critic_mean": 3.2709876053953826, "train/extr_critic_min": -0.40247226251314766, "train/extr_critic_std": 2.7752448891940182, "train/extr_return_normed_mag": 1.4123665355656245, "train/extr_return_normed_max": 1.4123665355656245, "train/extr_return_normed_mean": 0.3842608532676958, "train/extr_return_normed_min": -0.08797342922181299, "train/extr_return_normed_std": 0.3276990439793835, "train/extr_return_rate": 0.8123359443390206, "train/extr_return_raw_mag": 12.092009061003385, "train/extr_return_raw_max": 12.092009061003385, "train/extr_return_raw_mean": 3.2898226306863028, "train/extr_return_raw_min": -0.7525960329460771, "train/extr_return_raw_std": 2.805684181108867, "train/extr_reward_mag": 1.0612504025028175, "train/extr_reward_max": 1.0612504025028175, "train/extr_reward_mean": 0.057726486037447025, "train/extr_reward_min": -0.630127194809587, "train/extr_reward_std": 0.23218934911571137, "train/image_loss_mean": 3.1063896760548633, "train/image_loss_std": 8.063934215127606, "train/model_loss_mean": 6.28860107839924, "train/model_loss_std": 12.2157316730447, "train/model_opt_grad_norm": 21.50512372630916, "train/model_opt_grad_steps": 367185.0, "train/model_opt_loss": 13758.091830318921, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2174.6575342465753, "train/policy_entropy_mag": 2.670855355589357, "train/policy_entropy_max": 2.670855355589357, "train/policy_entropy_mean": 0.3962539887591584, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5852774618423149, "train/policy_logprob_mag": 7.438384297775896, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39821593647133813, "train/policy_logprob_min": -7.438384297775896, "train/policy_logprob_std": 1.0274074347051856, "train/policy_randomness_mag": 0.9426947350371374, "train/policy_randomness_max": 0.9426947350371374, "train/policy_randomness_mean": 0.13986026791677084, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2065772632621739, "train/post_ent_mag": 55.167299296757946, "train/post_ent_max": 55.167299296757946, "train/post_ent_mean": 40.73062839246776, "train/post_ent_min": 19.41990926820938, "train/post_ent_std": 5.701695657756231, "train/prior_ent_mag": 76.71826025557844, "train/prior_ent_max": 76.71826025557844, "train/prior_ent_mean": 45.97330119511852, "train/prior_ent_min": 28.580099602268167, "train/prior_ent_std": 7.601270688723211, "train/rep_loss_mean": 5.211491806866372, "train/rep_loss_std": 8.798558169848299, "train/reward_avg": 0.03874812691076977, "train/reward_loss_mean": 0.05516425586522442, "train/reward_loss_std": 0.21064407735654753, "train/reward_max_data": 1.0232876767850902, "train/reward_max_pred": 1.0217081030754194, "train/reward_neg_acc": 0.9937665233873341, "train/reward_neg_loss": 0.024459209471736867, "train/reward_pos_acc": 0.9873986644287632, "train/reward_pos_loss": 0.7302298006946093, "train/reward_pred": 0.03833003495245764, "train/reward_rate": 0.04353060787671233, "stats/sum_log_reward": 10.266666889190674, "stats/max_log_achievement_collect_coal": 0.16666666666666666, "stats/max_log_achievement_collect_drink": 5.166666666666667, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 5.333333333333333, "stats/max_log_achievement_collect_wood": 9.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.6666666666666667, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 0.16666666666666666, "stats/max_log_achievement_make_stone_sword": 0.3333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 0.6666666666666666, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_stone": 1.5, "stats/max_log_achievement_place_table": 2.3333333333333335, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.3923262432217598, "replay/size": 736722.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.4690560059770736e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3502176142921132e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.028311252594, "timer/env.step_count": 1452.0, "timer/env.step_total": 18.286521434783936, "timer/env.step_frac": 0.060949319610670016, "timer/env.step_avg": 0.012594023026710699, "timer/env.step_min": 0.0032584667205810547, "timer/env.step_max": 1.6957104206085205, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.2539963722229004, "timer/replay.add_frac": 0.000846574682110785, "timer/replay.add_avg": 0.00017492863100750715, "timer/replay.add_min": 6.461143493652344e-05, "timer/replay.add_max": 0.0007848739624023438, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022081851959228516, "timer/logger.write_frac": 7.359922757635293e-05, "timer/logger.write_avg": 0.022081851959228516, "timer/logger.write_min": 0.022081851959228516, "timer/logger.write_max": 0.022081851959228516, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 10.673595905303955, "timer/agent.policy_frac": 0.03557529574706651, "timer/agent.policy_avg": 0.0073509613672892255, "timer/agent.policy_min": 0.006029605865478516, "timer/agent.policy_max": 0.01474308967590332, "timer/dataset_count": 726.0, "timer/dataset_total": 0.05745744705200195, "timer/dataset_frac": 0.00019150675085335029, "timer/dataset_avg": 7.914248905234428e-05, "timer/dataset_min": 5.9604644775390625e-05, "timer/dataset_max": 0.00012564659118652344, "timer/agent.train_count": 726.0, "timer/agent.train_total": 270.07327246665955, "timer/agent.train_frac": 0.9001592927651575, "timer/agent.train_avg": 0.37200175270889746, "timer/agent.train_min": 0.3655569553375244, "timer/agent.train_max": 0.38385868072509766, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22246360778808594, "timer/agent.report_frac": 0.0007414753856371698, "timer/agent.report_avg": 0.22246360778808594, "timer/agent.report_min": 0.22246360778808594, "timer/agent.report_max": 0.22246360778808594, "fps": 4.8394513724486625}
{"step": 736855, "episode/length": 224.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.057777777777777775}
{"step": 737065, "episode/length": 209.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.04285714285714286}
{"step": 737434, "episode/length": 368.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.500000022351742, "episode/reward_rate": 0.04336043360433604}
{"step": 737631, "episode/length": 196.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.05583756345177665}
{"step": 737861, "episode/length": 229.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.06521739130434782}
{"step": 738130, "episode/length": 268.0, "episode/score": 14.099999964237213, "episode/sum_abs_reward": 15.899999991059303, "episode/reward_rate": 0.055762081784386616}
{"step": 738215, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.376227580325704, "train/action_min": 0.0, "train/action_std": 3.274483972871807, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.040963868256395974, "train/actor_opt_grad_steps": 368200.0, "train/actor_opt_loss": -12.050274135361255, "train/adv_mag": 0.3951549462869134, "train/adv_max": 0.3601990195227341, "train/adv_mean": 0.00218159503322273, "train/adv_min": -0.3472747548785008, "train/adv_std": 0.04557964011607036, "train/cont_avg": 0.994993397887324, "train/cont_loss_mean": 1.1857600463106561e-05, "train/cont_loss_std": 0.0002568132831343897, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00025912623029661277, "train/cont_pos_acc": 0.9999999857284654, "train/cont_pos_loss": 1.0386126067679713e-05, "train/cont_pred": 0.9949848232134967, "train/cont_rate": 0.994993397887324, "train/dyn_loss_mean": 5.238236816836075, "train/dyn_loss_std": 8.752051709403455, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9914206593808993, "train/extr_critic_critic_opt_grad_steps": 368200.0, "train/extr_critic_critic_opt_loss": 15745.32871643926, "train/extr_critic_mag": 11.424159426084707, "train/extr_critic_max": 11.424159426084707, "train/extr_critic_mean": 3.260431376981064, "train/extr_critic_min": -0.37059967786493436, "train/extr_critic_std": 2.717926025390625, "train/extr_return_normed_mag": 1.416818293047623, "train/extr_return_normed_max": 1.416818293047623, "train/extr_return_normed_mean": 0.37919117951057324, "train/extr_return_normed_min": -0.07883234715587656, "train/extr_return_normed_std": 0.3172055193236176, "train/extr_return_rate": 0.8323439771020916, "train/extr_return_raw_mag": 12.279141184309838, "train/extr_return_raw_max": 12.279141184309838, "train/extr_return_raw_mean": 3.2793530477604396, "train/extr_return_raw_min": -0.6934861427461597, "train/extr_return_raw_std": 2.7516499841716926, "train/extr_reward_mag": 1.0700123444409437, "train/extr_reward_max": 1.0700123444409437, "train/extr_reward_mean": 0.056458400431233395, "train/extr_reward_min": -0.6307615360743563, "train/extr_reward_std": 0.22957618618515177, "train/image_loss_mean": 3.094328457201031, "train/image_loss_std": 8.10066937728667, "train/model_loss_mean": 6.292013436975614, "train/model_loss_std": 12.20322823860276, "train/model_opt_grad_norm": 24.404077946300237, "train/model_opt_grad_steps": 367904.661971831, "train/model_opt_loss": 15983.906580105633, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2535.211267605634, "train/policy_entropy_mag": 2.677508250088759, "train/policy_entropy_max": 2.677508250088759, "train/policy_entropy_mean": 0.3881547990399347, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5756658521336568, "train/policy_logprob_mag": 7.438384271003831, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3884369504283851, "train/policy_logprob_min": -7.438384271003831, "train/policy_logprob_std": 1.0169633811628316, "train/policy_randomness_mag": 0.9450429149076972, "train/policy_randomness_max": 0.9450429149076972, "train/policy_randomness_mean": 0.13700161024298466, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20318478387846073, "train/post_ent_mag": 55.56476415714747, "train/post_ent_max": 55.56476415714747, "train/post_ent_mean": 40.80447296357491, "train/post_ent_min": 19.591148994338344, "train/post_ent_std": 5.701607677298532, "train/prior_ent_mag": 76.73064680502448, "train/prior_ent_max": 76.73064680502448, "train/prior_ent_mean": 46.064925072898326, "train/prior_ent_min": 28.385038698223276, "train/prior_ent_std": 7.592486462122958, "train/rep_loss_mean": 5.238236816836075, "train/rep_loss_std": 8.752051709403455, "train/reward_avg": 0.03897309625967288, "train/reward_loss_mean": 0.054731035841182926, "train/reward_loss_std": 0.21393918928126215, "train/reward_max_data": 1.0295774718405495, "train/reward_max_pred": 1.0272831883229, "train/reward_neg_acc": 0.994038936118005, "train/reward_neg_loss": 0.023643150322244202, "train/reward_pos_acc": 0.9856303535716634, "train/reward_pos_loss": 0.74009288868434, "train/reward_pred": 0.03847015203094818, "train/reward_rate": 0.04354643485915493, "stats/sum_log_reward": 12.266666889190674, "stats/max_log_achievement_collect_coal": 1.3333333333333333, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 11.833333333333334, "stats/max_log_achievement_collect_wood": 15.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.5, "stats/max_log_achievement_defeat_zombie": 2.1666666666666665, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "stats/max_log_achievement_make_stone_sword": 0.5, "stats/max_log_achievement_make_wood_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_wood_sword": 1.3333333333333333, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 5.0, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.4479266752799352, "replay/size": 738152.0, "replay/inserts": 1430.0, "replay/samples": 11440.0, "replay/insert_wait_avg": 3.4619044590663244e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.350607905354533e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.15719389915466, "timer/env.step_count": 1430.0, "timer/env.step_total": 18.555262804031372, "timer/env.step_frac": 0.06181848438477033, "timer/env.step_avg": 0.012975708254567392, "timer/env.step_min": 0.0028047561645507812, "timer/env.step_max": 1.7048308849334717, "timer/replay.add_count": 1430.0, "timer/replay.add_total": 0.26137351989746094, "timer/replay.add_frac": 0.0008707887907070318, "timer/replay.add_avg": 0.00018277868524297969, "timer/replay.add_min": 6.031990051269531e-05, "timer/replay.add_max": 0.0008807182312011719, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028479337692260742, "timer/logger.write_frac": 9.48814097117029e-05, "timer/logger.write_avg": 0.028479337692260742, "timer/logger.write_min": 0.028479337692260742, "timer/logger.write_max": 0.028479337692260742, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003399848937988281, "timer/checkpoint.save_frac": 1.1326894730800774e-06, "timer/checkpoint.save_avg": 0.0003399848937988281, "timer/checkpoint.save_min": 0.0003399848937988281, "timer/checkpoint.save_max": 0.0003399848937988281, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.44142746925354, "timer/agent.save_frac": 0.004802241953720502, "timer/agent.save_avg": 1.44142746925354, "timer/agent.save_min": 1.44142746925354, "timer/agent.save_max": 1.44142746925354, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.818771362304688e-05, "timer/replay.save_frac": 2.2717334453078692e-07, "timer/replay.save_avg": 6.818771362304688e-05, "timer/replay.save_min": 6.818771362304688e-05, "timer/replay.save_max": 6.818771362304688e-05, "timer/agent.policy_count": 1430.0, "timer/agent.policy_total": 14.39779782295227, "timer/agent.policy_frac": 0.0479675254020051, "timer/agent.policy_avg": 0.010068390085980608, "timer/agent.policy_min": 0.006034374237060547, "timer/agent.policy_max": 2.450843095779419, "timer/dataset_count": 715.0, "timer/dataset_total": 0.057890892028808594, "timer/dataset_frac": 0.00019286858088185118, "timer/dataset_avg": 8.096628255777425e-05, "timer/dataset_min": 6.079673767089844e-05, "timer/dataset_max": 0.00014734268188476562, "timer/agent.train_count": 715.0, "timer/agent.train_total": 266.19229340553284, "timer/agent.train_frac": 0.8868429570106083, "timer/agent.train_avg": 0.3722969138538921, "timer/agent.train_min": 0.36673808097839355, "timer/agent.train_max": 0.39017200469970703, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22267746925354004, "timer/agent.report_frac": 0.0007418695063105971, "timer/agent.report_avg": 0.22267746925354004, "timer/agent.report_min": 0.22267746925354004, "timer/agent.report_max": 0.22267746925354004, "fps": 4.7640855539161695}
{"step": 738313, "episode/length": 182.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.30000003427267, "episode/reward_rate": 0.06557377049180328}
{"step": 738614, "episode/length": 300.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 11.100000031292439, "episode/reward_rate": 0.029900332225913623}
{"step": 738806, "episode/length": 191.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.057291666666666664}
{"step": 738985, "episode/length": 178.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.700000025331974, "episode/reward_rate": 0.05027932960893855}
{"step": 739149, "episode/length": 163.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.054878048780487805}
{"step": 739345, "episode/length": 195.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.0663265306122449}
{"step": 739534, "episode/length": 188.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06878306878306878}
{"step": 739659, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.403541042380137, "train/action_min": 0.0, "train/action_std": 3.2902837550803405, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03966158054360788, "train/actor_opt_grad_steps": 368920.0, "train/actor_opt_loss": -12.655628339885032, "train/adv_mag": 0.4226996996631361, "train/adv_max": 0.3617163247441592, "train/adv_mean": 0.001892330821821616, "train/adv_min": -0.3509413773474628, "train/adv_std": 0.04503651233772709, "train/cont_avg": 0.9948228809931506, "train/cont_loss_mean": 0.00018555834589907845, "train/cont_loss_std": 0.005841465195401044, "train/cont_neg_acc": 0.9940476205250989, "train/cont_neg_loss": 0.023637367633801653, "train/cont_pos_acc": 0.9999999820369564, "train/cont_pos_loss": 1.361439914920501e-05, "train/cont_pred": 0.9948457463146889, "train/cont_rate": 0.9948228809931506, "train/dyn_loss_mean": 5.431986867564998, "train/dyn_loss_std": 8.842690742179139, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9758932770115055, "train/extr_critic_critic_opt_grad_steps": 368920.0, "train/extr_critic_critic_opt_loss": 15784.248742508562, "train/extr_critic_mag": 11.639527151029403, "train/extr_critic_max": 11.639527151029403, "train/extr_critic_mean": 3.1725125606745888, "train/extr_critic_min": -0.44139265360897534, "train/extr_critic_std": 2.7721406009099256, "train/extr_return_normed_mag": 1.4300102322068933, "train/extr_return_normed_max": 1.4300102322068933, "train/extr_return_normed_mean": 0.37253383210260577, "train/extr_return_normed_min": -0.08564061283656996, "train/extr_return_normed_std": 0.3233919578464064, "train/extr_return_rate": 0.8117830034804671, "train/extr_return_raw_mag": 12.355137798884144, "train/extr_return_raw_max": 12.355137798884144, "train/extr_return_raw_mean": 3.188887648386498, "train/extr_return_raw_min": -0.7839407973910031, "train/extr_return_raw_std": 2.803669678021784, "train/extr_reward_mag": 1.063348064683888, "train/extr_reward_max": 1.063348064683888, "train/extr_reward_mean": 0.05611488825246079, "train/extr_reward_min": -0.6274372404568815, "train/extr_reward_std": 0.2291253878645701, "train/image_loss_mean": 3.341231151802899, "train/image_loss_std": 8.432115796494157, "train/model_loss_mean": 6.657884134005194, "train/model_loss_std": 12.600724716709085, "train/model_opt_grad_norm": 24.61571322401909, "train/model_opt_grad_steps": 368624.0, "train/model_opt_loss": 16644.710389019692, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7061982546767145, "train/policy_entropy_max": 2.7061982546767145, "train/policy_entropy_mean": 0.4083636709272045, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6053926699782071, "train/policy_logprob_mag": 7.438384297775896, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40811679685769015, "train/policy_logprob_min": -7.438384297775896, "train/policy_logprob_std": 1.0337393634939847, "train/policy_randomness_mag": 0.9551692253922763, "train/policy_randomness_max": 0.9551692253922763, "train/policy_randomness_mean": 0.14413445197964367, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2136770459274723, "train/post_ent_mag": 55.69073329559744, "train/post_ent_max": 55.69073329559744, "train/post_ent_mean": 40.87974914132732, "train/post_ent_min": 19.6426931146073, "train/post_ent_std": 5.798702527398932, "train/prior_ent_mag": 76.83578480759712, "train/prior_ent_max": 76.83578480759712, "train/prior_ent_mean": 46.29832495075382, "train/prior_ent_min": 28.28256787339302, "train/prior_ent_std": 7.671766078635438, "train/rep_loss_mean": 5.431986867564998, "train/rep_loss_std": 8.842690742179139, "train/reward_avg": 0.03997083666594061, "train/reward_loss_mean": 0.05727524014368449, "train/reward_loss_std": 0.22373555478167861, "train/reward_max_data": 1.0273972668059885, "train/reward_max_pred": 1.0245007831756383, "train/reward_neg_acc": 0.9935017097486208, "train/reward_neg_loss": 0.025655470954330815, "train/reward_pos_acc": 0.9876037370668699, "train/reward_pos_loss": 0.7341090726525816, "train/reward_pred": 0.039732381714227265, "train/reward_rate": 0.04473458904109589, "stats/sum_log_reward": 9.957143238612584, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 3.2857142857142856, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8571428571428572, "stats/max_log_achievement_collect_stone": 9.428571428571429, "stats/max_log_achievement_collect_wood": 12.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.8571428571428571, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.7142857142857142, "stats/max_log_achievement_place_stone": 2.2857142857142856, "stats/max_log_achievement_place_table": 2.857142857142857, "stats/max_log_achievement_wake_up": 1.5714285714285714, "stats/mean_log_entropy": 0.3500907314675195, "replay/size": 739596.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.407701560995255e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3602366077602735e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1707503795624, "timer/env.step_count": 1444.0, "timer/env.step_total": 19.92075204849243, "timer/env.step_frac": 0.06636473414982265, "timer/env.step_avg": 0.013795534659620797, "timer/env.step_min": 0.0028994083404541016, "timer/env.step_max": 1.710796594619751, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.26679325103759766, "timer/replay.add_frac": 0.000888804957512485, "timer/replay.add_avg": 0.00018475986913961057, "timer/replay.add_min": 6.818771362304688e-05, "timer/replay.add_max": 0.0038776397705078125, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02223038673400879, "timer/logger.write_frac": 7.405913702750427e-05, "timer/logger.write_avg": 0.02223038673400879, "timer/logger.write_min": 0.02223038673400879, "timer/logger.write_max": 0.02223038673400879, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.618499279022217, "timer/agent.policy_frac": 0.03537486335892238, "timer/agent.policy_avg": 0.007353531356663585, "timer/agent.policy_min": 0.006036520004272461, "timer/agent.policy_max": 0.025942564010620117, "timer/dataset_count": 722.0, "timer/dataset_total": 0.057209014892578125, "timer/dataset_frac": 0.00019058823959442416, "timer/dataset_avg": 7.923686273210266e-05, "timer/dataset_min": 5.888938903808594e-05, "timer/dataset_max": 0.00015735626220703125, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.6268095970154, "timer/agent.train_frac": 0.8949133426802577, "timer/agent.train_avg": 0.37205929307065844, "timer/agent.train_min": 0.3660697937011719, "timer/agent.train_max": 0.3845946788787842, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22225594520568848, "timer/agent.report_frac": 0.0007404317206944663, "timer/agent.report_avg": 0.22225594520568848, "timer/agent.report_min": 0.22225594520568848, "timer/agent.report_max": 0.22225594520568848, "fps": 4.810522004547289}
{"step": 739737, "episode/length": 202.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.06896551724137931}
{"step": 739924, "episode/length": 186.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.058823529411764705}
{"step": 740151, "episode/length": 226.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.900000043213367, "episode/reward_rate": 0.06607929515418502}
{"step": 740350, "episode/length": 198.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.05527638190954774}
{"step": 740568, "episode/length": 217.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.900000043213367, "episode/reward_rate": 0.05045871559633028}
{"step": 740779, "episode/length": 210.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 15.300000011920929, "episode/reward_rate": 0.06635071090047394}
{"step": 741010, "episode/length": 230.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.05627705627705628}
{"step": 741103, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.377140469021267, "train/action_min": 0.0, "train/action_std": 3.2310019698407917, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.040726034332894616, "train/actor_opt_grad_steps": 369645.0, "train/actor_opt_loss": -10.677222048242887, "train/adv_mag": 0.43138781148526406, "train/adv_max": 0.36526923812925816, "train/adv_mean": 0.0025983092259656993, "train/adv_min": -0.37268068082630634, "train/adv_std": 0.046042170065144696, "train/cont_avg": 0.9950358072916666, "train/cont_loss_mean": 9.530263775382587e-06, "train/cont_loss_std": 0.00019500500495202763, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00020465790914493532, "train/cont_pos_acc": 0.999999980131785, "train/cont_pos_loss": 8.90532483429259e-06, "train/cont_pred": 0.9950279369950294, "train/cont_rate": 0.9950358072916666, "train/dyn_loss_mean": 5.318533102671306, "train/dyn_loss_std": 8.816525995731354, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9868247285485268, "train/extr_critic_critic_opt_grad_steps": 369645.0, "train/extr_critic_critic_opt_loss": 15794.603474934896, "train/extr_critic_mag": 11.394695387946236, "train/extr_critic_max": 11.394695387946236, "train/extr_critic_mean": 3.28056177828047, "train/extr_critic_min": -0.42447592318058014, "train/extr_critic_std": 2.749520363079177, "train/extr_return_normed_mag": 1.4074416243367724, "train/extr_return_normed_max": 1.4074416243367724, "train/extr_return_normed_mean": 0.3848526121841537, "train/extr_return_normed_min": -0.08423736029201084, "train/extr_return_normed_std": 0.321512084454298, "train/extr_return_rate": 0.8291178834107187, "train/extr_return_raw_mag": 12.155198322402107, "train/extr_return_raw_max": 12.155198322402107, "train/extr_return_raw_mean": 3.3030686246024237, "train/extr_return_raw_min": -0.7572889878518052, "train/extr_return_raw_std": 2.783073006404771, "train/extr_reward_mag": 1.0634270575311449, "train/extr_reward_max": 1.0634270575311449, "train/extr_reward_mean": 0.05882346102346977, "train/extr_reward_min": -0.636167844136556, "train/extr_reward_std": 0.2328607386185063, "train/image_loss_mean": 3.075588638583819, "train/image_loss_std": 8.227749082777235, "train/model_loss_mean": 6.324056526025136, "train/model_loss_std": 12.388235449790955, "train/model_opt_grad_norm": 25.086955308914185, "train/model_opt_grad_steps": 369347.8611111111, "train/model_opt_loss": 14528.669284396701, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2343.75, "train/policy_entropy_mag": 2.6904045906331806, "train/policy_entropy_max": 2.6904045906331806, "train/policy_entropy_mean": 0.3933368921279907, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.584478936261601, "train/policy_logprob_mag": 7.438384221659766, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39142100223236614, "train/policy_logprob_min": -7.438384221659766, "train/policy_logprob_std": 1.0145778970585928, "train/policy_randomness_mag": 0.9495947559674581, "train/policy_randomness_max": 0.9495947559674581, "train/policy_randomness_mean": 0.13883066301544508, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20629541627648804, "train/post_ent_mag": 55.30289861891005, "train/post_ent_max": 55.30289861891005, "train/post_ent_mean": 40.69522184795804, "train/post_ent_min": 19.705743948618572, "train/post_ent_std": 5.69696640306049, "train/prior_ent_mag": 76.77914513481988, "train/prior_ent_max": 76.77914513481988, "train/prior_ent_mean": 46.01453987757365, "train/prior_ent_min": 28.52790853712294, "train/prior_ent_std": 7.561257574293348, "train/rep_loss_mean": 5.318533102671306, "train/rep_loss_std": 8.816525995731354, "train/reward_avg": 0.04069688551438352, "train/reward_loss_mean": 0.057338474318385124, "train/reward_loss_std": 0.2212563475800885, "train/reward_max_data": 1.0305555628405676, "train/reward_max_pred": 1.0278912319077387, "train/reward_neg_acc": 0.9938904138074981, "train/reward_neg_loss": 0.024861299368138943, "train/reward_pos_acc": 0.9887184823552767, "train/reward_pos_loss": 0.7391566708683968, "train/reward_pred": 0.04014142737206486, "train/reward_rate": 0.045491536458333336, "stats/sum_log_reward": 11.671428680419922, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 2.142857142857143, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.142857142857143, "stats/max_log_achievement_collect_stone": 12.0, "stats/max_log_achievement_collect_wood": 11.857142857142858, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_stone_sword": 0.42857142857142855, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 2.2857142857142856, "stats/max_log_achievement_place_table": 2.5714285714285716, "stats/max_log_achievement_wake_up": 0.7142857142857143, "stats/mean_log_entropy": 0.2805228573935373, "replay/size": 741040.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.4390724266665132e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.349256804775333e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.27549171447754, "timer/env.step_count": 1444.0, "timer/env.step_total": 19.765807151794434, "timer/env.step_frac": 0.06582557583683557, "timer/env.step_avg": 0.013688232099580633, "timer/env.step_min": 0.0031883716583251953, "timer/env.step_max": 1.6341228485107422, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.2533431053161621, "timer/replay.add_frac": 0.0008437022411308147, "timer/replay.add_avg": 0.00017544536379235603, "timer/replay.add_min": 6.103515625e-05, "timer/replay.add_max": 0.0008924007415771484, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022358417510986328, "timer/logger.write_frac": 7.445968161879239e-05, "timer/logger.write_avg": 0.022358417510986328, "timer/logger.write_min": 0.022358417510986328, "timer/logger.write_max": 0.022358417510986328, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.827434301376343, "timer/agent.policy_frac": 0.036058335096065076, "timer/agent.policy_avg": 0.00749822320039913, "timer/agent.policy_min": 0.00600433349609375, "timer/agent.policy_max": 0.07616829872131348, "timer/dataset_count": 722.0, "timer/dataset_total": 0.05823349952697754, "timer/dataset_frac": 0.0001939335747798889, "timer/dataset_avg": 8.065581651935947e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.0001900196075439453, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.68581104278564, "timer/agent.train_frac": 0.8947976723264197, "timer/agent.train_avg": 0.37214101252463383, "timer/agent.train_min": 0.3623521327972412, "timer/agent.train_max": 0.38486528396606445, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22131919860839844, "timer/agent.report_frac": 0.0007370538212916952, "timer/agent.report_avg": 0.22131919860839844, "timer/agent.report_min": 0.22131919860839844, "timer/agent.report_max": 0.22131919860839844, "fps": 4.808821463162744}
{"step": 741196, "episode/length": 185.0, "episode/score": 8.099999979138374, "episode/sum_abs_reward": 10.30000002682209, "episode/reward_rate": 0.04838709677419355}
{"step": 741402, "episode/length": 205.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.05825242718446602}
{"step": 741617, "episode/length": 214.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.100000031292439, "episode/reward_rate": 0.05116279069767442}
{"step": 741767, "episode/length": 149.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.500000022351742, "episode/reward_rate": 0.04666666666666667}
{"step": 741924, "episode/length": 156.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.07643312101910828}
{"step": 742157, "episode/length": 232.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 18.1000000461936, "episode/reward_rate": 0.06866952789699571}
{"step": 742378, "episode/length": 220.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.06787330316742081}
{"step": 742523, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.368284413512324, "train/action_min": 0.0, "train/action_std": 3.227983985148685, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.040195501868573714, "train/actor_opt_grad_steps": 370360.0, "train/actor_opt_loss": -12.826064474146131, "train/adv_mag": 0.41412710597817326, "train/adv_max": 0.36893262997479503, "train/adv_mean": 0.0023940351266376215, "train/adv_min": -0.3595216773765188, "train/adv_std": 0.045921144613497694, "train/cont_avg": 0.9948696082746479, "train/cont_loss_mean": 0.00018200605785843537, "train/cont_loss_std": 0.005738745381475536, "train/cont_neg_acc": 0.993606082150634, "train/cont_neg_loss": 0.02765621929660416, "train/cont_pos_acc": 0.9999999840494612, "train/cont_pos_loss": 1.759408411397115e-05, "train/cont_pred": 0.9948981891215687, "train/cont_rate": 0.9948696082746479, "train/dyn_loss_mean": 5.350479199852742, "train/dyn_loss_std": 8.764145199681671, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.036993553940679, "train/extr_critic_critic_opt_grad_steps": 370360.0, "train/extr_critic_critic_opt_loss": 15830.774936729753, "train/extr_critic_mag": 11.574094960387324, "train/extr_critic_max": 11.574094960387324, "train/extr_critic_mean": 3.320876779690595, "train/extr_critic_min": -0.4256210075297826, "train/extr_critic_std": 2.811474262828558, "train/extr_return_normed_mag": 1.4099572779427112, "train/extr_return_normed_max": 1.4099572779427112, "train/extr_return_normed_mean": 0.3843052546742936, "train/extr_return_normed_min": -0.0793377068156088, "train/extr_return_normed_std": 0.32449015555247457, "train/extr_return_rate": 0.8225416708999956, "train/extr_return_raw_mag": 12.33616577739447, "train/extr_return_raw_max": 12.33616577739447, "train/extr_return_raw_mean": 3.3418662145104205, "train/extr_return_raw_min": -0.7247261438571232, "train/extr_return_raw_std": 2.845928457421316, "train/extr_reward_mag": 1.0582569014858192, "train/extr_reward_max": 1.0582569014858192, "train/extr_reward_mean": 0.057083167398059874, "train/extr_reward_min": -0.6028811931610107, "train/extr_reward_std": 0.23023531176674533, "train/image_loss_mean": 3.2175674236996072, "train/image_loss_std": 8.178072338372889, "train/model_loss_mean": 6.482428141043219, "train/model_loss_std": 12.269408709566358, "train/model_opt_grad_norm": 24.38121012566795, "train/model_opt_grad_steps": 370062.0, "train/model_opt_loss": 8103.035204390405, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.7105958629661884, "train/policy_entropy_max": 2.7105958629661884, "train/policy_entropy_mean": 0.3987857869393389, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5943008715837774, "train/policy_logprob_mag": 7.438384277719847, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39824292882227563, "train/policy_logprob_min": -7.438384277719847, "train/policy_logprob_std": 1.025133211847762, "train/policy_randomness_mag": 0.9567213872788658, "train/policy_randomness_max": 0.9567213872788658, "train/policy_randomness_mean": 0.14075388329129823, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20976212704685374, "train/post_ent_mag": 55.0426962409221, "train/post_ent_max": 55.0426962409221, "train/post_ent_mean": 40.546188999229756, "train/post_ent_min": 18.965367303767675, "train/post_ent_std": 5.739741023157684, "train/prior_ent_mag": 76.63257459183814, "train/prior_ent_max": 76.63257459183814, "train/prior_ent_mean": 45.90048798037247, "train/prior_ent_min": 28.071297229175837, "train/prior_ent_std": 7.599700148676483, "train/rep_loss_mean": 5.350479199852742, "train/rep_loss_std": 8.764145199681671, "train/reward_avg": 0.03876678000243617, "train/reward_loss_mean": 0.05439124707604798, "train/reward_loss_std": 0.21031584475241916, "train/reward_max_data": 1.0295774718405495, "train/reward_max_pred": 1.0263429796192007, "train/reward_neg_acc": 0.9936889418413941, "train/reward_neg_loss": 0.02383246665663073, "train/reward_pos_acc": 0.9903398399621668, "train/reward_pos_loss": 0.7273358022662956, "train/reward_pred": 0.0384633130013523, "train/reward_rate": 0.04339513644366197, "stats/sum_log_reward": 10.814286027635847, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 2.857142857142857, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.142857142857143, "stats/max_log_achievement_collect_stone": 8.857142857142858, "stats/max_log_achievement_collect_wood": 11.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.1428571428571428, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_stone_pickaxe": 0.7142857142857143, "stats/max_log_achievement_make_stone_sword": 0.42857142857142855, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.1428571428571428, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 2.4285714285714284, "stats/max_log_achievement_place_table": 2.5714285714285716, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.2978219134466989, "replay/size": 742460.0, "replay/inserts": 1420.0, "replay/samples": 11360.0, "replay/insert_wait_avg": 3.4874593707877147e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.371032755139848e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.01110911369324, "timer/env.step_count": 1420.0, "timer/env.step_total": 22.284945487976074, "timer/env.step_frac": 0.07428040099518747, "timer/env.step_avg": 0.015693623583081743, "timer/env.step_min": 0.0029451847076416016, "timer/env.step_max": 2.3421406745910645, "timer/replay.add_count": 1420.0, "timer/replay.add_total": 0.25701189041137695, "timer/replay.add_frac": 0.0008566745783869585, "timer/replay.add_avg": 0.00018099428902209645, "timer/replay.add_min": 6.246566772460938e-05, "timer/replay.add_max": 0.0009210109710693359, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0279996395111084, "timer/logger.write_frac": 9.332867570746375e-05, "timer/logger.write_avg": 0.0279996395111084, "timer/logger.write_min": 0.0279996395111084, "timer/logger.write_max": 0.0279996395111084, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004298686981201172, "timer/checkpoint.save_frac": 1.4328426016958347e-06, "timer/checkpoint.save_avg": 0.0004298686981201172, "timer/checkpoint.save_min": 0.0004298686981201172, "timer/checkpoint.save_max": 0.0004298686981201172, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2510864734649658, "timer/agent.save_frac": 0.004170133823247358, "timer/agent.save_avg": 1.2510864734649658, "timer/agent.save_min": 1.2510864734649658, "timer/agent.save_max": 1.2510864734649658, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.153915405273438e-05, "timer/replay.save_frac": 2.7178711579588215e-07, "timer/replay.save_avg": 8.153915405273438e-05, "timer/replay.save_min": 8.153915405273438e-05, "timer/replay.save_max": 8.153915405273438e-05, "timer/agent.policy_count": 1420.0, "timer/agent.policy_total": 12.555595874786377, "timer/agent.policy_frac": 0.04185043651176352, "timer/agent.policy_avg": 0.0088419689259059, "timer/agent.policy_min": 0.006044864654541016, "timer/agent.policy_max": 1.2505543231964111, "timer/dataset_count": 710.0, "timer/dataset_total": 0.05751323699951172, "timer/dataset_frac": 0.00019170369113803818, "timer/dataset_avg": 8.100455915424186e-05, "timer/dataset_min": 6.175041198730469e-05, "timer/dataset_max": 0.000213623046875, "timer/agent.train_count": 710.0, "timer/agent.train_total": 264.16911339759827, "timer/agent.train_frac": 0.8805311049248108, "timer/agent.train_avg": 0.37206917379943416, "timer/agent.train_min": 0.3659036159515381, "timer/agent.train_max": 0.38455677032470703, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22134089469909668, "timer/agent.report_frac": 0.0007377756622179499, "timer/agent.report_avg": 0.22134089469909668, "timer/agent.report_min": 0.22134089469909668, "timer/agent.report_max": 0.22134089469909668, "fps": 4.733079653084371}
{"step": 742578, "episode/length": 199.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.055}
{"step": 742730, "episode/length": 151.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.07894736842105263}
{"step": 742993, "episode/length": 262.0, "episode/score": 12.100000031292439, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.053231939163498096}
{"step": 743194, "episode/length": 200.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.06467661691542288}
{"step": 743415, "episode/length": 220.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.05429864253393665}
{"step": 743649, "episode/length": 233.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.100000038743019, "episode/reward_rate": 0.05982905982905983}
{"step": 743813, "episode/length": 163.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.07317073170731707}
{"step": 743965, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.35701158311632, "train/action_min": 0.0, "train/action_std": 3.245869288841883, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.041388771781283945, "train/actor_opt_grad_steps": 371075.0, "train/actor_opt_loss": -12.847107020931112, "train/adv_mag": 0.4088759418163035, "train/adv_max": 0.35317108573185074, "train/adv_mean": 0.001824716162900586, "train/adv_min": -0.355483862467938, "train/adv_std": 0.04579734243452549, "train/cont_avg": 0.9949137369791666, "train/cont_loss_mean": 3.0018667448277687e-05, "train/cont_loss_std": 0.0008568433331106462, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 8.819598649425744e-05, "train/cont_pos_acc": 0.9999863546755579, "train/cont_pos_loss": 2.9583352551851602e-05, "train/cont_pred": 0.9948893073532317, "train/cont_rate": 0.9949137369791666, "train/dyn_loss_mean": 5.285629921489292, "train/dyn_loss_std": 8.802620106273228, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9713914435770776, "train/extr_critic_critic_opt_grad_steps": 371075.0, "train/extr_critic_critic_opt_loss": 15774.806599934896, "train/extr_critic_mag": 11.684359471003214, "train/extr_critic_max": 11.684359471003214, "train/extr_critic_mean": 3.4137578474150763, "train/extr_critic_min": -0.3691064003441069, "train/extr_critic_std": 2.790831466515859, "train/extr_return_normed_mag": 1.414952768219842, "train/extr_return_normed_max": 1.414952768219842, "train/extr_return_normed_mean": 0.3899733006126351, "train/extr_return_normed_min": -0.07174147593064441, "train/extr_return_normed_std": 0.3185790698561404, "train/extr_return_rate": 0.8454536009165976, "train/extr_return_raw_mag": 12.509107642703587, "train/extr_return_raw_max": 12.509107642703587, "train/extr_return_raw_mean": 3.4299236867162914, "train/extr_return_raw_min": -0.6597532100147672, "train/extr_return_raw_std": 2.822154697444704, "train/extr_reward_mag": 1.066849536365933, "train/extr_reward_max": 1.066849536365933, "train/extr_reward_mean": 0.058040417834288545, "train/extr_reward_min": -0.5974695020251803, "train/extr_reward_std": 0.23178071363104713, "train/image_loss_mean": 3.009278063972791, "train/image_loss_std": 8.311112324396769, "train/model_loss_mean": 6.235847771167755, "train/model_loss_std": 12.46392493777805, "train/model_opt_grad_norm": 25.04651571644677, "train/model_opt_grad_steps": 370777.0, "train/model_opt_loss": 14341.446092393664, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2291.6666666666665, "train/policy_entropy_mag": 2.7125023073620267, "train/policy_entropy_max": 2.7125023073620267, "train/policy_entropy_mean": 0.37121743750241065, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5594253175788455, "train/policy_logprob_mag": 7.438384261396196, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37137555455168086, "train/policy_logprob_min": -7.438384261396196, "train/policy_logprob_std": 1.0041755975948439, "train/policy_randomness_mag": 0.9573942836787965, "train/policy_randomness_max": 0.9573942836787965, "train/policy_randomness_mean": 0.13102346441398063, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19745258955905834, "train/post_ent_mag": 55.29701805114746, "train/post_ent_max": 55.29701805114746, "train/post_ent_mean": 40.65920554267036, "train/post_ent_min": 19.27575631936391, "train/post_ent_std": 5.700729098584917, "train/prior_ent_mag": 76.64825460645888, "train/prior_ent_max": 76.64825460645888, "train/prior_ent_mean": 45.9357025358412, "train/prior_ent_min": 27.84976421462165, "train/prior_ent_std": 7.571871651543511, "train/rep_loss_mean": 5.285629921489292, "train/rep_loss_std": 8.802620106273228, "train/reward_avg": 0.04020046631598638, "train/reward_loss_mean": 0.0551617001183331, "train/reward_loss_std": 0.2131999269541767, "train/reward_max_data": 1.0319444520605936, "train/reward_max_pred": 1.0277702626254823, "train/reward_neg_acc": 0.9937835451629426, "train/reward_neg_loss": 0.023604078606391948, "train/reward_pos_acc": 0.9891263826025857, "train/reward_pos_loss": 0.7293416957060496, "train/reward_pred": 0.03990646591410041, "train/reward_rate": 0.04470486111111111, "stats/sum_log_reward": 11.528571673801967, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 1.2857142857142858, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 14.428571428571429, "stats/max_log_achievement_collect_wood": 10.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5714285714285714, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.14285714285714285, "stats/max_log_achievement_make_stone_sword": 0.7142857142857143, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.8571428571428572, "stats/max_log_achievement_place_stone": 3.5714285714285716, "stats/max_log_achievement_place_table": 2.2857142857142856, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.3286748549767903, "replay/size": 743902.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.5423842283293875e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3547656274866959e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2940442562103, "timer/env.step_count": 1442.0, "timer/env.step_total": 20.329586029052734, "timer/env.step_frac": 0.06769893182332837, "timer/env.step_avg": 0.014098187260092048, "timer/env.step_min": 0.0031461715698242188, "timer/env.step_max": 1.6894068717956543, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.2503480911254883, "timer/replay.add_frac": 0.0008336765111195204, "timer/replay.add_avg": 0.00017361171367925678, "timer/replay.add_min": 6.222724914550781e-05, "timer/replay.add_max": 0.0008327960968017578, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03139996528625488, "timer/logger.write_frac": 0.00010456406274732671, "timer/logger.write_avg": 0.03139996528625488, "timer/logger.write_min": 0.03139996528625488, "timer/logger.write_max": 0.03139996528625488, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 10.695370435714722, "timer/agent.policy_frac": 0.03561632553254853, "timer/agent.policy_avg": 0.007417039137111458, "timer/agent.policy_min": 0.005937814712524414, "timer/agent.policy_max": 0.01919841766357422, "timer/dataset_count": 721.0, "timer/dataset_total": 0.058699607849121094, "timer/dataset_frac": 0.00019547376636960104, "timer/dataset_avg": 8.141415790446754e-05, "timer/dataset_min": 5.817413330078125e-05, "timer/dataset_max": 0.00014734268188476562, "timer/agent.train_count": 721.0, "timer/agent.train_total": 268.2633171081543, "timer/agent.train_frac": 0.8933354564943436, "timer/agent.train_avg": 0.3720711749072875, "timer/agent.train_min": 0.3654191493988037, "timer/agent.train_max": 0.3841392993927002, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21907949447631836, "timer/agent.report_frac": 0.0007295499150472666, "timer/agent.report_avg": 0.21907949447631836, "timer/agent.report_min": 0.21907949447631836, "timer/agent.report_max": 0.21907949447631836, "fps": 4.801866228452924}
{"step": 744037, "episode/length": 223.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.06696428571428571}
{"step": 744188, "episode/length": 150.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.500000022351742, "episode/reward_rate": 0.046357615894039736}
{"step": 744447, "episode/length": 258.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.05019305019305019}
{"step": 744608, "episode/length": 160.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.07453416149068323}
{"step": 744662, "episode/length": 53.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.14814814814814814}
{"step": 744827, "episode/length": 164.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 11.100000031292439, "episode/reward_rate": 0.06060606060606061}
{"step": 745014, "episode/length": 186.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.06417112299465241}
{"step": 745298, "episode/length": 283.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.04929577464788732}
{"step": 745397, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.427592532735475, "train/action_min": 0.0, "train/action_std": 3.2730392771707453, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04076731871341316, "train/actor_opt_grad_steps": 371790.0, "train/actor_opt_loss": -13.370663849400803, "train/adv_mag": 0.4220444102522353, "train/adv_max": 0.36819478281786744, "train/adv_mean": 0.001548230715791722, "train/adv_min": -0.37735210275146325, "train/adv_std": 0.0459304069969016, "train/cont_avg": 0.9948558538732394, "train/cont_loss_mean": 0.000171456196904299, "train/cont_loss_std": 0.005351109700192135, "train/cont_neg_acc": 0.9908163283552442, "train/cont_neg_loss": 0.02963542251386408, "train/cont_pos_acc": 0.9999861876729509, "train/cont_pos_loss": 3.11657343919366e-05, "train/cont_pred": 0.9948723022366913, "train/cont_rate": 0.9948558538732394, "train/dyn_loss_mean": 5.461816854879889, "train/dyn_loss_std": 8.798336210385175, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9986530987309737, "train/extr_critic_critic_opt_grad_steps": 371790.0, "train/extr_critic_critic_opt_loss": 15637.268637213909, "train/extr_critic_mag": 11.4701724791191, "train/extr_critic_max": 11.4701724791191, "train/extr_critic_mean": 3.3593461714999777, "train/extr_critic_min": -0.43086234784462085, "train/extr_critic_std": 2.7864339788195114, "train/extr_return_normed_mag": 1.4151176684339282, "train/extr_return_normed_max": 1.4151176684339282, "train/extr_return_normed_mean": 0.38977049396071634, "train/extr_return_normed_min": -0.08584008675435899, "train/extr_return_normed_std": 0.3229709720947373, "train/extr_return_rate": 0.8319652710162418, "train/extr_return_raw_mag": 12.302472181723152, "train/extr_return_raw_max": 12.302472181723152, "train/extr_return_raw_mean": 3.3728209599642685, "train/extr_return_raw_min": -0.7691950046680343, "train/extr_return_raw_std": 2.812636184020781, "train/extr_reward_mag": 1.0644521310295858, "train/extr_reward_max": 1.0644521310295858, "train/extr_reward_mean": 0.05874981258956479, "train/extr_reward_min": -0.6701354930098627, "train/extr_reward_std": 0.23282601233099548, "train/image_loss_mean": 3.25064157935935, "train/image_loss_std": 8.313998027586601, "train/model_loss_mean": 6.585205863898908, "train/model_loss_std": 12.434193732033313, "train/model_opt_grad_norm": 23.970064928833867, "train/model_opt_grad_steps": 371491.661971831, "train/model_opt_loss": 17805.917803697183, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2746.478873239437, "train/policy_entropy_mag": 2.721241789804378, "train/policy_entropy_max": 2.721241789804378, "train/policy_entropy_mean": 0.41265272863314184, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.613609813468557, "train/policy_logprob_mag": 7.438384271003831, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4128101690554283, "train/policy_logprob_min": -7.438384271003831, "train/policy_logprob_std": 1.0393254815692632, "train/policy_randomness_mag": 0.9604789320851715, "train/policy_randomness_max": 0.9604789320851715, "train/policy_randomness_mean": 0.145648303900806, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2165773372415086, "train/post_ent_mag": 55.61494569375481, "train/post_ent_max": 55.61494569375481, "train/post_ent_mean": 40.625495104722575, "train/post_ent_min": 19.68341800528513, "train/post_ent_std": 5.761229857592515, "train/prior_ent_mag": 76.71088452406333, "train/prior_ent_max": 76.71088452406333, "train/prior_ent_mean": 46.08805137956646, "train/prior_ent_min": 28.275484568636184, "train/prior_ent_std": 7.6863788416687875, "train/rep_loss_mean": 5.461816854879889, "train/rep_loss_std": 8.798336210385175, "train/reward_avg": 0.0415314151839891, "train/reward_loss_mean": 0.05730273973354152, "train/reward_loss_std": 0.21263276124504252, "train/reward_max_data": 1.0267605697604971, "train/reward_max_pred": 1.0249893900374292, "train/reward_neg_acc": 0.9933810922461497, "train/reward_neg_loss": 0.02516667616986473, "train/reward_pos_acc": 0.9915871015736755, "train/reward_pos_loss": 0.7216738638743548, "train/reward_pred": 0.04128439037103049, "train/reward_rate": 0.046201034330985914, "stats/sum_log_reward": 10.350000262260437, "stats/max_log_achievement_collect_coal": 0.625, "stats/max_log_achievement_collect_drink": 1.375, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 14.25, "stats/max_log_achievement_collect_wood": 9.375, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 0.875, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.375, "stats/max_log_achievement_make_stone_sword": 0.75, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.625, "stats/max_log_achievement_place_furnace": 1.875, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 2.625, "stats/max_log_achievement_place_table": 2.25, "stats/max_log_achievement_wake_up": 0.875, "stats/mean_log_entropy": 0.3317031245678663, "replay/size": 745334.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.4602327719747023e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3520930732428694e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.08683228492737, "timer/env.step_count": 1432.0, "timer/env.step_total": 21.812607526779175, "timer/env.step_frac": 0.07268765297261852, "timer/env.step_avg": 0.015232267825963111, "timer/env.step_min": 0.0031280517578125, "timer/env.step_max": 1.7397897243499756, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.25617384910583496, "timer/replay.add_frac": 0.0008536657445289109, "timer/replay.add_avg": 0.0001788923527275384, "timer/replay.add_min": 6.437301635742188e-05, "timer/replay.add_max": 0.007962465286254883, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.032370567321777344, "timer/logger.write_frac": 0.00010787066888373842, "timer/logger.write_avg": 0.032370567321777344, "timer/logger.write_min": 0.032370567321777344, "timer/logger.write_max": 0.032370567321777344, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 10.783583164215088, "timer/agent.policy_frac": 0.03593487618935661, "timer/agent.policy_avg": 0.007530435170541263, "timer/agent.policy_min": 0.005779743194580078, "timer/agent.policy_max": 0.07891273498535156, "timer/dataset_count": 716.0, "timer/dataset_total": 0.058612823486328125, "timer/dataset_frac": 0.0001953195448132034, "timer/dataset_avg": 8.186148531610074e-05, "timer/dataset_min": 5.9604644775390625e-05, "timer/dataset_max": 0.0001518726348876953, "timer/agent.train_count": 716.0, "timer/agent.train_total": 266.45953273773193, "timer/agent.train_frac": 0.8879414358465856, "timer/agent.train_avg": 0.37215018538789374, "timer/agent.train_min": 0.36609625816345215, "timer/agent.train_max": 0.38466358184814453, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22077131271362305, "timer/agent.report_frac": 0.0007356914364839721, "timer/agent.report_avg": 0.22077131271362305, "timer/agent.report_min": 0.22077131271362305, "timer/agent.report_max": 0.22077131271362305, "fps": 4.771850291202641}
{"step": 745479, "episode/length": 180.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.08287292817679558}
{"step": 745693, "episode/length": 213.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 16.10000005364418, "episode/reward_rate": 0.06542056074766354}
{"step": 745851, "episode/length": 157.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.06329113924050633}
{"step": 746021, "episode/length": 169.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.06470588235294118}
{"step": 746202, "episode/length": 180.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.0718232044198895}
{"step": 746570, "episode/length": 367.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 11.500000037252903, "episode/reward_rate": 0.024456521739130436}
{"step": 746635, "episode/length": 64.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.09230769230769231}
{"step": 746684, "episode/length": 48.0, "episode/score": 5.100000001490116, "episode/sum_abs_reward": 6.500000022351742, "episode/reward_rate": 0.12244897959183673}
{"step": 746809, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.412255515514965, "train/action_min": 0.0, "train/action_std": 3.2323595604426423, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.040586539478579035, "train/actor_opt_grad_steps": 372500.0, "train/actor_opt_loss": -11.570064862429255, "train/adv_mag": 0.4300276038932129, "train/adv_max": 0.36126825717133537, "train/adv_mean": 0.0018609848289921041, "train/adv_min": -0.3746595015408288, "train/adv_std": 0.04521935674506174, "train/cont_avg": 0.9950209066901409, "train/cont_loss_mean": 7.040323901854105e-05, "train/cont_loss_std": 0.0021826258400906994, "train/cont_neg_acc": 0.998412698507309, "train/cont_neg_loss": 0.0023876520910164345, "train/cont_pos_acc": 0.9999723627533711, "train/cont_pos_loss": 5.077168757804724e-05, "train/cont_pred": 0.995004050328698, "train/cont_rate": 0.9950209066901409, "train/dyn_loss_mean": 5.456783670774648, "train/dyn_loss_std": 8.871090586756317, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9815678991062541, "train/extr_critic_critic_opt_grad_steps": 372500.0, "train/extr_critic_critic_opt_loss": 15673.908079335388, "train/extr_critic_mag": 11.338348388671875, "train/extr_critic_max": 11.338348388671875, "train/extr_critic_mean": 3.3579749372643484, "train/extr_critic_min": -0.3815890449873159, "train/extr_critic_std": 2.7151287676582876, "train/extr_return_normed_mag": 1.4088863554135176, "train/extr_return_normed_max": 1.4088863554135176, "train/extr_return_normed_mean": 0.39487636173275154, "train/extr_return_normed_min": -0.07578772274960935, "train/extr_return_normed_std": 0.3180643914031311, "train/extr_return_rate": 0.8384701878252164, "train/extr_return_raw_mag": 12.12299709588709, "train/extr_return_raw_max": 12.12299709588709, "train/extr_return_raw_mean": 3.374037500838159, "train/extr_return_raw_min": -0.6870951488823958, "train/extr_return_raw_std": 2.744625259453142, "train/extr_reward_mag": 1.0631097437630237, "train/extr_reward_max": 1.0631097437630237, "train/extr_reward_mean": 0.05757476982306427, "train/extr_reward_min": -0.596198105476272, "train/extr_reward_std": 0.23066785197022935, "train/image_loss_mean": 3.3313437465211035, "train/image_loss_std": 8.241533501047483, "train/model_loss_mean": 6.661448915239791, "train/model_loss_std": 12.478154813739616, "train/model_opt_grad_norm": 26.835584250973984, "train/model_opt_grad_steps": 372201.0, "train/model_opt_loss": 16653.622221610916, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.688508302393094, "train/policy_entropy_max": 2.688508302393094, "train/policy_entropy_mean": 0.39066556809653696, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5811460950005223, "train/policy_logprob_mag": 7.438384264287814, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3906218877560656, "train/policy_logprob_min": -7.438384264287814, "train/policy_logprob_std": 1.0199862760557254, "train/policy_randomness_mag": 0.9489254481355909, "train/policy_randomness_max": 0.9489254481355909, "train/policy_randomness_mean": 0.13788780160772968, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20511906772432192, "train/post_ent_mag": 55.36537256375165, "train/post_ent_max": 55.36537256375165, "train/post_ent_mean": 40.677428984306225, "train/post_ent_min": 19.320090146131918, "train/post_ent_std": 5.78201795631731, "train/prior_ent_mag": 76.7285249736947, "train/prior_ent_max": 76.7285249736947, "train/prior_ent_mean": 46.08813938624422, "train/prior_ent_min": 27.854052342159648, "train/prior_ent_std": 7.642851983997184, "train/rep_loss_mean": 5.456783670774648, "train/rep_loss_std": 8.871090586756317, "train/reward_avg": 0.04000605188939773, "train/reward_loss_mean": 0.05596461503858298, "train/reward_loss_std": 0.2212865910899471, "train/reward_max_data": 1.0197183145603663, "train/reward_max_pred": 1.0190036229684318, "train/reward_neg_acc": 0.9937255046737026, "train/reward_neg_loss": 0.02377241361938732, "train/reward_pos_acc": 0.9859554935509051, "train/reward_pos_loss": 0.7472288407070536, "train/reward_pred": 0.03926501433614274, "train/reward_rate": 0.04450924295774648, "stats/sum_log_reward": 9.475000083446503, "stats/max_log_achievement_collect_coal": 0.75, "stats/max_log_achievement_collect_drink": 2.25, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 12.0, "stats/max_log_achievement_collect_wood": 9.5, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 0.875, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.0, "stats/max_log_achievement_make_wood_pickaxe": 0.875, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 1.375, "stats/max_log_achievement_place_plant": 0.875, "stats/max_log_achievement_place_stone": 4.5, "stats/max_log_achievement_place_table": 2.25, "stats/max_log_achievement_wake_up": 0.875, "stats/mean_log_entropy": 0.30365537852048874, "replay/size": 746746.0, "replay/inserts": 1412.0, "replay/samples": 11296.0, "replay/insert_wait_avg": 3.5136347114195565e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3671287733839862e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.08001732826233, "timer/env.step_count": 1412.0, "timer/env.step_total": 21.991055011749268, "timer/env.step_frac": 0.07328397008086314, "timer/env.step_avg": 0.015574401566394665, "timer/env.step_min": 0.003005504608154297, "timer/env.step_max": 1.7119965553283691, "timer/replay.add_count": 1412.0, "timer/replay.add_total": 0.2587854862213135, "timer/replay.add_frac": 0.0008623882673874411, "timer/replay.add_avg": 0.00018327584010008037, "timer/replay.add_min": 6.008148193359375e-05, "timer/replay.add_max": 0.0007801055908203125, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028561830520629883, "timer/logger.write_frac": 9.518071471378796e-05, "timer/logger.write_avg": 0.028561830520629883, "timer/logger.write_min": 0.028561830520629883, "timer/logger.write_max": 0.028561830520629883, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004055500030517578, "timer/checkpoint.save_frac": 1.351472872677557e-06, "timer/checkpoint.save_avg": 0.0004055500030517578, "timer/checkpoint.save_min": 0.0004055500030517578, "timer/checkpoint.save_max": 0.0004055500030517578, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2485735416412354, "timer/agent.save_frac": 0.004160802017934439, "timer/agent.save_avg": 1.2485735416412354, "timer/agent.save_min": 1.2485735416412354, "timer/agent.save_max": 1.2485735416412354, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.703636169433594e-05, "timer/replay.save_frac": 3.233682887594155e-07, "timer/replay.save_avg": 9.703636169433594e-05, "timer/replay.save_min": 9.703636169433594e-05, "timer/replay.save_max": 9.703636169433594e-05, "timer/agent.policy_count": 1412.0, "timer/agent.policy_total": 14.236665487289429, "timer/agent.policy_frac": 0.047442897444636284, "timer/agent.policy_avg": 0.010082624282782882, "timer/agent.policy_min": 0.005890846252441406, "timer/agent.policy_max": 2.516188144683838, "timer/dataset_count": 706.0, "timer/dataset_total": 0.057607412338256836, "timer/dataset_frac": 0.000191973503771293, "timer/dataset_avg": 8.159690132897568e-05, "timer/dataset_min": 5.91278076171875e-05, "timer/dataset_max": 0.0001556873321533203, "timer/agent.train_count": 706.0, "timer/agent.train_total": 262.8563165664673, "timer/agent.train_frac": 0.8759540835367406, "timer/agent.train_avg": 0.3723177288476874, "timer/agent.train_min": 0.36601901054382324, "timer/agent.train_max": 0.4099147319793701, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21778011322021484, "timer/agent.report_frac": 0.0007257401381111682, "timer/agent.report_avg": 0.21778011322021484, "timer/agent.report_min": 0.21778011322021484, "timer/agent.report_max": 0.21778011322021484, "fps": 4.705309678472938}
{"step": 746930, "episode/length": 245.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.06097560975609756}
{"step": 747103, "episode/length": 172.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.057803468208092484}
{"step": 747266, "episode/length": 162.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.06134969325153374}
{"step": 747499, "episode/length": 232.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.055793991416309016}
{"step": 747679, "episode/length": 179.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.700000047683716, "episode/reward_rate": 0.06666666666666667}
{"step": 747880, "episode/length": 200.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.06467661691542288}
{"step": 748074, "episode/length": 193.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.06701030927835051}
{"step": 748253, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.423133850097656, "train/action_min": 0.0, "train/action_std": 3.268342286348343, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04088914073589775, "train/actor_opt_grad_steps": 373215.0, "train/actor_opt_loss": -14.68681264254782, "train/adv_mag": 0.42595411878493095, "train/adv_max": 0.3654108742872874, "train/adv_mean": 0.0019080885735497253, "train/adv_min": -0.38785198972456986, "train/adv_std": 0.046126172256966434, "train/cont_avg": 0.9948594835069444, "train/cont_loss_mean": 0.00011846801459864448, "train/cont_loss_std": 0.0037279218098926017, "train/cont_neg_acc": 0.9980158739619784, "train/cont_neg_loss": 0.0045253170910197265, "train/cont_pos_acc": 0.9999863199061818, "train/cont_pos_loss": 8.991538221191241e-05, "train/cont_pred": 0.9948540296819475, "train/cont_rate": 0.9948594835069444, "train/dyn_loss_mean": 5.369867689079708, "train/dyn_loss_std": 8.844276361995274, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9890473178691335, "train/extr_critic_critic_opt_grad_steps": 373215.0, "train/extr_critic_critic_opt_loss": 15678.053073459201, "train/extr_critic_mag": 11.48779504828983, "train/extr_critic_max": 11.48779504828983, "train/extr_critic_mean": 3.372657166586982, "train/extr_critic_min": -0.39876504573557114, "train/extr_critic_std": 2.7459048363897534, "train/extr_return_normed_mag": 1.410763657755322, "train/extr_return_normed_max": 1.410763657755322, "train/extr_return_normed_mean": 0.3935716611643632, "train/extr_return_normed_min": -0.07878397110228737, "train/extr_return_normed_std": 0.31865498589144814, "train/extr_return_rate": 0.8389856856730249, "train/extr_return_raw_mag": 12.255866871939766, "train/extr_return_raw_max": 12.255866871939766, "train/extr_return_raw_mean": 3.389307137992647, "train/extr_return_raw_min": -0.7277465152243773, "train/extr_return_raw_std": 2.777476853794522, "train/extr_reward_mag": 1.076933678653505, "train/extr_reward_max": 1.076933678653505, "train/extr_reward_mean": 0.05903000870926513, "train/extr_reward_min": -0.6466868619124094, "train/extr_reward_std": 0.23392399648825327, "train/image_loss_mean": 3.122899199525515, "train/image_loss_std": 8.420837097697788, "train/model_loss_mean": 6.401792565981547, "train/model_loss_std": 12.597569386164347, "train/model_opt_grad_norm": 26.16705201731788, "train/model_opt_grad_steps": 372915.1111111111, "train/model_opt_loss": 16700.255398220484, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2604.1666666666665, "train/policy_entropy_mag": 2.686898645427492, "train/policy_entropy_max": 2.686898645427492, "train/policy_entropy_mean": 0.3838952109217644, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5730213841630353, "train/policy_logprob_mag": 7.438384274641673, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38456271092096966, "train/policy_logprob_min": -7.438384274641673, "train/policy_logprob_std": 1.0166121704710855, "train/policy_randomness_mag": 0.9483573113878568, "train/policy_randomness_max": 0.9483573113878568, "train/policy_randomness_mean": 0.13549816329032183, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20225140100551975, "train/post_ent_mag": 55.25619305504693, "train/post_ent_max": 55.25619305504693, "train/post_ent_mean": 40.65461153454251, "train/post_ent_min": 19.257101164923775, "train/post_ent_std": 5.682562437322405, "train/prior_ent_mag": 76.71241325802274, "train/prior_ent_max": 76.71241325802274, "train/prior_ent_mean": 46.054858366648354, "train/prior_ent_min": 28.577100541856552, "train/prior_ent_std": 7.571429762575361, "train/rep_loss_mean": 5.369867689079708, "train/rep_loss_std": 8.844276361995274, "train/reward_avg": 0.04104275152915054, "train/reward_loss_mean": 0.05685436146126853, "train/reward_loss_std": 0.22820747995542157, "train/reward_max_data": 1.0291666736205418, "train/reward_max_pred": 1.0283195674419403, "train/reward_neg_acc": 0.9942417252394888, "train/reward_neg_loss": 0.024338694535092346, "train/reward_pos_acc": 0.9866172025601069, "train/reward_pos_loss": 0.7358731917209096, "train/reward_pred": 0.04070012869002918, "train/reward_rate": 0.04566786024305555, "stats/sum_log_reward": 11.385714667184013, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 1.8571428571428572, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8571428571428572, "stats/max_log_achievement_collect_stone": 17.428571428571427, "stats/max_log_achievement_collect_wood": 10.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.8571428571428571, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.7142857142857143, "stats/max_log_achievement_make_stone_sword": 0.2857142857142857, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.4285714285714284, "stats/max_log_achievement_place_plant": 1.7142857142857142, "stats/max_log_achievement_place_stone": 4.285714285714286, "stats/max_log_achievement_place_table": 2.4285714285714284, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.2626430519989559, "replay/size": 748190.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.530873486209774e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3397217127094638e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3609085083008, "timer/env.step_count": 1444.0, "timer/env.step_total": 19.97573685646057, "timer/env.step_frac": 0.06650578118060434, "timer/env.step_avg": 0.01383361278148239, "timer/env.step_min": 0.0027322769165039062, "timer/env.step_max": 1.6462323665618896, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.28112149238586426, "timer/replay.add_frac": 0.0009359456720983223, "timer/replay.add_avg": 0.00019468247395142954, "timer/replay.add_min": 6.628036499023438e-05, "timer/replay.add_max": 0.0008411407470703125, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023432254791259766, "timer/logger.write_frac": 7.80136633213446e-05, "timer/logger.write_avg": 0.023432254791259766, "timer/logger.write_min": 0.023432254791259766, "timer/logger.write_max": 0.023432254791259766, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.68319296836853, "timer/agent.policy_frac": 0.035567854090684005, "timer/agent.policy_avg": 0.007398333080587625, "timer/agent.policy_min": 0.005943775177001953, "timer/agent.policy_max": 0.014971733093261719, "timer/dataset_count": 722.0, "timer/dataset_total": 0.05887746810913086, "timer/dataset_frac": 0.00019602240651600547, "timer/dataset_avg": 8.154773976333914e-05, "timer/dataset_min": 6.175041198730469e-05, "timer/dataset_max": 0.00018739700317382812, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.6679644584656, "timer/agent.train_frac": 0.8944837921577956, "timer/agent.train_avg": 0.3721162942638027, "timer/agent.train_min": 0.3662247657775879, "timer/agent.train_max": 0.3854050636291504, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22333049774169922, "timer/agent.report_frac": 0.0007435404921726931, "timer/agent.report_avg": 0.22333049774169922, "timer/agent.report_min": 0.22333049774169922, "timer/agent.report_max": 0.22333049774169922, "fps": 4.807475068982246}
{"step": 748264, "episode/length": 189.0, "episode/score": 11.099999979138374, "episode/sum_abs_reward": 12.900000020861626, "episode/reward_rate": 0.06315789473684211}
{"step": 748462, "episode/length": 197.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.06565656565656566}
{"step": 748663, "episode/length": 200.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.05472636815920398}
{"step": 748862, "episode/length": 198.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.07035175879396985}
{"step": 749074, "episode/length": 211.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.0660377358490566}
{"step": 749340, "episode/length": 265.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 15.900000013411045, "episode/reward_rate": 0.05639097744360902}
{"step": 749525, "episode/length": 184.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.05945945945945946}
{"step": 749693, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.467105441623264, "train/action_min": 0.0, "train/action_std": 3.3395129011736975, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.039643095857981175, "train/actor_opt_grad_steps": 373935.0, "train/actor_opt_loss": -14.032409712672234, "train/adv_mag": 0.4170536173300611, "train/adv_max": 0.36028498307698303, "train/adv_mean": 0.0016390122169127608, "train/adv_min": -0.3544218931347132, "train/adv_std": 0.044433691487130195, "train/cont_avg": 0.9949273003472222, "train/cont_loss_mean": 3.231326536350881e-05, "train/cont_loss_std": 0.000991137753036892, "train/cont_neg_acc": 0.9979879285248232, "train/cont_neg_loss": 0.0030160393786870764, "train/cont_pos_acc": 0.9999999875823656, "train/cont_pos_loss": 1.2040234651980145e-05, "train/cont_pred": 0.9949289759000143, "train/cont_rate": 0.9949273003472222, "train/dyn_loss_mean": 5.322058571709527, "train/dyn_loss_std": 8.925913876957363, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0592215499944158, "train/extr_critic_critic_opt_grad_steps": 373935.0, "train/extr_critic_critic_opt_loss": 15690.716824001736, "train/extr_critic_mag": 11.499186608526442, "train/extr_critic_max": 11.499186608526442, "train/extr_critic_mean": 3.241240456700325, "train/extr_critic_min": -0.392184982697169, "train/extr_critic_std": 2.7363683150874243, "train/extr_return_normed_mag": 1.4155655950307846, "train/extr_return_normed_max": 1.4155655950307846, "train/extr_return_normed_mean": 0.3787874407652352, "train/extr_return_normed_min": -0.07867984727231993, "train/extr_return_normed_std": 0.317989529007011, "train/extr_return_rate": 0.8243182574709257, "train/extr_return_raw_mag": 12.259784354103935, "train/extr_return_raw_max": 12.259784354103935, "train/extr_return_raw_mean": 3.2554917451408176, "train/extr_return_raw_min": -0.7183738590942489, "train/extr_return_raw_std": 2.7620448205206127, "train/extr_reward_mag": 1.0696466399563684, "train/extr_reward_max": 1.0696466399563684, "train/extr_reward_mean": 0.05690720118582249, "train/extr_reward_min": -0.6366575161616007, "train/extr_reward_std": 0.22939679399132729, "train/image_loss_mean": 3.2059080170260534, "train/image_loss_std": 8.582069549295637, "train/model_loss_mean": 6.454803480042352, "train/model_loss_std": 12.753955761591593, "train/model_opt_grad_norm": 26.305000225702923, "train/model_opt_grad_steps": 373634.5, "train/model_opt_loss": 16137.0087890625, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.702352676126692, "train/policy_entropy_max": 2.702352676126692, "train/policy_entropy_mean": 0.4110635278953446, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6145180513461431, "train/policy_logprob_mag": 7.438384307755364, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41153334288133514, "train/policy_logprob_min": -7.438384307755364, "train/policy_logprob_std": 1.0422507002949715, "train/policy_randomness_mag": 0.9538119046224488, "train/policy_randomness_max": 0.9538119046224488, "train/policy_randomness_mean": 0.1450873857571019, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.216897905493776, "train/post_ent_mag": 55.45406749513414, "train/post_ent_max": 55.45406749513414, "train/post_ent_mean": 40.71301375495063, "train/post_ent_min": 19.24493302239312, "train/post_ent_std": 5.8241888880729675, "train/prior_ent_mag": 76.77345646752252, "train/prior_ent_max": 76.77345646752252, "train/prior_ent_mean": 46.02425003051758, "train/prior_ent_min": 28.121677266226875, "train/prior_ent_std": 7.634271615081364, "train/rep_loss_mean": 5.322058571709527, "train/rep_loss_std": 8.925913876957363, "train/reward_avg": 0.03966064417424301, "train/reward_loss_mean": 0.05562799051403999, "train/reward_loss_std": 0.21723126392397615, "train/reward_max_data": 1.022222227520413, "train/reward_max_pred": 1.0235192957851622, "train/reward_neg_acc": 0.9940062347385619, "train/reward_neg_loss": 0.02414586944764273, "train/reward_pos_acc": 0.987802729010582, "train/reward_pos_loss": 0.7344511598348618, "train/reward_pred": 0.039154105328230396, "train/reward_rate": 0.04421657986111111, "stats/sum_log_reward": 11.957143238612584, "stats/max_log_achievement_collect_coal": 1.4285714285714286, "stats/max_log_achievement_collect_drink": 1.8571428571428572, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 16.285714285714285, "stats/max_log_achievement_collect_wood": 12.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.2857142857142858, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.42857142857142855, "stats/max_log_achievement_make_stone_sword": 0.42857142857142855, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.142857142857143, "stats/max_log_achievement_place_plant": 1.7142857142857142, "stats/max_log_achievement_place_stone": 4.285714285714286, "stats/max_log_achievement_place_table": 2.142857142857143, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.3020119326455252, "replay/size": 749630.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.4928321838378907e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3490517934163411e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1336693763733, "timer/env.step_count": 1440.0, "timer/env.step_total": 20.3364098072052, "timer/env.step_frac": 0.06775784219564836, "timer/env.step_avg": 0.014122506810559167, "timer/env.step_min": 0.003078460693359375, "timer/env.step_max": 1.7052767276763916, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.2635183334350586, "timer/replay.add_frac": 0.0008780032376327683, "timer/replay.add_avg": 0.00018299884266323514, "timer/replay.add_min": 6.29425048828125e-05, "timer/replay.add_max": 0.0008466243743896484, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021524906158447266, "timer/logger.write_frac": 7.171773231298028e-05, "timer/logger.write_avg": 0.021524906158447266, "timer/logger.write_min": 0.021524906158447266, "timer/logger.write_max": 0.021524906158447266, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 10.703056812286377, "timer/agent.policy_frac": 0.035660966776988094, "timer/agent.policy_avg": 0.007432678341865539, "timer/agent.policy_min": 0.005941629409790039, "timer/agent.policy_max": 0.014843225479125977, "timer/dataset_count": 720.0, "timer/dataset_total": 0.05939078330993652, "timer/dataset_frac": 0.00019788110888505268, "timer/dataset_avg": 8.24871990415785e-05, "timer/dataset_min": 6.0558319091796875e-05, "timer/dataset_max": 0.00019073486328125, "timer/agent.train_count": 720.0, "timer/agent.train_total": 268.0836386680603, "timer/agent.train_frac": 0.8932141443014124, "timer/agent.train_avg": 0.37233838703897265, "timer/agent.train_min": 0.36510443687438965, "timer/agent.train_max": 0.3842334747314453, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21723079681396484, "timer/agent.report_frac": 0.0007237801652354882, "timer/agent.report_avg": 0.21723079681396484, "timer/agent.report_min": 0.21723079681396484, "timer/agent.report_max": 0.21723079681396484, "fps": 4.797758409672978}
{"step": 749798, "episode/length": 272.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.05128205128205128}
{"step": 750063, "episode/length": 264.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.300000041723251, "episode/reward_rate": 0.052830188679245285}
{"step": 750325, "episode/length": 261.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.700000002980232, "episode/reward_rate": 0.05725190839694656}
{"step": 750495, "episode/length": 169.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.058823529411764705}
{"step": 750782, "episode/length": 286.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.04529616724738676}
{"step": 751013, "episode/length": 230.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.06060606060606061}
{"step": 751123, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.414343939887153, "train/action_min": 0.0, "train/action_std": 3.253110799524519, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04112446530618601, "train/actor_opt_grad_steps": 374655.0, "train/actor_opt_loss": -13.500243753194809, "train/adv_mag": 0.4215135644707415, "train/adv_max": 0.36851958061258, "train/adv_mean": 0.0014710491295772954, "train/adv_min": -0.369101427288519, "train/adv_std": 0.045408626863112055, "train/cont_avg": 0.9948323567708334, "train/cont_loss_mean": 6.546300247143065e-05, "train/cont_loss_std": 0.00195975765848407, "train/cont_neg_acc": 0.9980158739619784, "train/cont_neg_loss": 0.004943042731056835, "train/cont_pos_acc": 0.9999863215618663, "train/cont_pos_loss": 3.351700093507443e-05, "train/cont_pred": 0.9948249219192399, "train/cont_rate": 0.9948323567708334, "train/dyn_loss_mean": 5.463624344931708, "train/dyn_loss_std": 8.884197996722328, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9559721027811369, "train/extr_critic_critic_opt_grad_steps": 374655.0, "train/extr_critic_critic_opt_loss": 15704.596340603299, "train/extr_critic_mag": 11.266447212960985, "train/extr_critic_max": 11.266447212960985, "train/extr_critic_mean": 3.2510596646202936, "train/extr_critic_min": -0.4192042615678575, "train/extr_critic_std": 2.756873117552863, "train/extr_return_normed_mag": 1.4044381115171645, "train/extr_return_normed_max": 1.4044381115171645, "train/extr_return_normed_mean": 0.3838625910381476, "train/extr_return_normed_min": -0.07938509783707559, "train/extr_return_normed_std": 0.3225514412754112, "train/extr_return_rate": 0.8307011764910486, "train/extr_return_raw_mag": 12.084240251117283, "train/extr_return_raw_max": 12.084240251117283, "train/extr_return_raw_mean": 3.2637970513767667, "train/extr_return_raw_min": -0.7402808293700218, "train/extr_return_raw_std": 2.7879235479566784, "train/extr_reward_mag": 1.070713374349806, "train/extr_reward_max": 1.070713374349806, "train/extr_reward_mean": 0.058071290660235614, "train/extr_reward_min": -0.6400939987765418, "train/extr_reward_std": 0.23240257054567337, "train/image_loss_mean": 3.195455135570632, "train/image_loss_std": 8.55731052160263, "train/model_loss_mean": 6.528165393405491, "train/model_loss_std": 12.738796101676094, "train/model_opt_grad_norm": 25.73315915796492, "train/model_opt_grad_steps": 374353.93055555556, "train/model_opt_loss": 17052.355441623266, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2604.1666666666665, "train/policy_entropy_mag": 2.719371282392078, "train/policy_entropy_max": 2.719371282392078, "train/policy_entropy_mean": 0.3976967129856348, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5911141306989722, "train/policy_logprob_mag": 7.43838424815072, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3980889144457049, "train/policy_logprob_min": -7.43838424815072, "train/policy_logprob_std": 1.0263585812515683, "train/policy_randomness_mag": 0.9598187274403043, "train/policy_randomness_max": 0.9598187274403043, "train/policy_randomness_mean": 0.1403694881333245, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20863734858317506, "train/post_ent_mag": 55.043235778808594, "train/post_ent_max": 55.043235778808594, "train/post_ent_mean": 40.55570443471273, "train/post_ent_min": 19.125788384013706, "train/post_ent_std": 5.714303983582391, "train/prior_ent_mag": 76.62246036529541, "train/prior_ent_max": 76.62246036529541, "train/prior_ent_mean": 45.991617891523575, "train/prior_ent_min": 28.417603413263958, "train/prior_ent_std": 7.644751873281267, "train/rep_loss_mean": 5.463624344931708, "train/rep_loss_std": 8.884197996722328, "train/reward_avg": 0.03801812060798208, "train/reward_loss_mean": 0.05447023517141739, "train/reward_loss_std": 0.21296713687479496, "train/reward_max_data": 1.027777784400516, "train/reward_max_pred": 1.0286720428201888, "train/reward_neg_acc": 0.9936103365487523, "train/reward_neg_loss": 0.024467945344642632, "train/reward_pos_acc": 0.9894950224293603, "train/reward_pos_loss": 0.7278582693801986, "train/reward_pred": 0.03783232899796632, "train/reward_rate": 0.04269748263888889, "stats/sum_log_reward": 12.266667048136393, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 2.6666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 20.0, "stats/max_log_achievement_collect_wood": 12.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.3333333333333333, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.8333333333333333, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 2.6666666666666665, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_stone": 3.3333333333333335, "stats/max_log_achievement_place_table": 3.5, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.5194269344210625, "replay/size": 751060.0, "replay/inserts": 1430.0, "replay/samples": 11440.0, "replay/insert_wait_avg": 3.4657391634854405e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3399165827077586e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.28036975860596, "timer/env.step_count": 1430.0, "timer/env.step_total": 20.110819101333618, "timer/env.step_frac": 0.0669734725500059, "timer/env.step_avg": 0.01406350986107246, "timer/env.step_min": 0.0029125213623046875, "timer/env.step_max": 1.8119120597839355, "timer/replay.add_count": 1430.0, "timer/replay.add_total": 0.2537820339202881, "timer/replay.add_frac": 0.0008451502644821648, "timer/replay.add_avg": 0.00017746995379041124, "timer/replay.add_min": 6.127357482910156e-05, "timer/replay.add_max": 0.0009102821350097656, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030264854431152344, "timer/logger.write_frac": 0.00010078865446809635, "timer/logger.write_avg": 0.030264854431152344, "timer/logger.write_min": 0.030264854431152344, "timer/logger.write_max": 0.030264854431152344, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002694129943847656, "timer/checkpoint.save_frac": 8.97204817622096e-07, "timer/checkpoint.save_avg": 0.0002694129943847656, "timer/checkpoint.save_min": 0.0002694129943847656, "timer/checkpoint.save_max": 0.0002694129943847656, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.502634048461914, "timer/agent.save_frac": 0.005004103497241178, "timer/agent.save_avg": 1.502634048461914, "timer/agent.save_min": 1.502634048461914, "timer/agent.save_max": 1.502634048461914, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.414817810058594e-05, "timer/replay.save_frac": 2.4692982148714325e-07, "timer/replay.save_avg": 7.414817810058594e-05, "timer/replay.save_min": 7.414817810058594e-05, "timer/replay.save_max": 7.414817810058594e-05, "timer/agent.policy_count": 1430.0, "timer/agent.policy_total": 12.642317056655884, "timer/agent.policy_frac": 0.042101710034588624, "timer/agent.policy_avg": 0.008840781158500618, "timer/agent.policy_min": 0.006090879440307617, "timer/agent.policy_max": 1.4903473854064941, "timer/dataset_count": 715.0, "timer/dataset_total": 0.056725502014160156, "timer/dataset_frac": 0.00018890845931674298, "timer/dataset_avg": 7.933636645337085e-05, "timer/dataset_min": 5.888938903808594e-05, "timer/dataset_max": 0.00013637542724609375, "timer/agent.train_count": 715.0, "timer/agent.train_total": 266.52722811698914, "timer/agent.train_frac": 0.8875945781312617, "timer/agent.train_avg": 0.372765354009775, "timer/agent.train_min": 0.36347246170043945, "timer/agent.train_max": 0.8458981513977051, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2235279083251953, "timer/agent.report_frac": 0.0007443973394094605, "timer/agent.report_avg": 0.2235279083251953, "timer/agent.report_min": 0.2235279083251953, "timer/agent.report_max": 0.2235279083251953, "fps": 4.762113281717577}
{"step": 751221, "episode/length": 207.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.0625}
{"step": 751527, "episode/length": 305.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 12.90000006556511, "episode/reward_rate": 0.032679738562091505}
{"step": 751820, "episode/length": 292.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.04436860068259386}
{"step": 752012, "episode/length": 191.0, "episode/score": 9.099999964237213, "episode/sum_abs_reward": 11.900000005960464, "episode/reward_rate": 0.052083333333333336}
{"step": 752205, "episode/length": 192.0, "episode/score": 10.099999994039536, "episode/sum_abs_reward": 11.900000035762787, "episode/reward_rate": 0.05699481865284974}
{"step": 752395, "episode/length": 189.0, "episode/score": 10.099999979138374, "episode/sum_abs_reward": 11.299999997019768, "episode/reward_rate": 0.05789473684210526}
{"step": 752577, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4372753567165795, "train/action_min": 0.0, "train/action_std": 3.2591571542951794, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.041293700950013265, "train/actor_opt_grad_steps": 375375.0, "train/actor_opt_loss": -12.898789413480294, "train/adv_mag": 0.4114873934951093, "train/adv_max": 0.36236242163512444, "train/adv_mean": 0.002038627681536632, "train/adv_min": -0.3563694945640034, "train/adv_std": 0.045800605633606516, "train/cont_avg": 0.9944797092013888, "train/cont_loss_mean": 5.992916986564801e-05, "train/cont_loss_std": 0.001874389203995482, "train/cont_neg_acc": 0.9987373741136657, "train/cont_neg_loss": 0.0036659321924273533, "train/cont_pos_acc": 0.9999863124556012, "train/cont_pos_loss": 2.08201244128582e-05, "train/cont_pred": 0.9944784334964223, "train/cont_rate": 0.9944797092013888, "train/dyn_loss_mean": 5.352400786346859, "train/dyn_loss_std": 8.792040659321678, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9399789298574129, "train/extr_critic_critic_opt_grad_steps": 375375.0, "train/extr_critic_critic_opt_loss": 15765.10169813368, "train/extr_critic_mag": 11.4698117574056, "train/extr_critic_max": 11.4698117574056, "train/extr_critic_mean": 3.274660862154431, "train/extr_critic_min": -0.42689407368501026, "train/extr_critic_std": 2.7969360765483646, "train/extr_return_normed_mag": 1.4280236677991018, "train/extr_return_normed_max": 1.4280236677991018, "train/extr_return_normed_mean": 0.38873671657509273, "train/extr_return_normed_min": -0.0774322633838488, "train/extr_return_normed_std": 0.32678273051149315, "train/extr_return_rate": 0.8200846761465073, "train/extr_return_raw_mag": 12.275244739320543, "train/extr_return_raw_max": 12.275244739320543, "train/extr_return_raw_mean": 3.2922696570555368, "train/extr_return_raw_min": -0.7375368459357156, "train/extr_return_raw_std": 2.824787343541781, "train/extr_reward_mag": 1.079734183020062, "train/extr_reward_max": 1.079734183020062, "train/extr_reward_mean": 0.060316487681120634, "train/extr_reward_min": -0.635830357670784, "train/extr_reward_std": 0.23646469062401188, "train/image_loss_mean": 3.074544239375326, "train/image_loss_std": 8.1989130642679, "train/model_loss_mean": 6.343422902954949, "train/model_loss_std": 12.325266652637058, "train/model_opt_grad_norm": 24.30390899711185, "train/model_opt_grad_steps": 375073.0, "train/model_opt_loss": 15858.557223849826, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7160881890190973, "train/policy_entropy_max": 2.7160881890190973, "train/policy_entropy_mean": 0.403256728210383, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.611551519897249, "train/policy_logprob_mag": 7.438384234905243, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4024891416645712, "train/policy_logprob_min": -7.438384234905243, "train/policy_logprob_std": 1.0319506625334423, "train/policy_randomness_mag": 0.9586599369843801, "train/policy_randomness_max": 0.9586599369843801, "train/policy_randomness_mean": 0.1423319269799524, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2158508495324188, "train/post_ent_mag": 55.65223730934991, "train/post_ent_max": 55.65223730934991, "train/post_ent_mean": 40.676859060923256, "train/post_ent_min": 19.09467139508989, "train/post_ent_std": 5.778127769629161, "train/prior_ent_mag": 76.7733227411906, "train/prior_ent_max": 76.7733227411906, "train/prior_ent_mean": 46.07579316033257, "train/prior_ent_min": 28.42618489265442, "train/prior_ent_std": 7.657218383418189, "train/rep_loss_mean": 5.352400786346859, "train/rep_loss_std": 8.792040659321678, "train/reward_avg": 0.041754828507287636, "train/reward_loss_mean": 0.057378276302996606, "train/reward_loss_std": 0.2100134471224414, "train/reward_max_data": 1.0319444520605936, "train/reward_max_pred": 1.0297770235273573, "train/reward_neg_acc": 0.9937547246615092, "train/reward_neg_loss": 0.025095307319942448, "train/reward_pos_acc": 0.9909419409102864, "train/reward_pos_loss": 0.7179083559248183, "train/reward_pred": 0.041562120973442994, "train/reward_rate": 0.04660373263888889, "stats/sum_log_reward": 10.43333371480306, "stats/max_log_achievement_collect_coal": 0.0, "stats/max_log_achievement_collect_drink": 2.6666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.1666666666666667, "stats/max_log_achievement_collect_stone": 9.666666666666666, "stats/max_log_achievement_collect_wood": 11.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.0, "stats/max_log_achievement_make_stone_sword": 0.3333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.1666666666666667, "stats/max_log_achievement_place_plant": 1.1666666666666667, "stats/max_log_achievement_place_stone": 3.8333333333333335, "stats/max_log_achievement_place_table": 3.1666666666666665, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.3676308939854304, "replay/size": 752514.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.5279062787965043e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3559236815083962e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.239235162735, "timer/env.step_count": 1454.0, "timer/env.step_total": 17.903550386428833, "timer/env.step_frac": 0.05963094855582347, "timer/env.step_avg": 0.012313308381312815, "timer/env.step_min": 0.002982616424560547, "timer/env.step_max": 1.6681036949157715, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.27919650077819824, "timer/replay.add_frac": 0.0009299134426147495, "timer/replay.add_avg": 0.00019201960163562465, "timer/replay.add_min": 6.079673767089844e-05, "timer/replay.add_max": 0.0008101463317871094, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022780895233154297, "timer/logger.write_frac": 7.587581023781468e-05, "timer/logger.write_avg": 0.022780895233154297, "timer/logger.write_min": 0.022780895233154297, "timer/logger.write_max": 0.022780895233154297, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 10.73587703704834, "timer/agent.policy_frac": 0.03575774175959816, "timer/agent.policy_avg": 0.0073836843445999585, "timer/agent.policy_min": 0.006050586700439453, "timer/agent.policy_max": 0.01547861099243164, "timer/dataset_count": 727.0, "timer/dataset_total": 0.05821061134338379, "timer/dataset_frac": 0.00019388076082672075, "timer/dataset_avg": 8.006961670341649e-05, "timer/dataset_min": 5.7220458984375e-05, "timer/dataset_max": 0.0001404285430908203, "timer/agent.train_count": 727.0, "timer/agent.train_total": 270.5732271671295, "timer/agent.train_frac": 0.9011921010938961, "timer/agent.train_avg": 0.3721777540125578, "timer/agent.train_min": 0.3660414218902588, "timer/agent.train_max": 0.38596558570861816, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2225503921508789, "timer/agent.report_frac": 0.0007412435354435027, "timer/agent.report_avg": 0.2225503921508789, "timer/agent.report_min": 0.2225503921508789, "timer/agent.report_max": 0.2225503921508789, "fps": 4.842698977890991}
{"step": 752580, "episode/length": 184.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.05945945945945946}
{"step": 752749, "episode/length": 168.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.07100591715976332}
{"step": 753055, "episode/length": 305.0, "episode/score": 13.099999979138374, "episode/sum_abs_reward": 15.700000032782555, "episode/reward_rate": 0.0457516339869281}
{"step": 753270, "episode/length": 214.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 17.1000000461936, "episode/reward_rate": 0.06976744186046512}
{"step": 753508, "episode/length": 237.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.700000025331974, "episode/reward_rate": 0.06722689075630252}
{"step": 753709, "episode/length": 200.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.06467661691542288}
{"step": 753886, "episode/length": 176.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06779661016949153}
{"step": 754021, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.412539129387842, "train/action_min": 0.0, "train/action_std": 3.2327533094850307, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.040355058769657184, "train/actor_opt_grad_steps": 376100.0, "train/actor_opt_loss": -11.369483028372674, "train/adv_mag": 0.42491753664735243, "train/adv_max": 0.36189406130411855, "train/adv_mean": 0.0024992787424309103, "train/adv_min": -0.3723923543544665, "train/adv_std": 0.04653735775245379, "train/cont_avg": 0.9948095034246576, "train/cont_loss_mean": 4.7228613789463316e-05, "train/cont_loss_std": 0.0014384343501789884, "train/cont_neg_acc": 0.9982876712328768, "train/cont_neg_loss": 0.0047002028608610375, "train/cont_pos_acc": 0.9999999836699603, "train/cont_pos_loss": 1.3029413555528501e-05, "train/cont_pred": 0.9948130780703401, "train/cont_rate": 0.9948095034246576, "train/dyn_loss_mean": 5.298828575709095, "train/dyn_loss_std": 8.786665622502158, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9973161130735319, "train/extr_critic_critic_opt_grad_steps": 376100.0, "train/extr_critic_critic_opt_loss": 15843.551276220034, "train/extr_critic_mag": 11.187796827864974, "train/extr_critic_max": 11.187796827864974, "train/extr_critic_mean": 3.2583202466572803, "train/extr_critic_min": -0.4209272681850277, "train/extr_critic_std": 2.720951413455075, "train/extr_return_normed_mag": 1.4065477635762462, "train/extr_return_normed_max": 1.4065477635762462, "train/extr_return_normed_mean": 0.38993437282026633, "train/extr_return_normed_min": -0.08493186666132653, "train/extr_return_normed_std": 0.32233412992464355, "train/extr_return_rate": 0.8310145997021297, "train/extr_return_raw_mag": 11.964906130751519, "train/extr_return_raw_max": 11.964906130751519, "train/extr_return_raw_mean": 3.279680947734885, "train/extr_return_raw_min": -0.7766119992896302, "train/extr_return_raw_std": 2.753711122356049, "train/extr_reward_mag": 1.073754124445458, "train/extr_reward_max": 1.073754124445458, "train/extr_reward_mean": 0.05829209130104274, "train/extr_reward_min": -0.6329274291861547, "train/extr_reward_std": 0.2328501188591735, "train/image_loss_mean": 3.23851623437176, "train/image_loss_std": 8.451221093739548, "train/model_loss_mean": 6.4728173229792345, "train/model_loss_std": 12.563520379262428, "train/model_opt_grad_norm": 24.01541255271598, "train/model_opt_grad_steps": 375797.397260274, "train/model_opt_loss": 17525.389594927226, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2705.4794520547944, "train/policy_entropy_mag": 2.7010759098889077, "train/policy_entropy_max": 2.7010759098889077, "train/policy_entropy_mean": 0.3939751064124173, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5915633329789932, "train/policy_logprob_mag": 7.438384271647832, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39435102474199585, "train/policy_logprob_min": -7.438384271647832, "train/policy_logprob_std": 1.0228727206791917, "train/policy_randomness_mag": 0.9533612621973638, "train/policy_randomness_max": 0.9533612621973638, "train/policy_randomness_mean": 0.13905592272951178, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20879589490694542, "train/post_ent_mag": 55.47489323028147, "train/post_ent_max": 55.47489323028147, "train/post_ent_mean": 40.734962620147286, "train/post_ent_min": 19.46421469074406, "train/post_ent_std": 5.717120693154531, "train/prior_ent_mag": 76.65910861916738, "train/prior_ent_max": 76.65910861916738, "train/prior_ent_mean": 46.00770427756114, "train/prior_ent_min": 28.393333173777958, "train/prior_ent_std": 7.683408822098824, "train/rep_loss_mean": 5.298828575709095, "train/rep_loss_std": 8.786665622502158, "train/reward_avg": 0.038926048536006716, "train/reward_loss_mean": 0.05495675755281971, "train/reward_loss_std": 0.21253922397959724, "train/reward_max_data": 1.035616446847785, "train/reward_max_pred": 1.0335823999692315, "train/reward_neg_acc": 0.994185161100675, "train/reward_neg_loss": 0.024027644388683853, "train/reward_pos_acc": 0.9888912872092365, "train/reward_pos_loss": 0.7336490440042052, "train/reward_pred": 0.038481413807770974, "train/reward_rate": 0.04367776113013699, "stats/sum_log_reward": 12.385714394705635, "stats/max_log_achievement_collect_coal": 2.0, "stats/max_log_achievement_collect_drink": 2.5714285714285716, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.142857142857143, "stats/max_log_achievement_collect_stone": 15.285714285714286, "stats/max_log_achievement_collect_wood": 14.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.2857142857142857, "stats/max_log_achievement_defeat_zombie": 0.5714285714285714, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.5714285714285714, "stats/max_log_achievement_make_stone_sword": 0.5714285714285714, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.8571428571428572, "stats/max_log_achievement_place_plant": 1.7142857142857142, "stats/max_log_achievement_place_stone": 2.0, "stats/max_log_achievement_place_table": 3.142857142857143, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.2946928186076028, "replay/size": 753958.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.4861287251734006e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.34905041750118e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.09569454193115, "timer/env.step_count": 1444.0, "timer/env.step_total": 19.718676805496216, "timer/env.step_frac": 0.0657079630402395, "timer/env.step_avg": 0.013655593355606798, "timer/env.step_min": 0.0029990673065185547, "timer/env.step_max": 1.6482818126678467, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.26085638999938965, "timer/replay.add_frac": 0.0008692440269680085, "timer/replay.add_avg": 0.00018064846952866318, "timer/replay.add_min": 6.437301635742188e-05, "timer/replay.add_max": 0.0008690357208251953, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030550479888916016, "timer/logger.write_frac": 0.0001018024598305169, "timer/logger.write_avg": 0.030550479888916016, "timer/logger.write_min": 0.030550479888916016, "timer/logger.write_max": 0.030550479888916016, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.660618305206299, "timer/agent.policy_frac": 0.03552406282095705, "timer/agent.policy_avg": 0.007382699657345082, "timer/agent.policy_min": 0.005920886993408203, "timer/agent.policy_max": 0.01963353157043457, "timer/dataset_count": 722.0, "timer/dataset_total": 0.05800461769104004, "timer/dataset_frac": 0.00019328707057786625, "timer/dataset_avg": 8.033880566626045e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.00014925003051757812, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.68744564056396, "timer/agent.train_frac": 0.8953392218795106, "timer/agent.train_avg": 0.3721432765104764, "timer/agent.train_min": 0.365811824798584, "timer/agent.train_max": 0.38408493995666504, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22180795669555664, "timer/agent.report_frac": 0.0007391240885149198, "timer/agent.report_avg": 0.22180795669555664, "timer/agent.report_min": 0.22180795669555664, "timer/agent.report_max": 0.22180795669555664, "fps": 4.811695980093431}
{"step": 754023, "episode/length": 136.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 10.30000003427267, "episode/reward_rate": 0.06569343065693431}
{"step": 754186, "episode/length": 162.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.0736196319018405}
{"step": 754226, "episode/length": 39.0, "episode/score": 4.100000023841858, "episode/sum_abs_reward": 5.899999976158142, "episode/reward_rate": 0.15}
{"step": 754378, "episode/length": 151.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.07894736842105263}
{"step": 754482, "episode/length": 103.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.10576923076923077}
{"step": 754726, "episode/length": 243.0, "episode/score": 14.100000023841858, "episode/sum_abs_reward": 17.30000004172325, "episode/reward_rate": 0.06557377049180328}
{"step": 755040, "episode/length": 313.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 16.500000067055225, "episode/reward_rate": 0.044585987261146494}
{"step": 755192, "episode/length": 151.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 12.899999976158142, "episode/reward_rate": 0.08552631578947369}
{"step": 755435, "stats/sum_log_reward": 10.225000083446503, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 1.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.375, "stats/max_log_achievement_collect_stone": 9.5, "stats/max_log_achievement_collect_wood": 10.75, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.625, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "stats/max_log_achievement_make_stone_sword": 0.375, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.75, "stats/max_log_achievement_place_furnace": 1.375, "stats/max_log_achievement_place_plant": 1.25, "stats/max_log_achievement_place_stone": 2.75, "stats/max_log_achievement_place_table": 2.625, "stats/max_log_achievement_wake_up": 1.125, "stats/mean_log_entropy": 0.3718828707933426, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.470866176060268, "train/action_min": 0.0, "train/action_std": 3.3524957248142786, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04122399977807488, "train/actor_opt_grad_steps": 376815.0, "train/actor_opt_loss": -10.267920452196684, "train/adv_mag": 0.4467741421290806, "train/adv_max": 0.4038954189845494, "train/adv_mean": 0.0031087219581422687, "train/adv_min": -0.377968596134867, "train/adv_std": 0.04660021763827119, "train/cont_avg": 0.9946149553571428, "train/cont_loss_mean": 0.000122172742575393, "train/cont_loss_std": 0.0037601845477183817, "train/cont_neg_acc": 0.9933163276740483, "train/cont_neg_loss": 0.015768118957244528, "train/cont_pos_acc": 0.9999999829701015, "train/cont_pos_loss": 1.6481035466041152e-05, "train/cont_pred": 0.9946344026497432, "train/cont_rate": 0.9946149553571428, "train/dyn_loss_mean": 5.293617268971034, "train/dyn_loss_std": 8.813667563029698, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9624486003603254, "train/extr_critic_critic_opt_grad_steps": 376815.0, "train/extr_critic_critic_opt_loss": 15865.170535714286, "train/extr_critic_mag": 11.563197149549211, "train/extr_critic_max": 11.563197149549211, "train/extr_critic_mean": 3.3240889855793543, "train/extr_critic_min": -0.42605021340506416, "train/extr_critic_std": 2.7968677043914796, "train/extr_return_normed_mag": 1.422959133556911, "train/extr_return_normed_max": 1.422959133556911, "train/extr_return_normed_mean": 0.39050180869443074, "train/extr_return_normed_min": -0.07972002721258573, "train/extr_return_normed_std": 0.32559643323932375, "train/extr_return_rate": 0.8313095654760089, "train/extr_return_raw_mag": 12.324914973122732, "train/extr_return_raw_max": 12.324914973122732, "train/extr_return_raw_mean": 3.3511046069008965, "train/extr_return_raw_min": -0.7368658695902143, "train/extr_return_raw_std": 2.830419284956796, "train/extr_reward_mag": 1.0687980243137905, "train/extr_reward_max": 1.0687980243137905, "train/extr_reward_mean": 0.05910078968320574, "train/extr_reward_min": -0.6405065144811358, "train/extr_reward_std": 0.23441798218658993, "train/image_loss_mean": 3.1708990522793363, "train/image_loss_std": 8.364785405567714, "train/model_loss_mean": 6.403593512943813, "train/model_loss_std": 12.484003502982004, "train/model_opt_grad_norm": 23.759323368901793, "train/model_opt_grad_steps": 376511.85714285716, "train/model_opt_loss": 17191.912234933036, "train/model_opt_model_opt_grad_overflow": 0.014285714285714285, "train/model_opt_model_opt_grad_scale": 2642.8571428571427, "train/policy_entropy_mag": 2.7127900055476597, "train/policy_entropy_max": 2.7127900055476597, "train/policy_entropy_mean": 0.40428268973316467, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.60919409096241, "train/policy_logprob_mag": 7.438384280885969, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4048579450164522, "train/policy_logprob_min": -7.438384280885969, "train/policy_logprob_std": 1.0361623057297298, "train/policy_randomness_mag": 0.9574958230767932, "train/policy_randomness_max": 0.9574958230767932, "train/policy_randomness_mean": 0.14269404783844947, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21501878052949905, "train/post_ent_mag": 54.97446447099958, "train/post_ent_max": 54.97446447099958, "train/post_ent_mean": 40.690061405726844, "train/post_ent_min": 19.63044124330793, "train/post_ent_std": 5.683471250534057, "train/prior_ent_mag": 76.81279580252512, "train/prior_ent_max": 76.81279580252512, "train/prior_ent_mean": 45.98013747079032, "train/prior_ent_min": 28.216925430297852, "train/prior_ent_std": 7.637611784253802, "train/rep_loss_mean": 5.293617268971034, "train/rep_loss_std": 8.813667563029698, "train/reward_avg": 0.04021065863115447, "train/reward_loss_mean": 0.05640188737639359, "train/reward_loss_std": 0.21326227954455784, "train/reward_max_data": 1.0228571483067104, "train/reward_max_pred": 1.0218339000429426, "train/reward_neg_acc": 0.9939842147486551, "train/reward_neg_loss": 0.024781098802174842, "train/reward_pos_acc": 0.9876505017280579, "train/reward_pos_loss": 0.7294875570705959, "train/reward_pred": 0.03982088030981166, "train/reward_rate": 0.045103236607142855, "replay/size": 755372.0, "replay/inserts": 1414.0, "replay/samples": 11312.0, "replay/insert_wait_avg": 3.4356555641962077e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3476171790288902e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.32149839401245, "timer/env.step_count": 1414.0, "timer/env.step_total": 22.172083377838135, "timer/env.step_frac": 0.07382782616763936, "timer/env.step_avg": 0.015680398428456956, "timer/env.step_min": 0.002971649169921875, "timer/env.step_max": 1.743060827255249, "timer/replay.add_count": 1414.0, "timer/replay.add_total": 0.25121402740478516, "timer/replay.add_frac": 0.0008364836641671259, "timer/replay.add_avg": 0.00017766197129051283, "timer/replay.add_min": 5.888938903808594e-05, "timer/replay.add_max": 0.0008208751678466797, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022411108016967773, "timer/logger.write_frac": 7.462372203392877e-05, "timer/logger.write_avg": 0.022411108016967773, "timer/logger.write_min": 0.022411108016967773, "timer/logger.write_max": 0.022411108016967773, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00024580955505371094, "timer/checkpoint.save_frac": 8.184880415427885e-07, "timer/checkpoint.save_avg": 0.00024580955505371094, "timer/checkpoint.save_min": 0.00024580955505371094, "timer/checkpoint.save_max": 0.00024580955505371094, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1962034702301025, "timer/agent.save_frac": 0.0039830763918896036, "timer/agent.save_avg": 1.1962034702301025, "timer/agent.save_min": 1.1962034702301025, "timer/agent.save_max": 1.1962034702301025, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.296966552734375e-05, "timer/replay.save_frac": 2.7626948443927293e-07, "timer/replay.save_avg": 8.296966552734375e-05, "timer/replay.save_min": 8.296966552734375e-05, "timer/replay.save_max": 8.296966552734375e-05, "timer/agent.policy_count": 1414.0, "timer/agent.policy_total": 13.791382789611816, "timer/agent.policy_frac": 0.04592206306695351, "timer/agent.policy_avg": 0.009753453175114439, "timer/agent.policy_min": 0.005931377410888672, "timer/agent.policy_max": 2.5597927570343018, "timer/dataset_count": 707.0, "timer/dataset_total": 0.05748891830444336, "timer/dataset_frac": 0.00019142458535891988, "timer/dataset_avg": 8.131388727644039e-05, "timer/dataset_min": 6.031990051269531e-05, "timer/dataset_max": 0.00012946128845214844, "timer/agent.train_count": 707.0, "timer/agent.train_total": 263.36393189430237, "timer/agent.train_frac": 0.8769399903192314, "timer/agent.train_avg": 0.3725090974459722, "timer/agent.train_min": 0.36539220809936523, "timer/agent.train_max": 0.5889952182769775, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22155499458312988, "timer/agent.report_frac": 0.0007377260561362032, "timer/agent.report_avg": 0.22155499458312988, "timer/agent.report_min": 0.22155499458312988, "timer/agent.report_max": 0.22155499458312988, "fps": 4.7082084558049235}
{"step": 755435, "episode/length": 242.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.05761316872427984}
{"step": 755610, "episode/length": 174.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.07428571428571429}
{"step": 755831, "episode/length": 220.0, "episode/score": 13.100000023841858, "episode/sum_abs_reward": 14.700000047683716, "episode/reward_rate": 0.06334841628959276}
{"step": 756012, "episode/length": 180.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.055248618784530384}
{"step": 756277, "episode/length": 264.0, "episode/score": 8.100000031292439, "episode/sum_abs_reward": 11.100000031292439, "episode/reward_rate": 0.03773584905660377}
{"step": 756530, "episode/length": 252.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.500000037252903, "episode/reward_rate": 0.05928853754940711}
{"step": 756757, "episode/length": 226.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.048458149779735685}
{"step": 756879, "stats/sum_log_reward": 11.385714530944824, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 3.4285714285714284, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 13.428571428571429, "stats/max_log_achievement_collect_wood": 12.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.42857142857142855, "stats/max_log_achievement_make_stone_sword": 0.8571428571428571, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 4.571428571428571, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.37328608546938213, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.383001458154966, "train/action_min": 0.0, "train/action_std": 3.234937099561299, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03916131368238632, "train/actor_opt_grad_steps": 377530.0, "train/actor_opt_loss": -13.759291873811042, "train/adv_mag": 0.3851048815740298, "train/adv_max": 0.32816833665926165, "train/adv_mean": 0.0019646960213758075, "train/adv_min": -0.3445237011533894, "train/adv_std": 0.045903748998494996, "train/cont_avg": 0.9946222174657534, "train/cont_loss_mean": 5.5399014155571805e-05, "train/cont_loss_std": 0.0017352489506293589, "train/cont_neg_acc": 0.9977168955215036, "train/cont_neg_loss": 0.006095871447280232, "train/cont_pos_acc": 0.9999999787709485, "train/cont_pos_loss": 1.8512005380690015e-05, "train/cont_pred": 0.9946216304008275, "train/cont_rate": 0.9946222174657534, "train/dyn_loss_mean": 5.3191200151835405, "train/dyn_loss_std": 8.79858478781295, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0190921972875726, "train/extr_critic_critic_opt_grad_steps": 377530.0, "train/extr_critic_critic_opt_loss": 15777.194108518835, "train/extr_critic_mag": 11.46935408082727, "train/extr_critic_max": 11.46935408082727, "train/extr_critic_mean": 3.3389777973906636, "train/extr_critic_min": -0.4122461782742853, "train/extr_critic_std": 2.783371435452814, "train/extr_return_normed_mag": 1.4110023959042275, "train/extr_return_normed_max": 1.4110023959042275, "train/extr_return_normed_mean": 0.39089998112965935, "train/extr_return_normed_min": -0.08201532479222506, "train/extr_return_normed_std": 0.32284337608781577, "train/extr_return_rate": 0.8306114877739997, "train/extr_return_raw_mag": 12.253664539284902, "train/extr_return_raw_max": 12.253664539284902, "train/extr_return_raw_mean": 3.356117555539902, "train/extr_return_raw_min": -0.7698473873203748, "train/extr_return_raw_std": 2.816459884382274, "train/extr_reward_mag": 1.0663705362032538, "train/extr_reward_max": 1.0663705362032538, "train/extr_reward_mean": 0.05762312280601018, "train/extr_reward_min": -0.6521980060289984, "train/extr_reward_std": 0.23169351481411554, "train/image_loss_mean": 3.180747923785693, "train/image_loss_std": 8.413247892301376, "train/model_loss_mean": 6.426877302666233, "train/model_loss_std": 12.536133139100793, "train/model_opt_grad_norm": 25.620926595713993, "train/model_opt_grad_steps": 377226.0, "train/model_opt_loss": 16067.19317208904, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7205287169103753, "train/policy_entropy_max": 2.7205287169103753, "train/policy_entropy_mean": 0.3981658493819302, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6069980720951133, "train/policy_logprob_mag": 7.438384245519769, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3970381835960362, "train/policy_logprob_min": -7.438384245519769, "train/policy_logprob_std": 1.0255668628705692, "train/policy_randomness_mag": 0.9602272477868485, "train/policy_randomness_max": 0.9602272477868485, "train/policy_randomness_mean": 0.14053507281901084, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21424368166760221, "train/post_ent_mag": 55.07766300358185, "train/post_ent_max": 55.07766300358185, "train/post_ent_mean": 40.66998468686457, "train/post_ent_min": 19.36906020282066, "train/post_ent_std": 5.691139070955042, "train/prior_ent_mag": 76.78402406875401, "train/prior_ent_max": 76.78402406875401, "train/prior_ent_mean": 46.02318902211646, "train/prior_ent_min": 28.38367415127689, "train/prior_ent_std": 7.6704494006013215, "train/rep_loss_mean": 5.3191200151835405, "train/rep_loss_std": 8.79858478781295, "train/reward_avg": 0.038828392602401236, "train/reward_loss_mean": 0.05460201658002318, "train/reward_loss_std": 0.20849155093709085, "train/reward_max_data": 1.026027403465689, "train/reward_max_pred": 1.0243608918908524, "train/reward_neg_acc": 0.9938196098967774, "train/reward_neg_loss": 0.024083349305166774, "train/reward_pos_acc": 0.9914925474010102, "train/reward_pos_loss": 0.7247751126550648, "train/reward_pred": 0.03859831191191118, "train/reward_rate": 0.04369113869863014, "replay/size": 756816.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.4795243324005043e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3384008341548847e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0783140659332, "timer/env.step_count": 1444.0, "timer/env.step_total": 19.818418979644775, "timer/env.step_frac": 0.06604415597753016, "timer/env.step_avg": 0.01372466688341051, "timer/env.step_min": 0.002946615219116211, "timer/env.step_max": 1.6707191467285156, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.271481990814209, "timer/replay.add_frac": 0.0009047037992707429, "timer/replay.add_avg": 0.0001880069188464051, "timer/replay.add_min": 6.437301635742188e-05, "timer/replay.add_max": 0.0008993148803710938, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022418498992919922, "timer/logger.write_frac": 7.470882746959891e-05, "timer/logger.write_avg": 0.022418498992919922, "timer/logger.write_min": 0.022418498992919922, "timer/logger.write_max": 0.022418498992919922, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.588614463806152, "timer/agent.policy_frac": 0.03528617020115496, "timer/agent.policy_avg": 0.007332835501250798, "timer/agent.policy_min": 0.005942821502685547, "timer/agent.policy_max": 0.010350465774536133, "timer/dataset_count": 722.0, "timer/dataset_total": 0.058571815490722656, "timer/dataset_frac": 0.00019518843163672685, "timer/dataset_avg": 8.112439818659648e-05, "timer/dataset_min": 6.031990051269531e-05, "timer/dataset_max": 0.000141143798828125, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.63260793685913, "timer/agent.train_frac": 0.8952083351075985, "timer/agent.train_avg": 0.3720673240122703, "timer/agent.train_min": 0.3651123046875, "timer/agent.train_max": 0.38457202911376953, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2229626178741455, "timer/agent.report_frac": 0.0007430147645562823, "timer/agent.report_avg": 0.2229626178741455, "timer/agent.report_min": 0.2229626178741455, "timer/agent.report_max": 0.2229626178741455, "fps": 4.811990138902301}
{"step": 756921, "episode/length": 163.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.07926829268292683}
{"step": 757112, "episode/length": 190.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.04712041884816754}
{"step": 757314, "episode/length": 201.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06435643564356436}
{"step": 757552, "episode/length": 237.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.05042016806722689}
{"step": 757729, "episode/length": 176.0, "episode/score": 13.099999994039536, "episode/sum_abs_reward": 14.300000011920929, "episode/reward_rate": 0.07909604519774012}
{"step": 757978, "episode/length": 248.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.05220883534136546}
{"step": 758287, "episode/length": 308.0, "episode/score": 14.099999964237213, "episode/sum_abs_reward": 16.299999997019768, "episode/reward_rate": 0.04854368932038835}
{"step": 758323, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.378765530056423, "train/action_min": 0.0, "train/action_std": 3.228453665971756, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.039212670280701585, "train/actor_opt_grad_steps": 378255.0, "train/actor_opt_loss": -12.812517083353466, "train/adv_mag": 0.3962658950024181, "train/adv_max": 0.3372182200352351, "train/adv_mean": 0.0017203140555466234, "train/adv_min": -0.3491222688721286, "train/adv_std": 0.04456819531818231, "train/cont_avg": 0.99462890625, "train/cont_loss_mean": 1.2095318985593116e-05, "train/cont_loss_std": 0.0003773044306135552, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 2.7431324813025843e-05, "train/cont_pos_acc": 0.999999974336889, "train/cont_pos_loss": 1.2000563386374255e-05, "train/cont_pred": 0.9946191277768877, "train/cont_rate": 0.99462890625, "train/dyn_loss_mean": 5.381978193918864, "train/dyn_loss_std": 8.83179337448544, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.973350428044796, "train/extr_critic_critic_opt_grad_steps": 378255.0, "train/extr_critic_critic_opt_loss": 15628.543294270834, "train/extr_critic_mag": 11.619284431139628, "train/extr_critic_max": 11.619284431139628, "train/extr_critic_mean": 3.3219832248157926, "train/extr_critic_min": -0.4258873727586534, "train/extr_critic_std": 2.824219995074802, "train/extr_return_normed_mag": 1.417177105943362, "train/extr_return_normed_max": 1.417177105943362, "train/extr_return_normed_mean": 0.3867539477845033, "train/extr_return_normed_min": -0.07746908053134878, "train/extr_return_normed_std": 0.3231268525123596, "train/extr_return_rate": 0.8230830853184065, "train/extr_return_raw_mag": 12.430788291825188, "train/extr_return_raw_max": 12.430788291825188, "train/extr_return_raw_mean": 3.3371544082959494, "train/extr_return_raw_min": -0.7594883980022537, "train/extr_return_raw_std": 2.8514950341648526, "train/extr_reward_mag": 1.0640746619966295, "train/extr_reward_max": 1.0640746619966295, "train/extr_reward_mean": 0.05806354686824812, "train/extr_reward_min": -0.6296258568763733, "train/extr_reward_std": 0.23206925474935108, "train/image_loss_mean": 3.283407380183538, "train/image_loss_std": 8.404882589975992, "train/model_loss_mean": 6.568881524933709, "train/model_loss_std": 12.574441817071703, "train/model_opt_grad_norm": 23.962818516625298, "train/model_opt_grad_steps": 377950.40277777775, "train/model_opt_loss": 18902.272650824652, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2881.9444444444443, "train/policy_entropy_mag": 2.7081087827682495, "train/policy_entropy_max": 2.7081087827682495, "train/policy_entropy_mean": 0.40158519107434487, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6099922561811076, "train/policy_logprob_mag": 7.438384301132626, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4016701740523179, "train/policy_logprob_min": -7.438384301132626, "train/policy_logprob_std": 1.0328170541259978, "train/policy_randomness_mag": 0.9558435570862558, "train/policy_randomness_max": 0.9558435570862558, "train/policy_randomness_mean": 0.1417419495474961, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2153004959432615, "train/post_ent_mag": 54.98453262117174, "train/post_ent_max": 54.98453262117174, "train/post_ent_mean": 40.78808577855428, "train/post_ent_min": 19.281852947341072, "train/post_ent_std": 5.782028959857093, "train/prior_ent_mag": 76.74252616034613, "train/prior_ent_max": 76.74252616034613, "train/prior_ent_mean": 46.18816317452325, "train/prior_ent_min": 28.3336251311832, "train/prior_ent_std": 7.690729598204295, "train/rep_loss_mean": 5.381978193918864, "train/rep_loss_std": 8.83179337448544, "train/reward_avg": 0.040730794012132615, "train/reward_loss_mean": 0.05627516367369228, "train/reward_loss_std": 0.20956244464549753, "train/reward_max_data": 1.0305555628405676, "train/reward_max_pred": 1.0298343400160472, "train/reward_neg_acc": 0.9934655220972167, "train/reward_neg_loss": 0.024829720780770812, "train/reward_pos_acc": 0.9918356637159983, "train/reward_pos_loss": 0.7146677888102002, "train/reward_pred": 0.040673449583765536, "train/reward_rate": 0.04554578993055555, "stats/sum_log_reward": 11.814285959516253, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 3.7142857142857144, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 17.0, "stats/max_log_achievement_collect_wood": 10.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.142857142857143, "stats/max_log_achievement_eat_cow": 0.42857142857142855, "stats/max_log_achievement_make_stone_pickaxe": 0.7142857142857143, "stats/max_log_achievement_make_stone_sword": 0.2857142857142857, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.2857142857142856, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 2.5714285714285716, "stats/max_log_achievement_place_table": 2.2857142857142856, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.2588089087179729, "replay/size": 758260.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.4668108763126785e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3594729748459073e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0523774623871, "timer/env.step_count": 1444.0, "timer/env.step_total": 19.91848850250244, "timer/env.step_frac": 0.06638337169982703, "timer/env.step_avg": 0.01379396710699615, "timer/env.step_min": 0.0027468204498291016, "timer/env.step_max": 1.6983585357666016, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.2472233772277832, "timer/replay.add_frac": 0.0008239340721730284, "timer/replay.add_avg": 0.00017120732494998837, "timer/replay.add_min": 6.198883056640625e-05, "timer/replay.add_max": 0.0010838508605957031, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029290437698364258, "timer/logger.write_frac": 9.761774909460915e-05, "timer/logger.write_avg": 0.029290437698364258, "timer/logger.write_min": 0.029290437698364258, "timer/logger.write_max": 0.029290437698364258, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.596946477890015, "timer/agent.policy_frac": 0.035316988878777975, "timer/agent.policy_avg": 0.007338605594106659, "timer/agent.policy_min": 0.0059278011322021484, "timer/agent.policy_max": 0.015630483627319336, "timer/dataset_count": 722.0, "timer/dataset_total": 0.05840945243835449, "timer/dataset_frac": 0.00019466418807388512, "timer/dataset_avg": 8.089951861267936e-05, "timer/dataset_min": 6.222724914550781e-05, "timer/dataset_max": 0.0001373291015625, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.534636259079, "timer/agent.train_frac": 0.89495920189048, "timer/agent.train_avg": 0.3719316291676994, "timer/agent.train_min": 0.36580443382263184, "timer/agent.train_max": 0.38391637802124023, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22288942337036133, "timer/agent.report_frac": 0.000742835051851244, "timer/agent.report_avg": 0.22288942337036133, "timer/agent.report_min": 0.22288942337036133, "timer/agent.report_max": 0.22288942337036133, "fps": 4.812396035873019}
{"step": 758470, "episode/length": 182.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.07103825136612021}
{"step": 758662, "episode/length": 191.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.057291666666666664}
{"step": 758876, "episode/length": 213.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.07009345794392523}
{"step": 758964, "episode/length": 87.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 13.299999982118607, "episode/reward_rate": 0.14772727272727273}
{"step": 759130, "episode/length": 165.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.07228915662650602}
{"step": 759362, "episode/length": 231.0, "episode/score": 13.100000031292439, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.06465517241379311}
{"step": 759559, "episode/length": 196.0, "episode/score": 12.099999964237213, "episode/sum_abs_reward": 14.299999997019768, "episode/reward_rate": 0.06598984771573604}
{"step": 759767, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.347923278808594, "train/action_min": 0.0, "train/action_std": 3.2298193673292794, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.039983289109336004, "train/actor_opt_grad_steps": 378975.0, "train/actor_opt_loss": -12.652181075678932, "train/adv_mag": 0.387156473679675, "train/adv_max": 0.3361864143775569, "train/adv_mean": 0.0019427797545764254, "train/adv_min": -0.34753674310114646, "train/adv_std": 0.045220480714407235, "train/cont_avg": 0.9947374131944444, "train/cont_loss_mean": 5.9651143282163984e-06, "train/cont_loss_std": 0.0001513732871016613, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0002000620668272606, "train/cont_pos_acc": 0.9999999759925736, "train/cont_pos_loss": 4.745819883053868e-06, "train/cont_pred": 0.994734063744545, "train/cont_rate": 0.9947374131944444, "train/dyn_loss_mean": 5.37570936150021, "train/dyn_loss_std": 8.821201297971937, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9609628733661439, "train/extr_critic_critic_opt_grad_steps": 378975.0, "train/extr_critic_critic_opt_loss": 15791.45709906684, "train/extr_critic_mag": 11.534427934222752, "train/extr_critic_max": 11.534427934222752, "train/extr_critic_mean": 3.321433597140842, "train/extr_critic_min": -0.4508167455593745, "train/extr_critic_std": 2.7683720091978707, "train/extr_return_normed_mag": 1.409929547044966, "train/extr_return_normed_max": 1.409929547044966, "train/extr_return_normed_mean": 0.3887816448178556, "train/extr_return_normed_min": -0.08281024876568052, "train/extr_return_normed_std": 0.31765470405419666, "train/extr_return_rate": 0.8399848548902406, "train/extr_return_raw_mag": 12.317912936210632, "train/extr_return_raw_max": 12.317912936210632, "train/extr_return_raw_mean": 3.3384670284059315, "train/extr_return_raw_min": -0.808163351068894, "train/extr_return_raw_std": 2.79303812318378, "train/extr_reward_mag": 1.0670409401257832, "train/extr_reward_max": 1.0670409401257832, "train/extr_reward_mean": 0.0574340029205713, "train/extr_reward_min": -0.6557054320971171, "train/extr_reward_std": 0.23110065505736405, "train/image_loss_mean": 3.2153745177719326, "train/image_loss_std": 8.322216815418667, "train/model_loss_mean": 6.496213475863139, "train/model_loss_std": 12.471091270446777, "train/model_opt_grad_norm": 24.756261587142944, "train/model_opt_grad_steps": 378669.80555555556, "train/model_opt_loss": 16445.962700737848, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2534.722222222222, "train/policy_entropy_mag": 2.6813167101807065, "train/policy_entropy_max": 2.6813167101807065, "train/policy_entropy_mean": 0.3890613404413064, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.588608173860444, "train/policy_logprob_mag": 7.438384281264411, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38922332641151214, "train/policy_logprob_min": -7.438384281264411, "train/policy_logprob_std": 1.0191708157459896, "train/policy_randomness_mag": 0.9463871311810281, "train/policy_randomness_max": 0.9463871311810281, "train/policy_randomness_mean": 0.13732158144315085, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2077528563224607, "train/post_ent_mag": 55.3283740679423, "train/post_ent_max": 55.3283740679423, "train/post_ent_mean": 40.71803225411309, "train/post_ent_min": 19.375329388512505, "train/post_ent_std": 5.758855217032963, "train/prior_ent_mag": 76.81627485487196, "train/prior_ent_max": 76.81627485487196, "train/prior_ent_mean": 46.099399142795136, "train/prior_ent_min": 28.336063385009766, "train/prior_ent_std": 7.6034716500176325, "train/rep_loss_mean": 5.37570936150021, "train/rep_loss_std": 8.821201297971937, "train/reward_avg": 0.03938123842494355, "train/reward_loss_mean": 0.05540743972071343, "train/reward_loss_std": 0.21176559747093254, "train/reward_max_data": 1.0263888951804903, "train/reward_max_pred": 1.025683903031879, "train/reward_neg_acc": 0.9942844443851047, "train/reward_neg_loss": 0.024429106761494443, "train/reward_pos_acc": 0.9897212700711356, "train/reward_pos_loss": 0.7250143041213354, "train/reward_pred": 0.03910396416257653, "train/reward_rate": 0.04421657986111111, "stats/sum_log_reward": 11.957142966134208, "stats/max_log_achievement_collect_coal": 1.1428571428571428, "stats/max_log_achievement_collect_drink": 2.142857142857143, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.2857142857142856, "stats/max_log_achievement_collect_stone": 13.285714285714286, "stats/max_log_achievement_collect_wood": 10.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.2857142857142858, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.42857142857142855, "stats/max_log_achievement_make_stone_sword": 0.42857142857142855, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 2.142857142857143, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 2.7142857142857144, "stats/max_log_achievement_place_table": 2.4285714285714284, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.2635290324687958, "replay/size": 759704.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.448813906006536e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3388755248854365e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.19710636138916, "timer/env.step_count": 1444.0, "timer/env.step_total": 19.884856700897217, "timer/env.step_frac": 0.06623933502196733, "timer/env.step_avg": 0.013770676385662893, "timer/env.step_min": 0.002982616424560547, "timer/env.step_max": 1.6749258041381836, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.254072904586792, "timer/replay.add_frac": 0.0008463536096877929, "timer/replay.add_avg": 0.00017595076494930192, "timer/replay.add_min": 5.841255187988281e-05, "timer/replay.add_max": 0.0010635852813720703, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028493881225585938, "timer/logger.write_frac": 9.491724144497207e-05, "timer/logger.write_avg": 0.028493881225585938, "timer/logger.write_min": 0.028493881225585938, "timer/logger.write_max": 0.028493881225585938, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.610445022583008, "timer/agent.policy_frac": 0.03534492770829621, "timer/agent.policy_avg": 0.007347953616747236, "timer/agent.policy_min": 0.0058135986328125, "timer/agent.policy_max": 0.01726555824279785, "timer/dataset_count": 722.0, "timer/dataset_total": 0.05808258056640625, "timer/dataset_frac": 0.00019348148045266012, "timer/dataset_avg": 8.04467874880973e-05, "timer/dataset_min": 6.151199340820312e-05, "timer/dataset_max": 0.00013899803161621094, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.69924211502075, "timer/agent.train_frac": 0.8950760564345679, "timer/agent.train_avg": 0.37215961511775725, "timer/agent.train_min": 0.3642873764038086, "timer/agent.train_max": 0.38610219955444336, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22219014167785645, "timer/agent.report_frac": 0.000740147512982271, "timer/agent.report_avg": 0.22219014167785645, "timer/agent.report_min": 0.22219014167785645, "timer/agent.report_max": 0.22219014167785645, "fps": 4.810095687768806}
{"step": 759789, "episode/length": 229.0, "episode/score": 14.099999964237213, "episode/sum_abs_reward": 16.099999994039536, "episode/reward_rate": 0.06521739130434782}
{"step": 759850, "episode/length": 60.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.11475409836065574}
{"step": 760110, "episode/length": 259.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.500000044703484, "episode/reward_rate": 0.046153846153846156}
{"step": 760377, "episode/length": 266.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.04868913857677903}
{"step": 760617, "episode/length": 239.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.05416666666666667}
{"step": 760833, "episode/length": 215.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.30000001937151, "episode/reward_rate": 0.07407407407407407}
{"step": 760949, "episode/length": 115.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.08620689655172414}
{"step": 761184, "episode/length": 234.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.05531914893617021}
{"step": 761185, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.443675726232394, "train/action_min": 0.0, "train/action_std": 3.2684348771269893, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.039846691683354515, "train/actor_opt_grad_steps": 379690.0, "train/actor_opt_loss": -10.87476465315886, "train/adv_mag": 0.3801764186838983, "train/adv_max": 0.33900544760932383, "train/adv_mean": 0.002263154171801098, "train/adv_min": -0.3347891883950838, "train/adv_std": 0.04510047271008223, "train/cont_avg": 0.9948696082746479, "train/cont_loss_mean": 4.7225860565507465e-06, "train/cont_loss_std": 0.0001445734707552149, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 2.269675605930388e-05, "train/cont_pos_acc": 0.9999999823704572, "train/cont_pos_loss": 4.612249913999593e-06, "train/cont_pred": 0.9948655249367298, "train/cont_rate": 0.9948696082746479, "train/dyn_loss_mean": 5.456684938618834, "train/dyn_loss_std": 8.785289858428525, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9652255899469617, "train/extr_critic_critic_opt_grad_steps": 379690.0, "train/extr_critic_critic_opt_loss": 15736.122482944542, "train/extr_critic_mag": 11.404003425383232, "train/extr_critic_max": 11.404003425383232, "train/extr_critic_mean": 3.335369778351045, "train/extr_critic_min": -0.4323036183773632, "train/extr_critic_std": 2.7435946397378412, "train/extr_return_normed_mag": 1.4035232117478276, "train/extr_return_normed_max": 1.4035232117478276, "train/extr_return_normed_mean": 0.3897133448594053, "train/extr_return_normed_min": -0.08358006449547452, "train/extr_return_normed_std": 0.31496990650472506, "train/extr_return_rate": 0.831562725590988, "train/extr_return_raw_mag": 12.283335645433883, "train/extr_return_raw_max": 12.283335645433883, "train/extr_return_raw_mean": 3.355294684289207, "train/extr_return_raw_min": -0.8120358309275667, "train/extr_return_raw_std": 2.773667741829241, "train/extr_reward_mag": 1.0623014208296655, "train/extr_reward_max": 1.0623014208296655, "train/extr_reward_mean": 0.0581035944042911, "train/extr_reward_min": -0.6281431141033978, "train/extr_reward_std": 0.23134450194701342, "train/image_loss_mean": 3.1226569632409324, "train/image_loss_std": 7.931947325316953, "train/model_loss_mean": 6.452704993771835, "train/model_loss_std": 12.08960534485293, "train/model_opt_grad_norm": 26.917164883143464, "train/model_opt_grad_steps": 379383.6056338028, "train/model_opt_loss": 12919.0165946853, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2007.0422535211267, "train/policy_entropy_mag": 2.6995759077475103, "train/policy_entropy_max": 2.6995759077475103, "train/policy_entropy_mean": 0.41034465566487377, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6106992267387014, "train/policy_logprob_mag": 7.43838429115188, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4106436627851406, "train/policy_logprob_min": -7.43838429115188, "train/policy_logprob_std": 1.036592532211626, "train/policy_randomness_mag": 0.9528318274189049, "train/policy_randomness_max": 0.9528318274189049, "train/policy_randomness_mean": 0.14483365636896078, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21555002957162722, "train/post_ent_mag": 55.437887863374094, "train/post_ent_max": 55.437887863374094, "train/post_ent_mean": 40.61968462232133, "train/post_ent_min": 19.483090521584096, "train/post_ent_std": 5.69672321265852, "train/prior_ent_mag": 76.84428867823641, "train/prior_ent_max": 76.84428867823641, "train/prior_ent_mean": 46.10407488111039, "train/prior_ent_min": 28.437565655775472, "train/prior_ent_std": 7.6349333507913935, "train/rep_loss_mean": 5.456684938618834, "train/rep_loss_std": 8.785289858428525, "train/reward_avg": 0.039715833961963654, "train/reward_loss_mean": 0.05603242298247109, "train/reward_loss_std": 0.2155978952495145, "train/reward_max_data": 1.0197183145603663, "train/reward_max_pred": 1.0206384927454129, "train/reward_neg_acc": 0.9935489322098208, "train/reward_neg_loss": 0.024654526552054246, "train/reward_pos_acc": 0.9884427231802068, "train/reward_pos_loss": 0.7299170771115263, "train/reward_pred": 0.0394907364175773, "train/reward_rate": 0.04449548855633803, "stats/sum_log_reward": 11.475000262260437, "stats/max_log_achievement_collect_coal": 0.375, "stats/max_log_achievement_collect_drink": 1.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.625, "stats/max_log_achievement_collect_stone": 11.0, "stats/max_log_achievement_collect_wood": 9.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.875, "stats/max_log_achievement_make_stone_sword": 0.75, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.625, "stats/max_log_achievement_place_stone": 2.75, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3334836792200804, "replay/size": 761122.0, "replay/inserts": 1418.0, "replay/samples": 11344.0, "replay/insert_wait_avg": 3.4126811706801226e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3515710494414035e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 301.35421323776245, "timer/env.step_count": 1418.0, "timer/env.step_total": 23.378352880477905, "timer/env.step_frac": 0.07757765398167124, "timer/env.step_avg": 0.01648684970414521, "timer/env.step_min": 0.0031075477600097656, "timer/env.step_max": 1.787485122680664, "timer/replay.add_count": 1418.0, "timer/replay.add_total": 0.24413776397705078, "timer/replay.add_frac": 0.0008101355589292225, "timer/replay.add_avg": 0.0001721704964577227, "timer/replay.add_min": 6.246566772460938e-05, "timer/replay.add_max": 0.0009140968322753906, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02243804931640625, "timer/logger.write_frac": 7.445739376042198e-05, "timer/logger.write_avg": 0.02243804931640625, "timer/logger.write_min": 0.02243804931640625, "timer/logger.write_max": 0.02243804931640625, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00024962425231933594, "timer/checkpoint.save_frac": 8.283416702138071e-07, "timer/checkpoint.save_avg": 0.00024962425231933594, "timer/checkpoint.save_min": 0.00024962425231933594, "timer/checkpoint.save_max": 0.00024962425231933594, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4268653392791748, "timer/agent.save_frac": 0.004734844500592419, "timer/agent.save_avg": 1.4268653392791748, "timer/agent.save_min": 1.4268653392791748, "timer/agent.save_max": 1.4268653392791748, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.510185241699219e-05, "timer/replay.save_frac": 2.492145426144692e-07, "timer/replay.save_avg": 7.510185241699219e-05, "timer/replay.save_min": 7.510185241699219e-05, "timer/replay.save_max": 7.510185241699219e-05, "timer/agent.policy_count": 1418.0, "timer/agent.policy_total": 12.501700639724731, "timer/agent.policy_frac": 0.04148507002907286, "timer/agent.policy_avg": 0.008816432044939867, "timer/agent.policy_min": 0.0059566497802734375, "timer/agent.policy_max": 1.4185447692871094, "timer/dataset_count": 709.0, "timer/dataset_total": 0.05708479881286621, "timer/dataset_frac": 0.00018942757826261896, "timer/dataset_avg": 8.05145258291484e-05, "timer/dataset_min": 6.008148193359375e-05, "timer/dataset_max": 0.00019621849060058594, "timer/agent.train_count": 709.0, "timer/agent.train_total": 264.4856722354889, "timer/agent.train_frac": 0.8776571244644089, "timer/agent.train_avg": 0.37304044038855977, "timer/agent.train_min": 0.3656880855560303, "timer/agent.train_max": 0.903005838394165, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2216806411743164, "timer/agent.report_frac": 0.0007356148725865492, "timer/agent.report_avg": 0.2216806411743164, "timer/agent.report_min": 0.2216806411743164, "timer/agent.report_max": 0.2216806411743164, "fps": 4.705322120984907}
{"step": 761412, "episode/length": 227.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.06140350877192982}
{"step": 761671, "episode/length": 258.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.05405405405405406}
{"step": 761835, "episode/length": 163.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.07317073170731707}
{"step": 762026, "episode/length": 190.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.07329842931937172}
{"step": 762271, "episode/length": 244.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.04897959183673469}
{"step": 762484, "episode/length": 212.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.056338028169014086}
{"step": 762635, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.405515034993489, "train/action_min": 0.0, "train/action_std": 3.262102332380083, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.040947923022839755, "train/actor_opt_grad_steps": 380405.0, "train/actor_opt_loss": -11.882061778671211, "train/adv_mag": 0.4189652092754841, "train/adv_max": 0.3617780626648002, "train/adv_mean": 0.0026493957780328653, "train/adv_min": -0.36139618750247693, "train/adv_std": 0.046048661331749625, "train/cont_avg": 0.9948323567708334, "train/cont_loss_mean": 7.40685247318456e-06, "train/cont_loss_std": 0.00017797555413463014, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 9.369560253465654e-05, "train/cont_pos_acc": 0.9999999842709966, "train/cont_pos_loss": 6.732230153794205e-06, "train/cont_pred": 0.9948267307546403, "train/cont_rate": 0.9948323567708334, "train/dyn_loss_mean": 5.462104903327094, "train/dyn_loss_std": 8.849677165349325, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.000539530482557, "train/extr_critic_critic_opt_grad_steps": 380405.0, "train/extr_critic_critic_opt_loss": 15940.686930338541, "train/extr_critic_mag": 11.529366970062256, "train/extr_critic_max": 11.529366970062256, "train/extr_critic_mean": 3.325579242573844, "train/extr_critic_min": -0.45894521640406716, "train/extr_critic_std": 2.7529896332157984, "train/extr_return_normed_mag": 1.4211293194029067, "train/extr_return_normed_max": 1.4211293194029067, "train/extr_return_normed_mean": 0.39241286739706993, "train/extr_return_normed_min": -0.0823876157713433, "train/extr_return_normed_std": 0.3173713052852286, "train/extr_return_rate": 0.8307445819179217, "train/extr_return_raw_mag": 12.380496157540215, "train/extr_return_raw_max": 12.380496157540215, "train/extr_return_raw_mean": 3.348829252852334, "train/extr_return_raw_min": -0.8194193860722913, "train/extr_return_raw_std": 2.7864601214726767, "train/extr_reward_mag": 1.0658220847447712, "train/extr_reward_max": 1.0658220847447712, "train/extr_reward_mean": 0.058747289391855397, "train/extr_reward_min": -0.6203735404544406, "train/extr_reward_std": 0.23406956613891655, "train/image_loss_mean": 3.2620399246613183, "train/image_loss_std": 8.594904753896925, "train/model_loss_mean": 6.594937152332729, "train/model_loss_std": 12.759770764244927, "train/model_opt_grad_norm": 25.484768364164566, "train/model_opt_grad_steps": 380098.0, "train/model_opt_loss": 8243.671481662326, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.6956790354516773, "train/policy_entropy_max": 2.6956790354516773, "train/policy_entropy_mean": 0.385439892195993, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5870047840807173, "train/policy_logprob_mag": 7.438384234905243, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3851196676906612, "train/policy_logprob_min": -7.438384234905243, "train/policy_logprob_std": 1.015508397585816, "train/policy_randomness_mag": 0.9514564043945737, "train/policy_randomness_max": 0.9514564043945737, "train/policy_randomness_mean": 0.13604336914916834, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2071869287432896, "train/post_ent_mag": 55.715146488613556, "train/post_ent_max": 55.715146488613556, "train/post_ent_mean": 40.522540940178764, "train/post_ent_min": 19.884385294384426, "train/post_ent_std": 5.751903242535061, "train/prior_ent_mag": 76.7093915939331, "train/prior_ent_max": 76.7093915939331, "train/prior_ent_mean": 46.008608129289414, "train/prior_ent_min": 28.146073473824394, "train/prior_ent_std": 7.695494095484416, "train/rep_loss_mean": 5.462104903327094, "train/rep_loss_std": 8.849677165349325, "train/reward_avg": 0.04059787324836685, "train/reward_loss_mean": 0.055626887258970074, "train/reward_loss_std": 0.21421139935652414, "train/reward_max_data": 1.0208333383003871, "train/reward_max_pred": 1.0187640090783436, "train/reward_neg_acc": 0.9943359187907643, "train/reward_neg_loss": 0.023949335975986388, "train/reward_pos_acc": 0.9899642103248172, "train/reward_pos_loss": 0.7227876592013571, "train/reward_pred": 0.04031526325787935, "train/reward_rate": 0.045369466145833336, "stats/sum_log_reward": 12.100000381469727, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 2.6666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 3.5, "stats/max_log_achievement_collect_stone": 12.333333333333334, "stats/max_log_achievement_collect_wood": 13.166666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 3.3333333333333335, "stats/max_log_achievement_place_stone": 3.8333333333333335, "stats/max_log_achievement_place_table": 3.5, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.3153633822997411, "replay/size": 762572.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.5236621725148167e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3446807861328124e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.00048899650574, "timer/env.step_count": 1450.0, "timer/env.step_total": 18.37471842765808, "timer/env.step_frac": 0.06124896159043294, "timer/env.step_avg": 0.012672219605281435, "timer/env.step_min": 0.0030159950256347656, "timer/env.step_max": 1.6506612300872803, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.26650094985961914, "timer/replay.add_frac": 0.0008883350515562767, "timer/replay.add_avg": 0.00018379375852387527, "timer/replay.add_min": 6.270408630371094e-05, "timer/replay.add_max": 0.00267791748046875, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02371978759765625, "timer/logger.write_frac": 7.906582978247254e-05, "timer/logger.write_avg": 0.02371978759765625, "timer/logger.write_min": 0.02371978759765625, "timer/logger.write_max": 0.02371978759765625, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 10.876252889633179, "timer/agent.policy_frac": 0.03625411720498849, "timer/agent.policy_avg": 0.007500864061815985, "timer/agent.policy_min": 0.0059773921966552734, "timer/agent.policy_max": 0.02752208709716797, "timer/dataset_count": 725.0, "timer/dataset_total": 0.05895829200744629, "timer/dataset_frac": 0.00019652731968757892, "timer/dataset_avg": 8.132178207923625e-05, "timer/dataset_min": 5.984306335449219e-05, "timer/dataset_max": 0.0001461505889892578, "timer/agent.train_count": 725.0, "timer/agent.train_total": 269.73426508903503, "timer/agent.train_frac": 0.8991127514201378, "timer/agent.train_avg": 0.3720472621917725, "timer/agent.train_min": 0.36582517623901367, "timer/agent.train_max": 0.3834972381591797, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22060751914978027, "timer/agent.report_frac": 0.0007353571985422657, "timer/agent.report_avg": 0.22060751914978027, "timer/agent.report_min": 0.22060751914978027, "timer/agent.report_max": 0.22060751914978027, "fps": 4.833220358946167}
{"step": 762669, "episode/length": 184.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06486486486486487}
{"step": 762724, "episode/length": 54.0, "episode/score": 7.100000016391277, "episode/sum_abs_reward": 8.30000003427267, "episode/reward_rate": 0.14545454545454545}
{"step": 762975, "episode/length": 250.0, "episode/score": 7.099999971687794, "episode/sum_abs_reward": 9.100000031292439, "episode/reward_rate": 0.035856573705179286}
{"step": 763156, "episode/length": 180.0, "episode/score": 13.099999964237213, "episode/sum_abs_reward": 14.899999991059303, "episode/reward_rate": 0.07734806629834254}
{"step": 763326, "episode/length": 169.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.058823529411764705}
{"step": 763538, "episode/length": 211.0, "episode/score": 14.100000016391277, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.07075471698113207}
{"step": 763599, "episode/length": 60.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 9.300000049173832, "episode/reward_rate": 0.13114754098360656}
{"step": 763786, "episode/length": 186.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.100000038743019, "episode/reward_rate": 0.0748663101604278}
{"step": 763991, "episode/length": 204.0, "episode/score": 15.100000016391277, "episode/sum_abs_reward": 16.700000040233135, "episode/reward_rate": 0.07804878048780488}
{"step": 764065, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.474622938368055, "train/action_min": 0.0, "train/action_std": 3.3322233623928494, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04037904607442518, "train/actor_opt_grad_steps": 381125.0, "train/actor_opt_loss": -12.63974411620034, "train/adv_mag": 0.4009996969252825, "train/adv_max": 0.3498064883881145, "train/adv_mean": 0.0015764617259416507, "train/adv_min": -0.3659659473018514, "train/adv_std": 0.04567069363676839, "train/cont_avg": 0.9945475260416666, "train/cont_loss_mean": 5.748631832089599e-05, "train/cont_loss_std": 0.0017871278080221487, "train/cont_neg_acc": 0.9953703706463178, "train/cont_neg_loss": 0.016985703749744136, "train/cont_pos_acc": 0.9999999875823656, "train/cont_pos_loss": 7.651759692035082e-06, "train/cont_pred": 0.9945536537302865, "train/cont_rate": 0.9945475260416666, "train/dyn_loss_mean": 5.322570436530643, "train/dyn_loss_std": 8.802659981780582, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9577345500389735, "train/extr_critic_critic_opt_grad_steps": 381125.0, "train/extr_critic_critic_opt_loss": 15759.848890516492, "train/extr_critic_mag": 11.642996788024902, "train/extr_critic_max": 11.642996788024902, "train/extr_critic_mean": 3.325447267956204, "train/extr_critic_min": -0.4730529404348797, "train/extr_critic_std": 2.8036094854275384, "train/extr_return_normed_mag": 1.4228269540601306, "train/extr_return_normed_max": 1.4228269540601306, "train/extr_return_normed_mean": 0.38781731244590545, "train/extr_return_normed_min": -0.08259597612130973, "train/extr_return_normed_std": 0.3206697814166546, "train/extr_return_rate": 0.8191361485256089, "train/extr_return_raw_mag": 12.475696696175469, "train/extr_return_raw_max": 12.475696696175469, "train/extr_return_raw_mean": 3.339345587624444, "train/extr_return_raw_min": -0.8119533227549659, "train/extr_return_raw_std": 2.830218416121271, "train/extr_reward_mag": 1.0659036835034688, "train/extr_reward_max": 1.0659036835034688, "train/extr_reward_mean": 0.05836328843401538, "train/extr_reward_min": -0.638718917965889, "train/extr_reward_std": 0.2339572064164612, "train/image_loss_mean": 3.1277301559845605, "train/image_loss_std": 8.194358792569902, "train/model_loss_mean": 6.377974947293599, "train/model_loss_std": 12.337354183197021, "train/model_opt_grad_norm": 25.42074375682407, "train/model_opt_grad_steps": 380818.0, "train/model_opt_loss": 15944.937377929688, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.716092632876502, "train/policy_entropy_max": 2.716092632876502, "train/policy_entropy_mean": 0.4050659998837445, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6147617975042926, "train/policy_logprob_mag": 7.4383842084142895, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40526407005058396, "train/policy_logprob_min": -7.4383842084142895, "train/policy_logprob_std": 1.035675114227666, "train/policy_randomness_mag": 0.9586615107125707, "train/policy_randomness_max": 0.9586615107125707, "train/policy_randomness_mean": 0.14297052214129102, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21698393817577097, "train/post_ent_mag": 55.548071967230904, "train/post_ent_max": 55.548071967230904, "train/post_ent_mean": 40.50638638602363, "train/post_ent_min": 19.47544370757209, "train/post_ent_std": 5.763274086846246, "train/prior_ent_mag": 76.73237980736627, "train/prior_ent_max": 76.73237980736627, "train/prior_ent_mean": 45.82502640618218, "train/prior_ent_min": 27.668739133410984, "train/prior_ent_std": 7.735113892290327, "train/rep_loss_mean": 5.322570436530643, "train/rep_loss_std": 8.802659981780582, "train/reward_avg": 0.040426974495251976, "train/reward_loss_mean": 0.05664502803443207, "train/reward_loss_std": 0.21571051039629513, "train/reward_max_data": 1.0236111167404387, "train/reward_max_pred": 1.0227856073114607, "train/reward_neg_acc": 0.9946061993638674, "train/reward_neg_loss": 0.024900398967373703, "train/reward_pos_acc": 0.988775771525171, "train/reward_pos_loss": 0.7263226931293806, "train/reward_pred": 0.04013877152465284, "train/reward_rate": 0.045355902777777776, "stats/sum_log_reward": 10.766666730244955, "stats/max_log_achievement_collect_coal": 0.5555555555555556, "stats/max_log_achievement_collect_drink": 1.6666666666666667, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5555555555555556, "stats/max_log_achievement_collect_stone": 10.555555555555555, "stats/max_log_achievement_collect_wood": 9.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.1111111111111112, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 0.1111111111111111, "stats/max_log_achievement_make_stone_sword": 0.5555555555555556, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8888888888888888, "stats/max_log_achievement_place_furnace": 1.5555555555555556, "stats/max_log_achievement_place_plant": 1.5555555555555556, "stats/max_log_achievement_place_stone": 2.888888888888889, "stats/max_log_achievement_place_table": 2.2222222222222223, "stats/max_log_achievement_wake_up": 0.7777777777777778, "stats/mean_log_entropy": 0.28046344717343646, "replay/size": 764002.0, "replay/inserts": 1430.0, "replay/samples": 11440.0, "replay/insert_wait_avg": 3.440396769063456e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.345397709132908e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.32001185417175, "timer/env.step_count": 1430.0, "timer/env.step_total": 22.77482795715332, "timer/env.step_frac": 0.07583519931469714, "timer/env.step_avg": 0.015926453116890435, "timer/env.step_min": 0.002768993377685547, "timer/env.step_max": 1.698728084564209, "timer/replay.add_count": 1430.0, "timer/replay.add_total": 0.2546045780181885, "timer/replay.add_frac": 0.0008477775971246911, "timer/replay.add_avg": 0.00017804515945327865, "timer/replay.add_min": 6.222724914550781e-05, "timer/replay.add_max": 0.0008525848388671875, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023435115814208984, "timer/logger.write_frac": 7.803381356280885e-05, "timer/logger.write_avg": 0.023435115814208984, "timer/logger.write_min": 0.023435115814208984, "timer/logger.write_max": 0.023435115814208984, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1430.0, "timer/agent.policy_total": 10.513755798339844, "timer/agent.policy_frac": 0.035008508868350316, "timer/agent.policy_avg": 0.007352276782055835, "timer/agent.policy_min": 0.005957365036010742, "timer/agent.policy_max": 0.020958662033081055, "timer/dataset_count": 715.0, "timer/dataset_total": 0.05780482292175293, "timer/dataset_frac": 0.00019247742621234835, "timer/dataset_avg": 8.084590618426984e-05, "timer/dataset_min": 6.0558319091796875e-05, "timer/dataset_max": 0.00016617774963378906, "timer/agent.train_count": 715.0, "timer/agent.train_total": 266.0283842086792, "timer/agent.train_frac": 0.885816374893646, "timer/agent.train_avg": 0.37206767022192894, "timer/agent.train_min": 0.3661017417907715, "timer/agent.train_max": 0.384458065032959, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22458338737487793, "timer/agent.report_frac": 0.0007478135938670989, "timer/agent.report_avg": 0.22458338737487793, "timer/agent.report_min": 0.22458338737487793, "timer/agent.report_max": 0.22458338737487793, "fps": 4.761483628911865}
{"step": 764267, "episode/length": 275.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 13.899999991059303, "episode/reward_rate": 0.050724637681159424}
{"step": 764449, "episode/length": 181.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.07142857142857142}
{"step": 764668, "episode/length": 218.0, "episode/score": 12.100000016391277, "episode/sum_abs_reward": 15.1000000461936, "episode/reward_rate": 0.0639269406392694}
{"step": 764869, "episode/length": 200.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.06965174129353234}
{"step": 765068, "episode/length": 198.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.06532663316582915}
{"step": 765425, "episode/length": 356.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.028011204481792718}
{"step": 765495, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.383158938985475, "train/action_min": 0.0, "train/action_std": 3.224060501850827, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.039974910377616614, "train/actor_opt_grad_steps": 381840.0, "train/actor_opt_loss": -12.035283348929713, "train/adv_mag": 0.3934302481127457, "train/adv_max": 0.34179363704063526, "train/adv_mean": 0.002174193487853315, "train/adv_min": -0.3473429264317096, "train/adv_std": 0.04496504954049285, "train/cont_avg": 0.9948971170774648, "train/cont_loss_mean": 1.1857604529812845e-05, "train/cont_loss_std": 0.0003079048206694859, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0009117672209640659, "train/cont_pos_acc": 0.9999999764939429, "train/cont_pos_loss": 6.671017966712972e-06, "train/cont_pred": 0.9948950107668487, "train/cont_rate": 0.9948971170774648, "train/dyn_loss_mean": 5.239329942515199, "train/dyn_loss_std": 8.79160891116505, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9907625006957793, "train/extr_critic_critic_opt_grad_steps": 381840.0, "train/extr_critic_critic_opt_loss": 15812.775473151409, "train/extr_critic_mag": 11.548827466830401, "train/extr_critic_max": 11.548827466830401, "train/extr_critic_mean": 3.3399124917849687, "train/extr_critic_min": -0.4117347472150561, "train/extr_critic_std": 2.7792494666408487, "train/extr_return_normed_mag": 1.4197958372008632, "train/extr_return_normed_max": 1.4197958372008632, "train/extr_return_normed_mean": 0.389951969746133, "train/extr_return_normed_min": -0.0749826696766934, "train/extr_return_normed_std": 0.3181906436950388, "train/extr_return_rate": 0.8297012985592157, "train/extr_return_raw_mag": 12.4605067750098, "train/extr_return_raw_max": 12.4605067750098, "train/extr_return_raw_mean": 3.3591280554381893, "train/extr_return_raw_min": -0.7498070249255274, "train/extr_return_raw_std": 2.812223966692535, "train/extr_reward_mag": 1.0733595230209996, "train/extr_reward_max": 1.0733595230209996, "train/extr_reward_mean": 0.06013571722826488, "train/extr_reward_min": -0.6413809447221352, "train/extr_reward_std": 0.23600067408152028, "train/image_loss_mean": 3.0104721633481306, "train/image_loss_std": 8.187620948737775, "train/model_loss_mean": 6.2105753321043204, "train/model_loss_std": 12.333761282370125, "train/model_opt_grad_norm": 25.64102206431644, "train/model_opt_grad_steps": 381532.3943661972, "train/model_opt_loss": 15526.438339018487, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7024188948349215, "train/policy_entropy_max": 2.7024188948349215, "train/policy_entropy_mean": 0.38918660434199054, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.593096373786389, "train/policy_logprob_mag": 7.43838429115188, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3894820679241503, "train/policy_logprob_min": -7.43838429115188, "train/policy_logprob_std": 1.0207974658885473, "train/policy_randomness_mag": 0.9538352749717067, "train/policy_randomness_max": 0.9538352749717067, "train/policy_randomness_mean": 0.13736579189418066, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2093369926155453, "train/post_ent_mag": 55.62801629724637, "train/post_ent_max": 55.62801629724637, "train/post_ent_mean": 40.610906950185, "train/post_ent_min": 19.48083649218922, "train/post_ent_std": 5.787018514015306, "train/prior_ent_mag": 76.80597987645109, "train/prior_ent_max": 76.80597987645109, "train/prior_ent_mean": 45.848012682417746, "train/prior_ent_min": 27.899242401123047, "train/prior_ent_std": 7.705656629213145, "train/rep_loss_mean": 5.239329942515199, "train/rep_loss_std": 8.79160891116505, "train/reward_avg": 0.04146676944752394, "train/reward_loss_mean": 0.05649337728678341, "train/reward_loss_std": 0.21565924899678834, "train/reward_max_data": 1.0295774718405495, "train/reward_max_pred": 1.0302279297734651, "train/reward_neg_acc": 0.9940346764846587, "train/reward_neg_loss": 0.024143010495938887, "train/reward_pos_acc": 0.9883553872645741, "train/reward_pos_loss": 0.7302954121374748, "train/reward_pred": 0.04105034837840309, "train/reward_rate": 0.0458709286971831, "stats/sum_log_reward": 11.766666889190674, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 2.6666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.8333333333333335, "stats/max_log_achievement_collect_stone": 15.166666666666666, "stats/max_log_achievement_collect_wood": 10.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.16666666666666666, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 2.5, "stats/max_log_achievement_place_stone": 3.1666666666666665, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.4430710996190707, "replay/size": 765432.0, "replay/inserts": 1430.0, "replay/samples": 11440.0, "replay/insert_wait_avg": 3.5994536393172258e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3717196204445578e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.26467061042786, "timer/env.step_count": 1430.0, "timer/env.step_total": 18.557573080062866, "timer/env.step_frac": 0.06180405121367077, "timer/env.step_avg": 0.012977323832211795, "timer/env.step_min": 0.002918720245361328, "timer/env.step_max": 1.616004467010498, "timer/replay.add_count": 1430.0, "timer/replay.add_total": 0.29767608642578125, "timer/replay.add_frac": 0.0009913789918095123, "timer/replay.add_avg": 0.00020816509540264424, "timer/replay.add_min": 6.4849853515625e-05, "timer/replay.add_max": 0.004055500030517578, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021287202835083008, "timer/logger.write_frac": 7.08947968863831e-05, "timer/logger.write_avg": 0.021287202835083008, "timer/logger.write_min": 0.021287202835083008, "timer/logger.write_max": 0.021287202835083008, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004210472106933594, "timer/checkpoint.save_frac": 1.4022535846038255e-06, "timer/checkpoint.save_avg": 0.0004210472106933594, "timer/checkpoint.save_min": 0.0004210472106933594, "timer/checkpoint.save_max": 0.0004210472106933594, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1878857612609863, "timer/agent.save_frac": 0.003956128967307592, "timer/agent.save_avg": 1.1878857612609863, "timer/agent.save_min": 1.1878857612609863, "timer/agent.save_max": 1.1878857612609863, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.794929504394531e-05, "timer/replay.save_frac": 2.2629800204535122e-07, "timer/replay.save_avg": 6.794929504394531e-05, "timer/replay.save_min": 6.794929504394531e-05, "timer/replay.save_max": 6.794929504394531e-05, "timer/agent.policy_count": 1430.0, "timer/agent.policy_total": 14.40364670753479, "timer/agent.policy_frac": 0.04796983500673811, "timer/agent.policy_avg": 0.010072480215059293, "timer/agent.policy_min": 0.005899667739868164, "timer/agent.policy_max": 2.5548853874206543, "timer/dataset_count": 715.0, "timer/dataset_total": 0.05874896049499512, "timer/dataset_frac": 0.00019565725256841067, "timer/dataset_avg": 8.216637831467848e-05, "timer/dataset_min": 5.936622619628906e-05, "timer/dataset_max": 0.0001690387725830078, "timer/agent.train_count": 715.0, "timer/agent.train_total": 266.25581312179565, "timer/agent.train_frac": 0.8867370662705893, "timer/agent.train_avg": 0.372385752617896, "timer/agent.train_min": 0.36345791816711426, "timer/agent.train_max": 0.38613128662109375, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22350144386291504, "timer/agent.report_frac": 0.00074434812263642, "timer/agent.report_avg": 0.22350144386291504, "timer/agent.report_min": 0.22350144386291504, "timer/agent.report_max": 0.22350144386291504, "fps": 4.76235752993488}
{"step": 765673, "episode/length": 247.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.04435483870967742}
{"step": 765831, "episode/length": 157.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 5.0999999940395355, "episode/reward_rate": 0.03164556962025317}
{"step": 766026, "episode/length": 194.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.05641025641025641}
{"step": 766241, "episode/length": 214.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.05581395348837209}
{"step": 766535, "episode/length": 293.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.047619047619047616}
{"step": 766709, "episode/length": 173.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06321839080459771}
{"step": 766935, "episode/length": 225.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.07079646017699115}
{"step": 766943, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.383522347228168, "train/action_min": 0.0, "train/action_std": 3.250398096972949, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.040286929640051435, "train/actor_opt_grad_steps": 382560.0, "train/actor_opt_loss": -12.608996481111605, "train/adv_mag": 0.4137967596315358, "train/adv_max": 0.33899119741296113, "train/adv_mean": 0.002118532627096164, "train/adv_min": -0.3688964578386855, "train/adv_std": 0.0454533638509169, "train/cont_avg": 0.995023544520548, "train/cont_loss_mean": 9.170354827995041e-05, "train/cont_loss_std": 0.00278487564852708, "train/cont_neg_acc": 0.9982876712328768, "train/cont_neg_loss": 0.010880272642149153, "train/cont_pos_acc": 0.9999999820369564, "train/cont_pos_loss": 1.3722993030927532e-05, "train/cont_pred": 0.9950300348948126, "train/cont_rate": 0.995023544520548, "train/dyn_loss_mean": 5.2951512402051115, "train/dyn_loss_std": 8.765245130617325, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9709546206748649, "train/extr_critic_critic_opt_grad_steps": 382560.0, "train/extr_critic_critic_opt_loss": 15753.245157320205, "train/extr_critic_mag": 11.563451022317965, "train/extr_critic_max": 11.563451022317965, "train/extr_critic_mean": 3.3699219030876684, "train/extr_critic_min": -0.44459422483836136, "train/extr_critic_std": 2.7388941588467115, "train/extr_return_normed_mag": 1.4187451894969156, "train/extr_return_normed_max": 1.4187451894969156, "train/extr_return_normed_mean": 0.39681960213674256, "train/extr_return_normed_min": -0.085636011643769, "train/extr_return_normed_std": 0.31666464450424664, "train/extr_return_rate": 0.844657936324812, "train/extr_return_raw_mag": 12.320738465818641, "train/extr_return_raw_max": 12.320738465818641, "train/extr_return_raw_mean": 3.38843260072682, "train/extr_return_raw_min": -0.8292950726535222, "train/extr_return_raw_std": 2.7680470943450928, "train/extr_reward_mag": 1.0638318943650755, "train/extr_reward_max": 1.0638318943650755, "train/extr_reward_mean": 0.059281223389792116, "train/extr_reward_min": -0.6509255611733215, "train/extr_reward_std": 0.23475162337904107, "train/image_loss_mean": 3.0612904159990078, "train/image_loss_std": 7.960564502298015, "train/model_loss_mean": 6.293707534058453, "train/model_loss_std": 12.070166189376621, "train/model_opt_grad_norm": 25.697375297546387, "train/model_opt_grad_steps": 382251.79452054796, "train/model_opt_loss": 15933.375494970034, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2534.246575342466, "train/policy_entropy_mag": 2.7059485226461333, "train/policy_entropy_max": 2.7059485226461333, "train/policy_entropy_mean": 0.38005471107077926, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5803086231016132, "train/policy_logprob_mag": 7.438384297775896, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3801466567467337, "train/policy_logprob_min": -7.438384297775896, "train/policy_logprob_std": 1.0127148669059962, "train/policy_randomness_mag": 0.9550810831866853, "train/policy_randomness_max": 0.9550810831866853, "train/policy_randomness_mean": 0.1341426374569331, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20482347905635834, "train/post_ent_mag": 55.322115231866704, "train/post_ent_max": 55.322115231866704, "train/post_ent_mean": 40.536115149929095, "train/post_ent_min": 19.695844807036934, "train/post_ent_std": 5.727156031621646, "train/prior_ent_mag": 76.76328497063624, "train/prior_ent_max": 76.76328497063624, "train/prior_ent_mean": 45.83679920353302, "train/prior_ent_min": 28.323083955947666, "train/prior_ent_std": 7.669511899556199, "train/rep_loss_mean": 5.2951512402051115, "train/rep_loss_std": 8.765245130617325, "train/reward_avg": 0.04088720000565869, "train/reward_loss_mean": 0.05523470957597641, "train/reward_loss_std": 0.21002900927034143, "train/reward_max_data": 1.0205479501044914, "train/reward_max_pred": 1.0213527777423597, "train/reward_neg_acc": 0.9936654265612772, "train/reward_neg_loss": 0.023271667592431586, "train/reward_pos_acc": 0.9905099901434493, "train/reward_pos_loss": 0.7259613234702855, "train/reward_pred": 0.040520609088548244, "train/reward_rate": 0.04552386558219178, "stats/sum_log_reward": 10.385714599064418, "stats/max_log_achievement_collect_coal": 0.42857142857142855, "stats/max_log_achievement_collect_drink": 3.5714285714285716, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 6.142857142857143, "stats/max_log_achievement_collect_wood": 10.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.2857142857142858, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.2857142857142857, "stats/max_log_achievement_make_stone_sword": 0.8571428571428571, "stats/max_log_achievement_make_wood_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.5714285714285714, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 2.0, "stats/max_log_achievement_place_table": 3.2857142857142856, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.3683147813592638, "replay/size": 766880.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.5556969721672942e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3892245556109517e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.09956765174866, "timer/env.step_count": 1448.0, "timer/env.step_total": 18.947999477386475, "timer/env.step_frac": 0.06313904290383628, "timer/env.step_avg": 0.01308563499819508, "timer/env.step_min": 0.002753734588623047, "timer/env.step_max": 1.672799825668335, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.2724795341491699, "timer/replay.add_frac": 0.0009079637677631363, "timer/replay.add_avg": 0.00018817647385992398, "timer/replay.add_min": 6.341934204101562e-05, "timer/replay.add_max": 0.0036008358001708984, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022751808166503906, "timer/logger.write_frac": 7.581419841599472e-05, "timer/logger.write_avg": 0.022751808166503906, "timer/logger.write_min": 0.022751808166503906, "timer/logger.write_max": 0.022751808166503906, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 10.873903274536133, "timer/agent.policy_frac": 0.03623431836181378, "timer/agent.policy_avg": 0.007509601708933793, "timer/agent.policy_min": 0.0058956146240234375, "timer/agent.policy_max": 0.019028902053833008, "timer/dataset_count": 724.0, "timer/dataset_total": 0.060831308364868164, "timer/dataset_frac": 0.00020270375209423833, "timer/dataset_avg": 8.402114415037039e-05, "timer/dataset_min": 5.936622619628906e-05, "timer/dataset_max": 0.00021028518676757812, "timer/agent.train_count": 724.0, "timer/agent.train_total": 269.2398898601532, "timer/agent.train_frac": 0.8971685363192303, "timer/agent.train_avg": 0.3718783009118138, "timer/agent.train_min": 0.3631706237792969, "timer/agent.train_max": 0.3896176815032959, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22382187843322754, "timer/agent.report_frac": 0.0007458253945002754, "timer/agent.report_avg": 0.22382187843322754, "timer/agent.report_min": 0.22382187843322754, "timer/agent.report_max": 0.22382187843322754, "fps": 4.824972580602789}
{"step": 767125, "episode/length": 189.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.07368421052631578}
{"step": 767326, "episode/length": 200.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.06467661691542288}
{"step": 767560, "episode/length": 233.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 17.30000003427267, "episode/reward_rate": 0.06837606837606838}
{"step": 767943, "episode/length": 382.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.0391644908616188}
{"step": 768002, "episode/length": 58.0, "episode/score": 4.099999971687794, "episode/sum_abs_reward": 5.900000028312206, "episode/reward_rate": 0.1016949152542373}
{"step": 768222, "episode/length": 219.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.05454545454545454}
{"step": 768399, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.354039858465326, "train/action_min": 0.0, "train/action_std": 3.2511949963765603, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04120609970533685, "train/actor_opt_grad_steps": 383290.0, "train/actor_opt_loss": -12.04126732480036, "train/adv_mag": 0.4109793795298224, "train/adv_max": 0.3444708144828065, "train/adv_mean": 0.002087206472200182, "train/adv_min": -0.37287633957928173, "train/adv_std": 0.04508441492711028, "train/cont_avg": 0.9946489726027398, "train/cont_loss_mean": 0.00023952827693270992, "train/cont_loss_std": 0.007591229986632841, "train/cont_neg_acc": 0.99041095906741, "train/cont_neg_loss": 0.05538900438693249, "train/cont_pos_acc": 0.9999999828534584, "train/cont_pos_loss": 1.6909513183765912e-05, "train/cont_pred": 0.9946732896648042, "train/cont_rate": 0.9946489726027398, "train/dyn_loss_mean": 5.341592814824352, "train/dyn_loss_std": 8.896223695310828, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.001558003360278, "train/extr_critic_critic_opt_grad_steps": 383290.0, "train/extr_critic_critic_opt_loss": 15819.596024186643, "train/extr_critic_mag": 11.494029789754789, "train/extr_critic_max": 11.494029789754789, "train/extr_critic_mean": 3.2937236420095783, "train/extr_critic_min": -0.4490178954111387, "train/extr_critic_std": 2.7246115926193863, "train/extr_return_normed_mag": 1.4240351507108506, "train/extr_return_normed_max": 1.4240351507108506, "train/extr_return_normed_mean": 0.3882015051498805, "train/extr_return_normed_min": -0.07961740888246935, "train/extr_return_normed_std": 0.3160295906948717, "train/extr_return_rate": 0.8305321090841946, "train/extr_return_raw_mag": 12.33292239986054, "train/extr_return_raw_max": 12.33292239986054, "train/extr_return_raw_mean": 3.3118742802371717, "train/extr_return_raw_min": -0.7628890578060934, "train/extr_return_raw_std": 2.7524675604415267, "train/extr_reward_mag": 1.0737802035188022, "train/extr_reward_max": 1.0737802035188022, "train/extr_reward_mean": 0.05692248947101913, "train/extr_reward_min": -0.603282240972127, "train/extr_reward_std": 0.2298462105123964, "train/image_loss_mean": 3.1870312184503633, "train/image_loss_std": 8.528410584959266, "train/model_loss_mean": 6.449964536379461, "train/model_loss_std": 12.686086288870197, "train/model_opt_grad_norm": 25.10913605885963, "train/model_opt_grad_steps": 382980.4931506849, "train/model_opt_loss": 11973.327255458047, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1866.4383561643835, "train/policy_entropy_mag": 2.6967745023230982, "train/policy_entropy_max": 2.6967745023230982, "train/policy_entropy_mean": 0.3862506326747267, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5795461123120295, "train/policy_logprob_mag": 7.43838429124388, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38682738293523655, "train/policy_logprob_min": -7.43838429124388, "train/policy_logprob_std": 1.0162376475660768, "train/policy_randomness_mag": 0.9518430543272463, "train/policy_randomness_max": 0.9518430543272463, "train/policy_randomness_mean": 0.13632952350459687, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2045543452035891, "train/post_ent_mag": 55.11641175779578, "train/post_ent_max": 55.11641175779578, "train/post_ent_mean": 40.6670152847081, "train/post_ent_min": 19.56586831236539, "train/post_ent_std": 5.710127353668213, "train/prior_ent_mag": 76.72154664340084, "train/prior_ent_max": 76.72154664340084, "train/prior_ent_mean": 45.98324924625763, "train/prior_ent_min": 27.958525095900445, "train/prior_ent_std": 7.626043104145625, "train/rep_loss_mean": 5.341592814824352, "train/rep_loss_std": 8.896223695310828, "train/reward_avg": 0.03973806669859037, "train/reward_loss_mean": 0.05773811021896258, "train/reward_loss_std": 0.22458723064971298, "train/reward_max_data": 1.0301369934865874, "train/reward_max_pred": 1.0308236389943999, "train/reward_neg_acc": 0.9935310940219931, "train/reward_neg_loss": 0.025737930841948073, "train/reward_pos_acc": 0.9845663088641755, "train/reward_pos_loss": 0.7444413002223185, "train/reward_pred": 0.0393002318499023, "train/reward_rate": 0.044426904965753425, "stats/sum_log_reward": 11.600000301996866, "stats/max_log_achievement_collect_coal": 1.8333333333333333, "stats/max_log_achievement_collect_drink": 2.8333333333333335, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 12.0, "stats/max_log_achievement_collect_wood": 13.5, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.1666666666666667, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 1.6666666666666667, "stats/max_log_achievement_make_stone_sword": 1.1666666666666667, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_stone": 4.0, "stats/max_log_achievement_place_table": 3.3333333333333335, "stats/max_log_achievement_wake_up": 0.6666666666666666, "stats/mean_log_entropy": 0.4057820240656535, "replay/size": 768336.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.3920610344016944e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3251185089677244e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.01352429389954, "timer/env.step_count": 1456.0, "timer/env.step_total": 17.461825847625732, "timer/env.step_frac": 0.05820346228965252, "timer/env.step_avg": 0.011993012257984706, "timer/env.step_min": 0.002808809280395508, "timer/env.step_max": 1.598060131072998, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.2707796096801758, "timer/replay.add_frac": 0.0009025580107345908, "timer/replay.add_avg": 0.0001859750066484724, "timer/replay.add_min": 7.081031799316406e-05, "timer/replay.add_max": 0.0026268959045410156, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02804088592529297, "timer/logger.write_frac": 9.346540623889852e-05, "timer/logger.write_avg": 0.02804088592529297, "timer/logger.write_min": 0.02804088592529297, "timer/logger.write_max": 0.02804088592529297, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 10.953856945037842, "timer/agent.policy_frac": 0.03651121052232037, "timer/agent.policy_avg": 0.007523253396317199, "timer/agent.policy_min": 0.005728006362915039, "timer/agent.policy_max": 0.02122640609741211, "timer/dataset_count": 728.0, "timer/dataset_total": 0.06044721603393555, "timer/dataset_frac": 0.00020148163712353242, "timer/dataset_avg": 8.303189015650487e-05, "timer/dataset_min": 6.079673767089844e-05, "timer/dataset_max": 0.00015592575073242188, "timer/agent.train_count": 728.0, "timer/agent.train_total": 270.5675354003906, "timer/agent.train_frac": 0.9018511283355913, "timer/agent.train_avg": 0.37165870247306404, "timer/agent.train_min": 0.3635377883911133, "timer/agent.train_max": 0.38535547256469727, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2205798625946045, "timer/agent.report_frac": 0.0007352330636218914, "timer/agent.report_avg": 0.2205798625946045, "timer/agent.report_min": 0.2205798625946045, "timer/agent.report_max": 0.2205798625946045, "fps": 4.853036413980857}
{"step": 768415, "episode/length": 192.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06217616580310881}
{"step": 768612, "episode/length": 196.0, "episode/score": 13.100000016391277, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.07106598984771574}
{"step": 768764, "episode/length": 151.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.06578947368421052}
{"step": 769023, "episode/length": 258.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.05791505791505792}
{"step": 769126, "episode/length": 102.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 9.899999976158142, "episode/reward_rate": 0.0970873786407767}
{"step": 769434, "episode/length": 307.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.03571428571428571}
{"step": 769476, "episode/length": 41.0, "episode/score": 4.100000001490116, "episode/sum_abs_reward": 5.500000022351742, "episode/reward_rate": 0.11904761904761904}
{"step": 769669, "episode/length": 192.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.07253886010362694}
{"step": 769819, "stats/sum_log_reward": 10.350000321865082, "stats/max_log_achievement_collect_coal": 0.625, "stats/max_log_achievement_collect_drink": 2.75, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.125, "stats/max_log_achievement_collect_stone": 10.5, "stats/max_log_achievement_collect_wood": 9.875, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.25, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.25, "stats/max_log_achievement_make_stone_sword": 0.625, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 1.125, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 2.875, "stats/max_log_achievement_wake_up": 1.125, "stats/mean_log_entropy": 0.3228639354929328, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.368323957416373, "train/action_min": 0.0, "train/action_std": 3.227274149236545, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04030966087126396, "train/actor_opt_grad_steps": 384010.0, "train/actor_opt_loss": -12.99557603580851, "train/adv_mag": 0.41337618105848073, "train/adv_max": 0.362555829991757, "train/adv_mean": 0.0018752892406859835, "train/adv_min": -0.3557845259636221, "train/adv_std": 0.04522575138950012, "train/cont_avg": 0.9949108714788732, "train/cont_loss_mean": 7.002298347012751e-05, "train/cont_loss_std": 0.0021189551735710343, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.001483340859483857, "train/cont_pos_acc": 0.9999861188337836, "train/cont_pos_loss": 6.607461215509547e-05, "train/cont_pred": 0.9948932503310728, "train/cont_rate": 0.9949108714788732, "train/dyn_loss_mean": 5.428162977729045, "train/dyn_loss_std": 8.951754751339765, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9737739252372527, "train/extr_critic_critic_opt_grad_steps": 384010.0, "train/extr_critic_critic_opt_loss": 15766.802555567781, "train/extr_critic_mag": 11.508143908540967, "train/extr_critic_max": 11.508143908540967, "train/extr_critic_mean": 3.352704729832394, "train/extr_critic_min": -0.4093158261876711, "train/extr_critic_std": 2.708742554758636, "train/extr_return_normed_mag": 1.4142860728250424, "train/extr_return_normed_max": 1.4142860728250424, "train/extr_return_normed_mean": 0.39288027563565214, "train/extr_return_normed_min": -0.0800095910442547, "train/extr_return_normed_std": 0.31408623616460346, "train/extr_return_rate": 0.8462909384512566, "train/extr_return_raw_mag": 12.268564519747882, "train/extr_return_raw_max": 12.268564519747882, "train/extr_return_raw_mean": 3.369060952898482, "train/extr_return_raw_min": -0.7509574159769945, "train/extr_return_raw_std": 2.7366449732176017, "train/extr_reward_mag": 1.0677636845011107, "train/extr_reward_max": 1.0677636845011107, "train/extr_reward_mean": 0.05725316488197152, "train/extr_reward_min": -0.6567061837290374, "train/extr_reward_std": 0.23055775043830065, "train/image_loss_mean": 3.1852255992486445, "train/image_loss_std": 8.697130505467804, "train/model_loss_mean": 6.498755743805791, "train/model_loss_std": 12.897445678710938, "train/model_opt_grad_norm": 24.557178551042583, "train/model_opt_grad_steps": 383700.0, "train/model_opt_loss": 8931.426427706867, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1390.8450704225352, "train/policy_entropy_mag": 2.7117232638345636, "train/policy_entropy_max": 2.7117232638345636, "train/policy_entropy_mean": 0.391669330672479, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6026179496671112, "train/policy_logprob_mag": 7.438384271003831, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3920422893174937, "train/policy_logprob_min": -7.438384271003831, "train/policy_logprob_std": 1.0246506946187623, "train/policy_randomness_mag": 0.9571193078873863, "train/policy_randomness_max": 0.9571193078873863, "train/policy_randomness_mean": 0.13824208647432462, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21269769064137634, "train/post_ent_mag": 55.3327085468131, "train/post_ent_max": 55.3327085468131, "train/post_ent_mean": 40.60520021680375, "train/post_ent_min": 19.443205403610015, "train/post_ent_std": 5.702920282390756, "train/prior_ent_mag": 76.76110431509959, "train/prior_ent_max": 76.76110431509959, "train/prior_ent_mean": 46.014294476576254, "train/prior_ent_min": 28.317819810249436, "train/prior_ent_std": 7.586616516113281, "train/rep_loss_mean": 5.428162977729045, "train/rep_loss_std": 8.951754751339765, "train/reward_avg": 0.04072265568333612, "train/reward_loss_mean": 0.05656234101510384, "train/reward_loss_std": 0.22471057613131026, "train/reward_max_data": 1.0239436676804448, "train/reward_max_pred": 1.0236898778190076, "train/reward_neg_acc": 0.9936209253861871, "train/reward_neg_loss": 0.02439315335064287, "train/reward_pos_acc": 0.9867891820383744, "train/reward_pos_loss": 0.7373188700474483, "train/reward_pred": 0.040298202875214566, "train/reward_rate": 0.04512819102112676, "replay/size": 769756.0, "replay/inserts": 1420.0, "replay/samples": 11360.0, "replay/insert_wait_avg": 3.443973165162852e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3470229968218737e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.23080611228943, "timer/env.step_count": 1420.0, "timer/env.step_total": 22.080303192138672, "timer/env.step_frac": 0.07354442896136518, "timer/env.step_avg": 0.015549509290238501, "timer/env.step_min": 0.0029315948486328125, "timer/env.step_max": 1.9751694202423096, "timer/replay.add_count": 1420.0, "timer/replay.add_total": 0.27658557891845703, "timer/replay.add_frac": 0.0009212431678813505, "timer/replay.add_avg": 0.00019477857670313875, "timer/replay.add_min": 6.031990051269531e-05, "timer/replay.add_max": 0.004690408706665039, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021845340728759766, "timer/logger.write_frac": 7.276182285101477e-05, "timer/logger.write_avg": 0.021845340728759766, "timer/logger.write_min": 0.021845340728759766, "timer/logger.write_max": 0.021845340728759766, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0005052089691162109, "timer/checkpoint.save_frac": 1.6827352784286153e-06, "timer/checkpoint.save_avg": 0.0005052089691162109, "timer/checkpoint.save_min": 0.0005052089691162109, "timer/checkpoint.save_max": 0.0005052089691162109, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2567164897918701, "timer/agent.save_frac": 0.004185834578620307, "timer/agent.save_avg": 1.2567164897918701, "timer/agent.save_min": 1.2567164897918701, "timer/agent.save_max": 1.2567164897918701, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.62939453125e-05, "timer/replay.save_frac": 2.541176446895502e-07, "timer/replay.save_avg": 7.62939453125e-05, "timer/replay.save_min": 7.62939453125e-05, "timer/replay.save_max": 7.62939453125e-05, "timer/agent.policy_count": 1420.0, "timer/agent.policy_total": 12.548531770706177, "timer/agent.policy_frac": 0.041796283110311125, "timer/agent.policy_avg": 0.00883699420472266, "timer/agent.policy_min": 0.005780696868896484, "timer/agent.policy_max": 1.254852533340454, "timer/dataset_count": 710.0, "timer/dataset_total": 0.05959296226501465, "timer/dataset_frac": 0.000198490498149368, "timer/dataset_avg": 8.393374966903472e-05, "timer/dataset_min": 6.365776062011719e-05, "timer/dataset_max": 0.0001850128173828125, "timer/agent.train_count": 710.0, "timer/agent.train_total": 264.5765702724457, "timer/agent.train_frac": 0.8812439126366376, "timer/agent.train_avg": 0.37264305672175446, "timer/agent.train_min": 0.36508798599243164, "timer/agent.train_max": 0.9269907474517822, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22191071510314941, "timer/agent.report_frac": 0.0007391337284027826, "timer/agent.report_avg": 0.22191071510314941, "timer/agent.report_min": 0.22191071510314941, "timer/agent.report_max": 0.22191071510314941, "fps": 4.72963375132957}
{"step": 769869, "episode/length": 199.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.07}
{"step": 770079, "episode/length": 209.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06190476190476191}
{"step": 770241, "episode/length": 161.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.900000005960464, "episode/reward_rate": 0.06790123456790123}
{"step": 770665, "episode/length": 423.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 16.500000037252903, "episode/reward_rate": 0.0330188679245283}
{"step": 770863, "episode/length": 197.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.05555555555555555}
{"step": 771047, "episode/length": 183.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.04891304347826087}
{"step": 771269, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.368694729275173, "train/action_min": 0.0, "train/action_std": 3.2386510769526162, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.040558691757420696, "train/actor_opt_grad_steps": 384725.0, "train/actor_opt_loss": -10.992559658777383, "train/adv_mag": 0.41596679637829465, "train/adv_max": 0.3473985306918621, "train/adv_mean": 0.0028063350516984225, "train/adv_min": -0.385630505780379, "train/adv_std": 0.046039057015958756, "train/cont_avg": 0.9945339626736112, "train/cont_loss_mean": 0.00020323715215534813, "train/cont_loss_std": 0.00628475921506006, "train/cont_neg_acc": 0.9942129635148578, "train/cont_neg_loss": 0.04212493470228335, "train/cont_pos_acc": 0.9999999784761004, "train/cont_pos_loss": 1.9748921051387924e-05, "train/cont_pred": 0.9945487562153075, "train/cont_rate": 0.9945339626736112, "train/dyn_loss_mean": 5.224348485469818, "train/dyn_loss_std": 8.746521042452919, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9577822147144212, "train/extr_critic_critic_opt_grad_steps": 384725.0, "train/extr_critic_critic_opt_loss": 15580.280327690973, "train/extr_critic_mag": 11.563750240537855, "train/extr_critic_max": 11.563750240537855, "train/extr_critic_mean": 3.432050367196401, "train/extr_critic_min": -0.43334072166019016, "train/extr_critic_std": 2.8106220265229545, "train/extr_return_normed_mag": 1.4125919557280011, "train/extr_return_normed_max": 1.4125919557280011, "train/extr_return_normed_mean": 0.4008931931522157, "train/extr_return_normed_min": -0.081698351746632, "train/extr_return_normed_std": 0.3249533221953445, "train/extr_return_rate": 0.8345712605449889, "train/extr_return_raw_mag": 12.3015280034807, "train/extr_return_raw_max": 12.3015280034807, "train/extr_return_raw_mean": 3.456599725617303, "train/extr_return_raw_min": -0.7623016941878531, "train/extr_return_raw_std": 2.841087814834383, "train/extr_reward_mag": 1.0747994118266635, "train/extr_reward_max": 1.0747994118266635, "train/extr_reward_mean": 0.06030944765855869, "train/extr_reward_min": -0.6338948789570067, "train/extr_reward_std": 0.23672974358002344, "train/image_loss_mean": 3.0798692405223846, "train/image_loss_std": 8.303902566432953, "train/model_loss_mean": 6.270283877849579, "train/model_loss_std": 12.410819490750631, "train/model_opt_grad_norm": 23.16378076871236, "train/model_opt_grad_steps": 384415.0, "train/model_opt_loss": 15675.709716796875, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7231691479682922, "train/policy_entropy_max": 2.7231691479682922, "train/policy_entropy_mean": 0.4074398631023036, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6121170185506344, "train/policy_logprob_mag": 7.43838428788715, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40796713448233074, "train/policy_logprob_min": -7.43838428788715, "train/policy_logprob_std": 1.0360743121968374, "train/policy_randomness_mag": 0.9611592027876112, "train/policy_randomness_max": 0.9611592027876112, "train/policy_randomness_mean": 0.14380839177303845, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21605044344647062, "train/post_ent_mag": 55.253587351904976, "train/post_ent_max": 55.253587351904976, "train/post_ent_mean": 40.63638920254178, "train/post_ent_min": 19.504734847280716, "train/post_ent_std": 5.74283852842119, "train/prior_ent_mag": 76.65530014038086, "train/prior_ent_max": 76.65530014038086, "train/prior_ent_mean": 45.90320422914293, "train/prior_ent_min": 27.842164834340412, "train/prior_ent_std": 7.686475773652394, "train/rep_loss_mean": 5.224348485469818, "train/rep_loss_std": 8.746521042452919, "train/reward_avg": 0.04121907533974283, "train/reward_loss_mean": 0.05560232398824559, "train/reward_loss_std": 0.20623871704770458, "train/reward_max_data": 1.0319444520605936, "train/reward_max_pred": 1.0309246016873255, "train/reward_neg_acc": 0.9937136578891013, "train/reward_neg_loss": 0.023690744975788727, "train/reward_pos_acc": 0.9917304921481345, "train/reward_pos_loss": 0.7181703141993947, "train/reward_pred": 0.04088840149860415, "train/reward_rate": 0.04599338107638889, "stats/sum_log_reward": 10.93333355585734, "stats/max_log_achievement_collect_coal": 1.1666666666666667, "stats/max_log_achievement_collect_drink": 2.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 0.8333333333333334, "stats/max_log_achievement_collect_stone": 17.5, "stats/max_log_achievement_collect_wood": 10.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.6666666666666666, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.3333333333333333, "stats/max_log_achievement_make_stone_sword": 0.5, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 1.8333333333333333, "stats/max_log_achievement_place_plant": 0.8333333333333334, "stats/max_log_achievement_place_stone": 3.3333333333333335, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.44916990647713345, "replay/size": 771206.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.5313902230098328e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3462839455440127e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1377604007721, "timer/env.step_count": 1450.0, "timer/env.step_total": 18.228086948394775, "timer/env.step_frac": 0.06073240142811395, "timer/env.step_avg": 0.01257109444716881, "timer/env.step_min": 0.0028290748596191406, "timer/env.step_max": 1.6700317859649658, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.27068042755126953, "timer/replay.add_frac": 0.000901853959294664, "timer/replay.add_avg": 0.00018667615693191003, "timer/replay.add_min": 6.318092346191406e-05, "timer/replay.add_max": 0.0034830570220947266, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02078557014465332, "timer/logger.write_frac": 6.925343254676945e-05, "timer/logger.write_avg": 0.02078557014465332, "timer/logger.write_min": 0.02078557014465332, "timer/logger.write_max": 0.02078557014465332, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 10.841926574707031, "timer/agent.policy_frac": 0.036123167442276755, "timer/agent.policy_avg": 0.007477190741177263, "timer/agent.policy_min": 0.00586700439453125, "timer/agent.policy_max": 0.02319788932800293, "timer/dataset_count": 725.0, "timer/dataset_total": 0.059731483459472656, "timer/dataset_frac": 0.00019901355757340756, "timer/dataset_avg": 8.238825304754849e-05, "timer/dataset_min": 5.841255187988281e-05, "timer/dataset_max": 0.00016570091247558594, "timer/agent.train_count": 725.0, "timer/agent.train_total": 270.0447292327881, "timer/agent.train_frac": 0.8997359374981643, "timer/agent.train_avg": 0.37247548859694907, "timer/agent.train_min": 0.36516308784484863, "timer/agent.train_max": 0.38838934898376465, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22427916526794434, "timer/agent.report_frac": 0.0007472540774891695, "timer/agent.report_avg": 0.22427916526794434, "timer/agent.report_min": 0.22427916526794434, "timer/agent.report_max": 0.22427916526794434, "fps": 4.8310101590520445}
{"step": 771282, "episode/length": 234.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.059574468085106386}
{"step": 771483, "episode/length": 200.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.30000003427267, "episode/reward_rate": 0.05970149253731343}
{"step": 771669, "episode/length": 185.0, "episode/score": 11.100000031292439, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.06989247311827956}
{"step": 771822, "episode/length": 152.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.06535947712418301}
{"step": 772027, "episode/length": 204.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.05365853658536585}
{"step": 772307, "episode/length": 279.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.04285714285714286}
{"step": 772456, "episode/length": 148.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.0738255033557047}
{"step": 772651, "episode/length": 194.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.05641025641025641}
{"step": 772705, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.3246654934353295, "train/action_min": 0.0, "train/action_std": 3.212112973133723, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03944184175795979, "train/actor_opt_grad_steps": 385445.0, "train/actor_opt_loss": -12.789482581946585, "train/adv_mag": 0.4097480836013953, "train/adv_max": 0.37040597200393677, "train/adv_mean": 0.001907566153325509, "train/adv_min": -0.3501162942912843, "train/adv_std": 0.04476736387651828, "train/cont_avg": 0.9951171875, "train/cont_loss_mean": 1.0451799310670947e-05, "train/cont_loss_std": 0.00024707613647478865, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 9.637256147243534e-05, "train/cont_pos_acc": 0.9999999842709966, "train/cont_pos_loss": 1.0038625536563157e-05, "train/cont_pred": 0.9951082244515419, "train/cont_rate": 0.9951171875, "train/dyn_loss_mean": 5.36435882250468, "train/dyn_loss_std": 8.848524431387583, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9594746819800801, "train/extr_critic_critic_opt_grad_steps": 385445.0, "train/extr_critic_critic_opt_loss": 15608.079074435764, "train/extr_critic_mag": 11.40432216061486, "train/extr_critic_max": 11.40432216061486, "train/extr_critic_mean": 3.394427571031782, "train/extr_critic_min": -0.44177379045221543, "train/extr_critic_std": 2.7220113939709134, "train/extr_return_normed_mag": 1.3949376857943006, "train/extr_return_normed_max": 1.3949376857943006, "train/extr_return_normed_mean": 0.39264507467548054, "train/extr_return_normed_min": -0.07996904948312375, "train/extr_return_normed_std": 0.3132838412291474, "train/extr_return_rate": 0.8436379184325536, "train/extr_return_raw_mag": 12.212729096412659, "train/extr_return_raw_max": 12.212729096412659, "train/extr_return_raw_mean": 3.4111790160338082, "train/extr_return_raw_min": -0.7400364528099695, "train/extr_return_raw_std": 2.7516369190480976, "train/extr_reward_mag": 1.0677061445183225, "train/extr_reward_max": 1.0677061445183225, "train/extr_reward_mean": 0.05790275050741103, "train/extr_reward_min": -0.59888466530376, "train/extr_reward_std": 0.23151276426182854, "train/image_loss_mean": 3.234777844614453, "train/image_loss_std": 8.350655105378893, "train/model_loss_mean": 6.506871680418651, "train/model_loss_std": 12.513390117221409, "train/model_opt_grad_norm": 25.380249089664883, "train/model_opt_grad_steps": 385134.2916666667, "train/model_opt_loss": 16267.179253472223, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7300478418668113, "train/policy_entropy_max": 2.7300478418668113, "train/policy_entropy_mean": 0.3862781595024798, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5864025780724155, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38512489861912197, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 1.014784752494759, "train/policy_randomness_mag": 0.9635870787832472, "train/policy_randomness_max": 0.9635870787832472, "train/policy_randomness_mean": 0.13633924091441763, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20697437578605282, "train/post_ent_mag": 55.450789822472466, "train/post_ent_max": 55.450789822472466, "train/post_ent_mean": 40.70433208677504, "train/post_ent_min": 19.25882091787126, "train/post_ent_std": 5.7529588672849865, "train/prior_ent_mag": 76.79453955756293, "train/prior_ent_max": 76.79453955756293, "train/prior_ent_mean": 46.03441990746392, "train/prior_ent_min": 28.168198320600723, "train/prior_ent_std": 7.697778065999349, "train/rep_loss_mean": 5.36435882250468, "train/rep_loss_std": 8.848524431387583, "train/reward_avg": 0.03826497376172079, "train/reward_loss_mean": 0.0534680989674396, "train/reward_loss_std": 0.2102814863125483, "train/reward_max_data": 1.027777784400516, "train/reward_max_pred": 1.0281164315011766, "train/reward_neg_acc": 0.9938441299729877, "train/reward_neg_loss": 0.023067976024726197, "train/reward_pos_acc": 0.9883343204855919, "train/reward_pos_loss": 0.7370684618751208, "train/reward_pred": 0.037911275789762534, "train/reward_rate": 0.04271104600694445, "stats/sum_log_reward": 10.725000023841858, "stats/max_log_achievement_collect_coal": 0.625, "stats/max_log_achievement_collect_drink": 1.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.625, "stats/max_log_achievement_collect_stone": 14.75, "stats/max_log_achievement_collect_wood": 10.875, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 0.875, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.125, "stats/max_log_achievement_make_stone_sword": 0.625, "stats/max_log_achievement_make_wood_pickaxe": 1.25, "stats/max_log_achievement_make_wood_sword": 0.75, "stats/max_log_achievement_place_furnace": 1.875, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 4.125, "stats/max_log_achievement_place_table": 2.75, "stats/max_log_achievement_wake_up": 1.125, "stats/mean_log_entropy": 0.3221157677471638, "replay/size": 772642.0, "replay/inserts": 1436.0, "replay/samples": 11488.0, "replay/insert_wait_avg": 3.457899545228581e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3422667150045836e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.19215726852417, "timer/env.step_count": 1436.0, "timer/env.step_total": 20.989083528518677, "timer/env.step_frac": 0.06991882705897537, "timer/env.step_avg": 0.01461635343211607, "timer/env.step_min": 0.0027468204498291016, "timer/env.step_max": 1.645106315612793, "timer/replay.add_count": 1436.0, "timer/replay.add_total": 0.26303911209106445, "timer/replay.add_frac": 0.0008762357900502176, "timer/replay.add_avg": 0.0001831748691441953, "timer/replay.add_min": 6.365776062011719e-05, "timer/replay.add_max": 0.00639653205871582, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023438215255737305, "timer/logger.write_frac": 7.807737373622204e-05, "timer/logger.write_avg": 0.023438215255737305, "timer/logger.write_min": 0.023438215255737305, "timer/logger.write_max": 0.023438215255737305, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1436.0, "timer/agent.policy_total": 10.726958274841309, "timer/agent.policy_frac": 0.03573363932104982, "timer/agent.policy_avg": 0.007470026653789212, "timer/agent.policy_min": 0.005664348602294922, "timer/agent.policy_max": 0.028859376907348633, "timer/dataset_count": 718.0, "timer/dataset_total": 0.05832934379577637, "timer/dataset_frac": 0.0001943066878446139, "timer/dataset_avg": 8.123864038408965e-05, "timer/dataset_min": 5.91278076171875e-05, "timer/dataset_max": 0.00014781951904296875, "timer/agent.train_count": 718.0, "timer/agent.train_total": 267.4541997909546, "timer/agent.train_frac": 0.8909433285151243, "timer/agent.train_avg": 0.37249888550272225, "timer/agent.train_min": 0.3651115894317627, "timer/agent.train_max": 0.38532543182373047, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22326397895812988, "timer/agent.report_frac": 0.0007437368817014714, "timer/agent.report_avg": 0.22326397895812988, "timer/agent.report_min": 0.22326397895812988, "timer/agent.report_max": 0.22326397895812988, "fps": 4.783507294437759}
{"step": 772895, "episode/length": 243.0, "episode/score": 14.100000023841858, "episode/sum_abs_reward": 16.90000006556511, "episode/reward_rate": 0.06147540983606557}
{"step": 773125, "episode/length": 229.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.05652173913043478}
{"step": 773366, "episode/length": 240.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.299999997019768, "episode/reward_rate": 0.06639004149377593}
{"step": 773547, "episode/length": 180.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.0718232044198895}
{"step": 773799, "episode/length": 251.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.051587301587301584}
{"step": 774145, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.444636874728733, "train/action_min": 0.0, "train/action_std": 3.331822236378988, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.039461854819415346, "train/actor_opt_grad_steps": 386165.0, "train/actor_opt_loss": -11.80575100911988, "train/adv_mag": 0.3891361591716607, "train/adv_max": 0.3318444627026717, "train/adv_mean": 0.0019644977838248045, "train/adv_min": -0.34181397532423335, "train/adv_std": 0.04400119837373495, "train/cont_avg": 0.9948323567708334, "train/cont_loss_mean": 4.415149902333345e-05, "train/cont_loss_std": 0.001211580095214357, "train/cont_neg_acc": 0.9971830987594497, "train/cont_neg_loss": 0.004877242518656639, "train/cont_pos_acc": 0.9999999834431542, "train/cont_pos_loss": 1.9559633424235142e-05, "train/cont_pred": 0.9948308062222269, "train/cont_rate": 0.9948323567708334, "train/dyn_loss_mean": 5.373066948519813, "train/dyn_loss_std": 8.821670525603825, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.947597367895974, "train/extr_critic_critic_opt_grad_steps": 386165.0, "train/extr_critic_critic_opt_loss": 15545.413696289062, "train/extr_critic_mag": 11.457666516304016, "train/extr_critic_max": 11.457666516304016, "train/extr_critic_mean": 3.3563491470283933, "train/extr_critic_min": -0.418943175011211, "train/extr_critic_std": 2.8033710486359067, "train/extr_return_normed_mag": 1.395292924510108, "train/extr_return_normed_max": 1.395292924510108, "train/extr_return_normed_mean": 0.38907086186938816, "train/extr_return_normed_min": -0.0819871363023089, "train/extr_return_normed_std": 0.323523811582062, "train/extr_return_rate": 0.8273817698160807, "train/extr_return_raw_mag": 12.178034636709425, "train/extr_return_raw_max": 12.178034636709425, "train/extr_return_raw_mean": 3.37354506055514, "train/extr_return_raw_min": -0.7476470515959792, "train/extr_return_raw_std": 2.8306918342908225, "train/extr_reward_mag": 1.066435883442561, "train/extr_reward_max": 1.066435883442561, "train/extr_reward_mean": 0.0565811648654441, "train/extr_reward_min": -0.6316375152932273, "train/extr_reward_std": 0.23001786900891197, "train/image_loss_mean": 3.2440400570631027, "train/image_loss_std": 7.95259608162774, "train/model_loss_mean": 6.522071229086982, "train/model_loss_std": 12.091115262773302, "train/model_opt_grad_norm": 24.41558796251324, "train/model_opt_grad_steps": 385853.7083333333, "train/model_opt_loss": 16923.495646158855, "train/model_opt_model_opt_grad_overflow": 0.013888888888888888, "train/model_opt_model_opt_grad_scale": 2569.4444444444443, "train/policy_entropy_mag": 2.7399653957949743, "train/policy_entropy_max": 2.7399653957949743, "train/policy_entropy_mean": 0.42110774252149796, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6328735926912891, "train/policy_logprob_mag": 7.4383842547734575, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4205234307381842, "train/policy_logprob_min": -7.4383842547734575, "train/policy_logprob_std": 1.0466408795780606, "train/policy_randomness_mag": 0.9670875469843546, "train/policy_randomness_max": 0.9670875469843546, "train/policy_randomness_mean": 0.1486325521642963, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22337660607364443, "train/post_ent_mag": 55.607835398779976, "train/post_ent_max": 55.607835398779976, "train/post_ent_mean": 40.71435568067763, "train/post_ent_min": 19.464526798990036, "train/post_ent_std": 5.779160850577885, "train/prior_ent_mag": 76.81361219618056, "train/prior_ent_max": 76.81361219618056, "train/prior_ent_mean": 46.05610471301608, "train/prior_ent_min": 28.256741762161255, "train/prior_ent_std": 7.752642479207781, "train/rep_loss_mean": 5.373066948519813, "train/rep_loss_std": 8.821670525603825, "train/reward_avg": 0.03895670584299498, "train/reward_loss_mean": 0.05414694299300512, "train/reward_loss_std": 0.20234199033843148, "train/reward_max_data": 1.0194444490803614, "train/reward_max_pred": 1.0199318180481594, "train/reward_neg_acc": 0.994001203113132, "train/reward_neg_loss": 0.023873291741539206, "train/reward_pos_acc": 0.9914049564136399, "train/reward_pos_loss": 0.7155153743094869, "train/reward_pred": 0.03888086322695017, "train/reward_rate": 0.04368760850694445, "stats/sum_log_reward": 12.900000190734863, "stats/max_log_achievement_collect_coal": 1.4, "stats/max_log_achievement_collect_drink": 4.6, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 12.2, "stats/max_log_achievement_collect_wood": 16.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.2, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_stone_pickaxe": 2.2, "stats/max_log_achievement_make_stone_sword": 1.2, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.2, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 1.4, "stats/max_log_achievement_place_table": 4.2, "stats/max_log_achievement_wake_up": 1.2, "stats/mean_log_entropy": 0.37360828518867495, "replay/size": 774082.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.516011767917209e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.294993691974216e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.13844180107117, "timer/env.step_count": 1440.0, "timer/env.step_total": 16.061561822891235, "timer/env.step_frac": 0.05351384423304457, "timer/env.step_avg": 0.011153862377007802, "timer/env.step_min": 0.0027709007263183594, "timer/env.step_max": 1.6427087783813477, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.27449607849121094, "timer/replay.add_frac": 0.0009145648816060166, "timer/replay.add_avg": 0.0001906222767300076, "timer/replay.add_min": 7.081031799316406e-05, "timer/replay.add_max": 0.0026345252990722656, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023247480392456055, "timer/logger.write_frac": 7.745585754677923e-05, "timer/logger.write_avg": 0.023247480392456055, "timer/logger.write_min": 0.023247480392456055, "timer/logger.write_max": 0.023247480392456055, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00023436546325683594, "timer/checkpoint.save_frac": 7.808578662914865e-07, "timer/checkpoint.save_avg": 0.00023436546325683594, "timer/checkpoint.save_min": 0.00023436546325683594, "timer/checkpoint.save_max": 0.00023436546325683594, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.514554500579834, "timer/agent.save_frac": 0.005046186324854935, "timer/agent.save_avg": 1.514554500579834, "timer/agent.save_min": 1.514554500579834, "timer/agent.save_max": 1.514554500579834, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.606910705566406e-05, "timer/replay.save_frac": 2.867646894519091e-07, "timer/replay.save_avg": 8.606910705566406e-05, "timer/replay.save_min": 8.606910705566406e-05, "timer/replay.save_max": 8.606910705566406e-05, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 15.20442247390747, "timer/agent.policy_frac": 0.05065803094954699, "timer/agent.policy_avg": 0.0105586267179913, "timer/agent.policy_min": 0.005711555480957031, "timer/agent.policy_max": 2.505725860595703, "timer/dataset_count": 720.0, "timer/dataset_total": 0.06161689758300781, "timer/dataset_frac": 0.00020529492061482378, "timer/dataset_avg": 8.557902442084419e-05, "timer/dataset_min": 6.246566772460938e-05, "timer/dataset_max": 0.00017118453979492188, "timer/agent.train_count": 720.0, "timer/agent.train_total": 267.8348379135132, "timer/agent.train_frac": 0.8923709882222668, "timer/agent.train_avg": 0.37199283043543496, "timer/agent.train_min": 0.3652231693267822, "timer/agent.train_max": 0.44454216957092285, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21857309341430664, "timer/agent.report_frac": 0.0007282409147681747, "timer/agent.report_avg": 0.21857309341430664, "timer/agent.report_min": 0.21857309341430664, "timer/agent.report_max": 0.21857309341430664, "fps": 4.797709757214571}
{"step": 774149, "episode/length": 349.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.037142857142857144}
{"step": 774353, "episode/length": 203.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.05392156862745098}
{"step": 774578, "episode/length": 224.0, "episode/score": 12.099999994039536, "episode/sum_abs_reward": 14.100000038743019, "episode/reward_rate": 0.057777777777777775}
{"step": 774708, "episode/length": 129.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.500000044703484, "episode/reward_rate": 0.08461538461538462}
{"step": 774911, "episode/length": 202.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.900000050663948, "episode/reward_rate": 0.06403940886699508}
{"step": 775136, "episode/length": 224.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.06666666666666667}
{"step": 775369, "episode/length": 232.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.060085836909871244}
{"step": 775573, "episode/length": 203.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.500000044703484, "episode/reward_rate": 0.07352941176470588}
{"step": 775583, "stats/sum_log_reward": 12.225000262260437, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 3.25, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.375, "stats/max_log_achievement_collect_stone": 12.25, "stats/max_log_achievement_collect_wood": 12.125, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.125, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.75, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.125, "stats/max_log_achievement_place_furnace": 1.125, "stats/max_log_achievement_place_plant": 1.375, "stats/max_log_achievement_place_stone": 3.125, "stats/max_log_achievement_place_table": 2.875, "stats/max_log_achievement_wake_up": 1.125, "stats/mean_log_entropy": 0.3721086122095585, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.418719821506077, "train/action_min": 0.0, "train/action_std": 3.2497649821970196, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03972142443267836, "train/actor_opt_grad_steps": 386885.0, "train/actor_opt_loss": -12.600421069603827, "train/adv_mag": 0.4091408389310042, "train/adv_max": 0.35878223677476245, "train/adv_mean": 0.0018316966049951589, "train/adv_min": -0.3621990368184116, "train/adv_std": 0.044846397203703724, "train/cont_avg": 0.9947645399305556, "train/cont_loss_mean": 5.0021274418949384e-05, "train/cont_loss_std": 0.0014764504937356075, "train/cont_neg_acc": 0.9972222223877907, "train/cont_neg_loss": 0.008323376914922341, "train/cont_pos_acc": 0.9999999809596274, "train/cont_pos_loss": 6.102230115977312e-06, "train/cont_pred": 0.9947780817747116, "train/cont_rate": 0.9947645399305556, "train/dyn_loss_mean": 5.2973981036080255, "train/dyn_loss_std": 8.796342604690128, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0126766338944435, "train/extr_critic_critic_opt_grad_steps": 386885.0, "train/extr_critic_critic_opt_loss": 15757.356689453125, "train/extr_critic_mag": 11.463559680514866, "train/extr_critic_max": 11.463559680514866, "train/extr_critic_mean": 3.341704318920771, "train/extr_critic_min": -0.3773075176609887, "train/extr_critic_std": 2.7401866945955486, "train/extr_return_normed_mag": 1.3953309307495754, "train/extr_return_normed_max": 1.3953309307495754, "train/extr_return_normed_mean": 0.38825840233928627, "train/extr_return_normed_min": -0.0741757749993768, "train/extr_return_normed_std": 0.31583781188560855, "train/extr_return_rate": 0.8339835148718622, "train/extr_return_raw_mag": 12.178560362921822, "train/extr_return_raw_max": 12.178560362921822, "train/extr_return_raw_mean": 3.3577611214584775, "train/extr_return_raw_min": -0.6925297247038947, "train/extr_return_raw_std": 2.7661429146925607, "train/extr_reward_mag": 1.0690133704079523, "train/extr_reward_max": 1.0690133704079523, "train/extr_reward_mean": 0.0587732565537509, "train/extr_reward_min": -0.610958993434906, "train/extr_reward_std": 0.2332357650415765, "train/image_loss_mean": 3.2353434794478946, "train/image_loss_std": 8.651147723197937, "train/model_loss_mean": 6.470077772935231, "train/model_loss_std": 12.735823101467556, "train/model_opt_grad_norm": 24.957594209247166, "train/model_opt_grad_steps": 386573.0, "train/model_opt_loss": 16175.19447157118, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.696951859527164, "train/policy_entropy_max": 2.696951859527164, "train/policy_entropy_mean": 0.3888097759336233, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5943547793560557, "train/policy_logprob_mag": 7.438384261396196, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38961254950198865, "train/policy_logprob_min": -7.438384261396196, "train/policy_logprob_std": 1.022991467681196, "train/policy_randomness_mag": 0.9519056503971418, "train/policy_randomness_max": 0.9519056503971418, "train/policy_randomness_mean": 0.1372327914254533, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20978115354147223, "train/post_ent_mag": 55.28585073682997, "train/post_ent_max": 55.28585073682997, "train/post_ent_mean": 40.694546434614395, "train/post_ent_min": 20.008023103078205, "train/post_ent_std": 5.693164971139696, "train/prior_ent_mag": 76.77031093173557, "train/prior_ent_max": 76.77031093173557, "train/prior_ent_mean": 45.97420655356513, "train/prior_ent_min": 27.897300985124375, "train/prior_ent_std": 7.649420148796505, "train/rep_loss_mean": 5.2973981036080255, "train/rep_loss_std": 8.796342604690128, "train/reward_avg": 0.040222167593633965, "train/reward_loss_mean": 0.056245432494001255, "train/reward_loss_std": 0.2159747988399532, "train/reward_max_data": 1.0250000059604645, "train/reward_max_pred": 1.0249529050456152, "train/reward_neg_acc": 0.9938919792572657, "train/reward_neg_loss": 0.024496577641305823, "train/reward_pos_acc": 0.9870697673824098, "train/reward_pos_loss": 0.7343115972148048, "train/reward_pred": 0.03991791528339187, "train/reward_rate": 0.04489474826388889, "replay/size": 775520.0, "replay/inserts": 1438.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.5033272436829036e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2495007070613006e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.08825731277466, "timer/env.step_count": 1438.0, "timer/env.step_total": 20.52251648902893, "timer/env.step_frac": 0.06838826908058189, "timer/env.step_avg": 0.014271569185694666, "timer/env.step_min": 0.0027785301208496094, "timer/env.step_max": 1.684567928314209, "timer/replay.add_count": 1438.0, "timer/replay.add_total": 0.2771158218383789, "timer/replay.add_frac": 0.0009234477360756835, "timer/replay.add_avg": 0.0001927091946024888, "timer/replay.add_min": 7.2479248046875e-05, "timer/replay.add_max": 0.0047321319580078125, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029895782470703125, "timer/logger.write_frac": 9.962329995319838e-05, "timer/logger.write_avg": 0.029895782470703125, "timer/logger.write_min": 0.029895782470703125, "timer/logger.write_max": 0.029895782470703125, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1438.0, "timer/agent.policy_total": 11.087527513504028, "timer/agent.policy_frac": 0.03694755540516792, "timer/agent.policy_avg": 0.00771038074652575, "timer/agent.policy_min": 0.00570988655090332, "timer/agent.policy_max": 0.014246225357055664, "timer/dataset_count": 719.0, "timer/dataset_total": 0.061753273010253906, "timer/dataset_frac": 0.0002057837036451912, "timer/dataset_avg": 8.58877232409651e-05, "timer/dataset_min": 6.461143493652344e-05, "timer/dataset_max": 0.0001366138458251953, "timer/agent.train_count": 719.0, "timer/agent.train_total": 267.4155435562134, "timer/agent.train_frac": 0.8911229847874144, "timer/agent.train_avg": 0.3719270424982105, "timer/agent.train_min": 0.36611127853393555, "timer/agent.train_max": 0.3865811824798584, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2209160327911377, "timer/agent.report_frac": 0.0007361702012914232, "timer/agent.report_avg": 0.2209160327911377, "timer/agent.report_min": 0.2209160327911377, "timer/agent.report_max": 0.2209160327911377, "fps": 4.791828419066142}
{"step": 775761, "episode/length": 187.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.500000044703484, "episode/reward_rate": 0.07446808510638298}
{"step": 775947, "episode/length": 185.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.08064516129032258}
{"step": 776171, "episode/length": 223.0, "episode/score": 12.100000016391277, "episode/sum_abs_reward": 13.700000040233135, "episode/reward_rate": 0.05803571428571429}
{"step": 776414, "episode/length": 242.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.69999998062849, "episode/reward_rate": 0.04938271604938271}
{"step": 776656, "episode/length": 241.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.05785123966942149}
{"step": 776836, "episode/length": 179.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06111111111111111}
{"step": 777006, "episode/length": 169.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.047058823529411764}
{"step": 777029, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.346911112467448, "train/action_min": 0.0, "train/action_std": 3.2633482350243463, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0406483660141627, "train/actor_opt_grad_steps": 387605.0, "train/actor_opt_loss": -10.583265090775159, "train/adv_mag": 0.39880337855882114, "train/adv_max": 0.3412580009963777, "train/adv_mean": 0.0028998836044896357, "train/adv_min": -0.35796889579958385, "train/adv_std": 0.04557873117220071, "train/cont_avg": 0.9944390190972222, "train/cont_loss_mean": 2.222320819574482e-05, "train/cont_loss_std": 0.000674406764323818, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00306893477511494, "train/cont_pos_acc": 0.9999999834431542, "train/cont_pos_loss": 3.3840679283988115e-06, "train/cont_pred": 0.9944503580530485, "train/cont_rate": 0.9944390190972222, "train/dyn_loss_mean": 5.485724111398061, "train/dyn_loss_std": 8.879930059115091, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9400732823544078, "train/extr_critic_critic_opt_grad_steps": 387605.0, "train/extr_critic_critic_opt_loss": 15773.624416775174, "train/extr_critic_mag": 11.541966252856785, "train/extr_critic_max": 11.541966252856785, "train/extr_critic_mean": 3.4555218087302313, "train/extr_critic_min": -0.3713136033879386, "train/extr_critic_std": 2.828825308216943, "train/extr_return_normed_mag": 1.4093644668658574, "train/extr_return_normed_max": 1.4093644668658574, "train/extr_return_normed_mean": 0.3998267654743459, "train/extr_return_normed_min": -0.07591312094074157, "train/extr_return_normed_std": 0.3248364244484239, "train/extr_return_rate": 0.8313784442014165, "train/extr_return_raw_mag": 12.358171568976509, "train/extr_return_raw_max": 12.358171568976509, "train/extr_return_raw_mean": 3.4810270733303494, "train/extr_return_raw_min": -0.7025128627816836, "train/extr_return_raw_std": 2.8564396500587463, "train/extr_reward_mag": 1.0725798242621951, "train/extr_reward_max": 1.0725798242621951, "train/extr_reward_mean": 0.06080154195013973, "train/extr_reward_min": -0.5885243763526281, "train/extr_reward_std": 0.23711681469447082, "train/image_loss_mean": 3.1793589707877903, "train/image_loss_std": 8.014508995744917, "train/model_loss_mean": 6.529318869113922, "train/model_loss_std": 12.197291625870598, "train/model_opt_grad_norm": 24.904248224364387, "train/model_opt_grad_steps": 387292.2361111111, "train/model_opt_loss": 18334.502143012152, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2812.5, "train/policy_entropy_mag": 2.7132295535670385, "train/policy_entropy_max": 2.7132295535670385, "train/policy_entropy_mean": 0.3975914776739147, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6021715795828236, "train/policy_logprob_mag": 7.438384340869056, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39908799653251964, "train/policy_logprob_min": -7.438384340869056, "train/policy_logprob_std": 1.031005933880806, "train/policy_randomness_mag": 0.9576509628030989, "train/policy_randomness_max": 0.9576509628030989, "train/policy_randomness_mean": 0.14033234543684456, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2125401416172584, "train/post_ent_mag": 55.223265171051025, "train/post_ent_max": 55.223265171051025, "train/post_ent_mean": 40.3897434870402, "train/post_ent_min": 19.206693662537468, "train/post_ent_std": 5.762490550676982, "train/prior_ent_mag": 76.61398262447781, "train/prior_ent_max": 76.61398262447781, "train/prior_ent_mean": 45.8563699192471, "train/prior_ent_min": 27.79425687260098, "train/prior_ent_std": 7.717114037937588, "train/rep_loss_mean": 5.485724111398061, "train/rep_loss_std": 8.879930059115091, "train/reward_avg": 0.042720540090360574, "train/reward_loss_mean": 0.05850319269423684, "train/reward_loss_std": 0.2205617500262128, "train/reward_max_data": 1.0263888951804903, "train/reward_max_pred": 1.0225637190871768, "train/reward_neg_acc": 0.9944555155105061, "train/reward_neg_loss": 0.024922930027565196, "train/reward_pos_acc": 0.9893476772639487, "train/reward_pos_loss": 0.7327253710892465, "train/reward_pred": 0.04204724493643476, "train/reward_rate": 0.047526041666666664, "stats/sum_log_reward": 11.38571446282523, "stats/max_log_achievement_collect_coal": 0.8571428571428571, "stats/max_log_achievement_collect_drink": 2.4285714285714284, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 11.571428571428571, "stats/max_log_achievement_collect_wood": 9.857142857142858, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.4285714285714286, "stats/max_log_achievement_eat_cow": 0.5714285714285714, "stats/max_log_achievement_make_stone_pickaxe": 0.2857142857142857, "stats/max_log_achievement_make_stone_sword": 0.5714285714285714, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.7142857142857142, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 1.5714285714285714, "stats/max_log_achievement_place_table": 2.5714285714285716, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.2718532702752522, "replay/size": 776966.0, "replay/inserts": 1446.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.5373666639314814e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.294587327896477e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2657060623169, "timer/env.step_count": 1446.0, "timer/env.step_total": 19.159926652908325, "timer/env.step_frac": 0.06380990657964745, "timer/env.step_avg": 0.013250295057336324, "timer/env.step_min": 0.002856016159057617, "timer/env.step_max": 1.7946083545684814, "timer/replay.add_count": 1446.0, "timer/replay.add_total": 0.27746009826660156, "timer/replay.add_frac": 0.0009240485765264773, "timer/replay.add_avg": 0.0001918811191331961, "timer/replay.add_min": 7.2479248046875e-05, "timer/replay.add_max": 0.004696369171142578, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029363393783569336, "timer/logger.write_frac": 9.77913667486066e-05, "timer/logger.write_avg": 0.029363393783569336, "timer/logger.write_min": 0.029363393783569336, "timer/logger.write_max": 0.029363393783569336, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1446.0, "timer/agent.policy_total": 11.214720726013184, "timer/agent.policy_frac": 0.03734932261523628, "timer/agent.policy_avg": 0.0077556851493867105, "timer/agent.policy_min": 0.005752086639404297, "timer/agent.policy_max": 0.017551660537719727, "timer/dataset_count": 723.0, "timer/dataset_total": 0.06256628036499023, "timer/dataset_frac": 0.0002083697175594381, "timer/dataset_avg": 8.653704061547751e-05, "timer/dataset_min": 5.984306335449219e-05, "timer/dataset_max": 0.0001666545867919922, "timer/agent.train_count": 723.0, "timer/agent.train_total": 268.8455328941345, "timer/agent.train_frac": 0.895358768804382, "timer/agent.train_avg": 0.37184721008870614, "timer/agent.train_min": 0.3654911518096924, "timer/agent.train_max": 0.38807177543640137, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22224664688110352, "timer/agent.report_frac": 0.0007401666004274849, "timer/agent.report_avg": 0.22224664688110352, "timer/agent.report_min": 0.22224664688110352, "timer/agent.report_max": 0.22224664688110352, "fps": 4.81566064340517}
{"step": 777171, "episode/length": 164.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.06666666666666667}
{"step": 777447, "episode/length": 275.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.05434782608695652}
{"step": 777643, "episode/length": 195.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.07653061224489796}
{"step": 777846, "episode/length": 202.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.07389162561576355}
{"step": 778085, "episode/length": 238.0, "episode/score": 10.099999994039536, "episode/sum_abs_reward": 12.700000017881393, "episode/reward_rate": 0.0502092050209205}
{"step": 778338, "episode/length": 252.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.700000025331974, "episode/reward_rate": 0.06324110671936758}
{"step": 778463, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.3862965901692705, "train/action_min": 0.0, "train/action_std": 3.252254499329461, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04029754727768401, "train/actor_opt_grad_steps": 388325.0, "train/actor_opt_loss": -11.40660554708706, "train/adv_mag": 0.4216153042183982, "train/adv_max": 0.35776590390337837, "train/adv_mean": 0.0023981262902958, "train/adv_min": -0.364217246365216, "train/adv_std": 0.04492696550571256, "train/cont_avg": 0.9945746527777778, "train/cont_loss_mean": 6.841589999595499e-05, "train/cont_loss_std": 0.002069867898924037, "train/cont_neg_acc": 0.9982638888888888, "train/cont_neg_loss": 0.007549892677616299, "train/cont_pos_acc": 0.9999999817874696, "train/cont_pos_loss": 1.2009637642683578e-05, "train/cont_pred": 0.9945812341239717, "train/cont_rate": 0.9945746527777778, "train/dyn_loss_mean": 5.429168356789483, "train/dyn_loss_std": 8.87793270084593, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9853246808052063, "train/extr_critic_critic_opt_grad_steps": 388325.0, "train/extr_critic_critic_opt_loss": 15692.72174750434, "train/extr_critic_mag": 11.606784582138062, "train/extr_critic_max": 11.606784582138062, "train/extr_critic_mean": 3.534270270003213, "train/extr_critic_min": -0.3929603447516759, "train/extr_critic_std": 2.844872878657447, "train/extr_return_normed_mag": 1.3993284106254578, "train/extr_return_normed_max": 1.3993284106254578, "train/extr_return_normed_mean": 0.40144453570246696, "train/extr_return_normed_min": -0.07980324576298396, "train/extr_return_normed_std": 0.3225906230509281, "train/extr_return_rate": 0.8379214116268687, "train/extr_return_raw_mag": 12.461912327342564, "train/extr_return_raw_max": 12.461912327342564, "train/extr_return_raw_mean": 3.555661767721176, "train/extr_return_raw_min": -0.739675261080265, "train/extr_return_raw_std": 2.8792463176780276, "train/extr_reward_mag": 1.0761838787131839, "train/extr_reward_max": 1.0761838787131839, "train/extr_reward_mean": 0.060313350365807615, "train/extr_reward_min": -0.6293397297461828, "train/extr_reward_std": 0.23672953806817532, "train/image_loss_mean": 3.105354285902447, "train/image_loss_std": 8.25880699687534, "train/model_loss_mean": 6.420076794094509, "train/model_loss_std": 12.45361159907447, "train/model_opt_grad_norm": 25.29868977599674, "train/model_opt_grad_steps": 388011.6388888889, "train/model_opt_loss": 16050.19196234809, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2534.722222222222, "train/policy_entropy_mag": 2.697639544804891, "train/policy_entropy_max": 2.697639544804891, "train/policy_entropy_mean": 0.3772015641960833, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5656912504798837, "train/policy_logprob_mag": 7.4383842547734575, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37690387583441204, "train/policy_logprob_min": -7.4383842547734575, "train/policy_logprob_std": 1.0080351307988167, "train/policy_randomness_mag": 0.952148377067513, "train/policy_randomness_max": 0.952148377067513, "train/policy_randomness_mean": 0.1331355987737576, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19966418720367882, "train/post_ent_mag": 55.47185542848375, "train/post_ent_max": 55.47185542848375, "train/post_ent_mean": 40.48599815368652, "train/post_ent_min": 19.339206126001145, "train/post_ent_std": 5.797194672955407, "train/prior_ent_mag": 76.6668872833252, "train/prior_ent_max": 76.6668872833252, "train/prior_ent_mean": 45.93196545706855, "train/prior_ent_min": 27.789991246329414, "train/prior_ent_std": 7.754785438378652, "train/rep_loss_mean": 5.429168356789483, "train/rep_loss_std": 8.87793270084593, "train/reward_avg": 0.04102240652880735, "train/reward_loss_mean": 0.057153046493315034, "train/reward_loss_std": 0.21675346067382228, "train/reward_max_data": 1.0236111167404387, "train/reward_max_pred": 1.0262389249271817, "train/reward_neg_acc": 0.9935269802808762, "train/reward_neg_loss": 0.02520310811491476, "train/reward_pos_acc": 0.9899185556504462, "train/reward_pos_loss": 0.723787976635827, "train/reward_pred": 0.04082129856881996, "train/reward_rate": 0.045694986979166664, "stats/sum_log_reward": 12.93333371480306, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 2.6666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.1666666666666665, "stats/max_log_achievement_collect_stone": 12.166666666666666, "stats/max_log_achievement_collect_wood": 13.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.6666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.1666666666666667, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 2.6666666666666665, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.3542511910200119, "replay/size": 778400.0, "replay/inserts": 1434.0, "replay/samples": 11472.0, "replay/insert_wait_avg": 3.477020742504168e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2730413234716013e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1169981956482, "timer/env.step_count": 1434.0, "timer/env.step_total": 18.82356071472168, "timer/env.step_frac": 0.06272074167038842, "timer/env.step_avg": 0.0131266113770723, "timer/env.step_min": 0.002854585647583008, "timer/env.step_max": 1.8916983604431152, "timer/replay.add_count": 1434.0, "timer/replay.add_total": 0.33084607124328613, "timer/replay.add_frac": 0.001102390311886318, "timer/replay.add_avg": 0.00023071553085305866, "timer/replay.add_min": 7.867813110351562e-05, "timer/replay.add_max": 0.004683017730712891, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025269746780395508, "timer/logger.write_frac": 8.419965191015937e-05, "timer/logger.write_avg": 0.025269746780395508, "timer/logger.write_min": 0.025269746780395508, "timer/logger.write_max": 0.025269746780395508, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00022029876708984375, "timer/checkpoint.save_frac": 7.340429512967125e-07, "timer/checkpoint.save_avg": 0.00022029876708984375, "timer/checkpoint.save_min": 0.00022029876708984375, "timer/checkpoint.save_max": 0.00022029876708984375, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2604308128356934, "timer/agent.save_frac": 0.004199798146768116, "timer/agent.save_avg": 1.2604308128356934, "timer/agent.save_min": 1.2604308128356934, "timer/agent.save_max": 1.2604308128356934, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.461143493652344e-05, "timer/replay.save_frac": 2.1528748896256396e-07, "timer/replay.save_avg": 6.461143493652344e-05, "timer/replay.save_min": 6.461143493652344e-05, "timer/replay.save_max": 6.461143493652344e-05, "timer/agent.policy_count": 1434.0, "timer/agent.policy_total": 13.058047533035278, "timer/agent.policy_frac": 0.04350985652776206, "timer/agent.policy_avg": 0.009106030357765187, "timer/agent.policy_min": 0.0057713985443115234, "timer/agent.policy_max": 1.2582581043243408, "timer/dataset_count": 717.0, "timer/dataset_total": 0.06259608268737793, "timer/dataset_frac": 0.00020857226702824456, "timer/dataset_avg": 8.730276525436252e-05, "timer/dataset_min": 6.246566772460938e-05, "timer/dataset_max": 0.0001819133758544922, "timer/agent.train_count": 717.0, "timer/agent.train_total": 267.13119673728943, "timer/agent.train_frac": 0.8900901926359562, "timer/agent.train_avg": 0.3725679173462893, "timer/agent.train_min": 0.36493420600891113, "timer/agent.train_max": 0.8970108032226562, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22346878051757812, "timer/agent.report_frac": 0.000744605543375112, "timer/agent.report_avg": 0.22346878051757812, "timer/agent.report_min": 0.22346878051757812, "timer/agent.report_max": 0.22346878051757812, "fps": 4.778061767188895}
{"step": 778504, "episode/length": 165.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.08433734939759036}
{"step": 778788, "episode/length": 283.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.0528169014084507}
{"step": 778954, "episode/length": 165.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.900000050663948, "episode/reward_rate": 0.060240963855421686}
{"step": 779015, "episode/length": 60.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.13114754098360656}
{"step": 779277, "episode/length": 261.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.05725190839694656}
{"step": 779546, "episode/length": 268.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.05204460966542751}
{"step": 779633, "episode/length": 86.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 9.899999976158142, "episode/reward_rate": 0.11494252873563218}
{"step": 779851, "episode/length": 217.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.05963302752293578}
{"step": 779905, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.350201924641927, "train/action_min": 0.0, "train/action_std": 3.2771193087100983, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.040436175600108176, "train/actor_opt_grad_steps": 389045.0, "train/actor_opt_loss": -12.10159578257137, "train/adv_mag": 0.41883813548419213, "train/adv_max": 0.3497270411915249, "train/adv_mean": 0.002368350249349128, "train/adv_min": -0.3606712900929981, "train/adv_std": 0.044921094396462045, "train/cont_avg": 0.9948866102430556, "train/cont_loss_mean": 0.00017347721107322892, "train/cont_loss_std": 0.005501213758669287, "train/cont_neg_acc": 0.9964788732394366, "train/cont_neg_loss": 0.044267719853566416, "train/cont_pos_acc": 0.9999999776482582, "train/cont_pos_loss": 1.970270685565841e-06, "train/cont_pred": 0.9949008673429489, "train/cont_rate": 0.9948866102430556, "train/dyn_loss_mean": 5.300146473778619, "train/dyn_loss_std": 8.86163588364919, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9538147035572264, "train/extr_critic_critic_opt_grad_steps": 389045.0, "train/extr_critic_critic_opt_loss": 15687.1337890625, "train/extr_critic_mag": 11.684713469611275, "train/extr_critic_max": 11.684713469611275, "train/extr_critic_mean": 3.5052126314904957, "train/extr_critic_min": -0.45966166920132107, "train/extr_critic_std": 2.8221203121874066, "train/extr_return_normed_mag": 1.410107844405704, "train/extr_return_normed_max": 1.410107844405704, "train/extr_return_normed_mean": 0.3985855504870415, "train/extr_return_normed_min": -0.08214704676841696, "train/extr_return_normed_std": 0.31992268603709006, "train/extr_return_rate": 0.8433467613326179, "train/extr_return_raw_mag": 12.53695813814799, "train/extr_return_raw_max": 12.53695813814799, "train/extr_return_raw_mean": 3.52629706925816, "train/extr_return_raw_min": -0.7566453545457787, "train/extr_return_raw_std": 2.8501187198691897, "train/extr_reward_mag": 1.0712549123499129, "train/extr_reward_max": 1.0712549123499129, "train/extr_reward_mean": 0.05923829931351873, "train/extr_reward_min": -0.6441930797364976, "train/extr_reward_std": 0.2348795806368192, "train/image_loss_mean": 3.1456337256564035, "train/image_loss_std": 8.707365572452545, "train/model_loss_mean": 6.380349642700619, "train/model_loss_std": 12.824289811982048, "train/model_opt_grad_norm": 25.591851433118183, "train/model_opt_grad_steps": 388730.02777777775, "train/model_opt_loss": 8203.386433919271, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1284.7222222222222, "train/policy_entropy_mag": 2.7187450296348996, "train/policy_entropy_max": 2.7187450296348996, "train/policy_entropy_mean": 0.3855996018068658, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5875105613635646, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3884625064416064, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 1.0251537793212466, "train/policy_randomness_mag": 0.9595976894100507, "train/policy_randomness_max": 0.9595976894100507, "train/policy_randomness_mean": 0.13609973951760265, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20736544486135244, "train/post_ent_mag": 55.09847725762261, "train/post_ent_max": 55.09847725762261, "train/post_ent_mean": 40.60564115312364, "train/post_ent_min": 19.16085792912377, "train/post_ent_std": 5.759395115905338, "train/prior_ent_mag": 76.83823680877686, "train/prior_ent_max": 76.83823680877686, "train/prior_ent_mean": 45.94174125459459, "train/prior_ent_min": 28.018703010347153, "train/prior_ent_std": 7.630173173215654, "train/rep_loss_mean": 5.300146473778619, "train/rep_loss_std": 8.86163588364919, "train/reward_avg": 0.04017469579250448, "train/reward_loss_mean": 0.054454611252165504, "train/reward_loss_std": 0.21001992685099444, "train/reward_max_data": 1.0250000059604645, "train/reward_max_pred": 1.024252669678794, "train/reward_neg_acc": 0.9943558250864347, "train/reward_neg_loss": 0.023077402225074668, "train/reward_pos_acc": 0.9897567273841964, "train/reward_pos_loss": 0.7237661480903625, "train/reward_pred": 0.03979672413940231, "train/reward_rate": 0.04478624131944445, "stats/sum_log_reward": 11.100000381469727, "stats/max_log_achievement_collect_coal": 0.625, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_iron": 0.125, "stats/max_log_achievement_collect_sapling": 1.375, "stats/max_log_achievement_collect_stone": 10.25, "stats/max_log_achievement_collect_wood": 12.625, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 0.75, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.375, "stats/max_log_achievement_make_stone_sword": 0.75, "stats/max_log_achievement_make_wood_pickaxe": 1.125, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.25, "stats/max_log_achievement_place_stone": 3.375, "stats/max_log_achievement_place_table": 3.125, "stats/max_log_achievement_wake_up": 0.875, "stats/mean_log_entropy": 0.29631357640028, "replay/size": 779842.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.4340873009288855e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2591377872038483e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.36984419822693, "timer/env.step_count": 1442.0, "timer/env.step_total": 20.12862777709961, "timer/env.step_frac": 0.06701281159175175, "timer/env.step_avg": 0.013958826475103752, "timer/env.step_min": 0.002790212631225586, "timer/env.step_max": 1.6218774318695068, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.2840089797973633, "timer/replay.add_frac": 0.0009455309355553468, "timer/replay.add_avg": 0.00019695490970690936, "timer/replay.add_min": 6.937980651855469e-05, "timer/replay.add_max": 0.004377841949462891, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023639440536499023, "timer/logger.write_frac": 7.87011112903143e-05, "timer/logger.write_avg": 0.023639440536499023, "timer/logger.write_min": 0.023639440536499023, "timer/logger.write_max": 0.023639440536499023, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 11.19343876838684, "timer/agent.policy_frac": 0.03726552110537372, "timer/agent.policy_avg": 0.007762440199990874, "timer/agent.policy_min": 0.005727052688598633, "timer/agent.policy_max": 0.018093585968017578, "timer/dataset_count": 721.0, "timer/dataset_total": 0.06202387809753418, "timer/dataset_frac": 0.00020649169447450245, "timer/dataset_avg": 8.60247962517811e-05, "timer/dataset_min": 6.437301635742188e-05, "timer/dataset_max": 0.00017523765563964844, "timer/agent.train_count": 721.0, "timer/agent.train_total": 267.9904923439026, "timer/agent.train_frac": 0.8922017223774441, "timer/agent.train_avg": 0.3716927771760091, "timer/agent.train_min": 0.36492037773132324, "timer/agent.train_max": 0.38681983947753906, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22032523155212402, "timer/agent.report_frac": 0.000733513153226933, "timer/agent.report_avg": 0.22032523155212402, "timer/agent.report_min": 0.22032523155212402, "timer/agent.report_max": 0.22032523155212402, "fps": 4.800684021784144}
{"step": 780078, "episode/length": 226.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.06607929515418502}
{"step": 780322, "episode/length": 243.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.06147540983606557}
{"step": 780559, "episode/length": 236.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.500000022351742, "episode/reward_rate": 0.06751054852320675}
{"step": 780795, "episode/length": 235.0, "episode/score": 15.100000023841858, "episode/sum_abs_reward": 17.30000001192093, "episode/reward_rate": 0.07203389830508475}
{"step": 780980, "episode/length": 184.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.05945945945945946}
{"step": 781150, "episode/length": 169.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06470588235294118}
{"step": 781361, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.361838980896832, "train/action_min": 0.0, "train/action_std": 3.255749901680097, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03973835313769236, "train/actor_opt_grad_steps": 389770.0, "train/actor_opt_loss": -10.479137228776331, "train/adv_mag": 0.3729717943766346, "train/adv_max": 0.32699151194258913, "train/adv_mean": 0.002766216740495372, "train/adv_min": -0.3317959820979262, "train/adv_std": 0.04435752648605059, "train/cont_avg": 0.994769370719178, "train/cont_loss_mean": 4.5287259674969145e-05, "train/cont_loss_std": 0.0013420610399276633, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00022551136219727309, "train/cont_pos_acc": 0.9999730815626171, "train/cont_pos_loss": 4.427835292657719e-05, "train/cont_pred": 0.9947443726944597, "train/cont_rate": 0.994769370719178, "train/dyn_loss_mean": 5.423285902362981, "train/dyn_loss_std": 8.914915561676025, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9820986569744267, "train/extr_critic_critic_opt_grad_steps": 389770.0, "train/extr_critic_critic_opt_loss": 15895.246133882705, "train/extr_critic_mag": 11.705454094769204, "train/extr_critic_max": 11.705454094769204, "train/extr_critic_mean": 3.5487844650059532, "train/extr_critic_min": -0.3946984549091287, "train/extr_critic_std": 2.8801612592723274, "train/extr_return_normed_mag": 1.3843724270389504, "train/extr_return_normed_max": 1.3843724270389504, "train/extr_return_normed_mean": 0.39505492824397676, "train/extr_return_normed_min": -0.07673259201931627, "train/extr_return_normed_std": 0.31989062812230357, "train/extr_return_rate": 0.8425977883273608, "train/extr_return_raw_mag": 12.565958584824653, "train/extr_return_raw_max": 12.565958584824653, "train/extr_return_raw_mean": 3.5739294241552484, "train/extr_return_raw_min": -0.7160791738392556, "train/extr_return_raw_std": 2.908659660652892, "train/extr_reward_mag": 1.062295188642528, "train/extr_reward_max": 1.062295188642528, "train/extr_reward_mean": 0.05896914857503486, "train/extr_reward_min": -0.6191021008034275, "train/extr_reward_std": 0.23404115050622862, "train/image_loss_mean": 3.305662293956704, "train/image_loss_std": 8.400432932866762, "train/model_loss_mean": 6.614608549091914, "train/model_loss_std": 12.581542054267778, "train/model_opt_grad_norm": 24.865471526368022, "train/model_opt_grad_steps": 389455.0, "train/model_opt_loss": 13154.704482823203, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1986.3013698630136, "train/policy_entropy_mag": 2.705676686273862, "train/policy_entropy_max": 2.705676686273862, "train/policy_entropy_mean": 0.3775889895958443, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5726438899562784, "train/policy_logprob_mag": 7.4383842651158165, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37669527571495265, "train/policy_logprob_min": -7.4383842651158165, "train/policy_logprob_std": 1.005081059181527, "train/policy_randomness_mag": 0.9549851352221346, "train/policy_randomness_max": 0.9549851352221346, "train/policy_randomness_mean": 0.13327234575193223, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20211816507659547, "train/post_ent_mag": 55.301012587873906, "train/post_ent_max": 55.301012587873906, "train/post_ent_mean": 40.66153638656825, "train/post_ent_min": 19.416509210246883, "train/post_ent_std": 5.764898522259438, "train/prior_ent_mag": 76.75969257093456, "train/prior_ent_max": 76.75969257093456, "train/prior_ent_mean": 46.0685159866124, "train/prior_ent_min": 28.04235552435052, "train/prior_ent_std": 7.6787951809086215, "train/rep_loss_mean": 5.423285902362981, "train/rep_loss_std": 8.914915561676025, "train/reward_avg": 0.03957218482886275, "train/reward_loss_mean": 0.05492939595898537, "train/reward_loss_std": 0.20768737425542858, "train/reward_max_data": 1.0246575401253897, "train/reward_max_pred": 1.0249672915837535, "train/reward_neg_acc": 0.9940370582554439, "train/reward_neg_loss": 0.02383641472520077, "train/reward_pos_acc": 0.9885414332559664, "train/reward_pos_loss": 0.724442480361625, "train/reward_pred": 0.03920999090251041, "train/reward_rate": 0.044386772260273974, "stats/sum_log_reward": 13.100000381469727, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 3.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 14.5, "stats/max_log_achievement_collect_wood": 12.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.8333333333333333, "stats/max_log_achievement_eat_cow": 0.6666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 1.5, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 1.8333333333333333, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_stone": 3.5, "stats/max_log_achievement_place_table": 3.5, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.31744472682476044, "replay/size": 781298.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.4824504957094297e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2526186285438118e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.08863973617554, "timer/env.step_count": 1456.0, "timer/env.step_total": 16.982586145401, "timer/env.step_frac": 0.056591899514527866, "timer/env.step_avg": 0.011663864110852335, "timer/env.step_min": 0.0028412342071533203, "timer/env.step_max": 1.6476538181304932, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.2905099391937256, "timer/replay.add_frac": 0.0009680804293329094, "timer/replay.add_avg": 0.0001995260571385478, "timer/replay.add_min": 6.842613220214844e-05, "timer/replay.add_max": 0.002950906753540039, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028711557388305664, "timer/logger.write_frac": 9.567692203726064e-05, "timer/logger.write_avg": 0.028711557388305664, "timer/logger.write_min": 0.028711557388305664, "timer/logger.write_max": 0.028711557388305664, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 11.302857398986816, "timer/agent.policy_frac": 0.03766506259258525, "timer/agent.policy_avg": 0.007762951510293143, "timer/agent.policy_min": 0.005858659744262695, "timer/agent.policy_max": 0.015302419662475586, "timer/dataset_count": 728.0, "timer/dataset_total": 0.0629434585571289, "timer/dataset_frac": 0.00020974955470645597, "timer/dataset_avg": 8.646079472133092e-05, "timer/dataset_min": 6.580352783203125e-05, "timer/dataset_max": 0.00014352798461914062, "timer/agent.train_count": 728.0, "timer/agent.train_total": 270.7255163192749, "timer/agent.train_frac": 0.9021518327294383, "timer/agent.train_avg": 0.3718757092297732, "timer/agent.train_min": 0.36616969108581543, "timer/agent.train_max": 0.38579845428466797, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22113513946533203, "timer/agent.report_frac": 0.0007368994029888772, "timer/agent.report_avg": 0.22113513946533203, "timer/agent.report_min": 0.22113513946533203, "timer/agent.report_max": 0.22113513946533203, "fps": 4.851772696501558}
{"step": 781436, "episode/length": 285.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.04195804195804196}
{"step": 781630, "episode/length": 193.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.06701030927835051}
{"step": 781800, "episode/length": 169.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.07647058823529412}
{"step": 782018, "episode/length": 217.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.06422018348623854}
{"step": 782307, "episode/length": 288.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.04498269896193772}
{"step": 782520, "episode/length": 212.0, "episode/score": 8.099999971687794, "episode/sum_abs_reward": 10.100000031292439, "episode/reward_rate": 0.046948356807511735}
{"step": 782553, "episode/length": 32.0, "episode/score": 4.100000023841858, "episode/sum_abs_reward": 5.899999976158142, "episode/reward_rate": 0.18181818181818182}
{"step": 782784, "episode/length": 230.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.900000028312206, "episode/reward_rate": 0.06926406926406926}
{"step": 782785, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.345521738831426, "train/action_min": 0.0, "train/action_std": 3.2209317751333746, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03980993710353341, "train/actor_opt_grad_steps": 390490.0, "train/actor_opt_loss": -11.92476407742836, "train/adv_mag": 0.43441273838701383, "train/adv_max": 0.34992400105570404, "train/adv_mean": 0.0015893410665842273, "train/adv_min": -0.38523014792254273, "train/adv_std": 0.04409077212634221, "train/cont_avg": 0.9946632922535211, "train/cont_loss_mean": 0.00011534156123110427, "train/cont_loss_std": 0.003620760016323863, "train/cont_neg_acc": 0.9942320610435915, "train/cont_neg_loss": 0.014123694952728891, "train/cont_pos_acc": 0.9999999840494612, "train/cont_pos_loss": 6.082683340700512e-06, "train/cont_pred": 0.9946952520961493, "train/cont_rate": 0.9946632922535211, "train/dyn_loss_mean": 5.385936347531601, "train/dyn_loss_std": 8.875890946724045, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9707039989216227, "train/extr_critic_critic_opt_grad_steps": 390490.0, "train/extr_critic_critic_opt_loss": 15585.336020026409, "train/extr_critic_mag": 11.732944246748803, "train/extr_critic_max": 11.732944246748803, "train/extr_critic_mean": 3.6088576350413577, "train/extr_critic_min": -0.41463630468073026, "train/extr_critic_std": 2.879870716954621, "train/extr_return_normed_mag": 1.3842456777330856, "train/extr_return_normed_max": 1.3842456777330856, "train/extr_return_normed_mean": 0.3999705650437046, "train/extr_return_normed_min": -0.08223762342207869, "train/extr_return_normed_std": 0.3198969760830973, "train/extr_return_rate": 0.8463367903736275, "train/extr_return_raw_mag": 12.575363508412536, "train/extr_return_raw_max": 12.575363508412536, "train/extr_return_raw_mean": 3.6233078661099287, "train/extr_return_raw_min": -0.7623257653813966, "train/extr_return_raw_std": 2.9093426784998933, "train/extr_reward_mag": 1.0698018510576706, "train/extr_reward_max": 1.0698018510576706, "train/extr_reward_mean": 0.05945402431026311, "train/extr_reward_min": -0.642806521603759, "train/extr_reward_std": 0.23529082746572896, "train/image_loss_mean": 3.1373416739450373, "train/image_loss_std": 8.32585285750913, "train/model_loss_mean": 6.424228258535895, "train/model_loss_std": 12.513831581867917, "train/model_opt_grad_norm": 26.447843256131023, "train/model_opt_grad_steps": 390174.8028169014, "train/model_opt_loss": 14488.442602882922, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2253.521126760563, "train/policy_entropy_mag": 2.718496262187689, "train/policy_entropy_max": 2.718496262187689, "train/policy_entropy_mean": 0.37466972247815467, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5670163929462433, "train/policy_logprob_mag": 7.438384331447978, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37461383787679, "train/policy_logprob_min": -7.438384331447978, "train/policy_logprob_std": 1.0033319046799565, "train/policy_randomness_mag": 0.9595098814494173, "train/policy_randomness_max": 0.9595098814494173, "train/policy_randomness_mean": 0.13224196906240893, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2001319021826059, "train/post_ent_mag": 55.13370922249808, "train/post_ent_max": 55.13370922249808, "train/post_ent_mean": 40.51823403801716, "train/post_ent_min": 19.56908137361768, "train/post_ent_std": 5.711022914295465, "train/prior_ent_mag": 76.72077168209452, "train/prior_ent_max": 76.72077168209452, "train/prior_ent_mean": 45.88878808894628, "train/prior_ent_min": 28.12349754655865, "train/prior_ent_std": 7.648756860007702, "train/rep_loss_mean": 5.385936347531601, "train/rep_loss_std": 8.875890946724045, "train/reward_avg": 0.039012983992276054, "train/reward_loss_mean": 0.055209488201309255, "train/reward_loss_std": 0.21166600161035296, "train/reward_max_data": 1.025352118720471, "train/reward_max_pred": 1.0236625436326148, "train/reward_neg_acc": 0.9938036942146193, "train/reward_neg_loss": 0.02487333751165531, "train/reward_pos_acc": 0.9923572380777815, "train/reward_pos_loss": 0.7169362247829706, "train/reward_pred": 0.03893632179414722, "train/reward_rate": 0.043821522887323945, "stats/sum_log_reward": 10.975000321865082, "stats/max_log_achievement_collect_coal": 0.75, "stats/max_log_achievement_collect_drink": 2.25, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 7.375, "stats/max_log_achievement_collect_wood": 14.0, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_stone_pickaxe": 0.875, "stats/max_log_achievement_make_stone_sword": 0.875, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 0.75, "stats/max_log_achievement_place_plant": 1.75, "stats/max_log_achievement_place_stone": 1.75, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 0.875, "stats/mean_log_entropy": 0.30684606172144413, "replay/size": 782722.0, "replay/inserts": 1424.0, "replay/samples": 11392.0, "replay/insert_wait_avg": 3.561210096552131e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.249207037218501e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.9375114440918, "timer/env.step_count": 1424.0, "timer/env.step_total": 22.409335136413574, "timer/env.step_frac": 0.0744650775799905, "timer/env.step_avg": 0.015736892651975823, "timer/env.step_min": 0.002927541732788086, "timer/env.step_max": 2.5503904819488525, "timer/replay.add_count": 1424.0, "timer/replay.add_total": 0.29510021209716797, "timer/replay.add_frac": 0.000980602952025114, "timer/replay.add_avg": 0.00020723329501205615, "timer/replay.add_min": 7.557868957519531e-05, "timer/replay.add_max": 0.004263401031494141, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02827930450439453, "timer/logger.write_frac": 9.397068636838336e-05, "timer/logger.write_avg": 0.02827930450439453, "timer/logger.write_min": 0.02827930450439453, "timer/logger.write_max": 0.02827930450439453, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00017380714416503906, "timer/checkpoint.save_frac": 5.775522743276521e-07, "timer/checkpoint.save_avg": 0.00017380714416503906, "timer/checkpoint.save_min": 0.00017380714416503906, "timer/checkpoint.save_max": 0.00017380714416503906, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2486090660095215, "timer/agent.save_frac": 0.004149064236019936, "timer/agent.save_avg": 1.2486090660095215, "timer/agent.save_min": 1.2486090660095215, "timer/agent.save_max": 1.2486090660095215, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.604194641113281e-05, "timer/replay.save_frac": 2.194540191889707e-07, "timer/replay.save_avg": 6.604194641113281e-05, "timer/replay.save_min": 6.604194641113281e-05, "timer/replay.save_max": 6.604194641113281e-05, "timer/agent.policy_count": 1424.0, "timer/agent.policy_total": 12.138159275054932, "timer/agent.policy_frac": 0.04033448411535084, "timer/agent.policy_avg": 0.008523988254954306, "timer/agent.policy_min": 0.0058896541595458984, "timer/agent.policy_max": 1.2413532733917236, "timer/dataset_count": 712.0, "timer/dataset_total": 0.06125330924987793, "timer/dataset_frac": 0.0002035416221658282, "timer/dataset_avg": 8.602992872173866e-05, "timer/dataset_min": 5.9604644775390625e-05, "timer/dataset_max": 0.0001742839813232422, "timer/agent.train_count": 712.0, "timer/agent.train_total": 265.31822419166565, "timer/agent.train_frac": 0.8816389253652631, "timer/agent.train_avg": 0.3726379553253731, "timer/agent.train_min": 0.3643832206726074, "timer/agent.train_max": 0.8826146125793457, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22277545928955078, "timer/agent.report_frac": 0.0007402714876604475, "timer/agent.report_avg": 0.22277545928955078, "timer/agent.report_min": 0.22277545928955078, "timer/agent.report_max": 0.22277545928955078, "fps": 4.731813575591336}
{"step": 783054, "episode/length": 269.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.05555555555555555}
{"step": 783279, "episode/length": 224.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.299999997019768, "episode/reward_rate": 0.057777777777777775}
{"step": 783481, "episode/length": 201.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 15.10000005364418, "episode/reward_rate": 0.06435643564356436}
{"step": 783754, "episode/length": 272.0, "episode/score": 11.099999971687794, "episode/sum_abs_reward": 13.900000043213367, "episode/reward_rate": 0.047619047619047616}
{"step": 784029, "episode/length": 274.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.900000028312206, "episode/reward_rate": 0.03272727272727273}
{"step": 784214, "episode/length": 184.0, "episode/score": 15.100000008940697, "episode/sum_abs_reward": 17.500000044703484, "episode/reward_rate": 0.08648648648648649}
{"step": 784233, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.459765964084202, "train/action_min": 0.0, "train/action_std": 3.308616280555725, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03927942800025145, "train/actor_opt_grad_steps": 391205.0, "train/actor_opt_loss": -12.83608971701728, "train/adv_mag": 0.40061888719598454, "train/adv_max": 0.3474261470966869, "train/adv_mean": 0.001733400688458965, "train/adv_min": -0.32350386099682915, "train/adv_std": 0.04343444321097599, "train/cont_avg": 0.9950629340277778, "train/cont_loss_mean": 5.40011768623098e-05, "train/cont_loss_std": 0.0016146662783664094, "train/cont_neg_acc": 0.9930555563833978, "train/cont_neg_loss": 0.008541799146936709, "train/cont_pos_acc": 0.9999999875823656, "train/cont_pos_loss": 1.7006400210048708e-05, "train/cont_pred": 0.9950703001684613, "train/cont_rate": 0.9950629340277778, "train/dyn_loss_mean": 5.314937200811174, "train/dyn_loss_std": 8.827122423383924, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9717108988099628, "train/extr_critic_critic_opt_grad_steps": 391205.0, "train/extr_critic_critic_opt_loss": 15587.209716796875, "train/extr_critic_mag": 12.003925283749899, "train/extr_critic_max": 12.003925283749899, "train/extr_critic_mean": 3.506265017721388, "train/extr_critic_min": -0.4058069934447606, "train/extr_critic_std": 2.9082588851451874, "train/extr_return_normed_mag": 1.3976857976780996, "train/extr_return_normed_max": 1.3976857976780996, "train/extr_return_normed_mean": 0.38717712254987824, "train/extr_return_normed_min": -0.08161563224469622, "train/extr_return_normed_std": 0.320553504758411, "train/extr_return_rate": 0.8279288303520944, "train/extr_return_raw_mag": 12.777908219231499, "train/extr_return_raw_max": 12.777908219231499, "train/extr_return_raw_mean": 3.5221824612882404, "train/extr_return_raw_min": -0.7720128384729227, "train/extr_return_raw_std": 2.9361652731895447, "train/extr_reward_mag": 1.075424439377255, "train/extr_reward_max": 1.075424439377255, "train/extr_reward_mean": 0.05790714857478937, "train/extr_reward_min": -0.6311401493019528, "train/extr_reward_std": 0.23195782634947035, "train/image_loss_mean": 3.299039387040668, "train/image_loss_std": 8.478003011809456, "train/model_loss_mean": 6.54312789440155, "train/model_loss_std": 12.582302265697056, "train/model_opt_grad_norm": 24.53353140089247, "train/model_opt_grad_steps": 390889.0, "train/model_opt_loss": 8178.909864637587, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.7172498603661857, "train/policy_entropy_max": 2.7172498603661857, "train/policy_entropy_mean": 0.4083238320632113, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6097103067570262, "train/policy_logprob_mag": 7.4383842547734575, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4089796021580696, "train/policy_logprob_min": -7.4383842547734575, "train/policy_logprob_std": 1.0337398457858298, "train/policy_randomness_mag": 0.9590699556801054, "train/policy_randomness_max": 0.9590699556801054, "train/policy_randomness_mean": 0.14412039352787864, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21520098195307785, "train/post_ent_mag": 55.20075713263618, "train/post_ent_max": 55.20075713263618, "train/post_ent_mean": 40.719005054897735, "train/post_ent_min": 19.33257673846351, "train/post_ent_std": 5.754487706555261, "train/prior_ent_mag": 76.72091706593831, "train/prior_ent_max": 76.72091706593831, "train/prior_ent_mean": 46.02888139088949, "train/prior_ent_min": 28.365979433059692, "train/prior_ent_std": 7.638150042957729, "train/rep_loss_mean": 5.314937200811174, "train/rep_loss_std": 8.827122423383924, "train/reward_avg": 0.038418239888010755, "train/reward_loss_mean": 0.055072175028423466, "train/reward_loss_std": 0.21688070707023144, "train/reward_max_data": 1.027777784400516, "train/reward_max_pred": 1.0241514096657436, "train/reward_neg_acc": 0.993003802994887, "train/reward_neg_loss": 0.02501639047275401, "train/reward_pos_acc": 0.9902249996860822, "train/reward_pos_loss": 0.7245879421631495, "train/reward_pred": 0.03827016045235925, "train/reward_rate": 0.043036566840277776, "stats/sum_log_reward": 11.93333371480306, "stats/max_log_achievement_collect_coal": 0.3333333333333333, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.1666666666666665, "stats/max_log_achievement_collect_stone": 11.166666666666666, "stats/max_log_achievement_collect_wood": 12.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.8333333333333333, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.3333333333333333, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_stone": 3.3333333333333335, "stats/max_log_achievement_place_table": 2.6666666666666665, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.4696791196862857, "replay/size": 784170.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.4863777582158043e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2211336944643304e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1381483078003, "timer/env.step_count": 1448.0, "timer/env.step_total": 16.988882541656494, "timer/env.step_frac": 0.05660354285998295, "timer/env.step_avg": 0.011732653688989292, "timer/env.step_min": 0.0026421546936035156, "timer/env.step_max": 1.6162328720092773, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.27701854705810547, "timer/replay.add_frac": 0.0009229701343196633, "timer/replay.add_avg": 0.000191311151283222, "timer/replay.add_min": 6.4849853515625e-05, "timer/replay.add_max": 0.004909038543701172, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02517080307006836, "timer/logger.write_frac": 8.386405797457968e-05, "timer/logger.write_avg": 0.02517080307006836, "timer/logger.write_min": 0.02517080307006836, "timer/logger.write_max": 0.02517080307006836, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 10.983392477035522, "timer/agent.policy_frac": 0.03659445671588451, "timer/agent.policy_avg": 0.007585215799057681, "timer/agent.policy_min": 0.005601167678833008, "timer/agent.policy_max": 0.016285181045532227, "timer/dataset_count": 724.0, "timer/dataset_total": 0.06185150146484375, "timer/dataset_frac": 0.00020607677435729782, "timer/dataset_avg": 8.543025064204938e-05, "timer/dataset_min": 6.389617919921875e-05, "timer/dataset_max": 0.000156402587890625, "timer/agent.train_count": 724.0, "timer/agent.train_total": 271.11034321784973, "timer/agent.train_frac": 0.9032851863263256, "timer/agent.train_avg": 0.37446180002465435, "timer/agent.train_min": 0.3661839962005615, "timer/agent.train_max": 2.2850160598754883, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22669672966003418, "timer/agent.report_frac": 0.0007553079504826896, "timer/agent.report_avg": 0.22669672966003418, "timer/agent.report_min": 0.22669672966003418, "timer/agent.report_max": 0.22669672966003418, "fps": 4.82438178467342}
{"step": 784653, "episode/length": 438.0, "episode/score": 13.099999964237213, "episode/sum_abs_reward": 16.900000020861626, "episode/reward_rate": 0.03189066059225513}
{"step": 785099, "episode/length": 445.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.026905829596412557}
{"step": 785311, "episode/length": 211.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06132075471698113}
{"step": 785545, "episode/length": 233.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.900000005960464, "episode/reward_rate": 0.05128205128205128}
{"step": 785709, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.435476767050253, "train/action_min": 0.0, "train/action_std": 3.3023544678816923, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03846112218358227, "train/actor_opt_grad_steps": 391935.0, "train/actor_opt_loss": -13.490790614405194, "train/adv_mag": 0.38649380348018697, "train/adv_max": 0.33092094696051366, "train/adv_mean": 0.0011966973626250685, "train/adv_min": -0.34524473547935486, "train/adv_std": 0.0432204596094183, "train/cont_avg": 0.9953019425675675, "train/cont_loss_mean": 9.960562701701599e-05, "train/cont_loss_std": 0.0031202534183714884, "train/cont_neg_acc": 0.9977477482847266, "train/cont_neg_loss": 0.012066680110345297, "train/cont_pos_acc": 0.9999734582127752, "train/cont_pos_loss": 2.9165031948848138e-05, "train/cont_pred": 0.9952953530324472, "train/cont_rate": 0.9953019425675675, "train/dyn_loss_mean": 5.327007957406946, "train/dyn_loss_std": 8.831653575639468, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9917774023236455, "train/extr_critic_critic_opt_grad_steps": 391935.0, "train/extr_critic_critic_opt_loss": 15566.219383445947, "train/extr_critic_mag": 11.673225286844614, "train/extr_critic_max": 11.673225286844614, "train/extr_critic_mean": 3.4435925161516345, "train/extr_critic_min": -0.41325035932901744, "train/extr_critic_std": 2.8176894735645606, "train/extr_return_normed_mag": 1.3791635117015324, "train/extr_return_normed_max": 1.3791635117015324, "train/extr_return_normed_mean": 0.38431337797963944, "train/extr_return_normed_min": -0.0780855396611465, "train/extr_return_normed_std": 0.3138484121174426, "train/extr_return_rate": 0.8399792829075375, "train/extr_return_raw_mag": 12.466475602742788, "train/extr_return_raw_max": 12.466475602742788, "train/extr_return_raw_mean": 3.454433067424877, "train/extr_return_raw_min": -0.73488602122745, "train/extr_return_raw_std": 2.8433286177145467, "train/extr_reward_mag": 1.0712056127754417, "train/extr_reward_max": 1.0712056127754417, "train/extr_reward_mean": 0.05847282002906542, "train/extr_reward_min": -0.6032011186754381, "train/extr_reward_std": 0.2326202247593854, "train/image_loss_mean": 3.2448514941576363, "train/image_loss_std": 8.42358197392644, "train/model_loss_mean": 6.4955288783924, "train/model_loss_std": 12.563881371472332, "train/model_opt_grad_norm": 24.677866510442787, "train/model_opt_grad_steps": 391619.0, "train/model_opt_loss": 14730.321005331503, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2263.5135135135133, "train/policy_entropy_mag": 2.7139617462415955, "train/policy_entropy_max": 2.7139617462415955, "train/policy_entropy_mean": 0.4014845311238959, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6018692029489053, "train/policy_logprob_mag": 7.43838424940367, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4017700806662843, "train/policy_logprob_min": -7.43838424940367, "train/policy_logprob_std": 1.0297421482769218, "train/policy_randomness_mag": 0.9579093979822623, "train/policy_randomness_max": 0.9579093979822623, "train/policy_randomness_mean": 0.14170642126653646, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21243341478544311, "train/post_ent_mag": 55.15526555035565, "train/post_ent_max": 55.15526555035565, "train/post_ent_mean": 40.715806084710195, "train/post_ent_min": 19.07496603115185, "train/post_ent_std": 5.717601615029412, "train/prior_ent_mag": 76.7365442224451, "train/prior_ent_max": 76.7365442224451, "train/prior_ent_mean": 46.030502937935495, "train/prior_ent_min": 28.358348769110602, "train/prior_ent_std": 7.573211573265694, "train/rep_loss_mean": 5.327007957406946, "train/rep_loss_std": 8.831653575639468, "train/reward_avg": 0.040836148316393026, "train/reward_loss_mean": 0.05437299352441285, "train/reward_loss_std": 0.20844220329780835, "train/reward_max_data": 1.0337837918384656, "train/reward_max_pred": 1.0320866752315212, "train/reward_neg_acc": 0.9939286378589837, "train/reward_neg_loss": 0.022713705230302906, "train/reward_pos_acc": 0.991422358396891, "train/reward_pos_loss": 0.7279095077836836, "train/reward_pred": 0.04045374933126811, "train/reward_rate": 0.04505384290540541, "stats/sum_log_reward": 11.599999904632568, "stats/max_log_achievement_collect_coal": 0.0, "stats/max_log_achievement_collect_drink": 5.25, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.25, "stats/max_log_achievement_collect_stone": 16.25, "stats/max_log_achievement_collect_wood": 14.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.25, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "stats/max_log_achievement_make_stone_sword": 0.5, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.5, "stats/max_log_achievement_place_plant": 2.25, "stats/max_log_achievement_place_stone": 2.0, "stats/max_log_achievement_place_table": 2.75, "stats/max_log_achievement_wake_up": 2.5, "stats/mean_log_entropy": 0.5875552296638489, "replay/size": 785646.0, "replay/inserts": 1476.0, "replay/samples": 11808.0, "replay/insert_wait_avg": 3.500197961078427e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2322937246906725e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.34691619873047, "timer/env.step_count": 1476.0, "timer/env.step_total": 13.60318112373352, "timer/env.step_frac": 0.045291562490132935, "timer/env.step_avg": 0.009216247373803199, "timer/env.step_min": 0.0029921531677246094, "timer/env.step_max": 1.5627689361572266, "timer/replay.add_count": 1476.0, "timer/replay.add_total": 0.29581737518310547, "timer/replay.add_frac": 0.0009849189694605422, "timer/replay.add_avg": 0.00020041827586931264, "timer/replay.add_min": 6.771087646484375e-05, "timer/replay.add_max": 0.004611968994140625, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029355287551879883, "timer/logger.write_frac": 9.773793559597055e-05, "timer/logger.write_avg": 0.029355287551879883, "timer/logger.write_min": 0.029355287551879883, "timer/logger.write_max": 0.029355287551879883, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1476.0, "timer/agent.policy_total": 11.206896781921387, "timer/agent.policy_frac": 0.03731317412463833, "timer/agent.policy_avg": 0.007592748497236712, "timer/agent.policy_min": 0.005692720413208008, "timer/agent.policy_max": 0.018731355667114258, "timer/dataset_count": 738.0, "timer/dataset_total": 0.06258082389831543, "timer/dataset_frac": 0.00020836179938304276, "timer/dataset_avg": 8.479786436086101e-05, "timer/dataset_min": 6.4849853515625e-05, "timer/dataset_max": 0.0001914501190185547, "timer/agent.train_count": 738.0, "timer/agent.train_total": 274.4677233695984, "timer/agent.train_frac": 0.9138356632501311, "timer/agent.train_avg": 0.37190748424064823, "timer/agent.train_min": 0.3653898239135742, "timer/agent.train_max": 0.38552212715148926, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22228312492370605, "timer/agent.report_frac": 0.0007400879214508999, "timer/agent.report_avg": 0.22228312492370605, "timer/agent.report_min": 0.22228312492370605, "timer/agent.report_max": 0.22228312492370605, "fps": 4.914252689928027}
{"step": 785711, "episode/length": 165.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06626506024096386}
{"step": 785991, "episode/length": 279.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 15.900000020861626, "episode/reward_rate": 0.05714285714285714}
{"step": 786181, "episode/length": 189.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.07368421052631578}
{"step": 786337, "episode/length": 155.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.08333333333333333}
{"step": 786508, "episode/length": 170.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.07602339181286549}
{"step": 786714, "episode/length": 205.0, "episode/score": 11.100000016391277, "episode/sum_abs_reward": 12.30000003427267, "episode/reward_rate": 0.05825242718446602}
{"step": 786987, "episode/length": 272.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.05128205128205128}
{"step": 787136, "stats/sum_log_reward": 12.242857524326869, "stats/max_log_achievement_collect_coal": 0.2857142857142857, "stats/max_log_achievement_collect_drink": 1.8571428571428572, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 12.571428571428571, "stats/max_log_achievement_collect_wood": 14.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.2857142857142858, "stats/max_log_achievement_eat_cow": 0.42857142857142855, "stats/max_log_achievement_make_stone_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_stone_sword": 1.1428571428571428, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.2857142857142858, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 2.142857142857143, "stats/max_log_achievement_place_table": 3.5714285714285716, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.33258269088608877, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.371663698008363, "train/action_min": 0.0, "train/action_std": 3.200069823735197, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04005882763107058, "train/actor_opt_grad_steps": 392660.0, "train/actor_opt_loss": -12.403560722377938, "train/adv_mag": 0.42602524748990234, "train/adv_max": 0.3452357318199856, "train/adv_mean": 0.0025372954061284375, "train/adv_min": -0.3821274394720373, "train/adv_std": 0.04545382321090766, "train/cont_avg": 0.9947320642605634, "train/cont_loss_mean": 5.228073710999121e-05, "train/cont_loss_std": 0.0016367056699215976, "train/cont_neg_acc": 0.9985915497994758, "train/cont_neg_loss": 0.00470721843514895, "train/cont_pos_acc": 0.9999999806914531, "train/cont_pos_loss": 7.461482509460868e-06, "train/cont_pred": 0.9947405004165542, "train/cont_rate": 0.9947320642605634, "train/dyn_loss_mean": 5.3617469492092935, "train/dyn_loss_std": 8.856490806794502, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0086946067675737, "train/extr_critic_critic_opt_grad_steps": 392660.0, "train/extr_critic_critic_opt_loss": 15836.5, "train/extr_critic_mag": 11.794506019269916, "train/extr_critic_max": 11.794506019269916, "train/extr_critic_mean": 3.618039910222443, "train/extr_critic_min": -0.42174271630569243, "train/extr_critic_std": 2.8639096978684546, "train/extr_return_normed_mag": 1.3972993988386342, "train/extr_return_normed_max": 1.3972993988386342, "train/extr_return_normed_mean": 0.40570406342895937, "train/extr_return_normed_min": -0.08398588085678262, "train/extr_return_normed_std": 0.3192697200976627, "train/extr_return_rate": 0.8443506553139485, "train/extr_return_raw_mag": 12.621489417385048, "train/extr_return_raw_max": 12.621489417385048, "train/extr_return_raw_mean": 3.6409906770142033, "train/extr_return_raw_min": -0.79329188021136, "train/extr_return_raw_std": 2.8913243958647823, "train/extr_reward_mag": 1.0728924946046212, "train/extr_reward_max": 1.0728924946046212, "train/extr_reward_mean": 0.06150869248618542, "train/extr_reward_min": -0.6584342214423167, "train/extr_reward_std": 0.2384615339023966, "train/image_loss_mean": 3.1466597755190353, "train/image_loss_std": 8.210198315096573, "train/model_loss_mean": 6.4199651865892005, "train/model_loss_std": 12.369234575352198, "train/model_opt_grad_norm": 24.61346624938535, "train/model_opt_grad_steps": 392343.61971830984, "train/model_opt_loss": 16982.601136113557, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2640.845070422535, "train/policy_entropy_mag": 2.6990478777549636, "train/policy_entropy_max": 2.6990478777549636, "train/policy_entropy_mean": 0.38372509244462133, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5799659776016021, "train/policy_logprob_mag": 7.4383842172757, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.385088411435275, "train/policy_logprob_min": -7.4383842172757, "train/policy_logprob_std": 1.0201783339742203, "train/policy_randomness_mag": 0.9526454554477208, "train/policy_randomness_max": 0.9526454554477208, "train/policy_randomness_mean": 0.13543811650343343, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2047025401827315, "train/post_ent_mag": 55.44114808633294, "train/post_ent_max": 55.44114808633294, "train/post_ent_mean": 40.63060024422659, "train/post_ent_min": 19.607218782666703, "train/post_ent_std": 5.717098363688295, "train/prior_ent_mag": 76.75542245784276, "train/prior_ent_max": 76.75542245784276, "train/prior_ent_mean": 45.96916494235187, "train/prior_ent_min": 28.29680112382056, "train/prior_ent_std": 7.683794014890429, "train/rep_loss_mean": 5.3617469492092935, "train/rep_loss_std": 8.856490806794502, "train/reward_avg": 0.0410912741552776, "train/reward_loss_mean": 0.056204950095902026, "train/reward_loss_std": 0.21684297667422764, "train/reward_max_data": 1.0225352166404187, "train/reward_max_pred": 1.0235962666256326, "train/reward_neg_acc": 0.9936524671567998, "train/reward_neg_loss": 0.024034541585600713, "train/reward_pos_acc": 0.9902190801123498, "train/reward_pos_loss": 0.7305764194945215, "train/reward_pred": 0.040759655082939376, "train/reward_rate": 0.045623349471830985, "replay/size": 787073.0, "replay/inserts": 1427.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 3.517133502920107e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2355006259420644e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0108389854431, "timer/env.step_count": 1427.0, "timer/env.step_total": 21.0229012966156, "timer/env.step_frac": 0.07007380589217864, "timer/env.step_avg": 0.014732236367635319, "timer/env.step_min": 0.002855539321899414, "timer/env.step_max": 2.5436434745788574, "timer/replay.add_count": 1427.0, "timer/replay.add_total": 0.28127050399780273, "timer/replay.add_frac": 0.0009375344735843038, "timer/replay.add_avg": 0.00019710616958500541, "timer/replay.add_min": 7.176399230957031e-05, "timer/replay.add_max": 0.004128694534301758, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030697107315063477, "timer/logger.write_frac": 0.00010231999423378479, "timer/logger.write_avg": 0.030697107315063477, "timer/logger.write_min": 0.030697107315063477, "timer/logger.write_max": 0.030697107315063477, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00016951560974121094, "timer/checkpoint.save_frac": 5.650316179057652e-07, "timer/checkpoint.save_avg": 0.00016951560974121094, "timer/checkpoint.save_min": 0.00016951560974121094, "timer/checkpoint.save_max": 0.00016951560974121094, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4804894924163818, "timer/agent.save_frac": 0.004934786681117935, "timer/agent.save_avg": 1.4804894924163818, "timer/agent.save_min": 1.4804894924163818, "timer/agent.save_max": 1.4804894924163818, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.344650268554688e-05, "timer/replay.save_frac": 2.781449595879294e-07, "timer/replay.save_avg": 8.344650268554688e-05, "timer/replay.save_min": 8.344650268554688e-05, "timer/replay.save_max": 8.344650268554688e-05, "timer/agent.policy_count": 1427.0, "timer/agent.policy_total": 12.30311393737793, "timer/agent.policy_frac": 0.04100889814175978, "timer/agent.policy_avg": 0.00862166358610927, "timer/agent.policy_min": 0.0057756900787353516, "timer/agent.policy_max": 1.4742133617401123, "timer/dataset_count": 713.0, "timer/dataset_total": 0.06052279472351074, "timer/dataset_frac": 0.00020173536038958705, "timer/dataset_avg": 8.488470508206276e-05, "timer/dataset_min": 6.29425048828125e-05, "timer/dataset_max": 0.00016689300537109375, "timer/agent.train_count": 713.0, "timer/agent.train_total": 265.60812616348267, "timer/agent.train_frac": 0.8853284336715924, "timer/agent.train_avg": 0.3725219160778158, "timer/agent.train_min": 0.3652982711791992, "timer/agent.train_max": 0.8667905330657959, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22190451622009277, "timer/agent.report_frac": 0.00073965499703449, "timer/agent.report_avg": 0.22190451622009277, "timer/agent.report_min": 0.22190451622009277, "timer/agent.report_max": 0.22190451622009277, "fps": 4.756423139727629}
{"step": 787255, "episode/length": 267.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.04477611940298507}
{"step": 787649, "episode/length": 393.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.03807106598984772}
{"step": 787916, "episode/length": 266.0, "episode/score": 14.099999994039536, "episode/sum_abs_reward": 16.500000059604645, "episode/reward_rate": 0.0599250936329588}
{"step": 788089, "episode/length": 172.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.05202312138728324}
{"step": 788396, "episode/length": 306.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.035830618892508145}
{"step": 788565, "episode/length": 168.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.0650887573964497}
{"step": 788591, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.351499792647688, "train/action_min": 0.0, "train/action_std": 3.242307568249637, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0397971146931387, "train/actor_opt_grad_steps": 393380.0, "train/actor_opt_loss": -11.03703751670171, "train/adv_mag": 0.39854575469069287, "train/adv_max": 0.34259484177582883, "train/adv_mean": 0.0025032520013516897, "train/adv_min": -0.3603466618550967, "train/adv_std": 0.04487491552143881, "train/cont_avg": 0.9948228809931506, "train/cont_loss_mean": 1.3823561273416199e-05, "train/cont_loss_std": 0.0004326829069857187, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0006767652080866324, "train/cont_pos_acc": 0.9999999836699603, "train/cont_pos_loss": 1.0361252520608512e-05, "train/cont_pred": 0.9948170585175083, "train/cont_rate": 0.9948228809931506, "train/dyn_loss_mean": 5.371220046526765, "train/dyn_loss_std": 8.779729771287474, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9956759149081087, "train/extr_critic_critic_opt_grad_steps": 393380.0, "train/extr_critic_critic_opt_loss": 15792.860057255994, "train/extr_critic_mag": 11.857373812427259, "train/extr_critic_max": 11.857373812427259, "train/extr_critic_mean": 3.6040374138583875, "train/extr_critic_min": -0.3942774762846019, "train/extr_critic_std": 2.829879982830727, "train/extr_return_normed_mag": 1.4055657925671095, "train/extr_return_normed_max": 1.4055657925671095, "train/extr_return_normed_mean": 0.404695867063248, "train/extr_return_normed_min": -0.07800012908569753, "train/extr_return_normed_std": 0.3173669174517671, "train/extr_return_rate": 0.856167101696746, "train/extr_return_raw_mag": 12.642849177530367, "train/extr_return_raw_max": 12.642849177530367, "train/extr_return_raw_mean": 3.6265873255794996, "train/extr_return_raw_min": -0.7222816695089209, "train/extr_return_raw_std": 2.8593435254815507, "train/extr_reward_mag": 1.069227300278128, "train/extr_reward_max": 1.069227300278128, "train/extr_reward_mean": 0.06019034989382306, "train/extr_reward_min": -0.5974623928331348, "train/extr_reward_std": 0.236052858707023, "train/image_loss_mean": 3.1244659897399276, "train/image_loss_std": 8.057163623914327, "train/model_loss_mean": 6.404420787340974, "train/model_loss_std": 12.190892911937139, "train/model_opt_grad_norm": 24.655524332229405, "train/model_opt_grad_steps": 393063.0, "train/model_opt_loss": 16011.051958476028, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.659879991452988, "train/policy_entropy_max": 2.659879991452988, "train/policy_entropy_mean": 0.36457765143211573, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5500012958702976, "train/policy_logprob_mag": 7.438384271647832, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36416766802742057, "train/policy_logprob_min": -7.438384271647832, "train/policy_logprob_std": 0.9956541551302557, "train/policy_randomness_mag": 0.9388209115968992, "train/policy_randomness_max": 0.9388209115968992, "train/policy_randomness_mean": 0.12867991197599124, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1941263231716744, "train/post_ent_mag": 55.18437910733158, "train/post_ent_max": 55.18437910733158, "train/post_ent_mean": 40.68155048318105, "train/post_ent_min": 19.631202684689875, "train/post_ent_std": 5.735800782295122, "train/prior_ent_mag": 76.78299441402906, "train/prior_ent_max": 76.78299441402906, "train/prior_ent_mean": 46.05279901582901, "train/prior_ent_min": 28.061772150536108, "train/prior_ent_std": 7.668708487732769, "train/rep_loss_mean": 5.371220046526765, "train/rep_loss_std": 8.779729771287474, "train/reward_avg": 0.04229050711409686, "train/reward_loss_mean": 0.05720890910453992, "train/reward_loss_std": 0.21572047329112276, "train/reward_max_data": 1.0205479501044914, "train/reward_max_pred": 1.0222908405408466, "train/reward_neg_acc": 0.9937786100661918, "train/reward_neg_loss": 0.0240972658670316, "train/reward_pos_acc": 0.9883634505206591, "train/reward_pos_loss": 0.7342551228118269, "train/reward_pred": 0.041778992325679894, "train/reward_rate": 0.046875, "stats/sum_log_reward": 11.266666730244955, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 4.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.5, "stats/max_log_achievement_collect_stone": 10.666666666666666, "stats/max_log_achievement_collect_wood": 14.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_stone_sword": 1.1666666666666667, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.6666666666666666, "stats/max_log_achievement_place_plant": 2.3333333333333335, "stats/max_log_achievement_place_stone": 1.8333333333333333, "stats/max_log_achievement_place_table": 3.3333333333333335, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.4480755279461543, "replay/size": 788528.0, "replay/inserts": 1455.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.475831546324635e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.248975212757404e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.09317421913147, "timer/env.step_count": 1455.0, "timer/env.step_total": 17.114474058151245, "timer/env.step_frac": 0.05703053427551158, "timer/env.step_avg": 0.011762525125877145, "timer/env.step_min": 0.002876758575439453, "timer/env.step_max": 1.7001066207885742, "timer/replay.add_count": 1455.0, "timer/replay.add_total": 0.28026914596557617, "timer/replay.add_frac": 0.0009339404226532672, "timer/replay.add_avg": 0.00019262484258802487, "timer/replay.add_min": 7.200241088867188e-05, "timer/replay.add_max": 0.0057220458984375, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03636312484741211, "timer/logger.write_frac": 0.00012117278222682712, "timer/logger.write_avg": 0.03636312484741211, "timer/logger.write_min": 0.03636312484741211, "timer/logger.write_max": 0.03636312484741211, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1455.0, "timer/agent.policy_total": 11.173065662384033, "timer/agent.policy_frac": 0.03723198866971007, "timer/agent.policy_avg": 0.007679082929473563, "timer/agent.policy_min": 0.005742073059082031, "timer/agent.policy_max": 0.015902042388916016, "timer/dataset_count": 728.0, "timer/dataset_total": 0.06197786331176758, "timer/dataset_frac": 0.00020652873386087293, "timer/dataset_avg": 8.513442762605436e-05, "timer/dataset_min": 6.270408630371094e-05, "timer/dataset_max": 0.0001437664031982422, "timer/agent.train_count": 728.0, "timer/agent.train_total": 270.737943649292, "timer/agent.train_frac": 0.9021796125612509, "timer/agent.train_avg": 0.37189277973803847, "timer/agent.train_min": 0.36556172370910645, "timer/agent.train_max": 0.38606834411621094, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22272276878356934, "timer/agent.report_frac": 0.0007421787228687001, "timer/agent.report_avg": 0.22272276878356934, "timer/agent.report_min": 0.22272276878356934, "timer/agent.report_max": 0.22272276878356934, "fps": 4.8484029095767465}
{"step": 788770, "episode/length": 204.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.05853658536585366}
{"step": 788974, "episode/length": 203.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.30000003427267, "episode/reward_rate": 0.07352941176470588}
{"step": 789025, "episode/length": 50.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.09803921568627451}
{"step": 789072, "episode/length": 46.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 7.700000025331974, "episode/reward_rate": 0.14893617021276595}
{"step": 789287, "episode/length": 214.0, "episode/score": 15.100000023841858, "episode/sum_abs_reward": 16.900000050663948, "episode/reward_rate": 0.07441860465116279}
{"step": 789483, "episode/length": 195.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.900000028312206, "episode/reward_rate": 0.05102040816326531}
{"step": 789668, "episode/length": 184.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.04864864864864865}
{"step": 789902, "episode/length": 233.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.0641025641025641}
{"step": 790031, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.392005072699653, "train/action_min": 0.0, "train/action_std": 3.2502395543787213, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.040042293439101845, "train/actor_opt_grad_steps": 394105.0, "train/actor_opt_loss": -10.84685050530566, "train/adv_mag": 0.38929269938833183, "train/adv_max": 0.3576805146618022, "train/adv_mean": 0.0026586841008288, "train/adv_min": -0.3233065830750598, "train/adv_std": 0.04446178410823146, "train/cont_avg": 0.9947781032986112, "train/cont_loss_mean": 3.8791476307290886e-05, "train/cont_loss_std": 0.001150402898692862, "train/cont_neg_acc": 0.9980158739619784, "train/cont_neg_loss": 0.0036221414280690725, "train/cont_pos_acc": 0.9999999817874696, "train/cont_pos_loss": 1.5050427094462667e-05, "train/cont_pred": 0.9947806605034404, "train/cont_rate": 0.9947781032986112, "train/dyn_loss_mean": 5.556915203730266, "train/dyn_loss_std": 8.942703684171041, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9907190816269981, "train/extr_critic_critic_opt_grad_steps": 394105.0, "train/extr_critic_critic_opt_loss": 15691.677937825521, "train/extr_critic_mag": 11.924727095497978, "train/extr_critic_max": 11.924727095497978, "train/extr_critic_mean": 3.5958902140458426, "train/extr_critic_min": -0.3901885830693775, "train/extr_critic_std": 2.925203866428799, "train/extr_return_normed_mag": 1.3936844401889377, "train/extr_return_normed_max": 1.3936844401889377, "train/extr_return_normed_mean": 0.3983481033808655, "train/extr_return_normed_min": -0.0737528603317009, "train/extr_return_normed_std": 0.32432060316205025, "train/extr_return_rate": 0.8342312706841363, "train/extr_return_raw_mag": 12.709435409969753, "train/extr_return_raw_max": 12.709435409969753, "train/extr_return_raw_mean": 3.620172470808029, "train/extr_return_raw_min": -0.6902218204405572, "train/extr_return_raw_std": 2.961246086491479, "train/extr_reward_mag": 1.0717547535896301, "train/extr_reward_max": 1.0717547535896301, "train/extr_reward_mean": 0.06008582836430934, "train/extr_reward_min": -0.6201131244500478, "train/extr_reward_std": 0.23579122560719648, "train/image_loss_mean": 3.3163520892461142, "train/image_loss_std": 8.339513924386766, "train/model_loss_mean": 6.706909285651313, "train/model_loss_std": 12.538725998666552, "train/model_opt_grad_norm": 23.821286333931816, "train/model_opt_grad_steps": 393787.02777777775, "train/model_opt_loss": 17312.99001736111, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2569.4444444444443, "train/policy_entropy_mag": 2.705284317334493, "train/policy_entropy_max": 2.705284317334493, "train/policy_entropy_mean": 0.38198434623579186, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5747836385336187, "train/policy_logprob_mag": 7.438384307755364, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38171374301115674, "train/policy_logprob_min": -7.438384307755364, "train/policy_logprob_std": 1.0108131244778633, "train/policy_randomness_mag": 0.9548466462228034, "train/policy_randomness_max": 0.9548466462228034, "train/policy_randomness_mean": 0.13482371220986047, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20287339720461103, "train/post_ent_mag": 55.233352767096626, "train/post_ent_max": 55.233352767096626, "train/post_ent_mean": 40.502360343933105, "train/post_ent_min": 19.0776963101493, "train/post_ent_std": 5.760494881206089, "train/prior_ent_mag": 76.80258888668484, "train/prior_ent_max": 76.80258888668484, "train/prior_ent_mean": 46.062387731340195, "train/prior_ent_min": 28.091781987084282, "train/prior_ent_std": 7.704512006706661, "train/rep_loss_mean": 5.556915203730266, "train/rep_loss_std": 8.942703684171041, "train/reward_avg": 0.04009060292608208, "train/reward_loss_mean": 0.05636923491126961, "train/reward_loss_std": 0.2133744096176492, "train/reward_max_data": 1.0236111167404387, "train/reward_max_pred": 1.0223968128363292, "train/reward_neg_acc": 0.9940489737523927, "train/reward_neg_loss": 0.025124488294952445, "train/reward_pos_acc": 0.990152163638009, "train/reward_pos_loss": 0.7235118539796935, "train/reward_pred": 0.03976598436323305, "train/reward_rate": 0.04477267795138889, "stats/sum_log_reward": 10.225000262260437, "stats/max_log_achievement_collect_coal": 0.875, "stats/max_log_achievement_collect_drink": 1.625, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.25, "stats/max_log_achievement_collect_stone": 6.375, "stats/max_log_achievement_collect_wood": 10.5, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.75, "stats/max_log_achievement_make_stone_sword": 0.75, "stats/max_log_achievement_make_wood_pickaxe": 1.125, "stats/max_log_achievement_make_wood_sword": 0.75, "stats/max_log_achievement_place_furnace": 0.5, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 1.375, "stats/max_log_achievement_place_table": 2.875, "stats/max_log_achievement_wake_up": 0.875, "stats/mean_log_entropy": 0.2448090799152851, "replay/size": 789968.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.4567382600572376e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.236113409201304e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.12216806411743, "timer/env.step_count": 1440.0, "timer/env.step_total": 20.25808835029602, "timer/env.step_frac": 0.0674994735676044, "timer/env.step_avg": 0.014068116909927791, "timer/env.step_min": 0.002538919448852539, "timer/env.step_max": 1.7130789756774902, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.26813220977783203, "timer/replay.add_frac": 0.0008934102119392556, "timer/replay.add_avg": 0.0001862029234568278, "timer/replay.add_min": 6.67572021484375e-05, "timer/replay.add_max": 0.004584312438964844, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0220181941986084, "timer/logger.write_frac": 7.336410482648679e-05, "timer/logger.write_avg": 0.0220181941986084, "timer/logger.write_min": 0.0220181941986084, "timer/logger.write_max": 0.0220181941986084, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 11.005272388458252, "timer/agent.policy_frac": 0.0366693085667271, "timer/agent.policy_avg": 0.0076425502697626746, "timer/agent.policy_min": 0.0057260990142822266, "timer/agent.policy_max": 0.014851570129394531, "timer/dataset_count": 720.0, "timer/dataset_total": 0.0609736442565918, "timer/dataset_frac": 0.00020316274752342028, "timer/dataset_avg": 8.468561702304416e-05, "timer/dataset_min": 6.127357482910156e-05, "timer/dataset_max": 0.0001289844512939453, "timer/agent.train_count": 720.0, "timer/agent.train_total": 267.82856917381287, "timer/agent.train_frac": 0.8923984885934669, "timer/agent.train_avg": 0.3719841238525179, "timer/agent.train_min": 0.3659977912902832, "timer/agent.train_max": 0.3883359432220459, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21903324127197266, "timer/agent.report_frac": 0.000729813604522472, "timer/agent.report_avg": 0.21903324127197266, "timer/agent.report_min": 0.21903324127197266, "timer/agent.report_max": 0.21903324127197266, "fps": 4.797975242575202}
{"step": 790224, "episode/length": 321.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.049689440993788817}
{"step": 790456, "episode/length": 231.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.0603448275862069}
{"step": 790645, "episode/length": 188.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 11.30000003427267, "episode/reward_rate": 0.05291005291005291}
{"step": 790828, "episode/length": 182.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.08196721311475409}
{"step": 790916, "episode/length": 87.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.11363636363636363}
{"step": 791151, "episode/length": 234.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.0425531914893617}
{"step": 791385, "episode/length": 233.0, "episode/score": 12.099999971687794, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.05982905982905983}
{"step": 791459, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.3707936604817705, "train/action_min": 0.0, "train/action_std": 3.2128529681099787, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.039329178320864834, "train/actor_opt_grad_steps": 394825.0, "train/actor_opt_loss": -11.559891666803095, "train/adv_mag": 0.4076917680601279, "train/adv_max": 0.3454931245909797, "train/adv_mean": 0.002108670382502472, "train/adv_min": -0.34646198629505104, "train/adv_std": 0.04394745045445032, "train/cont_avg": 0.9947102864583334, "train/cont_loss_mean": 0.00014098210117512936, "train/cont_loss_std": 0.0043396204008353655, "train/cont_neg_acc": 0.9982638888888888, "train/cont_neg_loss": 0.012193607637537221, "train/cont_pos_acc": 0.9999863422579236, "train/cont_pos_loss": 8.23945159124959e-05, "train/cont_pred": 0.9947203223903974, "train/cont_rate": 0.9947102864583334, "train/dyn_loss_mean": 5.50325083732605, "train/dyn_loss_std": 8.863378081056807, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0111366973982916, "train/extr_critic_critic_opt_grad_steps": 394825.0, "train/extr_critic_critic_opt_loss": 15688.398735894098, "train/extr_critic_mag": 11.909039523866442, "train/extr_critic_max": 11.909039523866442, "train/extr_critic_mean": 3.595685452222824, "train/extr_critic_min": -0.4227345900403129, "train/extr_critic_std": 2.908867445256975, "train/extr_return_normed_mag": 1.3870954993698332, "train/extr_return_normed_max": 1.3870954993698332, "train/extr_return_normed_mean": 0.393068615347147, "train/extr_return_normed_min": -0.08024819924806555, "train/extr_return_normed_std": 0.3194996288253201, "train/extr_return_rate": 0.8469012694226371, "train/extr_return_raw_mag": 12.74269896083408, "train/extr_return_raw_max": 12.74269896083408, "train/extr_return_raw_mean": 3.6150504052639008, "train/extr_return_raw_min": -0.7317983147998651, "train/extr_return_raw_std": 2.934275166855918, "train/extr_reward_mag": 1.075570609834459, "train/extr_reward_max": 1.075570609834459, "train/extr_reward_mean": 0.05873955781054166, "train/extr_reward_min": -0.6144075261221992, "train/extr_reward_std": 0.23352845571935177, "train/image_loss_mean": 3.2738073435094623, "train/image_loss_std": 8.43665909104877, "train/model_loss_mean": 6.632908112472958, "train/model_loss_std": 12.570822397867838, "train/model_opt_grad_norm": 25.805480851067436, "train/model_opt_grad_steps": 394506.4861111111, "train/model_opt_loss": 17444.29694281684, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2673.6111111111113, "train/policy_entropy_mag": 2.720183846023348, "train/policy_entropy_max": 2.720183846023348, "train/policy_entropy_mean": 0.3923670477751229, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5939135294821527, "train/policy_logprob_mag": 7.438384241527981, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39239732548594475, "train/policy_logprob_min": -7.438384241527981, "train/policy_logprob_std": 1.0221720337867737, "train/policy_randomness_mag": 0.9601055284341177, "train/policy_randomness_max": 0.9601055284341177, "train/policy_randomness_mean": 0.1384883507465323, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20962541146824756, "train/post_ent_mag": 54.99154678980509, "train/post_ent_max": 54.99154678980509, "train/post_ent_mean": 40.479208893246124, "train/post_ent_min": 19.891725381215412, "train/post_ent_std": 5.744499835703108, "train/prior_ent_mag": 76.70525328318278, "train/prior_ent_max": 76.70525328318278, "train/prior_ent_mean": 45.97183598412408, "train/prior_ent_min": 28.011832025316025, "train/prior_ent_std": 7.743220501475864, "train/rep_loss_mean": 5.50325083732605, "train/rep_loss_std": 8.863378081056807, "train/reward_avg": 0.041010199373381004, "train/reward_loss_mean": 0.05700929695740342, "train/reward_loss_std": 0.20940599445667532, "train/reward_max_data": 1.0388888981607225, "train/reward_max_pred": 1.038313337498241, "train/reward_neg_acc": 0.9937590244743559, "train/reward_neg_loss": 0.02494584897067398, "train/reward_pos_acc": 0.9895393244094319, "train/reward_pos_loss": 0.7234175246622827, "train/reward_pred": 0.040732619249158435, "train/reward_rate": 0.04592556423611111, "stats/sum_log_reward": 11.67142881665911, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 2.5714285714285716, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 11.142857142857142, "stats/max_log_achievement_collect_wood": 13.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.2857142857142857, "stats/max_log_achievement_defeat_zombie": 0.8571428571428571, "stats/max_log_achievement_eat_cow": 0.42857142857142855, "stats/max_log_achievement_make_stone_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_stone_sword": 0.7142857142857143, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 1.8571428571428572, "stats/max_log_achievement_place_table": 3.2857142857142856, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.31527090285505566, "replay/size": 791396.0, "replay/inserts": 1428.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 3.49713974640149e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2462296071840602e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3222105503082, "timer/env.step_count": 1428.0, "timer/env.step_total": 20.389012813568115, "timer/env.step_frac": 0.06789045930438324, "timer/env.step_avg": 0.014278020177568709, "timer/env.step_min": 0.0029196739196777344, "timer/env.step_max": 1.9220833778381348, "timer/replay.add_count": 1428.0, "timer/replay.add_total": 0.269406795501709, "timer/replay.add_frac": 0.0008970591785670795, "timer/replay.add_avg": 0.0001886602209395721, "timer/replay.add_min": 7.104873657226562e-05, "timer/replay.add_max": 0.0022776126861572266, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027144432067871094, "timer/logger.write_frac": 9.038436424043308e-05, "timer/logger.write_avg": 0.027144432067871094, "timer/logger.write_min": 0.027144432067871094, "timer/logger.write_max": 0.027144432067871094, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003752708435058594, "timer/checkpoint.save_frac": 1.2495607395077967e-06, "timer/checkpoint.save_avg": 0.0003752708435058594, "timer/checkpoint.save_min": 0.0003752708435058594, "timer/checkpoint.save_max": 0.0003752708435058594, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.266408920288086, "timer/agent.save_frac": 0.004216834039572123, "timer/agent.save_avg": 1.266408920288086, "timer/agent.save_min": 1.266408920288086, "timer/agent.save_max": 1.266408920288086, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.344650268554688e-05, "timer/replay.save_frac": 2.7785658121202597e-07, "timer/replay.save_avg": 8.344650268554688e-05, "timer/replay.save_min": 8.344650268554688e-05, "timer/replay.save_max": 8.344650268554688e-05, "timer/agent.policy_count": 1428.0, "timer/agent.policy_total": 12.899919033050537, "timer/agent.policy_frac": 0.04295359643701616, "timer/agent.policy_avg": 0.009033556745833709, "timer/agent.policy_min": 0.005679130554199219, "timer/agent.policy_max": 1.2647171020507812, "timer/dataset_count": 714.0, "timer/dataset_total": 0.061211585998535156, "timer/dataset_frac": 0.00020381971045821583, "timer/dataset_avg": 8.573051260299042e-05, "timer/dataset_min": 6.318092346191406e-05, "timer/dataset_max": 0.0001819133758544922, "timer/agent.train_count": 714.0, "timer/agent.train_total": 265.99140667915344, "timer/agent.train_frac": 0.8856867635322501, "timer/agent.train_avg": 0.3725369841444726, "timer/agent.train_min": 0.3647780418395996, "timer/agent.train_max": 0.9107496738433838, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22113823890686035, "timer/agent.report_frac": 0.0007363366116067415, "timer/agent.report_avg": 0.22113823890686035, "timer/agent.report_min": 0.22113823890686035, "timer/agent.report_max": 0.22113823890686035, "fps": 4.754811501915598}
{"step": 791614, "episode/length": 228.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.06550218340611354}
{"step": 791852, "episode/length": 237.0, "episode/score": 14.099999994039536, "episode/sum_abs_reward": 16.30000004172325, "episode/reward_rate": 0.06302521008403361}
{"step": 792101, "episode/length": 248.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.05220883534136546}
{"step": 792269, "episode/length": 167.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.07738095238095238}
{"step": 792518, "episode/length": 248.0, "episode/score": 13.099999979138374, "episode/sum_abs_reward": 16.10000003874302, "episode/reward_rate": 0.05622489959839357}
{"step": 792695, "episode/length": 176.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.07909604519774012}
{"step": 792913, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.3676300048828125, "train/action_min": 0.0, "train/action_std": 3.2421702477667065, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03968509105551574, "train/actor_opt_grad_steps": 395545.0, "train/actor_opt_loss": -12.752549525764254, "train/adv_mag": 0.41333327318231267, "train/adv_max": 0.3707384334670173, "train/adv_mean": 0.0019240964837889704, "train/adv_min": -0.3531175483432081, "train/adv_std": 0.04419725533160898, "train/cont_avg": 0.9951578776041666, "train/cont_loss_mean": 0.00011967778498542557, "train/cont_loss_std": 0.0036778175326285614, "train/cont_neg_acc": 0.9972222223877907, "train/cont_neg_loss": 0.009189802422164285, "train/cont_pos_acc": 0.9999863273567624, "train/cont_pos_loss": 7.32682538434738e-05, "train/cont_pred": 0.9951527739564577, "train/cont_rate": 0.9951578776041666, "train/dyn_loss_mean": 5.343045016129811, "train/dyn_loss_std": 8.831406997309792, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9717023852798674, "train/extr_critic_critic_opt_grad_steps": 395545.0, "train/extr_critic_critic_opt_loss": 15649.796644422742, "train/extr_critic_mag": 11.92847196261088, "train/extr_critic_max": 11.92847196261088, "train/extr_critic_mean": 3.5725228720241122, "train/extr_critic_min": -0.4121432817644543, "train/extr_critic_std": 2.8456884258323245, "train/extr_return_normed_mag": 1.3902767449617386, "train/extr_return_normed_max": 1.3902767449617386, "train/extr_return_normed_mean": 0.39141306198305553, "train/extr_return_normed_min": -0.07925145917882521, "train/extr_return_normed_std": 0.3124444511615568, "train/extr_return_rate": 0.8498336689339744, "train/extr_return_raw_mag": 12.78544983598921, "train/extr_return_raw_max": 12.78544983598921, "train/extr_return_raw_mean": 3.5902324782477484, "train/extr_return_raw_min": -0.743006620142195, "train/extr_return_raw_std": 2.876533372534646, "train/extr_reward_mag": 1.0695322751998901, "train/extr_reward_max": 1.0695322751998901, "train/extr_reward_mean": 0.05873988480824563, "train/extr_reward_min": -0.6299975679980384, "train/extr_reward_std": 0.23231574955085912, "train/image_loss_mean": 3.2371389948659473, "train/image_loss_std": 8.662722282939487, "train/model_loss_mean": 6.498255862130059, "train/model_loss_std": 12.793115384048885, "train/model_opt_grad_norm": 23.325645379617182, "train/model_opt_grad_steps": 395225.875, "train/model_opt_loss": 16488.406995985242, "train/model_opt_model_opt_grad_overflow": 0.013888888888888888, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7119273808267383, "train/policy_entropy_max": 2.7119273808267383, "train/policy_entropy_mean": 0.39703881926834583, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6010593101382256, "train/policy_logprob_mag": 7.438384261396196, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3967913157410092, "train/policy_logprob_min": -7.438384261396196, "train/policy_logprob_std": 1.0257605272862647, "train/policy_randomness_mag": 0.9571913596656587, "train/policy_randomness_max": 0.9571913596656587, "train/policy_randomness_mean": 0.1401372788887885, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2121475636959076, "train/post_ent_mag": 55.13107363382975, "train/post_ent_max": 55.13107363382975, "train/post_ent_mean": 40.643154091305206, "train/post_ent_min": 19.446240107218426, "train/post_ent_std": 5.710386488172743, "train/prior_ent_mag": 76.6705920961168, "train/prior_ent_max": 76.6705920961168, "train/prior_ent_mean": 45.97743723127577, "train/prior_ent_min": 28.039191908306545, "train/prior_ent_std": 7.642055610815684, "train/rep_loss_mean": 5.343045016129811, "train/rep_loss_std": 8.831406997309792, "train/reward_avg": 0.03955620599703656, "train/reward_loss_mean": 0.05517012310317821, "train/reward_loss_std": 0.21683250843650764, "train/reward_max_data": 1.0194444490803614, "train/reward_max_pred": 1.020638182759285, "train/reward_neg_acc": 0.9936025432414479, "train/reward_neg_loss": 0.024163133089637592, "train/reward_pos_acc": 0.9887163150641654, "train/reward_pos_loss": 0.7329482841822836, "train/reward_pred": 0.03929759073071182, "train/reward_rate": 0.04393174913194445, "stats/sum_log_reward": 13.100000222524008, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 3.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 12.0, "stats/max_log_achievement_collect_wood": 15.5, "stats/max_log_achievement_defeat_skeleton": 0.3333333333333333, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 2.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.3333333333333333, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 2.8333333333333335, "stats/max_log_achievement_place_table": 4.166666666666667, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.3349771946668625, "replay/size": 792850.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.616124432549352e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2349516686251927e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 299.9893445968628, "timer/env.step_count": 1454.0, "timer/env.step_total": 17.478909730911255, "timer/env.step_frac": 0.05826510189686932, "timer/env.step_avg": 0.012021258411905952, "timer/env.step_min": 0.003171682357788086, "timer/env.step_max": 1.666489601135254, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.2919731140136719, "timer/replay.add_frac": 0.0009732782822871144, "timer/replay.add_avg": 0.0002008068184413149, "timer/replay.add_min": 7.343292236328125e-05, "timer/replay.add_max": 0.005121707916259766, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02966451644897461, "timer/logger.write_frac": 9.888523370334678e-05, "timer/logger.write_avg": 0.02966451644897461, "timer/logger.write_min": 0.02966451644897461, "timer/logger.write_max": 0.02966451644897461, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 11.173907041549683, "timer/agent.policy_frac": 0.037247679768645146, "timer/agent.policy_avg": 0.007684942944669658, "timer/agent.policy_min": 0.0059299468994140625, "timer/agent.policy_max": 0.016439437866210938, "timer/dataset_count": 727.0, "timer/dataset_total": 0.06244969367980957, "timer/dataset_frac": 0.00020817303949155884, "timer/dataset_avg": 8.590054151280546e-05, "timer/dataset_min": 6.127357482910156e-05, "timer/dataset_max": 0.0001590251922607422, "timer/agent.train_count": 727.0, "timer/agent.train_total": 270.2705166339874, "timer/agent.train_frac": 0.9009337214866325, "timer/agent.train_avg": 0.3717613708858149, "timer/agent.train_min": 0.3655257225036621, "timer/agent.train_max": 0.3854687213897705, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2212977409362793, "timer/agent.report_frac": 0.0007376853375697984, "timer/agent.report_avg": 0.2212977409362793, "timer/agent.report_min": 0.2212977409362793, "timer/agent.report_max": 0.2212977409362793, "fps": 4.846757890198321}
{"step": 793183, "episode/length": 487.0, "episode/score": 14.100000023841858, "episode/sum_abs_reward": 18.700000047683716, "episode/reward_rate": 0.03278688524590164}
{"step": 793369, "episode/length": 185.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.06989247311827956}
{"step": 793572, "episode/length": 202.0, "episode/score": 15.100000016391277, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.07881773399014778}
{"step": 793720, "episode/length": 147.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.07432432432432433}
{"step": 793811, "episode/length": 90.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 7.900000028312206, "episode/reward_rate": 0.07692307692307693}
{"step": 794025, "episode/length": 213.0, "episode/score": 11.099999994039536, "episode/sum_abs_reward": 13.300000011920929, "episode/reward_rate": 0.06074766355140187}
{"step": 794244, "episode/length": 218.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.0639269406392694}
{"step": 794361, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.361129969766695, "train/action_min": 0.0, "train/action_std": 3.1665657840362966, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038526373672975255, "train/actor_opt_grad_steps": 396270.0, "train/actor_opt_loss": -12.042654677613141, "train/adv_mag": 0.417032705798541, "train/adv_max": 0.3467174425517043, "train/adv_mean": 0.002296594681554356, "train/adv_min": -0.3621686182609976, "train/adv_std": 0.043702812839860786, "train/cont_avg": 0.9953713613013698, "train/cont_loss_mean": 3.475206334082816e-05, "train/cont_loss_std": 0.0010396878521816365, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0005584289136933179, "train/cont_pos_acc": 0.9999865391483046, "train/cont_pos_loss": 3.1675706354347576e-05, "train/cont_pred": 0.9953495362033583, "train/cont_rate": 0.9953713613013698, "train/dyn_loss_mean": 5.375948716516364, "train/dyn_loss_std": 8.843765526601713, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9997932078087166, "train/extr_critic_critic_opt_grad_steps": 396270.0, "train/extr_critic_critic_opt_loss": 15556.817329302226, "train/extr_critic_mag": 11.902281996322005, "train/extr_critic_max": 11.902281996322005, "train/extr_critic_mean": 3.5950878384995133, "train/extr_critic_min": -0.3792659485176818, "train/extr_critic_std": 2.8611612695537203, "train/extr_return_normed_mag": 1.3839484796132127, "train/extr_return_normed_max": 1.3839484796132127, "train/extr_return_normed_mean": 0.39335180553671434, "train/extr_return_normed_min": -0.07893129662699895, "train/extr_return_normed_std": 0.3145105332544405, "train/extr_return_rate": 0.8428403694335729, "train/extr_return_raw_mag": 12.715000583700938, "train/extr_return_raw_max": 12.715000583700938, "train/extr_return_raw_mean": 3.6161796230159395, "train/extr_return_raw_min": -0.7215326440660921, "train/extr_return_raw_std": 2.888985565263931, "train/extr_reward_mag": 1.0694635404299384, "train/extr_reward_max": 1.0694635404299384, "train/extr_reward_mean": 0.06013945107386537, "train/extr_reward_min": -0.6354908306304723, "train/extr_reward_std": 0.2357875790498028, "train/image_loss_mean": 3.226282482277857, "train/image_loss_std": 8.47336478429298, "train/model_loss_mean": 6.506967394319299, "train/model_loss_std": 12.625152823043196, "train/model_opt_grad_norm": 25.946140938334995, "train/model_opt_grad_steps": 395949.0410958904, "train/model_opt_loss": 8599.512661868579, "train/model_opt_model_opt_grad_overflow": 0.0136986301369863, "train/model_opt_model_opt_grad_scale": 1301.3698630136987, "train/policy_entropy_mag": 2.7113091292446607, "train/policy_entropy_max": 2.7113091292446607, "train/policy_entropy_mean": 0.38134210893552595, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5848524819498193, "train/policy_logprob_mag": 7.4383842651158165, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3812044285339852, "train/policy_logprob_min": -7.4383842651158165, "train/policy_logprob_std": 1.0141598884373495, "train/policy_randomness_mag": 0.9569731420033598, "train/policy_randomness_max": 0.9569731420033598, "train/policy_randomness_mean": 0.1345970309148096, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20642726072301604, "train/post_ent_mag": 55.27006039554126, "train/post_ent_max": 55.27006039554126, "train/post_ent_mean": 40.58361011661896, "train/post_ent_min": 19.529503469597802, "train/post_ent_std": 5.74954423512498, "train/prior_ent_mag": 76.74308567830961, "train/prior_ent_max": 76.74308567830961, "train/prior_ent_mean": 45.93544288530742, "train/prior_ent_min": 28.178260881606846, "train/prior_ent_std": 7.633542563817272, "train/rep_loss_mean": 5.375948716516364, "train/rep_loss_std": 8.843765526601713, "train/reward_avg": 0.040536707879541674, "train/reward_loss_mean": 0.05508097363253162, "train/reward_loss_std": 0.2077473367321981, "train/reward_max_data": 1.0301369934865874, "train/reward_max_pred": 1.029093379843725, "train/reward_neg_acc": 0.9937789391164911, "train/reward_neg_loss": 0.02375964135926676, "train/reward_pos_acc": 0.9906042406003769, "train/reward_pos_loss": 0.7200641909690753, "train/reward_pred": 0.040320096078188455, "train/reward_rate": 0.0449753852739726, "stats/sum_log_reward": 11.671428544180733, "stats/max_log_achievement_collect_coal": 0.8571428571428571, "stats/max_log_achievement_collect_drink": 2.2857142857142856, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 10.714285714285714, "stats/max_log_achievement_collect_wood": 13.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.4285714285714286, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_stone_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_stone_sword": 1.2857142857142858, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.8571428571428571, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 2.5714285714285716, "stats/max_log_achievement_place_table": 3.5714285714285716, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.3365476280450821, "replay/size": 794298.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.5799010682501185e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2306630282112249e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3190083503723, "timer/env.step_count": 1448.0, "timer/env.step_total": 18.964381217956543, "timer/env.step_frac": 0.06314745550781595, "timer/env.step_avg": 0.013096948354942364, "timer/env.step_min": 0.00299835205078125, "timer/env.step_max": 1.6774566173553467, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.28050899505615234, "timer/replay.add_frac": 0.0009340367650951076, "timer/replay.add_avg": 0.0001937216816686135, "timer/replay.add_min": 6.723403930664062e-05, "timer/replay.add_max": 0.0030956268310546875, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02701592445373535, "timer/logger.write_frac": 8.995742428070607e-05, "timer/logger.write_avg": 0.02701592445373535, "timer/logger.write_min": 0.02701592445373535, "timer/logger.write_max": 0.02701592445373535, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 11.076576948165894, "timer/agent.policy_frac": 0.03688270352585613, "timer/agent.policy_avg": 0.007649569715584181, "timer/agent.policy_min": 0.005542755126953125, "timer/agent.policy_max": 0.01765584945678711, "timer/dataset_count": 724.0, "timer/dataset_total": 0.061758995056152344, "timer/dataset_frac": 0.00020564464232680256, "timer/dataset_avg": 8.530247935932645e-05, "timer/dataset_min": 6.246566772460938e-05, "timer/dataset_max": 0.000133514404296875, "timer/agent.train_count": 724.0, "timer/agent.train_total": 269.22198390960693, "timer/agent.train_frac": 0.8964533593408596, "timer/agent.train_avg": 0.3718535689359212, "timer/agent.train_min": 0.3654656410217285, "timer/agent.train_max": 0.38544249534606934, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22051072120666504, "timer/agent.report_frac": 0.000734254959144652, "timer/agent.report_avg": 0.22051072120666504, "timer/agent.report_min": 0.22051072120666504, "timer/agent.report_max": 0.22051072120666504, "fps": 4.8214570579517515}
{"step": 794400, "episode/length": 155.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.10000003874302, "episode/reward_rate": 0.09615384615384616}
{"step": 794598, "episode/length": 197.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.30000003427267, "episode/reward_rate": 0.07575757575757576}
{"step": 794819, "episode/length": 220.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.700000002980232, "episode/reward_rate": 0.06787330316742081}
{"step": 795023, "episode/length": 203.0, "episode/score": 13.099999964237213, "episode/sum_abs_reward": 15.099999994039536, "episode/reward_rate": 0.06862745098039216}
{"step": 795224, "episode/length": 200.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.06467661691542288}
{"step": 795372, "episode/length": 147.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.500000044703484, "episode/reward_rate": 0.08783783783783784}
{"step": 795539, "episode/length": 166.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.0658682634730539}
{"step": 795744, "episode/length": 204.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.04390243902439024}
{"step": 795777, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.351835414341518, "train/action_min": 0.0, "train/action_std": 3.2044790608542306, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038670367800763675, "train/actor_opt_grad_steps": 396985.0, "train/actor_opt_loss": -11.597770866325924, "train/adv_mag": 0.391351974436215, "train/adv_max": 0.3471109743629183, "train/adv_mean": 0.0017657023321329948, "train/adv_min": -0.3301233804651669, "train/adv_std": 0.04333372132054397, "train/cont_avg": 0.9949916294642858, "train/cont_loss_mean": 0.00031240134843934744, "train/cont_loss_std": 0.009896879657266515, "train/cont_neg_acc": 0.9890476209776742, "train/cont_neg_loss": 0.06148196409745554, "train/cont_pos_acc": 0.9999999727521623, "train/cont_pos_loss": 5.142892249360947e-06, "train/cont_pred": 0.9950387256486075, "train/cont_rate": 0.9949916294642858, "train/dyn_loss_mean": 5.332484156744821, "train/dyn_loss_std": 8.831620352608818, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9090330898761749, "train/extr_critic_critic_opt_grad_steps": 396985.0, "train/extr_critic_critic_opt_loss": 15526.388113839286, "train/extr_critic_mag": 11.774599347795759, "train/extr_critic_max": 11.774599347795759, "train/extr_critic_mean": 3.594253761427743, "train/extr_critic_min": -0.36398421696254185, "train/extr_critic_std": 2.8771734033312115, "train/extr_return_normed_mag": 1.3774306280272348, "train/extr_return_normed_max": 1.3774306280272348, "train/extr_return_normed_mean": 0.3940017619303295, "train/extr_return_normed_min": -0.07728989704379013, "train/extr_return_normed_std": 0.3171466158969062, "train/extr_return_rate": 0.8358994117804937, "train/extr_return_raw_mag": 12.622266251700266, "train/extr_return_raw_max": 12.622266251700266, "train/extr_return_raw_mean": 3.6104326145989556, "train/extr_return_raw_min": -0.7080884665250778, "train/extr_return_raw_std": 2.9062466859817504, "train/extr_reward_mag": 1.0728278534752982, "train/extr_reward_max": 1.0728278534752982, "train/extr_reward_mean": 0.0591213157666581, "train/extr_reward_min": -0.5730574880327497, "train/extr_reward_std": 0.2346833035349846, "train/image_loss_mean": 3.187032502038138, "train/image_loss_std": 8.283908775874547, "train/model_loss_mean": 6.442518281936645, "train/model_loss_std": 12.441305582863944, "train/model_opt_grad_norm": 22.397528839111327, "train/model_opt_grad_steps": 396664.0, "train/model_opt_loss": 12554.82019391741, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1946.4285714285713, "train/policy_entropy_mag": 2.711144610813686, "train/policy_entropy_max": 2.711144610813686, "train/policy_entropy_mean": 0.3839175364800862, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5880563914775848, "train/policy_logprob_mag": 7.438384260450091, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38283950580017906, "train/policy_logprob_min": -7.438384260450091, "train/policy_logprob_std": 1.0115233216966901, "train/policy_randomness_mag": 0.9569150703293937, "train/policy_randomness_max": 0.9569150703293937, "train/policy_randomness_mean": 0.1355060428380966, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20755810013839177, "train/post_ent_mag": 55.02553351266044, "train/post_ent_max": 55.02553351266044, "train/post_ent_mean": 40.693472562517435, "train/post_ent_min": 19.35656670161656, "train/post_ent_std": 5.744583674839565, "train/prior_ent_mag": 76.61338958740234, "train/prior_ent_max": 76.61338958740234, "train/prior_ent_mean": 45.99334286281041, "train/prior_ent_min": 28.28386699131557, "train/prior_ent_std": 7.659699440002441, "train/rep_loss_mean": 5.332484156744821, "train/rep_loss_std": 8.831620352608818, "train/reward_avg": 0.03983258892382894, "train/reward_loss_mean": 0.055682864785194394, "train/reward_loss_std": 0.21343611138207572, "train/reward_max_data": 1.0257142918450493, "train/reward_max_pred": 1.0259736231395176, "train/reward_neg_acc": 0.9936059585639408, "train/reward_neg_loss": 0.024560214432754687, "train/reward_pos_acc": 0.9908521098749978, "train/reward_pos_loss": 0.7239115417003632, "train/reward_pred": 0.03960178925522736, "train/reward_rate": 0.04439174107142857, "stats/sum_log_reward": 12.100000381469727, "stats/max_log_achievement_collect_coal": 1.375, "stats/max_log_achievement_collect_drink": 1.75, "stats/max_log_achievement_collect_iron": 0.125, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 12.75, "stats/max_log_achievement_collect_wood": 12.75, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.125, "stats/max_log_achievement_make_stone_sword": 0.875, "stats/max_log_achievement_make_wood_pickaxe": 1.125, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 1.25, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 3.375, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.2660936564207077, "replay/size": 795714.0, "replay/inserts": 1416.0, "replay/samples": 11328.0, "replay/insert_wait_avg": 3.504382688446907e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.227746238816256e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.01116847991943, "timer/env.step_count": 1416.0, "timer/env.step_total": 22.758060932159424, "timer/env.step_frac": 0.07585737906848186, "timer/env.step_avg": 0.016072076929491117, "timer/env.step_min": 0.0028252601623535156, "timer/env.step_max": 2.5360629558563232, "timer/replay.add_count": 1416.0, "timer/replay.add_total": 0.29574060440063477, "timer/replay.add_frac": 0.0009857653163349801, "timer/replay.add_avg": 0.0002088563590399963, "timer/replay.add_min": 8.225440979003906e-05, "timer/replay.add_max": 0.004381895065307617, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03293490409851074, "timer/logger.write_frac": 0.00010977892678257132, "timer/logger.write_avg": 0.03293490409851074, "timer/logger.write_min": 0.03293490409851074, "timer/logger.write_max": 0.03293490409851074, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00018334388732910156, "timer/checkpoint.save_frac": 6.111235400270549e-07, "timer/checkpoint.save_avg": 0.00018334388732910156, "timer/checkpoint.save_min": 0.00018334388732910156, "timer/checkpoint.save_max": 0.00018334388732910156, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2462265491485596, "timer/agent.save_frac": 0.004153933853405771, "timer/agent.save_avg": 1.2462265491485596, "timer/agent.save_min": 1.2462265491485596, "timer/agent.save_max": 1.2462265491485596, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.772445678710938e-05, "timer/replay.save_frac": 2.5907187782681394e-07, "timer/replay.save_avg": 7.772445678710938e-05, "timer/replay.save_min": 7.772445678710938e-05, "timer/replay.save_max": 7.772445678710938e-05, "timer/agent.policy_count": 1416.0, "timer/agent.policy_total": 12.13182020187378, "timer/agent.policy_frac": 0.04043789524017602, "timer/agent.policy_avg": 0.008567669634091652, "timer/agent.policy_min": 0.005669593811035156, "timer/agent.policy_max": 1.2414512634277344, "timer/dataset_count": 708.0, "timer/dataset_total": 0.06059908866882324, "timer/dataset_frac": 0.00020198944251263533, "timer/dataset_avg": 8.559193314805542e-05, "timer/dataset_min": 6.222724914550781e-05, "timer/dataset_max": 0.00013875961303710938, "timer/agent.train_count": 708.0, "timer/agent.train_total": 264.05040526390076, "timer/agent.train_frac": 0.8801352516367216, "timer/agent.train_avg": 0.37295254980776943, "timer/agent.train_min": 0.3656444549560547, "timer/agent.train_max": 0.8537187576293945, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2219250202178955, "timer/agent.report_frac": 0.000739722528805622, "timer/agent.report_avg": 0.2219250202178955, "timer/agent.report_min": 0.2219250202178955, "timer/agent.report_max": 0.2219250202178955, "fps": 4.71974710560691}
{"step": 795997, "episode/length": 252.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.05928853754940711}
{"step": 796178, "episode/length": 180.0, "episode/score": 6.099999979138374, "episode/sum_abs_reward": 8.100000008940697, "episode/reward_rate": 0.03867403314917127}
{"step": 796410, "episode/length": 231.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.03879310344827586}
{"step": 796902, "episode/length": 491.0, "episode/score": 16.100000001490116, "episode/sum_abs_reward": 19.90000005811453, "episode/reward_rate": 0.034552845528455285}
{"step": 797118, "episode/length": 215.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06018518518518518}
{"step": 797243, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.311868203652872, "train/action_min": 0.0, "train/action_std": 3.1448389839481665, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03892499747107158, "train/actor_opt_grad_steps": 397705.0, "train/actor_opt_loss": -12.393218917646319, "train/adv_mag": 0.4125081131587157, "train/adv_max": 0.34912854735110255, "train/adv_mean": 0.0019169734023799301, "train/adv_min": -0.35164358043992844, "train/adv_std": 0.044029859775626984, "train/cont_avg": 0.9949060388513513, "train/cont_loss_mean": 5.9281338958821586e-05, "train/cont_loss_std": 0.0013627693162643819, "train/cont_neg_acc": 0.9983108108108109, "train/cont_neg_loss": 0.003448565384195951, "train/cont_pos_acc": 0.9999866783618927, "train/cont_pos_loss": 3.3234806958193064e-05, "train/cont_pred": 0.9949008476089787, "train/cont_rate": 0.9949060388513513, "train/dyn_loss_mean": 5.4061935592342065, "train/dyn_loss_std": 8.871362550838574, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9527368086415369, "train/extr_critic_critic_opt_grad_steps": 397705.0, "train/extr_critic_critic_opt_loss": 15576.09983372044, "train/extr_critic_mag": 11.8199846551225, "train/extr_critic_max": 11.8199846551225, "train/extr_critic_mean": 3.6674583215971253, "train/extr_critic_min": -0.3814792874697092, "train/extr_critic_std": 2.870770406078648, "train/extr_return_normed_mag": 1.3868706548536145, "train/extr_return_normed_max": 1.3868706548536145, "train/extr_return_normed_mean": 0.40480538679135813, "train/extr_return_normed_min": -0.07662436104304082, "train/extr_return_normed_std": 0.3175983936400027, "train/extr_return_rate": 0.8556333160078203, "train/extr_return_raw_mag": 12.635093005927834, "train/extr_return_raw_max": 12.635093005927834, "train/extr_return_raw_mean": 3.6849185550535046, "train/extr_return_raw_min": -0.7022606009567106, "train/extr_return_raw_std": 2.8946865797042847, "train/extr_reward_mag": 1.0665819032772168, "train/extr_reward_max": 1.0665819032772168, "train/extr_reward_mean": 0.061550510594168224, "train/extr_reward_min": -0.6257981754638053, "train/extr_reward_std": 0.23856978662110664, "train/image_loss_mean": 3.145589889706792, "train/image_loss_std": 8.489537245518452, "train/model_loss_mean": 6.4458614297815275, "train/model_loss_std": 12.66646688048904, "train/model_opt_grad_norm": 24.479981370874352, "train/model_opt_grad_steps": 397383.86486486485, "train/model_opt_loss": 16714.04686180321, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2601.3513513513512, "train/policy_entropy_mag": 2.6782417426238188, "train/policy_entropy_max": 2.6782417426238188, "train/policy_entropy_mean": 0.356434185158562, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5462452185315054, "train/policy_logprob_mag": 7.438384255847415, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3569515393795194, "train/policy_logprob_min": -7.438384255847415, "train/policy_logprob_std": 0.9916287878075162, "train/policy_randomness_mag": 0.9453018057990719, "train/policy_randomness_max": 0.9453018057990719, "train/policy_randomness_mean": 0.1258056267491869, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19280059273178513, "train/post_ent_mag": 55.12583567645099, "train/post_ent_max": 55.12583567645099, "train/post_ent_mean": 40.600836418770456, "train/post_ent_min": 19.303975646560257, "train/post_ent_std": 5.716186091706559, "train/prior_ent_mag": 76.78400637652423, "train/prior_ent_max": 76.78400637652423, "train/prior_ent_mean": 45.98120756407042, "train/prior_ent_min": 28.413593189136403, "train/prior_ent_std": 7.604580834105208, "train/rep_loss_mean": 5.4061935592342065, "train/rep_loss_std": 8.871362550838574, "train/reward_avg": 0.04160156209223174, "train/reward_loss_mean": 0.05649615270463196, "train/reward_loss_std": 0.21591794229037053, "train/reward_max_data": 1.0189189234295406, "train/reward_max_pred": 1.0221448653453105, "train/reward_neg_acc": 0.9938203442741085, "train/reward_neg_loss": 0.023922944000947313, "train/reward_pos_acc": 0.9898401104115151, "train/reward_pos_loss": 0.7278772624763282, "train/reward_pred": 0.04124891143795606, "train/reward_rate": 0.04625475084459459, "stats/sum_log_reward": 11.300000286102295, "stats/max_log_achievement_collect_coal": 0.8, "stats/max_log_achievement_collect_drink": 3.8, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.6, "stats/max_log_achievement_collect_stone": 11.6, "stats/max_log_achievement_collect_wood": 15.4, "stats/max_log_achievement_defeat_skeleton": 0.2, "stats/max_log_achievement_defeat_zombie": 1.6, "stats/max_log_achievement_eat_cow": 0.4, "stats/max_log_achievement_make_stone_pickaxe": 1.6, "stats/max_log_achievement_make_stone_sword": 0.8, "stats/max_log_achievement_make_wood_pickaxe": 1.2, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.2, "stats/max_log_achievement_place_plant": 2.4, "stats/max_log_achievement_place_stone": 2.6, "stats/max_log_achievement_place_table": 3.8, "stats/max_log_achievement_wake_up": 1.6, "stats/mean_log_entropy": 0.3784175515174866, "replay/size": 797180.0, "replay/inserts": 1466.0, "replay/samples": 11728.0, "replay/insert_wait_avg": 3.4788620911060867e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.248668518430702e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.32838463783264, "timer/env.step_count": 1466.0, "timer/env.step_total": 15.363165855407715, "timer/env.step_frac": 0.051154558281043684, "timer/env.step_avg": 0.010479649287454103, "timer/env.step_min": 0.0029783248901367188, "timer/env.step_max": 1.5451009273529053, "timer/replay.add_count": 1466.0, "timer/replay.add_total": 0.28807735443115234, "timer/replay.add_frac": 0.0009592078843248404, "timer/replay.add_avg": 0.00019650569879341907, "timer/replay.add_min": 7.081031799316406e-05, "timer/replay.add_max": 0.00417637825012207, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02930283546447754, "timer/logger.write_frac": 9.756931733180652e-05, "timer/logger.write_avg": 0.02930283546447754, "timer/logger.write_min": 0.02930283546447754, "timer/logger.write_max": 0.02930283546447754, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1466.0, "timer/agent.policy_total": 11.292646408081055, "timer/agent.policy_frac": 0.0376009960620236, "timer/agent.policy_avg": 0.0077030330205191365, "timer/agent.policy_min": 0.0058977603912353516, "timer/agent.policy_max": 0.019999980926513672, "timer/dataset_count": 733.0, "timer/dataset_total": 0.06217217445373535, "timer/dataset_frac": 0.00020701398080873727, "timer/dataset_avg": 8.481879188776992e-05, "timer/dataset_min": 6.127357482910156e-05, "timer/dataset_max": 0.00014519691467285156, "timer/agent.train_count": 733.0, "timer/agent.train_total": 272.6059818267822, "timer/agent.train_frac": 0.9076930312648237, "timer/agent.train_avg": 0.3719044772534546, "timer/agent.train_min": 0.3659231662750244, "timer/agent.train_max": 0.38382458686828613, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2244865894317627, "timer/agent.report_frac": 0.0007474704387414866, "timer/agent.report_avg": 0.2244865894317627, "timer/agent.report_min": 0.2244865894317627, "timer/agent.report_max": 0.2244865894317627, "fps": 4.8812400575891814}
{"step": 797319, "episode/length": 200.0, "episode/score": 13.100000023841858, "episode/sum_abs_reward": 15.90000006556511, "episode/reward_rate": 0.06965174129353234}
{"step": 797499, "episode/length": 179.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.06666666666666667}
{"step": 797754, "episode/length": 254.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.06274509803921569}
{"step": 798042, "episode/length": 287.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 16.900000013411045, "episode/reward_rate": 0.05555555555555555}
{"step": 798234, "episode/length": 191.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.07291666666666667}
{"step": 798427, "episode/length": 192.0, "episode/score": 13.099999964237213, "episode/sum_abs_reward": 15.099999994039536, "episode/reward_rate": 0.07253886010362694}
{"step": 798618, "episode/length": 190.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.08376963350785341}
{"step": 798663, "episode/length": 44.0, "episode/score": 2.100000001490116, "episode/sum_abs_reward": 3.700000025331974, "episode/reward_rate": 0.06666666666666667}
{"step": 798683, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.322893778483073, "train/action_min": 0.0, "train/action_std": 3.1073412133587732, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03937593834578163, "train/actor_opt_grad_steps": 398435.0, "train/actor_opt_loss": -13.755871494611105, "train/adv_mag": 0.3994230185117986, "train/adv_max": 0.31974730226728654, "train/adv_mean": 0.0017790857363656363, "train/adv_min": -0.363436752723323, "train/adv_std": 0.044015689132114254, "train/cont_avg": 0.9949544270833334, "train/cont_loss_mean": 6.931546034502943e-05, "train/cont_loss_std": 0.0021360870465415693, "train/cont_neg_acc": 0.9982638888888888, "train/cont_neg_loss": 0.006486018427123794, "train/cont_pos_acc": 0.9999999776482582, "train/cont_pos_loss": 1.8363331705018027e-05, "train/cont_pred": 0.9949560248189502, "train/cont_rate": 0.9949544270833334, "train/dyn_loss_mean": 5.487810406419966, "train/dyn_loss_std": 8.883933080567253, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9803546369075775, "train/extr_critic_critic_opt_grad_steps": 398435.0, "train/extr_critic_critic_opt_loss": 15633.500461154514, "train/extr_critic_mag": 11.665142933527628, "train/extr_critic_max": 11.665142933527628, "train/extr_critic_mean": 3.501699783735805, "train/extr_critic_min": -0.39233098096317714, "train/extr_critic_std": 2.79574823876222, "train/extr_return_normed_mag": 1.39899476369222, "train/extr_return_normed_max": 1.39899476369222, "train/extr_return_normed_mean": 0.39272575245963204, "train/extr_return_normed_min": -0.08203143455709021, "train/extr_return_normed_std": 0.3146549326678117, "train/extr_return_rate": 0.8484827561510934, "train/extr_return_raw_mag": 12.543905602561104, "train/extr_return_raw_max": 12.543905602561104, "train/extr_return_raw_mean": 3.517636093828413, "train/extr_return_raw_min": -0.7401944920420647, "train/extr_return_raw_std": 2.8223232660028668, "train/extr_reward_mag": 1.0629671547147963, "train/extr_reward_max": 1.0629671547147963, "train/extr_reward_mean": 0.05996552709903982, "train/extr_reward_min": -0.6317479362090429, "train/extr_reward_std": 0.2350751000146071, "train/image_loss_mean": 3.320940011077457, "train/image_loss_std": 8.462685161166721, "train/model_loss_mean": 6.6700301501486035, "train/model_loss_std": 12.618764082590738, "train/model_opt_grad_norm": 24.015177369117737, "train/model_opt_grad_steps": 398113.0, "train/model_opt_loss": 16675.075439453125, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7046043607923718, "train/policy_entropy_max": 2.7046043607923718, "train/policy_entropy_mean": 0.36132385085026425, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5643240205115743, "train/policy_logprob_mag": 7.4383842547734575, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3603302840557363, "train/policy_logprob_min": -7.4383842547734575, "train/policy_logprob_std": 0.9944992305503951, "train/policy_randomness_mag": 0.9546066522598267, "train/policy_randomness_max": 0.9546066522598267, "train/policy_randomness_mean": 0.1275314645220836, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19918161402973864, "train/post_ent_mag": 55.81566339068942, "train/post_ent_max": 55.81566339068942, "train/post_ent_mean": 40.773939821455215, "train/post_ent_min": 19.422803203264873, "train/post_ent_std": 5.790336688359578, "train/prior_ent_mag": 76.81318961249457, "train/prior_ent_max": 76.81318961249457, "train/prior_ent_mean": 46.29651874966092, "train/prior_ent_min": 28.34352241622077, "train/prior_ent_std": 7.638754102918837, "train/rep_loss_mean": 5.487810406419966, "train/rep_loss_std": 8.883933080567253, "train/reward_avg": 0.04030083536377384, "train/reward_loss_mean": 0.056334571085042424, "train/reward_loss_std": 0.21462977594799465, "train/reward_max_data": 1.0263888951804903, "train/reward_max_pred": 1.0242403083377414, "train/reward_neg_acc": 0.9932643473148346, "train/reward_neg_loss": 0.024855091818608344, "train/reward_pos_acc": 0.9891302949852414, "train/reward_pos_loss": 0.7252494311994977, "train/reward_pred": 0.040137778553697795, "train/reward_rate": 0.044989691840277776, "stats/sum_log_reward": 12.225000202655792, "stats/max_log_achievement_collect_coal": 1.5, "stats/max_log_achievement_collect_drink": 1.875, "stats/max_log_achievement_collect_iron": 0.125, "stats/max_log_achievement_collect_sapling": 2.125, "stats/max_log_achievement_collect_stone": 12.875, "stats/max_log_achievement_collect_wood": 13.125, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.75, "stats/max_log_achievement_eat_cow": 0.625, "stats/max_log_achievement_make_stone_pickaxe": 1.375, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 0.875, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 1.125, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 3.375, "stats/max_log_achievement_wake_up": 0.875, "stats/mean_log_entropy": 0.27663572132587433, "replay/size": 798620.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.487865130106608e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2271727124849956e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3568825721741, "timer/env.step_count": 1440.0, "timer/env.step_total": 20.510777235031128, "timer/env.step_frac": 0.06828802143430991, "timer/env.step_avg": 0.01424359530210495, "timer/env.step_min": 0.0030024051666259766, "timer/env.step_max": 1.6898534297943115, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.26908111572265625, "timer/replay.add_frac": 0.0008958713162099675, "timer/replay.add_avg": 0.0001868618859185113, "timer/replay.add_min": 6.580352783203125e-05, "timer/replay.add_max": 0.004212141036987305, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028949499130249023, "timer/logger.write_frac": 9.638367159205224e-05, "timer/logger.write_avg": 0.028949499130249023, "timer/logger.write_min": 0.028949499130249023, "timer/logger.write_max": 0.028949499130249023, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 11.082189798355103, "timer/agent.policy_frac": 0.0368967399829505, "timer/agent.policy_avg": 0.007695965137746599, "timer/agent.policy_min": 0.005677461624145508, "timer/agent.policy_max": 0.017180442810058594, "timer/dataset_count": 720.0, "timer/dataset_total": 0.06143903732299805, "timer/dataset_frac": 0.00020455345253570005, "timer/dataset_avg": 8.533199628194174e-05, "timer/dataset_min": 6.222724914550781e-05, "timer/dataset_max": 0.0002353191375732422, "timer/agent.train_count": 720.0, "timer/agent.train_total": 267.72778272628784, "timer/agent.train_frac": 0.8913655663007967, "timer/agent.train_avg": 0.3718441426753998, "timer/agent.train_min": 0.36510753631591797, "timer/agent.train_max": 0.3867158889770508, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2184007167816162, "timer/agent.report_frac": 0.0007271373804099054, "timer/agent.report_avg": 0.2184007167816162, "timer/agent.report_min": 0.2184007167816162, "timer/agent.report_max": 0.2184007167816162, "fps": 4.794194613781712}
{"step": 798888, "episode/length": 224.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.057777777777777775}
{"step": 799072, "episode/length": 183.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.043478260869565216}
{"step": 799285, "episode/length": 212.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.07042253521126761}
{"step": 799539, "episode/length": 253.0, "episode/score": 11.100000031292439, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.051181102362204724}
{"step": 799778, "episode/length": 238.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.900000043213367, "episode/reward_rate": 0.058577405857740586}
{"step": 799949, "episode/length": 170.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.08771929824561403}
{"step": 800117, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.29101992325044, "train/action_min": 0.0, "train/action_std": 3.0824350404067777, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04014255080214688, "train/actor_opt_grad_steps": 399150.0, "train/actor_opt_loss": -11.02549362287555, "train/adv_mag": 0.41297473286239195, "train/adv_max": 0.3499301040256527, "train/adv_mean": 0.0025189966884835496, "train/adv_min": -0.36291186112753104, "train/adv_std": 0.044767913316756905, "train/cont_avg": 0.9945119938380281, "train/cont_loss_mean": 3.9945159585185986e-05, "train/cont_loss_std": 0.0011312410377259721, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0016019459810569943, "train/cont_pos_acc": 0.9999861331053184, "train/cont_pos_loss": 3.073007896748742e-05, "train/cont_pred": 0.9944978767717388, "train/cont_rate": 0.9945119938380281, "train/dyn_loss_mean": 5.364660551850225, "train/dyn_loss_std": 8.870331455284441, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9544960218416133, "train/extr_critic_critic_opt_grad_steps": 399150.0, "train/extr_critic_critic_opt_loss": 15771.42049955986, "train/extr_critic_mag": 11.794686209987587, "train/extr_critic_max": 11.794686209987587, "train/extr_critic_mean": 3.63008495115898, "train/extr_critic_min": -0.43597924373519253, "train/extr_critic_std": 2.8912887136701126, "train/extr_return_normed_mag": 1.3885203532769645, "train/extr_return_normed_max": 1.3885203532769645, "train/extr_return_normed_mean": 0.4014084670745151, "train/extr_return_normed_min": -0.08456716529080566, "train/extr_return_normed_std": 0.32007177321004193, "train/extr_return_rate": 0.853799925723546, "train/extr_return_raw_mag": 12.665645599365234, "train/extr_return_raw_max": 12.665645599365234, "train/extr_return_raw_mean": 3.6530667291560643, "train/extr_return_raw_min": -0.7852943090485854, "train/extr_return_raw_std": 2.922856132749101, "train/extr_reward_mag": 1.0712601937038797, "train/extr_reward_max": 1.0712601937038797, "train/extr_reward_mean": 0.06195192233147755, "train/extr_reward_min": -0.6363628179254667, "train/extr_reward_std": 0.23956799423190908, "train/image_loss_mean": 3.138576887023281, "train/image_loss_std": 8.473484408687538, "train/model_loss_mean": 6.415567391355273, "train/model_loss_std": 12.65226828884071, "train/model_opt_grad_norm": 24.86914619929354, "train/model_opt_grad_steps": 398827.28169014084, "train/model_opt_loss": 16513.15625, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2570.4225352112676, "train/policy_entropy_mag": 2.6853504886089916, "train/policy_entropy_max": 2.6853504886089916, "train/policy_entropy_mean": 0.3523861052284778, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5461964686991463, "train/policy_logprob_mag": 7.438384304583912, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3515499018027749, "train/policy_logprob_min": -7.438384304583912, "train/policy_logprob_std": 0.9840512326065923, "train/policy_randomness_mag": 0.9478108790558828, "train/policy_randomness_max": 0.9478108790558828, "train/policy_randomness_mean": 0.1243768303956784, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19278338887322116, "train/post_ent_mag": 55.12719318228708, "train/post_ent_max": 55.12719318228708, "train/post_ent_mean": 40.5486003714548, "train/post_ent_min": 19.90733855878803, "train/post_ent_std": 5.765119304119701, "train/prior_ent_mag": 76.73018184178312, "train/prior_ent_max": 76.73018184178312, "train/prior_ent_mean": 45.9116311409104, "train/prior_ent_min": 28.420036450238296, "train/prior_ent_std": 7.717492855770487, "train/rep_loss_mean": 5.364660551850225, "train/rep_loss_std": 8.870331455284441, "train/reward_avg": 0.0425822510790657, "train/reward_loss_mean": 0.058154264176395576, "train/reward_loss_std": 0.21757777119186564, "train/reward_max_data": 1.033802824960628, "train/reward_max_pred": 1.0345750963184195, "train/reward_neg_acc": 0.9938223210858627, "train/reward_neg_loss": 0.02442538995348232, "train/reward_pos_acc": 0.9870627908639504, "train/reward_pos_loss": 0.7367269900483144, "train/reward_pred": 0.0419732916732909, "train/reward_rate": 0.04742517605633803, "stats/sum_log_reward": 11.933333158493042, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 10.0, "stats/max_log_achievement_collect_wood": 10.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.3333333333333333, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 0.5, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.1666666666666667, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 1.0, "stats/max_log_achievement_place_table": 3.1666666666666665, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.2895578021804492, "replay/size": 800054.0, "replay/inserts": 1434.0, "replay/samples": 11472.0, "replay/insert_wait_avg": 3.475191869163779e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.229335407166634e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 299.9988648891449, "timer/env.step_count": 1434.0, "timer/env.step_total": 19.40062928199768, "timer/env.step_frac": 0.06466900896163914, "timer/env.step_avg": 0.013529030182704101, "timer/env.step_min": 0.002910137176513672, "timer/env.step_max": 2.469299793243408, "timer/replay.add_count": 1434.0, "timer/replay.add_total": 0.28414297103881836, "timer/replay.add_frac": 0.0009471468205181857, "timer/replay.add_avg": 0.00019814712066863204, "timer/replay.add_min": 5.745887756347656e-05, "timer/replay.add_max": 0.004958629608154297, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030480384826660156, "timer/logger.write_frac": 0.00010160166718605158, "timer/logger.write_avg": 0.030480384826660156, "timer/logger.write_min": 0.030480384826660156, "timer/logger.write_max": 0.030480384826660156, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00041222572326660156, "timer/checkpoint.save_frac": 1.3740909433738242e-06, "timer/checkpoint.save_avg": 0.00041222572326660156, "timer/checkpoint.save_min": 0.00041222572326660156, "timer/checkpoint.save_max": 0.00041222572326660156, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4629747867584229, "timer/agent.save_frac": 0.00487660107413746, "timer/agent.save_avg": 1.4629747867584229, "timer/agent.save_min": 1.4629747867584229, "timer/agent.save_max": 1.4629747867584229, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.775161743164062e-05, "timer/replay.save_frac": 3.2583995765371193e-07, "timer/replay.save_avg": 9.775161743164062e-05, "timer/replay.save_min": 9.775161743164062e-05, "timer/replay.save_max": 9.775161743164062e-05, "timer/agent.policy_count": 1434.0, "timer/agent.policy_total": 12.389600276947021, "timer/agent.policy_frac": 0.04129882385230093, "timer/agent.policy_avg": 0.008639888617117867, "timer/agent.policy_min": 0.005820751190185547, "timer/agent.policy_max": 1.4502618312835693, "timer/dataset_count": 717.0, "timer/dataset_total": 0.060556650161743164, "timer/dataset_frac": 0.0002018562643032665, "timer/dataset_avg": 8.445836842642004e-05, "timer/dataset_min": 5.91278076171875e-05, "timer/dataset_max": 0.00017142295837402344, "timer/agent.train_count": 717.0, "timer/agent.train_total": 267.15687346458435, "timer/agent.train_frac": 0.8905262810354424, "timer/agent.train_avg": 0.37260372868142866, "timer/agent.train_min": 0.36488890647888184, "timer/agent.train_max": 0.9047791957855225, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22141671180725098, "timer/agent.report_frac": 0.0007380584986182148, "timer/agent.report_avg": 0.22141671180725098, "timer/agent.report_min": 0.22141671180725098, "timer/agent.report_max": 0.22141671180725098, "fps": 4.779920792477573}
{"step": 800244, "episode/length": 294.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 10.700000040233135, "episode/reward_rate": 0.030508474576271188}
{"step": 800580, "episode/length": 335.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 15.900000013411045, "episode/reward_rate": 0.044642857142857144}
{"step": 800745, "episode/length": 164.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.06060606060606061}
{"step": 800939, "episode/length": 193.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.06701030927835051}
{"step": 801297, "episode/length": 357.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.030726256983240222}
{"step": 801583, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.324547020164696, "train/action_min": 0.0, "train/action_std": 3.180184051797197, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03950530524692825, "train/actor_opt_grad_steps": 399875.0, "train/actor_opt_loss": -11.891306651605142, "train/adv_mag": 0.4291884468213932, "train/adv_max": 0.3610985901307415, "train/adv_mean": 0.002185874241862424, "train/adv_min": -0.3788311121028823, "train/adv_std": 0.044974430288011964, "train/cont_avg": 0.9946684966216216, "train/cont_loss_mean": 1.6585905420064642e-05, "train/cont_loss_std": 0.000499816087892822, "train/cont_neg_acc": 0.9977477482847266, "train/cont_neg_loss": 0.0022784647878748925, "train/cont_pos_acc": 0.9999999871125093, "train/cont_pos_loss": 2.8180885243385375e-06, "train/cont_pred": 0.9946754397572698, "train/cont_rate": 0.9946684966216216, "train/dyn_loss_mean": 5.411680102348328, "train/dyn_loss_std": 8.858875757939106, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9796382253234451, "train/extr_critic_critic_opt_grad_steps": 399875.0, "train/extr_critic_critic_opt_loss": 15721.376741976352, "train/extr_critic_mag": 11.7736618325517, "train/extr_critic_max": 11.7736618325517, "train/extr_critic_mean": 3.6642027545619653, "train/extr_critic_min": -0.446197873837239, "train/extr_critic_std": 2.9076010826471688, "train/extr_return_normed_mag": 1.3821768970102877, "train/extr_return_normed_max": 1.3821768970102877, "train/extr_return_normed_mean": 0.4039922090801033, "train/extr_return_normed_min": -0.08448426410354473, "train/extr_return_normed_std": 0.32191255910171046, "train/extr_return_rate": 0.843494027047544, "train/extr_return_raw_mag": 12.601266152149922, "train/extr_return_raw_max": 12.601266152149922, "train/extr_return_raw_mean": 3.684137640772639, "train/extr_return_raw_min": -0.7690699346162178, "train/extr_return_raw_std": 2.9349516855703817, "train/extr_reward_mag": 1.0658685999947626, "train/extr_reward_max": 1.0658685999947626, "train/extr_reward_mean": 0.06014552460731687, "train/extr_reward_min": -0.6316785554628115, "train/extr_reward_std": 0.2361893243080861, "train/image_loss_mean": 3.193007986287813, "train/image_loss_std": 8.364772674199697, "train/model_loss_mean": 6.497225703419866, "train/model_loss_std": 12.492720359080547, "train/model_opt_grad_norm": 24.67882929621516, "train/model_opt_grad_steps": 399551.97297297296, "train/model_opt_loss": 21368.626095333613, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3277.027027027027, "train/policy_entropy_mag": 2.697721761626166, "train/policy_entropy_max": 2.697721761626166, "train/policy_entropy_mean": 0.37222882863637563, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5695542270267332, "train/policy_logprob_mag": 7.4383842751786515, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37171892056594025, "train/policy_logprob_min": -7.4383842751786515, "train/policy_logprob_std": 1.0038484914882764, "train/policy_randomness_mag": 0.9521773948862746, "train/policy_randomness_max": 0.9521773948862746, "train/policy_randomness_mean": 0.1313804408182969, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2010276491778928, "train/post_ent_mag": 54.94842482901908, "train/post_ent_max": 54.94842482901908, "train/post_ent_mean": 40.633087158203125, "train/post_ent_min": 19.42227417713887, "train/post_ent_std": 5.7462234819257585, "train/prior_ent_mag": 76.70752179944837, "train/prior_ent_max": 76.70752179944837, "train/prior_ent_mean": 46.01455224526895, "train/prior_ent_min": 27.787413416682064, "train/prior_ent_std": 7.710462731284064, "train/rep_loss_mean": 5.411680102348328, "train/rep_loss_std": 8.858875757939106, "train/reward_avg": 0.04075432865804917, "train/reward_loss_mean": 0.057193139819680036, "train/reward_loss_std": 0.21958348738986092, "train/reward_max_data": 1.017567571756002, "train/reward_max_pred": 1.0202205020028192, "train/reward_neg_acc": 0.9939219548895553, "train/reward_neg_loss": 0.025121930646835954, "train/reward_pos_acc": 0.9862788343751753, "train/reward_pos_loss": 0.7320147382246481, "train/reward_pred": 0.0404856237457008, "train/reward_rate": 0.04558171452702703, "stats/sum_log_reward": 10.700000190734864, "stats/max_log_achievement_collect_coal": 0.6, "stats/max_log_achievement_collect_drink": 3.6, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 3.6, "stats/max_log_achievement_collect_stone": 10.0, "stats/max_log_achievement_collect_wood": 11.8, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.2, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.4, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8, "stats/max_log_achievement_place_furnace": 1.4, "stats/max_log_achievement_place_plant": 3.4, "stats/max_log_achievement_place_stone": 2.2, "stats/max_log_achievement_place_table": 2.6, "stats/max_log_achievement_wake_up": 1.8, "stats/mean_log_entropy": 0.6073211252689361, "replay/size": 801520.0, "replay/inserts": 1466.0, "replay/samples": 11728.0, "replay/insert_wait_avg": 3.4868310613489087e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2256357549482609e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3691852092743, "timer/env.step_count": 1466.0, "timer/env.step_total": 15.509840965270996, "timer/env.step_frac": 0.051635925817306874, "timer/env.step_avg": 0.010579700522012958, "timer/env.step_min": 0.002798318862915039, "timer/env.step_max": 1.6435203552246094, "timer/replay.add_count": 1466.0, "timer/replay.add_total": 0.2844998836517334, "timer/replay.add_frac": 0.0009471673449242659, "timer/replay.add_avg": 0.00019406540494661215, "timer/replay.add_min": 6.628036499023438e-05, "timer/replay.add_max": 0.004679203033447266, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03347015380859375, "timer/logger.write_frac": 0.00011143005160557434, "timer/logger.write_avg": 0.03347015380859375, "timer/logger.write_min": 0.03347015380859375, "timer/logger.write_max": 0.03347015380859375, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1466.0, "timer/agent.policy_total": 11.195006847381592, "timer/agent.policy_frac": 0.037270823368854455, "timer/agent.policy_avg": 0.007636430318814183, "timer/agent.policy_min": 0.005731105804443359, "timer/agent.policy_max": 0.01781630516052246, "timer/dataset_count": 733.0, "timer/dataset_total": 0.06195640563964844, "timer/dataset_frac": 0.0002062675157456047, "timer/dataset_avg": 8.452442788492284e-05, "timer/dataset_min": 6.008148193359375e-05, "timer/dataset_max": 0.00016570091247558594, "timer/agent.train_count": 733.0, "timer/agent.train_total": 272.5962312221527, "timer/agent.train_frac": 0.9075372729470518, "timer/agent.train_avg": 0.37189117492790275, "timer/agent.train_min": 0.36420512199401855, "timer/agent.train_max": 0.3848695755004883, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21951031684875488, "timer/agent.report_frac": 0.0007308017188774437, "timer/agent.report_avg": 0.21951031684875488, "timer/agent.report_min": 0.21951031684875488, "timer/agent.report_max": 0.21951031684875488, "fps": 4.880594955404047}
{"step": 801665, "episode/length": 367.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 16.900000013411045, "episode/reward_rate": 0.043478260869565216}
{"step": 801827, "episode/length": 161.0, "episode/score": 12.100000023841858, "episode/sum_abs_reward": 14.10000005364418, "episode/reward_rate": 0.08024691358024691}
{"step": 802035, "episode/length": 207.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.0673076923076923}
{"step": 802244, "episode/length": 208.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 15.900000013411045, "episode/reward_rate": 0.07177033492822966}
{"step": 802432, "episode/length": 187.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.0797872340425532}
{"step": 802721, "episode/length": 288.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 17.700000040233135, "episode/reward_rate": 0.05536332179930796}
{"step": 802899, "episode/length": 177.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.500000037252903, "episode/reward_rate": 0.06179775280898876}
{"step": 803033, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.319161309136285, "train/action_min": 0.0, "train/action_std": 3.2128826048639088, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0399210880148328, "train/actor_opt_grad_steps": 400605.0, "train/actor_opt_loss": -11.966741267177794, "train/adv_mag": 0.43508773172895115, "train/adv_max": 0.3692017023762067, "train/adv_mean": 0.0019240358875928603, "train/adv_min": -0.37895601449741256, "train/adv_std": 0.044645347735948034, "train/cont_avg": 0.9950900607638888, "train/cont_loss_mean": 8.318929167611739e-05, "train/cont_loss_std": 0.0025242955927724767, "train/cont_neg_acc": 0.9972222223877907, "train/cont_neg_loss": 0.014038966436554605, "train/cont_pos_acc": 0.9999999875823656, "train/cont_pos_loss": 1.1561764261832272e-05, "train/cont_pred": 0.9951000958681107, "train/cont_rate": 0.9950900607638888, "train/dyn_loss_mean": 5.255072322156694, "train/dyn_loss_std": 8.731252286169264, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9530034702685144, "train/extr_critic_critic_opt_grad_steps": 400605.0, "train/extr_critic_critic_opt_loss": 15686.067097981771, "train/extr_critic_mag": 11.689196745554606, "train/extr_critic_max": 11.689196745554606, "train/extr_critic_mean": 3.6041024128595986, "train/extr_critic_min": -0.4134068472517861, "train/extr_critic_std": 2.8422236343224845, "train/extr_return_normed_mag": 1.3653888983858957, "train/extr_return_normed_max": 1.3653888983858957, "train/extr_return_normed_mean": 0.398369319529997, "train/extr_return_normed_min": -0.08195900311693549, "train/extr_return_normed_std": 0.3155397145698468, "train/extr_return_rate": 0.843378409743309, "train/extr_return_raw_mag": 12.429693155818516, "train/extr_return_raw_max": 12.429693155818516, "train/extr_return_raw_mean": 3.6216180755032434, "train/extr_return_raw_min": -0.7532531345884005, "train/extr_return_raw_std": 2.874024967352549, "train/extr_reward_mag": 1.0674107670783997, "train/extr_reward_max": 1.0674107670783997, "train/extr_reward_mean": 0.059725714226563774, "train/extr_reward_min": -0.6175056133005354, "train/extr_reward_std": 0.23504556756880549, "train/image_loss_mean": 3.1081716352038913, "train/image_loss_std": 8.14342016643948, "train/model_loss_mean": 6.316414303249783, "train/model_loss_std": 12.238050010469225, "train/model_opt_grad_norm": 24.5672760936949, "train/model_opt_grad_steps": 400281.0, "train/model_opt_loss": 15791.035793728299, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6840167144934335, "train/policy_entropy_max": 2.6840167144934335, "train/policy_entropy_mean": 0.3941545635461807, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5941318625377284, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39425682462751865, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 1.0237226105398602, "train/policy_randomness_mag": 0.9473401150769658, "train/policy_randomness_max": 0.9473401150769658, "train/policy_randomness_mean": 0.13911926342795292, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20970247209899956, "train/post_ent_mag": 55.27147886488173, "train/post_ent_max": 55.27147886488173, "train/post_ent_mean": 40.46863471137153, "train/post_ent_min": 19.0386596388287, "train/post_ent_std": 5.768346501721276, "train/prior_ent_mag": 76.75996134016249, "train/prior_ent_max": 76.75996134016249, "train/prior_ent_mean": 45.76716242896186, "train/prior_ent_min": 27.871339056226944, "train/prior_ent_std": 7.6552690797381935, "train/rep_loss_mean": 5.255072322156694, "train/rep_loss_std": 8.731252286169264, "train/reward_avg": 0.04049479107682904, "train/reward_loss_mean": 0.05511609138920903, "train/reward_loss_std": 0.20877055637538433, "train/reward_max_data": 1.0194444490803614, "train/reward_max_pred": 1.0197548435793982, "train/reward_neg_acc": 0.9940430339839723, "train/reward_neg_loss": 0.024002154383601412, "train/reward_pos_acc": 0.9904298111796379, "train/reward_pos_loss": 0.7192870792415407, "train/reward_pred": 0.04028085991740227, "train/reward_rate": 0.044867621527777776, "stats/sum_log_reward": 13.385714530944824, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 2.2857142857142856, "stats/max_log_achievement_collect_iron": 0.2857142857142857, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 11.857142857142858, "stats/max_log_achievement_collect_wood": 14.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.7142857142857142, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 2.0, "stats/max_log_achievement_make_stone_sword": 0.8571428571428571, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.8571428571428571, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 3.5714285714285716, "stats/max_log_achievement_place_table": 3.142857142857143, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3108072876930237, "replay/size": 802970.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.466112860317888e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2395299714187095e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3763678073883, "timer/env.step_count": 1450.0, "timer/env.step_total": 18.568004608154297, "timer/env.step_frac": 0.061815797107117106, "timer/env.step_avg": 0.012805520419416757, "timer/env.step_min": 0.0027511119842529297, "timer/env.step_max": 1.6849937438964844, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.28773975372314453, "timer/replay.add_frac": 0.0009579307314470664, "timer/replay.add_avg": 0.00019844120946423761, "timer/replay.add_min": 6.29425048828125e-05, "timer/replay.add_max": 0.0046923160552978516, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030394554138183594, "timer/logger.write_frac": 0.00010118823381496387, "timer/logger.write_avg": 0.030394554138183594, "timer/logger.write_min": 0.030394554138183594, "timer/logger.write_max": 0.030394554138183594, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 11.183083295822144, "timer/agent.policy_frac": 0.03723023677745888, "timer/agent.policy_avg": 0.00771247123849803, "timer/agent.policy_min": 0.005736827850341797, "timer/agent.policy_max": 0.013198375701904297, "timer/dataset_count": 725.0, "timer/dataset_total": 0.0610501766204834, "timer/dataset_frac": 0.00020324560505915326, "timer/dataset_avg": 8.4207140166184e-05, "timer/dataset_min": 6.341934204101562e-05, "timer/dataset_max": 0.00017786026000976562, "timer/agent.train_count": 725.0, "timer/agent.train_total": 269.56588649749756, "timer/agent.train_frac": 0.8974270794510456, "timer/agent.train_avg": 0.3718150158586173, "timer/agent.train_min": 0.36560964584350586, "timer/agent.train_max": 0.38804101943969727, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22017669677734375, "timer/agent.report_frac": 0.0007330027271603758, "timer/agent.report_avg": 0.22017669677734375, "timer/agent.report_min": 0.22017669677734375, "timer/agent.report_max": 0.22017669677734375, "fps": 4.82721173157373}
{"step": 803110, "episode/length": 210.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.07109004739336493}
{"step": 803374, "episode/length": 263.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 15.10000005364418, "episode/reward_rate": 0.04924242424242424}
{"step": 803582, "episode/length": 207.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.04807692307692308}
{"step": 803807, "episode/length": 224.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.06222222222222222}
{"step": 804209, "episode/length": 401.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.30000003427267, "episode/reward_rate": 0.03731343283582089}
{"step": 804454, "episode/length": 244.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.061224489795918366}
{"step": 804467, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.345523410373264, "train/action_min": 0.0, "train/action_std": 3.150300923320982, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03992757964361873, "train/actor_opt_grad_steps": 401325.0, "train/actor_opt_loss": -13.309140886697504, "train/adv_mag": 0.4412247919374042, "train/adv_max": 0.34604405611753464, "train/adv_mean": 0.0018379429543023838, "train/adv_min": -0.4045669473707676, "train/adv_std": 0.04558077433870898, "train/cont_avg": 0.9951443142361112, "train/cont_loss_mean": 9.288187380304988e-06, "train/cont_loss_std": 0.0002421794574366408, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.000169321160984263, "train/cont_pos_acc": 0.9999999751647314, "train/cont_pos_loss": 8.439180004889598e-06, "train/cont_pred": 0.9951374845372306, "train/cont_rate": 0.9951443142361112, "train/dyn_loss_mean": 5.378105772866143, "train/dyn_loss_std": 8.879611909389496, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0116152962048848, "train/extr_critic_critic_opt_grad_steps": 401325.0, "train/extr_critic_critic_opt_loss": 15768.152248806424, "train/extr_critic_mag": 12.015627278221977, "train/extr_critic_max": 12.015627278221977, "train/extr_critic_mean": 3.6716194450855255, "train/extr_critic_min": -0.37656087179978687, "train/extr_critic_std": 2.914234201113383, "train/extr_return_normed_mag": 1.388549170560307, "train/extr_return_normed_max": 1.388549170560307, "train/extr_return_normed_mean": 0.4000999985469712, "train/extr_return_normed_min": -0.0777071306688918, "train/extr_return_normed_std": 0.3210118040442467, "train/extr_return_rate": 0.8431134704086516, "train/extr_return_raw_mag": 12.740886661741468, "train/extr_return_raw_max": 12.740886661741468, "train/extr_return_raw_mean": 3.688462280564838, "train/extr_return_raw_min": -0.6881100109053983, "train/extr_return_raw_std": 2.9403250184324055, "train/extr_reward_mag": 1.0654537247286902, "train/extr_reward_max": 1.0654537247286902, "train/extr_reward_mean": 0.06013276495246424, "train/extr_reward_min": -0.6097718560033374, "train/extr_reward_std": 0.235889268004232, "train/image_loss_mean": 3.2116292085912495, "train/image_loss_std": 8.439016607072618, "train/model_loss_mean": 6.494629111554888, "train/model_loss_std": 12.602579500940111, "train/model_opt_grad_norm": 26.427737434705097, "train/model_opt_grad_steps": 401000.4166666667, "train/model_opt_loss": 17140.142144097223, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2638.8888888888887, "train/policy_entropy_mag": 2.6898406545321145, "train/policy_entropy_max": 2.6898406545321145, "train/policy_entropy_mean": 0.36940078540808624, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5569948318103949, "train/policy_logprob_mag": 7.438384268018934, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37045317826171714, "train/policy_logprob_min": -7.438384268018934, "train/policy_logprob_std": 1.0060217546092138, "train/policy_randomness_mag": 0.9493957103954421, "train/policy_randomness_max": 0.9493957103954421, "train/policy_randomness_mean": 0.13038226455036137, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19659473322745827, "train/post_ent_mag": 54.85023260116577, "train/post_ent_max": 54.85023260116577, "train/post_ent_mean": 40.44123331705729, "train/post_ent_min": 19.829314841164482, "train/post_ent_std": 5.65265593263838, "train/prior_ent_mag": 76.57461272345648, "train/prior_ent_max": 76.57461272345648, "train/prior_ent_mean": 45.78169435924954, "train/prior_ent_min": 28.055826637479996, "train/prior_ent_std": 7.589686559306251, "train/rep_loss_mean": 5.378105772866143, "train/rep_loss_std": 8.879611909389496, "train/reward_avg": 0.03972303562073244, "train/reward_loss_mean": 0.05612716751380099, "train/reward_loss_std": 0.21784908179607657, "train/reward_max_data": 1.0319444520605936, "train/reward_max_pred": 1.03043246600363, "train/reward_neg_acc": 0.9938954959313074, "train/reward_neg_loss": 0.025209243254115183, "train/reward_pos_acc": 0.9910551433761915, "train/reward_pos_loss": 0.7268550536698766, "train/reward_pred": 0.0395928333616919, "train/reward_rate": 0.044230143229166664, "stats/sum_log_reward": 12.766667048136393, "stats/max_log_achievement_collect_coal": 1.3333333333333333, "stats/max_log_achievement_collect_drink": 2.8333333333333335, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 11.333333333333334, "stats/max_log_achievement_collect_wood": 16.833333333333332, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.1666666666666665, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 2.1666666666666665, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.1666666666666667, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 1.6666666666666667, "stats/max_log_achievement_place_table": 4.5, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.4409724523623784, "replay/size": 804404.0, "replay/inserts": 1434.0, "replay/samples": 11472.0, "replay/insert_wait_avg": 3.4289712520157777e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2427817827488089e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0970952510834, "timer/env.step_count": 1434.0, "timer/env.step_total": 19.541285276412964, "timer/env.step_frac": 0.06511654256454326, "timer/env.step_avg": 0.013627116650218245, "timer/env.step_min": 0.0028574466705322266, "timer/env.step_max": 2.576179027557373, "timer/replay.add_count": 1434.0, "timer/replay.add_total": 0.2810513973236084, "timer/replay.add_frac": 0.0009365348807807022, "timer/replay.add_avg": 0.00019599121152273947, "timer/replay.add_min": 7.033348083496094e-05, "timer/replay.add_max": 0.004760026931762695, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02779364585876465, "timer/logger.write_frac": 9.261551110819794e-05, "timer/logger.write_avg": 0.02779364585876465, "timer/logger.write_min": 0.02779364585876465, "timer/logger.write_max": 0.02779364585876465, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0001690387725830078, "timer/checkpoint.save_frac": 5.632802691461492e-07, "timer/checkpoint.save_avg": 0.0001690387725830078, "timer/checkpoint.save_min": 0.0001690387725830078, "timer/checkpoint.save_max": 0.0001690387725830078, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2309107780456543, "timer/agent.save_frac": 0.0041017084054605175, "timer/agent.save_avg": 1.2309107780456543, "timer/agent.save_min": 1.2309107780456543, "timer/agent.save_max": 1.2309107780456543, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.127357482910156e-05, "timer/replay.save_frac": 2.0417916667215845e-07, "timer/replay.save_avg": 6.127357482910156e-05, "timer/replay.save_min": 6.127357482910156e-05, "timer/replay.save_max": 6.127357482910156e-05, "timer/agent.policy_count": 1434.0, "timer/agent.policy_total": 12.279852867126465, "timer/agent.policy_frac": 0.04091959922788401, "timer/agent.policy_avg": 0.008563356253226266, "timer/agent.policy_min": 0.0056498050689697266, "timer/agent.policy_max": 1.2299573421478271, "timer/dataset_count": 717.0, "timer/dataset_total": 0.061919450759887695, "timer/dataset_frac": 0.00020633138987260545, "timer/dataset_avg": 8.635906661072203e-05, "timer/dataset_min": 6.29425048828125e-05, "timer/dataset_max": 0.00017189979553222656, "timer/agent.train_count": 717.0, "timer/agent.train_total": 267.21645426750183, "timer/agent.train_frac": 0.8904333247342126, "timer/agent.train_avg": 0.3726868260355674, "timer/agent.train_min": 0.3653998374938965, "timer/agent.train_max": 0.8384568691253662, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22273993492126465, "timer/agent.report_frac": 0.0007422262275977846, "timer/agent.report_avg": 0.22273993492126465, "timer/agent.report_min": 0.22273993492126465, "timer/agent.report_max": 0.22273993492126465, "fps": 4.778362323816213}
{"step": 804662, "episode/length": 207.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.0673076923076923}
{"step": 804896, "episode/length": 233.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.05555555555555555}
{"step": 805063, "episode/length": 166.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.07784431137724551}
{"step": 805259, "episode/length": 195.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.0663265306122449}
{"step": 805305, "episode/length": 45.0, "episode/score": 1.1000000089406967, "episode/sum_abs_reward": 2.8999999910593033, "episode/reward_rate": 0.06521739130434782}
{"step": 805516, "episode/length": 210.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.04265402843601896}
{"step": 805736, "episode/length": 219.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.05}
{"step": 805887, "episode/length": 150.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.900000013411045, "episode/reward_rate": 0.059602649006622516}
{"step": 805907, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.297153896755642, "train/action_min": 0.0, "train/action_std": 3.140990432765749, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03921708304228054, "train/actor_opt_grad_steps": 402045.0, "train/actor_opt_loss": -11.915297872490353, "train/adv_mag": 0.39471238230665523, "train/adv_max": 0.338010936561558, "train/adv_mean": 0.0019910896263076617, "train/adv_min": -0.3475582367844052, "train/adv_std": 0.04430818511173129, "train/cont_avg": 0.9949679904513888, "train/cont_loss_mean": 4.7984764778321834e-05, "train/cont_loss_std": 0.0014251623818747955, "train/cont_neg_acc": 0.9972222223877907, "train/cont_neg_loss": 0.008303870649571523, "train/cont_pos_acc": 0.9999999759925736, "train/cont_pos_loss": 7.529830265282398e-06, "train/cont_pred": 0.9949744757678773, "train/cont_rate": 0.9949679904513888, "train/dyn_loss_mean": 5.318474590778351, "train/dyn_loss_std": 8.820048815674252, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9614287490646044, "train/extr_critic_critic_opt_grad_steps": 402045.0, "train/extr_critic_critic_opt_loss": 15627.82191297743, "train/extr_critic_mag": 12.06925536526574, "train/extr_critic_max": 12.06925536526574, "train/extr_critic_mean": 3.656229750977622, "train/extr_critic_min": -0.3646992842356364, "train/extr_critic_std": 2.8942041827572718, "train/extr_return_normed_mag": 1.3963762025038402, "train/extr_return_normed_max": 1.3963762025038402, "train/extr_return_normed_mean": 0.3920791993538539, "train/extr_return_normed_min": -0.07803040057317251, "train/extr_return_normed_std": 0.3159034171452125, "train/extr_return_rate": 0.8559290435579088, "train/extr_return_raw_mag": 12.962778025203281, "train/extr_return_raw_max": 12.962778025203281, "train/extr_return_raw_mean": 3.674631824096044, "train/extr_return_raw_min": -0.6733205020427704, "train/extr_return_raw_std": 2.921820981634988, "train/extr_reward_mag": 1.0653312702973683, "train/extr_reward_max": 1.0653312702973683, "train/extr_reward_mean": 0.06155024541334973, "train/extr_reward_min": -0.6373553954892688, "train/extr_reward_std": 0.23833145366774666, "train/image_loss_mean": 3.022855391105016, "train/image_loss_std": 7.881133304701911, "train/model_loss_mean": 6.269554482565986, "train/model_loss_std": 12.039240466223823, "train/model_opt_grad_norm": 23.84107832113902, "train/model_opt_grad_steps": 401720.0, "train/model_opt_loss": 18713.533542209203, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2986.1111111111113, "train/policy_entropy_mag": 2.6959228151374393, "train/policy_entropy_max": 2.6959228151374393, "train/policy_entropy_mean": 0.37963504696057904, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5821922061343988, "train/policy_logprob_mag": 7.438384261396196, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3799936330566804, "train/policy_logprob_min": -7.438384261396196, "train/policy_logprob_std": 1.0112411479155223, "train/policy_randomness_mag": 0.9515424486663606, "train/policy_randomness_max": 0.9515424486663606, "train/policy_randomness_mean": 0.13399451122515732, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2054882982952727, "train/post_ent_mag": 55.31217357847426, "train/post_ent_max": 55.31217357847426, "train/post_ent_mean": 40.577693939208984, "train/post_ent_min": 19.369955619176228, "train/post_ent_std": 5.738439699014028, "train/prior_ent_mag": 76.66897688971625, "train/prior_ent_max": 76.66897688971625, "train/prior_ent_mean": 45.88329601287842, "train/prior_ent_min": 27.6748153368632, "train/prior_ent_std": 7.698448790444268, "train/rep_loss_mean": 5.318474590778351, "train/rep_loss_std": 8.820048815674252, "train/reward_avg": 0.041731770486674376, "train/reward_loss_mean": 0.05556640913709998, "train/reward_loss_std": 0.21060869118405712, "train/reward_max_data": 1.027777784400516, "train/reward_max_pred": 1.0284971826606326, "train/reward_neg_acc": 0.9942646755112542, "train/reward_neg_loss": 0.023104015504941344, "train/reward_pos_acc": 0.9891426157620218, "train/reward_pos_loss": 0.7257041037082672, "train/reward_pred": 0.04148176762585839, "train/reward_rate": 0.046223958333333336, "stats/sum_log_reward": 9.600000321865082, "stats/max_log_achievement_collect_coal": 0.125, "stats/max_log_achievement_collect_drink": 2.125, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.375, "stats/max_log_achievement_collect_stone": 12.875, "stats/max_log_achievement_collect_wood": 13.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.25, "stats/max_log_achievement_make_stone_sword": 0.625, "stats/max_log_achievement_make_wood_pickaxe": 0.875, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 1.625, "stats/max_log_achievement_place_plant": 1.125, "stats/max_log_achievement_place_stone": 3.375, "stats/max_log_achievement_place_table": 3.875, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.25896077789366245, "replay/size": 805844.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.4701493051317e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2335264020495944e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3078291416168, "timer/env.step_count": 1440.0, "timer/env.step_total": 20.445473194122314, "timer/env.step_frac": 0.06808171885682274, "timer/env.step_avg": 0.014198245273696052, "timer/env.step_min": 0.0028998851776123047, "timer/env.step_max": 1.6832051277160645, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.27193617820739746, "timer/replay.add_frac": 0.0009055247709814449, "timer/replay.add_avg": 0.00018884456819958157, "timer/replay.add_min": 7.200241088867188e-05, "timer/replay.add_max": 0.0046155452728271484, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028811216354370117, "timer/logger.write_frac": 9.593894517076858e-05, "timer/logger.write_avg": 0.028811216354370117, "timer/logger.write_min": 0.028811216354370117, "timer/logger.write_max": 0.028811216354370117, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 11.086459398269653, "timer/agent.policy_frac": 0.03691698424899068, "timer/agent.policy_avg": 0.007698930137687259, "timer/agent.policy_min": 0.005723714828491211, "timer/agent.policy_max": 0.015546798706054688, "timer/dataset_count": 720.0, "timer/dataset_total": 0.061105966567993164, "timer/dataset_frac": 0.00020347776727185253, "timer/dataset_avg": 8.486939801110162e-05, "timer/dataset_min": 6.389617919921875e-05, "timer/dataset_max": 0.00021886825561523438, "timer/agent.train_count": 720.0, "timer/agent.train_total": 267.73103284835815, "timer/agent.train_frac": 0.8915219880001984, "timer/agent.train_avg": 0.3718486567338308, "timer/agent.train_min": 0.3656957149505615, "timer/agent.train_max": 0.3895847797393799, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21951675415039062, "timer/agent.report_frac": 0.000730972465079732, "timer/agent.report_avg": 0.21951675415039062, "timer/agent.report_min": 0.21951675415039062, "timer/agent.report_max": 0.21951675415039062, "fps": 4.795014639896144}
{"step": 806040, "episode/length": 152.0, "episode/score": 11.099999979138374, "episode/sum_abs_reward": 12.900000020861626, "episode/reward_rate": 0.0784313725490196}
{"step": 806276, "episode/length": 235.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.700000040233135, "episode/reward_rate": 0.0635593220338983}
{"step": 806472, "episode/length": 195.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.500000037252903, "episode/reward_rate": 0.07142857142857142}
{"step": 806695, "episode/length": 222.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 16.900000013411045, "episode/reward_rate": 0.07174887892376682}
{"step": 806876, "episode/length": 180.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.06629834254143646}
{"step": 807060, "episode/length": 183.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.900000050663948, "episode/reward_rate": 0.06521739130434782}
{"step": 807246, "episode/length": 185.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.07526881720430108}
{"step": 807357, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.349119398328993, "train/action_min": 0.0, "train/action_std": 3.2077493800057306, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03952123517067068, "train/actor_opt_grad_steps": 402765.0, "train/actor_opt_loss": -12.630689189044965, "train/adv_mag": 0.390597165044811, "train/adv_max": 0.31093020861347515, "train/adv_mean": 0.0014556400766170758, "train/adv_min": -0.3572699415187041, "train/adv_std": 0.04380586086254981, "train/cont_avg": 0.9954969618055556, "train/cont_loss_mean": 4.7275041286493684e-05, "train/cont_loss_std": 0.00144752365270209, "train/cont_neg_acc": 0.9976851857370801, "train/cont_neg_loss": 0.007174519093310276, "train/cont_pos_acc": 0.999999982615312, "train/cont_pos_loss": 5.268071195274615e-06, "train/cont_pred": 0.9955048552817769, "train/cont_rate": 0.9954969618055556, "train/dyn_loss_mean": 5.573784742090437, "train/dyn_loss_std": 8.838809695508745, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9526571780443192, "train/extr_critic_critic_opt_grad_steps": 402765.0, "train/extr_critic_critic_opt_loss": 15679.536661783854, "train/extr_critic_mag": 11.984341025352478, "train/extr_critic_max": 11.984341025352478, "train/extr_critic_mean": 3.642520937654707, "train/extr_critic_min": -0.3535942981640498, "train/extr_critic_std": 2.8099242283238306, "train/extr_return_normed_mag": 1.3809100223912134, "train/extr_return_normed_max": 1.3809100223912134, "train/extr_return_normed_mean": 0.3917408672471841, "train/extr_return_normed_min": -0.07769832760095596, "train/extr_return_normed_std": 0.3064638413488865, "train/extr_return_rate": 0.8611464202404022, "train/extr_return_raw_mag": 12.797047932942709, "train/extr_return_raw_max": 12.797047932942709, "train/extr_return_raw_mean": 3.6559547748830585, "train/extr_return_raw_min": -0.6824436858296394, "train/extr_return_raw_std": 2.8318293458885617, "train/extr_reward_mag": 1.0688793228732214, "train/extr_reward_max": 1.0688793228732214, "train/extr_reward_mean": 0.060301161733352475, "train/extr_reward_min": -0.634803326593505, "train/extr_reward_std": 0.23548480599290794, "train/image_loss_mean": 3.2465039127402835, "train/image_loss_std": 8.531623933050367, "train/model_loss_mean": 6.645710964997609, "train/model_loss_std": 12.679073439704048, "train/model_opt_grad_norm": 25.38031240304311, "train/model_opt_grad_steps": 402439.0833333333, "train/model_opt_loss": 17928.504489474828, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2708.3333333333335, "train/policy_entropy_mag": 2.688529153664907, "train/policy_entropy_max": 2.688529153664907, "train/policy_entropy_mean": 0.3812345028337505, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5700896489951346, "train/policy_logprob_mag": 7.438384234905243, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38048811112013126, "train/policy_logprob_min": -7.438384234905243, "train/policy_logprob_std": 1.0093696721725993, "train/policy_randomness_mag": 0.9489328099621667, "train/policy_randomness_max": 0.9489328099621667, "train/policy_randomness_mean": 0.13455904958148798, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20121662877500057, "train/post_ent_mag": 55.49032190110948, "train/post_ent_max": 55.49032190110948, "train/post_ent_mean": 40.53922181659274, "train/post_ent_min": 19.535534964667427, "train/post_ent_std": 5.815251727898915, "train/prior_ent_mag": 76.64144865671794, "train/prior_ent_max": 76.64144865671794, "train/prior_ent_mean": 46.13189379374186, "train/prior_ent_min": 27.898534509870743, "train/prior_ent_std": 7.630615260865953, "train/rep_loss_mean": 5.573784742090437, "train/rep_loss_std": 8.838809695508745, "train/reward_avg": 0.041781954674257174, "train/reward_loss_mean": 0.05488895619702008, "train/reward_loss_std": 0.21268495006693733, "train/reward_max_data": 1.0208333383003871, "train/reward_max_pred": 1.0218163463804457, "train/reward_neg_acc": 0.9934586418999566, "train/reward_neg_loss": 0.022405112550283473, "train/reward_pos_acc": 0.9891964677307341, "train/reward_pos_loss": 0.729910309943888, "train/reward_pred": 0.04147961259716087, "train/reward_rate": 0.04600694444444445, "stats/sum_log_reward": 12.671428680419922, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 1.4285714285714286, "stats/max_log_achievement_collect_iron": 0.14285714285714285, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 14.285714285714286, "stats/max_log_achievement_collect_wood": 12.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.2857142857142858, "stats/max_log_achievement_eat_cow": 0.7142857142857143, "stats/max_log_achievement_make_stone_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_stone_sword": 1.2857142857142858, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 0.7142857142857143, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 3.2857142857142856, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.27626589792115347, "replay/size": 807294.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.464961874073949e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.252088053473111e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.37304401397705, "timer/env.step_count": 1450.0, "timer/env.step_total": 18.625064373016357, "timer/env.step_frac": 0.06200644413401387, "timer/env.step_avg": 0.012844871981390591, "timer/env.step_min": 0.0027654170989990234, "timer/env.step_max": 1.6624178886413574, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.2764449119567871, "timer/replay.add_frac": 0.0009203386171494254, "timer/replay.add_avg": 0.00019065166341847387, "timer/replay.add_min": 7.033348083496094e-05, "timer/replay.add_max": 0.004801511764526367, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027922630310058594, "timer/logger.write_frac": 9.295984065986723e-05, "timer/logger.write_avg": 0.027922630310058594, "timer/logger.write_min": 0.027922630310058594, "timer/logger.write_max": 0.027922630310058594, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 11.146238803863525, "timer/agent.policy_frac": 0.037107986305671505, "timer/agent.policy_avg": 0.007687061244043811, "timer/agent.policy_min": 0.005740642547607422, "timer/agent.policy_max": 0.019211530685424805, "timer/dataset_count": 725.0, "timer/dataset_total": 0.06196856498718262, "timer/dataset_frac": 0.00020630534670847188, "timer/dataset_avg": 8.547388274094154e-05, "timer/dataset_min": 5.888938903808594e-05, "timer/dataset_max": 0.00015807151794433594, "timer/agent.train_count": 725.0, "timer/agent.train_total": 269.5478024482727, "timer/agent.train_frac": 0.8973768046766873, "timer/agent.train_avg": 0.3717900723424451, "timer/agent.train_min": 0.3658106327056885, "timer/agent.train_max": 0.3872644901275635, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22320270538330078, "timer/agent.report_frac": 0.0007430850065657511, "timer/agent.report_avg": 0.22320270538330078, "timer/agent.report_min": 0.22320270538330078, "timer/agent.report_max": 0.22320270538330078, "fps": 4.827253502559596}
{"step": 807412, "episode/length": 165.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.0999999940395355, "episode/reward_rate": 0.04216867469879518}
{"step": 807666, "episode/length": 253.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.047244094488188976}
{"step": 807842, "episode/length": 175.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 13.899999991059303, "episode/reward_rate": 0.07954545454545454}
{"step": 807982, "episode/length": 139.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 11.500000044703484, "episode/reward_rate": 0.07142857142857142}
{"step": 808191, "episode/length": 208.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.05741626794258373}
{"step": 808341, "episode/length": 149.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.07333333333333333}
{"step": 808553, "episode/length": 211.0, "episode/score": 14.099999964237213, "episode/sum_abs_reward": 15.699999988079071, "episode/reward_rate": 0.07075471698113207}
{"step": 808764, "episode/length": 210.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.05687203791469194}
{"step": 808777, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.359296771841989, "train/action_min": 0.0, "train/action_std": 3.2054310919533315, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04002899235822785, "train/actor_opt_grad_steps": 403480.0, "train/actor_opt_loss": -12.030616731710836, "train/adv_mag": 0.41341276068083, "train/adv_max": 0.35774382780975017, "train/adv_mean": 0.002094465309428543, "train/adv_min": -0.35710098604920887, "train/adv_std": 0.044815872704059304, "train/cont_avg": 0.9949383802816901, "train/cont_loss_mean": 6.42862649434571e-05, "train/cont_loss_std": 0.0019245660953594113, "train/cont_neg_acc": 0.9985915497994758, "train/cont_neg_loss": 0.0014261348439290455, "train/cont_pos_acc": 0.9999861297473102, "train/cont_pos_loss": 5.1876323588728576e-05, "train/cont_pred": 0.9949233523556884, "train/cont_rate": 0.9949383802816901, "train/dyn_loss_mean": 5.511692174723451, "train/dyn_loss_std": 8.90664061694078, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9583622939150098, "train/extr_critic_critic_opt_grad_steps": 403480.0, "train/extr_critic_critic_opt_loss": 15524.310560629401, "train/extr_critic_mag": 11.68494189625055, "train/extr_critic_max": 11.68494189625055, "train/extr_critic_mean": 3.770414527033416, "train/extr_critic_min": -0.3813448103380875, "train/extr_critic_std": 2.856829666755569, "train/extr_return_normed_mag": 1.3660696593808457, "train/extr_return_normed_max": 1.3660696593808457, "train/extr_return_normed_mean": 0.41143051944148373, "train/extr_return_normed_min": -0.08336696978396094, "train/extr_return_normed_std": 0.31683502251833257, "train/extr_return_rate": 0.8584709243035652, "train/extr_return_raw_mag": 12.494223473777234, "train/extr_return_raw_max": 12.494223473777234, "train/extr_return_raw_mean": 3.7895069760336004, "train/extr_return_raw_min": -0.7217695901931171, "train/extr_return_raw_std": 2.888959589138837, "train/extr_reward_mag": 1.0714446893880065, "train/extr_reward_max": 1.0714446893880065, "train/extr_reward_mean": 0.061871409101385465, "train/extr_reward_min": -0.6151533059670892, "train/extr_reward_std": 0.23858850564755185, "train/image_loss_mean": 3.2140852716607107, "train/image_loss_std": 8.435640328366992, "train/model_loss_mean": 6.579151153564453, "train/model_loss_std": 12.638393321507413, "train/model_opt_grad_norm": 24.30285287239182, "train/model_opt_grad_steps": 403153.4788732394, "train/model_opt_loss": 16447.8779159331, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7084720907076982, "train/policy_entropy_max": 2.7084720907076982, "train/policy_entropy_mean": 0.3817989076946823, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5836488117634411, "train/policy_logprob_mag": 7.43838429115188, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38147258989407984, "train/policy_logprob_min": -7.43838429115188, "train/policy_logprob_std": 1.0116969666010898, "train/policy_randomness_mag": 0.955971790031648, "train/policy_randomness_max": 0.955971790031648, "train/policy_randomness_mean": 0.13475825899923352, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20600241737466463, "train/post_ent_mag": 55.46589612289214, "train/post_ent_max": 55.46589612289214, "train/post_ent_mean": 40.50679564140212, "train/post_ent_min": 19.435674600198237, "train/post_ent_std": 5.757776670052972, "train/prior_ent_mag": 76.62709453743948, "train/prior_ent_max": 76.62709453743948, "train/prior_ent_mean": 46.00419557598275, "train/prior_ent_min": 28.22958943541621, "train/prior_ent_std": 7.76356617833527, "train/rep_loss_mean": 5.511692174723451, "train/rep_loss_std": 8.90664061694078, "train/reward_avg": 0.042865591884498865, "train/reward_loss_mean": 0.05798623784327171, "train/reward_loss_std": 0.21520046532993586, "train/reward_max_data": 1.0309859228805758, "train/reward_max_pred": 1.0289177424471143, "train/reward_neg_acc": 0.9932042461046031, "train/reward_neg_loss": 0.024648170918226242, "train/reward_pos_acc": 0.9893958585363039, "train/reward_pos_loss": 0.7298197376895958, "train/reward_pred": 0.0423633419239605, "train/reward_rate": 0.047328895246478875, "stats/sum_log_reward": 10.475000202655792, "stats/max_log_achievement_collect_coal": 0.25, "stats/max_log_achievement_collect_drink": 1.75, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.25, "stats/max_log_achievement_collect_stone": 10.125, "stats/max_log_achievement_collect_wood": 11.875, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.875, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "stats/max_log_achievement_make_stone_sword": 0.625, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.25, "stats/max_log_achievement_place_plant": 1.25, "stats/max_log_achievement_place_stone": 2.375, "stats/max_log_achievement_place_table": 2.75, "stats/max_log_achievement_wake_up": 1.125, "stats/mean_log_entropy": 0.293147386983037, "replay/size": 808714.0, "replay/inserts": 1420.0, "replay/samples": 11360.0, "replay/insert_wait_avg": 3.530106074373487e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2361667525600379e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2792217731476, "timer/env.step_count": 1420.0, "timer/env.step_total": 21.92934799194336, "timer/env.step_frac": 0.07302985488789616, "timer/env.step_avg": 0.015443202811227718, "timer/env.step_min": 0.0026922225952148438, "timer/env.step_max": 1.9306364059448242, "timer/replay.add_count": 1420.0, "timer/replay.add_total": 0.30519700050354004, "timer/replay.add_frac": 0.0010163773527230855, "timer/replay.add_avg": 0.00021492746514333806, "timer/replay.add_min": 6.461143493652344e-05, "timer/replay.add_max": 0.0050852298736572266, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027719497680664062, "timer/logger.write_frac": 9.231240682249188e-05, "timer/logger.write_avg": 0.027719497680664062, "timer/logger.write_min": 0.027719497680664062, "timer/logger.write_max": 0.027719497680664062, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003123283386230469, "timer/checkpoint.save_frac": 1.0401263756404766e-06, "timer/checkpoint.save_avg": 0.0003123283386230469, "timer/checkpoint.save_min": 0.0003123283386230469, "timer/checkpoint.save_max": 0.0003123283386230469, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.22764253616333, "timer/agent.save_frac": 0.004088336611884452, "timer/agent.save_avg": 1.22764253616333, "timer/agent.save_min": 1.22764253616333, "timer/agent.save_max": 1.22764253616333, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.794929504394531e-05, "timer/replay.save_frac": 2.2628703592178306e-07, "timer/replay.save_avg": 6.794929504394531e-05, "timer/replay.save_min": 6.794929504394531e-05, "timer/replay.save_max": 6.794929504394531e-05, "timer/agent.policy_count": 1420.0, "timer/agent.policy_total": 12.729319095611572, "timer/agent.policy_frac": 0.04239160811875359, "timer/agent.policy_avg": 0.008964309222261671, "timer/agent.policy_min": 0.00562739372253418, "timer/agent.policy_max": 1.2124359607696533, "timer/dataset_count": 710.0, "timer/dataset_total": 0.06109786033630371, "timer/dataset_frac": 0.0002034701567944698, "timer/dataset_avg": 8.605332441732917e-05, "timer/dataset_min": 6.365776062011719e-05, "timer/dataset_max": 0.000213623046875, "timer/agent.train_count": 710.0, "timer/agent.train_total": 264.5485370159149, "timer/agent.train_frac": 0.8810084675648114, "timer/agent.train_avg": 0.372603573261852, "timer/agent.train_min": 0.36520814895629883, "timer/agent.train_max": 0.8789618015289307, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2198045253753662, "timer/agent.report_frac": 0.0007320004497061814, "timer/agent.report_avg": 0.2198045253753662, "timer/agent.report_min": 0.2198045253753662, "timer/agent.report_max": 0.2198045253753662, "fps": 4.72883386323365}
{"step": 808937, "episode/length": 172.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06358381502890173}
{"step": 808979, "episode/length": 41.0, "episode/score": 3.0999999940395355, "episode/sum_abs_reward": 4.9000000059604645, "episode/reward_rate": 0.11904761904761904}
{"step": 809236, "episode/length": 256.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.100000023841858, "episode/reward_rate": 0.058365758754863814}
{"step": 809297, "episode/length": 60.0, "episode/score": 6.100000023841858, "episode/sum_abs_reward": 7.5, "episode/reward_rate": 0.13114754098360656}
{"step": 809475, "episode/length": 177.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.06741573033707865}
{"step": 809698, "episode/length": 222.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.299999997019768, "episode/reward_rate": 0.03587443946188341}
{"step": 809875, "episode/length": 176.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.30000003427267, "episode/reward_rate": 0.07344632768361582}
{"step": 810075, "episode/length": 199.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.055}
{"step": 810219, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.343219913848459, "train/action_min": 0.0, "train/action_std": 3.182250826326135, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03932777151771604, "train/actor_opt_grad_steps": 404200.0, "train/actor_opt_loss": -13.03708416223526, "train/adv_mag": 0.4341594850363797, "train/adv_max": 0.35401592168905965, "train/adv_mean": 0.002387192463162411, "train/adv_min": -0.3871199264101786, "train/adv_std": 0.04522461321664183, "train/cont_avg": 0.9947426155821918, "train/cont_loss_mean": 0.00018239773924623733, "train/cont_loss_std": 0.005769709960906598, "train/cont_neg_acc": 0.9954337902265052, "train/cont_neg_loss": 0.057540904053341085, "train/cont_pos_acc": 0.9999999795874505, "train/cont_pos_loss": 1.3852179390144943e-05, "train/cont_pred": 0.9947441751009798, "train/cont_rate": 0.9947426155821918, "train/dyn_loss_mean": 5.301018166215452, "train/dyn_loss_std": 8.713749839834971, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9372053048382066, "train/extr_critic_critic_opt_grad_steps": 404200.0, "train/extr_critic_critic_opt_loss": 15642.908617829624, "train/extr_critic_mag": 12.048239707946777, "train/extr_critic_max": 12.048239707946777, "train/extr_critic_mean": 3.6917366556925315, "train/extr_critic_min": -0.37722544474144504, "train/extr_critic_std": 2.968431982275558, "train/extr_return_normed_mag": 1.3894070403216636, "train/extr_return_normed_max": 1.3894070403216636, "train/extr_return_normed_mean": 0.40008566232576764, "train/extr_return_normed_min": -0.08130001286937766, "train/extr_return_normed_std": 0.3262258449645892, "train/extr_return_rate": 0.8433986575636145, "train/extr_return_raw_mag": 12.82771124905103, "train/extr_return_raw_max": 12.82771124905103, "train/extr_return_raw_mean": 3.7137587593026358, "train/extr_return_raw_min": -0.7215038521649086, "train/extr_return_raw_std": 3.005685727890224, "train/extr_reward_mag": 1.0714621837824991, "train/extr_reward_max": 1.0714621837824991, "train/extr_reward_mean": 0.06156745894926868, "train/extr_reward_min": -0.6373430849754647, "train/extr_reward_std": 0.2383581132513203, "train/image_loss_mean": 3.052616993041888, "train/image_loss_std": 8.093202035721035, "train/model_loss_mean": 6.28997753744256, "train/model_loss_std": 12.154211305592158, "train/model_opt_grad_norm": 23.811276226827545, "train/model_opt_grad_steps": 403873.0, "train/model_opt_loss": 17761.94123234161, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2842.4657534246576, "train/policy_entropy_mag": 2.7140884693354774, "train/policy_entropy_max": 2.7140884693354774, "train/policy_entropy_mean": 0.3798512502075875, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5837422674649382, "train/policy_logprob_mag": 7.438384304307911, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3788218690107947, "train/policy_logprob_min": -7.438384304307911, "train/policy_logprob_std": 1.0111706338516653, "train/policy_randomness_mag": 0.957954125045097, "train/policy_randomness_max": 0.957954125045097, "train/policy_randomness_mean": 0.1340708216167476, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2060354035602857, "train/post_ent_mag": 55.026754248632145, "train/post_ent_max": 55.026754248632145, "train/post_ent_mean": 40.618704338596295, "train/post_ent_min": 19.736523575978737, "train/post_ent_std": 5.682369055813306, "train/prior_ent_mag": 76.74521960950878, "train/prior_ent_max": 76.74521960950878, "train/prior_ent_mean": 45.937481449074944, "train/prior_ent_min": 28.019761176958475, "train/prior_ent_std": 7.60462176309873, "train/rep_loss_mean": 5.301018166215452, "train/rep_loss_std": 8.713749839834971, "train/reward_avg": 0.04125240802356642, "train/reward_loss_mean": 0.056567247038426464, "train/reward_loss_std": 0.2115292149047329, "train/reward_max_data": 1.0246575401253897, "train/reward_max_pred": 1.0245196133443755, "train/reward_neg_acc": 0.993890595762697, "train/reward_neg_loss": 0.024434206280091852, "train/reward_pos_acc": 0.9886219730115917, "train/reward_pos_loss": 0.7253474331881902, "train/reward_pred": 0.04081797079272466, "train/reward_rate": 0.0459251926369863, "stats/sum_log_reward": 8.975000262260437, "stats/max_log_achievement_collect_coal": 0.0, "stats/max_log_achievement_collect_drink": 1.875, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.125, "stats/max_log_achievement_collect_stone": 8.125, "stats/max_log_achievement_collect_wood": 8.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.25, "stats/max_log_achievement_make_stone_sword": 0.25, "stats/max_log_achievement_make_wood_pickaxe": 0.875, "stats/max_log_achievement_make_wood_sword": 0.75, "stats/max_log_achievement_place_furnace": 0.875, "stats/max_log_achievement_place_plant": 1.125, "stats/max_log_achievement_place_stone": 2.25, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.34637443721294403, "replay/size": 810156.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.4884837728598246e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2516355382255312e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3626871109009, "timer/env.step_count": 1442.0, "timer/env.step_total": 20.06855297088623, "timer/env.step_frac": 0.06681440082960922, "timer/env.step_avg": 0.013917165721835111, "timer/env.step_min": 0.0028395652770996094, "timer/env.step_max": 1.724672794342041, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.28270864486694336, "timer/replay.add_frac": 0.0009412242498768189, "timer/replay.add_avg": 0.00019605315178012716, "timer/replay.add_min": 6.747245788574219e-05, "timer/replay.add_max": 0.004533290863037109, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02981710433959961, "timer/logger.write_frac": 9.927033422959904e-05, "timer/logger.write_avg": 0.02981710433959961, "timer/logger.write_min": 0.02981710433959961, "timer/logger.write_max": 0.02981710433959961, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 11.071804523468018, "timer/agent.policy_frac": 0.03686145116746825, "timer/agent.policy_avg": 0.0076780891286185975, "timer/agent.policy_min": 0.005781650543212891, "timer/agent.policy_max": 0.018243789672851562, "timer/dataset_count": 721.0, "timer/dataset_total": 0.06146955490112305, "timer/dataset_frac": 0.00020465110194738356, "timer/dataset_avg": 8.525597073664777e-05, "timer/dataset_min": 6.29425048828125e-05, "timer/dataset_max": 0.0001442432403564453, "timer/agent.train_count": 721.0, "timer/agent.train_total": 268.1521489620209, "timer/agent.train_frac": 0.8927611866217353, "timer/agent.train_avg": 0.37191698885162394, "timer/agent.train_min": 0.36609339714050293, "timer/agent.train_max": 0.38413405418395996, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22528791427612305, "timer/agent.report_frac": 0.0007500529324833931, "timer/agent.report_avg": 0.22528791427612305, "timer/agent.report_min": 0.22528791427612305, "timer/agent.report_max": 0.22528791427612305, "fps": 4.80080182604174}
{"step": 810271, "episode/length": 195.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.07142857142857142}
{"step": 810447, "episode/length": 175.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.06818181818181818}
{"step": 810861, "episode/length": 413.0, "episode/score": 16.099999986588955, "episode/sum_abs_reward": 18.500000022351742, "episode/reward_rate": 0.04106280193236715}
{"step": 811145, "episode/length": 283.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 15.300000011920929, "episode/reward_rate": 0.04929577464788732}
{"step": 811258, "episode/length": 112.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.700000025331974, "episode/reward_rate": 0.05309734513274336}
{"step": 811440, "episode/length": 181.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06593406593406594}
{"step": 811654, "episode/length": 213.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.500000044703484, "episode/reward_rate": 0.07009345794392523}
{"step": 811665, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.3760732014973955, "train/action_min": 0.0, "train/action_std": 3.238434510098563, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03917061366761724, "train/actor_opt_grad_steps": 404925.0, "train/actor_opt_loss": -13.2588131899635, "train/adv_mag": 0.4017208947075738, "train/adv_max": 0.34228839145766365, "train/adv_mean": 0.0016693264927501634, "train/adv_min": -0.35617646016180515, "train/adv_std": 0.04400828630766935, "train/cont_avg": 0.9947781032986112, "train/cont_loss_mean": 6.772667906160577e-05, "train/cont_loss_std": 0.0021082361749667675, "train/cont_neg_acc": 0.9980158739619784, "train/cont_neg_loss": 0.00868760492489409, "train/cont_pos_acc": 0.9999999834431542, "train/cont_pos_loss": 8.396227572167922e-06, "train/cont_pred": 0.9947894952363439, "train/cont_rate": 0.9947781032986112, "train/dyn_loss_mean": 5.396852923764123, "train/dyn_loss_std": 8.810502350330353, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9646772402856085, "train/extr_critic_critic_opt_grad_steps": 404925.0, "train/extr_critic_critic_opt_loss": 15554.567206488715, "train/extr_critic_mag": 11.89551187886132, "train/extr_critic_max": 11.89551187886132, "train/extr_critic_mean": 3.685748474465476, "train/extr_critic_min": -0.3759792612658607, "train/extr_critic_std": 2.922632631328371, "train/extr_return_normed_mag": 1.3922812872462802, "train/extr_return_normed_max": 1.3922812872462802, "train/extr_return_normed_mean": 0.3989287701745828, "train/extr_return_normed_min": -0.07852169581585461, "train/extr_return_normed_std": 0.32060719943708843, "train/extr_return_rate": 0.8458351857132382, "train/extr_return_raw_mag": 12.844279792573717, "train/extr_return_raw_max": 12.844279792573717, "train/extr_return_raw_mean": 3.701092825995551, "train/extr_return_raw_min": -0.6938545741140842, "train/extr_return_raw_std": 2.951298952102661, "train/extr_reward_mag": 1.0771178536944919, "train/extr_reward_max": 1.0771178536944919, "train/extr_reward_mean": 0.06191307839213146, "train/extr_reward_min": -0.6174684779511558, "train/extr_reward_std": 0.23890021733111805, "train/image_loss_mean": 3.0933129919899836, "train/image_loss_std": 8.253838837146759, "train/model_loss_mean": 6.387986679871877, "train/model_loss_std": 12.397537019517687, "train/model_opt_grad_norm": 24.654585229025948, "train/model_opt_grad_steps": 404597.1388888889, "train/model_opt_loss": 18239.084391276043, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2847.222222222222, "train/policy_entropy_mag": 2.711724234951867, "train/policy_entropy_max": 2.711724234951867, "train/policy_entropy_mean": 0.3919854060643249, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5915973136822382, "train/policy_logprob_mag": 7.438384340869056, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39290968432194656, "train/policy_logprob_min": -7.438384340869056, "train/policy_logprob_std": 1.0220841219027836, "train/policy_randomness_mag": 0.9571196552779939, "train/policy_randomness_max": 0.9571196552779939, "train/policy_randomness_mean": 0.13835364662938648, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2088078913382358, "train/post_ent_mag": 55.29626316494412, "train/post_ent_max": 55.29626316494412, "train/post_ent_mean": 40.55924023522271, "train/post_ent_min": 19.426169607374405, "train/post_ent_std": 5.709885001182556, "train/prior_ent_mag": 76.86235671573215, "train/prior_ent_max": 76.86235671573215, "train/prior_ent_mean": 45.98386960559421, "train/prior_ent_min": 28.10029016600715, "train/prior_ent_std": 7.7002201146549645, "train/rep_loss_mean": 5.396852923764123, "train/rep_loss_std": 8.810502350330353, "train/reward_avg": 0.04157986088345448, "train/reward_loss_mean": 0.05649419387595521, "train/reward_loss_std": 0.21594632727404436, "train/reward_max_data": 1.027777784400516, "train/reward_max_pred": 1.0273855825265248, "train/reward_neg_acc": 0.9935203765829405, "train/reward_neg_loss": 0.024218706478778686, "train/reward_pos_acc": 0.9912049844861031, "train/reward_pos_loss": 0.7246376391914156, "train/reward_pred": 0.04130358197208908, "train/reward_rate": 0.04615614149305555, "stats/sum_log_reward": 11.814286027635847, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 3.142857142857143, "stats/max_log_achievement_collect_iron": 0.2857142857142857, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 13.285714285714286, "stats/max_log_achievement_collect_wood": 10.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.7142857142857142, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_stone_pickaxe": 0.2857142857142857, "stats/max_log_achievement_make_stone_sword": 0.7142857142857143, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.1428571428571428, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 3.142857142857143, "stats/max_log_achievement_place_table": 2.4285714285714284, "stats/max_log_achievement_wake_up": 1.5714285714285714, "stats/mean_log_entropy": 0.39596949943474363, "replay/size": 811602.0, "replay/inserts": 1446.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.5393452413514114e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2490182166937145e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.05074429512024, "timer/env.step_count": 1446.0, "timer/env.step_total": 18.821210622787476, "timer/env.step_frac": 0.06272675865878052, "timer/env.step_avg": 0.013016051606353718, "timer/env.step_min": 0.0027124881744384766, "timer/env.step_max": 1.7344770431518555, "timer/replay.add_count": 1446.0, "timer/replay.add_total": 0.2776186466217041, "timer/replay.add_frac": 0.0009252389867383477, "timer/replay.add_avg": 0.00019199076529855056, "timer/replay.add_min": 6.461143493652344e-05, "timer/replay.add_max": 0.004425764083862305, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02924036979675293, "timer/logger.write_frac": 9.745141564452527e-05, "timer/logger.write_avg": 0.02924036979675293, "timer/logger.write_min": 0.02924036979675293, "timer/logger.write_max": 0.02924036979675293, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1446.0, "timer/agent.policy_total": 11.152851581573486, "timer/agent.policy_frac": 0.037169884739908864, "timer/agent.policy_avg": 0.007712898742443628, "timer/agent.policy_min": 0.0056667327880859375, "timer/agent.policy_max": 0.01815938949584961, "timer/dataset_count": 723.0, "timer/dataset_total": 0.062462568283081055, "timer/dataset_frac": 0.0002081733489107592, "timer/dataset_avg": 8.639359375253258e-05, "timer/dataset_min": 6.079673767089844e-05, "timer/dataset_max": 0.0001494884490966797, "timer/agent.train_count": 723.0, "timer/agent.train_total": 269.0054533481598, "timer/agent.train_frac": 0.8965331980099163, "timer/agent.train_avg": 0.37206840020492365, "timer/agent.train_min": 0.36185646057128906, "timer/agent.train_max": 0.38668107986450195, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22393178939819336, "timer/agent.report_frac": 0.0007463130608932644, "timer/agent.report_avg": 0.22393178939819336, "timer/agent.report_min": 0.22393178939819336, "timer/agent.report_max": 0.22393178939819336, "fps": 4.819098148668725}
{"step": 811926, "episode/length": 271.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.051470588235294115}
{"step": 812103, "episode/length": 176.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.062146892655367235}
{"step": 812190, "episode/length": 86.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 7.700000025331974, "episode/reward_rate": 0.08045977011494253}
{"step": 812397, "episode/length": 206.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.06763285024154589}
{"step": 812650, "episode/length": 252.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.700000047683716, "episode/reward_rate": 0.05928853754940711}
{"step": 812821, "episode/length": 170.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.900000028312206, "episode/reward_rate": 0.05263157894736842}
{"step": 812867, "episode/length": 45.0, "episode/score": 4.100000001490116, "episode/sum_abs_reward": 5.700000025331974, "episode/reward_rate": 0.10869565217391304}
{"step": 813020, "episode/length": 152.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.0718954248366013}
{"step": 813083, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.360179632482394, "train/action_min": 0.0, "train/action_std": 3.2401456900045904, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03933798335492611, "train/actor_opt_grad_steps": 405640.0, "train/actor_opt_loss": -12.028283948629674, "train/adv_mag": 0.4033341185307839, "train/adv_max": 0.3488699218756716, "train/adv_mean": 0.0018193566149779477, "train/adv_min": -0.35337496349509334, "train/adv_std": 0.04430158357595054, "train/cont_avg": 0.9946495378521126, "train/cont_loss_mean": 0.00012422466159924003, "train/cont_loss_std": 0.003960863990712137, "train/cont_neg_acc": 0.9971830987594497, "train/cont_neg_loss": 0.024994612859956477, "train/cont_pos_acc": 0.9999999865679674, "train/cont_pos_loss": 2.0976460048636526e-06, "train/cont_pred": 0.9946656294271979, "train/cont_rate": 0.9946495378521126, "train/dyn_loss_mean": 5.457027294266392, "train/dyn_loss_std": 8.923528657832616, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9622277567084406, "train/extr_critic_critic_opt_grad_steps": 405640.0, "train/extr_critic_critic_opt_loss": 15614.075525418133, "train/extr_critic_mag": 11.91417735731098, "train/extr_critic_max": 11.91417735731098, "train/extr_critic_mean": 3.6952539598438103, "train/extr_critic_min": -0.38757283251050495, "train/extr_critic_std": 2.876850924021761, "train/extr_return_normed_mag": 1.3830778481255115, "train/extr_return_normed_max": 1.3830778481255115, "train/extr_return_normed_mean": 0.401551129952283, "train/extr_return_normed_min": -0.08022231246593972, "train/extr_return_normed_std": 0.31794278050812197, "train/extr_return_rate": 0.8563408221997005, "train/extr_return_raw_mag": 12.679286500098, "train/extr_return_raw_max": 12.679286500098, "train/extr_return_raw_mean": 3.7118455859976756, "train/extr_return_raw_min": -0.6882267434832076, "train/extr_return_raw_std": 2.9047703877301285, "train/extr_reward_mag": 1.0762806543162171, "train/extr_reward_max": 1.0762806543162171, "train/extr_reward_mean": 0.059027781211574315, "train/extr_reward_min": -0.6079948871908053, "train/extr_reward_std": 0.23414362967014313, "train/image_loss_mean": 3.2039947224334933, "train/image_loss_std": 8.330837075139435, "train/model_loss_mean": 6.535171636393373, "train/model_loss_std": 12.547140363236549, "train/model_opt_grad_norm": 24.599903173849615, "train/model_opt_grad_steps": 405311.338028169, "train/model_opt_loss": 10930.430051991638, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1672.5352112676057, "train/policy_entropy_mag": 2.6996683671440875, "train/policy_entropy_max": 2.6996683671440875, "train/policy_entropy_mean": 0.3805333801978071, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5785428688559734, "train/policy_logprob_mag": 7.438384244139765, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3792934262416732, "train/policy_logprob_min": -7.438384244139765, "train/policy_logprob_std": 1.0091327009066728, "train/policy_randomness_mag": 0.9528644622211725, "train/policy_randomness_max": 0.9528644622211725, "train/policy_randomness_mean": 0.1343115842048551, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20420024386593993, "train/post_ent_mag": 55.42954184303821, "train/post_ent_max": 55.42954184303821, "train/post_ent_mean": 40.581461516904156, "train/post_ent_min": 19.654690943973165, "train/post_ent_std": 5.81617495039819, "train/prior_ent_mag": 76.774689902722, "train/prior_ent_max": 76.774689902722, "train/prior_ent_mean": 46.022992738535706, "train/prior_ent_min": 27.738544464111328, "train/prior_ent_std": 7.775049223026759, "train/rep_loss_mean": 5.457027294266392, "train/rep_loss_std": 8.923528657832616, "train/reward_avg": 0.04129759012393548, "train/reward_loss_mean": 0.05683633176163888, "train/reward_loss_std": 0.21937736512069972, "train/reward_max_data": 1.0267605697604971, "train/reward_max_pred": 1.0258791345945546, "train/reward_neg_acc": 0.9940086645139775, "train/reward_neg_loss": 0.024223867475881542, "train/reward_pos_acc": 0.9880700195339364, "train/reward_pos_loss": 0.7321183597537834, "train/reward_pred": 0.040840655250448575, "train/reward_rate": 0.0459259463028169, "stats/sum_log_reward": 9.850000202655792, "stats/max_log_achievement_collect_coal": 0.375, "stats/max_log_achievement_collect_drink": 3.375, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 8.75, "stats/max_log_achievement_collect_wood": 11.0, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 1.375, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 2.0, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 0.875, "stats/mean_log_entropy": 0.31824208050966263, "replay/size": 813020.0, "replay/inserts": 1418.0, "replay/samples": 11344.0, "replay/insert_wait_avg": 3.4690071396498148e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.227864089234087e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.35288763046265, "timer/env.step_count": 1418.0, "timer/env.step_total": 20.611701250076294, "timer/env.step_frac": 0.06862494784946357, "timer/env.step_avg": 0.014535755465498092, "timer/env.step_min": 0.0030028820037841797, "timer/env.step_max": 1.6606547832489014, "timer/replay.add_count": 1418.0, "timer/replay.add_total": 0.2931334972381592, "timer/replay.add_frac": 0.0009759636391404174, "timer/replay.add_avg": 0.0002067231997448231, "timer/replay.add_min": 6.937980651855469e-05, "timer/replay.add_max": 0.0041692256927490234, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028217792510986328, "timer/logger.write_frac": 9.394879714192699e-05, "timer/logger.write_avg": 0.028217792510986328, "timer/logger.write_min": 0.028217792510986328, "timer/logger.write_max": 0.028217792510986328, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00018095970153808594, "timer/checkpoint.save_frac": 6.024903005451661e-07, "timer/checkpoint.save_avg": 0.00018095970153808594, "timer/checkpoint.save_min": 0.00018095970153808594, "timer/checkpoint.save_max": 0.00018095970153808594, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.5237843990325928, "timer/agent.save_frac": 0.005073313631355433, "timer/agent.save_avg": 1.5237843990325928, "timer/agent.save_min": 1.5237843990325928, "timer/agent.save_max": 1.5237843990325928, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.29425048828125e-05, "timer/replay.save_frac": 2.0956184366788386e-07, "timer/replay.save_avg": 6.29425048828125e-05, "timer/replay.save_min": 6.29425048828125e-05, "timer/replay.save_max": 6.29425048828125e-05, "timer/agent.policy_count": 1418.0, "timer/agent.policy_total": 15.019327878952026, "timer/agent.policy_frac": 0.05000560506490274, "timer/agent.policy_avg": 0.01059190964665164, "timer/agent.policy_min": 0.005740165710449219, "timer/agent.policy_max": 2.6721789836883545, "timer/dataset_count": 709.0, "timer/dataset_total": 0.061379194259643555, "timer/dataset_frac": 0.00020435693075526902, "timer/dataset_avg": 8.657150107142956e-05, "timer/dataset_min": 6.270408630371094e-05, "timer/dataset_max": 0.0001709461212158203, "timer/agent.train_count": 709.0, "timer/agent.train_total": 263.6519281864166, "timer/agent.train_frac": 0.8778072029418914, "timer/agent.train_avg": 0.37186449673683586, "timer/agent.train_min": 0.364285945892334, "timer/agent.train_max": 0.3874022960662842, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21932458877563477, "timer/agent.report_frac": 0.0007302230070299156, "timer/agent.report_avg": 0.21932458877563477, "timer/agent.report_min": 0.21932458877563477, "timer/agent.report_max": 0.21932458877563477, "fps": 4.721029767227813}
{"step": 813202, "episode/length": 181.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.10000003874302, "episode/reward_rate": 0.08241758241758242}
{"step": 813525, "episode/length": 322.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.043343653250773995}
{"step": 813745, "episode/length": 219.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.06818181818181818}
{"step": 814015, "episode/length": 269.0, "episode/score": 13.100000031292439, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.05555555555555555}
{"step": 814241, "episode/length": 225.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.061946902654867256}
{"step": 814387, "episode/length": 145.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.0684931506849315}
{"step": 814537, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.310381571451823, "train/action_min": 0.0, "train/action_std": 3.175572438372506, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.040069041980637446, "train/actor_opt_grad_steps": 406355.0, "train/actor_opt_loss": -12.253775218087766, "train/adv_mag": 0.42594897126158077, "train/adv_max": 0.3726147760947545, "train/adv_mean": 0.0018812287174417481, "train/adv_min": -0.3601843625721004, "train/adv_std": 0.044905701807389654, "train/cont_avg": 0.9948052300347222, "train/cont_loss_mean": 2.5227218508740002e-06, "train/cont_loss_std": 5.3252673102595814e-05, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 7.76598900920078e-05, "train/cont_pos_acc": 0.9999999867545234, "train/cont_pos_loss": 2.2554221625152118e-06, "train/cont_pred": 0.9948033384150929, "train/cont_rate": 0.9948052300347222, "train/dyn_loss_mean": 5.446640835867988, "train/dyn_loss_std": 8.869942585627237, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9415020619829496, "train/extr_critic_critic_opt_grad_steps": 406355.0, "train/extr_critic_critic_opt_loss": 15722.859578450521, "train/extr_critic_mag": 11.702395717302958, "train/extr_critic_max": 11.702395717302958, "train/extr_critic_mean": 3.6313139498233795, "train/extr_critic_min": -0.38040444254875183, "train/extr_critic_std": 2.867714567316903, "train/extr_return_normed_mag": 1.3879615879721112, "train/extr_return_normed_max": 1.3879615879721112, "train/extr_return_normed_mean": 0.397227443754673, "train/extr_return_normed_min": -0.08836925712724526, "train/extr_return_normed_std": 0.3191021875374847, "train/extr_return_rate": 0.8560936152935028, "train/extr_return_raw_mag": 12.64907201131185, "train/extr_return_raw_max": 12.64907201131185, "train/extr_return_raw_mean": 3.648395197259055, "train/extr_return_raw_min": -0.7637091999252638, "train/extr_return_raw_std": 2.8994306226571402, "train/extr_reward_mag": 1.0713981191317241, "train/extr_reward_max": 1.0713981191317241, "train/extr_reward_mean": 0.060350448100103274, "train/extr_reward_min": -0.6177865581379997, "train/extr_reward_std": 0.23690180770224994, "train/image_loss_mean": 3.1198146127992206, "train/image_loss_std": 8.381020923455557, "train/model_loss_mean": 6.443690935770671, "train/model_loss_std": 12.550598171022203, "train/model_opt_grad_norm": 25.40263975991143, "train/model_opt_grad_steps": 406026.0, "train/model_opt_loss": 10105.222018771701, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1579.861111111111, "train/policy_entropy_mag": 2.701795389254888, "train/policy_entropy_max": 2.701795389254888, "train/policy_entropy_mean": 0.37889027202294934, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5768430709011025, "train/policy_logprob_mag": 7.438384281264411, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37967701649500263, "train/policy_logprob_min": -7.438384281264411, "train/policy_logprob_std": 1.0120396721694205, "train/policy_randomness_mag": 0.9536152076390054, "train/policy_randomness_max": 0.9536152076390054, "train/policy_randomness_mean": 0.1337316387022535, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2036002894035644, "train/post_ent_mag": 54.60915602578057, "train/post_ent_max": 54.60915602578057, "train/post_ent_mean": 40.539556450313995, "train/post_ent_min": 19.514920314153034, "train/post_ent_std": 5.675067285696666, "train/prior_ent_mag": 76.81222523583307, "train/prior_ent_max": 76.81222523583307, "train/prior_ent_mean": 45.957612143622505, "train/prior_ent_min": 28.077347066667343, "train/prior_ent_std": 7.68887996673584, "train/rep_loss_mean": 5.446640835867988, "train/rep_loss_std": 8.869942585627237, "train/reward_avg": 0.040173339631615415, "train/reward_loss_mean": 0.05588930571037862, "train/reward_loss_std": 0.21443778773148855, "train/reward_max_data": 1.0347222305006452, "train/reward_max_pred": 1.0329856839444902, "train/reward_neg_acc": 0.9938469198015001, "train/reward_neg_loss": 0.023670923999614187, "train/reward_pos_acc": 0.986180219385359, "train/reward_pos_loss": 0.7402142112453779, "train/reward_pred": 0.03958407763598694, "train/reward_rate": 0.04481336805555555, "stats/sum_log_reward": 12.766666730244955, "stats/max_log_achievement_collect_coal": 1.3333333333333333, "stats/max_log_achievement_collect_drink": 1.6666666666666667, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 11.333333333333334, "stats/max_log_achievement_collect_wood": 13.166666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.8333333333333333, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_stone_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 2.3333333333333335, "stats/max_log_achievement_place_table": 3.3333333333333335, "stats/max_log_achievement_wake_up": 0.8333333333333334, "stats/mean_log_entropy": 0.40406084060668945, "replay/size": 814474.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.4372285110914394e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2325945385876515e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3397936820984, "timer/env.step_count": 1454.0, "timer/env.step_total": 17.686603307724, "timer/env.step_frac": 0.05888864439470447, "timer/env.step_avg": 0.01216410131205227, "timer/env.step_min": 0.002616405487060547, "timer/env.step_max": 1.7120380401611328, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.2804684638977051, "timer/replay.add_frac": 0.0009338371730872714, "timer/replay.add_avg": 0.00019289440433129649, "timer/replay.add_min": 7.081031799316406e-05, "timer/replay.add_max": 0.006398439407348633, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027238130569458008, "timer/logger.write_frac": 9.069104774803448e-05, "timer/logger.write_avg": 0.027238130569458008, "timer/logger.write_min": 0.027238130569458008, "timer/logger.write_max": 0.027238130569458008, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 11.19298505783081, "timer/agent.policy_frac": 0.03726773905184967, "timer/agent.policy_avg": 0.007698064001259154, "timer/agent.policy_min": 0.005707502365112305, "timer/agent.policy_max": 0.016049861907958984, "timer/dataset_count": 727.0, "timer/dataset_total": 0.06182742118835449, "timer/dataset_frac": 0.00020585823953051376, "timer/dataset_avg": 8.504459585743396e-05, "timer/dataset_min": 6.389617919921875e-05, "timer/dataset_max": 0.0001742839813232422, "timer/agent.train_count": 727.0, "timer/agent.train_total": 270.40473103523254, "timer/agent.train_frac": 0.9003293493683647, "timer/agent.train_avg": 0.3719459849177889, "timer/agent.train_min": 0.3658311367034912, "timer/agent.train_max": 0.3872239589691162, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21976041793823242, "timer/agent.report_frac": 0.0007317059629162658, "timer/agent.report_avg": 0.21976041793823242, "timer/agent.report_min": 0.21976041793823242, "timer/agent.report_max": 0.21976041793823242, "fps": 4.841108060053809}
{"step": 814626, "episode/length": 238.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.06276150627615062}
{"step": 814833, "episode/length": 206.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.06763285024154589}
{"step": 814980, "episode/length": 146.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.06802721088435375}
{"step": 815139, "episode/length": 158.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.07547169811320754}
{"step": 815331, "episode/length": 191.0, "episode/score": 10.100000016391277, "episode/sum_abs_reward": 12.1000000461936, "episode/reward_rate": 0.057291666666666664}
{"step": 815471, "episode/length": 139.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.07857142857142857}
{"step": 815676, "episode/length": 204.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.07317073170731707}
{"step": 815903, "episode/length": 226.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.05286343612334802}
{"step": 815977, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.329047309027778, "train/action_min": 0.0, "train/action_std": 3.202437241872152, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03899804810579452, "train/actor_opt_grad_steps": 407075.0, "train/actor_opt_loss": -11.917721190386349, "train/adv_mag": 0.4219262550274531, "train/adv_max": 0.34345416021015907, "train/adv_mean": 0.0021362917048008967, "train/adv_min": -0.3793696210616165, "train/adv_std": 0.04394534913202127, "train/cont_avg": 0.9948323567708334, "train/cont_loss_mean": 6.238920304942515e-05, "train/cont_loss_std": 0.0019005640250383414, "train/cont_neg_acc": 0.9965277777777778, "train/cont_neg_loss": 0.006320807721501293, "train/cont_pos_acc": 0.9999863141112857, "train/cont_pos_loss": 3.8113308163229614e-05, "train/cont_pred": 0.9948223945167329, "train/cont_rate": 0.9948323567708334, "train/dyn_loss_mean": 5.2934828533066645, "train/dyn_loss_std": 8.79423850774765, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9993037134408951, "train/extr_critic_critic_opt_grad_steps": 407075.0, "train/extr_critic_critic_opt_loss": 15525.333930121527, "train/extr_critic_mag": 12.068762713008457, "train/extr_critic_max": 12.068762713008457, "train/extr_critic_mean": 3.6889063782162137, "train/extr_critic_min": -0.36323755317264134, "train/extr_critic_std": 2.900926685995526, "train/extr_return_normed_mag": 1.38863325284587, "train/extr_return_normed_max": 1.38863325284587, "train/extr_return_normed_mean": 0.39826971996161675, "train/extr_return_normed_min": -0.079643364271356, "train/extr_return_normed_std": 0.3188347388058901, "train/extr_return_rate": 0.8634313949280314, "train/extr_return_raw_mag": 12.807629280620151, "train/extr_return_raw_max": 12.807629280620151, "train/extr_return_raw_mean": 3.7085313730769687, "train/extr_return_raw_min": -0.6831901839209927, "train/extr_return_raw_std": 2.92967708574401, "train/extr_reward_mag": 1.0674038661850824, "train/extr_reward_max": 1.0674038661850824, "train/extr_reward_mean": 0.05946038862586849, "train/extr_reward_min": -0.5771872252225876, "train/extr_reward_std": 0.23456432463394272, "train/image_loss_mean": 3.15128060678641, "train/image_loss_std": 8.19058620929718, "train/model_loss_mean": 6.383719480699963, "train/model_loss_std": 12.298361950450474, "train/model_opt_grad_norm": 24.74232006072998, "train/model_opt_grad_steps": 406746.0, "train/model_opt_loss": 15959.298678927951, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6810797850290933, "train/policy_entropy_max": 2.6810797850290933, "train/policy_entropy_mean": 0.37788660017152625, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5774798687133524, "train/policy_logprob_mag": 7.438384301132626, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3787869103252888, "train/policy_logprob_min": -7.438384301132626, "train/policy_logprob_std": 1.0115597562657461, "train/policy_randomness_mag": 0.9463035083479352, "train/policy_randomness_max": 0.9463035083479352, "train/policy_randomness_mean": 0.13337738760229614, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2038250517927938, "train/post_ent_mag": 55.636712392171226, "train/post_ent_max": 55.636712392171226, "train/post_ent_mean": 40.4836860232883, "train/post_ent_min": 19.330874019198948, "train/post_ent_std": 5.711512280835046, "train/prior_ent_mag": 76.67226473490398, "train/prior_ent_max": 76.67226473490398, "train/prior_ent_mean": 45.76059887144301, "train/prior_ent_min": 28.45196506712172, "train/prior_ent_std": 7.714026934570736, "train/rep_loss_mean": 5.2934828533066645, "train/rep_loss_std": 8.79423850774765, "train/reward_avg": 0.04175347208769785, "train/reward_loss_mean": 0.05628689445762171, "train/reward_loss_std": 0.20823916937741968, "train/reward_max_data": 1.0194444490803614, "train/reward_max_pred": 1.0197002059883542, "train/reward_neg_acc": 0.9939267958203951, "train/reward_neg_loss": 0.023915237132718578, "train/reward_pos_acc": 0.9898168047269186, "train/reward_pos_loss": 0.7245918917987082, "train/reward_pred": 0.04134495470983287, "train/reward_rate": 0.04625108506944445, "stats/sum_log_reward": 11.600000262260437, "stats/max_log_achievement_collect_coal": 0.75, "stats/max_log_achievement_collect_drink": 2.125, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.125, "stats/max_log_achievement_collect_stone": 12.125, "stats/max_log_achievement_collect_wood": 11.375, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.375, "stats/max_log_achievement_eat_cow": 0.375, "stats/max_log_achievement_make_stone_pickaxe": 0.875, "stats/max_log_achievement_make_stone_sword": 0.625, "stats/max_log_achievement_make_wood_pickaxe": 1.125, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 1.125, "stats/max_log_achievement_place_stone": 2.875, "stats/max_log_achievement_place_table": 2.75, "stats/max_log_achievement_wake_up": 0.875, "stats/mean_log_entropy": 0.27398800663650036, "replay/size": 815914.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.432896402147081e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2302564250098335e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.20684480667114, "timer/env.step_count": 1440.0, "timer/env.step_total": 20.33433747291565, "timer/env.step_frac": 0.06773442319748128, "timer/env.step_avg": 0.014121067689524756, "timer/env.step_min": 0.002833127975463867, "timer/env.step_max": 1.6901044845581055, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.2692592144012451, "timer/replay.add_frac": 0.0008969123091601864, "timer/replay.add_avg": 0.00018698556555642022, "timer/replay.add_min": 6.508827209472656e-05, "timer/replay.add_max": 0.0043070316314697266, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028594017028808594, "timer/logger.write_frac": 9.524771844300461e-05, "timer/logger.write_avg": 0.028594017028808594, "timer/logger.write_min": 0.028594017028808594, "timer/logger.write_max": 0.028594017028808594, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 11.050254821777344, "timer/agent.policy_frac": 0.03680880370630306, "timer/agent.policy_avg": 0.007673788070678711, "timer/agent.policy_min": 0.0058248043060302734, "timer/agent.policy_max": 0.020000219345092773, "timer/dataset_count": 720.0, "timer/dataset_total": 0.060997724533081055, "timer/dataset_frac": 0.0002031856554515361, "timer/dataset_avg": 8.471906185150146e-05, "timer/dataset_min": 6.198883056640625e-05, "timer/dataset_max": 0.00015854835510253906, "timer/agent.train_count": 720.0, "timer/agent.train_total": 267.7844319343567, "timer/agent.train_frac": 0.8919997547251328, "timer/agent.train_avg": 0.37192282213105093, "timer/agent.train_min": 0.3654055595397949, "timer/agent.train_max": 0.3857688903808594, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22067022323608398, "timer/agent.report_frac": 0.0007350605992284833, "timer/agent.report_avg": 0.22067022323608398, "timer/agent.report_min": 0.22067022323608398, "timer/agent.report_max": 0.22067022323608398, "fps": 4.796626148582152}
{"step": 816038, "episode/length": 134.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.08148148148148149}
{"step": 816369, "episode/length": 330.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.04229607250755287}
{"step": 816584, "episode/length": 214.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.027906976744186046}
{"step": 816731, "episode/length": 146.0, "episode/score": 13.100000016391277, "episode/sum_abs_reward": 15.1000000461936, "episode/reward_rate": 0.09523809523809523}
{"step": 816954, "episode/length": 222.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 15.10000005364418, "episode/reward_rate": 0.05829596412556054}
{"step": 817186, "episode/length": 231.0, "episode/score": 11.100000016391277, "episode/sum_abs_reward": 12.100000031292439, "episode/reward_rate": 0.05172413793103448}
{"step": 817385, "episode/length": 198.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.06532663316582915}
{"step": 817403, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.3113598293728295, "train/action_min": 0.0, "train/action_std": 3.1674296855926514, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03998549799952242, "train/actor_opt_grad_steps": 407795.0, "train/actor_opt_loss": -11.822529479499078, "train/adv_mag": 0.3671911996271875, "train/adv_max": 0.3324768118974235, "train/adv_mean": 0.0021325595956164355, "train/adv_min": -0.32972652051183915, "train/adv_std": 0.044572365263270006, "train/cont_avg": 0.9950629340277778, "train/cont_loss_mean": 3.751718631889784e-05, "train/cont_loss_std": 0.0011778737433461276, "train/cont_neg_acc": 0.9953703706463178, "train/cont_neg_loss": 0.01166676829880902, "train/cont_pos_acc": 0.9999999834431542, "train/cont_pos_loss": 1.71834091163466e-06, "train/cont_pred": 0.9950766621364487, "train/cont_rate": 0.9950629340277778, "train/dyn_loss_mean": 5.573540740542942, "train/dyn_loss_std": 8.906788527965546, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.926782087319427, "train/extr_critic_critic_opt_grad_steps": 407795.0, "train/extr_critic_critic_opt_loss": 15791.364963107639, "train/extr_critic_mag": 11.868651178148058, "train/extr_critic_max": 11.868651178148058, "train/extr_critic_mean": 3.67091304063797, "train/extr_critic_min": -0.37892286976178485, "train/extr_critic_std": 2.830165296792984, "train/extr_return_normed_mag": 1.3878955592711766, "train/extr_return_normed_max": 1.3878955592711766, "train/extr_return_normed_mean": 0.3974086398051845, "train/extr_return_normed_min": -0.08422633379490839, "train/extr_return_normed_std": 0.31301416870620513, "train/extr_return_rate": 0.8687337703175015, "train/extr_return_raw_mag": 12.732707646158007, "train/extr_return_raw_max": 12.732707646158007, "train/extr_return_raw_mean": 3.6903708510928683, "train/extr_return_raw_min": -0.7068121950659487, "train/extr_return_raw_std": 2.857694298028946, "train/extr_reward_mag": 1.0664496786064572, "train/extr_reward_max": 1.0664496786064572, "train/extr_reward_mean": 0.06119239325117734, "train/extr_reward_min": -0.5900669578048918, "train/extr_reward_std": 0.2377290017902851, "train/image_loss_mean": 3.3005044443739786, "train/image_loss_std": 8.43188288476732, "train/model_loss_mean": 6.702996618217892, "train/model_loss_std": 12.630726337432861, "train/model_opt_grad_norm": 23.225032448768616, "train/model_opt_grad_steps": 407465.1388888889, "train/model_opt_loss": 16978.708753797742, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2534.722222222222, "train/policy_entropy_mag": 2.6917562219831677, "train/policy_entropy_max": 2.6917562219831677, "train/policy_entropy_mean": 0.35184638926552403, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5397068758805593, "train/policy_logprob_mag": 7.438384314378102, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.351939654805594, "train/policy_logprob_min": -7.438384314378102, "train/policy_logprob_std": 0.9861271166139178, "train/policy_randomness_mag": 0.9500718216101328, "train/policy_randomness_max": 0.9500718216101328, "train/policy_randomness_mean": 0.12418633658025, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1904928438986341, "train/post_ent_mag": 54.86540534761217, "train/post_ent_max": 54.86540534761217, "train/post_ent_mean": 40.438421885172524, "train/post_ent_min": 19.95492160320282, "train/post_ent_std": 5.75504653983646, "train/prior_ent_mag": 76.68718253241644, "train/prior_ent_max": 76.68718253241644, "train/prior_ent_mean": 46.004288302527534, "train/prior_ent_min": 28.19325105349223, "train/prior_ent_std": 7.687078058719635, "train/rep_loss_mean": 5.573540740542942, "train/rep_loss_std": 8.906788527965546, "train/reward_avg": 0.042416720288909145, "train/reward_loss_mean": 0.05833023812414871, "train/reward_loss_std": 0.21978098795645767, "train/reward_max_data": 1.0319444520605936, "train/reward_max_pred": 1.0311744312445323, "train/reward_neg_acc": 0.993348203599453, "train/reward_neg_loss": 0.024725303002115753, "train/reward_pos_acc": 0.9869343605306413, "train/reward_pos_loss": 0.7372955853740374, "train/reward_pred": 0.04194255814784103, "train/reward_rate": 0.04702419704861111, "stats/sum_log_reward": 10.957143034253802, "stats/max_log_achievement_collect_coal": 0.2857142857142857, "stats/max_log_achievement_collect_drink": 3.2857142857142856, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8571428571428572, "stats/max_log_achievement_collect_stone": 11.142857142857142, "stats/max_log_achievement_collect_wood": 11.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.2857142857142858, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_stone_pickaxe": 0.5714285714285714, "stats/max_log_achievement_make_stone_sword": 0.2857142857142857, "stats/max_log_achievement_make_wood_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.7142857142857142, "stats/max_log_achievement_place_plant": 1.7142857142857142, "stats/max_log_achievement_place_stone": 1.8571428571428572, "stats/max_log_achievement_place_table": 2.5714285714285716, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.3417486271687916, "replay/size": 817340.0, "replay/inserts": 1426.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 3.43199030379928e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2343720667492624e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2505121231079, "timer/env.step_count": 1426.0, "timer/env.step_total": 21.7368221282959, "timer/env.step_frac": 0.07239562049234216, "timer/env.step_avg": 0.015243213273699789, "timer/env.step_min": 0.002909421920776367, "timer/env.step_max": 3.2048516273498535, "timer/replay.add_count": 1426.0, "timer/replay.add_total": 0.2897064685821533, "timer/replay.add_frac": 0.000964882512717809, "timer/replay.add_avg": 0.00020316021639702196, "timer/replay.add_min": 7.176399230957031e-05, "timer/replay.add_max": 0.009062528610229492, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0293729305267334, "timer/logger.write_frac": 9.782807802402677e-05, "timer/logger.write_avg": 0.0293729305267334, "timer/logger.write_min": 0.0293729305267334, "timer/logger.write_max": 0.0293729305267334, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004184246063232422, "timer/checkpoint.save_frac": 1.39358498796392e-06, "timer/checkpoint.save_avg": 0.0004184246063232422, "timer/checkpoint.save_min": 0.0004184246063232422, "timer/checkpoint.save_max": 0.0004184246063232422, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.247243881225586, "timer/agent.save_frac": 0.004154010837171177, "timer/agent.save_avg": 1.247243881225586, "timer/agent.save_min": 1.247243881225586, "timer/agent.save_max": 1.247243881225586, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.00010991096496582031, "timer/replay.save_frac": 3.660642048155938e-07, "timer/replay.save_avg": 0.00010991096496582031, "timer/replay.save_min": 0.00010991096496582031, "timer/replay.save_max": 0.00010991096496582031, "timer/agent.policy_count": 1426.0, "timer/agent.policy_total": 12.17308521270752, "timer/agent.policy_frac": 0.04054309558584981, "timer/agent.policy_avg": 0.008536525394605554, "timer/agent.policy_min": 0.005632877349853516, "timer/agent.policy_max": 1.2400805950164795, "timer/dataset_count": 713.0, "timer/dataset_total": 0.061289310455322266, "timer/dataset_frac": 0.0002041272470176257, "timer/dataset_avg": 8.595976220942814e-05, "timer/dataset_min": 6.198883056640625e-05, "timer/dataset_max": 0.0001690387725830078, "timer/agent.train_count": 713.0, "timer/agent.train_total": 265.28445649147034, "timer/agent.train_frac": 0.8835437269219348, "timer/agent.train_avg": 0.372067961418612, "timer/agent.train_min": 0.36176276206970215, "timer/agent.train_max": 0.46454858779907227, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2205369472503662, "timer/agent.report_frac": 0.0007345098121262896, "timer/agent.report_avg": 0.2205369472503662, "timer/agent.report_min": 0.2205369472503662, "timer/agent.report_max": 0.2205369472503662, "fps": 4.749304269886278}
{"step": 817764, "episode/length": 378.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.03430079155672823}
{"step": 817980, "episode/length": 215.0, "episode/score": 14.100000016391277, "episode/sum_abs_reward": 15.500000037252903, "episode/reward_rate": 0.06944444444444445}
{"step": 818190, "episode/length": 209.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.06190476190476191}
{"step": 818374, "episode/length": 183.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.059782608695652176}
{"step": 818409, "episode/length": 34.0, "episode/score": 5.100000023841858, "episode/sum_abs_reward": 6.899999976158142, "episode/reward_rate": 0.2}
{"step": 818503, "episode/length": 93.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.07446808510638298}
{"step": 818714, "episode/length": 210.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.299999997019768, "episode/reward_rate": 0.04739336492890995}
{"step": 818851, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.410750495062934, "train/action_min": 0.0, "train/action_std": 3.233407888147566, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.039198316944142185, "train/actor_opt_grad_steps": 408515.0, "train/actor_opt_loss": -12.838167419450151, "train/adv_mag": 0.4431405808362696, "train/adv_max": 0.3741159405973222, "train/adv_mean": 0.0015452837848089177, "train/adv_min": -0.3829293805691931, "train/adv_std": 0.04439979682986935, "train/cont_avg": 0.9949544270833334, "train/cont_loss_mean": 2.8471177897257703e-06, "train/cont_loss_std": 7.231268858988294e-05, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 1.949648190663961e-05, "train/cont_pos_acc": 0.999999982615312, "train/cont_pos_loss": 2.765278408922711e-06, "train/cont_pred": 0.9949518616000811, "train/cont_rate": 0.9949544270833334, "train/dyn_loss_mean": 5.36087249384986, "train/dyn_loss_std": 8.772389451662699, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9444476639231046, "train/extr_critic_critic_opt_grad_steps": 408515.0, "train/extr_critic_critic_opt_loss": 15531.84166124132, "train/extr_critic_mag": 11.991912682851156, "train/extr_critic_max": 11.991912682851156, "train/extr_critic_mean": 3.640671375725004, "train/extr_critic_min": -0.38155801428688896, "train/extr_critic_std": 2.8558321363396115, "train/extr_return_normed_mag": 1.393380108806822, "train/extr_return_normed_max": 1.393380108806822, "train/extr_return_normed_mean": 0.3967507994837231, "train/extr_return_normed_min": -0.0809676586650312, "train/extr_return_normed_std": 0.3167739229069816, "train/extr_return_rate": 0.8634702795081668, "train/extr_return_raw_mag": 12.730018814404806, "train/extr_return_raw_max": 12.730018814404806, "train/extr_return_raw_mean": 3.654763893948661, "train/extr_return_raw_min": -0.695150576531887, "train/extr_return_raw_std": 2.884627434942457, "train/extr_reward_mag": 1.0729202727476757, "train/extr_reward_max": 1.0729202727476757, "train/extr_reward_mean": 0.06121239296367599, "train/extr_reward_min": -0.5710461437702179, "train/extr_reward_std": 0.2375370448248254, "train/image_loss_mean": 3.1017833401759467, "train/image_loss_std": 7.937327437930637, "train/model_loss_mean": 6.374617569976383, "train/model_loss_std": 12.08544659614563, "train/model_opt_grad_norm": 25.871740182240803, "train/model_opt_grad_steps": 408184.55555555556, "train/model_opt_loss": 16432.699259440105, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2569.4444444444443, "train/policy_entropy_mag": 2.680960645278295, "train/policy_entropy_max": 2.680960645278295, "train/policy_entropy_mean": 0.3807207116236289, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5669919215142727, "train/policy_logprob_mag": 7.43838428788715, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3809665567759011, "train/policy_logprob_min": -7.43838428788715, "train/policy_logprob_std": 1.0090957606832187, "train/policy_randomness_mag": 0.9462614572710462, "train/policy_randomness_max": 0.9462614572710462, "train/policy_randomness_mean": 0.13437770472632515, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2001232686969969, "train/post_ent_mag": 55.332396030426025, "train/post_ent_max": 55.332396030426025, "train/post_ent_mean": 40.47764725155301, "train/post_ent_min": 19.603957202699448, "train/post_ent_std": 5.722126695844862, "train/prior_ent_mag": 76.69710466596815, "train/prior_ent_max": 76.69710466596815, "train/prior_ent_mean": 45.887436866760254, "train/prior_ent_min": 28.112192763222588, "train/prior_ent_std": 7.686677131387922, "train/rep_loss_mean": 5.36087249384986, "train/rep_loss_std": 8.772389451662699, "train/reward_avg": 0.04118923553162151, "train/reward_loss_mean": 0.05630792144479023, "train/reward_loss_std": 0.2103042925397555, "train/reward_max_data": 1.0305555628405676, "train/reward_max_pred": 1.0300074732965894, "train/reward_neg_acc": 0.9937040027644899, "train/reward_neg_loss": 0.0239041481529259, "train/reward_pos_acc": 0.9882669953836335, "train/reward_pos_loss": 0.731153291132715, "train/reward_pred": 0.04080717513958613, "train/reward_rate": 0.045979817708333336, "stats/sum_log_reward": 9.67142881665911, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 2.7142857142857144, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.1428571428571428, "stats/max_log_achievement_collect_stone": 10.285714285714286, "stats/max_log_achievement_collect_wood": 12.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.8571428571428571, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_stone_sword": 0.2857142857142857, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 0.5714285714285714, "stats/max_log_achievement_place_furnace": 0.8571428571428571, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 3.7142857142857144, "stats/max_log_achievement_place_table": 2.857142857142857, "stats/max_log_achievement_wake_up": 0.8571428571428571, "stats/mean_log_entropy": 0.33148398782525745, "replay/size": 818788.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.4845665673524636e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.233132833933962e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.11087822914124, "timer/env.step_count": 1448.0, "timer/env.step_total": 18.643396377563477, "timer/env.step_frac": 0.062121694780183326, "timer/env.step_avg": 0.012875273741411241, "timer/env.step_min": 0.002841949462890625, "timer/env.step_max": 1.7461862564086914, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.2646141052246094, "timer/replay.add_frac": 0.0008817211384872584, "timer/replay.add_avg": 0.00018274454780705068, "timer/replay.add_min": 6.532669067382812e-05, "timer/replay.add_max": 0.0027093887329101562, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022221088409423828, "timer/logger.write_frac": 7.404292886863481e-05, "timer/logger.write_avg": 0.022221088409423828, "timer/logger.write_min": 0.022221088409423828, "timer/logger.write_max": 0.022221088409423828, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 11.092769145965576, "timer/agent.policy_frac": 0.036962236128928336, "timer/agent.policy_avg": 0.007660752172628161, "timer/agent.policy_min": 0.005742549896240234, "timer/agent.policy_max": 0.018213748931884766, "timer/dataset_count": 724.0, "timer/dataset_total": 0.06245541572570801, "timer/dataset_frac": 0.00020810780366988874, "timer/dataset_avg": 8.626438636147515e-05, "timer/dataset_min": 6.413459777832031e-05, "timer/dataset_max": 0.00045609474182128906, "timer/agent.train_count": 724.0, "timer/agent.train_total": 269.3391926288605, "timer/agent.train_frac": 0.8974656107707435, "timer/agent.train_avg": 0.3720154594321277, "timer/agent.train_min": 0.3658761978149414, "timer/agent.train_max": 0.3870511054992676, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22083568572998047, "timer/agent.report_frac": 0.0007358469877302067, "timer/agent.report_avg": 0.22083568572998047, "timer/agent.report_min": 0.22083568572998047, "timer/agent.report_max": 0.22083568572998047, "fps": 4.824816014885063}
{"step": 818888, "episode/length": 173.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.900000050663948, "episode/reward_rate": 0.07471264367816093}
{"step": 819177, "episode/length": 288.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.04498269896193772}
{"step": 819347, "episode/length": 169.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.09411764705882353}
{"step": 819604, "episode/length": 256.0, "episode/score": 13.100000023841858, "episode/sum_abs_reward": 16.10000006854534, "episode/reward_rate": 0.054474708171206226}
{"step": 819803, "episode/length": 198.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.10000003874302, "episode/reward_rate": 0.07537688442211055}
{"step": 819979, "episode/length": 175.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.299999997019768, "episode/reward_rate": 0.07386363636363637}
{"step": 820139, "episode/length": 159.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.05625}
{"step": 820299, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.38392116598887, "train/action_min": 0.0, "train/action_std": 3.1474807719661766, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0398723863779682, "train/actor_opt_grad_steps": 409240.0, "train/actor_opt_loss": -12.867132709450917, "train/adv_mag": 0.4179464545968461, "train/adv_max": 0.3613143616343198, "train/adv_mean": 0.001958267498182927, "train/adv_min": -0.3623784223239716, "train/adv_std": 0.04440657789372418, "train/cont_avg": 0.9946891053082192, "train/cont_loss_mean": 3.4518435238320393e-06, "train/cont_loss_std": 6.963533061237173e-05, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 3.2281509014256226e-05, "train/cont_pos_acc": 0.9999999763214424, "train/cont_pos_loss": 3.318093739616017e-06, "train/cont_pred": 0.9946860279122444, "train/cont_rate": 0.9946891053082192, "train/dyn_loss_mean": 5.322451480447429, "train/dyn_loss_std": 8.862058783230717, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9724810384724238, "train/extr_critic_critic_opt_grad_steps": 409240.0, "train/extr_critic_critic_opt_loss": 15786.676824700342, "train/extr_critic_mag": 12.071007258271518, "train/extr_critic_max": 12.071007258271518, "train/extr_critic_mean": 3.6080640734058536, "train/extr_critic_min": -0.38423371151702046, "train/extr_critic_std": 2.9020579808378875, "train/extr_return_normed_mag": 1.4017593060454276, "train/extr_return_normed_max": 1.4017593060454276, "train/extr_return_normed_mean": 0.39011545254759594, "train/extr_return_normed_min": -0.08501122810252726, "train/extr_return_normed_std": 0.3209968376649569, "train/extr_return_rate": 0.8607966385475577, "train/extr_return_raw_mag": 12.856689074268079, "train/extr_return_raw_max": 12.856689074268079, "train/extr_return_raw_mean": 3.6259412112301344, "train/extr_return_raw_min": -0.7098615867634342, "train/extr_return_raw_std": 2.929452510729228, "train/extr_reward_mag": 1.0702879232903049, "train/extr_reward_max": 1.0702879232903049, "train/extr_reward_mean": 0.06217050001229325, "train/extr_reward_min": -0.6188603410982105, "train/extr_reward_std": 0.23990816163690123, "train/image_loss_mean": 3.068000656284698, "train/image_loss_std": 8.383665176287089, "train/model_loss_mean": 6.318580594781327, "train/model_loss_std": 12.55906943752341, "train/model_opt_grad_norm": 22.104622422832332, "train/model_opt_grad_steps": 408909.0, "train/model_opt_loss": 16938.670256314213, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2671.2328767123286, "train/policy_entropy_mag": 2.695909565442229, "train/policy_entropy_max": 2.695909565442229, "train/policy_entropy_mean": 0.36362724945153274, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5554953854377955, "train/policy_logprob_mag": 7.438384252051785, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36460273661842085, "train/policy_logprob_min": -7.438384252051785, "train/policy_logprob_std": 1.0009384571689448, "train/policy_randomness_mag": 0.9515377683182286, "train/policy_randomness_max": 0.9515377683182286, "train/policy_randomness_mean": 0.12834446224039547, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1960654935404046, "train/post_ent_mag": 55.28959295194443, "train/post_ent_max": 55.28959295194443, "train/post_ent_mean": 40.55163542865074, "train/post_ent_min": 19.359684356271405, "train/post_ent_std": 5.727817724828851, "train/prior_ent_mag": 76.79645088927387, "train/prior_ent_max": 76.79645088927387, "train/prior_ent_mean": 45.875505839308644, "train/prior_ent_min": 28.10907737522909, "train/prior_ent_std": 7.64732317728539, "train/rep_loss_mean": 5.322451480447429, "train/rep_loss_std": 8.862058783230717, "train/reward_avg": 0.04077215240120071, "train/reward_loss_mean": 0.057105640025988016, "train/reward_loss_std": 0.21910082783601056, "train/reward_max_data": 1.0342465835074857, "train/reward_max_pred": 1.034920764296022, "train/reward_neg_acc": 0.9935284591700932, "train/reward_neg_loss": 0.024900666795262736, "train/reward_pos_acc": 0.9870594984864536, "train/reward_pos_loss": 0.7341143962455122, "train/reward_pred": 0.04048189913777456, "train/reward_rate": 0.04549711044520548, "stats/sum_log_reward": 12.242857251848493, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 2.7142857142857144, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 10.714285714285714, "stats/max_log_achievement_collect_wood": 13.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.2857142857142858, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_stone_pickaxe": 1.4285714285714286, "stats/max_log_achievement_make_stone_sword": 0.8571428571428571, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.8571428571428571, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 2.5714285714285716, "stats/max_log_achievement_place_table": 3.2857142857142856, "stats/max_log_achievement_wake_up": 0.8571428571428571, "stats/mean_log_entropy": 0.34375989011355806, "replay/size": 820236.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.451141863238087e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.242476932251651e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.30115842819214, "timer/env.step_count": 1448.0, "timer/env.step_total": 18.841282844543457, "timer/env.step_frac": 0.06274129258495277, "timer/env.step_avg": 0.013011935666121173, "timer/env.step_min": 0.002727031707763672, "timer/env.step_max": 1.6886372566223145, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.2672722339630127, "timer/replay.add_frac": 0.0008900139958232053, "timer/replay.add_avg": 0.0001845802720739038, "timer/replay.add_min": 6.866455078125e-05, "timer/replay.add_max": 0.0024547576904296875, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0328826904296875, "timer/logger.write_frac": 0.000109499046230121, "timer/logger.write_avg": 0.0328826904296875, "timer/logger.write_min": 0.0328826904296875, "timer/logger.write_max": 0.0328826904296875, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 11.14732575416565, "timer/agent.policy_frac": 0.0371204886871297, "timer/agent.policy_avg": 0.007698429388235946, "timer/agent.policy_min": 0.005707979202270508, "timer/agent.policy_max": 0.015732288360595703, "timer/dataset_count": 724.0, "timer/dataset_total": 0.06199288368225098, "timer/dataset_frac": 0.0002064357127582466, "timer/dataset_avg": 8.562552994786046e-05, "timer/dataset_min": 6.4849853515625e-05, "timer/dataset_max": 0.0001552104949951172, "timer/agent.train_count": 724.0, "timer/agent.train_total": 269.246200799942, "timer/agent.train_frac": 0.8965872866065684, "timer/agent.train_avg": 0.3718870176794779, "timer/agent.train_min": 0.36591601371765137, "timer/agent.train_max": 0.3855159282684326, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2245323657989502, "timer/agent.report_frac": 0.0007476906415352382, "timer/agent.report_avg": 0.2245323657989502, "timer/agent.report_min": 0.2245323657989502, "timer/agent.report_max": 0.2245323657989502, "fps": 4.8217217443377125}
{"step": 820338, "episode/length": 198.0, "episode/score": 13.099999994039536, "episode/sum_abs_reward": 14.900000035762787, "episode/reward_rate": 0.07035175879396985}
{"step": 820503, "episode/length": 164.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.07878787878787878}
{"step": 820694, "episode/length": 190.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.06806282722513089}
{"step": 820782, "episode/length": 87.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 4.900000013411045, "episode/reward_rate": 0.045454545454545456}
{"step": 820969, "episode/length": 186.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.06951871657754011}
{"step": 821189, "episode/length": 219.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.05909090909090909}
{"step": 821380, "episode/length": 190.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.06806282722513089}
{"step": 821641, "episode/length": 260.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.05747126436781609}
{"step": 821717, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.410434395926339, "train/action_min": 0.0, "train/action_std": 3.2490451914923533, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03920513090810605, "train/actor_opt_grad_steps": 409955.0, "train/actor_opt_loss": -11.510117512089865, "train/adv_mag": 0.4190746777823993, "train/adv_max": 0.365491911981787, "train/adv_mean": 0.0017467942983070575, "train/adv_min": -0.36515229621103834, "train/adv_std": 0.043422222935727665, "train/cont_avg": 0.9951032366071428, "train/cont_loss_mean": 4.317441113244058e-06, "train/cont_loss_std": 0.00010920776779487694, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 6.335999783634147e-05, "train/cont_pos_acc": 0.9999999846730914, "train/cont_pos_loss": 3.861224064901795e-06, "train/cont_pred": 0.9951000094413758, "train/cont_rate": 0.9951032366071428, "train/dyn_loss_mean": 5.366359962735857, "train/dyn_loss_std": 8.839994028636388, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9797916497503009, "train/extr_critic_critic_opt_grad_steps": 409955.0, "train/extr_critic_critic_opt_loss": 15653.720396205357, "train/extr_critic_mag": 11.837185314723424, "train/extr_critic_max": 11.837185314723424, "train/extr_critic_mean": 3.466274550982884, "train/extr_critic_min": -0.41572289296558923, "train/extr_critic_std": 2.811920942578997, "train/extr_return_normed_mag": 1.402242660522461, "train/extr_return_normed_max": 1.402242660522461, "train/extr_return_normed_mean": 0.38024103215762545, "train/extr_return_normed_min": -0.08538021538406611, "train/extr_return_normed_std": 0.31516155238662447, "train/extr_return_rate": 0.8496159298079354, "train/extr_return_raw_mag": 12.689925575256348, "train/extr_return_raw_max": 12.689925575256348, "train/extr_return_raw_mean": 3.482005841391427, "train/extr_return_raw_min": -0.713751712015697, "train/extr_return_raw_std": 2.839931103161403, "train/extr_reward_mag": 1.0661417620522635, "train/extr_reward_max": 1.0661417620522635, "train/extr_reward_mean": 0.05789273333336626, "train/extr_reward_min": -0.6140498110226222, "train/extr_reward_std": 0.23219095702682221, "train/image_loss_mean": 3.2581744824137004, "train/image_loss_std": 8.409553228105818, "train/model_loss_mean": 6.532492508207048, "train/model_loss_std": 12.54734010696411, "train/model_opt_grad_norm": 23.625314726148332, "train/model_opt_grad_steps": 409622.15714285715, "train/model_opt_loss": 9551.44748186384, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1482.142857142857, "train/policy_entropy_mag": 2.6894173009055002, "train/policy_entropy_max": 2.6894173009055002, "train/policy_entropy_mean": 0.38919906062739235, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5867508207048688, "train/policy_logprob_mag": 7.43838427407401, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3880915169204984, "train/policy_logprob_min": -7.43838427407401, "train/policy_logprob_std": 1.0133519666535513, "train/policy_randomness_mag": 0.9492462830884116, "train/policy_randomness_max": 0.9492462830884116, "train/policy_randomness_mean": 0.13737018832138606, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20709729003054755, "train/post_ent_mag": 55.6411247253418, "train/post_ent_max": 55.6411247253418, "train/post_ent_mean": 40.75392216273716, "train/post_ent_min": 19.458743231637136, "train/post_ent_std": 5.8005954401833675, "train/prior_ent_mag": 76.79819728306362, "train/prior_ent_max": 76.79819728306362, "train/prior_ent_mean": 46.12391439165388, "train/prior_ent_min": 28.225020054408482, "train/prior_ent_std": 7.731096410751343, "train/rep_loss_mean": 5.366359962735857, "train/rep_loss_std": 8.839994028636388, "train/reward_avg": 0.03972237650305033, "train/reward_loss_mean": 0.05449773791645254, "train/reward_loss_std": 0.20775709109646934, "train/reward_max_data": 1.0242857200758797, "train/reward_max_pred": 1.0246193987982615, "train/reward_neg_acc": 0.9935591178280967, "train/reward_neg_loss": 0.023806408952389446, "train/reward_pos_acc": 0.9920535351548876, "train/reward_pos_loss": 0.7169737696647644, "train/reward_pred": 0.039565315044351984, "train/reward_rate": 0.044224330357142856, "stats/sum_log_reward": 11.350000083446503, "stats/max_log_achievement_collect_coal": 0.75, "stats/max_log_achievement_collect_drink": 2.125, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.125, "stats/max_log_achievement_collect_stone": 9.75, "stats/max_log_achievement_collect_wood": 9.875, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 1.875, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "stats/max_log_achievement_make_stone_sword": 0.625, "stats/max_log_achievement_make_wood_pickaxe": 0.875, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.125, "stats/max_log_achievement_place_plant": 1.125, "stats/max_log_achievement_place_stone": 1.75, "stats/max_log_achievement_place_table": 2.75, "stats/max_log_achievement_wake_up": 1.125, "stats/mean_log_entropy": 0.32568929344415665, "replay/size": 821654.0, "replay/inserts": 1418.0, "replay/samples": 11344.0, "replay/insert_wait_avg": 3.4753963540404068e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2439211938209695e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2291910648346, "timer/env.step_count": 1418.0, "timer/env.step_total": 23.064051866531372, "timer/env.step_frac": 0.07682148356303796, "timer/env.step_avg": 0.01626519877752565, "timer/env.step_min": 0.0027883052825927734, "timer/env.step_max": 2.644345760345459, "timer/replay.add_count": 1418.0, "timer/replay.add_total": 0.29566431045532227, "timer/replay.add_frac": 0.0009847953472035085, "timer/replay.add_avg": 0.00020850797634366873, "timer/replay.add_min": 8.225440979003906e-05, "timer/replay.add_max": 0.0049169063568115234, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026859521865844727, "timer/logger.write_frac": 8.94633921857532e-05, "timer/logger.write_avg": 0.026859521865844727, "timer/logger.write_min": 0.026859521865844727, "timer/logger.write_max": 0.026859521865844727, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00019073486328125, "timer/checkpoint.save_frac": 6.352975292134759e-07, "timer/checkpoint.save_avg": 0.00019073486328125, "timer/checkpoint.save_min": 0.00019073486328125, "timer/checkpoint.save_max": 0.00019073486328125, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2329411506652832, "timer/agent.save_frac": 0.004106666464684406, "timer/agent.save_avg": 1.2329411506652832, "timer/agent.save_min": 1.2329411506652832, "timer/agent.save_max": 1.2329411506652832, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.43865966796875e-05, "timer/replay.save_frac": 2.477660363932556e-07, "timer/replay.save_avg": 7.43865966796875e-05, "timer/replay.save_min": 7.43865966796875e-05, "timer/replay.save_max": 7.43865966796875e-05, "timer/agent.policy_count": 1418.0, "timer/agent.policy_total": 12.064727544784546, "timer/agent.policy_frac": 0.04018505829494496, "timer/agent.policy_avg": 0.008508270482922811, "timer/agent.policy_min": 0.005685329437255859, "timer/agent.policy_max": 1.2248940467834473, "timer/dataset_count": 709.0, "timer/dataset_total": 0.06107020378112793, "timer/dataset_frac": 0.00020341194526930526, "timer/dataset_avg": 8.613568939510287e-05, "timer/dataset_min": 6.437301635742188e-05, "timer/dataset_max": 0.00014090538024902344, "timer/agent.train_count": 709.0, "timer/agent.train_total": 264.02687668800354, "timer/agent.train_frac": 0.879417739999129, "timer/agent.train_avg": 0.3723933380648851, "timer/agent.train_min": 0.36505627632141113, "timer/agent.train_max": 0.8935916423797607, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22445178031921387, "timer/agent.report_frac": 0.0007476014558182767, "timer/agent.report_avg": 0.22445178031921387, "timer/agent.report_min": 0.22445178031921387, "timer/agent.report_max": 0.22445178031921387, "fps": 4.722982815650724}
{"step": 821889, "episode/length": 247.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.05241935483870968}
{"step": 822053, "episode/length": 163.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.07926829268292683}
{"step": 822237, "episode/length": 183.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.08152173913043478}
{"step": 822448, "episode/length": 210.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.07109004739336493}
{"step": 822574, "episode/length": 125.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.899999976158142, "episode/reward_rate": 0.09523809523809523}
{"step": 822790, "episode/length": 215.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.06944444444444445}
{"step": 822960, "episode/length": 169.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.052941176470588235}
{"step": 823161, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.37986191004923, "train/action_min": 0.0, "train/action_std": 3.2166900112204355, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038985166724209916, "train/actor_opt_grad_steps": 410670.0, "train/actor_opt_loss": -11.20255909635596, "train/adv_mag": 0.4071799141086944, "train/adv_max": 0.34779882880106366, "train/adv_mean": 0.0018848328558530353, "train/adv_min": -0.3514550309883405, "train/adv_std": 0.04347806531068397, "train/cont_avg": 0.994943279109589, "train/cont_loss_mean": 4.339040349085648e-06, "train/cont_loss_std": 9.922475528069237e-05, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 5.851967868182652e-05, "train/cont_pos_acc": 0.9999999779544465, "train/cont_pos_loss": 3.9565018599202244e-06, "train/cont_pred": 0.9949398383702317, "train/cont_rate": 0.994943279109589, "train/dyn_loss_mean": 5.628560660636588, "train/dyn_loss_std": 8.982350362490301, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9811586949923267, "train/extr_critic_critic_opt_grad_steps": 410670.0, "train/extr_critic_critic_opt_loss": 15714.55645333904, "train/extr_critic_mag": 11.8839769232763, "train/extr_critic_max": 11.8839769232763, "train/extr_critic_mean": 3.440321675718647, "train/extr_critic_min": -0.4061212817283526, "train/extr_critic_std": 2.8017707948815334, "train/extr_return_normed_mag": 1.4024535270586407, "train/extr_return_normed_max": 1.4024535270586407, "train/extr_return_normed_mean": 0.3808174108805722, "train/extr_return_normed_min": -0.08631223465685975, "train/extr_return_normed_std": 0.31473790027507365, "train/extr_return_rate": 0.840345901985691, "train/extr_return_raw_mag": 12.631262504891174, "train/extr_return_raw_max": 12.631262504891174, "train/extr_return_raw_mean": 3.457245643824747, "train/extr_return_raw_min": -0.7369376919040941, "train/extr_return_raw_std": 2.8261299427241493, "train/extr_reward_mag": 1.0675350247997126, "train/extr_reward_max": 1.0675350247997126, "train/extr_reward_mean": 0.05952365681120794, "train/extr_reward_min": -0.6189448033293633, "train/extr_reward_std": 0.23533310465616722, "train/image_loss_mean": 3.4366130175655836, "train/image_loss_std": 8.327283284435534, "train/model_loss_mean": 6.870635084909935, "train/model_loss_std": 12.534267451665173, "train/model_opt_grad_norm": 24.679549974937963, "train/model_opt_grad_steps": 410337.0, "train/model_opt_loss": 12462.648183326199, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1832.1917808219177, "train/policy_entropy_mag": 2.6919677061577367, "train/policy_entropy_max": 2.6919677061577367, "train/policy_entropy_mean": 0.3939630628040392, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.585212571980202, "train/policy_logprob_mag": 7.4383841997956575, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3936755497978158, "train/policy_logprob_min": -7.4383841997956575, "train/policy_logprob_std": 1.0180943142877865, "train/policy_randomness_mag": 0.9501464652688536, "train/policy_randomness_max": 0.9501464652688536, "train/policy_randomness_mean": 0.1390516730408146, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20655435384952858, "train/post_ent_mag": 55.73340820939573, "train/post_ent_max": 55.73340820939573, "train/post_ent_mean": 40.62746199516401, "train/post_ent_min": 19.53192612896227, "train/post_ent_std": 5.796174258401949, "train/prior_ent_mag": 76.81229442439667, "train/prior_ent_max": 76.81229442439667, "train/prior_ent_mean": 46.23337372035196, "train/prior_ent_min": 28.42592573819095, "train/prior_ent_std": 7.765800632842599, "train/rep_loss_mean": 5.628560660636588, "train/rep_loss_std": 8.982350362490301, "train/reward_avg": 0.04023838783167813, "train/reward_loss_mean": 0.05688135642303179, "train/reward_loss_std": 0.2169830370439242, "train/reward_max_data": 1.0301369934865874, "train/reward_max_pred": 1.028546398633147, "train/reward_neg_acc": 0.9936890789907272, "train/reward_neg_loss": 0.025216508899139217, "train/reward_pos_acc": 0.9873009813974981, "train/reward_pos_loss": 0.7302869468519132, "train/reward_pred": 0.0399564308918094, "train/reward_rate": 0.0449486301369863, "stats/sum_log_reward": 12.100000381469727, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 2.5714285714285716, "stats/max_log_achievement_collect_iron": 0.14285714285714285, "stats/max_log_achievement_collect_sapling": 2.4285714285714284, "stats/max_log_achievement_collect_stone": 13.857142857142858, "stats/max_log_achievement_collect_wood": 13.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.2857142857142857, "stats/max_log_achievement_defeat_zombie": 0.7142857142857143, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_stone_pickaxe": 0.7142857142857143, "stats/max_log_achievement_make_stone_sword": 0.5714285714285714, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.8571428571428572, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 3.5714285714285716, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.3050122346196856, "replay/size": 823098.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.526415521088069e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2768974264572862e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.25400376319885, "timer/env.step_count": 1444.0, "timer/env.step_total": 19.43918752670288, "timer/env.step_frac": 0.06474247564749869, "timer/env.step_avg": 0.013462041223478449, "timer/env.step_min": 0.0029587745666503906, "timer/env.step_max": 1.8286213874816895, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.30881738662719727, "timer/replay.add_frac": 0.001028520461864522, "timer/replay.add_avg": 0.0002138624561130175, "timer/replay.add_min": 6.699562072753906e-05, "timer/replay.add_max": 0.0045168399810791016, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023708820343017578, "timer/logger.write_frac": 7.89625451979518e-05, "timer/logger.write_avg": 0.023708820343017578, "timer/logger.write_min": 0.023708820343017578, "timer/logger.write_max": 0.023708820343017578, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 11.03164792060852, "timer/agent.policy_frac": 0.03674105185058196, "timer/agent.policy_avg": 0.007639645374382632, "timer/agent.policy_min": 0.005709409713745117, "timer/agent.policy_max": 0.020751476287841797, "timer/dataset_count": 722.0, "timer/dataset_total": 0.06213641166687012, "timer/dataset_frac": 0.00020694615521555277, "timer/dataset_avg": 8.606151200397523e-05, "timer/dataset_min": 6.175041198730469e-05, "timer/dataset_max": 0.00017023086547851562, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.71270298957825, "timer/agent.train_frac": 0.8949512733275782, "timer/agent.train_avg": 0.3721782589883355, "timer/agent.train_min": 0.36539220809936523, "timer/agent.train_max": 0.38651490211486816, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2198193073272705, "timer/agent.report_frac": 0.000732111161124217, "timer/agent.report_avg": 0.2198193073272705, "timer/agent.report_min": 0.2198193073272705, "timer/agent.report_max": 0.2198193073272705, "fps": 4.809160788653031}
{"step": 823196, "episode/length": 235.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.05084745762711865}
{"step": 823334, "episode/length": 137.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.899999976158142, "episode/reward_rate": 0.08695652173913043}
{"step": 823493, "episode/length": 158.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.08176100628930817}
{"step": 823645, "episode/length": 151.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.02631578947368421}
{"step": 824074, "episode/length": 428.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.500000037252903, "episode/reward_rate": 0.03263403263403263}
{"step": 824270, "episode/length": 195.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 13.30000003427267, "episode/reward_rate": 0.05612244897959184}
{"step": 824514, "episode/length": 243.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.06147540983606557}
{"step": 824605, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.364727444118923, "train/action_min": 0.0, "train/action_std": 3.2085312571790485, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.039341878352893725, "train/actor_opt_grad_steps": 411395.0, "train/actor_opt_loss": -10.094849720597267, "train/adv_mag": 0.3926893071167999, "train/adv_max": 0.347264817605416, "train/adv_mean": 0.002167350563973337, "train/adv_min": -0.3291621402733856, "train/adv_std": 0.043704203640421234, "train/cont_avg": 0.994873046875, "train/cont_loss_mean": 5.756121968126927e-05, "train/cont_loss_std": 0.0018100919625949371, "train/cont_neg_acc": 0.9976851857370801, "train/cont_neg_loss": 0.006091889726538587, "train/cont_pos_acc": 0.999999985926681, "train/cont_pos_loss": 2.203653786973329e-05, "train/cont_pred": 0.9948677809702026, "train/cont_rate": 0.994873046875, "train/dyn_loss_mean": 5.467368331220415, "train/dyn_loss_std": 8.876644293467203, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9878415912389755, "train/extr_critic_critic_opt_grad_steps": 411395.0, "train/extr_critic_critic_opt_loss": 15542.3486328125, "train/extr_critic_mag": 11.740528888172573, "train/extr_critic_max": 11.740528888172573, "train/extr_critic_mean": 3.559862597121133, "train/extr_critic_min": -0.37739070587688023, "train/extr_critic_std": 2.8489898575676813, "train/extr_return_normed_mag": 1.3906763808594809, "train/extr_return_normed_max": 1.3906763808594809, "train/extr_return_normed_mean": 0.3942210390749905, "train/extr_return_normed_min": -0.08933883113786578, "train/extr_return_normed_std": 0.31985326628718114, "train/extr_return_rate": 0.8543484583497047, "train/extr_return_raw_mag": 12.550691379441155, "train/extr_return_raw_max": 12.550691379441155, "train/extr_return_raw_mean": 3.579381482468711, "train/extr_return_raw_min": -0.7745788755516211, "train/extr_return_raw_std": 2.879998183912701, "train/extr_reward_mag": 1.0637876821888819, "train/extr_reward_max": 1.0637876821888819, "train/extr_reward_mean": 0.05938384459457464, "train/extr_reward_min": -0.6555448952648375, "train/extr_reward_std": 0.23477079139815438, "train/image_loss_mean": 3.1845420367187924, "train/image_loss_std": 8.34437835878796, "train/model_loss_mean": 6.520124779807197, "train/model_loss_std": 12.518964939647251, "train/model_opt_grad_norm": 22.3817138671875, "train/model_opt_grad_steps": 411061.9166666667, "train/model_opt_loss": 16300.311957465277, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6916331317689686, "train/policy_entropy_max": 2.6916331317689686, "train/policy_entropy_mean": 0.3895474970340729, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5853667710390356, "train/policy_logprob_mag": 7.438384281264411, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38870080477661556, "train/policy_logprob_min": -7.438384281264411, "train/policy_logprob_std": 1.016881441904439, "train/policy_randomness_mag": 0.9500283756189876, "train/policy_randomness_max": 0.9500283756189876, "train/policy_randomness_mean": 0.13749317090130514, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20660878159105778, "train/post_ent_mag": 55.376775953504776, "train/post_ent_max": 55.376775953504776, "train/post_ent_mean": 40.62372133466933, "train/post_ent_min": 19.260963175031875, "train/post_ent_std": 5.770487030347188, "train/prior_ent_mag": 76.70445707109239, "train/prior_ent_max": 76.70445707109239, "train/prior_ent_mean": 46.079907735188804, "train/prior_ent_min": 28.189631435606216, "train/prior_ent_std": 7.737858110004002, "train/rep_loss_mean": 5.467368331220415, "train/rep_loss_std": 8.876644293467203, "train/reward_avg": 0.04055040148604247, "train/reward_loss_mean": 0.05510415374818775, "train/reward_loss_std": 0.2084710051616033, "train/reward_max_data": 1.0194444490803614, "train/reward_max_pred": 1.0195752779642742, "train/reward_neg_acc": 0.9940071230133375, "train/reward_neg_loss": 0.023631858678224187, "train/reward_pos_acc": 0.99063631064362, "train/reward_pos_loss": 0.7194033157494333, "train/reward_pred": 0.04034304362721741, "train/reward_rate": 0.045206705729166664, "stats/sum_log_reward": 10.528571469443184, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 2.4285714285714284, "stats/max_log_achievement_collect_iron": 0.14285714285714285, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 11.857142857142858, "stats/max_log_achievement_collect_wood": 10.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.8571428571428571, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_stone_sword": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 2.7142857142857144, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.4458839190857751, "replay/size": 824542.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.5209668970504297e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2994142780673801e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.05396819114685, "timer/env.step_count": 1444.0, "timer/env.step_total": 19.11640739440918, "timer/env.step_frac": 0.06370989695504121, "timer/env.step_avg": 0.013238509275906633, "timer/env.step_min": 0.0027742385864257812, "timer/env.step_max": 1.7090847492218018, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.2775704860687256, "timer/replay.add_frac": 0.0009250685393099072, "timer/replay.add_avg": 0.00019222332830244154, "timer/replay.add_min": 7.152557373046875e-05, "timer/replay.add_max": 0.004018306732177734, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023552656173706055, "timer/logger.write_frac": 7.849473318313868e-05, "timer/logger.write_avg": 0.023552656173706055, "timer/logger.write_min": 0.023552656173706055, "timer/logger.write_max": 0.023552656173706055, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 11.249529123306274, "timer/agent.policy_frac": 0.03749168588278712, "timer/agent.policy_avg": 0.007790532633868611, "timer/agent.policy_min": 0.005767107009887695, "timer/agent.policy_max": 0.015764951705932617, "timer/dataset_count": 722.0, "timer/dataset_total": 0.06241583824157715, "timer/dataset_frac": 0.00020801537342714184, "timer/dataset_avg": 8.644852942046696e-05, "timer/dataset_min": 6.175041198730469e-05, "timer/dataset_max": 0.00014662742614746094, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.63112807273865, "timer/agent.train_frac": 0.895276038814489, "timer/agent.train_avg": 0.3720652743389732, "timer/agent.train_min": 0.3659224510192871, "timer/agent.train_max": 0.38469600677490234, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2218930721282959, "timer/agent.report_frac": 0.0007395105402736777, "timer/agent.report_avg": 0.2218930721282959, "timer/agent.report_min": 0.2218930721282959, "timer/agent.report_max": 0.2218930721282959, "fps": 4.812361572174399}
{"step": 824765, "episode/length": 250.0, "episode/score": 12.099999979138374, "episode/sum_abs_reward": 14.30000002682209, "episode/reward_rate": 0.05179282868525897}
{"step": 824914, "episode/length": 148.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.053691275167785234}
{"step": 825158, "episode/length": 243.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.500000022351742, "episode/reward_rate": 0.06557377049180328}
{"step": 825320, "episode/length": 161.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.08641975308641975}
{"step": 825537, "episode/length": 216.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.06451612903225806}
{"step": 825680, "episode/length": 142.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.07692307692307693}
{"step": 825872, "episode/length": 191.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.057291666666666664}
{"step": 826029, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.321338062555018, "train/action_min": 0.0, "train/action_std": 3.140752718482219, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03966600028142123, "train/actor_opt_grad_steps": 412110.0, "train/actor_opt_loss": -12.680074344008741, "train/adv_mag": 0.39104797512712614, "train/adv_max": 0.32780890418610104, "train/adv_mean": 0.0019716057774953506, "train/adv_min": -0.34588904112157687, "train/adv_std": 0.044390303725507896, "train/cont_avg": 0.9953647667253521, "train/cont_loss_mean": 5.4904429618864336e-05, "train/cont_loss_std": 0.0017357895996697216, "train/cont_neg_acc": 0.9971830987594497, "train/cont_neg_loss": 0.010810267012780508, "train/cont_pos_acc": 0.9999999857284654, "train/cont_pos_loss": 1.9963344750065735e-06, "train/cont_pred": 0.995376641481695, "train/cont_rate": 0.9953647667253521, "train/dyn_loss_mean": 5.423521048586133, "train/dyn_loss_std": 8.801962798749896, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0151989476781496, "train/extr_critic_critic_opt_grad_steps": 412110.0, "train/extr_critic_critic_opt_loss": 15844.349251760563, "train/extr_critic_mag": 11.689853063771423, "train/extr_critic_max": 11.689853063771423, "train/extr_critic_mean": 3.5266806374133473, "train/extr_critic_min": -0.39813194476382835, "train/extr_critic_std": 2.8186237073280442, "train/extr_return_normed_mag": 1.3891854219033684, "train/extr_return_normed_max": 1.3891854219033684, "train/extr_return_normed_mean": 0.389956136614504, "train/extr_return_normed_min": -0.07631333529109686, "train/extr_return_normed_std": 0.313964842910498, "train/extr_return_rate": 0.8530947851463103, "train/extr_return_raw_mag": 12.601972203859141, "train/extr_return_raw_max": 12.601972203859141, "train/extr_return_raw_mean": 3.544568637727012, "train/extr_return_raw_min": -0.6817244320688113, "train/extr_return_raw_std": 2.845920811236744, "train/extr_reward_mag": 1.0622840196313992, "train/extr_reward_max": 1.0622840196313992, "train/extr_reward_mean": 0.05907071586435949, "train/extr_reward_min": -0.5990562002423784, "train/extr_reward_std": 0.23399875890201247, "train/image_loss_mean": 3.181640065891642, "train/image_loss_std": 8.283113889291252, "train/model_loss_mean": 6.489891999204394, "train/model_loss_std": 12.38192626120339, "train/model_opt_grad_norm": 24.665672315678126, "train/model_opt_grad_steps": 411776.0, "train/model_opt_loss": 16224.72998734595, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7041616036858356, "train/policy_entropy_max": 2.7041616036858356, "train/policy_entropy_mean": 0.38841225563640325, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5905846596603662, "train/policy_logprob_mag": 7.43838429115188, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3892250056837646, "train/policy_logprob_min": -7.43838429115188, "train/policy_logprob_std": 1.0223776698112488, "train/policy_randomness_mag": 0.9544503806342541, "train/policy_randomness_max": 0.9544503806342541, "train/policy_randomness_mean": 0.13709248077701514, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2084504672339265, "train/post_ent_mag": 55.45993665238501, "train/post_ent_max": 55.45993665238501, "train/post_ent_mean": 40.679930189965475, "train/post_ent_min": 19.382209092798366, "train/post_ent_std": 5.790480136871338, "train/prior_ent_mag": 76.8185467787192, "train/prior_ent_max": 76.8185467787192, "train/prior_ent_mean": 46.09022258704817, "train/prior_ent_min": 28.180222820228256, "train/prior_ent_std": 7.662147548836722, "train/rep_loss_mean": 5.423521048586133, "train/rep_loss_std": 8.801962798749896, "train/reward_avg": 0.04037879617281363, "train/reward_loss_mean": 0.054084415324556996, "train/reward_loss_std": 0.20106722981157438, "train/reward_max_data": 1.0239436676804448, "train/reward_max_pred": 1.0217640601413351, "train/reward_neg_acc": 0.9941469279813094, "train/reward_neg_loss": 0.022987015545368195, "train/reward_pos_acc": 0.9927842591849851, "train/reward_pos_loss": 0.7170229570966371, "train/reward_pred": 0.040153160402682464, "train/reward_rate": 0.0448393485915493, "stats/sum_log_reward": 11.528571605682373, "stats/max_log_achievement_collect_coal": 0.2857142857142857, "stats/max_log_achievement_collect_drink": 2.7142857142857144, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 12.285714285714286, "stats/max_log_achievement_collect_wood": 11.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.1428571428571428, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.5714285714285714, "stats/max_log_achievement_make_stone_sword": 0.42857142857142855, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 1.5714285714285714, "stats/max_log_achievement_place_table": 2.2857142857142856, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.26457503012248446, "replay/size": 825966.0, "replay/inserts": 1424.0, "replay/samples": 11392.0, "replay/insert_wait_avg": 3.533751777048861e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3392209336998756e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.27282214164734, "timer/env.step_count": 1424.0, "timer/env.step_total": 20.603841543197632, "timer/env.step_frac": 0.06861707095648573, "timer/env.step_avg": 0.014468989847751145, "timer/env.step_min": 0.002819061279296875, "timer/env.step_max": 1.871809482574463, "timer/replay.add_count": 1424.0, "timer/replay.add_total": 0.2840695381164551, "timer/replay.add_frac": 0.0009460381265622877, "timer/replay.add_avg": 0.0001994870351941398, "timer/replay.add_min": 7.367134094238281e-05, "timer/replay.add_max": 0.0037279129028320312, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.031846046447753906, "timer/logger.write_frac": 0.00010605703913067168, "timer/logger.write_avg": 0.031846046447753906, "timer/logger.write_min": 0.031846046447753906, "timer/logger.write_max": 0.031846046447753906, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0001800060272216797, "timer/checkpoint.save_frac": 5.994749239635336e-07, "timer/checkpoint.save_avg": 0.0001800060272216797, "timer/checkpoint.save_min": 0.0001800060272216797, "timer/checkpoint.save_max": 0.0001800060272216797, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.5276265144348145, "timer/agent.save_frac": 0.005087461807363269, "timer/agent.save_avg": 1.5276265144348145, "timer/agent.save_min": 1.5276265144348145, "timer/agent.save_max": 1.5276265144348145, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.130073547363281e-05, "timer/replay.save_frac": 2.707562239358476e-07, "timer/replay.save_avg": 8.130073547363281e-05, "timer/replay.save_min": 8.130073547363281e-05, "timer/replay.save_max": 8.130073547363281e-05, "timer/agent.policy_count": 1424.0, "timer/agent.policy_total": 13.171473264694214, "timer/agent.policy_frac": 0.043865019720235786, "timer/agent.policy_avg": 0.009249630101611105, "timer/agent.policy_min": 0.005676746368408203, "timer/agent.policy_max": 1.5188796520233154, "timer/dataset_count": 712.0, "timer/dataset_total": 0.06125688552856445, "timer/dataset_frac": 0.00020400409564761681, "timer/dataset_avg": 8.603495158506244e-05, "timer/dataset_min": 6.127357482910156e-05, "timer/dataset_max": 0.00016760826110839844, "timer/agent.train_count": 712.0, "timer/agent.train_total": 265.434366941452, "timer/agent.train_frac": 0.8839773278456716, "timer/agent.train_avg": 0.3728010771649607, "timer/agent.train_min": 0.36596202850341797, "timer/agent.train_max": 0.8645198345184326, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22351527214050293, "timer/agent.report_frac": 0.0007443739681344332, "timer/agent.report_avg": 0.22351527214050293, "timer/agent.report_min": 0.22351527214050293, "timer/agent.report_max": 0.22351527214050293, "fps": 4.742266183721878}
{"step": 826093, "episode/length": 220.0, "episode/score": 15.099999994039536, "episode/sum_abs_reward": 18.300000071525574, "episode/reward_rate": 0.07692307692307693}
{"step": 826272, "episode/length": 178.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.08379888268156424}
{"step": 826473, "episode/length": 200.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.700000002980232, "episode/reward_rate": 0.06467661691542288}
{"step": 826692, "episode/length": 218.0, "episode/score": 11.100000016391277, "episode/sum_abs_reward": 12.700000040233135, "episode/reward_rate": 0.0547945205479452}
{"step": 826876, "episode/length": 183.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.02717391304347826}
{"step": 827140, "episode/length": 263.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.500000037252903, "episode/reward_rate": 0.041666666666666664}
{"step": 827374, "episode/length": 233.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.05555555555555555}
{"step": 827479, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.3459539544092465, "train/action_min": 0.0, "train/action_std": 3.154295424892478, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.039823089917636896, "train/actor_opt_grad_steps": 412830.0, "train/actor_opt_loss": -11.06501884370634, "train/adv_mag": 0.40460686201918616, "train/adv_max": 0.35514781613872476, "train/adv_mean": 0.0023093013900606445, "train/adv_min": -0.33849594629790686, "train/adv_std": 0.04453527554869652, "train/cont_avg": 0.994769370719178, "train/cont_loss_mean": 5.3082795165644475e-05, "train/cont_loss_std": 0.0016844593648577084, "train/cont_neg_acc": 0.9972602741359031, "train/cont_neg_loss": 0.0073521814978890964, "train/cont_pos_acc": 0.9999865481298263, "train/cont_pos_loss": 1.7260539352653018e-05, "train/cont_pred": 0.9947709000273927, "train/cont_rate": 0.994769370719178, "train/dyn_loss_mean": 5.501890535223974, "train/dyn_loss_std": 8.902392295941915, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9473759425829534, "train/extr_critic_critic_opt_grad_steps": 412830.0, "train/extr_critic_critic_opt_loss": 15616.837141481165, "train/extr_critic_mag": 11.806786693938792, "train/extr_critic_max": 11.806786693938792, "train/extr_critic_mean": 3.712881568360002, "train/extr_critic_min": -0.3607383933785844, "train/extr_critic_std": 2.8575491219350737, "train/extr_return_normed_mag": 1.3923673531780505, "train/extr_return_normed_max": 1.3923673531780505, "train/extr_return_normed_mean": 0.40886869863288045, "train/extr_return_normed_min": -0.07952272167352781, "train/extr_return_normed_std": 0.3187438470043548, "train/extr_return_rate": 0.8616055315488005, "train/extr_return_raw_mag": 12.634868948426965, "train/extr_return_raw_max": 12.634868948426965, "train/extr_return_raw_mean": 3.7337989382547874, "train/extr_return_raw_min": -0.6857078038666347, "train/extr_return_raw_std": 2.884761013396799, "train/extr_reward_mag": 1.0693799142968166, "train/extr_reward_max": 1.0693799142968166, "train/extr_reward_mean": 0.06094828401118109, "train/extr_reward_min": -0.5793385456686151, "train/extr_reward_std": 0.2371002690841074, "train/image_loss_mean": 3.2135363539604294, "train/image_loss_std": 8.54824651430731, "train/model_loss_mean": 6.5721766132197965, "train/model_loss_std": 12.74659260005167, "train/model_opt_grad_norm": 24.033077932383915, "train/model_opt_grad_steps": 412495.3287671233, "train/model_opt_loss": 16607.791269798803, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2534.246575342466, "train/policy_entropy_mag": 2.672694598158745, "train/policy_entropy_max": 2.672694598158745, "train/policy_entropy_mean": 0.3649510818801514, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5611837575696919, "train/policy_logprob_mag": 7.438384310839927, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.365080764848892, "train/policy_logprob_min": -7.438384310839927, "train/policy_logprob_std": 0.9986405046018836, "train/policy_randomness_mag": 0.9433439031039199, "train/policy_randomness_max": 0.9433439031039199, "train/policy_randomness_mean": 0.12881171795195095, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19807324180864308, "train/post_ent_mag": 55.437516094887094, "train/post_ent_max": 55.437516094887094, "train/post_ent_mean": 40.48066868194162, "train/post_ent_min": 19.636961140044747, "train/post_ent_std": 5.787760166272725, "train/prior_ent_mag": 76.79642246194082, "train/prior_ent_max": 76.79642246194082, "train/prior_ent_mean": 45.96434648069617, "train/prior_ent_min": 28.13947241273645, "train/prior_ent_std": 7.777281049179704, "train/rep_loss_mean": 5.501890535223974, "train/rep_loss_std": 8.902392295941915, "train/reward_avg": 0.04210188316359912, "train/reward_loss_mean": 0.05745282830440835, "train/reward_loss_std": 0.21775989908061616, "train/reward_max_data": 1.0342465835074857, "train/reward_max_pred": 1.0308261864805874, "train/reward_neg_acc": 0.9939728705850366, "train/reward_neg_loss": 0.02486438255706062, "train/reward_pos_acc": 0.9886822259589417, "train/reward_pos_loss": 0.7264468882181873, "train/reward_pred": 0.0417979743637859, "train/reward_rate": 0.046553938356164386, "stats/sum_log_reward": 11.100000313350133, "stats/max_log_achievement_collect_coal": 0.2857142857142857, "stats/max_log_achievement_collect_drink": 2.857142857142857, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 14.0, "stats/max_log_achievement_collect_wood": 10.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.7142857142857142, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.42857142857142855, "stats/max_log_achievement_make_wood_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_wood_sword": 0.7142857142857143, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 3.857142857142857, "stats/max_log_achievement_place_table": 2.4285714285714284, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.3124880237238748, "replay/size": 827416.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.4883104521652747e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3354317895297346e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3809344768524, "timer/env.step_count": 1450.0, "timer/env.step_total": 18.482717752456665, "timer/env.step_frac": 0.061530928334870595, "timer/env.step_avg": 0.012746701898245975, "timer/env.step_min": 0.002877473831176758, "timer/env.step_max": 1.6033875942230225, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.284487247467041, "timer/replay.add_frac": 0.0009470882296924335, "timer/replay.add_avg": 0.0001961981017014076, "timer/replay.add_min": 7.009506225585938e-05, "timer/replay.add_max": 0.0024209022521972656, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0212094783782959, "timer/logger.write_frac": 7.060860375587625e-05, "timer/logger.write_avg": 0.0212094783782959, "timer/logger.write_min": 0.0212094783782959, "timer/logger.write_max": 0.0212094783782959, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 11.2359938621521, "timer/agent.policy_frac": 0.03740581565777756, "timer/agent.policy_avg": 0.007748961284242828, "timer/agent.policy_min": 0.005731105804443359, "timer/agent.policy_max": 0.01743030548095703, "timer/dataset_count": 725.0, "timer/dataset_total": 0.06232476234436035, "timer/dataset_frac": 0.0002074857462338814, "timer/dataset_avg": 8.596518944049704e-05, "timer/dataset_min": 5.793571472167969e-05, "timer/dataset_max": 0.00015664100646972656, "timer/agent.train_count": 725.0, "timer/agent.train_total": 269.6018421649933, "timer/agent.train_frac": 0.8975331361643694, "timer/agent.train_avg": 0.3718646098827494, "timer/agent.train_min": 0.36574220657348633, "timer/agent.train_max": 0.3853487968444824, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22215628623962402, "timer/agent.report_frac": 0.0007395818467191816, "timer/agent.report_avg": 0.22215628623962402, "timer/agent.report_min": 0.22215628623962402, "timer/agent.report_max": 0.22215628623962402, "fps": 4.8271065601685805}
{"step": 827590, "episode/length": 215.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.06944444444444445}
{"step": 827783, "episode/length": 192.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.500000022351742, "episode/reward_rate": 0.046632124352331605}
{"step": 828001, "episode/length": 217.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.05504587155963303}
{"step": 828683, "episode/length": 681.0, "episode/score": 15.100000023841858, "episode/sum_abs_reward": 21.30000013113022, "episode/reward_rate": 0.02346041055718475}
{"step": 828886, "episode/length": 202.0, "episode/score": 12.100000023841858, "episode/sum_abs_reward": 14.500000059604645, "episode/reward_rate": 0.06403940886699508}
{"step": 828937, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.3048146565755205, "train/action_min": 0.0, "train/action_std": 3.1179520752694874, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.040536973625421524, "train/actor_opt_grad_steps": 413555.0, "train/actor_opt_loss": -11.109186840864519, "train/adv_mag": 0.39142874793873894, "train/adv_max": 0.3509258431278997, "train/adv_mean": 0.002408033543992537, "train/adv_min": -0.32645929604768753, "train/adv_std": 0.044878203007909984, "train/cont_avg": 0.9952256944444444, "train/cont_loss_mean": 1.5439547659232585e-05, "train/cont_loss_std": 0.00047066164555707875, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.002291147736826815, "train/cont_pos_acc": 0.9999999834431542, "train/cont_pos_loss": 3.5508914841584115e-06, "train/cont_pred": 0.9952322145303091, "train/cont_rate": 0.9952256944444444, "train/dyn_loss_mean": 5.420639508300358, "train/dyn_loss_std": 8.86158115333981, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9857754301693704, "train/extr_critic_critic_opt_grad_steps": 413555.0, "train/extr_critic_critic_opt_loss": 15817.442328559027, "train/extr_critic_mag": 12.026557087898254, "train/extr_critic_max": 12.026557087898254, "train/extr_critic_mean": 3.648742804924647, "train/extr_critic_min": -0.38811508814493817, "train/extr_critic_std": 2.8646475540267096, "train/extr_return_normed_mag": 1.4252570453617308, "train/extr_return_normed_max": 1.4252570453617308, "train/extr_return_normed_mean": 0.4000803484684891, "train/extr_return_normed_min": -0.08024612327830659, "train/extr_return_normed_std": 0.31720498411191833, "train/extr_return_rate": 0.8566252978311645, "train/extr_return_raw_mag": 13.02914951907264, "train/extr_return_raw_max": 13.02914951907264, "train/extr_return_raw_mean": 3.6707342399491205, "train/extr_return_raw_min": -0.7137325559225347, "train/extr_return_raw_std": 2.895460695028305, "train/extr_reward_mag": 1.063912034034729, "train/extr_reward_max": 1.063912034034729, "train/extr_reward_mean": 0.06060023455777102, "train/extr_reward_min": -0.614077607790629, "train/extr_reward_std": 0.23695952465964687, "train/image_loss_mean": 3.159951221611765, "train/image_loss_std": 8.381600757439932, "train/model_loss_mean": 6.468112064732446, "train/model_loss_std": 12.533522129058838, "train/model_opt_grad_norm": 25.3380024433136, "train/model_opt_grad_steps": 413219.1111111111, "train/model_opt_loss": 9051.571919759115, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1388.888888888889, "train/policy_entropy_mag": 2.6643998622894287, "train/policy_entropy_max": 2.6643998622894287, "train/policy_entropy_mean": 0.35420244249204796, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5386185149351755, "train/policy_logprob_mag": 7.438384228282505, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.35478541544742054, "train/policy_logprob_min": -7.438384228282505, "train/policy_logprob_std": 0.9896722079979049, "train/policy_randomness_mag": 0.9404162284400728, "train/policy_randomness_max": 0.9404162284400728, "train/policy_randomness_mean": 0.12501791968113846, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19010869868927532, "train/post_ent_mag": 55.41976886325412, "train/post_ent_max": 55.41976886325412, "train/post_ent_mean": 40.45847770902846, "train/post_ent_min": 19.433907005521988, "train/post_ent_std": 5.8155328962537975, "train/prior_ent_mag": 76.73359828525119, "train/prior_ent_max": 76.73359828525119, "train/prior_ent_mean": 45.88515403535631, "train/prior_ent_min": 28.259715000788372, "train/prior_ent_std": 7.726153009467655, "train/rep_loss_mean": 5.420639508300358, "train/rep_loss_std": 8.86158115333981, "train/reward_avg": 0.0406724712294009, "train/reward_loss_mean": 0.055761740594688386, "train/reward_loss_std": 0.21504414847327602, "train/reward_max_data": 1.0263888951804903, "train/reward_max_pred": 1.0266546640131209, "train/reward_neg_acc": 0.9936192093624009, "train/reward_neg_loss": 0.024416146308390632, "train/reward_pos_acc": 0.9905098560783598, "train/reward_pos_loss": 0.7199119817879465, "train/reward_pred": 0.0405236029635287, "train/reward_rate": 0.045098198784722224, "stats/sum_log_reward": 12.100000190734864, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 6.2, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.2, "stats/max_log_achievement_collect_stone": 13.0, "stats/max_log_achievement_collect_wood": 11.6, "stats/max_log_achievement_defeat_skeleton": 0.2, "stats/max_log_achievement_defeat_zombie": 1.6, "stats/max_log_achievement_eat_cow": 1.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.8, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 3.6, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.6, "stats/mean_log_entropy": 0.3444975882768631, "replay/size": 828874.0, "replay/inserts": 1458.0, "replay/samples": 11664.0, "replay/insert_wait_avg": 3.542265610766836e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.321277173621828e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0663626194, "timer/env.step_count": 1458.0, "timer/env.step_total": 16.441242933273315, "timer/env.step_frac": 0.05479202263709631, "timer/env.step_avg": 0.01127657265656606, "timer/env.step_min": 0.002950906753540039, "timer/env.step_max": 1.7076797485351562, "timer/replay.add_count": 1458.0, "timer/replay.add_total": 0.29062938690185547, "timer/replay.add_frac": 0.0009685503712073376, "timer/replay.add_avg": 0.00019933428456917385, "timer/replay.add_min": 7.295608520507812e-05, "timer/replay.add_max": 0.0052258968353271484, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024153709411621094, "timer/logger.write_frac": 8.049455860621512e-05, "timer/logger.write_avg": 0.024153709411621094, "timer/logger.write_min": 0.024153709411621094, "timer/logger.write_max": 0.024153709411621094, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1458.0, "timer/agent.policy_total": 11.37373423576355, "timer/agent.policy_frac": 0.03790406274291342, "timer/agent.policy_avg": 0.007800915113692421, "timer/agent.policy_min": 0.005806684494018555, "timer/agent.policy_max": 0.019349336624145508, "timer/dataset_count": 729.0, "timer/dataset_total": 0.06422829627990723, "timer/dataset_frac": 0.0002140469718739301, "timer/dataset_avg": 8.810465882017452e-05, "timer/dataset_min": 6.29425048828125e-05, "timer/dataset_max": 0.00017380714416503906, "timer/agent.train_count": 729.0, "timer/agent.train_total": 271.1843948364258, "timer/agent.train_frac": 0.9037480658249998, "timer/agent.train_avg": 0.37199505464530286, "timer/agent.train_min": 0.3619420528411865, "timer/agent.train_max": 0.3862800598144531, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22054314613342285, "timer/agent.report_frac": 0.0007349812361779341, "timer/agent.report_avg": 0.22054314613342285, "timer/agent.report_min": 0.22054314613342285, "timer/agent.report_max": 0.22054314613342285, "fps": 4.858821112704876}
{"step": 829134, "episode/length": 247.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.500000022351742, "episode/reward_rate": 0.06451612903225806}
{"step": 829384, "episode/length": 249.0, "episode/score": 11.099999994039536, "episode/sum_abs_reward": 12.900000035762787, "episode/reward_rate": 0.048}
{"step": 829712, "episode/length": 327.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.700000040233135, "episode/reward_rate": 0.04573170731707317}
{"step": 830097, "episode/length": 384.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.03896103896103896}
{"step": 830263, "episode/length": 165.0, "episode/score": 5.100000001490116, "episode/sum_abs_reward": 6.500000022351742, "episode/reward_rate": 0.03614457831325301}
{"step": 830379, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.402097937178938, "train/action_min": 0.0, "train/action_std": 3.1845080754528308, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03979469720937618, "train/actor_opt_grad_steps": 414280.0, "train/actor_opt_loss": -11.568117507516522, "train/adv_mag": 0.401050961997411, "train/adv_max": 0.34623458165011994, "train/adv_mean": 0.001815395437604397, "train/adv_min": -0.35860197919688813, "train/adv_std": 0.04419713196893261, "train/cont_avg": 0.9948763912671232, "train/cont_loss_mean": 9.026945911102368e-05, "train/cont_loss_std": 0.0027724746259065037, "train/cont_neg_acc": 0.994618396236472, "train/cont_neg_loss": 0.015328664429906807, "train/cont_pos_acc": 0.9999999853029643, "train/cont_pos_loss": 1.5675820781125335e-05, "train/cont_pred": 0.9948881570607016, "train/cont_rate": 0.9948763912671232, "train/dyn_loss_mean": 5.40229788218459, "train/dyn_loss_std": 8.82424644574727, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9156395539845505, "train/extr_critic_critic_opt_grad_steps": 414280.0, "train/extr_critic_critic_opt_loss": 15580.677092251712, "train/extr_critic_mag": 11.948550485584834, "train/extr_critic_max": 11.948550485584834, "train/extr_critic_mean": 3.7162659854105073, "train/extr_critic_min": -0.3664855908041131, "train/extr_critic_std": 2.89845287309934, "train/extr_return_normed_mag": 1.3911633867107025, "train/extr_return_normed_max": 1.3911633867107025, "train/extr_return_normed_mean": 0.4041448515163709, "train/extr_return_normed_min": -0.07778071714182423, "train/extr_return_normed_std": 0.31917148379430377, "train/extr_return_rate": 0.8471809454160194, "train/extr_return_raw_mag": 12.779045849630277, "train/extr_return_raw_max": 12.779045849630277, "train/extr_return_raw_mean": 3.732878910352106, "train/extr_return_raw_min": -0.6837229181642401, "train/extr_return_raw_std": 2.9252989259484696, "train/extr_reward_mag": 1.0689849657555148, "train/extr_reward_max": 1.0689849657555148, "train/extr_reward_mean": 0.06084444174823696, "train/extr_reward_min": -0.6257230272031811, "train/extr_reward_std": 0.23681680919372872, "train/image_loss_mean": 3.1657341179782397, "train/image_loss_std": 7.8968324595934725, "train/model_loss_mean": 6.464783446429527, "train/model_loss_std": 12.062623115435038, "train/model_opt_grad_norm": 23.348664858569837, "train/model_opt_grad_steps": 413943.9589041096, "train/model_opt_loss": 11828.629922945205, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1832.1917808219177, "train/policy_entropy_mag": 2.6754573142691833, "train/policy_entropy_max": 2.6754573142691833, "train/policy_entropy_mean": 0.3815021616955326, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5835263871983306, "train/policy_logprob_mag": 7.438384330435975, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38167980292888537, "train/policy_logprob_min": -7.438384330435975, "train/policy_logprob_std": 1.013591273190224, "train/policy_randomness_mag": 0.9443190220284136, "train/policy_randomness_max": 0.9443190220284136, "train/policy_randomness_mean": 0.13465352223752297, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20595920881996416, "train/post_ent_mag": 55.78806482602472, "train/post_ent_max": 55.78806482602472, "train/post_ent_mean": 40.704219661346855, "train/post_ent_min": 19.83096037825493, "train/post_ent_std": 5.7664766768886615, "train/prior_ent_mag": 76.70638954476135, "train/prior_ent_max": 76.70638954476135, "train/prior_ent_mean": 46.09128309276006, "train/prior_ent_min": 28.430636706417555, "train/prior_ent_std": 7.709720853256853, "train/rep_loss_mean": 5.40229788218459, "train/rep_loss_std": 8.82424644574727, "train/reward_avg": 0.04142765407386708, "train/reward_loss_mean": 0.05758041526152663, "train/reward_loss_std": 0.21950545682482522, "train/reward_max_data": 1.026027403465689, "train/reward_max_pred": 1.0245435531825235, "train/reward_neg_acc": 0.9931859096435651, "train/reward_neg_loss": 0.0250425927774751, "train/reward_pos_acc": 0.988586427414254, "train/reward_pos_loss": 0.7350432758461939, "train/reward_pred": 0.04096184890360048, "train/reward_rate": 0.04608572345890411, "stats/sum_log_reward": 11.900000286102294, "stats/max_log_achievement_collect_coal": 0.4, "stats/max_log_achievement_collect_drink": 3.8, "stats/max_log_achievement_collect_iron": 0.4, "stats/max_log_achievement_collect_sapling": 1.8, "stats/max_log_achievement_collect_stone": 16.0, "stats/max_log_achievement_collect_wood": 13.2, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.4, "stats/max_log_achievement_make_stone_pickaxe": 1.8, "stats/max_log_achievement_make_stone_sword": 1.2, "stats/max_log_achievement_make_wood_pickaxe": 0.8, "stats/max_log_achievement_make_wood_sword": 0.8, "stats/max_log_achievement_place_furnace": 2.2, "stats/max_log_achievement_place_plant": 1.8, "stats/max_log_achievement_place_stone": 2.6, "stats/max_log_achievement_place_table": 2.6, "stats/max_log_achievement_wake_up": 1.4, "stats/mean_log_entropy": 0.5369307577610016, "replay/size": 830316.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.5678464066800395e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2749069772051044e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2472834587097, "timer/env.step_count": 1442.0, "timer/env.step_total": 17.60867428779602, "timer/env.step_frac": 0.05864723931871171, "timer/env.step_avg": 0.012211285913866866, "timer/env.step_min": 0.0028743743896484375, "timer/env.step_max": 1.8961701393127441, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.2889416217803955, "timer/replay.add_frac": 0.0009623454988565485, "timer/replay.add_avg": 0.00020037560456338108, "timer/replay.add_min": 6.985664367675781e-05, "timer/replay.add_max": 0.004827260971069336, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022621631622314453, "timer/logger.write_frac": 7.534333487292118e-05, "timer/logger.write_avg": 0.022621631622314453, "timer/logger.write_min": 0.022621631622314453, "timer/logger.write_max": 0.022621631622314453, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003552436828613281, "timer/checkpoint.save_frac": 1.1831703480180915e-06, "timer/checkpoint.save_avg": 0.0003552436828613281, "timer/checkpoint.save_min": 0.0003552436828613281, "timer/checkpoint.save_max": 0.0003552436828613281, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2487657070159912, "timer/agent.save_frac": 0.004159124081426444, "timer/agent.save_avg": 1.2487657070159912, "timer/agent.save_min": 1.2487657070159912, "timer/agent.save_max": 1.2487657070159912, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.0108642578125e-05, "timer/replay.save_frac": 2.66808883848375e-07, "timer/replay.save_avg": 8.0108642578125e-05, "timer/replay.save_min": 8.0108642578125e-05, "timer/replay.save_max": 8.0108642578125e-05, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 12.992609024047852, "timer/agent.policy_frac": 0.04327302773360348, "timer/agent.policy_avg": 0.0090101310846379, "timer/agent.policy_min": 0.005632162094116211, "timer/agent.policy_max": 1.243250846862793, "timer/dataset_count": 721.0, "timer/dataset_total": 0.06281352043151855, "timer/dataset_frac": 0.00020920595752919354, "timer/dataset_avg": 8.712000059850007e-05, "timer/dataset_min": 5.888938903808594e-05, "timer/dataset_max": 0.0010170936584472656, "timer/agent.train_count": 721.0, "timer/agent.train_total": 268.59353256225586, "timer/agent.train_frac": 0.8945743970376108, "timer/agent.train_avg": 0.3725291713762217, "timer/agent.train_min": 0.3654017448425293, "timer/agent.train_max": 0.8451907634735107, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2196362018585205, "timer/agent.report_frac": 0.0007315176987728686, "timer/agent.report_avg": 0.2196362018585205, "timer/agent.report_min": 0.2196362018585205, "timer/agent.report_max": 0.2196362018585205, "fps": 4.80264197263857}
{"step": 830460, "episode/length": 196.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 8.899999991059303, "episode/reward_rate": 0.04568527918781726}
{"step": 830590, "episode/length": 129.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 12.899999976158142, "episode/reward_rate": 0.1}
{"step": 830826, "episode/length": 235.0, "episode/score": 13.099999971687794, "episode/sum_abs_reward": 15.900000043213367, "episode/reward_rate": 0.0635593220338983}
{"step": 830985, "episode/length": 158.0, "episode/score": 12.100000016391277, "episode/sum_abs_reward": 13.30000003427267, "episode/reward_rate": 0.08176100628930817}
{"step": 831351, "episode/length": 365.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.040983606557377046}
{"step": 831625, "episode/length": 273.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.500000037252903, "episode/reward_rate": 0.051094890510948905}
{"step": 831833, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.554359436035156, "train/action_min": 0.0, "train/action_std": 3.364729834927453, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038617299766176276, "train/actor_opt_grad_steps": 415005.0, "train/actor_opt_loss": -12.247704828778902, "train/adv_mag": 0.40226943376991486, "train/adv_max": 0.33743180334568024, "train/adv_mean": 0.0016084430215717778, "train/adv_min": -0.36034909615086186, "train/adv_std": 0.04325179709121585, "train/cont_avg": 0.9950900607638888, "train/cont_loss_mean": 3.8616295964466474e-05, "train/cont_loss_std": 0.0012201633364953403, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 9.897835498880643e-05, "train/cont_pos_acc": 0.9999863364630275, "train/cont_pos_loss": 3.82067653268672e-05, "train/cont_pred": 0.9950768624742826, "train/cont_rate": 0.9950900607638888, "train/dyn_loss_mean": 5.351256337430742, "train/dyn_loss_std": 8.754361391067505, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8991499228609933, "train/extr_critic_critic_opt_grad_steps": 415005.0, "train/extr_critic_critic_opt_loss": 15439.780219184027, "train/extr_critic_mag": 11.767292512787712, "train/extr_critic_max": 11.767292512787712, "train/extr_critic_mean": 3.6468975477748447, "train/extr_critic_min": -0.39789356622431016, "train/extr_critic_std": 2.881576720211241, "train/extr_return_normed_mag": 1.3729649202691183, "train/extr_return_normed_max": 1.3729649202691183, "train/extr_return_normed_mean": 0.39789344370365143, "train/extr_return_normed_min": -0.08936396411930521, "train/extr_return_normed_std": 0.3184790213902791, "train/extr_return_rate": 0.8514838765064875, "train/extr_return_raw_mag": 12.565367235077751, "train/extr_return_raw_max": 12.565367235077751, "train/extr_return_raw_mean": 3.6615909271770053, "train/extr_return_raw_min": -0.7881161181463135, "train/extr_return_raw_std": 2.908436675866445, "train/extr_reward_mag": 1.0708546605375078, "train/extr_reward_max": 1.0708546605375078, "train/extr_reward_mean": 0.0602180166170001, "train/extr_reward_min": -0.6411164253950119, "train/extr_reward_std": 0.23648326637016404, "train/image_loss_mean": 3.185276774896516, "train/image_loss_std": 8.432942913638222, "train/model_loss_mean": 6.452520145310296, "train/model_loss_std": 12.494488835334778, "train/model_opt_grad_norm": 24.048589030901592, "train/model_opt_grad_steps": 414668.0, "train/model_opt_loss": 8065.650139702691, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.677302290995916, "train/policy_entropy_max": 2.677302290995916, "train/policy_entropy_mean": 0.41579239070415497, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6264233100745413, "train/policy_logprob_mag": 7.43838424815072, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41563012823462486, "train/policy_logprob_min": -7.43838424815072, "train/policy_logprob_std": 1.0407097107834287, "train/policy_randomness_mag": 0.9449702194995351, "train/policy_randomness_max": 0.9449702194995351, "train/policy_randomness_mean": 0.14675646906511652, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22109993857642016, "train/post_ent_mag": 55.26726383633084, "train/post_ent_max": 55.26726383633084, "train/post_ent_mean": 40.45265197753906, "train/post_ent_min": 19.560236546728348, "train/post_ent_std": 5.723519007364909, "train/prior_ent_mag": 76.6926293902927, "train/prior_ent_max": 76.6926293902927, "train/prior_ent_mean": 45.799590004814995, "train/prior_ent_min": 28.053641107347275, "train/prior_ent_std": 7.696440279483795, "train/rep_loss_mean": 5.351256337430742, "train/rep_loss_std": 8.754361391067505, "train/reward_avg": 0.040490722102630466, "train/reward_loss_mean": 0.05645093016533388, "train/reward_loss_std": 0.22212761123147276, "train/reward_max_data": 1.027777784400516, "train/reward_max_pred": 1.0261828617917166, "train/reward_neg_acc": 0.994336213502619, "train/reward_neg_loss": 0.024098274052246578, "train/reward_pos_acc": 0.9857984715037875, "train/reward_pos_loss": 0.7423011288046837, "train/reward_pred": 0.0398694870269133, "train/reward_rate": 0.04501681857638889, "stats/sum_log_reward": 11.766666968663534, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 2.8333333333333335, "stats/max_log_achievement_collect_iron": 0.3333333333333333, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 13.833333333333334, "stats/max_log_achievement_collect_wood": 11.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 4.666666666666667, "stats/max_log_achievement_place_table": 2.8333333333333335, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.48555735498666763, "replay/size": 831770.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.557913569013551e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2818893015466662e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.17008352279663, "timer/env.step_count": 1454.0, "timer/env.step_total": 17.45524787902832, "timer/env.step_frac": 0.0581511910653237, "timer/env.step_avg": 0.012004984786126768, "timer/env.step_min": 0.002892732620239258, "timer/env.step_max": 1.6776995658874512, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.2915072441101074, "timer/replay.add_frac": 0.0009711402305285653, "timer/replay.add_avg": 0.00020048641273047278, "timer/replay.add_min": 6.270408630371094e-05, "timer/replay.add_max": 0.00412297248840332, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02905583381652832, "timer/logger.write_frac": 9.679790029548915e-05, "timer/logger.write_avg": 0.02905583381652832, "timer/logger.write_min": 0.02905583381652832, "timer/logger.write_max": 0.02905583381652832, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 11.157787799835205, "timer/agent.policy_frac": 0.03717155177120714, "timer/agent.policy_avg": 0.007673856808689962, "timer/agent.policy_min": 0.005690574645996094, "timer/agent.policy_max": 0.02061748504638672, "timer/dataset_count": 727.0, "timer/dataset_total": 0.061903953552246094, "timer/dataset_frac": 0.00020622959098968554, "timer/dataset_avg": 8.514986733458886e-05, "timer/dataset_min": 5.984306335449219e-05, "timer/dataset_max": 0.00018787384033203125, "timer/agent.train_count": 727.0, "timer/agent.train_total": 270.49511909484863, "timer/agent.train_frac": 0.9011395003803092, "timer/agent.train_avg": 0.37207031512358824, "timer/agent.train_min": 0.3654642105102539, "timer/agent.train_max": 0.38445329666137695, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22057437896728516, "timer/agent.report_frac": 0.0007348313208918885, "timer/agent.report_avg": 0.22057437896728516, "timer/agent.report_min": 0.22057437896728516, "timer/agent.report_max": 0.22057437896728516, "fps": 4.843815809176063}
{"step": 831841, "episode/length": 215.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.05555555555555555}
{"step": 832029, "episode/length": 187.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.0797872340425532}
{"step": 832251, "episode/length": 221.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.05855855855855856}
{"step": 832479, "episode/length": 227.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.06140350877192982}
{"step": 832694, "episode/length": 214.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.06511627906976744}
{"step": 832868, "episode/length": 173.0, "episode/score": 14.100000023841858, "episode/sum_abs_reward": 16.700000017881393, "episode/reward_rate": 0.09195402298850575}
{"step": 833134, "episode/length": 265.0, "episode/score": 13.100000016391277, "episode/sum_abs_reward": 16.1000000461936, "episode/reward_rate": 0.05639097744360902}
{"step": 833277, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.404818216959636, "train/action_min": 0.0, "train/action_std": 3.2245018117957644, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04003067105077207, "train/actor_opt_grad_steps": 415725.0, "train/actor_opt_loss": -11.844254246188534, "train/adv_mag": 0.40534819745355183, "train/adv_max": 0.35286450965536964, "train/adv_mean": 0.002216068825166278, "train/adv_min": -0.35344812729292446, "train/adv_std": 0.04433178989630607, "train/cont_avg": 0.9952528211805556, "train/cont_loss_mean": 6.330632603799045e-05, "train/cont_loss_std": 0.001993450936056086, "train/cont_neg_acc": 0.9953703706463178, "train/cont_neg_loss": 0.01897423184874785, "train/cont_pos_acc": 0.9999999784761004, "train/cont_pos_loss": 7.588821134249832e-06, "train/cont_pred": 0.9952594414353371, "train/cont_rate": 0.9952528211805556, "train/dyn_loss_mean": 5.498737394809723, "train/dyn_loss_std": 8.962496863471138, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9746427834033966, "train/extr_critic_critic_opt_grad_steps": 415725.0, "train/extr_critic_critic_opt_loss": 15667.296861436633, "train/extr_critic_mag": 11.90638898478614, "train/extr_critic_max": 11.90638898478614, "train/extr_critic_mean": 3.623913218577703, "train/extr_critic_min": -0.4136686871449153, "train/extr_critic_std": 2.8453349802229138, "train/extr_return_normed_mag": 1.3893936491674848, "train/extr_return_normed_max": 1.3893936491674848, "train/extr_return_normed_mean": 0.3952786512672901, "train/extr_return_normed_min": -0.09292239085253742, "train/extr_return_normed_std": 0.3165455584724744, "train/extr_return_rate": 0.8632170922226376, "train/extr_return_raw_mag": 12.665265361467997, "train/extr_return_raw_max": 12.665265361467997, "train/extr_return_raw_mean": 3.6440305444929333, "train/extr_return_raw_min": -0.7859173901379108, "train/extr_return_raw_std": 2.8723732034365335, "train/extr_reward_mag": 1.067705386214786, "train/extr_reward_max": 1.067705386214786, "train/extr_reward_mean": 0.06076644340323077, "train/extr_reward_min": -0.6509291016393237, "train/extr_reward_std": 0.23692557153602442, "train/image_loss_mean": 3.195940916736921, "train/image_loss_std": 8.48626438776652, "train/model_loss_mean": 6.552270882659489, "train/model_loss_std": 12.714126348495483, "train/model_opt_grad_norm": 23.21952184041341, "train/model_opt_grad_steps": 415388.0, "train/model_opt_loss": 13676.097351074219, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2065.972222222222, "train/policy_entropy_mag": 2.66546070906851, "train/policy_entropy_max": 2.66546070906851, "train/policy_entropy_mean": 0.3825151700940397, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5828423839476373, "train/policy_logprob_mag": 7.43838424815072, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3822849591573079, "train/policy_logprob_min": -7.43838424815072, "train/policy_logprob_std": 1.0141383161147435, "train/policy_randomness_mag": 0.9407906590236558, "train/policy_randomness_max": 0.9407906590236558, "train/policy_randomness_mean": 0.1350110699940059, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20571778383519915, "train/post_ent_mag": 54.98740445242988, "train/post_ent_max": 54.98740445242988, "train/post_ent_mean": 40.436208724975586, "train/post_ent_min": 19.59734348456065, "train/post_ent_std": 5.719799081484477, "train/prior_ent_mag": 76.7410888671875, "train/prior_ent_max": 76.7410888671875, "train/prior_ent_mean": 45.88839785257975, "train/prior_ent_min": 28.279063436720108, "train/prior_ent_std": 7.7171719736523094, "train/rep_loss_mean": 5.498737394809723, "train/rep_loss_std": 8.962496863471138, "train/reward_avg": 0.04168158624735144, "train/reward_loss_mean": 0.0570241893745131, "train/reward_loss_std": 0.2245934121310711, "train/reward_max_data": 1.036111119720671, "train/reward_max_pred": 1.0357123911380768, "train/reward_neg_acc": 0.9941814243793488, "train/reward_neg_loss": 0.023732091765850782, "train/reward_pos_acc": 0.9850443767176734, "train/reward_pos_loss": 0.7469068691134453, "train/reward_pred": 0.04111037874180409, "train/reward_rate": 0.046101888020833336, "stats/sum_log_reward": 12.957143102373395, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 2.5714285714285716, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8571428571428572, "stats/max_log_achievement_collect_stone": 11.285714285714286, "stats/max_log_achievement_collect_wood": 12.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.7142857142857142, "stats/max_log_achievement_eat_cow": 0.42857142857142855, "stats/max_log_achievement_make_stone_pickaxe": 0.5714285714285714, "stats/max_log_achievement_make_stone_sword": 0.5714285714285714, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.2857142857142858, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 3.7142857142857144, "stats/max_log_achievement_place_table": 2.5714285714285716, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.28492708929947447, "replay/size": 833214.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.5257550818107797e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3565216368255193e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.16822838783264, "timer/env.step_count": 1444.0, "timer/env.step_total": 19.701654195785522, "timer/env.step_frac": 0.06563537487495173, "timer/env.step_avg": 0.013643804844726817, "timer/env.step_min": 0.0027947425842285156, "timer/env.step_max": 1.6933674812316895, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.26795268058776855, "timer/replay.add_frac": 0.0008926750243585408, "timer/replay.add_avg": 0.00018556279819097546, "timer/replay.add_min": 5.793571472167969e-05, "timer/replay.add_max": 0.0024411678314208984, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023116111755371094, "timer/logger.write_frac": 7.701052133173768e-05, "timer/logger.write_avg": 0.023116111755371094, "timer/logger.write_min": 0.023116111755371094, "timer/logger.write_max": 0.023116111755371094, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.835797309875488, "timer/agent.policy_frac": 0.03609908139869849, "timer/agent.policy_avg": 0.007504014757531502, "timer/agent.policy_min": 0.005688905715942383, "timer/agent.policy_max": 0.026059389114379883, "timer/dataset_count": 722.0, "timer/dataset_total": 0.06032204627990723, "timer/dataset_frac": 0.00020096079656361254, "timer/dataset_avg": 8.354854055388813e-05, "timer/dataset_min": 5.936622619628906e-05, "timer/dataset_max": 0.0001628398895263672, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.60889863967896, "timer/agent.train_frac": 0.8948611919467458, "timer/agent.train_avg": 0.3720344856505249, "timer/agent.train_min": 0.36479663848876953, "timer/agent.train_max": 0.38450169563293457, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22162270545959473, "timer/agent.report_frac": 0.0007383283255856343, "timer/agent.report_avg": 0.22162270545959473, "timer/agent.report_min": 0.22162270545959473, "timer/agent.report_max": 0.22162270545959473, "fps": 4.810532660855906}
{"step": 833304, "episode/length": 169.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.07058823529411765}
{"step": 833771, "episode/length": 466.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.027837259100642397}
{"step": 833836, "episode/length": 64.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.099999994039536, "episode/reward_rate": 0.13846153846153847}
{"step": 834055, "episode/length": 218.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 16.900000013411045, "episode/reward_rate": 0.0730593607305936}
{"step": 834359, "episode/length": 303.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.039473684210526314}
{"step": 834604, "episode/length": 244.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.061224489795918366}
{"step": 834711, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.394659254286024, "train/action_min": 0.0, "train/action_std": 3.224923766321606, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03972046711068186, "train/actor_opt_grad_steps": 416445.0, "train/actor_opt_loss": -11.84412896591756, "train/adv_mag": 0.39167805512746173, "train/adv_max": 0.33074766314691967, "train/adv_mean": 0.002149981530086128, "train/adv_min": -0.3478440987981028, "train/adv_std": 0.044211066534949675, "train/cont_avg": 0.9947645399305556, "train/cont_loss_mean": 2.1081647900958148e-05, "train/cont_loss_std": 0.000647928200531093, "train/cont_neg_acc": 0.9976851857370801, "train/cont_neg_loss": 0.002934644971342474, "train/cont_pos_acc": 0.9999999793039428, "train/cont_pos_loss": 3.707668506090932e-06, "train/cont_pred": 0.9947720484601127, "train/cont_rate": 0.9947645399305556, "train/dyn_loss_mean": 5.54133544365565, "train/dyn_loss_std": 8.91223257780075, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9446036981211768, "train/extr_critic_critic_opt_grad_steps": 416445.0, "train/extr_critic_critic_opt_loss": 15677.973266601562, "train/extr_critic_mag": 11.761293835110134, "train/extr_critic_max": 11.761293835110134, "train/extr_critic_mean": 3.638398375776079, "train/extr_critic_min": -0.3728117081854079, "train/extr_critic_std": 2.855841292275323, "train/extr_return_normed_mag": 1.3831309990750418, "train/extr_return_normed_max": 1.3831309990750418, "train/extr_return_normed_mean": 0.3985234203024043, "train/extr_return_normed_min": -0.08192063707651363, "train/extr_return_normed_std": 0.3188539101845688, "train/extr_return_rate": 0.8577799912956026, "train/extr_return_raw_mag": 12.555779152446323, "train/extr_return_raw_max": 12.555779152446323, "train/extr_return_raw_mean": 3.657826453447342, "train/extr_return_raw_min": -0.6839470941987302, "train/extr_return_raw_std": 2.8815597792466483, "train/extr_reward_mag": 1.0701099501715765, "train/extr_reward_max": 1.0701099501715765, "train/extr_reward_mean": 0.05986760613612003, "train/extr_reward_min": -0.6045795232057571, "train/extr_reward_std": 0.23554441684650052, "train/image_loss_mean": 3.319490098290973, "train/image_loss_std": 8.307497892114851, "train/model_loss_mean": 6.702524840831757, "train/model_loss_std": 12.477444953388638, "train/model_opt_grad_norm": 24.034483088387383, "train/model_opt_grad_steps": 416108.0, "train/model_opt_loss": 20798.314208984375, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3159.722222222222, "train/policy_entropy_mag": 2.6697338422139487, "train/policy_entropy_max": 2.6697338422139487, "train/policy_entropy_mean": 0.3745891298684809, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5669813205798467, "train/policy_logprob_mag": 7.438384281264411, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37421304773953223, "train/policy_logprob_min": -7.438384281264411, "train/policy_logprob_std": 1.004497731725375, "train/policy_randomness_mag": 0.9422988866766294, "train/policy_randomness_max": 0.9422988866766294, "train/policy_randomness_mean": 0.13221352412882778, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20011952622897095, "train/post_ent_mag": 55.55522749159071, "train/post_ent_max": 55.55522749159071, "train/post_ent_mean": 40.58414485719469, "train/post_ent_min": 19.538147343529594, "train/post_ent_std": 5.753061698542701, "train/prior_ent_mag": 76.72646013895671, "train/prior_ent_max": 76.72646013895671, "train/prior_ent_mean": 46.067336877187095, "train/prior_ent_min": 27.70647668838501, "train/prior_ent_std": 7.778429826100667, "train/rep_loss_mean": 5.54133544365565, "train/rep_loss_std": 8.91223257780075, "train/reward_avg": 0.04228515615169373, "train/reward_loss_mean": 0.05821244015047947, "train/reward_loss_std": 0.21751352523763975, "train/reward_max_data": 1.0208333383003871, "train/reward_max_pred": 1.0223569754097197, "train/reward_neg_acc": 0.9934129003021452, "train/reward_neg_loss": 0.024928993299706943, "train/reward_pos_acc": 0.9892988006273905, "train/reward_pos_loss": 0.7308293887310557, "train/reward_pred": 0.041793346844820514, "train/reward_rate": 0.047037760416666664, "stats/sum_log_reward": 11.766666968663534, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 3.8333333333333335, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 18.833333333333332, "stats/max_log_achievement_collect_wood": 12.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.6666666666666666, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_stone_pickaxe": 1.5, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 4.833333333333333, "stats/max_log_achievement_place_table": 3.1666666666666665, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.4412915160258611, "replay/size": 834648.0, "replay/inserts": 1434.0, "replay/samples": 11472.0, "replay/insert_wait_avg": 3.4470937242069006e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.316373152047853e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1921646595001, "timer/env.step_count": 1434.0, "timer/env.step_total": 17.92045569419861, "timer/env.step_frac": 0.05969661371583532, "timer/env.step_avg": 0.012496831028032502, "timer/env.step_min": 0.0029685497283935547, "timer/env.step_max": 1.6167633533477783, "timer/replay.add_count": 1434.0, "timer/replay.add_total": 0.28969597816467285, "timer/replay.add_frac": 0.0009650351084055348, "timer/replay.add_avg": 0.00020201951057508566, "timer/replay.add_min": 6.461143493652344e-05, "timer/replay.add_max": 0.006752967834472656, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03001999855041504, "timer/logger.write_frac": 0.00010000260527940798, "timer/logger.write_avg": 0.03001999855041504, "timer/logger.write_min": 0.03001999855041504, "timer/logger.write_max": 0.03001999855041504, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00017261505126953125, "timer/checkpoint.save_frac": 5.75015178911561e-07, "timer/checkpoint.save_avg": 0.00017261505126953125, "timer/checkpoint.save_min": 0.00017261505126953125, "timer/checkpoint.save_max": 0.00017261505126953125, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2528533935546875, "timer/agent.save_frac": 0.004173504644852291, "timer/agent.save_avg": 1.2528533935546875, "timer/agent.save_min": 1.2528533935546875, "timer/agent.save_max": 1.2528533935546875, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.581710815429688e-05, "timer/replay.save_frac": 2.525619155992768e-07, "timer/replay.save_avg": 7.581710815429688e-05, "timer/replay.save_min": 7.581710815429688e-05, "timer/replay.save_max": 7.581710815429688e-05, "timer/agent.policy_count": 1434.0, "timer/agent.policy_total": 14.631531000137329, "timer/agent.policy_frac": 0.048740549296926124, "timer/agent.policy_avg": 0.010203299163275682, "timer/agent.policy_min": 0.005693674087524414, "timer/agent.policy_max": 2.5651490688323975, "timer/dataset_count": 717.0, "timer/dataset_total": 0.06065964698791504, "timer/dataset_frac": 0.00020206938797593082, "timer/dataset_avg": 8.460201811424692e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.00013709068298339844, "timer/agent.train_count": 717.0, "timer/agent.train_total": 266.5889208316803, "timer/agent.train_frac": 0.8880608897106456, "timer/agent.train_avg": 0.371811605065105, "timer/agent.train_min": 0.36553359031677246, "timer/agent.train_max": 0.3856089115142822, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21936416625976562, "timer/agent.report_frac": 0.0007307458091339075, "timer/agent.report_avg": 0.21936416625976562, "timer/agent.report_min": 0.21936416625976562, "timer/agent.report_max": 0.21936416625976562, "fps": 4.776833032078199}
{"step": 834800, "episode/length": 195.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.0663265306122449}
{"step": 835005, "episode/length": 204.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.06829268292682927}
{"step": 835235, "episode/length": 229.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.06521739130434782}
{"step": 835410, "episode/length": 174.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.08571428571428572}
{"step": 835621, "episode/length": 210.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.30000003427267, "episode/reward_rate": 0.07109004739336493}
{"step": 835844, "episode/length": 222.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.07174887892376682}
{"step": 836082, "episode/length": 237.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.058823529411764705}
{"step": 836159, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.375648812071918, "train/action_min": 0.0, "train/action_std": 3.2424994723437583, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03955959582267559, "train/actor_opt_grad_steps": 417170.0, "train/actor_opt_loss": -11.43278631935381, "train/adv_mag": 0.40680456386037067, "train/adv_max": 0.35513104804574624, "train/adv_mean": 0.0021776740974043967, "train/adv_min": -0.3661870284848017, "train/adv_std": 0.04486631556120638, "train/cont_avg": 0.9948630136986302, "train/cont_loss_mean": 0.00010866791871005997, "train/cont_loss_std": 0.0033814082671371317, "train/cont_neg_acc": 0.9911937387022254, "train/cont_neg_loss": 0.023136565737226573, "train/cont_pos_acc": 0.9999999853029643, "train/cont_pos_loss": 1.7502164574620583e-05, "train/cont_pred": 0.9948738952205606, "train/cont_rate": 0.9948630136986302, "train/dyn_loss_mean": 5.584694601085088, "train/dyn_loss_std": 8.947456105114663, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9670886381031716, "train/extr_critic_critic_opt_grad_steps": 417170.0, "train/extr_critic_critic_opt_loss": 15719.934423159246, "train/extr_critic_mag": 11.730346013421881, "train/extr_critic_max": 11.730346013421881, "train/extr_critic_mean": 3.6276640434787697, "train/extr_critic_min": -0.342418517151924, "train/extr_critic_std": 2.7727874599090994, "train/extr_return_normed_mag": 1.3892765045166016, "train/extr_return_normed_max": 1.3892765045166016, "train/extr_return_normed_mean": 0.39863532618300557, "train/extr_return_normed_min": -0.08706942052669721, "train/extr_return_normed_std": 0.31199616683672554, "train/extr_return_rate": 0.8692227210084053, "train/extr_return_raw_mag": 12.540017689744086, "train/extr_return_raw_max": 12.540017689744086, "train/extr_return_raw_mean": 3.647207341782034, "train/extr_return_raw_min": -0.7135498776827773, "train/extr_return_raw_std": 2.801039248296659, "train/extr_reward_mag": 1.0731240461950433, "train/extr_reward_max": 1.0731240461950433, "train/extr_reward_mean": 0.060710565582530136, "train/extr_reward_min": -0.6186443991857032, "train/extr_reward_std": 0.23691819036660128, "train/image_loss_mean": 3.233564765485999, "train/image_loss_std": 8.534689263121722, "train/model_loss_mean": 6.64278771126107, "train/model_loss_std": 12.770678219729907, "train/model_opt_grad_norm": 24.266851921604104, "train/model_opt_grad_steps": 416832.05479452055, "train/model_opt_loss": 17450.721880351026, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2636.986301369863, "train/policy_entropy_mag": 2.683828745802788, "train/policy_entropy_max": 2.683828745802788, "train/policy_entropy_mean": 0.382994972679713, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5836650733261892, "train/policy_logprob_mag": 7.438384284711864, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3831757129463431, "train/policy_logprob_min": -7.438384284711864, "train/policy_logprob_std": 1.0144568477591422, "train/policy_randomness_mag": 0.9472737687907807, "train/policy_randomness_max": 0.9472737687907807, "train/policy_randomness_mean": 0.1351804181116901, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2060081564808545, "train/post_ent_mag": 55.255956832676716, "train/post_ent_max": 55.255956832676716, "train/post_ent_mean": 40.443333299192666, "train/post_ent_min": 19.430120128474822, "train/post_ent_std": 5.785056342817333, "train/prior_ent_mag": 76.70497497140545, "train/prior_ent_max": 76.70497497140545, "train/prior_ent_mean": 45.997970319774055, "train/prior_ent_min": 28.46054902795243, "train/prior_ent_std": 7.7507431539770675, "train/rep_loss_mean": 5.584694601085088, "train/rep_loss_std": 8.947456105114663, "train/reward_avg": 0.04214469129092073, "train/reward_loss_mean": 0.05829756819222071, "train/reward_loss_std": 0.2209964049597309, "train/reward_max_data": 1.0315068568268868, "train/reward_max_pred": 1.0292973991942733, "train/reward_neg_acc": 0.9934770432237077, "train/reward_neg_loss": 0.025383725124475075, "train/reward_pos_acc": 0.9881405593597725, "train/reward_pos_loss": 0.727830418985184, "train/reward_pred": 0.04182966142790775, "train/reward_rate": 0.04686162243150685, "stats/sum_log_reward": 13.671428680419922, "stats/max_log_achievement_collect_coal": 0.8571428571428571, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 15.857142857142858, "stats/max_log_achievement_collect_wood": 11.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5714285714285714, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_stone_pickaxe": 1.4285714285714286, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 4.714285714285714, "stats/max_log_achievement_place_table": 2.857142857142857, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.34707011921065195, "replay/size": 836096.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.4516358243826345e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3321308799870107e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3270525932312, "timer/env.step_count": 1448.0, "timer/env.step_total": 19.00747275352478, "timer/env.step_frac": 0.06328924613817215, "timer/env.step_avg": 0.013126707702710483, "timer/env.step_min": 0.0026390552520751953, "timer/env.step_max": 1.6736392974853516, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.2794363498687744, "timer/replay.add_frac": 0.000930440156675624, "timer/replay.add_avg": 0.00019298090460550719, "timer/replay.add_min": 6.937980651855469e-05, "timer/replay.add_max": 0.0051004886627197266, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02880072593688965, "timer/logger.write_frac": 9.589787429472067e-05, "timer/logger.write_avg": 0.02880072593688965, "timer/logger.write_min": 0.02880072593688965, "timer/logger.write_max": 0.02880072593688965, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 10.963047981262207, "timer/agent.policy_frac": 0.03650369784073622, "timer/agent.policy_avg": 0.007571165732915889, "timer/agent.policy_min": 0.005604982376098633, "timer/agent.policy_max": 0.025578022003173828, "timer/dataset_count": 724.0, "timer/dataset_total": 0.06127572059631348, "timer/dataset_frac": 0.00020402997354789247, "timer/dataset_avg": 8.463497319932801e-05, "timer/dataset_min": 5.984306335449219e-05, "timer/dataset_max": 0.0001633167266845703, "timer/agent.train_count": 724.0, "timer/agent.train_total": 269.30260968208313, "timer/agent.train_frac": 0.8966978077956628, "timer/agent.train_avg": 0.3719649305001148, "timer/agent.train_min": 0.3653395175933838, "timer/agent.train_max": 0.38474416732788086, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2218170166015625, "timer/agent.report_frac": 0.0007385848683501575, "timer/agent.report_avg": 0.2218170166015625, "timer/agent.report_min": 0.2218170166015625, "timer/agent.report_max": 0.2218170166015625, "fps": 4.821303403282806}
{"step": 836281, "episode/length": 198.0, "episode/score": 13.100000016391277, "episode/sum_abs_reward": 14.30000003427267, "episode/reward_rate": 0.07035175879396985}
{"step": 836590, "episode/length": 308.0, "episode/score": 13.100000016391277, "episode/sum_abs_reward": 15.300000049173832, "episode/reward_rate": 0.045307443365695796}
{"step": 836729, "episode/length": 138.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.07913669064748201}
{"step": 836869, "episode/length": 139.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.100000031292439, "episode/reward_rate": 0.07857142857142857}
{"step": 837078, "episode/length": 208.0, "episode/score": 12.099999971687794, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.06698564593301436}
{"step": 837409, "episode/length": 330.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.03323262839879154}
{"step": 837615, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.33878919813368, "train/action_min": 0.0, "train/action_std": 3.1633335087034435, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03837598329927358, "train/actor_opt_grad_steps": 417895.0, "train/actor_opt_loss": -12.326403472158644, "train/adv_mag": 0.397026711040073, "train/adv_max": 0.3374379277229309, "train/adv_mean": 0.0019009421775990631, "train/adv_min": -0.34757272754278445, "train/adv_std": 0.04336037103914552, "train/cont_avg": 0.9949679904513888, "train/cont_loss_mean": 2.0573596525173974e-05, "train/cont_loss_std": 0.0006104740433067314, "train/cont_neg_acc": 0.9953703706463178, "train/cont_neg_loss": 0.0040306205054763365, "train/cont_pos_acc": 0.9999999834431542, "train/cont_pos_loss": 5.696550531237361e-06, "train/cont_pred": 0.9949737812081972, "train/cont_rate": 0.9949679904513888, "train/dyn_loss_mean": 5.420422600375281, "train/dyn_loss_std": 8.840340640809801, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9640273509754075, "train/extr_critic_critic_opt_grad_steps": 417895.0, "train/extr_critic_critic_opt_loss": 15530.735649956598, "train/extr_critic_mag": 11.677285485797459, "train/extr_critic_max": 11.677285485797459, "train/extr_critic_mean": 3.578720645772086, "train/extr_critic_min": -0.38229282862610287, "train/extr_critic_std": 2.853861101799541, "train/extr_return_normed_mag": 1.3776315599679947, "train/extr_return_normed_max": 1.3776315599679947, "train/extr_return_normed_mean": 0.3904046408004231, "train/extr_return_normed_min": -0.08898266844658388, "train/extr_return_normed_std": 0.3185512257946862, "train/extr_return_rate": 0.8510706474383672, "train/extr_return_raw_mag": 12.527267813682556, "train/extr_return_raw_max": 12.527267813682556, "train/extr_return_raw_mean": 3.595910095506244, "train/extr_return_raw_min": -0.741116274976068, "train/extr_return_raw_std": 2.8820470372835794, "train/extr_reward_mag": 1.0737354689174228, "train/extr_reward_max": 1.0737354689174228, "train/extr_reward_mean": 0.05891994992271066, "train/extr_reward_min": -0.6386351651615567, "train/extr_reward_std": 0.23388688266277313, "train/image_loss_mean": 3.1788483874665365, "train/image_loss_std": 8.391910950342814, "train/model_loss_mean": 6.487471785810259, "train/model_loss_std": 12.542915728357103, "train/model_opt_grad_norm": 22.597356120745342, "train/model_opt_grad_steps": 417556.5416666667, "train/model_opt_loss": 17946.496975368922, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2777.777777777778, "train/policy_entropy_mag": 2.694703761074278, "train/policy_entropy_max": 2.694703761074278, "train/policy_entropy_mean": 0.38623360109825927, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5849584047165182, "train/policy_logprob_mag": 7.438384215037028, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3868874820570151, "train/policy_logprob_min": -7.438384215037028, "train/policy_logprob_std": 1.0184330228302214, "train/policy_randomness_mag": 0.9511121685306231, "train/policy_randomness_max": 0.9511121685306231, "train/policy_randomness_mean": 0.1363235122213761, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20646464452147484, "train/post_ent_mag": 55.27517048517863, "train/post_ent_max": 55.27517048517863, "train/post_ent_mean": 40.722695668538414, "train/post_ent_min": 19.762689219580757, "train/post_ent_std": 5.779445177978939, "train/prior_ent_mag": 76.72828589545355, "train/prior_ent_max": 76.72828589545355, "train/prior_ent_mean": 46.15586000018649, "train/prior_ent_min": 28.25507680575053, "train/prior_ent_std": 7.733643756972419, "train/rep_loss_mean": 5.420422600375281, "train/rep_loss_std": 8.840340640809801, "train/reward_avg": 0.04041341138589713, "train/reward_loss_mean": 0.05634926202603512, "train/reward_loss_std": 0.2153254465924369, "train/reward_max_data": 1.0305555628405676, "train/reward_max_pred": 1.0277343028121524, "train/reward_neg_acc": 0.9932307609253459, "train/reward_neg_loss": 0.024650014225497015, "train/reward_pos_acc": 0.9876698752244314, "train/reward_pos_loss": 0.731122977203793, "train/reward_pred": 0.03999431007024315, "train/reward_rate": 0.04493543836805555, "stats/sum_log_reward": 11.43333355585734, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 5.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 9.5, "stats/max_log_achievement_collect_wood": 14.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 0.3333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.6666666666666666, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 2.5, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.4506895492474238, "replay/size": 837552.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.5376339168338984e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4462109122957502e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.09202575683594, "timer/env.step_count": 1456.0, "timer/env.step_total": 17.189414978027344, "timer/env.step_frac": 0.05728047899531958, "timer/env.step_avg": 0.011805916880513285, "timer/env.step_min": 0.002815723419189453, "timer/env.step_max": 1.6833653450012207, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.2940247058868408, "timer/replay.add_frac": 0.0009797818024164645, "timer/replay.add_avg": 0.00020194004525195112, "timer/replay.add_min": 6.389617919921875e-05, "timer/replay.add_max": 0.005839824676513672, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023076295852661133, "timer/logger.write_frac": 7.689739770479545e-05, "timer/logger.write_avg": 0.023076295852661133, "timer/logger.write_min": 0.023076295852661133, "timer/logger.write_max": 0.023076295852661133, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 11.05159592628479, "timer/agent.policy_frac": 0.03682735620319308, "timer/agent.policy_avg": 0.00759038181750329, "timer/agent.policy_min": 0.00584721565246582, "timer/agent.policy_max": 0.015263795852661133, "timer/dataset_count": 728.0, "timer/dataset_total": 0.06577825546264648, "timer/dataset_frac": 0.00021919361334828168, "timer/dataset_avg": 9.03547465146243e-05, "timer/dataset_min": 6.341934204101562e-05, "timer/dataset_max": 0.00019621849060058594, "timer/agent.train_count": 728.0, "timer/agent.train_total": 270.78324007987976, "timer/agent.train_frac": 0.9023340070332124, "timer/agent.train_avg": 0.37195500010972493, "timer/agent.train_min": 0.36443042755126953, "timer/agent.train_max": 0.38714051246643066, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2233572006225586, "timer/agent.report_frac": 0.000744295687495357, "timer/agent.report_avg": 0.2233572006225586, "timer/agent.report_min": 0.2233572006225586, "timer/agent.report_max": 0.2233572006225586, "fps": 4.851748173643613}
{"step": 837629, "episode/length": 219.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.06818181818181818}
{"step": 837838, "episode/length": 208.0, "episode/score": 12.100000068545341, "episode/sum_abs_reward": 14.900000020861626, "episode/reward_rate": 0.07177033492822966}
{"step": 838070, "episode/length": 231.0, "episode/score": 16.100000001490116, "episode/sum_abs_reward": 19.1000000461936, "episode/reward_rate": 0.07327586206896551}
{"step": 838211, "episode/length": 140.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.07801418439716312}
{"step": 838464, "episode/length": 252.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.05533596837944664}
{"step": 838509, "episode/length": 44.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.1111111111111111}
{"step": 838692, "episode/length": 182.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.06557377049180328}
{"step": 838994, "episode/length": 301.0, "episode/score": 8.099999994039536, "episode/sum_abs_reward": 11.100000023841858, "episode/reward_rate": 0.033112582781456956}
{"step": 839033, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.313795492682658, "train/action_min": 0.0, "train/action_std": 3.1707230285859445, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03907077738516767, "train/actor_opt_grad_steps": 418610.0, "train/actor_opt_loss": -12.79638516231322, "train/adv_mag": 0.3818095945556399, "train/adv_max": 0.3263654757133672, "train/adv_mean": 0.002041035573378215, "train/adv_min": -0.3394712574884925, "train/adv_std": 0.04374238486650964, "train/cont_avg": 0.9948833626760564, "train/cont_loss_mean": 3.072808733701498e-05, "train/cont_loss_std": 0.0009020707604935857, "train/cont_neg_acc": 0.9952380955219269, "train/cont_neg_loss": 0.00662597667817246, "train/cont_pos_acc": 0.999999978172947, "train/cont_pos_loss": 1.1562067405900283e-05, "train/cont_pred": 0.9948830654923345, "train/cont_rate": 0.9948833626760564, "train/dyn_loss_mean": 5.430142684721611, "train/dyn_loss_std": 8.795760416648758, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9324137677609081, "train/extr_critic_critic_opt_grad_steps": 418610.0, "train/extr_critic_critic_opt_loss": 15591.191199933979, "train/extr_critic_mag": 11.708529646967499, "train/extr_critic_max": 11.708529646967499, "train/extr_critic_mean": 3.6235347163509317, "train/extr_critic_min": -0.38550406778362434, "train/extr_critic_std": 2.8378495901403293, "train/extr_return_normed_mag": 1.3873481800858403, "train/extr_return_normed_max": 1.3873481800858403, "train/extr_return_normed_mean": 0.3970934966920127, "train/extr_return_normed_min": -0.08597708346558289, "train/extr_return_normed_std": 0.31673648911462704, "train/extr_return_rate": 0.8602791705601652, "train/extr_return_raw_mag": 12.611613287052638, "train/extr_return_raw_max": 12.611613287052638, "train/extr_return_raw_mean": 3.642044141258992, "train/extr_return_raw_min": -0.734089259530457, "train/extr_return_raw_std": 2.869373079756616, "train/extr_reward_mag": 1.0723455321620887, "train/extr_reward_max": 1.0723455321620887, "train/extr_reward_mean": 0.06064987597121319, "train/extr_reward_min": -0.632959459868955, "train/extr_reward_std": 0.23712498516264097, "train/image_loss_mean": 3.090722983991596, "train/image_loss_std": 8.112503374126595, "train/model_loss_mean": 6.403567394740145, "train/model_loss_std": 12.300576612982951, "train/model_opt_grad_norm": 24.18068007348289, "train/model_opt_grad_steps": 418270.5070422535, "train/model_opt_loss": 12048.135377695862, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1883.8028169014085, "train/policy_entropy_mag": 2.66772628502107, "train/policy_entropy_max": 2.66772628502107, "train/policy_entropy_mean": 0.36283267677669795, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5508202792892993, "train/policy_logprob_mag": 7.438384297867896, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36266318950015053, "train/policy_logprob_min": -7.438384297867896, "train/policy_logprob_std": 0.9921222295559627, "train/policy_randomness_mag": 0.9415903083035644, "train/policy_randomness_max": 0.9415903083035644, "train/policy_randomness_mean": 0.12806401265339112, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1944153874482907, "train/post_ent_mag": 55.36096073204363, "train/post_ent_max": 55.36096073204363, "train/post_ent_mean": 40.659071049220124, "train/post_ent_min": 19.315045477638783, "train/post_ent_std": 5.773497756098358, "train/prior_ent_mag": 76.81787582182548, "train/prior_ent_max": 76.81787582182548, "train/prior_ent_mean": 46.10482304532763, "train/prior_ent_min": 28.086955137655767, "train/prior_ent_std": 7.743179919014515, "train/rep_loss_mean": 5.430142684721611, "train/rep_loss_std": 8.795760416648758, "train/reward_avg": 0.040807933218672245, "train/reward_loss_mean": 0.05472805240834263, "train/reward_loss_std": 0.2072320970850931, "train/reward_max_data": 1.033802824960628, "train/reward_max_pred": 1.0329773207785378, "train/reward_neg_acc": 0.994166222256674, "train/reward_neg_loss": 0.023111337966377467, "train/reward_pos_acc": 0.9895489828687318, "train/reward_pos_loss": 0.7191837295679979, "train/reward_pred": 0.040649843074276416, "train/reward_rate": 0.04548580545774648, "stats/sum_log_reward": 11.100000023841858, "stats/max_log_achievement_collect_coal": 0.375, "stats/max_log_achievement_collect_drink": 3.125, "stats/max_log_achievement_collect_iron": 0.125, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 10.125, "stats/max_log_achievement_collect_wood": 13.375, "stats/max_log_achievement_defeat_skeleton": 0.25, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.5, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 0.75, "stats/max_log_achievement_place_plant": 1.375, "stats/max_log_achievement_place_stone": 2.75, "stats/max_log_achievement_place_table": 3.375, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.43869233690202236, "replay/size": 838970.0, "replay/inserts": 1418.0, "replay/samples": 11344.0, "replay/insert_wait_avg": 3.463626748584053e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.323660270787765e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.074116230011, "timer/env.step_count": 1418.0, "timer/env.step_total": 22.051843881607056, "timer/env.step_frac": 0.07348799076260217, "timer/env.step_avg": 0.01555137086150004, "timer/env.step_min": 0.0025937557220458984, "timer/env.step_max": 1.9179039001464844, "timer/replay.add_count": 1418.0, "timer/replay.add_total": 0.26874876022338867, "timer/replay.add_frac": 0.0008956079371317351, "timer/replay.add_avg": 0.00018952662921254492, "timer/replay.add_min": 6.532669067382812e-05, "timer/replay.add_max": 0.005712270736694336, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.020800352096557617, "timer/logger.write_frac": 6.931738184513674e-05, "timer/logger.write_avg": 0.020800352096557617, "timer/logger.write_min": 0.020800352096557617, "timer/logger.write_max": 0.020800352096557617, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00019621849060058594, "timer/checkpoint.save_frac": 6.539000866378683e-07, "timer/checkpoint.save_avg": 0.00019621849060058594, "timer/checkpoint.save_min": 0.00019621849060058594, "timer/checkpoint.save_max": 0.00019621849060058594, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.510211706161499, "timer/agent.save_frac": 0.00503279564773891, "timer/agent.save_avg": 1.510211706161499, "timer/agent.save_min": 1.510211706161499, "timer/agent.save_max": 1.510211706161499, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.009506225585938e-05, "timer/replay.save_frac": 2.3359249753527736e-07, "timer/replay.save_avg": 7.009506225585938e-05, "timer/replay.save_min": 7.009506225585938e-05, "timer/replay.save_max": 7.009506225585938e-05, "timer/agent.policy_count": 1418.0, "timer/agent.policy_total": 12.816746950149536, "timer/agent.policy_frac": 0.042711937674508794, "timer/agent.policy_avg": 0.009038608568511661, "timer/agent.policy_min": 0.00560307502746582, "timer/agent.policy_max": 1.4983913898468018, "timer/dataset_count": 709.0, "timer/dataset_total": 0.06076455116271973, "timer/dataset_frac": 0.0002024984757970356, "timer/dataset_avg": 8.570458556095871e-05, "timer/dataset_min": 6.175041198730469e-05, "timer/dataset_max": 0.00016045570373535156, "timer/agent.train_count": 709.0, "timer/agent.train_total": 264.17911028862, "timer/agent.train_frac": 0.8803795329222033, "timer/agent.train_avg": 0.37260805400369534, "timer/agent.train_min": 0.36484766006469727, "timer/agent.train_max": 0.8613801002502441, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22323203086853027, "timer/agent.report_frac": 0.0007439229803393632, "timer/agent.report_avg": 0.22323203086853027, "timer/agent.report_min": 0.22323203086853027, "timer/agent.report_max": 0.22323203086853027, "fps": 4.7254313800175005}
{"step": 839201, "episode/length": 206.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.299999997019768, "episode/reward_rate": 0.057971014492753624}
{"step": 839427, "episode/length": 225.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.048672566371681415}
{"step": 839542, "episode/length": 114.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 9.899999976158142, "episode/reward_rate": 0.08695652173913043}
{"step": 839725, "episode/length": 182.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.08196721311475409}
{"step": 840058, "episode/length": 332.0, "episode/score": 16.099999986588955, "episode/sum_abs_reward": 19.10000003129244, "episode/reward_rate": 0.05105105105105105}
{"step": 840266, "episode/length": 207.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.900000028312206, "episode/reward_rate": 0.028846153846153848}
{"step": 840350, "episode/length": 83.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.07142857142857142}
{"step": 840483, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.329130825931078, "train/action_min": 0.0, "train/action_std": 3.159899803057109, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03909305924524183, "train/actor_opt_grad_steps": 419330.0, "train/actor_opt_loss": -12.533353926384287, "train/adv_mag": 0.4258320686751849, "train/adv_max": 0.3474461126000914, "train/adv_mean": 0.0021729380936299655, "train/adv_min": -0.3818058285811176, "train/adv_std": 0.043817486460894756, "train/cont_avg": 0.9948763912671232, "train/cont_loss_mean": 8.657815905037638e-05, "train/cont_loss_std": 0.0026865250400931796, "train/cont_neg_acc": 0.9954337910430072, "train/cont_neg_loss": 0.011246324756441077, "train/cont_pos_acc": 0.9999999828534584, "train/cont_pos_loss": 1.985483958392625e-05, "train/cont_pred": 0.9948867118521912, "train/cont_rate": 0.9948763912671232, "train/dyn_loss_mean": 5.428295710315443, "train/dyn_loss_std": 8.847105071969228, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9053207578724378, "train/extr_critic_critic_opt_grad_steps": 419330.0, "train/extr_critic_critic_opt_loss": 15563.717345355308, "train/extr_critic_mag": 11.986099060267618, "train/extr_critic_max": 11.986099060267618, "train/extr_critic_mean": 3.7024737220920927, "train/extr_critic_min": -0.3548808702050823, "train/extr_critic_std": 2.880669218220123, "train/extr_return_normed_mag": 1.3875823216895535, "train/extr_return_normed_max": 1.3875823216895535, "train/extr_return_normed_mean": 0.4002103193165505, "train/extr_return_normed_min": -0.08327614475194722, "train/extr_return_normed_std": 0.3169589001838475, "train/extr_return_rate": 0.8584065102551082, "train/extr_return_raw_mag": 12.7899017595265, "train/extr_return_raw_max": 12.7899017595265, "train/extr_return_raw_mean": 3.722430301039186, "train/extr_return_raw_min": -0.7176733225175779, "train/extr_return_raw_std": 2.9106979435437346, "train/extr_reward_mag": 1.0804081485696035, "train/extr_reward_max": 1.0804081485696035, "train/extr_reward_mean": 0.06039739323601331, "train/extr_reward_min": -0.6443948876367857, "train/extr_reward_std": 0.23714331568103947, "train/image_loss_mean": 3.0690470133742243, "train/image_loss_std": 8.23869454370786, "train/model_loss_mean": 6.382701037681266, "train/model_loss_std": 12.430116601186256, "train/model_opt_grad_norm": 21.68300662628592, "train/model_opt_grad_steps": 418990.0, "train/model_opt_loss": 8908.581188463186, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1386.986301369863, "train/policy_entropy_mag": 2.667600788482248, "train/policy_entropy_max": 2.667600788482248, "train/policy_entropy_mean": 0.3632204908214203, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5572479501978992, "train/policy_logprob_mag": 7.438384317371943, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36405694831724034, "train/policy_logprob_min": -7.438384317371943, "train/policy_logprob_std": 0.9973176325837226, "train/policy_randomness_mag": 0.9415460139104764, "train/policy_randomness_max": 0.9415460139104764, "train/policy_randomness_mean": 0.12820089312448893, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1966840701356326, "train/post_ent_mag": 55.734138593281784, "train/post_ent_max": 55.734138593281784, "train/post_ent_mean": 40.58394351070874, "train/post_ent_min": 19.50503401560326, "train/post_ent_std": 5.759137930935377, "train/prior_ent_mag": 76.72339222529163, "train/prior_ent_max": 76.72339222529163, "train/prior_ent_mean": 45.993151259748906, "train/prior_ent_min": 28.17628951921855, "train/prior_ent_std": 7.732283677140328, "train/rep_loss_mean": 5.428295710315443, "train/rep_loss_std": 8.847105071969228, "train/reward_avg": 0.041589522453611846, "train/reward_loss_mean": 0.056590008970401055, "train/reward_loss_std": 0.2123083225260042, "train/reward_max_data": 1.035616446847785, "train/reward_max_pred": 1.036511241573177, "train/reward_neg_acc": 0.9935402429267152, "train/reward_neg_loss": 0.024458878239846393, "train/reward_pos_acc": 0.9900055772637668, "train/reward_pos_loss": 0.7190086343517043, "train/reward_pred": 0.04135860916074008, "train/reward_rate": 0.04617936643835616, "stats/sum_log_reward": 9.814286027635847, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 2.7142857142857144, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 8.571428571428571, "stats/max_log_achievement_collect_wood": 8.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.5714285714285714, "stats/max_log_achievement_eat_cow": 0.8571428571428571, "stats/max_log_achievement_make_stone_pickaxe": 0.7142857142857143, "stats/max_log_achievement_make_stone_sword": 0.42857142857142855, "stats/max_log_achievement_make_wood_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_wood_sword": 0.42857142857142855, "stats/max_log_achievement_place_furnace": 1.1428571428571428, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 2.142857142857143, "stats/max_log_achievement_place_table": 2.4285714285714284, "stats/max_log_achievement_wake_up": 0.8571428571428571, "stats/mean_log_entropy": 0.3492752356188638, "replay/size": 840420.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.505081966005523e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3201195618201947e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.29183554649353, "timer/env.step_count": 1450.0, "timer/env.step_total": 18.789177417755127, "timer/env.step_frac": 0.06256972449337884, "timer/env.step_avg": 0.01295805339155526, "timer/env.step_min": 0.0027298927307128906, "timer/env.step_max": 1.673816204071045, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.2888665199279785, "timer/replay.add_frac": 0.0009619526265250523, "timer/replay.add_avg": 0.00019921828960550242, "timer/replay.add_min": 7.843971252441406e-05, "timer/replay.add_max": 0.0044176578521728516, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030490398406982422, "timer/logger.write_frac": 0.00010153588875133324, "timer/logger.write_avg": 0.030490398406982422, "timer/logger.write_min": 0.030490398406982422, "timer/logger.write_max": 0.030490398406982422, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 10.907918214797974, "timer/agent.policy_frac": 0.03632439155379276, "timer/agent.policy_avg": 0.007522702217102051, "timer/agent.policy_min": 0.0058231353759765625, "timer/agent.policy_max": 0.01811504364013672, "timer/dataset_count": 725.0, "timer/dataset_total": 0.061942100524902344, "timer/dataset_frac": 0.00020627300909522057, "timer/dataset_avg": 8.543738003434805e-05, "timer/dataset_min": 6.389617919921875e-05, "timer/dataset_max": 0.00016927719116210938, "timer/agent.train_count": 725.0, "timer/agent.train_total": 269.53691244125366, "timer/agent.train_frac": 0.8975832191732094, "timer/agent.train_avg": 0.3717750516431085, "timer/agent.train_min": 0.36577463150024414, "timer/agent.train_max": 0.39078569412231445, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2198195457458496, "timer/agent.report_frac": 0.0007320197212348633, "timer/agent.report_avg": 0.2198195457458496, "timer/agent.report_min": 0.2198195457458496, "timer/agent.report_max": 0.2198195457458496, "fps": 4.828575972734764}
{"step": 840532, "episode/length": 181.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06593406593406594}
{"step": 840734, "episode/length": 201.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.07425742574257425}
{"step": 840964, "episode/length": 229.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.06521739130434782}
{"step": 841129, "episode/length": 164.0, "episode/score": 9.099999964237213, "episode/sum_abs_reward": 11.299999997019768, "episode/reward_rate": 0.06060606060606061}
{"step": 841288, "episode/length": 158.0, "episode/score": 10.099999979138374, "episode/sum_abs_reward": 12.30000002682209, "episode/reward_rate": 0.06918238993710692}
{"step": 841544, "episode/length": 255.0, "episode/score": 16.10000003129244, "episode/sum_abs_reward": 17.700000055134296, "episode/reward_rate": 0.06640625}
{"step": 841710, "episode/length": 165.0, "episode/score": 12.099999979138374, "episode/sum_abs_reward": 14.100000008940697, "episode/reward_rate": 0.0783132530120482}
{"step": 841846, "episode/length": 135.0, "episode/score": 11.099999964237213, "episode/sum_abs_reward": 13.099999994039536, "episode/reward_rate": 0.08823529411764706}
{"step": 841925, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.409242418077257, "train/action_min": 0.0, "train/action_std": 3.2587056358655295, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0383890433392177, "train/actor_opt_grad_steps": 420055.0, "train/actor_opt_loss": -12.949300450997221, "train/adv_mag": 0.4077603680392106, "train/adv_max": 0.3514091405603621, "train/adv_mean": 0.0015397199576372917, "train/adv_min": -0.3591034656597508, "train/adv_std": 0.043516676924708814, "train/cont_avg": 0.9948052300347222, "train/cont_loss_mean": 4.902204982097184e-06, "train/cont_loss_std": 0.0001198699538199498, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 3.5412770151152825e-05, "train/cont_pos_acc": 0.9999999817874696, "train/cont_pos_loss": 4.748735671553403e-06, "train/cont_pred": 0.9948008490933312, "train/cont_rate": 0.9948052300347222, "train/dyn_loss_mean": 5.371945877869924, "train/dyn_loss_std": 8.911050425635445, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9128128505415387, "train/extr_critic_critic_opt_grad_steps": 420055.0, "train/extr_critic_critic_opt_loss": 15442.229600694445, "train/extr_critic_mag": 11.982110129462349, "train/extr_critic_max": 11.982110129462349, "train/extr_critic_mean": 3.7369017634126873, "train/extr_critic_min": -0.38973527318901485, "train/extr_critic_std": 2.88287623723348, "train/extr_return_normed_mag": 1.3717710259887907, "train/extr_return_normed_max": 1.3717710259887907, "train/extr_return_normed_mean": 0.40339607041743064, "train/extr_return_normed_min": -0.08727291505783796, "train/extr_return_normed_std": 0.3156103901565075, "train/extr_return_rate": 0.8602693205078443, "train/extr_return_raw_mag": 12.67933988571167, "train/extr_return_raw_max": 12.67933988571167, "train/extr_return_raw_mean": 3.7511128385861716, "train/extr_return_raw_min": -0.7727252025571134, "train/extr_return_raw_std": 2.9099083840847015, "train/extr_reward_mag": 1.0672059655189514, "train/extr_reward_max": 1.0672059655189514, "train/extr_reward_mean": 0.06050797515652246, "train/extr_reward_min": -0.6516101972924339, "train/extr_reward_std": 0.23698193041814697, "train/image_loss_mean": 3.037692520353529, "train/image_loss_std": 8.38106585211224, "train/model_loss_mean": 6.316754241784413, "train/model_loss_std": 12.600893338521322, "train/model_opt_grad_norm": 23.470703932974075, "train/model_opt_grad_steps": 419715.0, "train/model_opt_loss": 15791.885552300348, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6991409725613065, "train/policy_entropy_max": 2.6991409725613065, "train/policy_entropy_mean": 0.3914240828404824, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5973737893833054, "train/policy_logprob_mag": 7.438384301132626, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3920325142227941, "train/policy_logprob_min": -7.438384301132626, "train/policy_logprob_std": 1.0236976212925382, "train/policy_randomness_mag": 0.9526783161693149, "train/policy_randomness_max": 0.9526783161693149, "train/policy_randomness_mean": 0.13815552472240394, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2108467300939891, "train/post_ent_mag": 55.715881983439125, "train/post_ent_max": 55.715881983439125, "train/post_ent_mean": 40.42771132787069, "train/post_ent_min": 19.08139619562361, "train/post_ent_std": 5.782773786120945, "train/prior_ent_mag": 76.73844157324896, "train/prior_ent_max": 76.73844157324896, "train/prior_ent_mean": 45.812902980380585, "train/prior_ent_min": 27.916361464394463, "train/prior_ent_std": 7.768325322204166, "train/rep_loss_mean": 5.371945877869924, "train/rep_loss_std": 8.911050425635445, "train/reward_avg": 0.04017469651686648, "train/reward_loss_mean": 0.05588935186258621, "train/reward_loss_std": 0.2116526398393843, "train/reward_max_data": 1.0194444490803614, "train/reward_max_pred": 1.017055567767885, "train/reward_neg_acc": 0.9938459338413345, "train/reward_neg_loss": 0.024412303580902517, "train/reward_pos_acc": 0.9880506346623102, "train/reward_pos_loss": 0.7256493551863564, "train/reward_pred": 0.039757069717678756, "train/reward_rate": 0.044854058159722224, "stats/sum_log_reward": 12.225000262260437, "stats/max_log_achievement_collect_coal": 0.75, "stats/max_log_achievement_collect_drink": 2.125, "stats/max_log_achievement_collect_iron": 0.125, "stats/max_log_achievement_collect_sapling": 1.375, "stats/max_log_achievement_collect_stone": 12.375, "stats/max_log_achievement_collect_wood": 12.875, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 1.375, "stats/max_log_achievement_make_stone_sword": 0.875, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 1.75, "stats/max_log_achievement_place_plant": 1.375, "stats/max_log_achievement_place_stone": 2.625, "stats/max_log_achievement_place_table": 3.25, "stats/max_log_achievement_wake_up": 1.125, "stats/mean_log_entropy": 0.3132232315838337, "replay/size": 841862.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.4297884915969575e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.282367891478307e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2366638183594, "timer/env.step_count": 1442.0, "timer/env.step_total": 20.521195888519287, "timer/env.step_frac": 0.06835006633611689, "timer/env.step_avg": 0.014231065109930158, "timer/env.step_min": 0.0027923583984375, "timer/env.step_max": 1.6543543338775635, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.2698397636413574, "timer/replay.add_frac": 0.000898756868030642, "timer/replay.add_avg": 0.00018712882360704398, "timer/replay.add_min": 6.413459777832031e-05, "timer/replay.add_max": 0.0037577152252197266, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02331066131591797, "timer/logger.write_frac": 7.764095503679297e-05, "timer/logger.write_avg": 0.02331066131591797, "timer/logger.write_min": 0.02331066131591797, "timer/logger.write_max": 0.02331066131591797, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 10.690033435821533, "timer/agent.policy_frac": 0.035605356454030256, "timer/agent.policy_avg": 0.007413338027615487, "timer/agent.policy_min": 0.005689144134521484, "timer/agent.policy_max": 0.015796899795532227, "timer/dataset_count": 721.0, "timer/dataset_total": 0.060643911361694336, "timer/dataset_frac": 0.00020198702780145262, "timer/dataset_avg": 8.411083406615026e-05, "timer/dataset_min": 6.365776062011719e-05, "timer/dataset_max": 0.00012564659118652344, "timer/agent.train_count": 721.0, "timer/agent.train_total": 267.993536233902, "timer/agent.train_frac": 0.8926076276814606, "timer/agent.train_avg": 0.37169699893745073, "timer/agent.train_min": 0.36575818061828613, "timer/agent.train_max": 0.38614702224731445, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2231142520904541, "timer/agent.report_frac": 0.0007431279353191731, "timer/agent.report_avg": 0.2231142520904541, "timer/agent.report_min": 0.2231142520904541, "timer/agent.report_max": 0.2231142520904541, "fps": 4.8028132018034}
{"step": 842006, "episode/length": 159.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.075}
{"step": 842184, "episode/length": 177.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 11.700000040233135, "episode/reward_rate": 0.056179775280898875}
{"step": 842367, "episode/length": 182.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.060109289617486336}
{"step": 842576, "episode/length": 208.0, "episode/score": 14.099999994039536, "episode/sum_abs_reward": 16.30000004172325, "episode/reward_rate": 0.07177033492822966}
{"step": 842749, "episode/length": 172.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.03468208092485549}
{"step": 842945, "episode/length": 195.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.099999994039536, "episode/reward_rate": 0.07142857142857142}
{"step": 843205, "episode/length": 259.0, "episode/score": 14.100000023841858, "episode/sum_abs_reward": 16.300000056624413, "episode/reward_rate": 0.057692307692307696}
{"step": 843347, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.40472841934419, "train/action_min": 0.0, "train/action_std": 3.251626716533177, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.039763329262045066, "train/actor_opt_grad_steps": 420770.0, "train/actor_opt_loss": -13.254205022059695, "train/adv_mag": 0.42906592996187615, "train/adv_max": 0.32979420037336754, "train/adv_mean": 0.0015881396958179785, "train/adv_min": -0.39182949485913127, "train/adv_std": 0.044039979367189, "train/cont_avg": 0.9953235035211268, "train/cont_loss_mean": 2.1388007324744217e-05, "train/cont_loss_std": 0.0006688794107758377, "train/cont_neg_acc": 0.9979879285248232, "train/cont_neg_loss": 0.0028516040322205632, "train/cont_pos_acc": 0.9999999848889632, "train/cont_pos_loss": 1.927269922144263e-06, "train/cont_pred": 0.9953321042195172, "train/cont_rate": 0.9953235035211268, "train/dyn_loss_mean": 5.356661051092013, "train/dyn_loss_std": 8.822399119256248, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9811777732741664, "train/extr_critic_critic_opt_grad_steps": 420770.0, "train/extr_critic_critic_opt_loss": 15728.906910211268, "train/extr_critic_mag": 12.01268241774868, "train/extr_critic_max": 12.01268241774868, "train/extr_critic_mean": 3.6009392100320734, "train/extr_critic_min": -0.38933579350861025, "train/extr_critic_std": 2.8450940931347053, "train/extr_return_normed_mag": 1.3894024650815506, "train/extr_return_normed_max": 1.3894024650815506, "train/extr_return_normed_mean": 0.3903152587967859, "train/extr_return_normed_min": -0.07893524463222899, "train/extr_return_normed_std": 0.31121390092540796, "train/extr_return_rate": 0.8535184213812922, "train/extr_return_raw_mag": 12.831981564911318, "train/extr_return_raw_max": 12.831981564911318, "train/extr_return_raw_mean": 3.6155879665428485, "train/extr_return_raw_min": -0.7131619373677482, "train/extr_return_raw_std": 2.8709875630660795, "train/extr_reward_mag": 1.0751531728556458, "train/extr_reward_max": 1.0751531728556458, "train/extr_reward_mean": 0.061344105068226934, "train/extr_reward_min": -0.6323335137165768, "train/extr_reward_std": 0.238285577423136, "train/image_loss_mean": 3.178222160943797, "train/image_loss_std": 8.56807755080747, "train/model_loss_mean": 6.449622060211611, "train/model_loss_std": 12.718240294657962, "train/model_opt_grad_norm": 24.772905927308848, "train/model_opt_grad_steps": 420429.2957746479, "train/model_opt_loss": 16358.451378191021, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2535.211267605634, "train/policy_entropy_mag": 2.6943241542493794, "train/policy_entropy_max": 2.6943241542493794, "train/policy_entropy_mean": 0.3936191432073083, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5944210055848242, "train/policy_logprob_mag": 7.43838429115188, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.393621155913447, "train/policy_logprob_min": -7.43838429115188, "train/policy_logprob_std": 1.0219180785434347, "train/policy_randomness_mag": 0.9509781901265534, "train/policy_randomness_max": 0.9509781901265534, "train/policy_randomness_mean": 0.13893028590041148, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20980452893065735, "train/post_ent_mag": 55.08947936581894, "train/post_ent_max": 55.08947936581894, "train/post_ent_mean": 40.63348931325993, "train/post_ent_min": 19.43232864057514, "train/post_ent_std": 5.748628293964225, "train/prior_ent_mag": 76.77281651026766, "train/prior_ent_max": 76.77281651026766, "train/prior_ent_mean": 45.969592403358135, "train/prior_ent_min": 28.109939575195312, "train/prior_ent_std": 7.674622777482154, "train/rep_loss_mean": 5.356661051092013, "train/rep_loss_std": 8.822399119256248, "train/reward_avg": 0.04128245983115384, "train/reward_loss_mean": 0.057381877492011436, "train/reward_loss_std": 0.2213025710112612, "train/reward_max_data": 1.0239436676804448, "train/reward_max_pred": 1.02361953090614, "train/reward_neg_acc": 0.9933818494769889, "train/reward_neg_loss": 0.02482279415019381, "train/reward_pos_acc": 0.9854045468316951, "train/reward_pos_loss": 0.7382975455740808, "train/reward_pred": 0.040861951082315245, "train/reward_rate": 0.04569212147887324, "stats/sum_log_reward": 10.814286027635847, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 2.2857142857142856, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 11.857142857142858, "stats/max_log_achievement_collect_wood": 10.857142857142858, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.7142857142857143, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_stone_pickaxe": 0.5714285714285714, "stats/max_log_achievement_make_stone_sword": 0.2857142857142857, "stats/max_log_achievement_make_wood_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_wood_sword": 0.5714285714285714, "stats/max_log_achievement_place_furnace": 1.4285714285714286, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 3.2857142857142856, "stats/max_log_achievement_place_table": 2.5714285714285716, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.31325577199459076, "replay/size": 843284.0, "replay/inserts": 1422.0, "replay/samples": 11376.0, "replay/insert_wait_avg": 3.6123265026323236e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3630475676009423e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 299.9942510128021, "timer/env.step_count": 1422.0, "timer/env.step_total": 19.66293215751648, "timer/env.step_frac": 0.06554436323740541, "timer/env.step_avg": 0.013827659745088944, "timer/env.step_min": 0.0027315616607666016, "timer/env.step_max": 1.7145934104919434, "timer/replay.add_count": 1422.0, "timer/replay.add_total": 0.26450037956237793, "timer/replay.add_frac": 0.0008816848278572195, "timer/replay.add_avg": 0.00018600589280054708, "timer/replay.add_min": 6.771087646484375e-05, "timer/replay.add_max": 0.0027894973754882812, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022731542587280273, "timer/logger.write_frac": 7.57732606892864e-05, "timer/logger.write_avg": 0.022731542587280273, "timer/logger.write_min": 0.022731542587280273, "timer/logger.write_max": 0.022731542587280273, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003993511199951172, "timer/checkpoint.save_frac": 1.3311959100778737e-06, "timer/checkpoint.save_avg": 0.0003993511199951172, "timer/checkpoint.save_min": 0.0003993511199951172, "timer/checkpoint.save_max": 0.0003993511199951172, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2359163761138916, "timer/agent.save_frac": 0.004119800202641715, "timer/agent.save_avg": 1.2359163761138916, "timer/agent.save_min": 1.2359163761138916, "timer/agent.save_max": 1.2359163761138916, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.151199340820312e-05, "timer/replay.save_frac": 2.0504390734333813e-07, "timer/replay.save_avg": 6.151199340820312e-05, "timer/replay.save_min": 6.151199340820312e-05, "timer/replay.save_max": 6.151199340820312e-05, "timer/agent.policy_count": 1422.0, "timer/agent.policy_total": 14.579817056655884, "timer/agent.policy_frac": 0.04860032153094059, "timer/agent.policy_avg": 0.010253035904821297, "timer/agent.policy_min": 0.005681276321411133, "timer/agent.policy_max": 2.5465199947357178, "timer/dataset_count": 711.0, "timer/dataset_total": 0.06252193450927734, "timer/dataset_frac": 0.00020841044219413807, "timer/dataset_avg": 8.793521028027756e-05, "timer/dataset_min": 6.222724914550781e-05, "timer/dataset_max": 0.00018596649169921875, "timer/agent.train_count": 711.0, "timer/agent.train_total": 264.7297418117523, "timer/agent.train_frac": 0.8824493833398663, "timer/agent.train_avg": 0.3723343766691313, "timer/agent.train_min": 0.36540818214416504, "timer/agent.train_max": 0.386368989944458, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2184598445892334, "timer/agent.report_frac": 0.0007282134369298655, "timer/agent.report_avg": 0.2184598445892334, "timer/agent.report_min": 0.2184598445892334, "timer/agent.report_max": 0.2184598445892334, "fps": 4.740026941834043}
{"step": 843373, "episode/length": 167.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.07142857142857142}
{"step": 843556, "episode/length": 182.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.04918032786885246}
{"step": 843710, "episode/length": 153.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.08441558441558442}
{"step": 843942, "episode/length": 231.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.06465517241379311}
{"step": 844160, "episode/length": 217.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.05963302752293578}
{"step": 844341, "episode/length": 180.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.06077348066298342}
{"step": 844590, "episode/length": 248.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.05622489959839357}
{"step": 844760, "episode/length": 169.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.07058823529411765}
{"step": 844789, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.35542975531684, "train/action_min": 0.0, "train/action_std": 3.1825060413943396, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03922123547332982, "train/actor_opt_grad_steps": 421485.0, "train/actor_opt_loss": -12.069356226258808, "train/adv_mag": 0.42808570174707306, "train/adv_max": 0.35801235689885086, "train/adv_mean": 0.0016491000447381844, "train/adv_min": -0.3744518535418643, "train/adv_std": 0.04397756176897221, "train/cont_avg": 0.9947374131944444, "train/cont_loss_mean": 8.329168433678862e-06, "train/cont_loss_std": 0.0002261942202474011, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 1.2231994754567191e-05, "train/cont_pos_acc": 0.9999999793039428, "train/cont_pos_loss": 8.317438880646301e-06, "train/cont_pred": 0.9947300677498182, "train/cont_rate": 0.9947374131944444, "train/dyn_loss_mean": 5.611322184403737, "train/dyn_loss_std": 8.971672223673927, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9480558956662813, "train/extr_critic_critic_opt_grad_steps": 421485.0, "train/extr_critic_critic_opt_loss": 15719.098904079861, "train/extr_critic_mag": 11.839123765627543, "train/extr_critic_max": 11.839123765627543, "train/extr_critic_mean": 3.5688036613994174, "train/extr_critic_min": -0.40266132520304787, "train/extr_critic_std": 2.894554545482, "train/extr_return_normed_mag": 1.4024997221099005, "train/extr_return_normed_max": 1.4024997221099005, "train/extr_return_normed_mean": 0.3909268031517665, "train/extr_return_normed_min": -0.08634222759347823, "train/extr_return_normed_std": 0.3217941636426581, "train/extr_return_rate": 0.8468886059191492, "train/extr_return_raw_mag": 12.76353128751119, "train/extr_return_raw_max": 12.76353128751119, "train/extr_return_raw_mean": 3.5838252868917255, "train/extr_return_raw_min": -0.7465256899595261, "train/extr_return_raw_std": 2.92021354370647, "train/extr_reward_mag": 1.0741836296187506, "train/extr_reward_max": 1.0741836296187506, "train/extr_reward_mean": 0.06043353578489688, "train/extr_reward_min": -0.661313545372751, "train/extr_reward_std": 0.23687756123642126, "train/image_loss_mean": 3.356863174173567, "train/image_loss_std": 8.621290491686928, "train/model_loss_mean": 6.781980792681376, "train/model_loss_std": 12.831618984540304, "train/model_opt_grad_norm": 23.224901808632744, "train/model_opt_grad_steps": 421143.7361111111, "train/model_opt_loss": 17625.51241048177, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2604.1666666666665, "train/policy_entropy_mag": 2.6997125181886883, "train/policy_entropy_max": 2.6997125181886883, "train/policy_entropy_mean": 0.3723831938372718, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5647237913476096, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37246037109030616, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 1.0035998970270157, "train/policy_randomness_mag": 0.9528800480895572, "train/policy_randomness_max": 0.9528800480895572, "train/policy_randomness_mean": 0.13143492655621636, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19932271581557062, "train/post_ent_mag": 55.87515099843343, "train/post_ent_max": 55.87515099843343, "train/post_ent_mean": 40.52691120571561, "train/post_ent_min": 19.60859563615587, "train/post_ent_std": 5.801487902800242, "train/prior_ent_mag": 76.72031434377034, "train/prior_ent_max": 76.72031434377034, "train/prior_ent_mean": 46.11918756696913, "train/prior_ent_min": 28.05412424935235, "train/prior_ent_std": 7.821646703614129, "train/rep_loss_mean": 5.611322184403737, "train/rep_loss_std": 8.971672223673927, "train/reward_avg": 0.04138183562705914, "train/reward_loss_mean": 0.05831598909571767, "train/reward_loss_std": 0.21925700621472466, "train/reward_max_data": 1.027777784400516, "train/reward_max_pred": 1.0245149433612823, "train/reward_neg_acc": 0.9930544545253118, "train/reward_neg_loss": 0.026327313027448125, "train/reward_pos_acc": 0.9913876760337088, "train/reward_pos_loss": 0.718943821059333, "train/reward_pred": 0.041176404959211745, "train/reward_rate": 0.04616970486111111, "stats/sum_log_reward": 11.475000262260437, "stats/max_log_achievement_collect_coal": 0.75, "stats/max_log_achievement_collect_drink": 2.75, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.625, "stats/max_log_achievement_collect_stone": 11.75, "stats/max_log_achievement_collect_wood": 11.125, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.125, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.625, "stats/max_log_achievement_make_stone_sword": 0.625, "stats/max_log_achievement_make_wood_pickaxe": 1.125, "stats/max_log_achievement_make_wood_sword": 1.25, "stats/max_log_achievement_place_furnace": 1.625, "stats/max_log_achievement_place_plant": 1.375, "stats/max_log_achievement_place_stone": 2.625, "stats/max_log_achievement_place_table": 2.875, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.385814618319273, "replay/size": 844726.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.460872189843208e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3618545294138662e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2863051891327, "timer/env.step_count": 1442.0, "timer/env.step_total": 20.28529667854309, "timer/env.step_frac": 0.06755318616933455, "timer/env.step_avg": 0.014067473424787164, "timer/env.step_min": 0.0029222965240478516, "timer/env.step_max": 1.6359155178070068, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.3002457618713379, "timer/replay.add_frac": 0.0009998649844595168, "timer/replay.add_avg": 0.00020821481405779326, "timer/replay.add_min": 6.628036499023438e-05, "timer/replay.add_max": 0.0039033889770507812, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028780698776245117, "timer/logger.write_frac": 9.58441936208774e-05, "timer/logger.write_avg": 0.028780698776245117, "timer/logger.write_min": 0.028780698776245117, "timer/logger.write_max": 0.028780698776245117, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 10.751072406768799, "timer/agent.policy_frac": 0.03580273965540097, "timer/agent.policy_avg": 0.007455667411074063, "timer/agent.policy_min": 0.005757570266723633, "timer/agent.policy_max": 0.014866352081298828, "timer/dataset_count": 721.0, "timer/dataset_total": 0.06201648712158203, "timer/dataset_frac": 0.00020652452692613302, "timer/dataset_avg": 8.601454524491266e-05, "timer/dataset_min": 6.175041198730469e-05, "timer/dataset_max": 0.0002002716064453125, "timer/agent.train_count": 721.0, "timer/agent.train_total": 268.1831810474396, "timer/agent.train_frac": 0.8930916142796681, "timer/agent.train_avg": 0.3719600291920105, "timer/agent.train_min": 0.36493706703186035, "timer/agent.train_max": 0.3874828815460205, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22130703926086426, "timer/agent.report_frac": 0.0007369867870646847, "timer/agent.report_avg": 0.22130703926086426, "timer/agent.report_min": 0.22130703926086426, "timer/agent.report_max": 0.22130703926086426, "fps": 4.802003500541567}
{"step": 844960, "episode/length": 199.0, "episode/score": 12.100000023841858, "episode/sum_abs_reward": 14.700000062584877, "episode/reward_rate": 0.065}
{"step": 845181, "episode/length": 220.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.05429864253393665}
{"step": 845421, "episode/length": 239.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 14.900000020861626, "episode/reward_rate": 0.0625}
{"step": 845695, "episode/length": 273.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 14.900000013411045, "episode/reward_rate": 0.051094890510948905}
{"step": 845833, "episode/length": 137.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 12.300000056624413, "episode/reward_rate": 0.07971014492753623}
{"step": 846032, "episode/length": 198.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.04522613065326633}
{"step": 846247, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.3830457713505995, "train/action_min": 0.0, "train/action_std": 3.200800595218188, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.039455516646577884, "train/actor_opt_grad_steps": 422210.0, "train/actor_opt_loss": -11.589145541191101, "train/adv_mag": 0.4142378450256504, "train/adv_max": 0.35043773687865637, "train/adv_mean": 0.0024314762196111475, "train/adv_min": -0.3652670983582327, "train/adv_std": 0.04448717837668445, "train/cont_avg": 0.9947024828767124, "train/cont_loss_mean": 5.85957161743055e-05, "train/cont_loss_std": 0.001808293558136571, "train/cont_neg_acc": 0.9965753424657534, "train/cont_neg_loss": 0.013832717041011215, "train/cont_pos_acc": 0.9999999828534584, "train/cont_pos_loss": 4.363993675455844e-06, "train/cont_pred": 0.9947119975743228, "train/cont_rate": 0.9947024828767124, "train/dyn_loss_mean": 5.401377730173607, "train/dyn_loss_std": 8.85210698271451, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9577063452707578, "train/extr_critic_critic_opt_grad_steps": 422210.0, "train/extr_critic_critic_opt_loss": 15661.230883454624, "train/extr_critic_mag": 11.826365719102833, "train/extr_critic_max": 11.826365719102833, "train/extr_critic_mean": 3.532915040238263, "train/extr_critic_min": -0.37573031529988327, "train/extr_critic_std": 2.8467598288026577, "train/extr_return_normed_mag": 1.403833911843496, "train/extr_return_normed_max": 1.403833911843496, "train/extr_return_normed_mean": 0.3890452985077688, "train/extr_return_normed_min": -0.08506678371396784, "train/extr_return_normed_std": 0.32144505887815394, "train/extr_return_rate": 0.8581032859135981, "train/extr_return_raw_mag": 12.642505802520335, "train/extr_return_raw_max": 12.642505802520335, "train/extr_return_raw_mean": 3.55469791203329, "train/extr_return_raw_min": -0.6908687785880206, "train/extr_return_raw_std": 2.8784885765755015, "train/extr_reward_mag": 1.0797900010461676, "train/extr_reward_max": 1.0797900010461676, "train/extr_reward_mean": 0.06019847564501305, "train/extr_reward_min": -0.6250929293567187, "train/extr_reward_std": 0.2365997852119681, "train/image_loss_mean": 3.2507907119515824, "train/image_loss_std": 8.240898798589837, "train/model_loss_mean": 6.548045478455008, "train/model_loss_std": 12.361984396634037, "train/model_opt_grad_norm": 25.485365867614746, "train/model_opt_grad_steps": 421868.0, "train/model_opt_loss": 16370.113655821919, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.68146898975111, "train/policy_entropy_max": 2.68146898975111, "train/policy_entropy_mean": 0.3787203414799416, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5725809613319293, "train/policy_logprob_mag": 7.438384278179848, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37944504639057264, "train/policy_logprob_min": -7.438384278179848, "train/policy_logprob_std": 1.0114159812665966, "train/policy_randomness_mag": 0.9464408787962508, "train/policy_randomness_max": 0.9464408787962508, "train/policy_randomness_mean": 0.1336716614561538, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20209595622265175, "train/post_ent_mag": 55.33082042328299, "train/post_ent_max": 55.33082042328299, "train/post_ent_mean": 40.57844533005806, "train/post_ent_min": 19.730406617465086, "train/post_ent_std": 5.7911528169292295, "train/prior_ent_mag": 76.76439541333342, "train/prior_ent_max": 76.76439541333342, "train/prior_ent_mean": 45.976680755615234, "train/prior_ent_min": 27.928782580650015, "train/prior_ent_std": 7.737720045324874, "train/rep_loss_mean": 5.401377730173607, "train/rep_loss_std": 8.85210698271451, "train/reward_avg": 0.04031999090252674, "train/reward_loss_mean": 0.05636953358372597, "train/reward_loss_std": 0.21468071884488407, "train/reward_max_data": 1.0301369934865874, "train/reward_max_pred": 1.0299599529945687, "train/reward_neg_acc": 0.9934471069949947, "train/reward_neg_loss": 0.024947336415619883, "train/reward_pos_acc": 0.990559797580928, "train/reward_pos_loss": 0.7238160428935534, "train/reward_pred": 0.03999251173171278, "train/reward_rate": 0.0450288955479452, "stats/sum_log_reward": 11.266667048136393, "stats/max_log_achievement_collect_coal": 0.16666666666666666, "stats/max_log_achievement_collect_drink": 3.6666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 6.833333333333333, "stats/max_log_achievement_collect_wood": 14.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.8333333333333333, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 0.3333333333333333, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_stone": 2.8333333333333335, "stats/max_log_achievement_place_table": 4.166666666666667, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.33652348319689435, "replay/size": 846184.0, "replay/inserts": 1458.0, "replay/samples": 11664.0, "replay/insert_wait_avg": 3.505963193372771e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3160035116355279e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.26101875305176, "timer/env.step_count": 1458.0, "timer/env.step_total": 17.142871379852295, "timer/env.step_frac": 0.0570932299205691, "timer/env.step_avg": 0.011757799300310215, "timer/env.step_min": 0.0026755332946777344, "timer/env.step_max": 1.629666805267334, "timer/replay.add_count": 1458.0, "timer/replay.add_total": 0.2857484817504883, "timer/replay.add_frac": 0.0009516669294508081, "timer/replay.add_avg": 0.00019598661299759142, "timer/replay.add_min": 6.937980651855469e-05, "timer/replay.add_max": 0.004312992095947266, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025333404541015625, "timer/logger.write_frac": 8.437127352135897e-05, "timer/logger.write_avg": 0.025333404541015625, "timer/logger.write_min": 0.025333404541015625, "timer/logger.write_max": 0.025333404541015625, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1458.0, "timer/agent.policy_total": 10.918586492538452, "timer/agent.policy_frac": 0.036363649660159154, "timer/agent.policy_avg": 0.007488742450300722, "timer/agent.policy_min": 0.0057637691497802734, "timer/agent.policy_max": 0.022490978240966797, "timer/dataset_count": 729.0, "timer/dataset_total": 0.06176114082336426, "timer/dataset_frac": 0.00020569150494410138, "timer/dataset_avg": 8.472035778239268e-05, "timer/dataset_min": 6.318092346191406e-05, "timer/dataset_max": 0.00017499923706054688, "timer/agent.train_count": 729.0, "timer/agent.train_total": 271.1493248939514, "timer/agent.train_frac": 0.9030453770522803, "timer/agent.train_avg": 0.3719469477283284, "timer/agent.train_min": 0.36501407623291016, "timer/agent.train_max": 0.3887631893157959, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22013401985168457, "timer/agent.report_frac": 0.0007331421866410596, "timer/agent.report_avg": 0.22013401985168457, "timer/agent.report_min": 0.22013401985168457, "timer/agent.report_max": 0.22013401985168457, "fps": 4.855668503477513}
{"step": 846354, "episode/length": 321.0, "episode/score": 13.099999979138374, "episode/sum_abs_reward": 16.500000044703484, "episode/reward_rate": 0.043478260869565216}
{"step": 846553, "episode/length": 198.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.06532663316582915}
{"step": 846783, "episode/length": 229.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.06521739130434782}
{"step": 847387, "episode/length": 603.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 17.500000052154064, "episode/reward_rate": 0.023178807947019868}
{"step": 847449, "episode/length": 61.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 7.900000028312206, "episode/reward_rate": 0.11290322580645161}
{"step": 847700, "episode/length": 250.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.30000003427267, "episode/reward_rate": 0.05976095617529881}
{"step": 847701, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.376703967786815, "train/action_min": 0.0, "train/action_std": 3.208741544044181, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.040147667316949534, "train/actor_opt_grad_steps": 422940.0, "train/actor_opt_loss": -12.22042848965893, "train/adv_mag": 0.45627028158266253, "train/adv_max": 0.3569271817599257, "train/adv_mean": 0.0018565694635856757, "train/adv_min": -0.40900536493895806, "train/adv_std": 0.044958981238815886, "train/cont_avg": 0.9949165239726028, "train/cont_loss_mean": 7.032790376517169e-05, "train/cont_loss_std": 0.002071343499384767, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0017424812479005266, "train/cont_pos_acc": 0.9999864893416835, "train/cont_pos_loss": 5.8217565282542673e-05, "train/cont_pred": 0.9949083124121575, "train/cont_rate": 0.9949165239726028, "train/dyn_loss_mean": 5.406900765144662, "train/dyn_loss_std": 8.85807039966322, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9474676863787925, "train/extr_critic_critic_opt_grad_steps": 422940.0, "train/extr_critic_critic_opt_loss": 15549.456215218323, "train/extr_critic_mag": 11.824666284535029, "train/extr_critic_max": 11.824666284535029, "train/extr_critic_mean": 3.679224723005948, "train/extr_critic_min": -0.3631894915071252, "train/extr_critic_std": 2.808929830381315, "train/extr_return_normed_mag": 1.3963959478352168, "train/extr_return_normed_max": 1.3963959478352168, "train/extr_return_normed_mean": 0.40160170319962174, "train/extr_return_normed_min": -0.08757509515710073, "train/extr_return_normed_std": 0.3141918855987183, "train/extr_return_rate": 0.874076099428412, "train/extr_return_raw_mag": 12.66799357166029, "train/extr_return_raw_max": 12.66799357166029, "train/extr_return_raw_mean": 3.6959382115978086, "train/extr_return_raw_min": -0.7166133700576547, "train/extr_return_raw_std": 2.8342147624655945, "train/extr_reward_mag": 1.0691111871640977, "train/extr_reward_max": 1.0691111871640977, "train/extr_reward_mean": 0.06039107524572986, "train/extr_reward_min": -0.6187375816580367, "train/extr_reward_std": 0.23687877210035715, "train/image_loss_mean": 3.1726283635178656, "train/image_loss_std": 8.458610704500382, "train/model_loss_mean": 6.47304554508157, "train/model_loss_std": 12.631686811577785, "train/model_opt_grad_norm": 22.931132486421767, "train/model_opt_grad_steps": 422597.2876712329, "train/model_opt_loss": 18926.94365368151, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2945.205479452055, "train/policy_entropy_mag": 2.665753903454297, "train/policy_entropy_max": 2.665753903454297, "train/policy_entropy_mean": 0.3623284871039325, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5500998799115011, "train/policy_logprob_mag": 7.438384317371943, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36348293150124483, "train/policy_logprob_min": -7.438384317371943, "train/policy_logprob_std": 0.9978048042075275, "train/policy_randomness_mag": 0.9408941448551335, "train/policy_randomness_max": 0.9408941448551335, "train/policy_randomness_mean": 0.12788605506289497, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19416111962844249, "train/post_ent_mag": 55.11913863926718, "train/post_ent_max": 55.11913863926718, "train/post_ent_mean": 40.48939148367268, "train/post_ent_min": 19.41247235912166, "train/post_ent_std": 5.721394774031966, "train/prior_ent_mag": 76.73240337633106, "train/prior_ent_max": 76.73240337633106, "train/prior_ent_mean": 45.88906949186978, "train/prior_ent_min": 28.64584039661982, "train/prior_ent_std": 7.636954803989358, "train/rep_loss_mean": 5.406900765144662, "train/rep_loss_std": 8.85807039966322, "train/reward_avg": 0.041034353845944144, "train/reward_loss_mean": 0.05620636734856318, "train/reward_loss_std": 0.21644499326405459, "train/reward_max_data": 1.0273972668059885, "train/reward_max_pred": 1.0255409887392226, "train/reward_neg_acc": 0.99369478633959, "train/reward_neg_loss": 0.024019426640684474, "train/reward_pos_acc": 0.9889713689072491, "train/reward_pos_loss": 0.7296425610372465, "train/reward_pred": 0.04068090363520466, "train/reward_rate": 0.04561750856164384, "stats/sum_log_reward": 12.100000381469727, "stats/max_log_achievement_collect_coal": 1.1666666666666667, "stats/max_log_achievement_collect_drink": 4.333333333333333, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.3333333333333335, "stats/max_log_achievement_collect_stone": 13.833333333333334, "stats/max_log_achievement_collect_wood": 16.833333333333332, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.3333333333333333, "stats/max_log_achievement_eat_cow": 0.6666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_stone_sword": 1.1666666666666667, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 1.8333333333333333, "stats/max_log_achievement_place_plant": 2.1666666666666665, "stats/max_log_achievement_place_stone": 3.3333333333333335, "stats/max_log_achievement_place_table": 3.5, "stats/max_log_achievement_wake_up": 2.3333333333333335, "stats/mean_log_entropy": 0.5015838469068209, "replay/size": 847638.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.488224507034071e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2895755951473441e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 299.99413990974426, "timer/env.step_count": 1454.0, "timer/env.step_total": 17.84775686264038, "timer/env.step_frac": 0.05949368500334715, "timer/env.step_avg": 0.01227493594404428, "timer/env.step_min": 0.003108501434326172, "timer/env.step_max": 1.6999399662017822, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.25381922721862793, "timer/replay.add_frac": 0.0008460806177580388, "timer/replay.add_avg": 0.0001745661810306932, "timer/replay.add_min": 7.343292236328125e-05, "timer/replay.add_max": 0.003060579299926758, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02222299575805664, "timer/logger.write_frac": 7.407809954135308e-05, "timer/logger.write_avg": 0.02222299575805664, "timer/logger.write_min": 0.02222299575805664, "timer/logger.write_max": 0.02222299575805664, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003485679626464844, "timer/checkpoint.save_frac": 1.1619159052618626e-06, "timer/checkpoint.save_avg": 0.0003485679626464844, "timer/checkpoint.save_min": 0.0003485679626464844, "timer/checkpoint.save_max": 0.0003485679626464844, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2023658752441406, "timer/agent.save_frac": 0.004007964540926974, "timer/agent.save_avg": 1.2023658752441406, "timer/agent.save_min": 1.2023658752441406, "timer/agent.save_max": 1.2023658752441406, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.43865966796875e-05, "timer/replay.save_frac": 2.4796016582879693e-07, "timer/replay.save_avg": 7.43865966796875e-05, "timer/replay.save_min": 7.43865966796875e-05, "timer/replay.save_max": 7.43865966796875e-05, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 10.785949468612671, "timer/agent.policy_frac": 0.03595386720506512, "timer/agent.policy_avg": 0.007418122055442002, "timer/agent.policy_min": 0.0055735111236572266, "timer/agent.policy_max": 0.01643085479736328, "timer/dataset_count": 727.0, "timer/dataset_total": 0.06177520751953125, "timer/dataset_frac": 0.00020592138079136092, "timer/dataset_avg": 8.497277513002923e-05, "timer/dataset_min": 6.604194641113281e-05, "timer/dataset_max": 0.0001933574676513672, "timer/agent.train_count": 727.0, "timer/agent.train_total": 270.3473048210144, "timer/agent.train_frac": 0.901175285965088, "timer/agent.train_avg": 0.3718669942517392, "timer/agent.train_min": 0.36513304710388184, "timer/agent.train_max": 0.3931436538696289, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21947169303894043, "timer/agent.report_frac": 0.0007315866006748342, "timer/agent.report_avg": 0.21947169303894043, "timer/agent.report_min": 0.21947169303894043, "timer/agent.report_max": 0.21947169303894043, "fps": 4.846701194309795}
{"step": 847874, "episode/length": 173.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.07471264367816093}
{"step": 848144, "episode/length": 269.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.05555555555555555}
{"step": 848205, "episode/length": 60.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 5.0999999940395355, "episode/reward_rate": 0.08196721311475409}
{"step": 848428, "episode/length": 222.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.06278026905829596}
{"step": 848616, "episode/length": 187.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.07446808510638298}
{"step": 848806, "episode/length": 189.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06842105263157895}
{"step": 849016, "episode/length": 209.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.07142857142857142}
{"step": 849133, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.363190127090669, "train/action_min": 0.0, "train/action_std": 3.210680605660022, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.040386294290213516, "train/actor_opt_grad_steps": 423660.0, "train/actor_opt_loss": -10.616175038713804, "train/adv_mag": 0.40556923898173053, "train/adv_max": 0.346605036460178, "train/adv_mean": 0.0026527887523218555, "train/adv_min": -0.35283088998895296, "train/adv_std": 0.04497298991806071, "train/cont_avg": 0.9950346610915493, "train/cont_loss_mean": 3.0088851544828494e-05, "train/cont_loss_std": 0.000870228948734864, "train/cont_neg_acc": 0.9979879285248232, "train/cont_neg_loss": 0.002202167968967317, "train/cont_pos_acc": 0.9999999840494612, "train/cont_pos_loss": 1.556967235191524e-05, "train/cont_pred": 0.9950302024962197, "train/cont_rate": 0.9950346610915493, "train/dyn_loss_mean": 5.5417366162152355, "train/dyn_loss_std": 9.001268494297081, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.971747102032245, "train/extr_critic_critic_opt_grad_steps": 423660.0, "train/extr_critic_critic_opt_loss": 15902.85029709507, "train/extr_critic_mag": 11.730105588133906, "train/extr_critic_max": 11.730105588133906, "train/extr_critic_mean": 3.577525699642343, "train/extr_critic_min": -0.3414529713106827, "train/extr_critic_std": 2.756334000909832, "train/extr_return_normed_mag": 1.3749604241948732, "train/extr_return_normed_max": 1.3749604241948732, "train/extr_return_normed_mean": 0.38838102238278993, "train/extr_return_normed_min": -0.08217990865379991, "train/extr_return_normed_std": 0.30705332441229216, "train/extr_return_rate": 0.8679458666855181, "train/extr_return_raw_mag": 12.566064001808703, "train/extr_return_raw_max": 12.566064001808703, "train/extr_return_raw_mean": 3.6016786232800553, "train/extr_return_raw_min": -0.6740528240170277, "train/extr_return_raw_std": 2.78996316479965, "train/extr_reward_mag": 1.076749412106796, "train/extr_reward_max": 1.076749412106796, "train/extr_reward_mean": 0.06073011300513442, "train/extr_reward_min": -0.5874399970954572, "train/extr_reward_std": 0.23687779840449213, "train/image_loss_mean": 3.253735263582686, "train/image_loss_std": 8.821917070469386, "train/model_loss_mean": 6.636217030001358, "train/model_loss_std": 13.055733197171923, "train/model_opt_grad_norm": 26.59139254395391, "train/model_opt_grad_steps": 423316.88732394367, "train/model_opt_loss": 19926.356802926937, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3028.169014084507, "train/policy_entropy_mag": 2.665488968432789, "train/policy_entropy_max": 2.665488968432789, "train/policy_entropy_mean": 0.35246028887553954, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5391609408486058, "train/policy_logprob_mag": 7.438384311299928, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3524326440733923, "train/policy_logprob_min": -7.438384311299928, "train/policy_logprob_std": 0.9859053509336122, "train/policy_randomness_mag": 0.9408006349080046, "train/policy_randomness_max": 0.9408006349080046, "train/policy_randomness_mean": 0.1244030142544021, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19030015013167556, "train/post_ent_mag": 55.05763873248033, "train/post_ent_max": 55.05763873248033, "train/post_ent_mean": 40.51016906953194, "train/post_ent_min": 19.675455630665095, "train/post_ent_std": 5.720057091242831, "train/prior_ent_mag": 76.66568820577272, "train/prior_ent_max": 76.66568820577272, "train/prior_ent_mean": 46.01117883601659, "train/prior_ent_min": 28.23587723852883, "train/prior_ent_std": 7.703312739520006, "train/rep_loss_mean": 5.5417366162152355, "train/rep_loss_std": 9.001268494297081, "train/reward_avg": 0.04058786290107479, "train/reward_loss_mean": 0.05740977750277855, "train/reward_loss_std": 0.22606129293710414, "train/reward_max_data": 1.0394366291207326, "train/reward_max_pred": 1.0346160304378456, "train/reward_neg_acc": 0.9936955201793725, "train/reward_neg_loss": 0.0253460823859967, "train/reward_pos_acc": 0.9861540987458027, "train/reward_pos_loss": 0.7412521133960133, "train/reward_pred": 0.04019716295453025, "train/reward_rate": 0.0449493838028169, "stats/sum_log_reward": 11.671428510120936, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 2.4285714285714284, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 12.714285714285714, "stats/max_log_achievement_collect_wood": 13.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_stone_pickaxe": 1.4285714285714286, "stats/max_log_achievement_make_stone_sword": 0.7142857142857143, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 2.7142857142857144, "stats/max_log_achievement_place_table": 3.2857142857142856, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.26140897614615305, "replay/size": 849070.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.50751690358423e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3296372730638728e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.125216960907, "timer/env.step_count": 1432.0, "timer/env.step_total": 21.711378574371338, "timer/env.step_frac": 0.07234106748583997, "timer/env.step_avg": 0.01516157721673976, "timer/env.step_min": 0.0029234886169433594, "timer/env.step_max": 2.60802960395813, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.2755422592163086, "timer/replay.add_frac": 0.0009180909955067173, "timer/replay.add_avg": 0.0001924177787823384, "timer/replay.add_min": 7.462501525878906e-05, "timer/replay.add_max": 0.004342794418334961, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023542404174804688, "timer/logger.write_frac": 7.844193971168781e-05, "timer/logger.write_avg": 0.023542404174804688, "timer/logger.write_min": 0.023542404174804688, "timer/logger.write_max": 0.023542404174804688, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 11.16395902633667, "timer/agent.policy_frac": 0.03719767082347779, "timer/agent.policy_avg": 0.007796060772581473, "timer/agent.policy_min": 0.005711793899536133, "timer/agent.policy_max": 0.6812057495117188, "timer/dataset_count": 716.0, "timer/dataset_total": 0.060164690017700195, "timer/dataset_frac": 0.00020046529454250086, "timer/dataset_avg": 8.402889667276564e-05, "timer/dataset_min": 6.318092346191406e-05, "timer/dataset_max": 0.00014019012451171875, "timer/agent.train_count": 716.0, "timer/agent.train_total": 266.2256660461426, "timer/agent.train_frac": 0.887048641703506, "timer/agent.train_avg": 0.37182355593036676, "timer/agent.train_min": 0.36563730239868164, "timer/agent.train_max": 0.4462306499481201, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.219465970993042, "timer/agent.report_frac": 0.000731248021127224, "timer/agent.report_avg": 0.219465970993042, "timer/agent.report_min": 0.219465970993042, "timer/agent.report_max": 0.219465970993042, "fps": 4.771287967261825}
{"step": 849277, "episode/length": 260.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.500000044703484, "episode/reward_rate": 0.04980842911877394}
{"step": 849481, "episode/length": 203.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.058823529411764705}
{"step": 849722, "episode/length": 240.0, "episode/score": 13.100000023841858, "episode/sum_abs_reward": 15.700000017881393, "episode/reward_rate": 0.06224066390041494}
{"step": 849927, "episode/length": 204.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.06829268292682927}
{"step": 850224, "episode/length": 296.0, "episode/score": 15.100000023841858, "episode/sum_abs_reward": 17.30000001192093, "episode/reward_rate": 0.05723905723905724}
{"step": 850416, "episode/length": 191.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06770833333333333}
{"step": 850593, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.37403347067637, "train/action_min": 0.0, "train/action_std": 3.1742575527870494, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04049898867737757, "train/actor_opt_grad_steps": 424380.0, "train/actor_opt_loss": -11.412258367424142, "train/adv_mag": 0.42353628739102245, "train/adv_max": 0.33624763501017063, "train/adv_mean": 0.0021638557988920447, "train/adv_min": -0.3874067872354429, "train/adv_std": 0.044960739473774006, "train/cont_avg": 0.9951840753424658, "train/cont_loss_mean": 3.668844833485259e-05, "train/cont_loss_std": 0.0010943160673346714, "train/cont_neg_acc": 0.9965277777777778, "train/cont_neg_loss": 0.0042508394968305335, "train/cont_pos_acc": 0.9999865415978105, "train/cont_pos_loss": 1.9511132939532504e-05, "train/cont_pred": 0.9951792392012191, "train/cont_rate": 0.9951840753424658, "train/dyn_loss_mean": 5.506488689004558, "train/dyn_loss_std": 8.858566767548862, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9261767537626502, "train/extr_critic_critic_opt_grad_steps": 424380.0, "train/extr_critic_critic_opt_loss": 15661.652450770547, "train/extr_critic_mag": 11.76749528597479, "train/extr_critic_max": 11.76749528597479, "train/extr_critic_mean": 3.665506522949428, "train/extr_critic_min": -0.34574429956201, "train/extr_critic_std": 2.8136861520270777, "train/extr_return_normed_mag": 1.3831724663303322, "train/extr_return_normed_max": 1.3831724663303322, "train/extr_return_normed_mean": 0.39833792350063585, "train/extr_return_normed_min": -0.08696945006512616, "train/extr_return_normed_std": 0.31279630040469236, "train/extr_return_rate": 0.8626186651726292, "train/extr_return_raw_mag": 12.629473006888611, "train/extr_return_raw_max": 12.629473006888611, "train/extr_return_raw_mean": 3.6851469425305927, "train/extr_return_raw_min": -0.7226186484506686, "train/extr_return_raw_std": 2.8409540391948127, "train/extr_reward_mag": 1.0644381046295166, "train/extr_reward_max": 1.0644381046295166, "train/extr_reward_mean": 0.05992257569546569, "train/extr_reward_min": -0.6258204848798987, "train/extr_reward_std": 0.23537688753376268, "train/image_loss_mean": 3.2274270269968737, "train/image_loss_std": 8.37881429228064, "train/model_loss_mean": 6.587660057903969, "train/model_loss_std": 12.519146553457599, "train/model_opt_grad_norm": 23.857738129080158, "train/model_opt_grad_steps": 424036.0, "train/model_opt_loss": 16469.15012307363, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.69902990942132, "train/policy_entropy_max": 2.69902990942132, "train/policy_entropy_mean": 0.3731981681226051, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5671238074563953, "train/policy_logprob_mag": 7.438384310839927, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37270310480300695, "train/policy_logprob_min": -7.438384310839927, "train/policy_logprob_std": 1.0027281494989788, "train/policy_randomness_mag": 0.9526391143668188, "train/policy_randomness_max": 0.9526391143668188, "train/policy_randomness_mean": 0.13172257814097077, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20016981691938557, "train/post_ent_mag": 55.4189553979325, "train/post_ent_max": 55.4189553979325, "train/post_ent_mean": 40.67930514191928, "train/post_ent_min": 19.59520185810246, "train/post_ent_std": 5.7680681764263, "train/prior_ent_mag": 76.7450669171059, "train/prior_ent_max": 76.7450669171059, "train/prior_ent_mean": 46.17416465445741, "train/prior_ent_min": 28.513637647236862, "train/prior_ent_std": 7.6623647310962415, "train/rep_loss_mean": 5.506488689004558, "train/rep_loss_std": 8.858566767548862, "train/reward_avg": 0.042079141159376054, "train/reward_loss_mean": 0.056303140898681665, "train/reward_loss_std": 0.21003653476499531, "train/reward_max_data": 1.0232876767850902, "train/reward_max_pred": 1.0215990282084844, "train/reward_neg_acc": 0.9934498537076663, "train/reward_neg_loss": 0.02378906884983386, "train/reward_pos_acc": 0.9908264834586888, "train/reward_pos_loss": 0.724723851027554, "train/reward_pred": 0.041728887834573444, "train/reward_rate": 0.04646029537671233, "stats/sum_log_reward": 12.766667048136393, "stats/max_log_achievement_collect_coal": 0.3333333333333333, "stats/max_log_achievement_collect_drink": 2.6666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 12.166666666666666, "stats/max_log_achievement_collect_wood": 10.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_stone": 3.1666666666666665, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.47479088604450226, "replay/size": 850530.0, "replay/inserts": 1460.0, "replay/samples": 11680.0, "replay/insert_wait_avg": 3.3458618268574754e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3386958265957766e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.30189061164856, "timer/env.step_count": 1460.0, "timer/env.step_total": 17.353617906570435, "timer/env.step_frac": 0.05778724160285822, "timer/env.step_avg": 0.011886039662034545, "timer/env.step_min": 0.0029349327087402344, "timer/env.step_max": 1.6829729080200195, "timer/replay.add_count": 1460.0, "timer/replay.add_total": 0.2536590099334717, "timer/replay.add_frac": 0.000844680029875351, "timer/replay.add_avg": 0.00017373904789963812, "timer/replay.add_min": 7.319450378417969e-05, "timer/replay.add_max": 0.0022580623626708984, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02194690704345703, "timer/logger.write_frac": 7.308281342736815e-05, "timer/logger.write_avg": 0.02194690704345703, "timer/logger.write_min": 0.02194690704345703, "timer/logger.write_max": 0.02194690704345703, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1460.0, "timer/agent.policy_total": 10.72135877609253, "timer/agent.policy_frac": 0.035701935656334005, "timer/agent.policy_avg": 0.007343396421981185, "timer/agent.policy_min": 0.0055959224700927734, "timer/agent.policy_max": 0.01770615577697754, "timer/dataset_count": 730.0, "timer/dataset_total": 0.0613710880279541, "timer/dataset_frac": 0.00020436464087174, "timer/dataset_avg": 8.406998359993712e-05, "timer/dataset_min": 6.508827209472656e-05, "timer/dataset_max": 0.00017976760864257812, "timer/agent.train_count": 730.0, "timer/agent.train_total": 271.2246241569519, "timer/agent.train_frac": 0.9031732154750252, "timer/agent.train_avg": 0.3715405810369204, "timer/agent.train_min": 0.36533093452453613, "timer/agent.train_max": 0.38609743118286133, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21697187423706055, "timer/agent.report_frac": 0.000722512514973305, "timer/agent.report_avg": 0.21697187423706055, "timer/agent.report_min": 0.21697187423706055, "timer/agent.report_max": 0.21697187423706055, "fps": 4.861671168978083}
{"step": 850615, "episode/length": 198.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.05527638190954774}
{"step": 850862, "episode/length": 246.0, "episode/score": 14.100000031292439, "episode/sum_abs_reward": 17.299999989569187, "episode/reward_rate": 0.06882591093117409}
{"step": 851124, "episode/length": 261.0, "episode/score": 11.099999971687794, "episode/sum_abs_reward": 13.500000037252903, "episode/reward_rate": 0.04961832061068702}
{"step": 851433, "episode/length": 308.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 9.899999991059303, "episode/reward_rate": 0.032362459546925564}
{"step": 851630, "episode/length": 196.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.07614213197969544}
{"step": 851794, "episode/length": 163.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.07317073170731707}
{"step": 851845, "episode/length": 50.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.1568627450980392}
{"step": 851920, "episode/length": 74.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.09333333333333334}
{"step": 852037, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.3921457926432295, "train/action_min": 0.0, "train/action_std": 3.222264548142751, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03883394694680141, "train/actor_opt_grad_steps": 425105.0, "train/actor_opt_loss": -9.712368999711341, "train/adv_mag": 0.3873255571557416, "train/adv_max": 0.31822544398407143, "train/adv_mean": 0.0021921055312582715, "train/adv_min": -0.34447747675908935, "train/adv_std": 0.043678655185633235, "train/cont_avg": 0.9945746527777778, "train/cont_loss_mean": 5.217298741467936e-05, "train/cont_loss_std": 0.001647294146278079, "train/cont_neg_acc": 0.9972222223877907, "train/cont_neg_loss": 0.008343796967359651, "train/cont_pos_acc": 0.999999980131785, "train/cont_pos_loss": 1.1425655117728676e-05, "train/cont_pred": 0.9945772017041842, "train/cont_rate": 0.9945746527777778, "train/dyn_loss_mean": 5.498502757814196, "train/dyn_loss_std": 8.940960685412088, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0123833177818193, "train/extr_critic_critic_opt_grad_steps": 425105.0, "train/extr_critic_critic_opt_loss": 15638.289889865451, "train/extr_critic_mag": 11.857028669781155, "train/extr_critic_max": 11.857028669781155, "train/extr_critic_mean": 3.6767968237400055, "train/extr_critic_min": -0.385126198331515, "train/extr_critic_std": 2.918200817373064, "train/extr_return_normed_mag": 1.372603217760722, "train/extr_return_normed_max": 1.372603217760722, "train/extr_return_normed_mean": 0.39730273311336833, "train/extr_return_normed_min": -0.09297522840400536, "train/extr_return_normed_std": 0.3204892271508773, "train/extr_return_rate": 0.8549036598867841, "train/extr_return_raw_mag": 12.663188576698303, "train/extr_return_raw_max": 12.663188576698303, "train/extr_return_raw_mean": 3.6969107687473297, "train/extr_return_raw_min": -0.8109753835532401, "train/extr_return_raw_std": 2.9465792377789817, "train/extr_reward_mag": 1.0670981705188751, "train/extr_reward_max": 1.0670981705188751, "train/extr_reward_mean": 0.060195576244344316, "train/extr_reward_min": -0.6860711524883906, "train/extr_reward_std": 0.23679011522067916, "train/image_loss_mean": 3.309770400325457, "train/image_loss_std": 8.351786447895897, "train/model_loss_mean": 6.666644222206539, "train/model_loss_std": 12.508262435595194, "train/model_opt_grad_norm": 23.227192971441482, "train/model_opt_grad_steps": 424760.40277777775, "train/model_opt_loss": 18868.37297905816, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2847.222222222222, "train/policy_entropy_mag": 2.6960053874386682, "train/policy_entropy_max": 2.6960053874386682, "train/policy_entropy_mean": 0.38523172007666695, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5885262377560139, "train/policy_logprob_mag": 7.438384241527981, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38496031674245995, "train/policy_logprob_min": -7.438384241527981, "train/policy_logprob_std": 1.0175101516975298, "train/policy_randomness_mag": 0.9515715936819712, "train/policy_randomness_max": 0.9515715936819712, "train/policy_randomness_mean": 0.13596989183376232, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2077239356521103, "train/post_ent_mag": 55.36265887154473, "train/post_ent_max": 55.36265887154473, "train/post_ent_mean": 40.520610332489014, "train/post_ent_min": 19.531685762935215, "train/post_ent_std": 5.763758043448131, "train/prior_ent_mag": 76.75289864010281, "train/prior_ent_max": 76.75289864010281, "train/prior_ent_mean": 46.01895750893487, "train/prior_ent_min": 28.03498011165195, "train/prior_ent_std": 7.818908380137549, "train/rep_loss_mean": 5.498502757814196, "train/rep_loss_std": 8.940960685412088, "train/reward_avg": 0.04066704627540377, "train/reward_loss_mean": 0.05772006796259019, "train/reward_loss_std": 0.2169047449198034, "train/reward_max_data": 1.0180555598603354, "train/reward_max_pred": 1.0172873967223697, "train/reward_neg_acc": 0.9937234181496832, "train/reward_neg_loss": 0.026151982782822516, "train/reward_pos_acc": 0.9901312862833341, "train/reward_pos_loss": 0.720524469183551, "train/reward_pred": 0.0404794341367152, "train/reward_rate": 0.04551866319444445, "stats/sum_log_reward": 10.225000143051147, "stats/max_log_achievement_collect_coal": 0.125, "stats/max_log_achievement_collect_drink": 2.125, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.625, "stats/max_log_achievement_collect_stone": 6.125, "stats/max_log_achievement_collect_wood": 10.75, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.625, "stats/max_log_achievement_eat_cow": 0.375, "stats/max_log_achievement_make_stone_pickaxe": 0.375, "stats/max_log_achievement_make_stone_sword": 0.375, "stats/max_log_achievement_make_wood_pickaxe": 1.125, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.625, "stats/max_log_achievement_place_plant": 1.375, "stats/max_log_achievement_place_stone": 2.25, "stats/max_log_achievement_place_table": 2.75, "stats/max_log_achievement_wake_up": 0.875, "stats/mean_log_entropy": 0.39465418085455894, "replay/size": 851974.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.4679666450479354e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.307153800848118e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.30054450035095, "timer/env.step_count": 1444.0, "timer/env.step_total": 20.332829236984253, "timer/env.step_frac": 0.06770826629973191, "timer/env.step_avg": 0.014080906673811809, "timer/env.step_min": 0.0030143260955810547, "timer/env.step_max": 1.6648051738739014, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.26055026054382324, "timer/replay.add_frac": 0.0008676316620648643, "timer/replay.add_avg": 0.00018043646852065323, "timer/replay.add_min": 6.985664367675781e-05, "timer/replay.add_max": 0.003035306930541992, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029763460159301758, "timer/logger.write_frac": 9.911224173377073e-05, "timer/logger.write_avg": 0.029763460159301758, "timer/logger.write_min": 0.029763460159301758, "timer/logger.write_max": 0.029763460159301758, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.5760498046875, "timer/agent.policy_frac": 0.03521821721064226, "timer/agent.policy_avg": 0.007324134213772507, "timer/agent.policy_min": 0.0056536197662353516, "timer/agent.policy_max": 0.0174710750579834, "timer/dataset_count": 722.0, "timer/dataset_total": 0.060515642166137695, "timer/dataset_frac": 0.00020151692454246274, "timer/dataset_avg": 8.381667890046772e-05, "timer/dataset_min": 6.29425048828125e-05, "timer/dataset_max": 0.00015735626220703125, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.3776340484619, "timer/agent.train_frac": 0.8936967946395058, "timer/agent.train_avg": 0.3717141745823572, "timer/agent.train_min": 0.36211562156677246, "timer/agent.train_max": 0.38727903366088867, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22042202949523926, "timer/agent.report_frac": 0.0007340047613366271, "timer/agent.report_avg": 0.22042202949523926, "timer/agent.report_min": 0.22042202949523926, "timer/agent.report_max": 0.22042202949523926, "fps": 4.808440562764406}
{"step": 852259, "episode/length": 338.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.04424778761061947}
{"step": 852479, "episode/length": 219.0, "episode/score": 14.100000023841858, "episode/sum_abs_reward": 16.10000005364418, "episode/reward_rate": 0.06818181818181818}
{"step": 852692, "episode/length": 212.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.06572769953051644}
{"step": 852871, "episode/length": 178.0, "episode/score": 11.100000016391277, "episode/sum_abs_reward": 13.500000052154064, "episode/reward_rate": 0.0670391061452514}
{"step": 853184, "episode/length": 312.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 17.500000059604645, "episode/reward_rate": 0.04792332268370607}
{"step": 853421, "episode/length": 236.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.04219409282700422}
{"step": 853463, "episode/length": 41.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.11904761904761904}
{"step": 853465, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.378140767415364, "train/action_min": 0.0, "train/action_std": 3.2207893199390836, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.039203112944960594, "train/actor_opt_grad_steps": 425825.0, "train/actor_opt_loss": -9.88759209546778, "train/adv_mag": 0.40774797793063855, "train/adv_max": 0.35417537080744904, "train/adv_mean": 0.002686820475800131, "train/adv_min": -0.35226270991067093, "train/adv_std": 0.043776063765916556, "train/cont_avg": 0.9948323567708334, "train/cont_loss_mean": 5.385294908519553e-05, "train/cont_loss_std": 0.0016803161938041297, "train/cont_neg_acc": 0.9976851857370801, "train/cont_neg_loss": 0.007971869457192563, "train/cont_pos_acc": 0.999999985926681, "train/cont_pos_loss": 7.917897854999486e-06, "train/cont_pred": 0.9948450144794252, "train/cont_rate": 0.9948323567708334, "train/dyn_loss_mean": 5.492410335275862, "train/dyn_loss_std": 8.959861040115356, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9941073026922014, "train/extr_critic_critic_opt_grad_steps": 425825.0, "train/extr_critic_critic_opt_loss": 15741.269449869791, "train/extr_critic_mag": 11.95280487007565, "train/extr_critic_max": 11.95280487007565, "train/extr_critic_mean": 3.6403215958012476, "train/extr_critic_min": -0.356120487054189, "train/extr_critic_std": 2.845898942814933, "train/extr_return_normed_mag": 1.3720056331819959, "train/extr_return_normed_max": 1.3720056331819959, "train/extr_return_normed_mean": 0.3917072398795022, "train/extr_return_normed_min": -0.09224634307126205, "train/extr_return_normed_std": 0.3134909621957276, "train/extr_return_rate": 0.8672372806403372, "train/extr_return_raw_mag": 12.655597885449728, "train/extr_return_raw_max": 12.655597885449728, "train/extr_return_raw_mean": 3.664962652656767, "train/extr_return_raw_min": -0.7738183128337065, "train/extr_return_raw_std": 2.8756392995516458, "train/extr_reward_mag": 1.0764889154169295, "train/extr_reward_max": 1.0764889154169295, "train/extr_reward_mean": 0.05891052488651541, "train/extr_reward_min": -0.6499870734082328, "train/extr_reward_std": 0.234361301900612, "train/image_loss_mean": 3.3180517736408444, "train/image_loss_std": 8.650770551628536, "train/model_loss_mean": 6.670004142655267, "train/model_loss_std": 12.849400613043043, "train/model_opt_grad_norm": 23.782259517245823, "train/model_opt_grad_steps": 425479.56944444444, "train/model_opt_loss": 13066.439181857639, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1961.8055555555557, "train/policy_entropy_mag": 2.6865229176150427, "train/policy_entropy_max": 2.6865229176150427, "train/policy_entropy_mean": 0.3792146516756879, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5725600814653767, "train/policy_logprob_mag": 7.438384221659766, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3782554055667586, "train/policy_logprob_min": -7.438384221659766, "train/policy_logprob_std": 1.0048544373777177, "train/policy_randomness_mag": 0.9482246968481276, "train/policy_randomness_max": 0.9482246968481276, "train/policy_randomness_mean": 0.13384613156732586, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20208858201901117, "train/post_ent_mag": 55.984623220231796, "train/post_ent_max": 55.984623220231796, "train/post_ent_mean": 40.64702187644111, "train/post_ent_min": 19.339511394500732, "train/post_ent_std": 5.77402980460061, "train/prior_ent_mag": 76.72123686472575, "train/prior_ent_max": 76.72123686472575, "train/prior_ent_mean": 46.075965033637154, "train/prior_ent_min": 28.345343563291763, "train/prior_ent_std": 7.7119892901844445, "train/rep_loss_mean": 5.492410335275862, "train/rep_loss_std": 8.959861040115356, "train/reward_avg": 0.03898925742962294, "train/reward_loss_mean": 0.05645235664107733, "train/reward_loss_std": 0.2170075053970019, "train/reward_max_data": 1.0319444520605936, "train/reward_max_pred": 1.0317557487222884, "train/reward_neg_acc": 0.9929679839147462, "train/reward_neg_loss": 0.025134701954407826, "train/reward_pos_acc": 0.9847685131761763, "train/reward_pos_loss": 0.742849224143558, "train/reward_pred": 0.03850860690646288, "train/reward_rate": 0.0438232421875, "stats/sum_log_reward": 11.38571446282523, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 4.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 12.571428571428571, "stats/max_log_achievement_collect_wood": 14.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.7142857142857142, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_stone_pickaxe": 1.5714285714285714, "stats/max_log_achievement_make_stone_sword": 1.2857142857142858, "stats/max_log_achievement_make_wood_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 0.8571428571428571, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 3.142857142857143, "stats/max_log_achievement_place_table": 3.4285714285714284, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.3730016563619886, "replay/size": 853402.0, "replay/inserts": 1428.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 3.4300219111081934e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3289581827756738e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3422770500183, "timer/env.step_count": 1428.0, "timer/env.step_total": 21.36110019683838, "timer/env.step_frac": 0.07112252196609986, "timer/env.step_avg": 0.014958753639242562, "timer/env.step_min": 0.002685070037841797, "timer/env.step_max": 2.6284162998199463, "timer/replay.add_count": 1428.0, "timer/replay.add_total": 0.31331324577331543, "timer/replay.add_frac": 0.0010431872890180457, "timer/replay.add_avg": 0.0002194070348552629, "timer/replay.add_min": 7.343292236328125e-05, "timer/replay.add_max": 0.004569292068481445, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02293705940246582, "timer/logger.write_frac": 7.636973265220979e-05, "timer/logger.write_avg": 0.02293705940246582, "timer/logger.write_min": 0.02293705940246582, "timer/logger.write_max": 0.02293705940246582, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00022745132446289062, "timer/checkpoint.save_frac": 7.573070521304312e-07, "timer/checkpoint.save_avg": 0.00022745132446289062, "timer/checkpoint.save_min": 0.00022745132446289062, "timer/checkpoint.save_max": 0.00022745132446289062, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4912433624267578, "timer/agent.save_frac": 0.004965146355930469, "timer/agent.save_avg": 1.4912433624267578, "timer/agent.save_min": 1.4912433624267578, "timer/agent.save_max": 1.4912433624267578, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.510185241699219e-05, "timer/replay.save_frac": 2.5005421532608575e-07, "timer/replay.save_avg": 7.510185241699219e-05, "timer/replay.save_min": 7.510185241699219e-05, "timer/replay.save_max": 7.510185241699219e-05, "timer/agent.policy_count": 1428.0, "timer/agent.policy_total": 12.753077268600464, "timer/agent.policy_frac": 0.042461811882969096, "timer/agent.policy_avg": 0.008930726378571754, "timer/agent.policy_min": 0.005671501159667969, "timer/agent.policy_max": 1.4832298755645752, "timer/dataset_count": 714.0, "timer/dataset_total": 0.06077909469604492, "timer/dataset_frac": 0.00020236609808323093, "timer/dataset_avg": 8.512478248745788e-05, "timer/dataset_min": 6.389617919921875e-05, "timer/dataset_max": 0.0001952648162841797, "timer/agent.train_count": 714.0, "timer/agent.train_total": 265.1764621734619, "timer/agent.train_frac": 0.8829142030154484, "timer/agent.train_avg": 0.3713956052849607, "timer/agent.train_min": 0.3630983829498291, "timer/agent.train_max": 0.4288361072540283, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21845459938049316, "timer/agent.report_frac": 0.0007273521447801777, "timer/agent.report_avg": 0.21845459938049316, "timer/agent.report_min": 0.21845459938049316, "timer/agent.report_max": 0.21845459938049316, "fps": 4.7544733159222075}
{"step": 853606, "episode/length": 142.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.09090909090909091}
{"step": 853825, "episode/length": 218.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.700000040233135, "episode/reward_rate": 0.0684931506849315}
{"step": 854127, "episode/length": 301.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.04966887417218543}
{"step": 854331, "episode/length": 203.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.04411764705882353}
{"step": 854614, "episode/length": 282.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.04946996466431095}
{"step": 854858, "episode/length": 243.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.06147540983606557}
{"step": 854921, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.408298440175514, "train/action_min": 0.0, "train/action_std": 3.2327599296831107, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.039637130723424154, "train/actor_opt_grad_steps": 426550.0, "train/actor_opt_loss": -10.771889247306406, "train/adv_mag": 0.4000770723166531, "train/adv_max": 0.321787029096525, "train/adv_mean": 0.001977678134496011, "train/adv_min": -0.3655760706695792, "train/adv_std": 0.0439312303413267, "train/cont_avg": 0.9951038099315068, "train/cont_loss_mean": 0.00012527376239232388, "train/cont_loss_std": 0.003987723983328416, "train/cont_neg_acc": 0.9885416668322351, "train/cont_neg_loss": 0.05034156050168311, "train/cont_pos_acc": 0.9999999828534584, "train/cont_pos_loss": 2.937783583621545e-06, "train/cont_pred": 0.9951337608572555, "train/cont_rate": 0.9951038099315068, "train/dyn_loss_mean": 5.404858837388966, "train/dyn_loss_std": 8.869057590014314, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9169198878823894, "train/extr_critic_critic_opt_grad_steps": 426550.0, "train/extr_critic_critic_opt_loss": 15517.836312071919, "train/extr_critic_mag": 12.038383000517545, "train/extr_critic_max": 12.038383000517545, "train/extr_critic_mean": 3.8554088024243915, "train/extr_critic_min": -0.3437652702200903, "train/extr_critic_std": 2.8599459945339047, "train/extr_return_normed_mag": 1.3705184786287072, "train/extr_return_normed_max": 1.3705184786287072, "train/extr_return_normed_mean": 0.4102677678408688, "train/extr_return_normed_min": -0.08557849632550592, "train/extr_return_normed_std": 0.31247737983318224, "train/extr_return_rate": 0.8812598553422379, "train/extr_return_raw_mag": 12.749235100942116, "train/extr_return_raw_max": 12.749235100942116, "train/extr_return_raw_mean": 3.8736935478367216, "train/extr_return_raw_min": -0.7094122804191014, "train/extr_return_raw_std": 2.8879747586707545, "train/extr_reward_mag": 1.0739342872410604, "train/extr_reward_max": 1.0739342872410604, "train/extr_reward_mean": 0.06262918620383086, "train/extr_reward_min": -0.6260140105469586, "train/extr_reward_std": 0.24039342979045764, "train/image_loss_mean": 3.1909450210937083, "train/image_loss_std": 8.44648989585981, "train/model_loss_mean": 6.4900583045123375, "train/model_loss_std": 12.602624226922858, "train/model_opt_grad_norm": 22.97987589117599, "train/model_opt_grad_steps": 426204.0, "train/model_opt_loss": 8544.517036333476, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1318.4931506849316, "train/policy_entropy_mag": 2.667998062421198, "train/policy_entropy_max": 2.667998062421198, "train/policy_entropy_mean": 0.371558133053453, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5662168737960188, "train/policy_logprob_mag": 7.438384258583801, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.371213581055811, "train/policy_logprob_min": -7.438384258583801, "train/policy_logprob_std": 1.002348732458402, "train/policy_randomness_mag": 0.9416862358785656, "train/policy_randomness_max": 0.9416862358785656, "train/policy_randomness_mean": 0.13114371691664603, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19984970803130164, "train/post_ent_mag": 55.405992952111646, "train/post_ent_max": 55.405992952111646, "train/post_ent_mean": 40.42497985003746, "train/post_ent_min": 19.448536454814754, "train/post_ent_std": 5.755474573945346, "train/prior_ent_mag": 76.76251429727633, "train/prior_ent_max": 76.76251429727633, "train/prior_ent_mean": 45.8586303501913, "train/prior_ent_min": 28.041787709275336, "train/prior_ent_std": 7.696005742843837, "train/rep_loss_mean": 5.404858837388966, "train/rep_loss_std": 8.869057590014314, "train/reward_avg": 0.04201359144884021, "train/reward_loss_mean": 0.0560727289380276, "train/reward_loss_std": 0.21391703474195037, "train/reward_max_data": 1.0246575401253897, "train/reward_max_pred": 1.022959052699886, "train/reward_neg_acc": 0.9940552801302035, "train/reward_neg_loss": 0.023713078515680684, "train/reward_pos_acc": 0.9901335018954865, "train/reward_pos_loss": 0.7213348950425239, "train/reward_pred": 0.04170469541663993, "train/reward_rate": 0.046326519691780824, "stats/sum_log_reward": 12.600000381469727, "stats/max_log_achievement_collect_coal": 1.6666666666666667, "stats/max_log_achievement_collect_drink": 3.1666666666666665, "stats/max_log_achievement_collect_iron": 0.5, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 13.166666666666666, "stats/max_log_achievement_collect_wood": 15.0, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.6666666666666667, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 1.3333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.3333333333333333, "stats/max_log_achievement_place_plant": 1.1666666666666667, "stats/max_log_achievement_place_stone": 3.3333333333333335, "stats/max_log_achievement_place_table": 3.1666666666666665, "stats/max_log_achievement_wake_up": 2.5, "stats/mean_log_entropy": 0.4757862662275632, "replay/size": 854858.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.3624224610381074e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3962060540587038e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.051429271698, "timer/env.step_count": 1456.0, "timer/env.step_total": 18.081058025360107, "timer/env.step_frac": 0.06025986301497542, "timer/env.step_avg": 0.012418309083351722, "timer/env.step_min": 0.003058195114135742, "timer/env.step_max": 1.7562024593353271, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.27623796463012695, "timer/replay.add_frac": 0.0009206353900750533, "timer/replay.add_avg": 0.00018972387680640587, "timer/replay.add_min": 6.246566772460938e-05, "timer/replay.add_max": 0.004853725433349609, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030963897705078125, "timer/logger.write_frac": 0.00010319530148626677, "timer/logger.write_avg": 0.030963897705078125, "timer/logger.write_min": 0.030963897705078125, "timer/logger.write_max": 0.030963897705078125, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 10.819789171218872, "timer/agent.policy_frac": 0.03605978214295224, "timer/agent.policy_avg": 0.007431173881331643, "timer/agent.policy_min": 0.005600452423095703, "timer/agent.policy_max": 0.015403509140014648, "timer/dataset_count": 728.0, "timer/dataset_total": 0.062448740005493164, "timer/dataset_frac": 0.0002081267873213346, "timer/dataset_avg": 8.578123627128182e-05, "timer/dataset_min": 5.984306335449219e-05, "timer/dataset_max": 0.000156402587890625, "timer/agent.train_count": 728.0, "timer/agent.train_total": 270.11247634887695, "timer/agent.train_frac": 0.9002205955309376, "timer/agent.train_avg": 0.37103362135834744, "timer/agent.train_min": 0.36389994621276855, "timer/agent.train_max": 0.38416600227355957, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2190401554107666, "timer/agent.report_frac": 0.0007300087053157301, "timer/agent.report_avg": 0.2190401554107666, "timer/agent.report_min": 0.2190401554107666, "timer/agent.report_max": 0.2190401554107666, "fps": 4.852435497299794}
{"step": 855064, "episode/length": 205.0, "episode/score": 13.099999979138374, "episode/sum_abs_reward": 15.30000002682209, "episode/reward_rate": 0.06796116504854369}
{"step": 855287, "episode/length": 222.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.900000058114529, "episode/reward_rate": 0.06278026905829596}
{"step": 855376, "episode/length": 88.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.12359550561797752}
{"step": 855476, "episode/length": 99.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.1}
{"step": 855684, "episode/length": 207.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.0673076923076923}
{"step": 855879, "episode/length": 194.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.07179487179487179}
{"step": 856146, "episode/length": 266.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 11.5, "episode/reward_rate": 0.04119850187265917}
{"step": 856261, "episode/length": 114.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.899999976158142, "episode/reward_rate": 0.10434782608695652}
{"step": 856365, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.433208889431423, "train/action_min": 0.0, "train/action_std": 3.2309697104824915, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.040386167717062764, "train/actor_opt_grad_steps": 427275.0, "train/actor_opt_loss": -11.704347584810522, "train/adv_mag": 0.4105272139939997, "train/adv_max": 0.3556937041381995, "train/adv_mean": 0.0019272116927974519, "train/adv_min": -0.3538253069337871, "train/adv_std": 0.04461035422152943, "train/cont_avg": 0.9946831597222222, "train/cont_loss_mean": 1.2818686235347184e-05, "train/cont_loss_std": 0.00034757720971533164, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0002607461724753395, "train/cont_pos_acc": 0.9999999809596274, "train/cont_pos_loss": 1.1698102748406805e-05, "train/cont_pred": 0.9946734002894826, "train/cont_rate": 0.9946831597222222, "train/dyn_loss_mean": 5.460747811529371, "train/dyn_loss_std": 8.809227645397186, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9911223517523872, "train/extr_critic_critic_opt_grad_steps": 427275.0, "train/extr_critic_critic_opt_loss": 15615.829576280383, "train/extr_critic_mag": 12.055715494685703, "train/extr_critic_max": 12.055715494685703, "train/extr_critic_mean": 3.8760626680321164, "train/extr_critic_min": -0.3739228695631027, "train/extr_critic_std": 2.8939042720529766, "train/extr_return_normed_mag": 1.3837936056984796, "train/extr_return_normed_max": 1.3837936056984796, "train/extr_return_normed_mean": 0.4088572897017002, "train/extr_return_normed_min": -0.08934934354490703, "train/extr_return_normed_std": 0.31545676497949493, "train/extr_return_rate": 0.8747287748588456, "train/extr_return_raw_mag": 12.920654680993822, "train/extr_return_raw_max": 12.920654680993822, "train/extr_return_raw_mean": 3.893910742468304, "train/extr_return_raw_min": -0.7189745832648542, "train/extr_return_raw_std": 2.9207744896411896, "train/extr_reward_mag": 1.064123809337616, "train/extr_reward_max": 1.064123809337616, "train/extr_reward_mean": 0.061133141784618296, "train/extr_reward_min": -0.6328680382834541, "train/extr_reward_std": 0.2377658070375522, "train/image_loss_mean": 3.093182666434182, "train/image_loss_std": 8.3929596013493, "train/model_loss_mean": 6.426669458548228, "train/model_loss_std": 12.519821882247925, "train/model_opt_grad_norm": 22.759873270988464, "train/model_opt_grad_steps": 426929.0, "train/model_opt_loss": 16066.673624674479, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.658094343211916, "train/policy_entropy_max": 2.658094343211916, "train/policy_entropy_mean": 0.37080583742095363, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5544795729219913, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3703799429867003, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 0.9986140082279841, "train/policy_randomness_mag": 0.9381906547480159, "train/policy_randomness_max": 0.9381906547480159, "train/policy_randomness_mean": 0.13087818761252695, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19570695815814865, "train/post_ent_mag": 55.2577740351359, "train/post_ent_max": 55.2577740351359, "train/post_ent_mean": 40.50984255472819, "train/post_ent_min": 19.52217067612542, "train/post_ent_std": 5.8199553158548145, "train/prior_ent_mag": 76.69529872470432, "train/prior_ent_max": 76.69529872470432, "train/prior_ent_mean": 45.97978835635715, "train/prior_ent_min": 28.005629195107353, "train/prior_ent_std": 7.768651896052891, "train/rep_loss_mean": 5.460747811529371, "train/rep_loss_std": 8.809227645397186, "train/reward_avg": 0.04135742178186774, "train/reward_loss_mean": 0.05702521403630575, "train/reward_loss_std": 0.21479648600021997, "train/reward_max_data": 1.0194444490803614, "train/reward_max_pred": 1.0185447103447385, "train/reward_neg_acc": 0.9937614980671141, "train/reward_neg_loss": 0.02430947265949928, "train/reward_pos_acc": 0.9873984000749059, "train/reward_pos_loss": 0.7344338653816117, "train/reward_pred": 0.040743885949874915, "train/reward_rate": 0.04600694444444445, "stats/sum_log_reward": 11.100000143051147, "stats/max_log_achievement_collect_coal": 0.0, "stats/max_log_achievement_collect_drink": 2.875, "stats/max_log_achievement_collect_iron": 0.375, "stats/max_log_achievement_collect_sapling": 1.25, "stats/max_log_achievement_collect_stone": 9.0, "stats/max_log_achievement_collect_wood": 9.625, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.375, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_stone_pickaxe": 0.75, "stats/max_log_achievement_make_stone_sword": 0.5, "stats/max_log_achievement_make_wood_pickaxe": 1.125, "stats/max_log_achievement_make_wood_sword": 0.75, "stats/max_log_achievement_place_furnace": 1.125, "stats/max_log_achievement_place_plant": 1.125, "stats/max_log_achievement_place_stone": 1.875, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.3428390212357044, "replay/size": 856302.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.3981251914745554e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3881195284983457e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2010681629181, "timer/env.step_count": 1444.0, "timer/env.step_total": 20.374465465545654, "timer/env.step_frac": 0.06786939696859606, "timer/env.step_avg": 0.01410974062710918, "timer/env.step_min": 0.002882242202758789, "timer/env.step_max": 1.6774718761444092, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.282498836517334, "timer/replay.add_frac": 0.0009410320830838044, "timer/replay.add_avg": 0.0001956363133776551, "timer/replay.add_min": 6.985664367675781e-05, "timer/replay.add_max": 0.004748821258544922, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02788066864013672, "timer/logger.write_frac": 9.287331591040834e-05, "timer/logger.write_avg": 0.02788066864013672, "timer/logger.write_min": 0.02788066864013672, "timer/logger.write_max": 0.02788066864013672, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.65834927558899, "timer/agent.policy_frac": 0.035504035148218524, "timer/agent.policy_avg": 0.007381128307194591, "timer/agent.policy_min": 0.005545139312744141, "timer/agent.policy_max": 0.01603412628173828, "timer/dataset_count": 722.0, "timer/dataset_total": 0.06200742721557617, "timer/dataset_frac": 0.00020655298662003744, "timer/dataset_avg": 8.588286317946839e-05, "timer/dataset_min": 6.437301635742188e-05, "timer/dataset_max": 0.0001609325408935547, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.13362765312195, "timer/agent.train_frac": 0.8931801252206296, "timer/agent.train_avg": 0.3713762155860415, "timer/agent.train_min": 0.36374545097351074, "timer/agent.train_max": 0.3854377269744873, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21949124336242676, "timer/agent.report_frac": 0.000731147442964159, "timer/agent.report_avg": 0.21949124336242676, "timer/agent.report_min": 0.21949124336242676, "timer/agent.report_max": 0.21949124336242676, "fps": 4.810047061580215}
{"step": 856530, "episode/length": 268.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 15.500000014901161, "episode/reward_rate": 0.05204460966542751}
{"step": 856811, "episode/length": 280.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.05338078291814947}
{"step": 857064, "episode/length": 252.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.05533596837944664}
{"step": 857358, "episode/length": 293.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 17.500000059604645, "episode/reward_rate": 0.05102040816326531}
{"step": 857566, "episode/length": 207.0, "episode/score": 14.100000023841858, "episode/sum_abs_reward": 15.900000005960464, "episode/reward_rate": 0.07692307692307693}
{"step": 857755, "episode/length": 188.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.500000044703484, "episode/reward_rate": 0.06878306878306878}
{"step": 857799, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.381502787272136, "train/action_min": 0.0, "train/action_std": 3.2342074314753213, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04016379794726769, "train/actor_opt_grad_steps": 427995.0, "train/actor_opt_loss": -11.739358666870329, "train/adv_mag": 0.44084229071935016, "train/adv_max": 0.35747771627373165, "train/adv_mean": 0.002051371356477224, "train/adv_min": -0.40860910072094864, "train/adv_std": 0.044839083631005555, "train/cont_avg": 0.9946153428819444, "train/cont_loss_mean": 2.178105314085441e-05, "train/cont_loss_std": 0.0006354501387654131, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0011150165980976152, "train/cont_pos_acc": 0.9999863513641887, "train/cont_pos_loss": 1.549611292261943e-05, "train/cont_pred": 0.9946093691719903, "train/cont_rate": 0.9946153428819444, "train/dyn_loss_mean": 5.5510743326610985, "train/dyn_loss_std": 8.913969490263197, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9366031198037995, "train/extr_critic_critic_opt_grad_steps": 427995.0, "train/extr_critic_critic_opt_loss": 15469.922566731771, "train/extr_critic_mag": 12.161012834972805, "train/extr_critic_max": 12.161012834972805, "train/extr_critic_mean": 3.957173721657859, "train/extr_critic_min": -0.35361039141813916, "train/extr_critic_std": 2.891585119896465, "train/extr_return_normed_mag": 1.3875565694438086, "train/extr_return_normed_max": 1.3875565694438086, "train/extr_return_normed_mean": 0.4155513648357656, "train/extr_return_normed_min": -0.08936912866516246, "train/extr_return_normed_std": 0.31365126992265385, "train/extr_return_rate": 0.8927246563964419, "train/extr_return_raw_mag": 13.036125752660963, "train/extr_return_raw_max": 13.036125752660963, "train/extr_return_raw_mean": 3.9762904942035675, "train/extr_return_raw_min": -0.7297414259778129, "train/extr_return_raw_std": 2.92347080177731, "train/extr_reward_mag": 1.0731177992290921, "train/extr_reward_max": 1.0731177992290921, "train/extr_reward_mean": 0.062448445655819446, "train/extr_reward_min": -0.6186089449458652, "train/extr_reward_std": 0.24013509332305855, "train/image_loss_mean": 3.114445540640089, "train/image_loss_std": 8.527021368344625, "train/model_loss_mean": 6.503627128071255, "train/model_loss_std": 12.706486768192715, "train/model_opt_grad_norm": 23.85269366519552, "train/model_opt_grad_steps": 427648.2638888889, "train/model_opt_loss": 16343.293762207031, "train/model_opt_model_opt_grad_overflow": 0.013888888888888888, "train/model_opt_model_opt_grad_scale": 2482.6388888888887, "train/policy_entropy_mag": 2.6760693987210593, "train/policy_entropy_max": 2.6760693987210593, "train/policy_entropy_mean": 0.3636590482460128, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5547910063631005, "train/policy_logprob_mag": 7.438384274641673, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36388626218669945, "train/policy_logprob_min": -7.438384274641673, "train/policy_logprob_std": 0.9977544811036851, "train/policy_randomness_mag": 0.9445350625448756, "train/policy_randomness_max": 0.9445350625448756, "train/policy_randomness_mean": 0.128355684897138, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19581688081638682, "train/post_ent_mag": 55.22091351615058, "train/post_ent_max": 55.22091351615058, "train/post_ent_mean": 40.364417182074654, "train/post_ent_min": 19.612249188952976, "train/post_ent_std": 5.6927682757377625, "train/prior_ent_mag": 76.65295759836833, "train/prior_ent_max": 76.65295759836833, "train/prior_ent_mean": 45.93604034847684, "train/prior_ent_min": 28.126973231633503, "train/prior_ent_std": 7.725697649849786, "train/rep_loss_mean": 5.5510743326610985, "train/rep_loss_std": 8.913969490263197, "train/reward_avg": 0.04277750647937258, "train/reward_loss_mean": 0.05851517001994782, "train/reward_loss_std": 0.21550933519999185, "train/reward_max_data": 1.0236111167404387, "train/reward_max_pred": 1.0239789485931396, "train/reward_neg_acc": 0.9939880826407008, "train/reward_neg_loss": 0.025547495525744226, "train/reward_pos_acc": 0.9899617118967904, "train/reward_pos_loss": 0.7213663938972685, "train/reward_pred": 0.04256484929161767, "train/reward_rate": 0.04745822482638889, "stats/sum_log_reward": 13.266666730244955, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 4.166666666666667, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 16.0, "stats/max_log_achievement_collect_wood": 12.5, "stats/max_log_achievement_defeat_skeleton": 0.3333333333333333, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_stone": 4.166666666666667, "stats/max_log_achievement_place_table": 3.5, "stats/max_log_achievement_wake_up": 1.8333333333333333, "stats/mean_log_entropy": 0.5799858520428339, "replay/size": 857736.0, "replay/inserts": 1434.0, "replay/samples": 11472.0, "replay/insert_wait_avg": 3.433294043547605e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3862859920145245e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.12935304641724, "timer/env.step_count": 1434.0, "timer/env.step_total": 19.361384391784668, "timer/env.step_frac": 0.06451013269865105, "timer/env.step_avg": 0.013501662755777313, "timer/env.step_min": 0.002671480178833008, "timer/env.step_max": 1.8936491012573242, "timer/replay.add_count": 1434.0, "timer/replay.add_total": 0.2879221439361572, "timer/replay.add_frac": 0.0009593268402895199, "timer/replay.add_avg": 0.00020078252715213197, "timer/replay.add_min": 6.890296936035156e-05, "timer/replay.add_max": 0.0043714046478271484, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02317500114440918, "timer/logger.write_frac": 7.721670975922503e-05, "timer/logger.write_avg": 0.02317500114440918, "timer/logger.write_min": 0.02317500114440918, "timer/logger.write_max": 0.02317500114440918, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002181529998779297, "timer/checkpoint.save_frac": 7.268632596698754e-07, "timer/checkpoint.save_avg": 0.0002181529998779297, "timer/checkpoint.save_min": 0.0002181529998779297, "timer/checkpoint.save_max": 0.0002181529998779297, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2118630409240723, "timer/agent.save_frac": 0.004037802462915544, "timer/agent.save_avg": 1.2118630409240723, "timer/agent.save_min": 1.2118630409240723, "timer/agent.save_max": 1.2118630409240723, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.963180541992188e-05, "timer/replay.save_frac": 2.6532494943140807e-07, "timer/replay.save_avg": 7.963180541992188e-05, "timer/replay.save_min": 7.963180541992188e-05, "timer/replay.save_max": 7.963180541992188e-05, "timer/agent.policy_count": 1434.0, "timer/agent.policy_total": 12.567569732666016, "timer/agent.policy_frac": 0.0418738440778978, "timer/agent.policy_avg": 0.008763995629474209, "timer/agent.policy_min": 0.00575566291809082, "timer/agent.policy_max": 1.2067465782165527, "timer/dataset_count": 717.0, "timer/dataset_total": 0.062279701232910156, "timer/dataset_frac": 0.00020750953080979765, "timer/dataset_avg": 8.686150799569059e-05, "timer/dataset_min": 6.532669067382812e-05, "timer/dataset_max": 0.0001678466796875, "timer/agent.train_count": 717.0, "timer/agent.train_total": 267.16935873031616, "timer/agent.train_frac": 0.8901807038147196, "timer/agent.train_avg": 0.37262114188328616, "timer/agent.train_min": 0.3643937110900879, "timer/agent.train_max": 0.9340367317199707, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21845364570617676, "timer/agent.report_frac": 0.0007278649805118904, "timer/agent.report_avg": 0.21845364570617676, "timer/agent.report_min": 0.21845364570617676, "timer/agent.report_max": 0.21845364570617676, "fps": 4.777838589126071}
{"step": 857923, "episode/length": 167.0, "episode/score": 14.099999979138374, "episode/sum_abs_reward": 16.700000032782555, "episode/reward_rate": 0.08928571428571429}
{"step": 858092, "episode/length": 168.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.07692307692307693}
{"step": 858133, "episode/length": 40.0, "episode/score": -0.9000000134110451, "episode/sum_abs_reward": 1.1000000163912773, "episode/reward_rate": 0.0}
{"step": 858352, "episode/length": 218.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.0684931506849315}
{"step": 858446, "episode/length": 93.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 11.300000041723251, "episode/reward_rate": 0.10638297872340426}
{"step": 858637, "episode/length": 190.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.05759162303664921}
{"step": 858862, "episode/length": 224.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 15.1000000461936, "episode/reward_rate": 0.057777777777777775}
{"step": 859061, "episode/length": 198.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.07035175879396985}
{"step": 859240, "episode/length": 178.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.0446927374301676}
{"step": 859241, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.434113396538629, "train/action_min": 0.0, "train/action_std": 3.2941780520810022, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03875338674212495, "train/actor_opt_grad_steps": 428715.0, "train/actor_opt_loss": -11.862559263077047, "train/adv_mag": 0.42834743795295555, "train/adv_max": 0.3564729622254769, "train/adv_mean": 0.002051707782543291, "train/adv_min": -0.37708723669250804, "train/adv_std": 0.043742733334915504, "train/cont_avg": 0.9947509765625, "train/cont_loss_mean": 7.764205298589468e-06, "train/cont_loss_std": 0.00022028742777951353, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 5.891572223030531e-05, "train/cont_pos_acc": 0.999999982615312, "train/cont_pos_loss": 7.535791210896055e-06, "train/cont_pred": 0.9947444953852229, "train/cont_rate": 0.9947509765625, "train/dyn_loss_mean": 5.332105974356334, "train/dyn_loss_std": 8.817600925763449, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9535632679859797, "train/extr_critic_critic_opt_grad_steps": 428715.0, "train/extr_critic_critic_opt_loss": 15570.253214518229, "train/extr_critic_mag": 12.226216395696005, "train/extr_critic_max": 12.226216395696005, "train/extr_critic_mean": 3.7701563603348203, "train/extr_critic_min": -0.3828466915422016, "train/extr_critic_std": 2.9494765632682376, "train/extr_return_normed_mag": 1.3848190324174032, "train/extr_return_normed_max": 1.3848190324174032, "train/extr_return_normed_mean": 0.39696089716421235, "train/extr_return_normed_min": -0.08903418688310517, "train/extr_return_normed_std": 0.32038162276148796, "train/extr_return_rate": 0.8616555026835866, "train/extr_return_raw_mag": 12.976778745651245, "train/extr_return_raw_max": 12.976778745651245, "train/extr_return_raw_mean": 3.78923370440801, "train/extr_return_raw_min": -0.7300155382189486, "train/extr_return_raw_std": 2.979583591222763, "train/extr_reward_mag": 1.0662911766105228, "train/extr_reward_max": 1.0662911766105228, "train/extr_reward_mean": 0.06036369957857662, "train/extr_reward_min": -0.6279886116584142, "train/extr_reward_std": 0.23701030885179838, "train/image_loss_mean": 3.1969775789313846, "train/image_loss_std": 8.01080873939726, "train/model_loss_mean": 6.452613876925574, "train/model_loss_std": 12.110225624508328, "train/model_opt_grad_norm": 23.391869849628872, "train/model_opt_grad_steps": 428367.0, "train/model_opt_loss": 8065.767354329427, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.6787365708086224, "train/policy_entropy_max": 2.6787365708086224, "train/policy_entropy_mean": 0.39593352004885674, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5908959615561697, "train/policy_logprob_mag": 7.438384241527981, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3951626337236828, "train/policy_logprob_min": -7.438384241527981, "train/policy_logprob_std": 1.0216392576694489, "train/policy_randomness_mag": 0.9454764591323005, "train/policy_randomness_max": 0.9454764591323005, "train/policy_randomness_mean": 0.13974715696854723, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2085603451770213, "train/post_ent_mag": 55.35922818713718, "train/post_ent_max": 55.35922818713718, "train/post_ent_mean": 40.57796918021308, "train/post_ent_min": 19.564460304048325, "train/post_ent_std": 5.774907032648723, "train/prior_ent_mag": 76.75378735860188, "train/prior_ent_max": 76.75378735860188, "train/prior_ent_mean": 45.89417436387804, "train/prior_ent_min": 27.953677866193985, "train/prior_ent_std": 7.698143561681111, "train/rep_loss_mean": 5.332105974356334, "train/rep_loss_std": 8.817600925763449, "train/reward_avg": 0.04051920541355179, "train/reward_loss_mean": 0.056365023729287915, "train/reward_loss_std": 0.21152627074884045, "train/reward_max_data": 1.0291666736205418, "train/reward_max_pred": 1.0287389953931172, "train/reward_neg_acc": 0.9936187515656153, "train/reward_neg_loss": 0.02492591878399253, "train/reward_pos_acc": 0.9916584061251746, "train/reward_pos_loss": 0.7179595149225659, "train/reward_pred": 0.04031282329621414, "train/reward_rate": 0.045355902777777776, "stats/sum_log_reward": 10.099999970859951, "stats/max_log_achievement_collect_coal": 0.3333333333333333, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 0.8888888888888888, "stats/max_log_achievement_collect_stone": 7.777777777777778, "stats/max_log_achievement_collect_wood": 10.88888888888889, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.1111111111111112, "stats/max_log_achievement_eat_cow": 0.2222222222222222, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.3333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 0.7777777777777778, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.5555555555555556, "stats/max_log_achievement_place_plant": 0.7777777777777778, "stats/max_log_achievement_place_stone": 1.4444444444444444, "stats/max_log_achievement_place_table": 2.5555555555555554, "stats/max_log_achievement_wake_up": 1.1111111111111112, "stats/mean_log_entropy": 0.29802096883455914, "replay/size": 859178.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.4992307961896454e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3878747262835668e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 301.5683784484863, "timer/env.step_count": 1442.0, "timer/env.step_total": 21.962581396102905, "timer/env.step_frac": 0.0728278658030936, "timer/env.step_avg": 0.01523063897094515, "timer/env.step_min": 0.002995014190673828, "timer/env.step_max": 1.7500441074371338, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.2783033847808838, "timer/replay.add_frac": 0.000922853338313199, "timer/replay.add_avg": 0.00019299818639451026, "timer/replay.add_min": 7.152557373046875e-05, "timer/replay.add_max": 0.004996538162231445, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03308844566345215, "timer/logger.write_frac": 0.00010972120430426458, "timer/logger.write_avg": 0.03308844566345215, "timer/logger.write_min": 0.03308844566345215, "timer/logger.write_max": 0.03308844566345215, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 10.700493335723877, "timer/agent.policy_frac": 0.03548280953983286, "timer/agent.policy_avg": 0.007420591772346655, "timer/agent.policy_min": 0.005763053894042969, "timer/agent.policy_max": 0.017119884490966797, "timer/dataset_count": 721.0, "timer/dataset_total": 0.061246395111083984, "timer/dataset_frac": 0.00020309289530349764, "timer/dataset_avg": 8.494645646474894e-05, "timer/dataset_min": 6.4849853515625e-05, "timer/dataset_max": 0.0001494884490966797, "timer/agent.train_count": 721.0, "timer/agent.train_total": 267.8693480491638, "timer/agent.train_frac": 0.8882540982158083, "timer/agent.train_avg": 0.3715247545758167, "timer/agent.train_min": 0.36501002311706543, "timer/agent.train_max": 0.38433384895324707, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21885371208190918, "timer/agent.report_frac": 0.0007257183701019024, "timer/agent.report_avg": 0.21885371208190918, "timer/agent.report_min": 0.21885371208190918, "timer/agent.report_max": 0.21885371208190918, "fps": 4.781560894779787}
{"step": 859323, "episode/length": 82.0, "episode/score": 7.099999971687794, "episode/sum_abs_reward": 9.500000037252903, "episode/reward_rate": 0.10843373493975904}
{"step": 859514, "episode/length": 190.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 10.100000031292439, "episode/reward_rate": 0.04712041884816754}
{"step": 859760, "episode/length": 245.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 18.10000003129244, "episode/reward_rate": 0.06504065040650407}
{"step": 859879, "episode/length": 118.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.09243697478991597}
{"step": 860056, "episode/length": 176.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.07909604519774012}
{"step": 860329, "episode/length": 272.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.054945054945054944}
{"step": 860530, "episode/length": 200.0, "episode/score": 15.099999979138374, "episode/sum_abs_reward": 17.700000032782555, "episode/reward_rate": 0.07960199004975124}
{"step": 860691, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.386376274956597, "train/action_min": 0.0, "train/action_std": 3.254243916935391, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.040050037696750626, "train/actor_opt_grad_steps": 429435.0, "train/actor_opt_loss": -11.572872906923294, "train/adv_mag": 0.46391957956883645, "train/adv_max": 0.3676073257293966, "train/adv_mean": 0.0021573394314550066, "train/adv_min": -0.41883970693581635, "train/adv_std": 0.04503809717587299, "train/cont_avg": 0.9947374131944444, "train/cont_loss_mean": 0.000201859267035963, "train/cont_loss_std": 0.006144104179533964, "train/cont_neg_acc": 0.9945436517397562, "train/cont_neg_loss": 0.031502499911320134, "train/cont_pos_acc": 0.9999726166327795, "train/cont_pos_loss": 4.3578255373747744e-05, "train/cont_pred": 0.9947382402088907, "train/cont_rate": 0.9947374131944444, "train/dyn_loss_mean": 5.483529322677189, "train/dyn_loss_std": 8.956242031521267, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9703809950086806, "train/extr_critic_critic_opt_grad_steps": 429435.0, "train/extr_critic_critic_opt_loss": 15635.680352105035, "train/extr_critic_mag": 12.13291507297092, "train/extr_critic_max": 12.13291507297092, "train/extr_critic_mean": 3.885535094473097, "train/extr_critic_min": -0.37004296647177803, "train/extr_critic_std": 2.8910723858409457, "train/extr_return_normed_mag": 1.3751592652665243, "train/extr_return_normed_max": 1.3751592652665243, "train/extr_return_normed_mean": 0.4088388362692462, "train/extr_return_normed_min": -0.08855212961013119, "train/extr_return_normed_std": 0.3126377726180686, "train/extr_return_rate": 0.8732937739955055, "train/extr_return_raw_mag": 12.938419527477688, "train/extr_return_raw_max": 12.938419527477688, "train/extr_return_raw_mean": 3.9056955873966217, "train/extr_return_raw_min": -0.7437680839664407, "train/extr_return_raw_std": 2.9226416614320545, "train/extr_reward_mag": 1.0768582655323877, "train/extr_reward_max": 1.0768582655323877, "train/extr_reward_mean": 0.06231398337210218, "train/extr_reward_min": -0.6597067614396414, "train/extr_reward_std": 0.2398035969171259, "train/image_loss_mean": 3.240386817190382, "train/image_loss_std": 8.546769559383392, "train/model_loss_mean": 6.589376476075914, "train/model_loss_std": 12.754574020703634, "train/model_opt_grad_norm": 21.61195809311337, "train/model_opt_grad_steps": 429087.0, "train/model_opt_loss": 14143.971754286023, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2152.777777777778, "train/policy_entropy_mag": 2.6697953508959875, "train/policy_entropy_max": 2.6697953508959875, "train/policy_entropy_mean": 0.3596267689847284, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5452959082192845, "train/policy_logprob_mag": 7.438384274641673, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3590250081486172, "train/policy_logprob_min": -7.438384274641673, "train/policy_logprob_std": 0.9926308178239398, "train/policy_randomness_mag": 0.9423205960128043, "train/policy_randomness_max": 0.9423205960128043, "train/policy_randomness_mean": 0.12693246598872873, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19246552656922075, "train/post_ent_mag": 55.05963659286499, "train/post_ent_max": 55.05963659286499, "train/post_ent_mean": 40.44407404793633, "train/post_ent_min": 19.410348494847614, "train/post_ent_std": 5.699942065609826, "train/prior_ent_mag": 76.74220095740424, "train/prior_ent_max": 76.74220095740424, "train/prior_ent_mean": 45.89141798019409, "train/prior_ent_min": 27.69787777794732, "train/prior_ent_std": 7.659904142220815, "train/rep_loss_mean": 5.483529322677189, "train/rep_loss_std": 8.956242031521267, "train/reward_avg": 0.04171006935131219, "train/reward_loss_mean": 0.05867028427827689, "train/reward_loss_std": 0.22584176187713942, "train/reward_max_data": 1.0347222305006452, "train/reward_max_pred": 1.0333458814356062, "train/reward_neg_acc": 0.9935062047508028, "train/reward_neg_loss": 0.025701635814685788, "train/reward_pos_acc": 0.9874894320964813, "train/reward_pos_loss": 0.73787721991539, "train/reward_pred": 0.04130908570045398, "train/reward_rate": 0.046454535590277776, "stats/sum_log_reward": 11.81428575515747, "stats/max_log_achievement_collect_coal": 0.8571428571428571, "stats/max_log_achievement_collect_drink": 1.5714285714285714, "stats/max_log_achievement_collect_iron": 0.14285714285714285, "stats/max_log_achievement_collect_sapling": 1.1428571428571428, "stats/max_log_achievement_collect_stone": 11.571428571428571, "stats/max_log_achievement_collect_wood": 11.0, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.1428571428571428, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.7142857142857143, "stats/max_log_achievement_make_stone_sword": 0.8571428571428571, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.1428571428571428, "stats/max_log_achievement_place_plant": 0.8571428571428571, "stats/max_log_achievement_place_stone": 2.857142857142857, "stats/max_log_achievement_place_table": 2.857142857142857, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.37263224593230654, "replay/size": 860628.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.4090568279397897e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3637953791125068e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1908075809479, "timer/env.step_count": 1450.0, "timer/env.step_total": 19.354122400283813, "timer/env.step_frac": 0.06447273504557557, "timer/env.step_avg": 0.013347670620885389, "timer/env.step_min": 0.002935647964477539, "timer/env.step_max": 1.8109705448150635, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.2654247283935547, "timer/replay.add_frac": 0.0008841867295419486, "timer/replay.add_avg": 0.00018305153682314116, "timer/replay.add_min": 6.67572021484375e-05, "timer/replay.add_max": 0.004248857498168945, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028038978576660156, "timer/logger.write_frac": 9.340385471030558e-05, "timer/logger.write_avg": 0.028038978576660156, "timer/logger.write_min": 0.028038978576660156, "timer/logger.write_max": 0.028038978576660156, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 10.595210075378418, "timer/agent.policy_frac": 0.035294918457892385, "timer/agent.policy_avg": 0.0073070414312954605, "timer/agent.policy_min": 0.005742788314819336, "timer/agent.policy_max": 0.01511240005493164, "timer/dataset_count": 725.0, "timer/dataset_total": 0.06146359443664551, "timer/dataset_frac": 0.00020474842295119765, "timer/dataset_avg": 8.477737163675242e-05, "timer/dataset_min": 6.341934204101562e-05, "timer/dataset_max": 0.00015497207641601562, "timer/agent.train_count": 725.0, "timer/agent.train_total": 269.23053002357483, "timer/agent.train_frac": 0.8968646714839046, "timer/agent.train_avg": 0.3713524552049308, "timer/agent.train_min": 0.36464834213256836, "timer/agent.train_max": 0.3899497985839844, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2182621955871582, "timer/agent.report_frac": 0.0007270782118413228, "timer/agent.report_avg": 0.2182621955871582, "timer/agent.report_min": 0.2182621955871582, "timer/agent.report_max": 0.2182621955871582, "fps": 4.830187114079637}
{"step": 860769, "episode/length": 238.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.30000001937151, "episode/reward_rate": 0.06694560669456066}
{"step": 860966, "episode/length": 196.0, "episode/score": 13.100000023841858, "episode/sum_abs_reward": 15.700000017881393, "episode/reward_rate": 0.07614213197969544}
{"step": 861142, "episode/length": 175.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.900000043213367, "episode/reward_rate": 0.0625}
{"step": 861301, "episode/length": 158.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.07547169811320754}
{"step": 861488, "episode/length": 186.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.0481283422459893}
{"step": 861752, "episode/length": 263.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.04924242424242424}
{"step": 861842, "episode/length": 89.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.12222222222222222}
{"step": 861990, "episode/length": 147.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.899999968707561, "episode/reward_rate": 0.08108108108108109}
{"step": 862111, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.313600352112676, "train/action_min": 0.0, "train/action_std": 3.183221293167329, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038437606215896744, "train/actor_opt_grad_steps": 430150.0, "train/actor_opt_loss": -13.337387786784642, "train/adv_mag": 0.4314328612576068, "train/adv_max": 0.36816058276404795, "train/adv_mean": 0.001376682598431575, "train/adv_min": -0.3687736169553139, "train/adv_std": 0.043450890922210585, "train/cont_avg": 0.9950896786971831, "train/cont_loss_mean": 3.0639883523259785e-05, "train/cont_loss_std": 0.0008913926902369946, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 5.6931622108130555e-05, "train/cont_pos_acc": 0.9999861020437428, "train/cont_pos_loss": 3.0571490721603e-05, "train/cont_pred": 0.995066782958071, "train/cont_rate": 0.9950896786971831, "train/dyn_loss_mean": 5.616688332087557, "train/dyn_loss_std": 8.905722194994, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 1.0090695686743294, "train/extr_critic_critic_opt_grad_steps": 430150.0, "train/extr_critic_critic_opt_loss": 15789.995777398768, "train/extr_critic_mag": 12.330573444635096, "train/extr_critic_max": 12.330573444635096, "train/extr_critic_mean": 3.7948821967756245, "train/extr_critic_min": -0.38880619196824623, "train/extr_critic_std": 2.9523319022756227, "train/extr_return_normed_mag": 1.3776707699601078, "train/extr_return_normed_max": 1.3776707699601078, "train/extr_return_normed_mean": 0.39588248393904996, "train/extr_return_normed_min": -0.08612150247667877, "train/extr_return_normed_std": 0.31651023471019635, "train/extr_return_rate": 0.8616812002490943, "train/extr_return_raw_mag": 13.048190385522977, "train/extr_return_raw_max": 13.048190385522977, "train/extr_return_raw_mean": 3.807832056367901, "train/extr_return_raw_min": -0.728296591782234, "train/extr_return_raw_std": 2.9790148164185, "train/extr_reward_mag": 1.0751483843360148, "train/extr_reward_max": 1.0751483843360148, "train/extr_reward_mean": 0.05955114525178788, "train/extr_reward_min": -0.6117554550439539, "train/extr_reward_std": 0.23492638179114167, "train/image_loss_mean": 3.2982673896870143, "train/image_loss_std": 8.52727677788533, "train/model_loss_mean": 6.725768082578417, "train/model_loss_std": 12.751833754526057, "train/model_opt_grad_norm": 23.032831420361155, "train/model_opt_grad_steps": 429801.7042253521, "train/model_opt_loss": 17279.79375275088, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2570.4225352112676, "train/policy_entropy_mag": 2.678970823825245, "train/policy_entropy_max": 2.678970823825245, "train/policy_entropy_mean": 0.3647653086924217, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5479145377454623, "train/policy_logprob_mag": 7.438384277719847, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36508255189573263, "train/policy_logprob_min": -7.438384277719847, "train/policy_logprob_std": 0.9986836137905927, "train/policy_randomness_mag": 0.9455591381435663, "train/policy_randomness_max": 0.9455591381435663, "train/policy_randomness_mean": 0.12874614688712108, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19338978753543237, "train/post_ent_mag": 55.58933580425423, "train/post_ent_max": 55.58933580425423, "train/post_ent_mean": 40.75493557352415, "train/post_ent_min": 19.183657673043264, "train/post_ent_std": 5.88228861043151, "train/prior_ent_mag": 76.73017775844521, "train/prior_ent_max": 76.73017775844521, "train/prior_ent_mean": 46.371401504731516, "train/prior_ent_min": 28.181489622089224, "train/prior_ent_std": 7.707627269583688, "train/rep_loss_mean": 5.616688332087557, "train/rep_loss_std": 8.905722194994, "train/reward_avg": 0.041334727306810905, "train/reward_loss_mean": 0.05745708522662311, "train/reward_loss_std": 0.21912177851502324, "train/reward_max_data": 1.0281690208005234, "train/reward_max_pred": 1.0219489621444486, "train/reward_neg_acc": 0.9931655484186092, "train/reward_neg_loss": 0.024878672966864745, "train/reward_pos_acc": 0.9867477299461902, "train/reward_pos_loss": 0.7377392674835634, "train/reward_pred": 0.04085135069006766, "train/reward_rate": 0.045774647887323945, "stats/sum_log_reward": 11.100000262260437, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 1.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 12.625, "stats/max_log_achievement_collect_wood": 9.75, "stats/max_log_achievement_defeat_skeleton": 0.25, "stats/max_log_achievement_defeat_zombie": 1.25, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_stone_pickaxe": 0.375, "stats/max_log_achievement_make_stone_sword": 1.125, "stats/max_log_achievement_make_wood_pickaxe": 1.25, "stats/max_log_achievement_make_wood_sword": 0.75, "stats/max_log_achievement_place_furnace": 1.25, "stats/max_log_achievement_place_plant": 0.875, "stats/max_log_achievement_place_stone": 2.75, "stats/max_log_achievement_place_table": 2.625, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3197896424680948, "replay/size": 862048.0, "replay/inserts": 1420.0, "replay/samples": 11360.0, "replay/insert_wait_avg": 3.3993116566832635e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2850467587860537e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.00804018974304, "timer/env.step_count": 1420.0, "timer/env.step_total": 22.495567321777344, "timer/env.step_frac": 0.07498321480834247, "timer/env.step_avg": 0.015841948818153057, "timer/env.step_min": 0.0027713775634765625, "timer/env.step_max": 1.8793916702270508, "timer/replay.add_count": 1420.0, "timer/replay.add_total": 0.2510373592376709, "timer/replay.add_frac": 0.0008367687715265892, "timer/replay.add_avg": 0.00017678687270258515, "timer/replay.add_min": 7.462501525878906e-05, "timer/replay.add_max": 0.0047299861907958984, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028545379638671875, "timer/logger.write_frac": 9.514871541648707e-05, "timer/logger.write_avg": 0.028545379638671875, "timer/logger.write_min": 0.028545379638671875, "timer/logger.write_max": 0.028545379638671875, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003590583801269531, "timer/checkpoint.save_frac": 1.1968291913105498e-06, "timer/checkpoint.save_avg": 0.0003590583801269531, "timer/checkpoint.save_min": 0.0003590583801269531, "timer/checkpoint.save_max": 0.0003590583801269531, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2577195167541504, "timer/agent.save_frac": 0.004192286033263286, "timer/agent.save_avg": 1.2577195167541504, "timer/agent.save_min": 1.2577195167541504, "timer/agent.save_max": 1.2577195167541504, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.842613220214844e-05, "timer/replay.save_frac": 2.2808099462558287e-07, "timer/replay.save_avg": 6.842613220214844e-05, "timer/replay.save_min": 6.842613220214844e-05, "timer/replay.save_max": 6.842613220214844e-05, "timer/agent.policy_count": 1420.0, "timer/agent.policy_total": 12.19535493850708, "timer/agent.policy_frac": 0.040650093680136064, "timer/agent.policy_avg": 0.008588278125709212, "timer/agent.policy_min": 0.005669593811035156, "timer/agent.policy_max": 1.2452294826507568, "timer/dataset_count": 710.0, "timer/dataset_total": 0.05957293510437012, "timer/dataset_frac": 0.00019857112851606452, "timer/dataset_avg": 8.39055424005213e-05, "timer/dataset_min": 6.413459777832031e-05, "timer/dataset_max": 0.0002079010009765625, "timer/agent.train_count": 710.0, "timer/agent.train_total": 264.3269064426422, "timer/agent.train_frac": 0.8810660750140765, "timer/agent.train_avg": 0.3722914175248482, "timer/agent.train_min": 0.3646848201751709, "timer/agent.train_max": 0.8652656078338623, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2223811149597168, "timer/agent.report_frac": 0.0007412505172163708, "timer/agent.report_avg": 0.2223811149597168, "timer/agent.report_min": 0.2223811149597168, "timer/agent.report_max": 0.2223811149597168, "fps": 4.7331411964740955}
{"step": 862146, "episode/length": 155.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.0641025641025641}
{"step": 862202, "episode/length": 55.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.099999994039536, "episode/reward_rate": 0.14285714285714285}
{"step": 862416, "episode/length": 213.0, "episode/score": 5.099999979138374, "episode/sum_abs_reward": 8.100000038743019, "episode/reward_rate": 0.028037383177570093}
{"step": 862518, "episode/length": 101.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.0784313725490196}
{"step": 862772, "episode/length": 253.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 16.10000005364418, "episode/reward_rate": 0.05511811023622047}
{"step": 862980, "episode/length": 207.0, "episode/score": 14.099999964237213, "episode/sum_abs_reward": 16.5, "episode/reward_rate": 0.07211538461538461}
{"step": 863200, "episode/length": 219.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.5, "episode/reward_rate": 0.05909090909090909}
{"step": 863378, "episode/length": 177.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 11.900000043213367, "episode/reward_rate": 0.056179775280898875}
{"step": 863553, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.379115634494358, "train/action_min": 0.0, "train/action_std": 3.231245024336709, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03836943258324431, "train/actor_opt_grad_steps": 430865.0, "train/actor_opt_loss": -13.197100489503807, "train/adv_mag": 0.4439653240972095, "train/adv_max": 0.3657689553995927, "train/adv_mean": 0.0015502658609168269, "train/adv_min": -0.3828276087426477, "train/adv_std": 0.04364373359001345, "train/cont_avg": 0.9947102864583334, "train/cont_loss_mean": 0.00017235558736978303, "train/cont_loss_std": 0.005481755536429489, "train/cont_neg_acc": 0.9971830987594497, "train/cont_neg_loss": 0.03522405784021523, "train/cont_pos_acc": 0.9999999875823656, "train/cont_pos_loss": 3.1087168492020347e-06, "train/cont_pred": 0.9947228514485889, "train/cont_rate": 0.9947102864583334, "train/dyn_loss_mean": 5.374751627445221, "train/dyn_loss_std": 8.85924983686871, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9498088649577565, "train/extr_critic_critic_opt_grad_steps": 430865.0, "train/extr_critic_critic_opt_loss": 15469.494656032986, "train/extr_critic_mag": 12.16543702284495, "train/extr_critic_max": 12.16543702284495, "train/extr_critic_mean": 3.873898747894499, "train/extr_critic_min": -0.3560303664869732, "train/extr_critic_std": 2.9874713818232217, "train/extr_return_normed_mag": 1.3806811852587595, "train/extr_return_normed_max": 1.3806811852587595, "train/extr_return_normed_mean": 0.4094303117858039, "train/extr_return_normed_min": -0.0856018932018843, "train/extr_return_normed_std": 0.3228832520544529, "train/extr_return_rate": 0.8719455732239617, "train/extr_return_raw_mag": 12.953980724016825, "train/extr_return_raw_max": 12.953980724016825, "train/extr_return_raw_mean": 3.888383620315128, "train/extr_return_raw_min": -0.7325060479342937, "train/extr_return_raw_std": 3.014011287026935, "train/extr_reward_mag": 1.0648021366861131, "train/extr_reward_max": 1.0648021366861131, "train/extr_reward_mean": 0.06223810940153069, "train/extr_reward_min": -0.6578462438450919, "train/extr_reward_std": 0.24029030154148737, "train/image_loss_mean": 3.112445536586973, "train/image_loss_std": 8.419377823670706, "train/model_loss_mean": 6.395876361264123, "train/model_loss_std": 12.528447932667202, "train/model_opt_grad_norm": 26.473725875218708, "train/model_opt_grad_steps": 430516.0, "train/model_opt_loss": 15989.690877278646, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6749625437789493, "train/policy_entropy_max": 2.6749625437789493, "train/policy_entropy_mean": 0.3611079984241062, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5532101794249482, "train/policy_logprob_mag": 7.438384268018934, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.361180617991421, "train/policy_logprob_min": -7.438384268018934, "train/policy_logprob_std": 0.9949372857809067, "train/policy_randomness_mag": 0.9441443938348029, "train/policy_randomness_max": 0.9441443938348029, "train/policy_randomness_mean": 0.12745527695450518, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19525891739047235, "train/post_ent_mag": 55.40551312764486, "train/post_ent_max": 55.40551312764486, "train/post_ent_mean": 40.48600456449721, "train/post_ent_min": 19.503690097067093, "train/post_ent_std": 5.767530123392741, "train/prior_ent_mag": 76.65431393517389, "train/prior_ent_max": 76.65431393517389, "train/prior_ent_mean": 45.8691521220737, "train/prior_ent_min": 28.112828916973537, "train/prior_ent_std": 7.761764943599701, "train/rep_loss_mean": 5.374751627445221, "train/rep_loss_std": 8.85924983686871, "train/reward_avg": 0.04246690509737366, "train/reward_loss_mean": 0.058407537225219935, "train/reward_loss_std": 0.21559504688613945, "train/reward_max_data": 1.0208333383003871, "train/reward_max_pred": 1.018051736884647, "train/reward_neg_acc": 0.9930409275823169, "train/reward_neg_loss": 0.02542624345773624, "train/reward_pos_acc": 0.9907971777849727, "train/reward_pos_loss": 0.720638041694959, "train/reward_pred": 0.04222315441196164, "train/reward_rate": 0.04737684461805555, "stats/sum_log_reward": 9.350000023841858, "stats/max_log_achievement_collect_coal": 0.125, "stats/max_log_achievement_collect_drink": 3.375, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.75, "stats/max_log_achievement_collect_stone": 9.5, "stats/max_log_achievement_collect_wood": 9.625, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 0.75, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.625, "stats/max_log_achievement_make_stone_sword": 0.75, "stats/max_log_achievement_make_wood_pickaxe": 0.875, "stats/max_log_achievement_make_wood_sword": 0.75, "stats/max_log_achievement_place_furnace": 1.25, "stats/max_log_achievement_place_plant": 1.625, "stats/max_log_achievement_place_stone": 1.625, "stats/max_log_achievement_place_table": 2.25, "stats/max_log_achievement_wake_up": 1.375, "stats/mean_log_entropy": 0.2710020914673805, "replay/size": 863490.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.3654716904384914e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.300741167901789e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.28098320961, "timer/env.step_count": 1442.0, "timer/env.step_total": 20.682844161987305, "timer/env.step_frac": 0.06887830171899273, "timer/env.step_avg": 0.014343165160878852, "timer/env.step_min": 0.0030133724212646484, "timer/env.step_max": 1.7030284404754639, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.2687370777130127, "timer/replay.add_frac": 0.0008949520373903325, "timer/replay.add_avg": 0.00018636413156242212, "timer/replay.add_min": 7.176399230957031e-05, "timer/replay.add_max": 0.004126787185668945, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030204057693481445, "timer/logger.write_frac": 0.00010058598240434566, "timer/logger.write_avg": 0.030204057693481445, "timer/logger.write_min": 0.030204057693481445, "timer/logger.write_max": 0.030204057693481445, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 10.484313488006592, "timer/agent.policy_frac": 0.03491500985491331, "timer/agent.policy_avg": 0.007270675095704987, "timer/agent.policy_min": 0.005649566650390625, "timer/agent.policy_max": 0.019995927810668945, "timer/dataset_count": 721.0, "timer/dataset_total": 0.0600581169128418, "timer/dataset_frac": 0.00020000639491352158, "timer/dataset_avg": 8.32983591024158e-05, "timer/dataset_min": 6.389617919921875e-05, "timer/dataset_max": 0.00017714500427246094, "timer/agent.train_count": 721.0, "timer/agent.train_total": 268.0975239276886, "timer/agent.train_frac": 0.8928221862805883, "timer/agent.train_avg": 0.3718412259746028, "timer/agent.train_min": 0.3655235767364502, "timer/agent.train_max": 0.38884854316711426, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2194528579711914, "timer/agent.report_frac": 0.000730825028030507, "timer/agent.report_avg": 0.2194528579711914, "timer/agent.report_min": 0.2194528579711914, "timer/agent.report_max": 0.2194528579711914, "fps": 4.802110827268544}
{"step": 863874, "episode/length": 495.0, "episode/score": 14.100000016391277, "episode/sum_abs_reward": 18.500000022351742, "episode/reward_rate": 0.034274193548387094}
{"step": 864118, "episode/length": 243.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.06147540983606557}
{"step": 864284, "episode/length": 165.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.060240963855421686}
{"step": 864558, "episode/length": 273.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.051094890510948905}
{"step": 864621, "episode/length": 62.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.12698412698412698}
{"step": 864823, "episode/length": 201.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.07425742574257425}
{"step": 865009, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.3818727258133565, "train/action_min": 0.0, "train/action_std": 3.208904638682326, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03907869883800206, "train/actor_opt_grad_steps": 431590.0, "train/actor_opt_loss": -11.127334870704233, "train/adv_mag": 0.3948733053387028, "train/adv_max": 0.36184086701641344, "train/adv_mean": 0.001996114565634044, "train/adv_min": -0.32779722732223876, "train/adv_std": 0.04413173572249608, "train/cont_avg": 0.9948095034246576, "train/cont_loss_mean": 1.5365886162589336e-05, "train/cont_loss_std": 0.0004368682184825932, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.001456672927923663, "train/cont_pos_acc": 0.9999999795874505, "train/cont_pos_loss": 6.49615963753878e-06, "train/cont_pred": 0.9948108000298069, "train/cont_rate": 0.9948095034246576, "train/dyn_loss_mean": 5.460474576035591, "train/dyn_loss_std": 8.840549442866077, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9581396326626817, "train/extr_critic_critic_opt_grad_steps": 431590.0, "train/extr_critic_critic_opt_loss": 15690.462235124143, "train/extr_critic_mag": 12.012289661250703, "train/extr_critic_max": 12.012289661250703, "train/extr_critic_mean": 3.7545822417899353, "train/extr_critic_min": -0.3462774508619962, "train/extr_critic_std": 2.87208909857763, "train/extr_return_normed_mag": 1.3786700670033285, "train/extr_return_normed_max": 1.3786700670033285, "train/extr_return_normed_mean": 0.4001011603499112, "train/extr_return_normed_min": -0.08488967805488469, "train/extr_return_normed_std": 0.31426584679786473, "train/extr_return_rate": 0.8756198736086284, "train/extr_return_raw_mag": 12.793321674817228, "train/extr_return_raw_max": 12.793321674817228, "train/extr_return_raw_mean": 3.772972773199212, "train/extr_return_raw_min": -0.6980497571703506, "train/extr_return_raw_std": 2.8972423664511067, "train/extr_reward_mag": 1.066839378174037, "train/extr_reward_max": 1.066839378174037, "train/extr_reward_mean": 0.06218299126788361, "train/extr_reward_min": -0.6542383073127434, "train/extr_reward_std": 0.23980488760830604, "train/image_loss_mean": 3.190107923664459, "train/image_loss_std": 8.28813286350198, "train/model_loss_mean": 6.523571536965566, "train/model_loss_std": 12.427922340288553, "train/model_opt_grad_norm": 23.872046065657106, "train/model_opt_grad_steps": 431240.1095890411, "train/model_opt_loss": 16548.30777771832, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2534.246575342466, "train/policy_entropy_mag": 2.654206017925315, "train/policy_entropy_max": 2.654206017925315, "train/policy_entropy_mean": 0.35394735042362996, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5406647095941517, "train/policy_logprob_mag": 7.43838429124388, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.35488611806745396, "train/policy_logprob_min": -7.43838429124388, "train/policy_logprob_std": 0.9919210174312331, "train/policy_randomness_mag": 0.936818245339067, "train/policy_randomness_max": 0.936818245339067, "train/policy_randomness_mean": 0.12492788307470819, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19083091575805455, "train/post_ent_mag": 55.15220020241933, "train/post_ent_max": 55.15220020241933, "train/post_ent_mean": 40.526280546841555, "train/post_ent_min": 19.582237687829423, "train/post_ent_std": 5.780188586613903, "train/prior_ent_mag": 76.81882309587034, "train/prior_ent_max": 76.81882309587034, "train/prior_ent_mean": 45.96247508427868, "train/prior_ent_min": 27.77029066216456, "train/prior_ent_std": 7.753455932826212, "train/rep_loss_mean": 5.460474576035591, "train/rep_loss_std": 8.840549442866077, "train/reward_avg": 0.041764768631490944, "train/reward_loss_mean": 0.057163488579122984, "train/reward_loss_std": 0.2145305386144821, "train/reward_max_data": 1.0205479501044914, "train/reward_max_pred": 1.0229165945967582, "train/reward_neg_acc": 0.9932756513765414, "train/reward_neg_loss": 0.02442897018045187, "train/reward_pos_acc": 0.9884046781552981, "train/reward_pos_loss": 0.7292605711989206, "train/reward_pred": 0.04148533348351309, "train/reward_rate": 0.046540560787671235, "stats/sum_log_reward": 11.9333336353302, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 4.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.3333333333333335, "stats/max_log_achievement_collect_stone": 15.833333333333334, "stats/max_log_achievement_collect_wood": 12.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.3333333333333333, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.5, "stats/max_log_achievement_place_furnace": 2.3333333333333335, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 4.166666666666667, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.3776516243815422, "replay/size": 864946.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.44020324748951e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.292164017865946e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.116131067276, "timer/env.step_count": 1456.0, "timer/env.step_total": 17.685856819152832, "timer/env.step_frac": 0.058930044034148414, "timer/env.step_avg": 0.012146879683484088, "timer/env.step_min": 0.0030028820037841797, "timer/env.step_max": 1.7332851886749268, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.25165581703186035, "timer/replay.add_frac": 0.0008385281262187388, "timer/replay.add_avg": 0.00017284053367572826, "timer/replay.add_min": 6.461143493652344e-05, "timer/replay.add_max": 0.0021295547485351562, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021668434143066406, "timer/logger.write_frac": 7.220016486954202e-05, "timer/logger.write_avg": 0.021668434143066406, "timer/logger.write_min": 0.021668434143066406, "timer/logger.write_max": 0.021668434143066406, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 10.682638168334961, "timer/agent.policy_frac": 0.035595014937535197, "timer/agent.policy_avg": 0.007336976763966319, "timer/agent.policy_min": 0.005757808685302734, "timer/agent.policy_max": 0.015980958938598633, "timer/dataset_count": 728.0, "timer/dataset_total": 0.060415029525756836, "timer/dataset_frac": 0.00020130550567511418, "timer/dataset_avg": 8.298767791999565e-05, "timer/dataset_min": 6.246566772460938e-05, "timer/dataset_max": 0.00016188621520996094, "timer/agent.train_count": 728.0, "timer/agent.train_total": 270.7468583583832, "timer/agent.train_frac": 0.9021403061393284, "timer/agent.train_avg": 0.3719050252175593, "timer/agent.train_min": 0.36606693267822266, "timer/agent.train_max": 0.38520240783691406, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22081589698791504, "timer/agent.report_frac": 0.0007357681714829767, "timer/agent.report_avg": 0.22081589698791504, "timer/agent.report_min": 0.22081589698791504, "timer/agent.report_max": 0.22081589698791504, "fps": 4.851356901461592}
{"step": 865024, "episode/length": 200.0, "episode/score": 14.099999994039536, "episode/sum_abs_reward": 16.700000017881393, "episode/reward_rate": 0.07960199004975124}
{"step": 865098, "episode/length": 73.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.100000038743019, "episode/reward_rate": 0.10810810810810811}
{"step": 865364, "episode/length": 265.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 14.900000013411045, "episode/reward_rate": 0.05263157894736842}
{"step": 865595, "episode/length": 230.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.05194805194805195}
{"step": 865678, "episode/length": 82.0, "episode/score": 7.100000023841858, "episode/sum_abs_reward": 8.899999976158142, "episode/reward_rate": 0.10843373493975904}
{"step": 865739, "episode/length": 60.0, "episode/score": 6.099999979138374, "episode/sum_abs_reward": 8.30000002682209, "episode/reward_rate": 0.11475409836065574}
{"step": 865965, "episode/length": 225.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.06637168141592921}
{"step": 866157, "episode/length": 191.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.06770833333333333}
{"step": 866323, "episode/length": 165.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.07228915662650602}
{"step": 866418, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.442877197265625, "train/action_min": 0.0, "train/action_std": 3.2842512130737305, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03769583651529891, "train/actor_opt_grad_steps": 432305.0, "train/actor_opt_loss": -11.825930790390288, "train/adv_mag": 0.37875364295073916, "train/adv_max": 0.33210861193282265, "train/adv_mean": 0.0018870670151175416, "train/adv_min": -0.33697633551699774, "train/adv_std": 0.042752936163118906, "train/cont_avg": 0.9949079241071429, "train/cont_loss_mean": 1.295002686946743e-05, "train/cont_loss_std": 0.000394315490652275, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0002664050876449307, "train/cont_pos_acc": 0.9999999846730914, "train/cont_pos_loss": 1.1437497506960881e-05, "train/cont_pred": 0.9948999004704612, "train/cont_rate": 0.9949079241071429, "train/dyn_loss_mean": 5.547499322891236, "train/dyn_loss_std": 8.893335281099592, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9496670092855181, "train/extr_critic_critic_opt_grad_steps": 432305.0, "train/extr_critic_critic_opt_loss": 15583.249972098214, "train/extr_critic_mag": 12.00275491986956, "train/extr_critic_max": 12.00275491986956, "train/extr_critic_mean": 3.6272054161344256, "train/extr_critic_min": -0.35945688826697214, "train/extr_critic_std": 2.9201119218553817, "train/extr_return_normed_mag": 1.3755034446716308, "train/extr_return_normed_max": 1.3755034446716308, "train/extr_return_normed_mean": 0.38846194403512135, "train/extr_return_normed_min": -0.08076783791184425, "train/extr_return_normed_std": 0.3191594524042947, "train/extr_return_rate": 0.8551339728491647, "train/extr_return_raw_mag": 12.754089641571046, "train/extr_return_raw_max": 12.754089641571046, "train/extr_return_raw_mean": 3.644609832763672, "train/extr_return_raw_min": -0.6860984895910536, "train/extr_return_raw_std": 2.945597164971488, "train/extr_reward_mag": 1.0727512802396502, "train/extr_reward_max": 1.0727512802396502, "train/extr_reward_mean": 0.05914052166044712, "train/extr_reward_min": -0.5591810550008501, "train/extr_reward_std": 0.23486542510134834, "train/image_loss_mean": 3.3425235441752843, "train/image_loss_std": 8.322885751724243, "train/model_loss_mean": 6.729474871499198, "train/model_loss_std": 12.457744298662458, "train/model_opt_grad_norm": 22.28410211290632, "train/model_opt_grad_steps": 431954.67142857146, "train/model_opt_loss": 19820.983775111607, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2928.5714285714284, "train/policy_entropy_mag": 2.672350968633379, "train/policy_entropy_max": 2.672350968633379, "train/policy_entropy_mean": 0.3882106434021677, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5823030429227012, "train/policy_logprob_mag": 7.438384280885969, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3882176173584802, "train/policy_logprob_min": -7.438384280885969, "train/policy_logprob_std": 1.0148131830351694, "train/policy_randomness_mag": 0.9432226172515324, "train/policy_randomness_max": 0.9432226172515324, "train/policy_randomness_mean": 0.13702132159045766, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20552742470588004, "train/post_ent_mag": 55.25690214974539, "train/post_ent_max": 55.25690214974539, "train/post_ent_mean": 40.78334775652204, "train/post_ent_min": 19.47869954790388, "train/post_ent_std": 5.831123542785645, "train/prior_ent_mag": 76.80166429792132, "train/prior_ent_max": 76.80166429792132, "train/prior_ent_mean": 46.37460294451032, "train/prior_ent_min": 28.291087668282646, "train/prior_ent_std": 7.710890572411674, "train/rep_loss_mean": 5.547499322891236, "train/rep_loss_std": 8.893335281099592, "train/reward_avg": 0.042294921513114654, "train/reward_loss_mean": 0.05843888233814921, "train/reward_loss_std": 0.2147716509444373, "train/reward_max_data": 1.0257142918450493, "train/reward_max_pred": 1.023343004499163, "train/reward_neg_acc": 0.9931670989309038, "train/reward_neg_loss": 0.02594320758112839, "train/reward_pos_acc": 0.9905193098953792, "train/reward_pos_loss": 0.7197833452905927, "train/reward_pred": 0.04191877280494997, "train/reward_rate": 0.04679129464285714, "stats/sum_log_reward": 10.65555567211575, "stats/max_log_achievement_collect_coal": 0.5555555555555556, "stats/max_log_achievement_collect_drink": 1.8888888888888888, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5555555555555556, "stats/max_log_achievement_collect_stone": 8.666666666666666, "stats/max_log_achievement_collect_wood": 10.777777777777779, "stats/max_log_achievement_defeat_skeleton": 0.1111111111111111, "stats/max_log_achievement_defeat_zombie": 0.8888888888888888, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 0.7777777777777778, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.7777777777777778, "stats/max_log_achievement_place_furnace": 0.6666666666666666, "stats/max_log_achievement_place_plant": 1.2222222222222223, "stats/max_log_achievement_place_stone": 2.0, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.29301148487461937, "replay/size": 866355.0, "replay/inserts": 1409.0, "replay/samples": 11264.0, "replay/insert_wait_avg": 3.4314339003552774e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3058835809881038e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 299.99672627449036, "timer/env.step_count": 1409.0, "timer/env.step_total": 24.105236768722534, "timer/env.step_frac": 0.08035166606007152, "timer/env.step_avg": 0.017108045967865533, "timer/env.step_min": 0.00290679931640625, "timer/env.step_max": 1.8522381782531738, "timer/replay.add_count": 1409.0, "timer/replay.add_total": 0.29316282272338867, "timer/replay.add_frac": 0.000977220072912233, "timer/replay.add_avg": 0.00020806445899459807, "timer/replay.add_min": 8.177757263183594e-05, "timer/replay.add_max": 0.004787445068359375, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03243136405944824, "timer/logger.write_frac": 0.0001081057265597434, "timer/logger.write_avg": 0.03243136405944824, "timer/logger.write_min": 0.03243136405944824, "timer/logger.write_max": 0.03243136405944824, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00022649765014648438, "timer/checkpoint.save_frac": 7.550004060352447e-07, "timer/checkpoint.save_avg": 0.00022649765014648438, "timer/checkpoint.save_min": 0.00022649765014648438, "timer/checkpoint.save_max": 0.00022649765014648438, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.497493028640747, "timer/agent.save_frac": 0.004991697900298332, "timer/agent.save_avg": 1.497493028640747, "timer/agent.save_min": 1.497493028640747, "timer/agent.save_max": 1.497493028640747, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.556510925292969e-05, "timer/replay.save_frac": 2.1855274911546557e-07, "timer/replay.save_avg": 6.556510925292969e-05, "timer/replay.save_min": 6.556510925292969e-05, "timer/replay.save_max": 6.556510925292969e-05, "timer/agent.policy_count": 1409.0, "timer/agent.policy_total": 12.387027502059937, "timer/agent.policy_frac": 0.04129054225320473, "timer/agent.policy_avg": 0.008791360895713227, "timer/agent.policy_min": 0.005631685256958008, "timer/agent.policy_max": 1.482227087020874, "timer/dataset_count": 704.0, "timer/dataset_total": 0.05921816825866699, "timer/dataset_frac": 0.00019739604826381899, "timer/dataset_avg": 8.411671627651562e-05, "timer/dataset_min": 6.222724914550781e-05, "timer/dataset_max": 0.0001685619354248047, "timer/agent.train_count": 704.0, "timer/agent.train_total": 262.46453285217285, "timer/agent.train_frac": 0.8748913233540543, "timer/agent.train_avg": 0.3728189387104728, "timer/agent.train_min": 0.3634452819824219, "timer/agent.train_max": 0.9350113868713379, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2196943759918213, "timer/agent.report_frac": 0.0007323225780497544, "timer/agent.report_avg": 0.2196943759918213, "timer/agent.report_min": 0.2196943759918213, "timer/agent.report_max": 0.2196943759918213, "fps": 4.696620218958851}
{"step": 866487, "episode/length": 163.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.07317073170731707}
{"step": 866670, "episode/length": 182.0, "episode/score": 12.099999971687794, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.07650273224043716}
{"step": 866868, "episode/length": 197.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 15.900000013411045, "episode/reward_rate": 0.07575757575757576}
{"step": 867058, "episode/length": 189.0, "episode/score": 10.099999964237213, "episode/sum_abs_reward": 12.099999994039536, "episode/reward_rate": 0.05789473684210526}
{"step": 867103, "episode/length": 44.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 6.0999999940395355, "episode/reward_rate": 0.13333333333333333}
{"step": 867345, "episode/length": 241.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.05785123966942149}
{"step": 867485, "episode/length": 139.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.09285714285714286}
{"step": 867607, "episode/length": 121.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.09016393442622951}
{"step": 867792, "episode/length": 184.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.05405405405405406}
{"step": 867849, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.45926751030816, "train/action_min": 0.0, "train/action_std": 3.2753227882915072, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04009002894680533, "train/actor_opt_grad_steps": 433015.0, "train/actor_opt_loss": -12.010286912322044, "train/adv_mag": 0.40462572707070243, "train/adv_max": 0.33918824998868835, "train/adv_mean": 0.002269293923644808, "train/adv_min": -0.35238276794552803, "train/adv_std": 0.04428622411150071, "train/cont_avg": 0.9949815538194444, "train/cont_loss_mean": 5.581725059479304e-05, "train/cont_loss_std": 0.0016647304897266697, "train/cont_neg_acc": 0.9972222223877907, "train/cont_neg_loss": 0.002714692986969938, "train/cont_pos_acc": 0.9999863505363464, "train/cont_pos_loss": 4.27854814375708e-05, "train/cont_pred": 0.9949620200528039, "train/cont_rate": 0.9949815538194444, "train/dyn_loss_mean": 5.266007257832421, "train/dyn_loss_std": 8.803664876355064, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9631884346405665, "train/extr_critic_critic_opt_grad_steps": 433015.0, "train/extr_critic_critic_opt_loss": 15659.60902235243, "train/extr_critic_mag": 11.974569996198019, "train/extr_critic_max": 11.974569996198019, "train/extr_critic_mean": 3.7203931974040136, "train/extr_critic_min": -0.38472671310106915, "train/extr_critic_std": 2.8620762858125897, "train/extr_return_normed_mag": 1.3742055180999968, "train/extr_return_normed_max": 1.3742055180999968, "train/extr_return_normed_mean": 0.40075015442238915, "train/extr_return_normed_min": -0.08328122635268503, "train/extr_return_normed_std": 0.3147144673599137, "train/extr_return_rate": 0.8620027187797759, "train/extr_return_raw_mag": 12.681451068984138, "train/extr_return_raw_max": 12.681451068984138, "train/extr_return_raw_mean": 3.741247236728668, "train/extr_return_raw_min": -0.7041592680745654, "train/extr_return_raw_std": 2.890606039100223, "train/extr_reward_mag": 1.0771848890516493, "train/extr_reward_max": 1.0771848890516493, "train/extr_reward_mean": 0.06063430254451103, "train/extr_reward_min": -0.6442955434322357, "train/extr_reward_std": 0.23710167739126417, "train/image_loss_mean": 3.126318527592553, "train/image_loss_std": 7.997084471914503, "train/model_loss_mean": 6.342945145236121, "train/model_loss_std": 12.103361421161228, "train/model_opt_grad_norm": 24.554211974143982, "train/model_opt_grad_steps": 432663.81944444444, "train/model_opt_loss": 14348.304429796008, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2274.3055555555557, "train/policy_entropy_mag": 2.6536394324567585, "train/policy_entropy_max": 2.6536394324567585, "train/policy_entropy_mean": 0.37217147648334503, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5634031047423681, "train/policy_logprob_mag": 7.438384274641673, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37237197367681396, "train/policy_logprob_min": -7.438384274641673, "train/policy_logprob_std": 1.0017113031612501, "train/policy_randomness_mag": 0.9366182693176799, "train/policy_randomness_max": 0.9366182693176799, "train/policy_randomness_mean": 0.13136019692238834, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19885657282753122, "train/post_ent_mag": 55.059088971879746, "train/post_ent_max": 55.059088971879746, "train/post_ent_mean": 40.496626430087616, "train/post_ent_min": 19.339175356758965, "train/post_ent_std": 5.73555490705702, "train/prior_ent_mag": 76.73731517791748, "train/prior_ent_max": 76.73731517791748, "train/prior_ent_mean": 45.751392152574326, "train/prior_ent_min": 28.538184112972683, "train/prior_ent_std": 7.7082492510477705, "train/rep_loss_mean": 5.266007257832421, "train/rep_loss_std": 8.803664876355064, "train/reward_avg": 0.04089762322190735, "train/reward_loss_mean": 0.05696651494751374, "train/reward_loss_std": 0.21607355173263285, "train/reward_max_data": 1.0263888951804903, "train/reward_max_pred": 1.024563941690657, "train/reward_neg_acc": 0.9936096370220184, "train/reward_neg_loss": 0.02508279936025954, "train/reward_pos_acc": 0.990667597287231, "train/reward_pos_loss": 0.7256112711297141, "train/reward_pred": 0.040680343052372336, "train/reward_rate": 0.04554578993055555, "stats/sum_log_reward": 10.544444666968452, "stats/max_log_achievement_collect_coal": 0.8888888888888888, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 0.7777777777777778, "stats/max_log_achievement_collect_stone": 14.555555555555555, "stats/max_log_achievement_collect_wood": 11.444444444444445, "stats/max_log_achievement_defeat_skeleton": 0.1111111111111111, "stats/max_log_achievement_defeat_zombie": 0.7777777777777778, "stats/max_log_achievement_eat_cow": 0.1111111111111111, "stats/max_log_achievement_make_stone_pickaxe": 0.7777777777777778, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.7777777777777777, "stats/max_log_achievement_place_plant": 0.6666666666666666, "stats/max_log_achievement_place_stone": 2.888888888888889, "stats/max_log_achievement_place_table": 2.7777777777777777, "stats/max_log_achievement_wake_up": 0.7777777777777778, "stats/mean_log_entropy": 0.2749354342619578, "replay/size": 867786.0, "replay/inserts": 1431.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.346523815397613e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3795436760566753e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.01397347450256, "timer/env.step_count": 1431.0, "timer/env.step_total": 22.5933940410614, "timer/env.step_frac": 0.07530780576452568, "timer/env.step_avg": 0.01578853531870119, "timer/env.step_min": 0.002844572067260742, "timer/env.step_max": 1.8005692958831787, "timer/replay.add_count": 1431.0, "timer/replay.add_total": 0.2525634765625, "timer/replay.add_frac": 0.0008418390438202864, "timer/replay.add_avg": 0.00017649439312543677, "timer/replay.add_min": 6.222724914550781e-05, "timer/replay.add_max": 0.0031778812408447266, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029705047607421875, "timer/logger.write_frac": 9.901221354260164e-05, "timer/logger.write_avg": 0.029705047607421875, "timer/logger.write_min": 0.029705047607421875, "timer/logger.write_max": 0.029705047607421875, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1431.0, "timer/agent.policy_total": 10.43295693397522, "timer/agent.policy_frac": 0.034774903359166005, "timer/agent.policy_avg": 0.007290675705084011, "timer/agent.policy_min": 0.005755186080932617, "timer/agent.policy_max": 0.021991491317749023, "timer/dataset_count": 716.0, "timer/dataset_total": 0.059931039810180664, "timer/dataset_frac": 0.00019976082819113774, "timer/dataset_avg": 8.370256956729144e-05, "timer/dataset_min": 5.936622619628906e-05, "timer/dataset_max": 0.00017714500427246094, "timer/agent.train_count": 716.0, "timer/agent.train_total": 265.992018699646, "timer/agent.train_frac": 0.8865987661146456, "timer/agent.train_avg": 0.37149723282073466, "timer/agent.train_min": 0.36322999000549316, "timer/agent.train_max": 0.38695645332336426, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2208874225616455, "timer/agent.report_frac": 0.0007362571149720737, "timer/agent.report_avg": 0.2208874225616455, "timer/agent.report_min": 0.2208874225616455, "timer/agent.report_max": 0.2208874225616455, "fps": 4.769695731237213}
{"step": 867879, "episode/length": 86.0, "episode/score": 7.100000023841858, "episode/sum_abs_reward": 8.900000005960464, "episode/reward_rate": 0.10344827586206896}
{"step": 868152, "episode/length": 272.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.05128205128205128}
{"step": 868424, "episode/length": 271.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.04779411764705882}
{"step": 868652, "episode/length": 227.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.043859649122807015}
{"step": 868972, "episode/length": 319.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.900000028312206, "episode/reward_rate": 0.05}
{"step": 869206, "episode/length": 233.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.900000028312206, "episode/reward_rate": 0.029914529914529916}
{"step": 869309, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.324587469231592, "train/action_min": 0.0, "train/action_std": 3.177431498488335, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03971755530123841, "train/actor_opt_grad_steps": 433740.0, "train/actor_opt_loss": -10.265922771741266, "train/adv_mag": 0.39734986995997496, "train/adv_max": 0.32421308694636986, "train/adv_mean": 0.0022232538122894667, "train/adv_min": -0.364380612765273, "train/adv_std": 0.04450125313580853, "train/cont_avg": 0.9948763912671232, "train/cont_loss_mean": 2.914095394272978e-05, "train/cont_loss_std": 0.0008859309053910343, "train/cont_neg_acc": 0.9982394366197183, "train/cont_neg_loss": 0.0016242827334900045, "train/cont_pos_acc": 0.999986516286249, "train/cont_pos_loss": 1.7364196485551498e-05, "train/cont_pred": 0.9948727619158079, "train/cont_rate": 0.9948763912671232, "train/dyn_loss_mean": 5.390061130262401, "train/dyn_loss_std": 8.829120413897789, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9560922702697858, "train/extr_critic_critic_opt_grad_steps": 433740.0, "train/extr_critic_critic_opt_loss": 15666.853047410103, "train/extr_critic_mag": 12.00646784534193, "train/extr_critic_max": 12.00646784534193, "train/extr_critic_mean": 3.8432446538585507, "train/extr_critic_min": -0.32984098996201605, "train/extr_critic_std": 2.856679769411479, "train/extr_return_normed_mag": 1.376142723919594, "train/extr_return_normed_max": 1.376142723919594, "train/extr_return_normed_mean": 0.40747449373545713, "train/extr_return_normed_min": -0.08261794757659305, "train/extr_return_normed_std": 0.3112970441579819, "train/extr_return_rate": 0.8801352504181535, "train/extr_return_raw_mag": 12.846563391489525, "train/extr_return_raw_max": 12.846563391489525, "train/extr_return_raw_mean": 3.863874504010971, "train/extr_return_raw_min": -0.6817101968886101, "train/extr_return_raw_std": 2.887235853770008, "train/extr_reward_mag": 1.0642430684337878, "train/extr_reward_max": 1.0642430684337878, "train/extr_reward_mean": 0.061324905706186816, "train/extr_reward_min": -0.6224479838593365, "train/extr_reward_std": 0.23828647663332012, "train/image_loss_mean": 3.0983711726044953, "train/image_loss_std": 8.354707802811713, "train/model_loss_mean": 6.387938238170049, "train/model_loss_std": 12.508584127034226, "train/model_opt_grad_norm": 24.489788499597, "train/model_opt_grad_steps": 433388.0, "train/model_opt_loss": 7984.922791363442, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.627057330249107, "train/policy_entropy_max": 2.627057330249107, "train/policy_entropy_mean": 0.3440605399951543, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5246980508712873, "train/policy_logprob_mag": 7.438384317371943, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.34229789102730684, "train/policy_logprob_min": -7.438384317371943, "train/policy_logprob_std": 0.971037943069249, "train/policy_randomness_mag": 0.9272359527953683, "train/policy_randomness_max": 0.9272359527953683, "train/policy_randomness_mean": 0.12143827372626083, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1851953876345125, "train/post_ent_mag": 55.443604142698526, "train/post_ent_max": 55.443604142698526, "train/post_ent_mean": 40.60302687344486, "train/post_ent_min": 19.471993942783303, "train/post_ent_std": 5.762694855258889, "train/prior_ent_mag": 76.63269419212864, "train/prior_ent_max": 76.63269419212864, "train/prior_ent_mean": 45.98183044015545, "train/prior_ent_min": 27.95418350010702, "train/prior_ent_std": 7.695810585805814, "train/rep_loss_mean": 5.390061130262401, "train/rep_loss_std": 8.829120413897789, "train/reward_avg": 0.04083904070294883, "train/reward_loss_mean": 0.0555012765506359, "train/reward_loss_std": 0.21158572255748592, "train/reward_max_data": 1.026027403465689, "train/reward_max_pred": 1.0263904382104743, "train/reward_neg_acc": 0.993791447110372, "train/reward_neg_loss": 0.023689864458490726, "train/reward_pos_acc": 0.9893288318425009, "train/reward_pos_loss": 0.7280385012496008, "train/reward_pred": 0.04059251012561256, "train/reward_rate": 0.04533657962328767, "stats/sum_log_reward": 10.266666809717814, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 4.166666666666667, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 3.0, "stats/max_log_achievement_collect_stone": 8.666666666666666, "stats/max_log_achievement_collect_wood": 11.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.8333333333333333, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 0.16666666666666666, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 3.0, "stats/max_log_achievement_place_stone": 2.1666666666666665, "stats/max_log_achievement_place_table": 2.6666666666666665, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.4667700231075287, "replay/size": 869246.0, "replay/inserts": 1460.0, "replay/samples": 11680.0, "replay/insert_wait_avg": 3.431921135889341e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4096294363884077e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.19887495040894, "timer/env.step_count": 1460.0, "timer/env.step_total": 17.656774520874023, "timer/env.step_frac": 0.0588169243598625, "timer/env.step_avg": 0.012093681178680838, "timer/env.step_min": 0.002849578857421875, "timer/env.step_max": 1.683189868927002, "timer/replay.add_count": 1460.0, "timer/replay.add_total": 0.27777695655822754, "timer/replay.add_frac": 0.0009253097854018095, "timer/replay.add_avg": 0.00019025818942344352, "timer/replay.add_min": 6.270408630371094e-05, "timer/replay.add_max": 0.002351999282836914, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029740333557128906, "timer/logger.write_frac": 9.90687708674519e-05, "timer/logger.write_avg": 0.029740333557128906, "timer/logger.write_min": 0.029740333557128906, "timer/logger.write_max": 0.029740333557128906, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1460.0, "timer/agent.policy_total": 11.02997350692749, "timer/agent.policy_frac": 0.03674222133160751, "timer/agent.policy_avg": 0.00755477637460787, "timer/agent.policy_min": 0.005762815475463867, "timer/agent.policy_max": 0.01700305938720703, "timer/dataset_count": 730.0, "timer/dataset_total": 0.06538724899291992, "timer/dataset_frac": 0.00021781310474172, "timer/dataset_avg": 8.9571573962904e-05, "timer/dataset_min": 6.270408630371094e-05, "timer/dataset_max": 0.00021839141845703125, "timer/agent.train_count": 730.0, "timer/agent.train_total": 270.4807620048523, "timer/agent.train_frac": 0.9010052487689506, "timer/agent.train_avg": 0.3705215917874689, "timer/agent.train_min": 0.3625524044036865, "timer/agent.train_max": 0.38559556007385254, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21822834014892578, "timer/agent.report_frac": 0.0007269458960663187, "timer/agent.report_avg": 0.21822834014892578, "timer/agent.report_min": 0.21822834014892578, "timer/agent.report_max": 0.21822834014892578, "fps": 4.863334970968307}
{"step": 869375, "episode/length": 168.0, "episode/score": 10.099999979138374, "episode/sum_abs_reward": 11.900000020861626, "episode/reward_rate": 0.0650887573964497}
{"step": 869634, "episode/length": 258.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 9.30000003427267, "episode/reward_rate": 0.02702702702702703}
{"step": 869823, "episode/length": 188.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06349206349206349}
{"step": 870111, "episode/length": 287.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.04861111111111111}
{"step": 870377, "episode/length": 265.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 13.500000037252903, "episode/reward_rate": 0.041353383458646614}
{"step": 870701, "episode/length": 323.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.046296296296296294}
{"step": 870753, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.453431871202257, "train/action_min": 0.0, "train/action_std": 3.285191145208147, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03895108026659323, "train/actor_opt_grad_steps": 434465.0, "train/actor_opt_loss": -10.892105543779003, "train/adv_mag": 0.40726376035147244, "train/adv_max": 0.3416930240475469, "train/adv_mean": 0.0020738955433140895, "train/adv_min": -0.3530626446008682, "train/adv_std": 0.04296929513414701, "train/cont_avg": 0.9945068359375, "train/cont_loss_mean": 0.00011172251572490034, "train/cont_loss_std": 0.003527773043115998, "train/cont_neg_acc": 0.9980158739619784, "train/cont_neg_loss": 0.00443194343342817, "train/cont_pos_acc": 0.9999862934152285, "train/cont_pos_loss": 8.521868667966793e-05, "train/cont_pred": 0.994493242767122, "train/cont_rate": 0.9945068359375, "train/dyn_loss_mean": 5.450015942255656, "train/dyn_loss_std": 8.841701136695015, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9617958317200342, "train/extr_critic_critic_opt_grad_steps": 434465.0, "train/extr_critic_critic_opt_loss": 15598.067097981771, "train/extr_critic_mag": 12.116978089014689, "train/extr_critic_max": 12.116978089014689, "train/extr_critic_mean": 3.741335302591324, "train/extr_critic_min": -0.34076260526974994, "train/extr_critic_std": 2.9981525474124484, "train/extr_return_normed_mag": 1.3771071748601065, "train/extr_return_normed_max": 1.3771071748601065, "train/extr_return_normed_mean": 0.3921569585800171, "train/extr_return_normed_min": -0.08615427640163237, "train/extr_return_normed_std": 0.32304810194505584, "train/extr_return_rate": 0.8546061664819717, "train/extr_return_raw_mag": 12.984581496980455, "train/extr_return_raw_max": 12.984581496980455, "train/extr_return_raw_mean": 3.7607523964511023, "train/extr_return_raw_min": -0.7189848956962427, "train/extr_return_raw_std": 3.02530167500178, "train/extr_reward_mag": 1.077123287651274, "train/extr_reward_max": 1.077123287651274, "train/extr_reward_mean": 0.06021881056949496, "train/extr_reward_min": -0.6633538355429968, "train/extr_reward_std": 0.2366064137054814, "train/image_loss_mean": 3.2042823284864426, "train/image_loss_std": 8.265800125069088, "train/model_loss_mean": 6.532105843226115, "train/model_loss_std": 12.42637840906779, "train/model_opt_grad_norm": 23.91754228538937, "train/model_opt_grad_steps": 434113.0, "train/model_opt_loss": 14713.154676649305, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2256.9444444444443, "train/policy_entropy_mag": 2.6385589374436274, "train/policy_entropy_max": 2.6385589374436274, "train/policy_entropy_mean": 0.38252817860080135, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5762000775171651, "train/policy_logprob_mag": 7.438384268018934, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3810821177644862, "train/policy_logprob_min": -7.438384268018934, "train/policy_logprob_std": 1.0057806049784024, "train/policy_randomness_mag": 0.9312955141067505, "train/policy_randomness_max": 0.9312955141067505, "train/policy_randomness_mean": 0.13501566120733818, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2033733425454961, "train/post_ent_mag": 55.56354268391927, "train/post_ent_max": 55.56354268391927, "train/post_ent_mean": 40.563957850138344, "train/post_ent_min": 19.37327664428287, "train/post_ent_std": 5.830798221959008, "train/prior_ent_mag": 76.64000807868109, "train/prior_ent_max": 76.64000807868109, "train/prior_ent_mean": 46.053427378336586, "train/prior_ent_min": 28.024070024490356, "train/prior_ent_std": 7.782524665196736, "train/rep_loss_mean": 5.450015942255656, "train/rep_loss_std": 8.841701136695015, "train/reward_avg": 0.041354709278999105, "train/reward_loss_mean": 0.05770226681811942, "train/reward_loss_std": 0.21415897127654818, "train/reward_max_data": 1.036111119720671, "train/reward_max_pred": 1.0344252917501662, "train/reward_neg_acc": 0.9935018974873755, "train/reward_neg_loss": 0.02547236440134131, "train/reward_pos_acc": 0.9891984429624345, "train/reward_pos_loss": 0.7250902172591951, "train/reward_pred": 0.040950707289286785, "train/reward_rate": 0.046196831597222224, "stats/sum_log_reward": 10.766666809717814, "stats/max_log_achievement_collect_coal": 0.16666666666666666, "stats/max_log_achievement_collect_drink": 5.333333333333333, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.1666666666666667, "stats/max_log_achievement_collect_stone": 18.666666666666668, "stats/max_log_achievement_collect_wood": 12.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.6666666666666667, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.3333333333333335, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 5.333333333333333, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.8333333333333333, "stats/mean_log_entropy": 0.5689332435528437, "replay/size": 870690.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.3203584665736996e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3881608059531765e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.01463532447815, "timer/env.step_count": 1444.0, "timer/env.step_total": 17.293090343475342, "timer/env.step_frac": 0.05764082250444934, "timer/env.step_avg": 0.011975824337586802, "timer/env.step_min": 0.002954721450805664, "timer/env.step_max": 1.5656330585479736, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.3071870803833008, "timer/replay.add_frac": 0.0010239069839078528, "timer/replay.add_avg": 0.00021273343516849084, "timer/replay.add_min": 6.771087646484375e-05, "timer/replay.add_max": 0.0008695125579833984, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02504253387451172, "timer/logger.write_frac": 8.347104082914885e-05, "timer/logger.write_avg": 0.02504253387451172, "timer/logger.write_min": 0.02504253387451172, "timer/logger.write_max": 0.02504253387451172, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002167224884033203, "timer/checkpoint.save_frac": 7.223730541309294e-07, "timer/checkpoint.save_avg": 0.0002167224884033203, "timer/checkpoint.save_min": 0.0002167224884033203, "timer/checkpoint.save_max": 0.0002167224884033203, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1822888851165771, "timer/agent.save_frac": 0.003940770702195522, "timer/agent.save_avg": 1.1822888851165771, "timer/agent.save_min": 1.1822888851165771, "timer/agent.save_max": 1.1822888851165771, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.700920104980469e-05, "timer/replay.save_frac": 2.5668481461418066e-07, "timer/replay.save_avg": 7.700920104980469e-05, "timer/replay.save_min": 7.700920104980469e-05, "timer/replay.save_max": 7.700920104980469e-05, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 11.993696212768555, "timer/agent.policy_frac": 0.03997703711952878, "timer/agent.policy_avg": 0.00830588380385634, "timer/agent.policy_min": 0.0058100223541259766, "timer/agent.policy_max": 1.180535078048706, "timer/dataset_count": 722.0, "timer/dataset_total": 0.06324243545532227, "timer/dataset_frac": 0.00021079783453538183, "timer/dataset_avg": 8.759340090764856e-05, "timer/dataset_min": 6.29425048828125e-05, "timer/dataset_max": 0.00017881393432617188, "timer/agent.train_count": 722.0, "timer/agent.train_total": 269.68778586387634, "timer/agent.train_frac": 0.898915433149446, "timer/agent.train_avg": 0.37352878928514727, "timer/agent.train_min": 0.3621525764465332, "timer/agent.train_max": 3.4238600730895996, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22067618370056152, "timer/agent.report_frac": 0.0007355513955573906, "timer/agent.report_avg": 0.22067618370056152, "timer/agent.report_min": 0.22067618370056152, "timer/agent.report_max": 0.22067618370056152, "fps": 4.812987838485629}
{"step": 870866, "episode/length": 164.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.07878787878787878}
{"step": 871091, "episode/length": 224.0, "episode/score": 14.100000023841858, "episode/sum_abs_reward": 16.10000005364418, "episode/reward_rate": 0.06666666666666667}
{"step": 871371, "episode/length": 279.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 14.900000013411045, "episode/reward_rate": 0.05}
{"step": 871534, "episode/length": 162.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.0736196319018405}
{"step": 871760, "episode/length": 225.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.061946902654867256}
{"step": 871930, "episode/length": 169.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.07058823529411765}
{"step": 872220, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.457669644742398, "train/action_min": 0.0, "train/action_std": 3.280343867637016, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03891019558383001, "train/actor_opt_grad_steps": 435195.0, "train/actor_opt_loss": -13.079903713704363, "train/adv_mag": 0.4033947731997516, "train/adv_max": 0.33217952017848557, "train/adv_mean": 0.0015565582604255257, "train/adv_min": -0.36356058011989334, "train/adv_std": 0.04365771117846708, "train/cont_avg": 0.995143581081081, "train/cont_loss_mean": 1.866275855388299e-05, "train/cont_loss_std": 0.0005467949354899578, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0006022516267255914, "train/cont_pos_acc": 0.9999867210517058, "train/cont_pos_loss": 1.4278060161071022e-05, "train/cont_pred": 0.9951366717750961, "train/cont_rate": 0.995143581081081, "train/dyn_loss_mean": 5.3926657599371834, "train/dyn_loss_std": 8.796152617480304, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9293759360506728, "train/extr_critic_critic_opt_grad_steps": 435195.0, "train/extr_critic_critic_opt_loss": 15515.004104201858, "train/extr_critic_mag": 12.060740045599035, "train/extr_critic_max": 12.060740045599035, "train/extr_critic_mean": 3.788360772906123, "train/extr_critic_min": -0.34290396522831273, "train/extr_critic_std": 2.866671626632278, "train/extr_return_normed_mag": 1.3705004872502506, "train/extr_return_normed_max": 1.3705004872502506, "train/extr_return_normed_mean": 0.39824587428891983, "train/extr_return_normed_min": -0.08773329818772303, "train/extr_return_normed_std": 0.3114127148244832, "train/extr_return_rate": 0.8809016540243819, "train/extr_return_raw_mag": 12.823561539521089, "train/extr_return_raw_max": 12.823561539521089, "train/extr_return_raw_mean": 3.8028014253925635, "train/extr_return_raw_min": -0.7063354600120235, "train/extr_return_raw_std": 2.8894841799864897, "train/extr_reward_mag": 1.0690664407369252, "train/extr_reward_max": 1.0690664407369252, "train/extr_reward_mean": 0.06239233785183043, "train/extr_reward_min": -0.6141290857985213, "train/extr_reward_std": 0.2400568677364169, "train/image_loss_mean": 3.1949524492830843, "train/image_loss_std": 8.354214249430475, "train/model_loss_mean": 6.48700111621135, "train/model_loss_std": 12.448103930499103, "train/model_opt_grad_norm": 25.799760230600018, "train/model_opt_grad_steps": 434842.5945945946, "train/model_opt_loss": 16656.613611169763, "train/model_opt_model_opt_grad_overflow": 0.013513513513513514, "train/model_opt_model_opt_grad_scale": 2533.7837837837837, "train/policy_entropy_mag": 2.6666223648432137, "train/policy_entropy_max": 2.6666223648432137, "train/policy_entropy_mean": 0.3705416398273932, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5613667042674245, "train/policy_logprob_mag": 7.438384288066143, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3708801964247549, "train/policy_logprob_min": -7.438384288066143, "train/policy_logprob_std": 1.0018128366083712, "train/policy_randomness_mag": 0.9412006719692333, "train/policy_randomness_max": 0.9412006719692333, "train/policy_randomness_mean": 0.13078493645062317, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1981378124171012, "train/post_ent_mag": 55.88909850249419, "train/post_ent_max": 55.88909850249419, "train/post_ent_mean": 40.56424120310191, "train/post_ent_min": 19.540797375343942, "train/post_ent_std": 5.8038027737591715, "train/prior_ent_mag": 76.620631965431, "train/prior_ent_max": 76.620631965431, "train/prior_ent_mean": 45.98383444708747, "train/prior_ent_min": 27.90746054778228, "train/prior_ent_std": 7.673945691134478, "train/rep_loss_mean": 5.3926657599371834, "train/rep_loss_std": 8.796152617480304, "train/reward_avg": 0.04140097086594717, "train/reward_loss_mean": 0.05643059534801019, "train/reward_loss_std": 0.2169318460934871, "train/reward_max_data": 1.0189189234295406, "train/reward_max_pred": 1.0217301201176, "train/reward_neg_acc": 0.9936470767936191, "train/reward_neg_loss": 0.024083474021707033, "train/reward_pos_acc": 0.9890798330307007, "train/reward_pos_loss": 0.728310250752681, "train/reward_pred": 0.041018849691829166, "train/reward_rate": 0.04587204391891892, "stats/sum_log_reward": 12.43333371480306, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 2.3333333333333335, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 12.0, "stats/max_log_achievement_collect_wood": 13.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.6666666666666667, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_stone": 3.1666666666666665, "stats/max_log_achievement_place_table": 3.5, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.24810296793778738, "replay/size": 872157.0, "replay/inserts": 1467.0, "replay/samples": 11728.0, "replay/insert_wait_avg": 3.2465232011811947e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3891012899547123e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 299.99351811408997, "timer/env.step_count": 1467.0, "timer/env.step_total": 17.14968967437744, "timer/env.step_frac": 0.057166867411632794, "timer/env.step_avg": 0.011690313343133907, "timer/env.step_min": 0.002585172653198242, "timer/env.step_max": 1.4945464134216309, "timer/replay.add_count": 1467.0, "timer/replay.add_total": 0.2685692310333252, "timer/replay.add_frac": 0.0008952501131413984, "timer/replay.add_avg": 0.00018307377711883108, "timer/replay.add_min": 6.437301635742188e-05, "timer/replay.add_max": 0.0008344650268554688, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024512052536010742, "timer/logger.write_frac": 8.17086072062684e-05, "timer/logger.write_avg": 0.024512052536010742, "timer/logger.write_min": 0.024512052536010742, "timer/logger.write_max": 0.024512052536010742, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1467.0, "timer/agent.policy_total": 10.987731456756592, "timer/agent.policy_frac": 0.03662656288652833, "timer/agent.policy_avg": 0.00748993282669161, "timer/agent.policy_min": 0.005791425704956055, "timer/agent.policy_max": 0.01678633689880371, "timer/dataset_count": 733.0, "timer/dataset_total": 0.06419754028320312, "timer/dataset_frac": 0.00021399642461204205, "timer/dataset_avg": 8.7581910345434e-05, "timer/dataset_min": 5.8650970458984375e-05, "timer/dataset_max": 0.0001785755157470703, "timer/agent.train_count": 733.0, "timer/agent.train_total": 270.8563859462738, "timer/agent.train_frac": 0.9028741275778663, "timer/agent.train_avg": 0.36951757973570776, "timer/agent.train_min": 0.36294126510620117, "timer/agent.train_max": 0.3846883773803711, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21960091590881348, "timer/agent.report_frac": 0.0007320188692386929, "timer/agent.report_avg": 0.21960091590881348, "timer/agent.report_min": 0.21960091590881348, "timer/agent.report_max": 0.21960091590881348, "fps": 4.890026873378618}
{"step": 872233, "episode/length": 302.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.0462046204620462}
{"step": 872428, "episode/length": 194.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.05641025641025641}
{"step": 872586, "episode/length": 157.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.06329113924050633}
{"step": 872787, "episode/length": 200.0, "episode/score": 12.099999994039536, "episode/sum_abs_reward": 14.700000017881393, "episode/reward_rate": 0.06965174129353234}
{"step": 872978, "episode/length": 190.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.06282722513089005}
{"step": 873209, "episode/length": 230.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.05194805194805195}
{"step": 873296, "episode/length": 86.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.10344827586206896}
{"step": 873481, "episode/length": 184.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.06486486486486487}
{"step": 873673, "stats/sum_log_reward": 10.725000262260437, "stats/max_log_achievement_collect_coal": 0.25, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.625, "stats/max_log_achievement_collect_stone": 9.25, "stats/max_log_achievement_collect_wood": 13.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.125, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "stats/max_log_achievement_make_stone_sword": 0.5, "stats/max_log_achievement_make_wood_pickaxe": 1.125, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.625, "stats/max_log_achievement_place_plant": 1.25, "stats/max_log_achievement_place_stone": 3.25, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3325432315468788, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.457786560058594, "train/action_min": 0.0, "train/action_std": 3.304184310966068, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.040502497305472694, "train/actor_opt_grad_steps": 435925.0, "train/actor_opt_loss": -12.034221502641836, "train/adv_mag": 0.40570924017164445, "train/adv_max": 0.3374274745583534, "train/adv_mean": 0.0021330835660491074, "train/adv_min": -0.3697074703458283, "train/adv_std": 0.044916346255275935, "train/cont_avg": 0.9945475260416666, "train/cont_loss_mean": 1.3715682229471011e-05, "train/cont_loss_std": 0.00039004672880733123, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0010553104849342848, "train/cont_pos_acc": 0.999999976820416, "train/cont_pos_loss": 6.324623621366419e-06, "train/cont_pred": 0.9945480823516846, "train/cont_rate": 0.9945475260416666, "train/dyn_loss_mean": 5.517001748085022, "train/dyn_loss_std": 8.8610543873575, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9447964794105954, "train/extr_critic_critic_opt_grad_steps": 435925.0, "train/extr_critic_critic_opt_loss": 15595.19371202257, "train/extr_critic_mag": 11.97627822558085, "train/extr_critic_max": 11.97627822558085, "train/extr_critic_mean": 3.8500367568598852, "train/extr_critic_min": -0.32794786824120414, "train/extr_critic_std": 2.919581393400828, "train/extr_return_normed_mag": 1.3841242111391492, "train/extr_return_normed_max": 1.3841242111391492, "train/extr_return_normed_mean": 0.4096944228642517, "train/extr_return_normed_min": -0.08869414015983541, "train/extr_return_normed_std": 0.3216788102355268, "train/extr_return_rate": 0.86566212028265, "train/extr_return_raw_mag": 12.804601987202963, "train/extr_return_raw_max": 12.804601987202963, "train/extr_return_raw_mean": 3.8695722387896643, "train/extr_return_raw_min": -0.701029018809398, "train/extr_return_raw_std": 2.950238244401084, "train/extr_reward_mag": 1.0685013631979625, "train/extr_reward_max": 1.0685013631979625, "train/extr_reward_mean": 0.06153907109465864, "train/extr_reward_min": -0.6057422094874911, "train/extr_reward_std": 0.23856740134457746, "train/image_loss_mean": 3.1403750479221344, "train/image_loss_std": 8.123530858092838, "train/model_loss_mean": 6.509826083978017, "train/model_loss_std": 12.300172832277086, "train/model_opt_grad_norm": 26.381082706981235, "train/model_opt_grad_steps": 435572.0, "train/model_opt_loss": 16429.896240234375, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2534.722222222222, "train/policy_entropy_mag": 2.6614805890454187, "train/policy_entropy_max": 2.6614805890454187, "train/policy_entropy_mean": 0.36624756186372703, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5588066971136464, "train/policy_logprob_mag": 7.438384314378102, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3661764808413055, "train/policy_logprob_min": -7.438384314378102, "train/policy_logprob_std": 0.9970557391643524, "train/policy_randomness_mag": 0.939385849568579, "train/policy_randomness_max": 0.939385849568579, "train/policy_randomness_mean": 0.12926931813773182, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1972342421197229, "train/post_ent_mag": 55.38477224773831, "train/post_ent_max": 55.38477224773831, "train/post_ent_mean": 40.458283265431724, "train/post_ent_min": 19.5601116153929, "train/post_ent_std": 5.762042476071252, "train/prior_ent_mag": 76.66753143734402, "train/prior_ent_max": 76.66753143734402, "train/prior_ent_mean": 45.963200675116646, "train/prior_ent_min": 28.10487201478746, "train/prior_ent_std": 7.729169408480327, "train/rep_loss_mean": 5.517001748085022, "train/rep_loss_std": 8.8610543873575, "train/reward_avg": 0.042370604894434415, "train/reward_loss_mean": 0.059236355488085084, "train/reward_loss_std": 0.22354018025928074, "train/reward_max_data": 1.0236111167404387, "train/reward_max_pred": 1.0251171357101865, "train/reward_neg_acc": 0.993198393119706, "train/reward_neg_loss": 0.02580583593549414, "train/reward_pos_acc": 0.986889591647519, "train/reward_pos_loss": 0.7348346379068162, "train/reward_pred": 0.041998168350093894, "train/reward_rate": 0.047200520833333336, "replay/size": 873610.0, "replay/inserts": 1453.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.206262240636291e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3985979835793602e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0339868068695, "timer/env.step_count": 1453.0, "timer/env.step_total": 19.500131607055664, "timer/env.step_frac": 0.06499307566648377, "timer/env.step_avg": 0.01342059986720968, "timer/env.step_min": 0.002796173095703125, "timer/env.step_max": 1.569321632385254, "timer/replay.add_count": 1453.0, "timer/replay.add_total": 0.26738524436950684, "timer/replay.add_frac": 0.0008911831863288925, "timer/replay.add_avg": 0.00018402287981383815, "timer/replay.add_min": 6.365776062011719e-05, "timer/replay.add_max": 0.0008645057678222656, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024781227111816406, "timer/logger.write_frac": 8.259473326856123e-05, "timer/logger.write_avg": 0.024781227111816406, "timer/logger.write_min": 0.024781227111816406, "timer/logger.write_max": 0.024781227111816406, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1453.0, "timer/agent.policy_total": 10.758158922195435, "timer/agent.policy_frac": 0.03585646758452206, "timer/agent.policy_avg": 0.007404101116445585, "timer/agent.policy_min": 0.005702495574951172, "timer/agent.policy_max": 0.01712203025817871, "timer/dataset_count": 727.0, "timer/dataset_total": 0.06366562843322754, "timer/dataset_frac": 0.00021219472204063604, "timer/dataset_avg": 8.757307900031299e-05, "timer/dataset_min": 6.341934204101562e-05, "timer/dataset_max": 0.0001785755157470703, "timer/agent.train_count": 727.0, "timer/agent.train_total": 268.76706099510193, "timer/agent.train_frac": 0.8957887199895992, "timer/agent.train_avg": 0.36969334387221725, "timer/agent.train_min": 0.3629882335662842, "timer/agent.train_max": 0.38391995429992676, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22031235694885254, "timer/agent.report_frac": 0.0007342913357701259, "timer/agent.report_avg": 0.22031235694885254, "timer/agent.report_min": 0.22031235694885254, "timer/agent.report_max": 0.22031235694885254, "fps": 4.842689112241667}
{"step": 873730, "episode/length": 248.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.04417670682730924}
{"step": 873868, "episode/length": 137.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.500000044703484, "episode/reward_rate": 0.06521739130434782}
{"step": 873981, "episode/length": 112.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 11.699999988079071, "episode/reward_rate": 0.09734513274336283}
{"step": 874192, "episode/length": 210.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.05687203791469194}
{"step": 874349, "episode/length": 156.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.07006369426751592}
{"step": 874517, "episode/length": 167.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.07142857142857142}
{"step": 874765, "episode/length": 247.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.05241935483870968}
{"step": 874998, "episode/length": 232.0, "episode/score": 14.100000023841858, "episode/sum_abs_reward": 16.30000001192093, "episode/reward_rate": 0.06866952789699571}
{"step": 875097, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.431625151298415, "train/action_min": 0.0, "train/action_std": 3.2748444382573516, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03889484372986874, "train/actor_opt_grad_steps": 436640.0, "train/actor_opt_loss": -13.137918847127699, "train/adv_mag": 0.3725872514113574, "train/adv_max": 0.3239738173048261, "train/adv_mean": 0.0018998210267762287, "train/adv_min": -0.33024120960437076, "train/adv_std": 0.04406239302225516, "train/cont_avg": 0.9947733274647887, "train/cont_loss_mean": 0.0001908561938446991, "train/cont_loss_std": 0.00603369509871969, "train/cont_neg_acc": 0.9964285714285714, "train/cont_neg_loss": 0.024180313032338217, "train/cont_pos_acc": 0.9999861322658162, "train/cont_pos_loss": 9.979945263108342e-05, "train/cont_pred": 0.9947708492547693, "train/cont_rate": 0.9947733274647887, "train/dyn_loss_mean": 5.562464196917037, "train/dyn_loss_std": 8.912331749016131, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9511624633426398, "train/extr_critic_critic_opt_grad_steps": 436640.0, "train/extr_critic_critic_opt_loss": 15673.053284551057, "train/extr_critic_mag": 11.995093466530383, "train/extr_critic_max": 11.995093466530383, "train/extr_critic_mean": 3.823509310332822, "train/extr_critic_min": -0.3552434797018347, "train/extr_critic_std": 2.922111113306502, "train/extr_return_normed_mag": 1.3747788466198343, "train/extr_return_normed_max": 1.3747788466198343, "train/extr_return_normed_mean": 0.4082751966698069, "train/extr_return_normed_min": -0.08461158953502144, "train/extr_return_normed_std": 0.31789753617535177, "train/extr_return_rate": 0.8565874872073321, "train/extr_return_raw_mag": 12.82893621417838, "train/extr_return_raw_max": 12.82893621417838, "train/extr_return_raw_mean": 3.841152419506664, "train/extr_return_raw_min": -0.7429755968107304, "train/extr_return_raw_std": 2.95671877055101, "train/extr_reward_mag": 1.0640261240408455, "train/extr_reward_max": 1.0640261240408455, "train/extr_reward_mean": 0.06166950571285167, "train/extr_reward_min": -0.6448499535171079, "train/extr_reward_std": 0.2384817700990489, "train/image_loss_mean": 3.2507388020904973, "train/image_loss_std": 8.724353232853849, "train/model_loss_mean": 6.646159064601845, "train/model_loss_std": 12.896640629835531, "train/model_opt_grad_norm": 22.95287727302229, "train/model_opt_grad_steps": 436286.04225352115, "train/model_opt_loss": 17251.779228102994, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2605.6338028169016, "train/policy_entropy_mag": 2.6804542709404315, "train/policy_entropy_max": 2.6804542709404315, "train/policy_entropy_mean": 0.3859900735633474, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5899036732357992, "train/policy_logprob_mag": 7.438384304583912, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3861023701832328, "train/policy_logprob_min": -7.438384304583912, "train/policy_logprob_std": 1.0148583113307683, "train/policy_randomness_mag": 0.9460827305283345, "train/policy_randomness_max": 0.9460827305283345, "train/policy_randomness_mean": 0.13623755614102726, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20821010930017686, "train/post_ent_mag": 55.357213141213, "train/post_ent_max": 55.357213141213, "train/post_ent_mean": 40.614003356073944, "train/post_ent_min": 19.533053814525335, "train/post_ent_std": 5.798068281630395, "train/prior_ent_mag": 76.61217208647392, "train/prior_ent_max": 76.61217208647392, "train/prior_ent_mean": 46.173061102208955, "train/prior_ent_min": 27.971404760656224, "train/prior_ent_std": 7.712580472650663, "train/rep_loss_mean": 5.562464196917037, "train/rep_loss_std": 8.912331749016131, "train/reward_avg": 0.0425437386869125, "train/reward_loss_mean": 0.05775086791582511, "train/reward_loss_std": 0.21933467140499974, "train/reward_max_data": 1.0211267656003926, "train/reward_max_pred": 1.0217702472713632, "train/reward_neg_acc": 0.9935055165223672, "train/reward_neg_loss": 0.024618949846062863, "train/reward_pos_acc": 0.9898125260648593, "train/reward_pos_loss": 0.728649830314475, "train/reward_pred": 0.04220296736334411, "train/reward_rate": 0.04716384242957746, "stats/sum_log_reward": 10.725000262260437, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 2.375, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.625, "stats/max_log_achievement_collect_stone": 11.375, "stats/max_log_achievement_collect_wood": 13.625, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 0.875, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.875, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.125, "stats/max_log_achievement_place_plant": 1.125, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 3.625, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.30863809026777744, "replay/size": 875034.0, "replay/inserts": 1424.0, "replay/samples": 11392.0, "replay/insert_wait_avg": 3.2169765300965042e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4595185103041403e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.005402803421, "timer/env.step_count": 1424.0, "timer/env.step_total": 22.549174070358276, "timer/env.step_frac": 0.07516255993940768, "timer/env.step_avg": 0.015835094150532497, "timer/env.step_min": 0.0023849010467529297, "timer/env.step_max": 2.6218461990356445, "timer/replay.add_count": 1424.0, "timer/replay.add_total": 0.28275179862976074, "timer/replay.add_frac": 0.0009424890218228312, "timer/replay.add_avg": 0.00019856165634112412, "timer/replay.add_min": 7.367134094238281e-05, "timer/replay.add_max": 0.005733489990234375, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025060653686523438, "timer/logger.write_frac": 8.353400789566602e-05, "timer/logger.write_avg": 0.025060653686523438, "timer/logger.write_min": 0.025060653686523438, "timer/logger.write_max": 0.025060653686523438, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003330707550048828, "timer/checkpoint.save_frac": 1.1102158557561976e-06, "timer/checkpoint.save_avg": 0.0003330707550048828, "timer/checkpoint.save_min": 0.0003330707550048828, "timer/checkpoint.save_max": 0.0003330707550048828, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.251110553741455, "timer/agent.save_frac": 0.004170293408219875, "timer/agent.save_avg": 1.251110553741455, "timer/agent.save_min": 1.251110553741455, "timer/agent.save_max": 1.251110553741455, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.343292236328125e-05, "timer/replay.save_frac": 2.4477199969427975e-07, "timer/replay.save_avg": 7.343292236328125e-05, "timer/replay.save_min": 7.343292236328125e-05, "timer/replay.save_max": 7.343292236328125e-05, "timer/agent.policy_count": 1424.0, "timer/agent.policy_total": 11.745929479598999, "timer/agent.policy_frac": 0.03915239315638438, "timer/agent.policy_avg": 0.008248545982864466, "timer/agent.policy_min": 0.005592823028564453, "timer/agent.policy_max": 1.241149663925171, "timer/dataset_count": 712.0, "timer/dataset_total": 0.06420159339904785, "timer/dataset_frac": 0.00021400145730414075, "timer/dataset_avg": 9.017077724585372e-05, "timer/dataset_min": 6.651878356933594e-05, "timer/dataset_max": 0.00022912025451660156, "timer/agent.train_count": 712.0, "timer/agent.train_total": 264.6835172176361, "timer/agent.train_frac": 0.8822625017559113, "timer/agent.train_avg": 0.37174651294611816, "timer/agent.train_min": 0.36371350288391113, "timer/agent.train_max": 0.8694753646850586, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2193906307220459, "timer/agent.report_frac": 0.0007312889323723344, "timer/agent.report_avg": 0.2193906307220459, "timer/agent.report_min": 0.2193906307220459, "timer/agent.report_max": 0.2193906307220459, "fps": 4.746507035347047}
{"step": 875234, "episode/length": 235.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.059322033898305086}
{"step": 875494, "episode/length": 259.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.05384615384615385}
{"step": 875587, "episode/length": 92.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.06451612903225806}
{"step": 875818, "episode/length": 230.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.05627705627705628}
{"step": 876014, "episode/length": 195.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.061224489795918366}
{"step": 876075, "episode/length": 60.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.13114754098360656}
{"step": 876313, "episode/length": 237.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.058823529411764705}
{"step": 876525, "episode/length": 211.0, "episode/score": 13.100000031292439, "episode/sum_abs_reward": 15.900000013411045, "episode/reward_rate": 0.07547169811320754}
{"step": 876545, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.486354880136986, "train/action_min": 0.0, "train/action_std": 3.289364161556714, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03973767097580106, "train/actor_opt_grad_steps": 437360.0, "train/actor_opt_loss": -11.654692587378907, "train/adv_mag": 0.4075946362867747, "train/adv_max": 0.3468727914437856, "train/adv_mean": 0.0018930964473689179, "train/adv_min": -0.3469581289650643, "train/adv_std": 0.04393385381323017, "train/cont_avg": 0.9947827482876712, "train/cont_loss_mean": 2.63294929743318e-05, "train/cont_loss_std": 0.0007746757975198387, "train/cont_neg_acc": 0.9980430537707186, "train/cont_neg_loss": 0.0021253200279936087, "train/cont_pos_acc": 0.9999999861194663, "train/cont_pos_loss": 1.3262507001297297e-05, "train/cont_pred": 0.9947808833971415, "train/cont_rate": 0.9947827482876712, "train/dyn_loss_mean": 5.7402029429396535, "train/dyn_loss_std": 9.018479961238496, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.942383735963743, "train/extr_critic_critic_opt_grad_steps": 437360.0, "train/extr_critic_critic_opt_loss": 15622.457833904109, "train/extr_critic_mag": 12.035806486051376, "train/extr_critic_max": 12.035806486051376, "train/extr_critic_mean": 3.7917201421032214, "train/extr_critic_min": -0.31954233450432346, "train/extr_critic_std": 2.8522162372118807, "train/extr_return_normed_mag": 1.3788331126513547, "train/extr_return_normed_max": 1.3788331126513547, "train/extr_return_normed_mean": 0.4067257520270674, "train/extr_return_normed_min": -0.08025772221488496, "train/extr_return_normed_std": 0.31074622947059266, "train/extr_return_rate": 0.8635586614478125, "train/extr_return_raw_mag": 12.804346829244535, "train/extr_return_raw_max": 12.804346829244535, "train/extr_return_raw_mean": 3.8092167802052956, "train/extr_return_raw_min": -0.6972632195851575, "train/extr_return_raw_std": 2.8756429757157416, "train/extr_reward_mag": 1.0727410904348713, "train/extr_reward_max": 1.0727410904348713, "train/extr_reward_mean": 0.06183973148669282, "train/extr_reward_min": -0.6424774633695002, "train/extr_reward_std": 0.23902996047718883, "train/image_loss_mean": 3.312856700322399, "train/image_loss_std": 8.7661222562398, "train/model_loss_mean": 6.814485445414504, "train/model_loss_std": 13.023378137039812, "train/model_opt_grad_norm": 24.652830999191494, "train/model_opt_grad_steps": 437005.4383561644, "train/model_opt_loss": 17268.67458395762, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2534.246575342466, "train/policy_entropy_mag": 2.6691730381691294, "train/policy_entropy_max": 2.6691730381691294, "train/policy_entropy_mean": 0.36546686475407586, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5581871667136885, "train/policy_logprob_mag": 7.438384271647832, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36647804877529405, "train/policy_logprob_min": -7.438384271647832, "train/policy_logprob_std": 0.9999188029602782, "train/policy_randomness_mag": 0.942100947850371, "train/policy_randomness_max": 0.942100947850371, "train/policy_randomness_mean": 0.12899376441762872, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1970155757583984, "train/post_ent_mag": 55.441164931205854, "train/post_ent_max": 55.441164931205854, "train/post_ent_mean": 40.435263699048186, "train/post_ent_min": 19.56615854289434, "train/post_ent_std": 5.744576310458249, "train/prior_ent_mag": 76.71247968281786, "train/prior_ent_max": 76.71247968281786, "train/prior_ent_mean": 46.15018065988201, "train/prior_ent_min": 28.18590728550741, "train/prior_ent_std": 7.700205887833687, "train/rep_loss_mean": 5.7402029429396535, "train/rep_loss_std": 9.018479961238496, "train/reward_avg": 0.0417941991903194, "train/reward_loss_mean": 0.05748065938688304, "train/reward_loss_std": 0.21901475668769993, "train/reward_max_data": 1.0328767201671862, "train/reward_max_pred": 1.0305755367017773, "train/reward_neg_acc": 0.9928255260807194, "train/reward_neg_loss": 0.025224718163172677, "train/reward_pos_acc": 0.9916337124288899, "train/reward_pos_loss": 0.7203411794688603, "train/reward_pred": 0.04163471775205985, "train/reward_rate": 0.046353274828767124, "stats/sum_log_reward": 10.975000143051147, "stats/max_log_achievement_collect_coal": 0.125, "stats/max_log_achievement_collect_drink": 2.625, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.625, "stats/max_log_achievement_collect_stone": 13.125, "stats/max_log_achievement_collect_wood": 11.875, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 1.625, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.75, "stats/max_log_achievement_make_stone_sword": 1.125, "stats/max_log_achievement_make_wood_pickaxe": 0.875, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 1.625, "stats/max_log_achievement_place_plant": 1.625, "stats/max_log_achievement_place_stone": 2.375, "stats/max_log_achievement_place_table": 3.125, "stats/max_log_achievement_wake_up": 0.875, "stats/mean_log_entropy": 0.32432914339005947, "replay/size": 876482.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.204325944679218e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.432528482616277e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.20403957366943, "timer/env.step_count": 1448.0, "timer/env.step_total": 20.115495443344116, "timer/env.step_frac": 0.06700607850550865, "timer/env.step_avg": 0.013891916742640965, "timer/env.step_min": 0.0026624202728271484, "timer/env.step_max": 1.5975134372711182, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.26380062103271484, "timer/replay.add_frac": 0.0008787377458589419, "timer/replay.add_avg": 0.0001821827493319854, "timer/replay.add_min": 6.723403930664062e-05, "timer/replay.add_max": 0.002346038818359375, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02520608901977539, "timer/logger.write_frac": 8.396319068714554e-05, "timer/logger.write_avg": 0.02520608901977539, "timer/logger.write_min": 0.02520608901977539, "timer/logger.write_max": 0.02520608901977539, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 10.683488845825195, "timer/agent.policy_frac": 0.03558742534243444, "timer/agent.policy_avg": 0.007378100031647235, "timer/agent.policy_min": 0.005692005157470703, "timer/agent.policy_max": 0.016199588775634766, "timer/dataset_count": 724.0, "timer/dataset_total": 0.065032958984375, "timer/dataset_frac": 0.00021662919352028256, "timer/dataset_avg": 8.982452898394337e-05, "timer/dataset_min": 6.389617919921875e-05, "timer/dataset_max": 0.0010128021240234375, "timer/agent.train_count": 724.0, "timer/agent.train_total": 268.4016172885895, "timer/agent.train_frac": 0.8940639761868504, "timer/agent.train_avg": 0.3707204658682175, "timer/agent.train_min": 0.363663911819458, "timer/agent.train_max": 0.38699817657470703, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2189018726348877, "timer/agent.report_frac": 0.0007291769722544644, "timer/agent.report_avg": 0.2189018726348877, "timer/agent.report_min": 0.2189018726348877, "timer/agent.report_max": 0.2189018726348877, "fps": 4.823287685263615}
{"step": 876712, "episode/length": 186.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.053475935828877004}
{"step": 876932, "episode/length": 219.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.30000003427267, "episode/reward_rate": 0.06818181818181818}
{"step": 877159, "episode/length": 226.0, "episode/score": 13.100000031292439, "episode/sum_abs_reward": 15.90000007301569, "episode/reward_rate": 0.06167400881057269}
{"step": 877408, "episode/length": 248.0, "episode/score": 13.100000023841858, "episode/sum_abs_reward": 16.100000023841858, "episode/reward_rate": 0.060240963855421686}
{"step": 877652, "episode/length": 243.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.06147540983606557}
{"step": 877847, "episode/length": 194.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.500000037252903, "episode/reward_rate": 0.07179487179487179}
{"step": 878003, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.366275317048373, "train/action_min": 0.0, "train/action_std": 3.202027866285141, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.04053093903787332, "train/actor_opt_grad_steps": 438090.0, "train/actor_opt_loss": -10.824968292696836, "train/adv_mag": 0.3856459860115835, "train/adv_max": 0.3417158557535851, "train/adv_mean": 0.0021569269041695044, "train/adv_min": -0.34211182043160476, "train/adv_std": 0.04463918466274053, "train/cont_avg": 0.995036922089041, "train/cont_loss_mean": 0.00016704037965974461, "train/cont_loss_std": 0.005260393269253817, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0025447780962129054, "train/cont_pos_acc": 0.9999865513958343, "train/cont_pos_loss": 0.00015467930290457207, "train/cont_pred": 0.9950198865916631, "train/cont_rate": 0.995036922089041, "train/dyn_loss_mean": 5.652595147694627, "train/dyn_loss_std": 8.938298486683466, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9302795398725222, "train/extr_critic_critic_opt_grad_steps": 438090.0, "train/extr_critic_critic_opt_loss": 15668.152624678938, "train/extr_critic_mag": 12.165116858808961, "train/extr_critic_max": 12.165116858808961, "train/extr_critic_mean": 3.875477088640814, "train/extr_critic_min": -0.340248215688418, "train/extr_critic_std": 2.8663518755403286, "train/extr_return_normed_mag": 1.3872893591449684, "train/extr_return_normed_max": 1.3872893591449684, "train/extr_return_normed_mean": 0.4138835989040871, "train/extr_return_normed_min": -0.08308061901224803, "train/extr_return_normed_std": 0.31195559179129667, "train/extr_return_rate": 0.8727713423232509, "train/extr_return_raw_mag": 12.92775715867134, "train/extr_return_raw_max": 12.92775715867134, "train/extr_return_raw_mean": 3.895493314690786, "train/extr_return_raw_min": -0.7158998818430182, "train/extr_return_raw_std": 2.895017826393859, "train/extr_reward_mag": 1.0754212320667424, "train/extr_reward_max": 1.0754212320667424, "train/extr_reward_mean": 0.062355931899318956, "train/extr_reward_min": -0.61890310457308, "train/extr_reward_std": 0.23922302727013417, "train/image_loss_mean": 3.2492394284026265, "train/image_loss_std": 8.529401753046741, "train/model_loss_mean": 6.698763494622217, "train/model_loss_std": 12.704552519811342, "train/model_opt_grad_norm": 22.63132261250117, "train/model_opt_grad_steps": 437734.0, "train/model_opt_loss": 8373.454409246575, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.6538861745024382, "train/policy_entropy_max": 2.6538861745024382, "train/policy_entropy_mean": 0.3551141123657357, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5443844211428133, "train/policy_logprob_mag": 7.438384252051785, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.35578055108246737, "train/policy_logprob_min": -7.438384252051785, "train/policy_logprob_std": 0.9894580171532827, "train/policy_randomness_mag": 0.9367053582243723, "train/policy_randomness_max": 0.9367053582243723, "train/policy_randomness_mean": 0.125339697383038, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19214380930547845, "train/post_ent_mag": 55.705549632033254, "train/post_ent_max": 55.705549632033254, "train/post_ent_mean": 40.52725569842613, "train/post_ent_min": 19.026000336424946, "train/post_ent_std": 5.832673412479767, "train/prior_ent_mag": 76.772345660484, "train/prior_ent_max": 76.772345660484, "train/prior_ent_mean": 46.16377770410825, "train/prior_ent_min": 28.18684225213038, "train/prior_ent_std": 7.712960863766605, "train/rep_loss_mean": 5.652595147694627, "train/rep_loss_std": 8.938298486683466, "train/reward_avg": 0.04299684228656227, "train/reward_loss_mean": 0.057799897067350885, "train/reward_loss_std": 0.21986511717103932, "train/reward_max_data": 1.0301369934865874, "train/reward_max_pred": 1.0286626619835422, "train/reward_neg_acc": 0.9937129518757127, "train/reward_neg_loss": 0.024415407687017363, "train/reward_pos_acc": 0.98919784777785, "train/reward_pos_loss": 0.731416594492246, "train/reward_pred": 0.04260131895338019, "train/reward_rate": 0.047410102739726026, "stats/sum_log_reward": 12.766666730244955, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 2.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.8333333333333335, "stats/max_log_achievement_collect_stone": 11.166666666666666, "stats/max_log_achievement_collect_wood": 16.666666666666668, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.1666666666666667, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 1.5, "stats/max_log_achievement_make_stone_sword": 1.3333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.8333333333333334, "stats/max_log_achievement_place_plant": 2.6666666666666665, "stats/max_log_achievement_place_stone": 3.8333333333333335, "stats/max_log_achievement_place_table": 3.8333333333333335, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.34400152415037155, "replay/size": 877940.0, "replay/inserts": 1458.0, "replay/samples": 11664.0, "replay/insert_wait_avg": 3.309733910161608e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4377065483271176e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.08705258369446, "timer/env.step_count": 1458.0, "timer/env.step_total": 17.757590532302856, "timer/env.step_frac": 0.05917479737767178, "timer/env.step_avg": 0.012179417374693318, "timer/env.step_min": 0.0029044151306152344, "timer/env.step_max": 1.6806766986846924, "timer/replay.add_count": 1458.0, "timer/replay.add_total": 0.2703516483306885, "timer/replay.add_frac": 0.0009009107390772457, "timer/replay.add_avg": 0.00018542637059718002, "timer/replay.add_min": 6.508827209472656e-05, "timer/replay.add_max": 0.00626373291015625, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02301764488220215, "timer/logger.write_frac": 7.670322556079795e-05, "timer/logger.write_avg": 0.02301764488220215, "timer/logger.write_min": 0.02301764488220215, "timer/logger.write_max": 0.02301764488220215, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1458.0, "timer/agent.policy_total": 10.896377325057983, "timer/agent.policy_frac": 0.03631072127651684, "timer/agent.policy_avg": 0.00747350982514265, "timer/agent.policy_min": 0.005720615386962891, "timer/agent.policy_max": 0.015366077423095703, "timer/dataset_count": 729.0, "timer/dataset_total": 0.06483221054077148, "timer/dataset_frac": 0.00021604467764463028, "timer/dataset_avg": 8.893307344413098e-05, "timer/dataset_min": 6.198883056640625e-05, "timer/dataset_max": 0.0001628398895263672, "timer/agent.train_count": 729.0, "timer/agent.train_total": 270.4199216365814, "timer/agent.train_frac": 0.9011382507452937, "timer/agent.train_avg": 0.3709463945632118, "timer/agent.train_min": 0.3629140853881836, "timer/agent.train_max": 0.3864161968231201, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21814870834350586, "timer/agent.report_frac": 0.0007269514178145492, "timer/agent.report_avg": 0.21814870834350586, "timer/agent.report_min": 0.21814870834350586, "timer/agent.report_max": 0.21814870834350586, "fps": 4.858491154381537}
{"step": 878063, "episode/length": 215.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.06481481481481481}
{"step": 878265, "episode/length": 201.0, "episode/score": 8.099999971687794, "episode/sum_abs_reward": 10.500000037252903, "episode/reward_rate": 0.04950495049504951}
{"step": 878600, "episode/length": 334.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.029850746268656716}
{"step": 878832, "episode/length": 231.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.06465517241379311}
{"step": 879044, "episode/length": 211.0, "episode/score": 13.099999971687794, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.07075471698113207}
{"step": 879262, "episode/length": 217.0, "episode/score": 13.100000023841858, "episode/sum_abs_reward": 15.300000011920929, "episode/reward_rate": 0.06880733944954129}
{"step": 879441, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.432565477159288, "train/action_min": 0.0, "train/action_std": 3.2197203636169434, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.039645347356175385, "train/actor_opt_grad_steps": 438815.0, "train/actor_opt_loss": -11.607209775803817, "train/adv_mag": 0.405628927052021, "train/adv_max": 0.3302893328169982, "train/adv_mean": 0.0018181308891800857, "train/adv_min": -0.36833001983662444, "train/adv_std": 0.04400368971336219, "train/cont_avg": 0.9949951171875, "train/cont_loss_mean": 4.24322458023596e-05, "train/cont_loss_std": 0.001273764447207368, "train/cont_neg_acc": 0.9965277777777778, "train/cont_neg_loss": 0.005144740318185213, "train/cont_pos_acc": 0.9999863596426116, "train/cont_pos_loss": 2.1982779057812724e-05, "train/cont_pred": 0.9949899555908309, "train/cont_rate": 0.9949951171875, "train/dyn_loss_mean": 5.46479770872328, "train/dyn_loss_std": 8.849985308117336, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9840559868348969, "train/extr_critic_critic_opt_grad_steps": 438815.0, "train/extr_critic_critic_opt_loss": 15698.076985677084, "train/extr_critic_mag": 12.138238734669155, "train/extr_critic_max": 12.138238734669155, "train/extr_critic_mean": 3.8037876983483634, "train/extr_critic_min": -0.34624451729986405, "train/extr_critic_std": 2.9211564593844943, "train/extr_return_normed_mag": 1.3796012186341815, "train/extr_return_normed_max": 1.3796012186341815, "train/extr_return_normed_mean": 0.40312696910566753, "train/extr_return_normed_min": -0.08255636386780275, "train/extr_return_normed_std": 0.31632140196031994, "train/extr_return_rate": 0.8662525763114294, "train/extr_return_raw_mag": 12.927251987987095, "train/extr_return_raw_max": 12.927251987987095, "train/extr_return_raw_mean": 3.820741487873925, "train/extr_return_raw_min": -0.7089384206467204, "train/extr_return_raw_std": 2.9501050346427493, "train/extr_reward_mag": 1.0800028675132327, "train/extr_reward_max": 1.0800028675132327, "train/extr_reward_mean": 0.061167287536793284, "train/extr_reward_min": -0.6322165197796292, "train/extr_reward_std": 0.23728800275259548, "train/image_loss_mean": 3.1457013686498008, "train/image_loss_std": 8.15171394083235, "train/model_loss_mean": 6.48163953754637, "train/model_loss_std": 12.286349958843655, "train/model_opt_grad_norm": 22.758959492047627, "train/model_opt_grad_steps": 438459.0, "train/model_opt_loss": 13184.999206542969, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2065.972222222222, "train/policy_entropy_mag": 2.637349453237322, "train/policy_entropy_max": 2.637349453237322, "train/policy_entropy_mean": 0.3610878197683228, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5524872752527396, "train/policy_logprob_mag": 7.438384321000841, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36091198441055083, "train/policy_logprob_min": -7.438384321000841, "train/policy_logprob_std": 0.9921575486660004, "train/policy_randomness_mag": 0.9308686198459731, "train/policy_randomness_max": 0.9308686198459731, "train/policy_randomness_mean": 0.12744815399249396, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19500376232382324, "train/post_ent_mag": 55.208699544270836, "train/post_ent_max": 55.208699544270836, "train/post_ent_mean": 40.601257430182564, "train/post_ent_min": 19.568400687641567, "train/post_ent_std": 5.773577524556054, "train/prior_ent_mag": 76.6938648223877, "train/prior_ent_max": 76.6938648223877, "train/prior_ent_mean": 46.0191060172187, "train/prior_ent_min": 27.815314928690594, "train/prior_ent_std": 7.688819395171271, "train/rep_loss_mean": 5.46479770872328, "train/rep_loss_std": 8.849985308117336, "train/reward_avg": 0.0414076060988009, "train/reward_loss_mean": 0.057017117376542754, "train/reward_loss_std": 0.21954232930309242, "train/reward_max_data": 1.0236111167404387, "train/reward_max_pred": 1.0241241521305509, "train/reward_neg_acc": 0.9939023421870338, "train/reward_neg_loss": 0.024333945514323812, "train/reward_pos_acc": 0.9891063993175825, "train/reward_pos_loss": 0.7329373897777663, "train/reward_pred": 0.0409984544902626, "train/reward_rate": 0.04611545138888889, "stats/sum_log_reward": 11.766667048136393, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 5.833333333333333, "stats/max_log_achievement_collect_wood": 12.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.6666666666666667, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.3333333333333333, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 2.5, "stats/max_log_achievement_place_table": 3.1666666666666665, "stats/max_log_achievement_wake_up": 2.0, "stats/mean_log_entropy": 0.4643733004728953, "replay/size": 879378.0, "replay/inserts": 1438.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.2473339988061218e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4258898349066934e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.21322798728943, "timer/env.step_count": 1438.0, "timer/env.step_total": 17.748063564300537, "timer/env.step_frac": 0.059118193036623835, "timer/env.step_avg": 0.012342186066968385, "timer/env.step_min": 0.002973794937133789, "timer/env.step_max": 1.6617364883422852, "timer/replay.add_count": 1438.0, "timer/replay.add_total": 0.2543783187866211, "timer/replay.add_frac": 0.0008473254842634419, "timer/replay.add_avg": 0.0001768973009642706, "timer/replay.add_min": 6.580352783203125e-05, "timer/replay.add_max": 0.002240419387817383, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023921489715576172, "timer/logger.write_frac": 7.968166451542558e-05, "timer/logger.write_avg": 0.023921489715576172, "timer/logger.write_min": 0.023921489715576172, "timer/logger.write_max": 0.023921489715576172, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004341602325439453, "timer/checkpoint.save_frac": 1.4461728933620706e-06, "timer/checkpoint.save_avg": 0.0004341602325439453, "timer/checkpoint.save_min": 0.0004341602325439453, "timer/checkpoint.save_max": 0.0004341602325439453, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4652938842773438, "timer/agent.save_frac": 0.004880843839230768, "timer/agent.save_avg": 1.4652938842773438, "timer/agent.save_min": 1.4652938842773438, "timer/agent.save_max": 1.4652938842773438, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.081031799316406e-05, "timer/replay.save_frac": 2.3586674867025533e-07, "timer/replay.save_avg": 7.081031799316406e-05, "timer/replay.save_min": 7.081031799316406e-05, "timer/replay.save_max": 7.081031799316406e-05, "timer/agent.policy_count": 1438.0, "timer/agent.policy_total": 14.454647064208984, "timer/agent.policy_frac": 0.048147935256273824, "timer/agent.policy_avg": 0.010051910336723912, "timer/agent.policy_min": 0.005784273147583008, "timer/agent.policy_max": 2.5444982051849365, "timer/dataset_count": 719.0, "timer/dataset_total": 0.06324052810668945, "timer/dataset_frac": 0.00021065203732250918, "timer/dataset_avg": 8.795622824296169e-05, "timer/dataset_min": 6.341934204101562e-05, "timer/dataset_max": 0.000202178955078125, "timer/agent.train_count": 719.0, "timer/agent.train_total": 267.02111983299255, "timer/agent.train_frac": 0.889438222370061, "timer/agent.train_avg": 0.37137846986508005, "timer/agent.train_min": 0.3637523651123047, "timer/agent.train_max": 0.4224076271057129, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21964430809020996, "timer/agent.report_frac": 0.0007316276819737916, "timer/agent.report_avg": 0.21964430809020996, "timer/agent.report_min": 0.21964430809020996, "timer/agent.report_max": 0.21964430809020996, "fps": 4.7898340539677}
{"step": 879476, "episode/length": 213.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.07009345794392523}
{"step": 879650, "episode/length": 173.0, "episode/score": 10.099999964237213, "episode/sum_abs_reward": 12.5, "episode/reward_rate": 0.06321839080459771}
{"step": 879818, "episode/length": 167.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.05357142857142857}
{"step": 879997, "episode/length": 178.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.061452513966480445}
{"step": 880205, "episode/length": 207.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.0625}
{"step": 880431, "episode/length": 225.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.06637168141592921}
{"step": 880661, "episode/length": 229.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.05652173913043478}
{"step": 880858, "episode/length": 196.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 16.10000005364418, "episode/reward_rate": 0.07106598984771574}
{"step": 880879, "episode/length": 20.0, "episode/score": 4.100000023841858, "episode/sum_abs_reward": 5.899999976158142, "episode/reward_rate": 0.2857142857142857}
{"step": 880880, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.520361158582899, "train/action_min": 0.0, "train/action_std": 3.3604589932494693, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.039586517959833145, "train/actor_opt_grad_steps": 439535.0, "train/actor_opt_loss": -11.827864736525548, "train/adv_mag": 0.41931432195835644, "train/adv_max": 0.3397119322584735, "train/adv_mean": 0.00208305236406482, "train/adv_min": -0.37143541706932914, "train/adv_std": 0.04387178111614452, "train/cont_avg": 0.9947916666666666, "train/cont_loss_mean": 1.6248652564677792e-05, "train/cont_loss_std": 0.00039959883672303757, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00161346156313079, "train/cont_pos_acc": 0.999999982615312, "train/cont_pos_loss": 7.131977941554624e-06, "train/cont_pred": 0.9947935044765472, "train/cont_rate": 0.9947916666666666, "train/dyn_loss_mean": 5.454244752724965, "train/dyn_loss_std": 8.939678523275587, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9404349111848407, "train/extr_critic_critic_opt_grad_steps": 439535.0, "train/extr_critic_critic_opt_loss": 15571.245524088541, "train/extr_critic_mag": 12.266739779048496, "train/extr_critic_max": 12.266739779048496, "train/extr_critic_mean": 3.8271559410625033, "train/extr_critic_min": -0.3452897353304757, "train/extr_critic_std": 2.924744940466351, "train/extr_return_normed_mag": 1.376454187764062, "train/extr_return_normed_max": 1.376454187764062, "train/extr_return_normed_mean": 0.40286256476408905, "train/extr_return_normed_min": -0.08253596355724666, "train/extr_return_normed_std": 0.31523567417429554, "train/extr_return_rate": 0.8674362053473791, "train/extr_return_raw_mag": 12.968357430564033, "train/extr_return_raw_max": 12.968357430564033, "train/extr_return_raw_mean": 3.84668857521481, "train/extr_return_raw_min": -0.7009603844748603, "train/extr_return_raw_std": 2.953858620590634, "train/extr_reward_mag": 1.0669800308015611, "train/extr_reward_max": 1.0669800308015611, "train/extr_reward_mean": 0.0623471688789626, "train/extr_reward_min": -0.6414987792571386, "train/extr_reward_std": 0.2395902302943998, "train/image_loss_mean": 3.2134224805566998, "train/image_loss_std": 8.25550495253669, "train/model_loss_mean": 6.543432176113129, "train/model_loss_std": 12.45446625020769, "train/model_opt_grad_norm": 22.121338976754082, "train/model_opt_grad_steps": 439178.77777777775, "train/model_opt_loss": 16767.614149305555, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2604.1666666666665, "train/policy_entropy_mag": 2.6439524723423853, "train/policy_entropy_max": 2.6439524723423853, "train/policy_entropy_mean": 0.3859078273591068, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5875179891784986, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38479974928001565, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 1.012286413874891, "train/policy_randomness_mag": 0.9331992011931207, "train/policy_randomness_max": 0.9331992011931207, "train/policy_randomness_mean": 0.13620852813538578, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20736806674136055, "train/post_ent_mag": 54.89502822028266, "train/post_ent_max": 54.89502822028266, "train/post_ent_mean": 40.50752189424303, "train/post_ent_min": 19.727938493092854, "train/post_ent_std": 5.749231908056471, "train/prior_ent_mag": 76.69025156233046, "train/prior_ent_max": 76.69025156233046, "train/prior_ent_mean": 45.93517859776815, "train/prior_ent_min": 28.10200572013855, "train/prior_ent_std": 7.710695829656389, "train/rep_loss_mean": 5.454244752724965, "train/rep_loss_std": 8.939678523275587, "train/reward_avg": 0.04232177697122097, "train/reward_loss_mean": 0.05744660899250044, "train/reward_loss_std": 0.2135553134398328, "train/reward_max_data": 1.0236111167404387, "train/reward_max_pred": 1.022930423418681, "train/reward_neg_acc": 0.9936530532108413, "train/reward_neg_loss": 0.024428002756192453, "train/reward_pos_acc": 0.9892609011795785, "train/reward_pos_loss": 0.7252977076503966, "train/reward_pred": 0.04205184704106715, "train/reward_rate": 0.047078450520833336, "stats/sum_log_reward": 10.877778000301785, "stats/max_log_achievement_collect_coal": 0.7777777777777778, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_iron": 0.1111111111111111, "stats/max_log_achievement_collect_sapling": 1.4444444444444444, "stats/max_log_achievement_collect_stone": 13.777777777777779, "stats/max_log_achievement_collect_wood": 8.88888888888889, "stats/max_log_achievement_defeat_skeleton": 0.1111111111111111, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 0.5555555555555556, "stats/max_log_achievement_make_stone_sword": 0.4444444444444444, "stats/max_log_achievement_make_wood_pickaxe": 1.1111111111111112, "stats/max_log_achievement_make_wood_sword": 0.7777777777777778, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 4.0, "stats/max_log_achievement_place_table": 2.3333333333333335, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.2701519992616441, "replay/size": 880817.0, "replay/inserts": 1439.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.2604859055869692e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4265737546833234e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 301.1109380722046, "timer/env.step_count": 1439.0, "timer/env.step_total": 22.476069927215576, "timer/env.step_frac": 0.0746438175614396, "timer/env.step_avg": 0.015619228580413883, "timer/env.step_min": 0.00290679931640625, "timer/env.step_max": 1.762786865234375, "timer/replay.add_count": 1439.0, "timer/replay.add_total": 0.26703643798828125, "timer/replay.add_frac": 0.0008868373885649, "timer/replay.add_avg": 0.0001855708394637118, "timer/replay.add_min": 6.604194641113281e-05, "timer/replay.add_max": 0.00311279296875, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025191068649291992, "timer/logger.write_frac": 8.366042366501919e-05, "timer/logger.write_avg": 0.025191068649291992, "timer/logger.write_min": 0.025191068649291992, "timer/logger.write_max": 0.025191068649291992, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1439.0, "timer/agent.policy_total": 10.592084646224976, "timer/agent.policy_frac": 0.035176685091675604, "timer/agent.policy_avg": 0.007360725952901303, "timer/agent.policy_min": 0.0058231353759765625, "timer/agent.policy_max": 0.01746201515197754, "timer/dataset_count": 719.0, "timer/dataset_total": 0.06450676918029785, "timer/dataset_frac": 0.0002142292458496792, "timer/dataset_avg": 8.971734239262567e-05, "timer/dataset_min": 6.508827209472656e-05, "timer/dataset_max": 0.0010688304901123047, "timer/agent.train_count": 719.0, "timer/agent.train_total": 267.0262472629547, "timer/agent.train_frac": 0.8868035448082043, "timer/agent.train_avg": 0.3713856012002152, "timer/agent.train_min": 0.3596968650817871, "timer/agent.train_max": 0.3874967098236084, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2195601463317871, "timer/agent.report_frac": 0.0007291669566621253, "timer/agent.report_avg": 0.2195601463317871, "timer/agent.report_min": 0.2195601463317871, "timer/agent.report_max": 0.2195601463317871, "fps": 4.7788845986960045}
{"step": 880951, "episode/length": 71.0, "episode/score": 7.100000023841858, "episode/sum_abs_reward": 9.10000005364418, "episode/reward_rate": 0.1111111111111111}
{"step": 881098, "episode/length": 146.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.08163265306122448}
{"step": 881387, "episode/length": 288.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.04844290657439446}
{"step": 881568, "episode/length": 180.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06629834254143646}
{"step": 881778, "episode/length": 209.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.099999994039536, "episode/reward_rate": 0.0380952380952381}
{"step": 882020, "episode/length": 241.0, "episode/score": 11.099999971687794, "episode/sum_abs_reward": 14.1000000461936, "episode/reward_rate": 0.05371900826446281}
{"step": 882180, "episode/length": 159.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.04375}
{"step": 882331, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.459805806477864, "train/action_min": 0.0, "train/action_std": 3.2845143013530307, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.039336291866170034, "train/actor_opt_grad_steps": 440255.0, "train/actor_opt_loss": -12.185828487078348, "train/adv_mag": 0.392856412463718, "train/adv_max": 0.34102706693940693, "train/adv_mean": 0.0016954783612466902, "train/adv_min": -0.34217301073173684, "train/adv_std": 0.04412745379118456, "train/cont_avg": 0.9952799479166666, "train/cont_loss_mean": 0.0001023673947100592, "train/cont_loss_std": 0.0032043340684329755, "train/cont_neg_acc": 0.9949139281057976, "train/cont_neg_loss": 0.020960224434651228, "train/cont_pos_acc": 0.9999999842709966, "train/cont_pos_loss": 1.2948384093923613e-05, "train/cont_pred": 0.9952924425403277, "train/cont_rate": 0.9952799479166666, "train/dyn_loss_mean": 5.428790801101261, "train/dyn_loss_std": 8.865701794624329, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9302936610248353, "train/extr_critic_critic_opt_grad_steps": 440255.0, "train/extr_critic_critic_opt_loss": 15588.800198025174, "train/extr_critic_mag": 12.058771544032627, "train/extr_critic_max": 12.058771544032627, "train/extr_critic_mean": 3.8454313708676233, "train/extr_critic_min": -0.33143901659382713, "train/extr_critic_std": 2.8406669199466705, "train/extr_return_normed_mag": 1.3767690873808331, "train/extr_return_normed_max": 1.3767690873808331, "train/extr_return_normed_mean": 0.40926101182897884, "train/extr_return_normed_min": -0.08054504812591606, "train/extr_return_normed_std": 0.3100386280566454, "train/extr_return_rate": 0.8740659803152084, "train/extr_return_raw_mag": 12.796592540211147, "train/extr_return_raw_max": 12.796592540211147, "train/extr_return_raw_mean": 3.8611043757862515, "train/extr_return_raw_min": -0.6637355362375578, "train/extr_return_raw_std": 2.863933821519216, "train/extr_reward_mag": 1.0753506455156538, "train/extr_reward_max": 1.0753506455156538, "train/extr_reward_mean": 0.062437455945958696, "train/extr_reward_min": -0.5940838836961322, "train/extr_reward_std": 0.23951675349639523, "train/image_loss_mean": 3.057896734939681, "train/image_loss_std": 8.736713058418697, "train/model_loss_mean": 6.371012548605601, "train/model_loss_std": 12.890039112832811, "train/model_opt_grad_norm": 24.587400568856133, "train/model_opt_grad_steps": 439898.0, "train/model_opt_loss": 15927.531331380209, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.616440090868208, "train/policy_entropy_max": 2.616440090868208, "train/policy_entropy_mean": 0.35869453185134464, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5419981392721335, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3589771917710702, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 0.9907985130945841, "train/policy_randomness_mag": 0.9234885341591306, "train/policy_randomness_max": 0.9234885341591306, "train/policy_randomness_mean": 0.1266034287917945, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19130155930502546, "train/post_ent_mag": 55.44563606050279, "train/post_ent_max": 55.44563606050279, "train/post_ent_mean": 40.49253564410739, "train/post_ent_min": 19.24680006504059, "train/post_ent_std": 5.704397281010945, "train/prior_ent_mag": 76.72457345326741, "train/prior_ent_max": 76.72457345326741, "train/prior_ent_mean": 45.91592915852865, "train/prior_ent_min": 28.01600978109572, "train/prior_ent_std": 7.685199936230977, "train/rep_loss_mean": 5.428790801101261, "train/rep_loss_std": 8.865701794624329, "train/reward_avg": 0.041989474557340145, "train/reward_loss_mean": 0.05573899200600055, "train/reward_loss_std": 0.20831905781394905, "train/reward_max_data": 1.0347222305006452, "train/reward_max_pred": 1.030093984471427, "train/reward_neg_acc": 0.9932039868500497, "train/reward_neg_loss": 0.023401485626689263, "train/reward_pos_acc": 0.9886391096644931, "train/reward_pos_loss": 0.7226267862651083, "train/reward_pred": 0.04176572487793035, "train/reward_rate": 0.046196831597222224, "stats/sum_log_reward": 9.38571446282523, "stats/max_log_achievement_collect_coal": 0.0, "stats/max_log_achievement_collect_drink": 2.5714285714285716, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 6.714285714285714, "stats/max_log_achievement_collect_wood": 10.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.1428571428571428, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.14285714285714285, "stats/max_log_achievement_make_stone_sword": 0.42857142857142855, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.7142857142857143, "stats/max_log_achievement_place_furnace": 0.8571428571428571, "stats/max_log_achievement_place_plant": 1.7142857142857142, "stats/max_log_achievement_place_stone": 1.8571428571428572, "stats/max_log_achievement_place_table": 2.5714285714285716, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3384354966027396, "replay/size": 882268.0, "replay/inserts": 1451.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.336216974554187e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.44656203666666e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.11694383621216, "timer/env.step_count": 1451.0, "timer/env.step_total": 18.94848871231079, "timer/env.step_frac": 0.06313701742428733, "timer/env.step_avg": 0.013058917100145274, "timer/env.step_min": 0.002413034439086914, "timer/env.step_max": 1.7287909984588623, "timer/replay.add_count": 1451.0, "timer/replay.add_total": 0.2750556468963623, "timer/replay.add_frac": 0.0009164948948916161, "timer/replay.add_avg": 0.00018956281660672798, "timer/replay.add_min": 6.771087646484375e-05, "timer/replay.add_max": 0.003863096237182617, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03326582908630371, "timer/logger.write_frac": 0.0001108428889788323, "timer/logger.write_avg": 0.03326582908630371, "timer/logger.write_min": 0.03326582908630371, "timer/logger.write_max": 0.03326582908630371, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1451.0, "timer/agent.policy_total": 10.69590950012207, "timer/agent.policy_frac": 0.035639139074931166, "timer/agent.policy_avg": 0.007371405582441123, "timer/agent.policy_min": 0.0058057308197021484, "timer/agent.policy_max": 0.015088558197021484, "timer/dataset_count": 726.0, "timer/dataset_total": 0.06518697738647461, "timer/dataset_frac": 0.00021720525523560638, "timer/dataset_avg": 8.97892250502405e-05, "timer/dataset_min": 6.794929504394531e-05, "timer/dataset_max": 0.00016045570373535156, "timer/agent.train_count": 726.0, "timer/agent.train_total": 269.4418969154358, "timer/agent.train_frac": 0.8977896864846219, "timer/agent.train_avg": 0.3711320894152008, "timer/agent.train_min": 0.36347198486328125, "timer/agent.train_max": 0.3847486972808838, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22289562225341797, "timer/agent.report_frac": 0.000742695895154332, "timer/agent.report_avg": 0.22289562225341797, "timer/agent.report_min": 0.22289562225341797, "timer/agent.report_max": 0.22289562225341797, "fps": 4.834674431057593}
{"step": 882684, "episode/length": 503.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 17.500000074505806, "episode/reward_rate": 0.027777777777777776}
{"step": 882741, "episode/length": 56.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.10526315789473684}
{"step": 882988, "episode/length": 246.0, "episode/score": 12.100000023841858, "episode/sum_abs_reward": 14.300000011920929, "episode/reward_rate": 0.05668016194331984}
{"step": 883212, "episode/length": 223.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.05357142857142857}
{"step": 883446, "episode/length": 233.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.700000047683716, "episode/reward_rate": 0.0641025641025641}
{"step": 883734, "episode/length": 287.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.04861111111111111}
{"step": 883767, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4565785725911455, "train/action_min": 0.0, "train/action_std": 3.2788318594296775, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.039460036903619766, "train/actor_opt_grad_steps": 440975.0, "train/actor_opt_loss": -10.900249413318104, "train/adv_mag": 0.3984767726312081, "train/adv_max": 0.32214611768722534, "train/adv_mean": 0.0023360678164863202, "train/adv_min": -0.36310133441454834, "train/adv_std": 0.04446038691740897, "train/cont_avg": 0.9946831597222222, "train/cont_loss_mean": 0.00010207526114748412, "train/cont_loss_std": 0.0031465278569208343, "train/cont_neg_acc": 0.9982638888888888, "train/cont_neg_loss": 0.003008122170209996, "train/cont_pos_acc": 0.999986352192031, "train/cont_pos_loss": 7.91697115813703e-05, "train/cont_pred": 0.9946671426296234, "train/cont_rate": 0.9946831597222222, "train/dyn_loss_mean": 5.57820404238171, "train/dyn_loss_std": 8.920155021879408, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9072598483827379, "train/extr_critic_critic_opt_grad_steps": 440975.0, "train/extr_critic_critic_opt_loss": 15749.537651909723, "train/extr_critic_mag": 12.03879021273719, "train/extr_critic_max": 12.03879021273719, "train/extr_critic_mean": 3.721921983692381, "train/extr_critic_min": -0.36727077927854324, "train/extr_critic_std": 2.8793241348531513, "train/extr_return_normed_mag": 1.3901991297801335, "train/extr_return_normed_max": 1.3901991297801335, "train/extr_return_normed_mean": 0.4015008153186904, "train/extr_return_normed_min": -0.08531698351725936, "train/extr_return_normed_std": 0.31818706004156005, "train/extr_return_rate": 0.8693377880586518, "train/extr_return_raw_mag": 12.769106984138489, "train/extr_return_raw_max": 12.769106984138489, "train/extr_return_raw_mean": 3.743248144785563, "train/extr_return_raw_min": -0.700603347685602, "train/extr_return_raw_std": 2.9045832587613, "train/extr_reward_mag": 1.0688764452934265, "train/extr_reward_max": 1.0688764452934265, "train/extr_reward_mean": 0.06172596958155433, "train/extr_reward_min": -0.6304414007398818, "train/extr_reward_std": 0.2386005932672156, "train/image_loss_mean": 3.3812714897924, "train/image_loss_std": 8.792712959978315, "train/model_loss_mean": 6.786966482798259, "train/model_loss_std": 12.981302128897774, "train/model_opt_grad_norm": 21.231683086341537, "train/model_opt_grad_steps": 440616.7083333333, "train/model_opt_loss": 14642.576551649305, "train/model_opt_model_opt_grad_overflow": 0.013888888888888888, "train/model_opt_model_opt_grad_scale": 2152.777777777778, "train/policy_entropy_mag": 2.6099656191137104, "train/policy_entropy_max": 2.6099656191137104, "train/policy_entropy_mean": 0.35634426607025993, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5362480940918127, "train/policy_logprob_mag": 7.438384314378102, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.35679832928710514, "train/policy_logprob_min": -7.438384314378102, "train/policy_logprob_std": 0.9881005841824744, "train/policy_randomness_mag": 0.9212033276756605, "train/policy_randomness_max": 0.9212033276756605, "train/policy_randomness_mean": 0.1257738871499896, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1892720437091258, "train/post_ent_mag": 55.60158612993028, "train/post_ent_max": 55.60158612993028, "train/post_ent_mean": 40.62049685584174, "train/post_ent_min": 19.533238066567314, "train/post_ent_std": 5.846870376004113, "train/prior_ent_mag": 76.59253607855902, "train/prior_ent_max": 76.59253607855902, "train/prior_ent_mean": 46.20487557517158, "train/prior_ent_min": 28.181016206741333, "train/prior_ent_std": 7.811893595589532, "train/rep_loss_mean": 5.57820404238171, "train/rep_loss_std": 8.920155021879408, "train/reward_avg": 0.04123942101270788, "train/reward_loss_mean": 0.05867057309175531, "train/reward_loss_std": 0.22554752623869312, "train/reward_max_data": 1.0319444520605936, "train/reward_max_pred": 1.0278183685408697, "train/reward_neg_acc": 0.9930732970436414, "train/reward_neg_loss": 0.02534598872686426, "train/reward_pos_acc": 0.9848520913057857, "train/reward_pos_loss": 0.7451910285486115, "train/reward_pred": 0.040546091842568584, "train/reward_rate": 0.04615614149305555, "stats/sum_log_reward": 11.433333396911621, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 5.166666666666667, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 10.833333333333334, "stats/max_log_achievement_collect_wood": 8.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 1.1666666666666667, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_stone": 3.3333333333333335, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.5581683094302813, "replay/size": 883704.0, "replay/inserts": 1436.0, "replay/samples": 11488.0, "replay/insert_wait_avg": 3.3008354952076352e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4457239413991945e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.08669257164, "timer/env.step_count": 1436.0, "timer/env.step_total": 18.35169506072998, "timer/env.step_frac": 0.06115464469104661, "timer/env.step_avg": 0.012779731936441491, "timer/env.step_min": 0.0029125213623046875, "timer/env.step_max": 1.6993746757507324, "timer/replay.add_count": 1436.0, "timer/replay.add_total": 0.30600500106811523, "timer/replay.add_frac": 0.0010197219958197991, "timer/replay.add_avg": 0.0002130954046435343, "timer/replay.add_min": 7.772445678710938e-05, "timer/replay.add_max": 0.006562948226928711, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021739721298217773, "timer/logger.write_frac": 7.244480290650619e-05, "timer/logger.write_avg": 0.021739721298217773, "timer/logger.write_min": 0.021739721298217773, "timer/logger.write_max": 0.021739721298217773, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003991127014160156, "timer/checkpoint.save_frac": 1.3299913368225584e-06, "timer/checkpoint.save_avg": 0.0003991127014160156, "timer/checkpoint.save_min": 0.0003991127014160156, "timer/checkpoint.save_max": 0.0003991127014160156, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2289988994598389, "timer/agent.save_frac": 0.0040954795060312065, "timer/agent.save_avg": 1.2289988994598389, "timer/agent.save_min": 1.2289988994598389, "timer/agent.save_max": 1.2289988994598389, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.00010824203491210938, "timer/replay.save_frac": 3.607025489351503e-07, "timer/replay.save_avg": 0.00010824203491210938, "timer/replay.save_min": 0.00010824203491210938, "timer/replay.save_max": 0.00010824203491210938, "timer/agent.policy_count": 1436.0, "timer/agent.policy_total": 11.774632692337036, "timer/agent.policy_frac": 0.039237436993398385, "timer/agent.policy_avg": 0.008199604938953367, "timer/agent.policy_min": 0.005749225616455078, "timer/agent.policy_max": 1.2248876094818115, "timer/dataset_count": 718.0, "timer/dataset_total": 0.0643608570098877, "timer/dataset_frac": 0.00021447421229624423, "timer/dataset_avg": 8.963907661544248e-05, "timer/dataset_min": 6.67572021484375e-05, "timer/dataset_max": 0.0002493858337402344, "timer/agent.train_count": 718.0, "timer/agent.train_total": 268.9040608406067, "timer/agent.train_frac": 0.8960879222473717, "timer/agent.train_avg": 0.3745181905858032, "timer/agent.train_min": 0.36322975158691406, "timer/agent.train_max": 2.847369909286499, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2208082675933838, "timer/agent.report_frac": 0.0007358149263505578, "timer/agent.report_avg": 0.2208082675933838, "timer/agent.report_min": 0.2208082675933838, "timer/agent.report_max": 0.2208082675933838, "fps": 4.785176851159332}
{"step": 883995, "episode/length": 260.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.05747126436781609}
{"step": 884214, "episode/length": 218.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.0593607305936073}
{"step": 884434, "episode/length": 219.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.30000001937151, "episode/reward_rate": 0.07272727272727272}
{"step": 884770, "episode/length": 335.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.500000037252903, "episode/reward_rate": 0.044642857142857144}
{"step": 885199, "episode/length": 428.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.027972027972027972}
{"step": 885233, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.436824432791096, "train/action_min": 0.0, "train/action_std": 3.300132611026503, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038817233010514145, "train/actor_opt_grad_steps": 441700.0, "train/actor_opt_loss": -12.037560903862731, "train/adv_mag": 0.39400873404659637, "train/adv_max": 0.32813051771627716, "train/adv_mean": 0.00208410145866503, "train/adv_min": -0.3440551817008894, "train/adv_std": 0.04382752821053544, "train/cont_avg": 0.9950770547945206, "train/cont_loss_mean": 7.777405789732393e-06, "train/cont_loss_std": 0.00017909261785225433, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 8.279933199726856e-05, "train/cont_pos_acc": 0.9999999787709485, "train/cont_pos_loss": 7.418112414358167e-06, "train/cont_pred": 0.9950702476174864, "train/cont_rate": 0.9950770547945206, "train/dyn_loss_mean": 5.381875338619703, "train/dyn_loss_std": 8.825020901144367, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9371160423918946, "train/extr_critic_critic_opt_grad_steps": 441700.0, "train/extr_critic_critic_opt_loss": 15582.764327375857, "train/extr_critic_mag": 12.282802320506475, "train/extr_critic_max": 12.282802320506475, "train/extr_critic_mean": 3.7854924430585886, "train/extr_critic_min": -0.3282602208934418, "train/extr_critic_std": 2.875864002802601, "train/extr_return_normed_mag": 1.405167132207792, "train/extr_return_normed_max": 1.405167132207792, "train/extr_return_normed_mean": 0.40548535079172215, "train/extr_return_normed_min": -0.08096975552505009, "train/extr_return_normed_std": 0.31611038132073127, "train/extr_return_rate": 0.8729327688478443, "train/extr_return_raw_mag": 13.00271686135906, "train/extr_return_raw_max": 13.00271686135906, "train/extr_return_raw_mean": 3.8046793382461757, "train/extr_return_raw_min": -0.670699851561899, "train/extr_return_raw_std": 2.908387011044646, "train/extr_reward_mag": 1.0775197728039467, "train/extr_reward_max": 1.0775197728039467, "train/extr_reward_mean": 0.06161930248753665, "train/extr_reward_min": -0.5896787741412856, "train/extr_reward_std": 0.2386394639129508, "train/image_loss_mean": 3.1541557409991956, "train/image_loss_std": 8.408974869610512, "train/model_loss_mean": 6.440803351467603, "train/model_loss_std": 12.540887323144364, "train/model_opt_grad_norm": 22.4748891281755, "train/model_opt_grad_steps": 441341.0, "train/model_opt_loss": 10219.935306078767, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1575.3424657534247, "train/policy_entropy_mag": 2.6622563551550043, "train/policy_entropy_max": 2.6622563551550043, "train/policy_entropy_mean": 0.374320093491306, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5773714156183478, "train/policy_logprob_mag": 7.438384258583801, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3741941633698058, "train/policy_logprob_min": -7.438384258583801, "train/policy_logprob_std": 1.00647614508459, "train/policy_randomness_mag": 0.9396596648921706, "train/policy_randomness_max": 0.9396596648921706, "train/policy_randomness_mean": 0.13211856496660676, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20378677240789753, "train/post_ent_mag": 55.042433333723515, "train/post_ent_max": 55.042433333723515, "train/post_ent_mean": 40.492030313570204, "train/post_ent_min": 19.365826750454836, "train/post_ent_std": 5.707904364964733, "train/prior_ent_mag": 76.74121846238228, "train/prior_ent_max": 76.74121846238228, "train/prior_ent_mean": 45.891267436824435, "train/prior_ent_min": 28.14256009663621, "train/prior_ent_std": 7.681236815779177, "train/rep_loss_mean": 5.381875338619703, "train/rep_loss_std": 8.825020901144367, "train/reward_avg": 0.04223432106106249, "train/reward_loss_mean": 0.057514609437282774, "train/reward_loss_std": 0.21350719034671783, "train/reward_max_data": 1.0315068568268868, "train/reward_max_pred": 1.0307367174592736, "train/reward_neg_acc": 0.9936726648513585, "train/reward_neg_loss": 0.024842721945925118, "train/reward_pos_acc": 0.9889186971808133, "train/reward_pos_loss": 0.723075415990124, "train/reward_pred": 0.041989135517649455, "train/reward_rate": 0.04680811215753425, "stats/sum_log_reward": 13.300000381469726, "stats/max_log_achievement_collect_coal": 1.4, "stats/max_log_achievement_collect_drink": 5.4, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.8, "stats/max_log_achievement_collect_stone": 15.6, "stats/max_log_achievement_collect_wood": 18.4, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.8, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_stone_pickaxe": 1.2, "stats/max_log_achievement_make_stone_sword": 1.2, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2, "stats/max_log_achievement_place_furnace": 1.6, "stats/max_log_achievement_place_plant": 2.6, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 4.2, "stats/max_log_achievement_wake_up": 2.6, "stats/mean_log_entropy": 0.5583472132682801, "replay/size": 885170.0, "replay/inserts": 1466.0, "replay/samples": 11728.0, "replay/insert_wait_avg": 3.3150916210138132e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4286005480715555e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.309588432312, "timer/env.step_count": 1466.0, "timer/env.step_total": 16.368204355239868, "timer/env.step_frac": 0.05450443470914737, "timer/env.step_avg": 0.01116521443058654, "timer/env.step_min": 0.0028562545776367188, "timer/env.step_max": 1.7423937320709229, "timer/replay.add_count": 1466.0, "timer/replay.add_total": 0.2758610248565674, "timer/replay.add_frac": 0.0009185888012987797, "timer/replay.add_avg": 0.00018817259540011418, "timer/replay.add_min": 6.29425048828125e-05, "timer/replay.add_max": 0.005460262298583984, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030636072158813477, "timer/logger.write_frac": 0.00010201496501906953, "timer/logger.write_avg": 0.030636072158813477, "timer/logger.write_min": 0.030636072158813477, "timer/logger.write_max": 0.030636072158813477, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1466.0, "timer/agent.policy_total": 10.869281768798828, "timer/agent.policy_frac": 0.036193588841232416, "timer/agent.policy_avg": 0.00741424404420111, "timer/agent.policy_min": 0.005776643753051758, "timer/agent.policy_max": 0.01402425765991211, "timer/dataset_count": 733.0, "timer/dataset_total": 0.06574559211730957, "timer/dataset_frac": 0.0002189260504818288, "timer/dataset_avg": 8.969385009182752e-05, "timer/dataset_min": 6.556510925292969e-05, "timer/dataset_max": 0.00017404556274414062, "timer/agent.train_count": 733.0, "timer/agent.train_total": 272.0397572517395, "timer/agent.train_frac": 0.9058643737346257, "timer/agent.train_avg": 0.3711320017076937, "timer/agent.train_min": 0.36382508277893066, "timer/agent.train_max": 0.3866736888885498, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21830105781555176, "timer/agent.report_frac": 0.0007269200392672628, "timer/agent.report_avg": 0.21830105781555176, "timer/agent.report_min": 0.21830105781555176, "timer/agent.report_max": 0.21830105781555176, "fps": 4.8815404391929675}
{"step": 885535, "episode/length": 335.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.044642857142857144}
{"step": 885726, "episode/length": 190.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.07329842931937172}
{"step": 885914, "episode/length": 187.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.07446808510638298}
{"step": 885973, "episode/length": 58.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.11864406779661017}
{"step": 886201, "episode/length": 227.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.500000022351742, "episode/reward_rate": 0.07017543859649122}
{"step": 886391, "episode/length": 189.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.06315789473684211}
{"step": 886567, "episode/length": 175.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.099999994039536, "episode/reward_rate": 0.045454545454545456}
{"step": 886685, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.457058005136986, "train/action_min": 0.0, "train/action_std": 3.3114096236555546, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.039343850789208934, "train/actor_opt_grad_steps": 442430.0, "train/actor_opt_loss": -9.97268674471607, "train/adv_mag": 0.37033387100043363, "train/adv_max": 0.3396059172610714, "train/adv_mean": 0.002274130635557151, "train/adv_min": -0.32012204764640495, "train/adv_std": 0.04366947684998382, "train/cont_avg": 0.9949700342465754, "train/cont_loss_mean": 3.0152253648089778e-05, "train/cont_loss_std": 0.000854452321426404, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 3.550643704366936e-05, "train/cont_pos_acc": 0.9999864917911895, "train/cont_pos_loss": 3.0198480405257737e-05, "train/cont_pred": 0.994948585555978, "train/cont_rate": 0.9949700342465754, "train/dyn_loss_mean": 5.605902782858235, "train/dyn_loss_std": 9.012088984659274, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9011568386260778, "train/extr_critic_critic_opt_grad_steps": 442430.0, "train/extr_critic_critic_opt_loss": 15620.999531785103, "train/extr_critic_mag": 12.409054116026995, "train/extr_critic_max": 12.409054116026995, "train/extr_critic_mean": 3.85701622701671, "train/extr_critic_min": -0.3681259759484905, "train/extr_critic_std": 2.914452804278021, "train/extr_return_normed_mag": 1.3957671384288841, "train/extr_return_normed_max": 1.3957671384288841, "train/extr_return_normed_mean": 0.40604978881470144, "train/extr_return_normed_min": -0.08102982261613624, "train/extr_return_normed_std": 0.3133675084538656, "train/extr_return_rate": 0.8734286264197467, "train/extr_return_raw_mag": 13.181365405043511, "train/extr_return_raw_max": 13.181365405043511, "train/extr_return_raw_mean": 3.878374939095484, "train/extr_return_raw_min": -0.6989269272921836, "train/extr_return_raw_std": 2.945307738160434, "train/extr_reward_mag": 1.070840744123067, "train/extr_reward_max": 1.070840744123067, "train/extr_reward_mean": 0.06354204575492911, "train/extr_reward_min": -0.6110354645611489, "train/extr_reward_std": 0.24193287467303343, "train/image_loss_mean": 3.3090082815248674, "train/image_loss_std": 9.131722273891919, "train/model_loss_mean": 6.731152155627943, "train/model_loss_std": 13.332871214984214, "train/model_opt_grad_norm": 23.465771100292468, "train/model_opt_grad_steps": 442071.0, "train/model_opt_loss": 16827.880391160103, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6305621160219794, "train/policy_entropy_max": 2.6305621160219794, "train/policy_entropy_mean": 0.36274552488163725, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5524610909697127, "train/policy_logprob_mag": 7.4383842651158165, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3632609885032863, "train/policy_logprob_min": -7.4383842651158165, "train/policy_logprob_std": 0.993708897943366, "train/policy_randomness_mag": 0.9284729843270288, "train/policy_randomness_max": 0.9284729843270288, "train/policy_randomness_mean": 0.12803325250948946, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1949945211614648, "train/post_ent_mag": 55.44781624780942, "train/post_ent_max": 55.44781624780942, "train/post_ent_mean": 40.29234502086901, "train/post_ent_min": 19.598775341086192, "train/post_ent_std": 5.702398750879993, "train/prior_ent_mag": 76.68277928600573, "train/prior_ent_max": 76.68277928600573, "train/prior_ent_mean": 45.86296253988188, "train/prior_ent_min": 28.02458857183587, "train/prior_ent_std": 7.725504339557805, "train/rep_loss_mean": 5.605902782858235, "train/rep_loss_std": 9.012088984659274, "train/reward_avg": 0.04343027621507645, "train/reward_loss_mean": 0.05857205681809007, "train/reward_loss_std": 0.2220486965897965, "train/reward_max_data": 1.0342465835074857, "train/reward_max_pred": 1.0307657196097177, "train/reward_neg_acc": 0.9936986369629429, "train/reward_neg_loss": 0.024704259029296162, "train/reward_pos_acc": 0.9904198450584935, "train/reward_pos_loss": 0.7282642142413414, "train/reward_pred": 0.04290842650177544, "train/reward_rate": 0.04802547089041096, "stats/sum_log_reward": 11.242857251848493, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_iron": 0.14285714285714285, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 13.714285714285714, "stats/max_log_achievement_collect_wood": 11.857142857142858, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5714285714285714, "stats/max_log_achievement_eat_cow": 0.42857142857142855, "stats/max_log_achievement_make_stone_pickaxe": 0.5714285714285714, "stats/max_log_achievement_make_stone_sword": 0.7142857142857143, "stats/max_log_achievement_make_wood_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_wood_sword": 0.7142857142857143, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.8571428571428572, "stats/max_log_achievement_place_stone": 4.428571428571429, "stats/max_log_achievement_place_table": 2.7142857142857144, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3911107437951224, "replay/size": 886622.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.293690274241214e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4199205666534171e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.00180220603943, "timer/env.step_count": 1452.0, "timer/env.step_total": 19.0240740776062, "timer/env.step_frac": 0.06341319931318473, "timer/env.step_avg": 0.013101979392290772, "timer/env.step_min": 0.002844572067260742, "timer/env.step_max": 1.7782526016235352, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.26159024238586426, "timer/replay.add_frac": 0.0008719622364341854, "timer/replay.add_avg": 0.00018015856913627015, "timer/replay.add_min": 6.628036499023438e-05, "timer/replay.add_max": 0.0022215843200683594, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02368474006652832, "timer/logger.write_frac": 7.894865928259253e-05, "timer/logger.write_avg": 0.02368474006652832, "timer/logger.write_min": 0.02368474006652832, "timer/logger.write_max": 0.02368474006652832, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 10.64458441734314, "timer/agent.policy_frac": 0.03548173490648734, "timer/agent.policy_avg": 0.007330981003679848, "timer/agent.policy_min": 0.0056915283203125, "timer/agent.policy_max": 0.016432523727416992, "timer/dataset_count": 726.0, "timer/dataset_total": 0.06289863586425781, "timer/dataset_frac": 0.00020966086004063205, "timer/dataset_avg": 8.663723948244878e-05, "timer/dataset_min": 6.628036499023438e-05, "timer/dataset_max": 0.00016760826110839844, "timer/agent.train_count": 726.0, "timer/agent.train_total": 269.3338837623596, "timer/agent.train_frac": 0.8977742192941319, "timer/agent.train_avg": 0.3709833109674375, "timer/agent.train_min": 0.3630084991455078, "timer/agent.train_max": 0.3859400749206543, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22010183334350586, "timer/agent.report_frac": 0.0007336683704064592, "timer/agent.report_avg": 0.22010183334350586, "timer/agent.report_min": 0.22010183334350586, "timer/agent.report_max": 0.22010183334350586, "fps": 4.839872796191181}
{"step": 886744, "episode/length": 176.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.07909604519774012}
{"step": 887033, "episode/length": 288.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.900000043213367, "episode/reward_rate": 0.04498269896193772}
{"step": 887445, "episode/length": 411.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 17.1000000461936, "episode/reward_rate": 0.03398058252427184}
{"step": 887615, "episode/length": 169.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.08823529411764706}
{"step": 887775, "episode/length": 159.0, "episode/score": 13.1000000461936, "episode/sum_abs_reward": 15.900000087916851, "episode/reward_rate": 0.0875}
{"step": 887953, "episode/length": 177.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.07865168539325842}
{"step": 888123, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.524035135904948, "train/action_min": 0.0, "train/action_std": 3.3781329558955298, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03833125759330061, "train/actor_opt_grad_steps": 443155.0, "train/actor_opt_loss": -12.62724134657118, "train/adv_mag": 0.3829100388619635, "train/adv_max": 0.31562580747736824, "train/adv_mean": 0.001651956682609226, "train/adv_min": -0.34924195272227126, "train/adv_std": 0.04301377820471922, "train/cont_avg": 0.9949951171875, "train/cont_loss_mean": 1.1253735093832676e-05, "train/cont_loss_std": 0.0002968099999481271, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0010674852814152775, "train/cont_pos_acc": 0.9999999817874696, "train/cont_pos_loss": 4.831614695690847e-06, "train/cont_pred": 0.9949960849351354, "train/cont_rate": 0.9949951171875, "train/dyn_loss_mean": 5.456777506404453, "train/dyn_loss_std": 8.89419201347563, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9323816713359621, "train/extr_critic_critic_opt_grad_steps": 443155.0, "train/extr_critic_critic_opt_loss": 15518.535454644098, "train/extr_critic_mag": 12.202637328041924, "train/extr_critic_max": 12.202637328041924, "train/extr_critic_mean": 3.8095242281754813, "train/extr_critic_min": -0.35050083696842194, "train/extr_critic_std": 2.9081899457507663, "train/extr_return_normed_mag": 1.3731722864839766, "train/extr_return_normed_max": 1.3731722864839766, "train/extr_return_normed_mean": 0.40123745881848866, "train/extr_return_normed_min": -0.07946838774821824, "train/extr_return_normed_std": 0.3117918065852589, "train/extr_return_rate": 0.8607349975241555, "train/extr_return_raw_mag": 12.952997459305656, "train/extr_return_raw_max": 12.952997459305656, "train/extr_return_raw_mean": 3.825024084912406, "train/extr_return_raw_min": -0.6898279036912653, "train/extr_return_raw_std": 2.928478237655428, "train/extr_reward_mag": 1.0763458477126226, "train/extr_reward_max": 1.0763458477126226, "train/extr_reward_mean": 0.06053409006239639, "train/extr_reward_min": -0.6227835632032819, "train/extr_reward_std": 0.23632948224743208, "train/image_loss_mean": 3.2949347611930637, "train/image_loss_std": 8.67132192850113, "train/model_loss_mean": 6.626072817378574, "train/model_loss_std": 12.793721702363756, "train/model_opt_grad_norm": 25.541236796849212, "train/model_opt_grad_steps": 442794.77777777775, "train/model_opt_loss": 14228.550774468316, "train/model_opt_model_opt_grad_overflow": 0.013888888888888888, "train/model_opt_model_opt_grad_scale": 2135.4166666666665, "train/policy_entropy_mag": 2.628895766205258, "train/policy_entropy_max": 2.628895766205258, "train/policy_entropy_mean": 0.38987468203736675, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5785056394007471, "train/policy_logprob_mag": 7.43838424815072, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38989357981416917, "train/policy_logprob_min": -7.43838424815072, "train/policy_logprob_std": 1.0185651671555307, "train/policy_randomness_mag": 0.9278848394751549, "train/policy_randomness_max": 0.9278848394751549, "train/policy_randomness_mean": 0.1376086516926686, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20418710634112358, "train/post_ent_mag": 55.72665760252211, "train/post_ent_max": 55.72665760252211, "train/post_ent_mean": 40.57056448194716, "train/post_ent_min": 19.63131160206265, "train/post_ent_std": 5.801051417986552, "train/prior_ent_mag": 76.59580283694797, "train/prior_ent_max": 76.59580283694797, "train/prior_ent_mean": 45.955069382985435, "train/prior_ent_min": 27.798153532875908, "train/prior_ent_std": 7.777018407980601, "train/rep_loss_mean": 5.456777506404453, "train/rep_loss_std": 8.89419201347563, "train/reward_avg": 0.04107259074226022, "train/reward_loss_mean": 0.057060311237970986, "train/reward_loss_std": 0.21909072498480478, "train/reward_max_data": 1.0347222305006452, "train/reward_max_pred": 1.0299228197998471, "train/reward_neg_acc": 0.993550273279349, "train/reward_neg_loss": 0.02510192692797217, "train/reward_pos_acc": 0.989790192908711, "train/reward_pos_loss": 0.7274172479907671, "train/reward_pred": 0.04086534906592634, "train/reward_rate": 0.04550509982638889, "stats/sum_log_reward": 13.100000222524008, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 4.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 16.333333333333332, "stats/max_log_achievement_collect_wood": 10.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.3333333333333333, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.1666666666666665, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 4.166666666666667, "stats/max_log_achievement_place_table": 2.3333333333333335, "stats/max_log_achievement_wake_up": 1.6666666666666667, "stats/mean_log_entropy": 0.4064827660719554, "replay/size": 888060.0, "replay/inserts": 1438.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.3544399807947238e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4003568299125066e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2950975894928, "timer/env.step_count": 1438.0, "timer/env.step_total": 19.529552221298218, "timer/env.step_frac": 0.06503453562200794, "timer/env.step_avg": 0.013581051614254672, "timer/env.step_min": 0.0027358531951904297, "timer/env.step_max": 2.0326147079467773, "timer/replay.add_count": 1438.0, "timer/replay.add_total": 0.2846245765686035, "timer/replay.add_frac": 0.0009478162609157507, "timer/replay.add_avg": 0.00019793085992253373, "timer/replay.add_min": 6.604194641113281e-05, "timer/replay.add_max": 0.003093719482421875, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026796340942382812, "timer/logger.write_frac": 8.923336130852775e-05, "timer/logger.write_avg": 0.026796340942382812, "timer/logger.write_min": 0.026796340942382812, "timer/logger.write_max": 0.026796340942382812, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0005030632019042969, "timer/checkpoint.save_frac": 1.6752294857373616e-06, "timer/checkpoint.save_avg": 0.0005030632019042969, "timer/checkpoint.save_min": 0.0005030632019042969, "timer/checkpoint.save_max": 0.0005030632019042969, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1872754096984863, "timer/agent.save_frac": 0.003953695612179147, "timer/agent.save_avg": 1.1872754096984863, "timer/agent.save_min": 1.1872754096984863, "timer/agent.save_max": 1.1872754096984863, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.512901306152344e-05, "timer/replay.save_frac": 3.1678510180531153e-07, "timer/replay.save_avg": 9.512901306152344e-05, "timer/replay.save_min": 9.512901306152344e-05, "timer/replay.save_max": 9.512901306152344e-05, "timer/agent.policy_count": 1438.0, "timer/agent.policy_total": 12.352394104003906, "timer/agent.policy_frac": 0.0411341850171986, "timer/agent.policy_avg": 0.008589981991657792, "timer/agent.policy_min": 0.005787372589111328, "timer/agent.policy_max": 1.1912219524383545, "timer/dataset_count": 719.0, "timer/dataset_total": 0.06297802925109863, "timer/dataset_frac": 0.00020972047081897554, "timer/dataset_avg": 8.759113943129157e-05, "timer/dataset_min": 6.628036499023438e-05, "timer/dataset_max": 0.00018405914306640625, "timer/agent.train_count": 719.0, "timer/agent.train_total": 267.3897716999054, "timer/agent.train_frac": 0.8904233663695389, "timer/agent.train_avg": 0.37189119846996577, "timer/agent.train_min": 0.363156795501709, "timer/agent.train_max": 0.9251208305358887, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21970415115356445, "timer/agent.report_frac": 0.0007316274988075324, "timer/agent.report_avg": 0.21970415115356445, "timer/agent.report_min": 0.21970415115356445, "timer/agent.report_max": 0.21970415115356445, "fps": 4.7885179982289925}
{"step": 888289, "episode/length": 335.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.026785714285714284}
{"step": 888464, "episode/length": 174.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.08}
{"step": 888704, "episode/length": 239.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.058333333333333334}
{"step": 888984, "episode/length": 279.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.05}
{"step": 889220, "episode/length": 235.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.30000003427267, "episode/reward_rate": 0.05508474576271186}
{"step": 889491, "episode/length": 270.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.500000037252903, "episode/reward_rate": 0.055350553505535055}
{"step": 889585, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4208440911279965, "train/action_min": 0.0, "train/action_std": 3.3292011626779217, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03880413037354816, "train/actor_opt_grad_steps": 443880.0, "train/actor_opt_loss": -11.72547934275784, "train/adv_mag": 0.3867884535495549, "train/adv_max": 0.3196536580177203, "train/adv_mean": 0.0019173421151457634, "train/adv_min": -0.35095612704753876, "train/adv_std": 0.043352397439414506, "train/cont_avg": 0.9947024828767124, "train/cont_loss_mean": 4.2309717431080944e-05, "train/cont_loss_std": 0.0012644528700492042, "train/cont_neg_acc": 0.9977168955215036, "train/cont_neg_loss": 0.005573012707098888, "train/cont_pos_acc": 0.9999999779544465, "train/cont_pos_loss": 8.94123923534894e-06, "train/cont_pred": 0.9947098117985137, "train/cont_rate": 0.9947024828767124, "train/dyn_loss_mean": 5.448874787108539, "train/dyn_loss_std": 8.88163072768956, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9264518153177549, "train/extr_critic_critic_opt_grad_steps": 443880.0, "train/extr_critic_critic_opt_loss": 15392.533845248288, "train/extr_critic_mag": 11.972861407554312, "train/extr_critic_max": 11.972861407554312, "train/extr_critic_mean": 3.8509093506695473, "train/extr_critic_min": -0.3564288812140896, "train/extr_critic_std": 2.919443992719258, "train/extr_return_normed_mag": 1.3749144518212095, "train/extr_return_normed_max": 1.3749144518212095, "train/extr_return_normed_mean": 0.4109020755715566, "train/extr_return_normed_min": -0.08383635952048106, "train/extr_return_normed_std": 0.31830923708334363, "train/extr_return_rate": 0.8623252462034356, "train/extr_return_raw_mag": 12.79851381746057, "train/extr_return_raw_max": 12.79851381746057, "train/extr_return_raw_mean": 3.868662843965504, "train/extr_return_raw_min": -0.7144513905864872, "train/extr_return_raw_std": 2.948842793294828, "train/extr_reward_mag": 1.066810477269839, "train/extr_reward_max": 1.066810477269839, "train/extr_reward_mean": 0.06310627461500364, "train/extr_reward_min": -0.6165865659713745, "train/extr_reward_std": 0.2411734882282884, "train/image_loss_mean": 3.1508067372727067, "train/image_loss_std": 8.156324647877314, "train/model_loss_mean": 6.4786863065745735, "train/model_loss_std": 12.31597221060975, "train/model_opt_grad_norm": 23.986687803921633, "train/model_opt_grad_steps": 443519.0, "train/model_opt_loss": 8098.357856645976, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.6571960775819545, "train/policy_entropy_max": 2.6571960775819545, "train/policy_entropy_mean": 0.3882961785548354, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5841933141832483, "train/policy_logprob_mag": 7.438384278179848, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3889780195608531, "train/policy_logprob_min": -7.438384278179848, "train/policy_logprob_std": 1.018679573111338, "train/policy_randomness_mag": 0.937873607628966, "train/policy_randomness_max": 0.937873607628966, "train/policy_randomness_mean": 0.13705151109662775, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20619460327984535, "train/post_ent_mag": 55.23670332399133, "train/post_ent_max": 55.23670332399133, "train/post_ent_mean": 40.45891346343576, "train/post_ent_min": 19.476554609324833, "train/post_ent_std": 5.752387451798948, "train/prior_ent_mag": 76.61233447349235, "train/prior_ent_max": 76.61233447349235, "train/prior_ent_mean": 45.91794089748435, "train/prior_ent_min": 28.022091460554567, "train/prior_ent_std": 7.718851291970031, "train/rep_loss_mean": 5.448874787108539, "train/rep_loss_std": 8.88163072768956, "train/reward_avg": 0.04327509610926452, "train/reward_loss_mean": 0.05851238389333634, "train/reward_loss_std": 0.22014062943523877, "train/reward_max_data": 1.0246575401253897, "train/reward_max_pred": 1.0243386422118095, "train/reward_neg_acc": 0.9935837910599905, "train/reward_neg_loss": 0.02445039375085537, "train/reward_pos_acc": 0.9867832203433938, "train/reward_pos_loss": 0.7356787046341047, "train/reward_pred": 0.04288192014273715, "train/reward_rate": 0.0479050727739726, "stats/sum_log_reward": 12.266666889190674, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 3.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.1666666666666665, "stats/max_log_achievement_collect_stone": 11.166666666666666, "stats/max_log_achievement_collect_wood": 16.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.3333333333333335, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 0.3333333333333333, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 3.1666666666666665, "stats/max_log_achievement_place_table": 3.3333333333333335, "stats/max_log_achievement_wake_up": 1.6666666666666667, "stats/mean_log_entropy": 0.549051413933436, "replay/size": 889522.0, "replay/inserts": 1462.0, "replay/samples": 11696.0, "replay/insert_wait_avg": 3.273444691043546e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4390118634162621e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.14482021331787, "timer/env.step_count": 1462.0, "timer/env.step_total": 17.42765760421753, "timer/env.step_frac": 0.058064162466076895, "timer/env.step_avg": 0.011920422437905287, "timer/env.step_min": 0.002705812454223633, "timer/env.step_max": 1.7264854907989502, "timer/replay.add_count": 1462.0, "timer/replay.add_total": 0.25740814208984375, "timer/replay.add_frac": 0.0008576131412392842, "timer/replay.add_avg": 0.0001760657606633678, "timer/replay.add_min": 6.937980651855469e-05, "timer/replay.add_max": 0.0023834705352783203, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025178194046020508, "timer/logger.write_frac": 8.388681846358685e-05, "timer/logger.write_avg": 0.025178194046020508, "timer/logger.write_min": 0.025178194046020508, "timer/logger.write_max": 0.025178194046020508, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1462.0, "timer/agent.policy_total": 10.617290496826172, "timer/agent.policy_frac": 0.03537389214073489, "timer/agent.policy_avg": 0.007262168602480282, "timer/agent.policy_min": 0.0055882930755615234, "timer/agent.policy_max": 0.018713712692260742, "timer/dataset_count": 731.0, "timer/dataset_total": 0.06460332870483398, "timer/dataset_frac": 0.0002152405250869208, "timer/dataset_avg": 8.837664665503965e-05, "timer/dataset_min": 6.699562072753906e-05, "timer/dataset_max": 0.0002808570861816406, "timer/agent.train_count": 731.0, "timer/agent.train_total": 271.0964617729187, "timer/agent.train_frac": 0.9032188580840608, "timer/agent.train_avg": 0.37085699284941, "timer/agent.train_min": 0.3631768226623535, "timer/agent.train_max": 0.3861229419708252, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21950936317443848, "timer/agent.report_frac": 0.0007313448321994348, "timer/agent.report_avg": 0.21950936317443848, "timer/agent.report_min": 0.21950936317443848, "timer/agent.report_max": 0.21950936317443848, "fps": 4.8708921875242295}
{"step": 889722, "episode/length": 230.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.099999994039536, "episode/reward_rate": 0.06926406926406926}
{"step": 889777, "episode/length": 54.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.12727272727272726}
{"step": 890049, "episode/length": 271.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.500000037252903, "episode/reward_rate": 0.05514705882352941}
{"step": 890211, "episode/length": 161.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.07407407407407407}
{"step": 890598, "episode/length": 386.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.03359173126614987}
{"step": 890764, "episode/length": 165.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.0783132530120482}
{"step": 891020, "episode/length": 255.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.05078125}
{"step": 891039, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.557068707191781, "train/action_min": 0.0, "train/action_std": 3.4086606829133754, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03835673252605412, "train/actor_opt_grad_steps": 444610.0, "train/actor_opt_loss": -13.134028117950649, "train/adv_mag": 0.4166284497470072, "train/adv_max": 0.350333718404378, "train/adv_mean": 0.001593296255440978, "train/adv_min": -0.3636928343609588, "train/adv_std": 0.042982734994937294, "train/cont_avg": 0.9950502996575342, "train/cont_loss_mean": 1.4169527712791223e-05, "train/cont_loss_std": 0.0003174596975328961, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0012529588953428125, "train/cont_pos_acc": 0.9999999755049405, "train/cont_pos_loss": 8.12305229424647e-06, "train/cont_pred": 0.9950483523003043, "train/cont_rate": 0.9950502996575342, "train/dyn_loss_mean": 5.548448948011006, "train/dyn_loss_std": 8.92161856612114, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9196190205338883, "train/extr_critic_critic_opt_grad_steps": 444610.0, "train/extr_critic_critic_opt_loss": 15472.371334546233, "train/extr_critic_mag": 12.065256706655841, "train/extr_critic_max": 12.065256706655841, "train/extr_critic_mean": 3.68011289753326, "train/extr_critic_min": -0.3658729481370482, "train/extr_critic_std": 2.8673316028020155, "train/extr_return_normed_mag": 1.3703137995445565, "train/extr_return_normed_max": 1.3703137995445565, "train/extr_return_normed_mean": 0.39344016329882897, "train/extr_return_normed_min": -0.07463264312237909, "train/extr_return_normed_std": 0.31133769289271473, "train/extr_return_rate": 0.8511505159613204, "train/extr_return_raw_mag": 12.77401412023257, "train/extr_return_raw_max": 12.77401412023257, "train/extr_return_raw_mean": 3.6949130313037193, "train/extr_return_raw_min": -0.6560496038770023, "train/extr_return_raw_std": 2.8940091067797518, "train/extr_reward_mag": 1.0672665458835968, "train/extr_reward_max": 1.0672665458835968, "train/extr_reward_mean": 0.05891592331128578, "train/extr_reward_min": -0.5713366776296537, "train/extr_reward_std": 0.23341717519988753, "train/image_loss_mean": 3.3059406051897025, "train/image_loss_std": 8.427969690871565, "train/model_loss_mean": 6.692017927561721, "train/model_loss_std": 12.590811912327597, "train/model_opt_grad_norm": 21.628238847810927, "train/model_opt_grad_steps": 444249.0, "train/model_opt_loss": 16601.82738923373, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2482.876712328767, "train/policy_entropy_mag": 2.6726482731022245, "train/policy_entropy_max": 2.6726482731022245, "train/policy_entropy_mean": 0.41114507880929396, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6112378725450333, "train/policy_logprob_mag": 7.43838429124388, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4104008356185809, "train/policy_logprob_min": -7.43838429124388, "train/policy_logprob_std": 1.0330918733387777, "train/policy_randomness_mag": 0.9433275567342158, "train/policy_randomness_max": 0.9433275567342158, "train/policy_randomness_mean": 0.14511617028141674, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21574014568165556, "train/post_ent_mag": 55.58467478294895, "train/post_ent_max": 55.58467478294895, "train/post_ent_mean": 40.5881462097168, "train/post_ent_min": 19.341482214731712, "train/post_ent_std": 5.777123980326195, "train/prior_ent_mag": 76.7452947538193, "train/prior_ent_max": 76.7452947538193, "train/prior_ent_mean": 46.15245986311403, "train/prior_ent_min": 28.014417909596066, "train/prior_ent_std": 7.734917274893147, "train/rep_loss_mean": 5.548448948011006, "train/rep_loss_std": 8.92161856612114, "train/reward_avg": 0.04070660277996978, "train/reward_loss_mean": 0.05699377501868222, "train/reward_loss_std": 0.21700551003625948, "train/reward_max_data": 1.0328767201671862, "train/reward_max_pred": 1.0291727911936093, "train/reward_neg_acc": 0.9939720981741604, "train/reward_neg_loss": 0.02520888311507767, "train/reward_pos_acc": 0.9873937792973976, "train/reward_pos_loss": 0.7303708391646816, "train/reward_pred": 0.040297606424109574, "train/reward_rate": 0.04520280393835616, "stats/sum_log_reward": 11.67142881665911, "stats/max_log_achievement_collect_coal": 1.4285714285714286, "stats/max_log_achievement_collect_drink": 2.4285714285714284, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8571428571428572, "stats/max_log_achievement_collect_stone": 15.428571428571429, "stats/max_log_achievement_collect_wood": 12.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.1428571428571428, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.8571428571428571, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2857142857142858, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.7142857142857142, "stats/max_log_achievement_place_stone": 2.5714285714285716, "stats/max_log_achievement_place_table": 3.142857142857143, "stats/max_log_achievement_wake_up": 0.7142857142857143, "stats/mean_log_entropy": 0.4438318227018629, "replay/size": 890976.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.272926299083348e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4681845616441645e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.16763186454773, "timer/env.step_count": 1454.0, "timer/env.step_total": 18.936407327651978, "timer/env.step_frac": 0.0630861069530546, "timer/env.step_avg": 0.013023663911727632, "timer/env.step_min": 0.0027685165405273438, "timer/env.step_max": 1.630005121231079, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.26723337173461914, "timer/replay.add_frac": 0.0008902804412142934, "timer/replay.add_avg": 0.00018379186501693201, "timer/replay.add_min": 6.29425048828125e-05, "timer/replay.add_max": 0.0042879581451416016, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022649049758911133, "timer/logger.write_frac": 7.545467050601791e-05, "timer/logger.write_avg": 0.022649049758911133, "timer/logger.write_min": 0.022649049758911133, "timer/logger.write_max": 0.022649049758911133, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 10.736102104187012, "timer/agent.policy_frac": 0.035767021372350154, "timer/agent.policy_avg": 0.007383839136304685, "timer/agent.policy_min": 0.005761146545410156, "timer/agent.policy_max": 0.04103279113769531, "timer/dataset_count": 727.0, "timer/dataset_total": 0.06453227996826172, "timer/dataset_frac": 0.00021498747072563193, "timer/dataset_avg": 8.87651718958208e-05, "timer/dataset_min": 6.556510925292969e-05, "timer/dataset_max": 0.0001468658447265625, "timer/agent.train_count": 727.0, "timer/agent.train_total": 269.48717641830444, "timer/agent.train_frac": 0.8977889279544704, "timer/agent.train_avg": 0.3706838740279291, "timer/agent.train_min": 0.36377692222595215, "timer/agent.train_max": 0.38654041290283203, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2193763256072998, "timer/agent.report_frac": 0.0007308460417420841, "timer/agent.report_avg": 0.2193763256072998, "timer/agent.report_min": 0.2193763256072998, "timer/agent.report_max": 0.2193763256072998, "fps": 4.8438824599321455}
{"step": 891264, "episode/length": 243.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.299999997019768, "episode/reward_rate": 0.06557377049180328}
{"step": 891518, "episode/length": 253.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.900000005960464, "episode/reward_rate": 0.06299212598425197}
{"step": 891727, "episode/length": 208.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.06698564593301436}
{"step": 891885, "episode/length": 157.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.08227848101265822}
{"step": 892271, "episode/length": 385.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.031088082901554404}
{"step": 892483, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.556123521592882, "train/action_min": 0.0, "train/action_std": 3.3766742977831097, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03834642669082516, "train/actor_opt_grad_steps": 445335.0, "train/actor_opt_loss": -13.180393647816446, "train/adv_mag": 0.39301890610820717, "train/adv_max": 0.33363544195890427, "train/adv_mean": 0.0011344925261356467, "train/adv_min": -0.34992206779619056, "train/adv_std": 0.042513703720437154, "train/cont_avg": 0.9952392578125, "train/cont_loss_mean": 7.006230282789893e-05, "train/cont_loss_std": 0.002178988490853505, "train/cont_neg_acc": 0.9976851857370801, "train/cont_neg_loss": 0.011601499569694104, "train/cont_pos_acc": 0.9999999875823656, "train/cont_pos_loss": 2.940039837263776e-06, "train/cont_pred": 0.9952525984909799, "train/cont_rate": 0.9952392578125, "train/dyn_loss_mean": 5.449806703461541, "train/dyn_loss_std": 8.884666813744438, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9526468474004004, "train/extr_critic_critic_opt_grad_steps": 445335.0, "train/extr_critic_critic_opt_loss": 15506.73961046007, "train/extr_critic_mag": 12.06334302160475, "train/extr_critic_max": 12.06334302160475, "train/extr_critic_mean": 3.628114879131317, "train/extr_critic_min": -0.3665205025010639, "train/extr_critic_std": 2.8424028986030154, "train/extr_return_normed_mag": 1.3698214209742017, "train/extr_return_normed_max": 1.3698214209742017, "train/extr_return_normed_mean": 0.38665452040731907, "train/extr_return_normed_min": -0.07702423797713386, "train/extr_return_normed_std": 0.30719128085507286, "train/extr_return_rate": 0.8528022352192137, "train/extr_return_raw_mag": 12.81629086865319, "train/extr_return_raw_max": 12.81629086865319, "train/extr_return_raw_mean": 3.638687786128786, "train/extr_return_raw_min": -0.6897135852939553, "train/extr_return_raw_std": 2.8676901939842434, "train/extr_reward_mag": 1.0719820029205747, "train/extr_reward_max": 1.0719820029205747, "train/extr_reward_mean": 0.058595160513909325, "train/extr_reward_min": -0.5982191976573732, "train/extr_reward_std": 0.23285086846186054, "train/image_loss_mean": 3.3148399359650083, "train/image_loss_std": 8.468960238827599, "train/model_loss_mean": 6.64033783144421, "train/model_loss_std": 12.600876132647196, "train/model_opt_grad_norm": 22.30432351430257, "train/model_opt_grad_steps": 444973.1111111111, "train/model_opt_loss": 15122.473876953125, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2256.9444444444443, "train/policy_entropy_mag": 2.642995092603895, "train/policy_entropy_max": 2.642995092603895, "train/policy_entropy_mean": 0.39641893344620865, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.594738445762131, "train/policy_logprob_mag": 7.438384321000841, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39636178376773995, "train/policy_logprob_min": -7.438384321000841, "train/policy_logprob_std": 1.0251067851980527, "train/policy_randomness_mag": 0.9328612834215164, "train/policy_randomness_max": 0.9328612834215164, "train/policy_randomness_mean": 0.13991848845034838, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20991657332827648, "train/post_ent_mag": 55.77175251642863, "train/post_ent_max": 55.77175251642863, "train/post_ent_mean": 40.622722996605766, "train/post_ent_min": 19.469636188613045, "train/post_ent_std": 5.811693496174282, "train/prior_ent_mag": 76.63821898566351, "train/prior_ent_max": 76.63821898566351, "train/prior_ent_mean": 46.079469945695664, "train/prior_ent_min": 27.747405661476982, "train/prior_ent_std": 7.650549981329176, "train/rep_loss_mean": 5.449806703461541, "train/rep_loss_std": 8.884666813744438, "train/reward_avg": 0.04113769520901971, "train/reward_loss_mean": 0.055543815820581384, "train/reward_loss_std": 0.21128102619614866, "train/reward_max_data": 1.0333333412806194, "train/reward_max_pred": 1.0317229992813535, "train/reward_neg_acc": 0.9936661918958029, "train/reward_neg_loss": 0.02389945779254453, "train/reward_pos_acc": 0.9893207111292415, "train/reward_pos_loss": 0.7192221408089002, "train/reward_pred": 0.04089697949691779, "train/reward_rate": 0.045654296875, "stats/sum_log_reward": 12.899999809265136, "stats/max_log_achievement_collect_coal": 1.2, "stats/max_log_achievement_collect_drink": 3.6, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.8, "stats/max_log_achievement_collect_stone": 18.6, "stats/max_log_achievement_collect_wood": 13.0, "stats/max_log_achievement_defeat_skeleton": 0.4, "stats/max_log_achievement_defeat_zombie": 0.8, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.2, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8, "stats/max_log_achievement_place_furnace": 1.6, "stats/max_log_achievement_place_plant": 2.2, "stats/max_log_achievement_place_stone": 7.8, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.6, "stats/mean_log_entropy": 0.4476968437433243, "replay/size": 892420.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.460536703178427e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4150324290478989e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3285291194916, "timer/env.step_count": 1444.0, "timer/env.step_total": 19.391495943069458, "timer/env.step_frac": 0.06456761200782951, "timer/env.step_avg": 0.01342901381098993, "timer/env.step_min": 0.00286102294921875, "timer/env.step_max": 3.202887535095215, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.2732524871826172, "timer/replay.add_frac": 0.0009098452550736475, "timer/replay.add_avg": 0.00018923302436469334, "timer/replay.add_min": 6.747245788574219e-05, "timer/replay.add_max": 0.0023064613342285156, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030693769454956055, "timer/logger.write_frac": 0.00010220064522323132, "timer/logger.write_avg": 0.030693769454956055, "timer/logger.write_min": 0.030693769454956055, "timer/logger.write_max": 0.030693769454956055, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004947185516357422, "timer/checkpoint.save_frac": 1.647257931459814e-06, "timer/checkpoint.save_avg": 0.0004947185516357422, "timer/checkpoint.save_min": 0.0004947185516357422, "timer/checkpoint.save_max": 0.0004947185516357422, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4310758113861084, "timer/agent.save_frac": 0.004765034529292843, "timer/agent.save_avg": 1.4310758113861084, "timer/agent.save_min": 1.4310758113861084, "timer/agent.save_max": 1.4310758113861084, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.939338684082031e-05, "timer/replay.save_frac": 2.6435512827764726e-07, "timer/replay.save_avg": 7.939338684082031e-05, "timer/replay.save_min": 7.939338684082031e-05, "timer/replay.save_max": 7.939338684082031e-05, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 11.721588850021362, "timer/agent.policy_frac": 0.03902922204689285, "timer/agent.policy_avg": 0.008117443801953853, "timer/agent.policy_min": 0.005608797073364258, "timer/agent.policy_max": 1.0936369895935059, "timer/dataset_count": 722.0, "timer/dataset_total": 0.06431460380554199, "timer/dataset_frac": 0.00021414750038599618, "timer/dataset_avg": 8.907839862263433e-05, "timer/dataset_min": 6.818771362304688e-05, "timer/dataset_max": 0.0002186298370361328, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.190726518631, "timer/agent.train_frac": 0.8929911763791379, "timer/agent.train_avg": 0.3714552998873005, "timer/agent.train_min": 0.36157751083374023, "timer/agent.train_max": 0.57635498046875, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2208099365234375, "timer/agent.report_frac": 0.0007352279757464665, "timer/agent.report_avg": 0.2208099365234375, "timer/agent.report_min": 0.2208099365234375, "timer/agent.report_max": 0.2208099365234375, "fps": 4.807977400866441}
{"step": 892498, "episode/length": 226.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.299999997019768, "episode/reward_rate": 0.06607929515418502}
{"step": 892711, "episode/length": 212.0, "episode/score": 8.099999971687794, "episode/sum_abs_reward": 10.500000037252903, "episode/reward_rate": 0.046948356807511735}
{"step": 892898, "episode/length": 186.0, "episode/score": 9.099999979138374, "episode/sum_abs_reward": 11.30000002682209, "episode/reward_rate": 0.053475935828877004}
{"step": 892944, "episode/length": 45.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.13043478260869565}
{"step": 893161, "episode/length": 216.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.06912442396313365}
{"step": 893356, "episode/length": 194.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.06153846153846154}
{"step": 893545, "episode/length": 188.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.100000038743019, "episode/reward_rate": 0.06349206349206349}
{"step": 893819, "episode/length": 273.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.051094890510948905}
{"step": 893927, "stats/sum_log_reward": 10.475000381469727, "stats/max_log_achievement_collect_coal": 0.75, "stats/max_log_achievement_collect_drink": 3.625, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.75, "stats/max_log_achievement_collect_stone": 9.5, "stats/max_log_achievement_collect_wood": 11.375, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.125, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_stone_pickaxe": 0.625, "stats/max_log_achievement_make_stone_sword": 0.5, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 0.75, "stats/max_log_achievement_place_plant": 1.625, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.33969148993492126, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.362636142306858, "train/action_min": 0.0, "train/action_std": 3.2173496815893383, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.039047042528788246, "train/actor_opt_grad_steps": 446055.0, "train/actor_opt_loss": -11.958491186300913, "train/adv_mag": 0.3904761994878451, "train/adv_max": 0.32644934331377345, "train/adv_mean": 0.0018673951366913065, "train/adv_min": -0.34809190531571704, "train/adv_std": 0.043075600587245494, "train/cont_avg": 0.9949544270833334, "train/cont_loss_mean": 4.407928582218624e-05, "train/cont_loss_std": 0.0012099087661220488, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0018510732942021867, "train/cont_pos_acc": 0.9999863447414504, "train/cont_pos_loss": 3.533856796009458e-05, "train/cont_pred": 0.9949329561657376, "train/cont_rate": 0.9949544270833334, "train/dyn_loss_mean": 5.382910251617432, "train/dyn_loss_std": 8.795381320847405, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.940392952826288, "train/extr_critic_critic_opt_grad_steps": 446055.0, "train/extr_critic_critic_opt_loss": 15541.79206000434, "train/extr_critic_mag": 12.012319617801243, "train/extr_critic_max": 12.012319617801243, "train/extr_critic_mean": 3.692226287391451, "train/extr_critic_min": -0.367832331193818, "train/extr_critic_std": 2.885994800262981, "train/extr_return_normed_mag": 1.3811129728953044, "train/extr_return_normed_max": 1.3811129728953044, "train/extr_return_normed_mean": 0.39616453275084496, "train/extr_return_normed_min": -0.08406847741247879, "train/extr_return_normed_std": 0.31433240365650916, "train/extr_return_rate": 0.8521846557656924, "train/extr_return_raw_mag": 12.830344067679512, "train/extr_return_raw_max": 12.830344067679512, "train/extr_return_raw_mean": 3.709522717528873, "train/extr_return_raw_min": -0.7377568499909507, "train/extr_return_raw_std": 2.91105674372779, "train/extr_reward_mag": 1.070387578672833, "train/extr_reward_max": 1.070387578672833, "train/extr_reward_mean": 0.059976366296824485, "train/extr_reward_min": -0.6475782808330324, "train/extr_reward_std": 0.23606774024665356, "train/image_loss_mean": 3.1636195927858353, "train/image_loss_std": 8.217648877037895, "train/model_loss_mean": 6.44940451780955, "train/model_loss_std": 12.31007390552097, "train/model_opt_grad_norm": 26.119213488366867, "train/model_opt_grad_steps": 445692.0, "train/model_opt_loss": 8061.755622016059, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.6991065873040094, "train/policy_entropy_max": 2.6991065873040094, "train/policy_entropy_mean": 0.3758413294951121, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5756867573493056, "train/policy_logprob_mag": 7.438384274641673, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3771340861502621, "train/policy_logprob_min": -7.438384274641673, "train/policy_logprob_std": 1.0120450837744608, "train/policy_randomness_mag": 0.9526661800013648, "train/policy_randomness_max": 0.9526661800013648, "train/policy_randomness_mean": 0.1326554955707656, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20319216139614582, "train/post_ent_mag": 56.18968317243788, "train/post_ent_max": 56.18968317243788, "train/post_ent_mean": 40.70903470781114, "train/post_ent_min": 19.485700514581467, "train/post_ent_std": 5.917172769705455, "train/prior_ent_mag": 76.64272838168674, "train/prior_ent_max": 76.64272838168674, "train/prior_ent_mean": 46.07778400844998, "train/prior_ent_min": 27.961824046240913, "train/prior_ent_std": 7.813492284880744, "train/rep_loss_mean": 5.382910251617432, "train/rep_loss_std": 8.795381320847405, "train/reward_avg": 0.04137505394303136, "train/reward_loss_mean": 0.05599475000053644, "train/reward_loss_std": 0.21409228588971826, "train/reward_max_data": 1.0333333412806194, "train/reward_max_pred": 1.0318258735868666, "train/reward_neg_acc": 0.9935375509990586, "train/reward_neg_loss": 0.023254137343934014, "train/reward_pos_acc": 0.985393294857608, "train/reward_pos_loss": 0.7375630189975103, "train/reward_pred": 0.04087533173151314, "train/reward_rate": 0.0458984375, "replay/size": 893864.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.3847512961094397e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4252485991184732e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3175919055939, "timer/env.step_count": 1444.0, "timer/env.step_total": 20.53671145439148, "timer/env.step_frac": 0.06838331156054049, "timer/env.step_avg": 0.014222099345146453, "timer/env.step_min": 0.0027265548706054688, "timer/env.step_max": 1.6929564476013184, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.2697124481201172, "timer/replay.add_frac": 0.0008980907392361566, "timer/replay.add_avg": 0.00018678147376739417, "timer/replay.add_min": 6.985664367675781e-05, "timer/replay.add_max": 0.005084991455078125, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025340795516967773, "timer/logger.write_frac": 8.437999038342636e-05, "timer/logger.write_avg": 0.025340795516967773, "timer/logger.write_min": 0.025340795516967773, "timer/logger.write_max": 0.025340795516967773, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.710153102874756, "timer/agent.policy_frac": 0.03566275633377328, "timer/agent.policy_avg": 0.007417003533846784, "timer/agent.policy_min": 0.005750179290771484, "timer/agent.policy_max": 0.021896839141845703, "timer/dataset_count": 722.0, "timer/dataset_total": 0.06351733207702637, "timer/dataset_frac": 0.00021150053739440384, "timer/dataset_avg": 8.797414415100605e-05, "timer/dataset_min": 6.628036499023438e-05, "timer/dataset_max": 0.00017380714416503906, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.06147718429565, "timer/agent.train_frac": 0.892593322566871, "timer/agent.train_avg": 0.3712762841887751, "timer/agent.train_min": 0.3631713390350342, "timer/agent.train_max": 0.4068112373352051, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21711134910583496, "timer/agent.report_frac": 0.0007229391649293886, "timer/agent.report_avg": 0.21711134910583496, "timer/agent.report_min": 0.21711134910583496, "timer/agent.report_max": 0.21711134910583496, "fps": 4.808151811383137}
{"step": 893999, "episode/length": 179.0, "episode/score": 13.099999994039536, "episode/sum_abs_reward": 14.900000035762787, "episode/reward_rate": 0.07777777777777778}
{"step": 894255, "episode/length": 255.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.05078125}
{"step": 894402, "episode/length": 146.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.299999997019768, "episode/reward_rate": 0.08843537414965986}
{"step": 894613, "episode/length": 210.0, "episode/score": 15.099999971687794, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.08056872037914692}
{"step": 894835, "episode/length": 221.0, "episode/score": 13.099999994039536, "episode/sum_abs_reward": 15.300000041723251, "episode/reward_rate": 0.06306306306306306}
{"step": 895038, "episode/length": 202.0, "episode/score": 12.099999979138374, "episode/sum_abs_reward": 14.700000032782555, "episode/reward_rate": 0.06403940886699508}
{"step": 895263, "episode/length": 224.0, "episode/score": 13.100000031292439, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.06666666666666667}
{"step": 895377, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.359157986111111, "train/action_min": 0.0, "train/action_std": 3.2018545170625052, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03848983355176946, "train/actor_opt_grad_steps": 446775.0, "train/actor_opt_loss": -11.13445284217596, "train/adv_mag": 0.39125098867548835, "train/adv_max": 0.3472210206091404, "train/adv_mean": 0.002248509838611628, "train/adv_min": -0.3183195630295409, "train/adv_std": 0.04369625242220031, "train/cont_avg": 0.9946967230902778, "train/cont_loss_mean": 1.390307903391551e-05, "train/cont_loss_std": 0.00039314330826319593, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.001475621636874141, "train/cont_pos_acc": 0.9999999809596274, "train/cont_pos_loss": 6.365034746874048e-06, "train/cont_pred": 0.9946975741121504, "train/cont_rate": 0.9946967230902778, "train/dyn_loss_mean": 5.615613884396023, "train/dyn_loss_std": 8.984800259272257, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9103999899493324, "train/extr_critic_critic_opt_grad_steps": 446775.0, "train/extr_critic_critic_opt_loss": 15457.376641167535, "train/extr_critic_mag": 11.871907194455465, "train/extr_critic_max": 11.871907194455465, "train/extr_critic_mean": 3.792661683426963, "train/extr_critic_min": -0.3708319316307704, "train/extr_critic_std": 2.910207930538389, "train/extr_return_normed_mag": 1.389445134335094, "train/extr_return_normed_max": 1.389445134335094, "train/extr_return_normed_mean": 0.412763226363394, "train/extr_return_normed_min": -0.08159808379908402, "train/extr_return_normed_std": 0.3220829661521647, "train/extr_return_rate": 0.8571615012155639, "train/extr_return_raw_mag": 12.724866045845879, "train/extr_return_raw_max": 12.724866045845879, "train/extr_return_raw_mean": 3.813167995876736, "train/extr_return_raw_min": -0.697112910863426, "train/extr_return_raw_std": 2.9385424653689065, "train/extr_reward_mag": 1.0689355896578894, "train/extr_reward_max": 1.0689355896578894, "train/extr_reward_mean": 0.06112302213700281, "train/extr_reward_min": -0.6117737922403548, "train/extr_reward_std": 0.23732925434079435, "train/image_loss_mean": 3.3037988046805062, "train/image_loss_std": 8.711627854241264, "train/model_loss_mean": 6.731621437602573, "train/model_loss_std": 12.913275811407301, "train/model_opt_grad_norm": 22.012442893452114, "train/model_opt_grad_steps": 446412.0, "train/model_opt_loss": 16643.639790852863, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2465.277777777778, "train/policy_entropy_mag": 2.675770252943039, "train/policy_entropy_max": 2.675770252943039, "train/policy_entropy_mean": 0.3802074549926652, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5765777255098025, "train/policy_logprob_mag": 7.438384274641673, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38094767928123474, "train/policy_logprob_min": -7.438384274641673, "train/policy_logprob_std": 1.012883111834526, "train/policy_randomness_mag": 0.944429475400183, "train/policy_randomness_max": 0.944429475400183, "train/policy_randomness_mean": 0.13419654613567722, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2035066361228625, "train/post_ent_mag": 55.69643365012275, "train/post_ent_max": 55.69643365012275, "train/post_ent_mean": 40.51627392239041, "train/post_ent_min": 19.647982398668926, "train/post_ent_std": 5.858384993341234, "train/prior_ent_mag": 76.70725907219781, "train/prior_ent_max": 76.70725907219781, "train/prior_ent_mean": 46.12301074133979, "train/prior_ent_min": 27.821155230204266, "train/prior_ent_std": 7.862777822547489, "train/rep_loss_mean": 5.615613884396023, "train/rep_loss_std": 8.984800259272257, "train/reward_avg": 0.04345838761784964, "train/reward_loss_mean": 0.05844032702346643, "train/reward_loss_std": 0.21754655904240078, "train/reward_max_data": 1.0291666736205418, "train/reward_max_pred": 1.0237728158632915, "train/reward_neg_acc": 0.9935306616955333, "train/reward_neg_loss": 0.024261347923634782, "train/reward_pos_acc": 0.9894243362877104, "train/reward_pos_loss": 0.7326775069038073, "train/reward_pred": 0.04290505317557189, "train/reward_rate": 0.048272026909722224, "stats/sum_log_reward": 12.814285959516253, "stats/max_log_achievement_collect_coal": 0.42857142857142855, "stats/max_log_achievement_collect_drink": 3.4285714285714284, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 10.428571428571429, "stats/max_log_achievement_collect_wood": 13.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.2857142857142857, "stats/max_log_achievement_defeat_zombie": 1.8571428571428572, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_stone_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_stone_sword": 0.8571428571428571, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.2857142857142858, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 2.857142857142857, "stats/max_log_achievement_place_table": 3.4285714285714284, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.3557158495698656, "replay/size": 895314.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.3470679973733835e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4255992297468514e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.10842204093933, "timer/env.step_count": 1450.0, "timer/env.step_total": 19.316805124282837, "timer/env.step_frac": 0.06436608807215591, "timer/env.step_avg": 0.013321934568470922, "timer/env.step_min": 0.002645254135131836, "timer/env.step_max": 1.6741061210632324, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.27451562881469727, "timer/replay.add_frac": 0.0009147215094724971, "timer/replay.add_avg": 0.00018932112332048086, "timer/replay.add_min": 7.534027099609375e-05, "timer/replay.add_max": 0.005562543869018555, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026208877563476562, "timer/logger.write_frac": 8.733136306285091e-05, "timer/logger.write_avg": 0.026208877563476562, "timer/logger.write_min": 0.026208877563476562, "timer/logger.write_max": 0.026208877563476562, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 10.739675760269165, "timer/agent.policy_frac": 0.03578598590213543, "timer/agent.policy_avg": 0.0074066729381166655, "timer/agent.policy_min": 0.005789995193481445, "timer/agent.policy_max": 0.01890087127685547, "timer/dataset_count": 725.0, "timer/dataset_total": 0.06409621238708496, "timer/dataset_frac": 0.00021357685316255893, "timer/dataset_avg": 8.840856880977237e-05, "timer/dataset_min": 6.794929504394531e-05, "timer/dataset_max": 0.0001704692840576172, "timer/agent.train_count": 725.0, "timer/agent.train_total": 269.03248929977417, "timer/agent.train_frac": 0.896450980849428, "timer/agent.train_avg": 0.3710792955858954, "timer/agent.train_min": 0.36353611946105957, "timer/agent.train_max": 0.38545823097229004, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2182328701019287, "timer/agent.report_frac": 0.0007271800925072288, "timer/agent.report_avg": 0.2182328701019287, "timer/agent.report_min": 0.2182328701019287, "timer/agent.report_max": 0.2182328701019287, "fps": 4.831472122679067}
{"step": 895470, "episode/length": 206.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.07246376811594203}
{"step": 895638, "episode/length": 167.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 11.900000050663948, "episode/reward_rate": 0.05952380952380952}
{"step": 895847, "episode/length": 208.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 16.500000037252903, "episode/reward_rate": 0.06698564593301436}
{"step": 896100, "episode/length": 252.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.05928853754940711}
{"step": 896381, "episode/length": 280.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.042704626334519574}
{"step": 896554, "episode/length": 172.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.057803468208092484}
{"step": 896792, "episode/length": 237.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.06302521008403361}
{"step": 896809, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.411431206597222, "train/action_min": 0.0, "train/action_std": 3.2610917422506542, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03834756603464484, "train/actor_opt_grad_steps": 447495.0, "train/actor_opt_loss": -11.037712616225084, "train/adv_mag": 0.39374684501025414, "train/adv_max": 0.3429901997248332, "train/adv_mean": 0.00215750375981669, "train/adv_min": -0.34195423871278763, "train/adv_std": 0.04306334846963485, "train/cont_avg": 0.9950900607638888, "train/cont_loss_mean": 0.00017659544115853108, "train/cont_loss_std": 0.005620203560873449, "train/cont_neg_acc": 0.9986111116078165, "train/cont_neg_loss": 0.003983058049372564, "train/cont_pos_acc": 0.9999727292193307, "train/cont_pos_loss": 0.0001413542161636805, "train/cont_pred": 0.9950764154394468, "train/cont_rate": 0.9950900607638888, "train/dyn_loss_mean": 5.4284493989414635, "train/dyn_loss_std": 8.877037478817833, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9337309540973769, "train/extr_critic_critic_opt_grad_steps": 447495.0, "train/extr_critic_critic_opt_loss": 15361.409410264758, "train/extr_critic_mag": 12.097395989629957, "train/extr_critic_max": 12.097395989629957, "train/extr_critic_mean": 3.8295557498931885, "train/extr_critic_min": -0.322528138756752, "train/extr_critic_std": 2.915091395378113, "train/extr_return_normed_mag": 1.3804401556650798, "train/extr_return_normed_max": 1.3804401556650798, "train/extr_return_normed_mean": 0.40975208166572785, "train/extr_return_normed_min": -0.074261625814769, "train/extr_return_normed_std": 0.31713365722033715, "train/extr_return_rate": 0.8579870619707637, "train/extr_return_raw_mag": 12.858420252799988, "train/extr_return_raw_max": 12.858420252799988, "train/extr_return_raw_mean": 3.8495781090524464, "train/extr_return_raw_min": -0.6432229686114523, "train/extr_return_raw_std": 2.9435684416029186, "train/extr_reward_mag": 1.068808717860116, "train/extr_reward_max": 1.068808717860116, "train/extr_reward_mean": 0.060840331121451326, "train/extr_reward_min": -0.5933330373631583, "train/extr_reward_std": 0.23663193794588247, "train/image_loss_mean": 3.2335875812504025, "train/image_loss_std": 8.480068253146278, "train/model_loss_mean": 6.548637674914466, "train/model_loss_std": 12.623640007442898, "train/model_opt_grad_norm": 21.792605347103542, "train/model_opt_grad_steps": 447131.5416666667, "train/model_opt_loss": 18374.819173177082, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2812.5, "train/policy_entropy_mag": 2.6671133471859827, "train/policy_entropy_max": 2.6671133471859827, "train/policy_entropy_mean": 0.39458327864607173, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5988843457566367, "train/policy_logprob_mag": 7.438384234905243, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3951898550407754, "train/policy_logprob_min": -7.438384234905243, "train/policy_logprob_std": 1.0228795980413754, "train/policy_randomness_mag": 0.9413739658064313, "train/policy_randomness_max": 0.9413739658064313, "train/policy_randomness_mean": 0.13927058171894816, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21137989229626125, "train/post_ent_mag": 55.35869296391805, "train/post_ent_max": 55.35869296391805, "train/post_ent_mean": 40.3935801188151, "train/post_ent_min": 19.43199625280168, "train/post_ent_std": 5.785615649488237, "train/prior_ent_mag": 76.81300841437445, "train/prior_ent_max": 76.81300841437445, "train/prior_ent_mean": 45.7981341679891, "train/prior_ent_min": 27.75707695219252, "train/prior_ent_std": 7.79472910033332, "train/rep_loss_mean": 5.4284493989414635, "train/rep_loss_std": 8.877037478817833, "train/reward_avg": 0.042004394370855555, "train/reward_loss_mean": 0.057803950220760375, "train/reward_loss_std": 0.22293953121536308, "train/reward_max_data": 1.0263888951804903, "train/reward_max_pred": 1.025714549753401, "train/reward_neg_acc": 0.9939311014281379, "train/reward_neg_loss": 0.02512149069742817, "train/reward_pos_acc": 0.9890474279721578, "train/reward_pos_loss": 0.7294303526480993, "train/reward_pred": 0.041597998028414115, "train/reward_rate": 0.04640028211805555, "stats/sum_log_reward": 12.100000245230538, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 3.2857142857142856, "stats/max_log_achievement_collect_iron": 0.14285714285714285, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 14.857142857142858, "stats/max_log_achievement_collect_wood": 12.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.2857142857142856, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.8571428571428571, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 4.142857142857143, "stats/max_log_achievement_place_table": 2.857142857142857, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.43711171405655996, "replay/size": 896746.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.364166067965204e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.417046319173035e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2071352005005, "timer/env.step_count": 1432.0, "timer/env.step_total": 21.783756256103516, "timer/env.step_frac": 0.07256242008223661, "timer/env.step_avg": 0.01521212029057508, "timer/env.step_min": 0.0028696060180664062, "timer/env.step_max": 2.5981171131134033, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.30668115615844727, "timer/replay.add_frac": 0.0010215651801667638, "timer/replay.add_avg": 0.00021416281854640172, "timer/replay.add_min": 6.985664367675781e-05, "timer/replay.add_max": 0.011680841445922852, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030805110931396484, "timer/logger.write_frac": 0.00010261285399103708, "timer/logger.write_avg": 0.030805110931396484, "timer/logger.write_min": 0.030805110931396484, "timer/logger.write_max": 0.030805110931396484, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0001957416534423828, "timer/checkpoint.save_frac": 6.520219891231169e-07, "timer/checkpoint.save_avg": 0.0001957416534423828, "timer/checkpoint.save_min": 0.0001957416534423828, "timer/checkpoint.save_max": 0.0001957416534423828, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.167445182800293, "timer/agent.save_frac": 0.0038887989188550994, "timer/agent.save_avg": 1.167445182800293, "timer/agent.save_min": 1.167445182800293, "timer/agent.save_max": 1.167445182800293, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.0558319091796875e-05, "timer/replay.save_frac": 2.017217846982603e-07, "timer/replay.save_avg": 6.0558319091796875e-05, "timer/replay.save_min": 6.0558319091796875e-05, "timer/replay.save_max": 6.0558319091796875e-05, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 11.563722610473633, "timer/agent.policy_frac": 0.03851914646449201, "timer/agent.policy_avg": 0.008075225286643598, "timer/agent.policy_min": 0.005654096603393555, "timer/agent.policy_max": 0.6735522747039795, "timer/dataset_count": 716.0, "timer/dataset_total": 0.06401658058166504, "timer/dataset_frac": 0.0002132413692929385, "timer/dataset_avg": 8.940863209729754e-05, "timer/dataset_min": 6.580352783203125e-05, "timer/dataset_max": 0.0010287761688232422, "timer/agent.train_count": 716.0, "timer/agent.train_total": 265.7992134094238, "timer/agent.train_frac": 0.8853860626327336, "timer/agent.train_avg": 0.3712279516891394, "timer/agent.train_min": 0.3642756938934326, "timer/agent.train_max": 0.38814449310302734, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22301864624023438, "timer/agent.report_frac": 0.0007428825637048435, "timer/agent.report_avg": 0.22301864624023438, "timer/agent.report_min": 0.22301864624023438, "timer/agent.report_max": 0.22301864624023438, "fps": 4.769965656407665}
{"step": 897003, "episode/length": 210.0, "episode/score": 13.099999971687794, "episode/sum_abs_reward": 15.500000037252903, "episode/reward_rate": 0.07109004739336493}
{"step": 897213, "episode/length": 209.0, "episode/score": 16.100000023841858, "episode/sum_abs_reward": 18.90000006556511, "episode/reward_rate": 0.08095238095238096}
{"step": 897427, "episode/length": 213.0, "episode/score": 14.099999971687794, "episode/sum_abs_reward": 16.500000037252903, "episode/reward_rate": 0.07476635514018691}
{"step": 897495, "episode/length": 67.0, "episode/score": 8.099999979138374, "episode/sum_abs_reward": 9.900000020861626, "episode/reward_rate": 0.1323529411764706}
{"step": 897913, "episode/length": 417.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.03349282296650718}
{"step": 897978, "episode/length": 64.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.09230769230769231}
{"step": 898235, "episode/length": 256.0, "episode/score": 9.099999971687794, "episode/sum_abs_reward": 11.900000043213367, "episode/reward_rate": 0.042801556420233464}
{"step": 898260, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.416925299657534, "train/action_min": 0.0, "train/action_std": 3.30187999385677, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.040091208297095886, "train/actor_opt_grad_steps": 448220.0, "train/actor_opt_loss": -11.979728351717126, "train/adv_mag": 0.42463360604358047, "train/adv_max": 0.3480743986286529, "train/adv_mean": 0.0019072449396271497, "train/adv_min": -0.3781940806401919, "train/adv_std": 0.04399443887276192, "train/cont_avg": 0.9950636772260274, "train/cont_loss_mean": 6.799729335604647e-05, "train/cont_loss_std": 0.002074060424441597, "train/cont_neg_acc": 0.9972602741359031, "train/cont_neg_loss": 0.006254644950831478, "train/cont_pos_acc": 0.9999865505793323, "train/cont_pos_loss": 3.894405126797278e-05, "train/cont_pred": 0.9950626468005246, "train/cont_rate": 0.9950636772260274, "train/dyn_loss_mean": 5.527335127739057, "train/dyn_loss_std": 8.908330179240606, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.938646575359449, "train/extr_critic_critic_opt_grad_steps": 448220.0, "train/extr_critic_critic_opt_loss": 15552.289035744863, "train/extr_critic_mag": 11.978230463315363, "train/extr_critic_max": 11.978230463315363, "train/extr_critic_mean": 3.8357125145115263, "train/extr_critic_min": -0.34876828814206057, "train/extr_critic_std": 2.8927824627863217, "train/extr_return_normed_mag": 1.3766728982533494, "train/extr_return_normed_max": 1.3766728982533494, "train/extr_return_normed_mean": 0.40993186504873513, "train/extr_return_normed_min": -0.08004609589809425, "train/extr_return_normed_std": 0.31508428613616996, "train/extr_return_rate": 0.8575753153186955, "train/extr_return_raw_mag": 12.809246442089343, "train/extr_return_raw_max": 12.809246442089343, "train/extr_return_raw_mean": 3.8533845111115337, "train/extr_return_raw_min": -0.6856903703245398, "train/extr_return_raw_std": 2.919009355649556, "train/extr_reward_mag": 1.0713393851502302, "train/extr_reward_max": 1.0713393851502302, "train/extr_reward_mean": 0.05983485317189399, "train/extr_reward_min": -0.6026145677043967, "train/extr_reward_std": 0.23533495015477482, "train/image_loss_mean": 3.275196046045382, "train/image_loss_std": 8.612480529367108, "train/model_loss_mean": 6.649381389356639, "train/model_loss_std": 12.839935172094057, "train/model_opt_grad_norm": 21.40665384841292, "train/model_opt_grad_steps": 447855.9589041096, "train/model_opt_loss": 17286.07768354024, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2602.7397260273974, "train/policy_entropy_mag": 2.68196264358416, "train/policy_entropy_max": 2.68196264358416, "train/policy_entropy_mean": 0.3849205305315044, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5825349737520087, "train/policy_logprob_mag": 7.438384278179848, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3853626306334587, "train/policy_logprob_min": -7.438384278179848, "train/policy_logprob_std": 1.0151348946845695, "train/policy_randomness_mag": 0.946615118686467, "train/policy_randomness_max": 0.946615118686467, "train/policy_randomness_mean": 0.13586005527679235, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20560928107532736, "train/post_ent_mag": 55.57556053057109, "train/post_ent_max": 55.57556053057109, "train/post_ent_mean": 40.446427227699594, "train/post_ent_min": 19.59111243731355, "train/post_ent_std": 5.787852032543862, "train/prior_ent_mag": 76.79102409049256, "train/prior_ent_max": 76.79102409049256, "train/prior_ent_mean": 45.94297659887027, "train/prior_ent_min": 28.09420893943473, "train/prior_ent_std": 7.799737995618011, "train/rep_loss_mean": 5.527335127739057, "train/rep_loss_std": 8.908330179240606, "train/reward_avg": 0.04261424440941582, "train/reward_loss_mean": 0.05771619678564267, "train/reward_loss_std": 0.21100656014599212, "train/reward_max_data": 1.035616446847785, "train/reward_max_pred": 1.0364667471141031, "train/reward_neg_acc": 0.9932062544234811, "train/reward_neg_loss": 0.02490497306499579, "train/reward_pos_acc": 0.9908339944604325, "train/reward_pos_loss": 0.7254771181981857, "train/reward_pred": 0.04225746542215347, "train/reward_rate": 0.04694188784246575, "stats/sum_log_reward": 11.100000245230538, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 2.7142857142857144, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.2857142857142856, "stats/max_log_achievement_collect_stone": 9.0, "stats/max_log_achievement_collect_wood": 12.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.2857142857142858, "stats/max_log_achievement_eat_cow": 0.42857142857142855, "stats/max_log_achievement_make_stone_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_stone_sword": 0.7142857142857143, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 0.8571428571428571, "stats/max_log_achievement_place_plant": 2.142857142857143, "stats/max_log_achievement_place_stone": 2.857142857142857, "stats/max_log_achievement_place_table": 2.7142857142857144, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.4763291967766626, "replay/size": 898197.0, "replay/inserts": 1451.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.325043671053907e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4336561334544215e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0033447742462, "timer/env.step_count": 1451.0, "timer/env.step_total": 18.744561910629272, "timer/env.step_frac": 0.06248117641733173, "timer/env.step_avg": 0.012918374852260009, "timer/env.step_min": 0.002802610397338867, "timer/env.step_max": 1.7219626903533936, "timer/replay.add_count": 1451.0, "timer/replay.add_total": 0.2888801097869873, "timer/replay.add_frac": 0.0009629229634235272, "timer/replay.add_avg": 0.00019909035822673142, "timer/replay.add_min": 7.200241088867188e-05, "timer/replay.add_max": 0.007567405700683594, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028455495834350586, "timer/logger.write_frac": 9.485059526840765e-05, "timer/logger.write_avg": 0.028455495834350586, "timer/logger.write_min": 0.028455495834350586, "timer/logger.write_max": 0.028455495834350586, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1451.0, "timer/agent.policy_total": 10.778798818588257, "timer/agent.policy_frac": 0.03592892881477488, "timer/agent.policy_avg": 0.007428531232659033, "timer/agent.policy_min": 0.0057146549224853516, "timer/agent.policy_max": 0.01633429527282715, "timer/dataset_count": 725.0, "timer/dataset_total": 0.06490826606750488, "timer/dataset_frac": 0.000216358474657503, "timer/dataset_avg": 8.952864285173087e-05, "timer/dataset_min": 6.67572021484375e-05, "timer/dataset_max": 0.0010471343994140625, "timer/agent.train_count": 725.0, "timer/agent.train_total": 269.435049533844, "timer/agent.train_frac": 0.8981068185642896, "timer/agent.train_avg": 0.3716345510811641, "timer/agent.train_min": 0.3603818416595459, "timer/agent.train_max": 0.4033973217010498, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22040390968322754, "timer/agent.report_frac": 0.0007346715079096282, "timer/agent.report_avg": 0.22040390968322754, "timer/agent.report_min": 0.22040390968322754, "timer/agent.report_max": 0.22040390968322754, "fps": 4.836514593868739}
{"step": 898447, "episode/length": 211.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.0660377358490566}
{"step": 898642, "episode/length": 194.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.06153846153846154}
{"step": 898861, "episode/length": 218.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.0639269406392694}
{"step": 899147, "episode/length": 285.0, "episode/score": 12.099999979138374, "episode/sum_abs_reward": 15.100000038743019, "episode/reward_rate": 0.045454545454545456}
{"step": 899318, "episode/length": 170.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.08771929824561403}
{"step": 899489, "episode/length": 170.0, "episode/score": 14.099999971687794, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.0935672514619883}
{"step": 899678, "episode/length": 188.0, "episode/score": 13.099999994039536, "episode/sum_abs_reward": 14.500000014901161, "episode/reward_rate": 0.07407407407407407}
{"step": 899711, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4300952487521705, "train/action_min": 0.0, "train/action_std": 3.3728415866692862, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03897998520794014, "train/actor_opt_grad_steps": 448945.0, "train/actor_opt_loss": -10.620840057730675, "train/adv_mag": 0.41558094115720856, "train/adv_max": 0.34906085911724305, "train/adv_mean": 0.001940917669268553, "train/adv_min": -0.36384899769392276, "train/adv_std": 0.04350923731302222, "train/cont_avg": 0.9952528211805556, "train/cont_loss_mean": 1.0543341384444065e-05, "train/cont_loss_std": 0.00028126842719839514, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 9.717563937477946e-05, "train/cont_pos_acc": 0.999999976820416, "train/cont_pos_loss": 1.014483768566363e-05, "train/cont_pred": 0.9952437157432238, "train/cont_rate": 0.9952528211805556, "train/dyn_loss_mean": 5.447042683760325, "train/dyn_loss_std": 8.90586088101069, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9509994205501344, "train/extr_critic_critic_opt_grad_steps": 448945.0, "train/extr_critic_critic_opt_loss": 15535.039225260416, "train/extr_critic_mag": 12.07452470726437, "train/extr_critic_max": 12.07452470726437, "train/extr_critic_mean": 3.7901912464035883, "train/extr_critic_min": -0.37821827663315666, "train/extr_critic_std": 2.8724319305684833, "train/extr_return_normed_mag": 1.373716178867552, "train/extr_return_normed_max": 1.373716178867552, "train/extr_return_normed_mean": 0.40805593588285977, "train/extr_return_normed_min": -0.07672506268136203, "train/extr_return_normed_std": 0.3127527189337545, "train/extr_return_rate": 0.8648329459958606, "train/extr_return_raw_mag": 12.765181356006199, "train/extr_return_raw_max": 12.765181356006199, "train/extr_return_raw_mean": 3.808185338973999, "train/extr_return_raw_min": -0.6894073873344395, "train/extr_return_raw_std": 2.9017489618725247, "train/extr_reward_mag": 1.0718898442056444, "train/extr_reward_max": 1.0718898442056444, "train/extr_reward_mean": 0.06055878708139062, "train/extr_reward_min": -0.6105321430497699, "train/extr_reward_std": 0.23613987863063812, "train/image_loss_mean": 3.2595928791496487, "train/image_loss_std": 8.56958936320411, "train/model_loss_mean": 6.5847376518779335, "train/model_loss_std": 12.732095930311415, "train/model_opt_grad_norm": 22.33354531394111, "train/model_opt_grad_steps": 448580.0, "train/model_opt_loss": 16461.84417046441, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6678108639187283, "train/policy_entropy_max": 2.6678108639187283, "train/policy_entropy_mean": 0.39622067970534164, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5988423116505146, "train/policy_logprob_mag": 7.438384340869056, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39622976382573444, "train/policy_logprob_min": -7.438384340869056, "train/policy_logprob_std": 1.022598434653547, "train/policy_randomness_mag": 0.9416201619638337, "train/policy_randomness_max": 0.9416201619638337, "train/policy_randomness_mean": 0.13984851352870464, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2113650550858842, "train/post_ent_mag": 55.553745640648735, "train/post_ent_max": 55.553745640648735, "train/post_ent_mean": 40.36084243986342, "train/post_ent_min": 19.233930190404255, "train/post_ent_std": 5.800804085201687, "train/prior_ent_mag": 76.73602432674832, "train/prior_ent_max": 76.73602432674832, "train/prior_ent_mean": 45.794051594204376, "train/prior_ent_min": 27.740865389506023, "train/prior_ent_std": 7.805111825466156, "train/rep_loss_mean": 5.447042683760325, "train/rep_loss_std": 8.90586088101069, "train/reward_avg": 0.041792805306613445, "train/reward_loss_mean": 0.05690861436434918, "train/reward_loss_std": 0.21382475313213137, "train/reward_max_data": 1.022222227520413, "train/reward_max_pred": 1.0252419826057222, "train/reward_neg_acc": 0.9937603283259604, "train/reward_neg_loss": 0.024566678188016847, "train/reward_pos_acc": 0.9886878116263284, "train/reward_pos_loss": 0.7245135828852654, "train/reward_pred": 0.041409409734317, "train/reward_rate": 0.04629177517361111, "stats/sum_log_reward": 12.957143102373395, "stats/max_log_achievement_collect_coal": 1.2857142857142858, "stats/max_log_achievement_collect_drink": 2.142857142857143, "stats/max_log_achievement_collect_iron": 0.14285714285714285, "stats/max_log_achievement_collect_sapling": 0.8571428571428571, "stats/max_log_achievement_collect_stone": 13.285714285714286, "stats/max_log_achievement_collect_wood": 13.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.8571428571428572, "stats/max_log_achievement_eat_cow": 0.5714285714285714, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.1428571428571428, "stats/max_log_achievement_make_wood_pickaxe": 1.2857142857142858, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.4285714285714286, "stats/max_log_achievement_place_plant": 0.8571428571428571, "stats/max_log_achievement_place_stone": 3.857142857142857, "stats/max_log_achievement_place_table": 3.7142857142857144, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.44647147825786043, "replay/size": 899648.0, "replay/inserts": 1451.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.2987535451708953e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.414029887228301e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.11036372184753, "timer/env.step_count": 1451.0, "timer/env.step_total": 18.865458011627197, "timer/env.step_frac": 0.06286173452214514, "timer/env.step_avg": 0.01300169401214831, "timer/env.step_min": 0.002813577651977539, "timer/env.step_max": 1.69197416305542, "timer/replay.add_count": 1451.0, "timer/replay.add_total": 0.25487732887268066, "timer/replay.add_frac": 0.0008492786643946413, "timer/replay.add_avg": 0.0001756563258943354, "timer/replay.add_min": 6.771087646484375e-05, "timer/replay.add_max": 0.001753091812133789, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02428150177001953, "timer/logger.write_frac": 8.090857466196819e-05, "timer/logger.write_avg": 0.02428150177001953, "timer/logger.write_min": 0.02428150177001953, "timer/logger.write_max": 0.02428150177001953, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1451.0, "timer/agent.policy_total": 10.583386421203613, "timer/agent.policy_frac": 0.03526498148865214, "timer/agent.policy_avg": 0.0072938569408708565, "timer/agent.policy_min": 0.005923748016357422, "timer/agent.policy_max": 0.016146183013916016, "timer/dataset_count": 726.0, "timer/dataset_total": 0.06262683868408203, "timer/dataset_frac": 0.0002086793601774003, "timer/dataset_avg": 8.626286320121492e-05, "timer/dataset_min": 6.67572021484375e-05, "timer/dataset_max": 0.0001380443572998047, "timer/agent.train_count": 726.0, "timer/agent.train_total": 269.6689429283142, "timer/agent.train_frac": 0.8985659128328288, "timer/agent.train_avg": 0.37144482497012976, "timer/agent.train_min": 0.3642730712890625, "timer/agent.train_max": 0.3857874870300293, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22052359580993652, "timer/agent.report_frac": 0.0007348083320918743, "timer/agent.report_avg": 0.22052359580993652, "timer/agent.report_min": 0.22052359580993652, "timer/agent.report_max": 0.22052359580993652, "fps": 4.834789788375293}
{"step": 899900, "episode/length": 221.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.06306306306306306}
{"step": 900094, "episode/length": 193.0, "episode/score": 14.100000023841858, "episode/sum_abs_reward": 15.900000050663948, "episode/reward_rate": 0.07731958762886598}
{"step": 900295, "episode/length": 200.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.06965174129353234}
{"step": 900515, "episode/length": 219.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.07272727272727272}
{"step": 900714, "episode/length": 198.0, "episode/score": 13.099999956786633, "episode/sum_abs_reward": 15.300000004470348, "episode/reward_rate": 0.07035175879396985}
{"step": 900976, "episode/length": 261.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.500000022351742, "episode/reward_rate": 0.061068702290076333}
{"step": 901129, "episode/length": 152.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.0718954248366013}
{"step": 901139, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4342397054036455, "train/action_min": 0.0, "train/action_std": 3.3197250730461545, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03968310319922037, "train/actor_opt_grad_steps": 449665.0, "train/actor_opt_loss": -11.50447000314792, "train/adv_mag": 0.4286743518378999, "train/adv_max": 0.3469649652640025, "train/adv_mean": 0.0019247930419320862, "train/adv_min": -0.38285535304910606, "train/adv_std": 0.044193944324635796, "train/cont_avg": 0.9947916666666666, "train/cont_loss_mean": 5.076201414391493e-05, "train/cont_loss_std": 0.0015646832461560696, "train/cont_neg_acc": 0.9962797628508674, "train/cont_neg_loss": 0.005528344220183001, "train/cont_pos_acc": 0.9999999842709966, "train/cont_pos_loss": 9.5151774957003e-06, "train/cont_pred": 0.9948039932383431, "train/cont_rate": 0.9947916666666666, "train/dyn_loss_mean": 5.5967450804180565, "train/dyn_loss_std": 8.961242192321354, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9521068359414736, "train/extr_critic_critic_opt_grad_steps": 449665.0, "train/extr_critic_critic_opt_loss": 15583.999877929688, "train/extr_critic_mag": 11.988776445388794, "train/extr_critic_max": 11.988776445388794, "train/extr_critic_mean": 3.783158563905292, "train/extr_critic_min": -0.3482006821367476, "train/extr_critic_std": 2.893342743317286, "train/extr_return_normed_mag": 1.378192083703147, "train/extr_return_normed_max": 1.378192083703147, "train/extr_return_normed_mean": 0.4052439005010658, "train/extr_return_normed_min": -0.0797565068739156, "train/extr_return_normed_std": 0.3150748366283046, "train/extr_return_rate": 0.8645227915710874, "train/extr_return_raw_mag": 12.81256181663937, "train/extr_return_raw_max": 12.81256181663937, "train/extr_return_raw_mean": 3.800986498594284, "train/extr_return_raw_min": -0.6919942452675767, "train/extr_return_raw_std": 2.9186652302742004, "train/extr_reward_mag": 1.073127183649275, "train/extr_reward_max": 1.073127183649275, "train/extr_reward_mean": 0.06174680021488004, "train/extr_reward_min": -0.6430727806356218, "train/extr_reward_std": 0.23855459007124105, "train/image_loss_mean": 3.235866144299507, "train/image_loss_std": 8.639435119099087, "train/model_loss_mean": 6.653804375065698, "train/model_loss_std": 12.847342133522034, "train/model_opt_grad_norm": 23.63017721970876, "train/model_opt_grad_steps": 449299.4861111111, "train/model_opt_loss": 18971.555623372395, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2847.222222222222, "train/policy_entropy_mag": 2.67763234840499, "train/policy_entropy_max": 2.67763234840499, "train/policy_entropy_mean": 0.3864813360075156, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5946222965915998, "train/policy_logprob_mag": 7.438384234905243, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3864907951404651, "train/policy_logprob_min": -7.438384234905243, "train/policy_logprob_std": 1.0185945903261502, "train/policy_randomness_mag": 0.9450867134663794, "train/policy_randomness_max": 0.9450867134663794, "train/policy_randomness_mean": 0.1364109506830573, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20987557702594334, "train/post_ent_mag": 55.69300985336304, "train/post_ent_max": 55.69300985336304, "train/post_ent_mean": 40.31790198220147, "train/post_ent_min": 19.302347938219707, "train/post_ent_std": 5.82528621620602, "train/prior_ent_mag": 76.74633672502306, "train/prior_ent_max": 76.74633672502306, "train/prior_ent_mean": 45.8981384701199, "train/prior_ent_min": 27.84113958146837, "train/prior_ent_std": 7.841123534573449, "train/rep_loss_mean": 5.5967450804180565, "train/rep_loss_std": 8.961242192321354, "train/reward_avg": 0.04383816156122419, "train/reward_loss_mean": 0.059840438370075494, "train/reward_loss_std": 0.22302449639472696, "train/reward_max_data": 1.0236111167404387, "train/reward_max_pred": 1.0256163328886032, "train/reward_neg_acc": 0.9929297773374451, "train/reward_neg_loss": 0.025699405348859727, "train/reward_pos_acc": 0.9871752849883504, "train/reward_pos_loss": 0.7316514079769453, "train/reward_pred": 0.043459172231248684, "train/reward_rate": 0.04847547743055555, "stats/sum_log_reward": 13.385714258466448, "stats/max_log_achievement_collect_coal": 1.2857142857142858, "stats/max_log_achievement_collect_drink": 1.8571428571428572, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.142857142857143, "stats/max_log_achievement_collect_stone": 19.428571428571427, "stats/max_log_achievement_collect_wood": 12.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.2857142857142858, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_stone_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 2.142857142857143, "stats/max_log_achievement_place_stone": 6.0, "stats/max_log_achievement_place_table": 3.4285714285714284, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.32317611149379183, "replay/size": 901076.0, "replay/inserts": 1428.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 3.355223925507703e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.416069452836066e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.29769682884216, "timer/env.step_count": 1428.0, "timer/env.step_total": 21.318551301956177, "timer/env.step_frac": 0.07099139129963727, "timer/env.step_avg": 0.014928957494367071, "timer/env.step_min": 0.002975940704345703, "timer/env.step_max": 2.0080676078796387, "timer/replay.add_count": 1428.0, "timer/replay.add_total": 0.2991814613342285, "timer/replay.add_frac": 0.0009962829035773462, "timer/replay.add_avg": 0.0002095108272648659, "timer/replay.add_min": 7.367134094238281e-05, "timer/replay.add_max": 0.0034203529357910156, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021909713745117188, "timer/logger.write_frac": 7.295997930215516e-05, "timer/logger.write_avg": 0.021909713745117188, "timer/logger.write_min": 0.021909713745117188, "timer/logger.write_max": 0.021909713745117188, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003943443298339844, "timer/checkpoint.save_frac": 1.3131780030225975e-06, "timer/checkpoint.save_avg": 0.0003943443298339844, "timer/checkpoint.save_min": 0.0003943443298339844, "timer/checkpoint.save_max": 0.0003943443298339844, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1993823051452637, "timer/agent.save_frac": 0.003993977702162878, "timer/agent.save_avg": 1.1993823051452637, "timer/agent.save_min": 1.1993823051452637, "timer/agent.save_max": 1.1993823051452637, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.915496826171875e-05, "timer/replay.save_frac": 2.635883295063497e-07, "timer/replay.save_avg": 7.915496826171875e-05, "timer/replay.save_min": 7.915496826171875e-05, "timer/replay.save_max": 7.915496826171875e-05, "timer/agent.policy_count": 1428.0, "timer/agent.policy_total": 12.352838516235352, "timer/agent.policy_frac": 0.04113530888409039, "timer/agent.policy_avg": 0.008650447140220835, "timer/agent.policy_min": 0.0057756900787353516, "timer/agent.policy_max": 1.1937255859375, "timer/dataset_count": 714.0, "timer/dataset_total": 0.0628352165222168, "timer/dataset_frac": 0.0002092430850644532, "timer/dataset_avg": 8.800450493307675e-05, "timer/dataset_min": 6.270408630371094e-05, "timer/dataset_max": 0.0010080337524414062, "timer/agent.train_count": 714.0, "timer/agent.train_total": 265.59431743621826, "timer/agent.train_frac": 0.8844367447399922, "timer/agent.train_avg": 0.3719808367454037, "timer/agent.train_min": 0.3628239631652832, "timer/agent.train_max": 0.9210126399993896, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22039198875427246, "timer/agent.report_frac": 0.0007339116852430847, "timer/agent.report_avg": 0.22039198875427246, "timer/agent.report_min": 0.22039198875427246, "timer/agent.report_max": 0.22039198875427246, "fps": 4.75517500736439}
{"step": 901512, "episode/length": 382.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.04177545691906005}
{"step": 901668, "episode/length": 155.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.07051282051282051}
{"step": 901817, "episode/length": 148.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.09395973154362416}
{"step": 901971, "episode/length": 153.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.07142857142857142}
{"step": 902234, "episode/length": 262.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.900000043213367, "episode/reward_rate": 0.049429657794676805}
{"step": 902496, "episode/length": 261.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.100000001490116, "episode/reward_rate": 0.05343511450381679}
{"step": 902599, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.354095877033391, "train/action_min": 0.0, "train/action_std": 3.290468349848708, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03813465409082909, "train/actor_opt_grad_steps": 450390.0, "train/actor_opt_loss": -11.452854047082875, "train/adv_mag": 0.3907916241720931, "train/adv_max": 0.33690961236006595, "train/adv_mean": 0.002597545965216665, "train/adv_min": -0.34930306223973834, "train/adv_std": 0.04386143937502822, "train/cont_avg": 0.9947158604452054, "train/cont_loss_mean": 2.3088594017835557e-05, "train/cont_loss_std": 0.0006708030267458999, "train/cont_neg_acc": 0.9977168955215036, "train/cont_neg_loss": 0.0021432110868098, "train/cont_pos_acc": 0.9999999812204544, "train/cont_pos_loss": 1.0672920303502358e-05, "train/cont_pred": 0.9947141727356061, "train/cont_rate": 0.9947158604452054, "train/dyn_loss_mean": 5.508924699809453, "train/dyn_loss_std": 8.948365779772196, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9264956426947084, "train/extr_critic_critic_opt_grad_steps": 450390.0, "train/extr_critic_critic_opt_loss": 15481.615622324487, "train/extr_critic_mag": 12.045682462927413, "train/extr_critic_max": 12.045682462927413, "train/extr_critic_mean": 3.8369798235697288, "train/extr_critic_min": -0.3485857231976235, "train/extr_critic_std": 2.8975779618302435, "train/extr_return_normed_mag": 1.3739760575229174, "train/extr_return_normed_max": 1.3739760575229174, "train/extr_return_normed_mean": 0.40631755961947247, "train/extr_return_normed_min": -0.08639446028495489, "train/extr_return_normed_std": 0.31511143646011613, "train/extr_return_rate": 0.8680009000921902, "train/extr_return_raw_mag": 12.853407075960343, "train/extr_return_raw_max": 12.853407075960343, "train/extr_return_raw_mean": 3.8611044622447395, "train/extr_return_raw_min": -0.7179532655297893, "train/extr_return_raw_std": 2.928068247559952, "train/extr_reward_mag": 1.0753427792901862, "train/extr_reward_max": 1.0753427792901862, "train/extr_reward_mean": 0.06167678478850077, "train/extr_reward_min": -0.6211247689103427, "train/extr_reward_std": 0.23852937842068606, "train/image_loss_mean": 3.2558503428550614, "train/image_loss_std": 8.737026874333212, "train/model_loss_mean": 6.6191413696498085, "train/model_loss_std": 12.918019425379088, "train/model_opt_grad_norm": 21.236853403587865, "train/model_opt_grad_steps": 450024.0, "train/model_opt_loss": 18909.287162885274, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2842.4657534246576, "train/policy_entropy_mag": 2.6975672147045398, "train/policy_entropy_max": 2.6975672147045398, "train/policy_entropy_mean": 0.3755680600257769, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5762479689023267, "train/policy_logprob_mag": 7.438384310839927, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3753167454102268, "train/policy_logprob_min": -7.438384310839927, "train/policy_logprob_std": 1.007298761034665, "train/policy_randomness_mag": 0.9521228491443477, "train/policy_randomness_max": 0.9521228491443477, "train/policy_randomness_mean": 0.13255904339355964, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20339024587445062, "train/post_ent_mag": 55.5023639626699, "train/post_ent_max": 55.5023639626699, "train/post_ent_mean": 40.37991944404497, "train/post_ent_min": 19.36879991505244, "train/post_ent_std": 5.770193178359777, "train/prior_ent_mag": 76.68959076763832, "train/prior_ent_max": 76.68959076763832, "train/prior_ent_mean": 45.89766181005191, "train/prior_ent_min": 27.95936809174002, "train/prior_ent_std": 7.8235471738527895, "train/rep_loss_mean": 5.508924699809453, "train/rep_loss_std": 8.948365779772196, "train/reward_avg": 0.042896510982146, "train/reward_loss_mean": 0.05791315344506747, "train/reward_loss_std": 0.21188984443880107, "train/reward_max_data": 1.0273972668059885, "train/reward_max_pred": 1.026444820508565, "train/reward_neg_acc": 0.9938617511971356, "train/reward_neg_loss": 0.024272109420128064, "train/reward_pos_acc": 0.9872688781725217, "train/reward_pos_loss": 0.729321929689956, "train/reward_pred": 0.04235797676525704, "train/reward_rate": 0.04766427654109589, "stats/sum_log_reward": 12.100000381469727, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 3.8333333333333335, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 12.5, "stats/max_log_achievement_collect_wood": 11.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.3333333333333333, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 3.3333333333333335, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 1.6666666666666667, "stats/mean_log_entropy": 0.5739070127407709, "replay/size": 902536.0, "replay/inserts": 1460.0, "replay/samples": 11680.0, "replay/insert_wait_avg": 3.3037303245230896e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4473110029142196e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1534984111786, "timer/env.step_count": 1460.0, "timer/env.step_total": 17.74048948287964, "timer/env.step_frac": 0.05910472333917975, "timer/env.step_avg": 0.012151020193753177, "timer/env.step_min": 0.002943277359008789, "timer/env.step_max": 1.7478623390197754, "timer/replay.add_count": 1460.0, "timer/replay.add_total": 0.2632749080657959, "timer/replay.add_frac": 0.0008771342311830632, "timer/replay.add_avg": 0.00018032527949712047, "timer/replay.add_min": 7.82012939453125e-05, "timer/replay.add_max": 0.0014662742614746094, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03813290596008301, "timer/logger.write_frac": 0.0001270446826771446, "timer/logger.write_avg": 0.03813290596008301, "timer/logger.write_min": 0.03813290596008301, "timer/logger.write_max": 0.03813290596008301, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1460.0, "timer/agent.policy_total": 10.724687337875366, "timer/agent.policy_frac": 0.035730675786372734, "timer/agent.policy_avg": 0.007345676258818744, "timer/agent.policy_min": 0.00572657585144043, "timer/agent.policy_max": 0.017529010772705078, "timer/dataset_count": 730.0, "timer/dataset_total": 0.06348204612731934, "timer/dataset_frac": 0.0002114986047584081, "timer/dataset_avg": 8.696170702372511e-05, "timer/dataset_min": 6.580352783203125e-05, "timer/dataset_max": 0.00019741058349609375, "timer/agent.train_count": 730.0, "timer/agent.train_total": 270.6732635498047, "timer/agent.train_frac": 0.9017828044070001, "timer/agent.train_avg": 0.370785292533979, "timer/agent.train_min": 0.3637399673461914, "timer/agent.train_max": 0.3900129795074463, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22133612632751465, "timer/agent.report_frac": 0.0007374097836577854, "timer/agent.report_avg": 0.22133612632751465, "timer/agent.report_min": 0.22133612632751465, "timer/agent.report_max": 0.22133612632751465, "fps": 4.864107404629741}
{"step": 902683, "episode/length": 186.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.0748663101604278}
{"step": 902969, "episode/length": 285.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.05244755244755245}
{"step": 903026, "episode/length": 56.0, "episode/score": 8.099999971687794, "episode/sum_abs_reward": 9.900000028312206, "episode/reward_rate": 0.17543859649122806}
{"step": 903289, "episode/length": 262.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.057034220532319393}
{"step": 903519, "episode/length": 229.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.05652173913043478}
{"step": 903585, "episode/length": 65.0, "episode/score": 7.099999964237213, "episode/sum_abs_reward": 8.699999988079071, "episode/reward_rate": 0.12121212121212122}
{"step": 903743, "episode/length": 157.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.0759493670886076}
{"step": 903927, "episode/length": 183.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 8.899999991059303, "episode/reward_rate": 0.04891304347826087}
{"step": 903994, "episode/length": 66.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.13432835820895522}
{"step": 904037, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.347768864161532, "train/action_min": 0.0, "train/action_std": 3.2740115817164033, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03838952641252061, "train/actor_opt_grad_steps": 451110.0, "train/actor_opt_loss": -12.211439081900556, "train/adv_mag": 0.3818571128895585, "train/adv_max": 0.3363966360478334, "train/adv_mean": 0.002031183868612189, "train/adv_min": -0.33159180174411185, "train/adv_std": 0.04328302818704659, "train/cont_avg": 0.9945395026408451, "train/cont_loss_mean": 1.7990834634383324e-05, "train/cont_loss_std": 0.0005295117575645742, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0011292677546018406, "train/cont_pos_acc": 0.9999999874074694, "train/cont_pos_loss": 8.515874640525127e-06, "train/cont_pred": 0.9945394270856616, "train/cont_rate": 0.9945395026408451, "train/dyn_loss_mean": 5.619977830161511, "train/dyn_loss_std": 8.95747199528654, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8922909145623865, "train/extr_critic_critic_opt_grad_steps": 451110.0, "train/extr_critic_critic_opt_loss": 15598.209617077464, "train/extr_critic_mag": 12.033930321814308, "train/extr_critic_max": 12.033930321814308, "train/extr_critic_mean": 3.817324420096169, "train/extr_critic_min": -0.3821931372226124, "train/extr_critic_std": 2.949597610554225, "train/extr_return_normed_mag": 1.3847181696287343, "train/extr_return_normed_max": 1.3847181696287343, "train/extr_return_normed_mean": 0.40678654380247625, "train/extr_return_normed_min": -0.08263980712689145, "train/extr_return_normed_std": 0.32075687214522297, "train/extr_return_rate": 0.8581793291468016, "train/extr_return_raw_mag": 12.912700867988693, "train/extr_return_raw_max": 12.912700867988693, "train/extr_return_raw_mean": 3.8361583830605093, "train/extr_return_raw_min": -0.7062472474407142, "train/extr_return_raw_std": 2.9768468594886888, "train/extr_reward_mag": 1.072967421840614, "train/extr_reward_max": 1.072967421840614, "train/extr_reward_mean": 0.06019906028055809, "train/extr_reward_min": -0.5853208001230804, "train/extr_reward_std": 0.2362152633952423, "train/image_loss_mean": 3.361089911259396, "train/image_loss_std": 8.611609217146752, "train/model_loss_mean": 6.792782649187974, "train/model_loss_std": 12.79979598354286, "train/model_opt_grad_norm": 20.957815425496705, "train/model_opt_grad_steps": 450743.23943661974, "train/model_opt_loss": 20884.729368397886, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3098.5915492957747, "train/policy_entropy_mag": 2.7037645057893136, "train/policy_entropy_max": 2.7037645057893136, "train/policy_entropy_mean": 0.38223549156961306, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5807171812359716, "train/policy_logprob_mag": 7.438384351596026, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38221172316813135, "train/policy_logprob_min": -7.438384351596026, "train/policy_logprob_std": 1.0122373397921172, "train/policy_randomness_mag": 0.9543102207318158, "train/policy_randomness_max": 0.9543102207318158, "train/policy_randomness_mean": 0.13491235474045848, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20496768116111486, "train/post_ent_mag": 55.88311052993989, "train/post_ent_max": 55.88311052993989, "train/post_ent_mean": 40.45557817271058, "train/post_ent_min": 19.29417338841398, "train/post_ent_std": 5.844683606859664, "train/prior_ent_mag": 76.77830354932328, "train/prior_ent_max": 76.77830354932328, "train/prior_ent_mean": 46.07748724709094, "train/prior_ent_min": 27.970579335387324, "train/prior_ent_std": 7.817204347798522, "train/rep_loss_mean": 5.619977830161511, "train/rep_loss_std": 8.95747199528654, "train/reward_avg": 0.042201254070854524, "train/reward_loss_mean": 0.059688077321354775, "train/reward_loss_std": 0.21918123729631933, "train/reward_max_data": 1.0267605697604971, "train/reward_max_pred": 1.024904170506437, "train/reward_neg_acc": 0.9928312175710436, "train/reward_neg_loss": 0.026379794289003795, "train/reward_pos_acc": 0.9886659291428579, "train/reward_pos_loss": 0.7328135094172518, "train/reward_pred": 0.04172047133177099, "train/reward_rate": 0.047150088028169015, "stats/sum_log_reward": 10.544444613986546, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 1.8888888888888888, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.7777777777777777, "stats/max_log_achievement_collect_stone": 9.0, "stats/max_log_achievement_collect_wood": 10.555555555555555, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.5555555555555556, "stats/max_log_achievement_make_stone_sword": 0.8888888888888888, "stats/max_log_achievement_make_wood_pickaxe": 1.1111111111111112, "stats/max_log_achievement_make_wood_sword": 0.8888888888888888, "stats/max_log_achievement_place_furnace": 1.1111111111111112, "stats/max_log_achievement_place_plant": 1.7777777777777777, "stats/max_log_achievement_place_stone": 2.6666666666666665, "stats/max_log_achievement_place_table": 2.7777777777777777, "stats/max_log_achievement_wake_up": 0.8888888888888888, "stats/mean_log_entropy": 0.3322913207941585, "replay/size": 903974.0, "replay/inserts": 1438.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.305031958143635e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4162320586670091e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2152738571167, "timer/env.step_count": 1438.0, "timer/env.step_total": 22.01588010787964, "timer/env.step_frac": 0.07333364430471247, "timer/env.step_avg": 0.015310069616049818, "timer/env.step_min": 0.002867460250854492, "timer/env.step_max": 1.7283732891082764, "timer/replay.add_count": 1438.0, "timer/replay.add_total": 0.26401782035827637, "timer/replay.add_frac": 0.0008794283414238677, "timer/replay.add_avg": 0.00018360070956764698, "timer/replay.add_min": 7.319450378417969e-05, "timer/replay.add_max": 0.004092216491699219, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02383899688720703, "timer/logger.write_frac": 7.940634259185917e-05, "timer/logger.write_avg": 0.02383899688720703, "timer/logger.write_min": 0.02383899688720703, "timer/logger.write_max": 0.02383899688720703, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1438.0, "timer/agent.policy_total": 10.543627977371216, "timer/agent.policy_frac": 0.0351202250368824, "timer/agent.policy_avg": 0.00733214741124563, "timer/agent.policy_min": 0.005623340606689453, "timer/agent.policy_max": 0.04827737808227539, "timer/dataset_count": 719.0, "timer/dataset_total": 0.06228041648864746, "timer/dataset_frac": 0.0002074525246116857, "timer/dataset_avg": 8.662088524151247e-05, "timer/dataset_min": 6.532669067382812e-05, "timer/dataset_max": 0.0002262592315673828, "timer/agent.train_count": 719.0, "timer/agent.train_total": 266.6558949947357, "timer/agent.train_frac": 0.888215617975676, "timer/agent.train_avg": 0.37087050764219154, "timer/agent.train_min": 0.36262011528015137, "timer/agent.train_max": 0.38837289810180664, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21679973602294922, "timer/agent.report_frac": 0.0007221475884206079, "timer/agent.report_avg": 0.21679973602294922, "timer/agent.report_min": 0.21679973602294922, "timer/agent.report_max": 0.21679973602294922, "fps": 4.789816514529603}
{"step": 904223, "episode/length": 228.0, "episode/score": 13.099999979138374, "episode/sum_abs_reward": 15.30000002682209, "episode/reward_rate": 0.0611353711790393}
{"step": 904273, "episode/length": 49.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 6.299999997019768, "episode/reward_rate": 0.12}
{"step": 904376, "episode/length": 102.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 11.100000068545341, "episode/reward_rate": 0.10679611650485436}
{"step": 904657, "episode/length": 280.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.0498220640569395}
{"step": 904863, "episode/length": 205.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.700000047683716, "episode/reward_rate": 0.06310679611650485}
{"step": 905018, "episode/length": 154.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.09032258064516129}
{"step": 905285, "episode/length": 266.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.052434456928838954}
{"step": 905463, "episode/length": 177.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.06741573033707865}
{"step": 905464, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.354723612467448, "train/action_min": 0.0, "train/action_std": 3.268933501508501, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038894351183747254, "train/actor_opt_grad_steps": 451825.0, "train/actor_opt_loss": -12.422279289199246, "train/adv_mag": 0.4069589123957687, "train/adv_max": 0.3288795080863767, "train/adv_mean": 0.0018289763832702495, "train/adv_min": -0.3653311586628358, "train/adv_std": 0.04385503205574221, "train/cont_avg": 0.9947916666666666, "train/cont_loss_mean": 2.952650665092686e-05, "train/cont_loss_std": 0.0009014710579795033, "train/cont_neg_acc": 0.9976851857370801, "train/cont_neg_loss": 0.0027707601728746115, "train/cont_pos_acc": 0.9999999784761004, "train/cont_pos_loss": 1.3481502253319553e-05, "train/cont_pred": 0.994790204697185, "train/cont_rate": 0.9947916666666666, "train/dyn_loss_mean": 5.557311919000414, "train/dyn_loss_std": 8.871597256925371, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9117123459776243, "train/extr_critic_critic_opt_grad_steps": 451825.0, "train/extr_critic_critic_opt_loss": 15691.821885850695, "train/extr_critic_mag": 12.182343337270948, "train/extr_critic_max": 12.182343337270948, "train/extr_critic_mean": 3.8241264323393502, "train/extr_critic_min": -0.39653992652893066, "train/extr_critic_std": 2.9643163250552282, "train/extr_return_normed_mag": 1.381506202949418, "train/extr_return_normed_max": 1.381506202949418, "train/extr_return_normed_mean": 0.40670884773135185, "train/extr_return_normed_min": -0.0838766741928541, "train/extr_return_normed_std": 0.32075310746828717, "train/extr_return_rate": 0.8618833646178246, "train/extr_return_raw_mag": 12.931764324506124, "train/extr_return_raw_max": 12.931764324506124, "train/extr_return_raw_mean": 3.841199669573042, "train/extr_return_raw_min": -0.7342736936277814, "train/extr_return_raw_std": 2.991367760631773, "train/extr_reward_mag": 1.0682833459642198, "train/extr_reward_max": 1.0682833459642198, "train/extr_reward_mean": 0.061431272265811764, "train/extr_reward_min": -0.6094197813007567, "train/extr_reward_std": 0.2389954086393118, "train/image_loss_mean": 3.2548552503188453, "train/image_loss_std": 8.478489809566074, "train/model_loss_mean": 6.648351331551869, "train/model_loss_std": 12.616430838902792, "train/model_opt_grad_norm": 23.525133503807915, "train/model_opt_grad_steps": 451457.55555555556, "train/model_opt_loss": 12978.365431043836, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1944.4444444444443, "train/policy_entropy_mag": 2.7011064986387887, "train/policy_entropy_max": 2.7011064986387887, "train/policy_entropy_mean": 0.37937058115171063, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5753480022152265, "train/policy_logprob_mag": 7.438384281264411, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37897356620265377, "train/policy_logprob_min": -7.438384281264411, "train/policy_logprob_std": 1.0079397989643946, "train/policy_randomness_mag": 0.9533720571133826, "train/policy_randomness_max": 0.9533720571133826, "train/policy_randomness_mean": 0.13390116724703047, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20307259572048983, "train/post_ent_mag": 55.89598920610216, "train/post_ent_max": 55.89598920610216, "train/post_ent_mean": 40.47943449020386, "train/post_ent_min": 19.537756270832485, "train/post_ent_std": 5.8343943158785505, "train/prior_ent_mag": 76.7442962858412, "train/prior_ent_max": 76.7442962858412, "train/prior_ent_mean": 46.02636427349515, "train/prior_ent_min": 27.580605427424114, "train/prior_ent_std": 7.784468723667993, "train/rep_loss_mean": 5.557311919000414, "train/rep_loss_std": 8.871597256925371, "train/reward_avg": 0.04387885158778065, "train/reward_loss_mean": 0.05907948206489285, "train/reward_loss_std": 0.21216914885573918, "train/reward_max_data": 1.0263888951804903, "train/reward_max_pred": 1.0246918300787609, "train/reward_neg_acc": 0.9934106700950198, "train/reward_neg_loss": 0.02504079995883836, "train/reward_pos_acc": 0.9918753587537341, "train/reward_pos_loss": 0.7266816703809632, "train/reward_pred": 0.04334167960203356, "train/reward_rate": 0.048516167534722224, "stats/sum_log_reward": 11.100000262260437, "stats/max_log_achievement_collect_coal": 0.375, "stats/max_log_achievement_collect_drink": 2.125, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.625, "stats/max_log_achievement_collect_stone": 8.5, "stats/max_log_achievement_collect_wood": 13.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.375, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.5, "stats/max_log_achievement_make_wood_pickaxe": 1.25, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.75, "stats/max_log_achievement_place_plant": 1.625, "stats/max_log_achievement_place_stone": 2.875, "stats/max_log_achievement_place_table": 2.875, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.36904245242476463, "replay/size": 905401.0, "replay/inserts": 1427.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 3.3375259538421954e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4223607693280277e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.8178377151489, "timer/env.step_count": 1427.0, "timer/env.step_total": 23.057836055755615, "timer/env.step_frac": 0.07665049463452893, "timer/env.step_avg": 0.016158259324285645, "timer/env.step_min": 0.002852201461791992, "timer/env.step_max": 2.6751317977905273, "timer/replay.add_count": 1427.0, "timer/replay.add_total": 0.2877998352050781, "timer/replay.add_frac": 0.000956724632392319, "timer/replay.add_avg": 0.00020168173455156142, "timer/replay.add_min": 7.796287536621094e-05, "timer/replay.add_max": 0.005133152008056641, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022906780242919922, "timer/logger.write_frac": 7.614834418366793e-05, "timer/logger.write_avg": 0.022906780242919922, "timer/logger.write_min": 0.022906780242919922, "timer/logger.write_max": 0.022906780242919922, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0005509853363037109, "timer/checkpoint.save_frac": 1.8316245488921144e-06, "timer/checkpoint.save_avg": 0.0005509853363037109, "timer/checkpoint.save_min": 0.0005509853363037109, "timer/checkpoint.save_max": 0.0005509853363037109, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4335379600524902, "timer/agent.save_frac": 0.004765468600335925, "timer/agent.save_avg": 1.4335379600524902, "timer/agent.save_min": 1.4335379600524902, "timer/agent.save_max": 1.4335379600524902, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.940696716308594e-05, "timer/replay.save_frac": 2.972129839180194e-07, "timer/replay.save_avg": 8.940696716308594e-05, "timer/replay.save_min": 8.940696716308594e-05, "timer/replay.save_max": 8.940696716308594e-05, "timer/agent.policy_count": 1427.0, "timer/agent.policy_total": 11.817219495773315, "timer/agent.policy_frac": 0.03928363951263855, "timer/agent.policy_avg": 0.008281162926260207, "timer/agent.policy_min": 0.005706071853637695, "timer/agent.policy_max": 1.4258816242218018, "timer/dataset_count": 713.0, "timer/dataset_total": 0.06177115440368652, "timer/dataset_frac": 0.00020534405430498108, "timer/dataset_avg": 8.663556017347339e-05, "timer/dataset_min": 6.341934204101562e-05, "timer/dataset_max": 0.00020074844360351562, "timer/agent.train_count": 713.0, "timer/agent.train_total": 264.92200922966003, "timer/agent.train_frac": 0.8806725400390669, "timer/agent.train_avg": 0.37155962023795236, "timer/agent.train_min": 0.36316776275634766, "timer/agent.train_max": 0.8705847263336182, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21677279472351074, "timer/agent.report_frac": 0.0007206115048562303, "timer/agent.report_avg": 0.21677279472351074, "timer/agent.report_min": 0.21677279472351074, "timer/agent.report_max": 0.21677279472351074, "fps": 4.7436657648320075}
{"step": 905510, "episode/length": 46.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 4.900000013411045, "episode/reward_rate": 0.0851063829787234}
{"step": 905759, "episode/length": 248.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.5, "episode/reward_rate": 0.05622489959839357}
{"step": 905916, "episode/length": 156.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.05732484076433121}
{"step": 906105, "episode/length": 188.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.0582010582010582}
{"step": 906338, "episode/length": 232.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.060085836909871244}
{"step": 906521, "episode/length": 182.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.07650273224043716}
{"step": 906718, "episode/length": 196.0, "episode/score": 16.100000001490116, "episode/sum_abs_reward": 18.30000003427267, "episode/reward_rate": 0.08629441624365482}
{"step": 906795, "episode/length": 76.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 6.0999999940395355, "episode/reward_rate": 0.07792207792207792}
{"step": 906911, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.408079359266493, "train/action_min": 0.0, "train/action_std": 3.251205782095591, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038296864833682775, "train/actor_opt_grad_steps": 452545.0, "train/actor_opt_loss": -12.993763834238052, "train/adv_mag": 0.3879939851661523, "train/adv_max": 0.32137650230692494, "train/adv_mean": 0.0016609750422149874, "train/adv_min": -0.3481801628238625, "train/adv_std": 0.04376470080266396, "train/cont_avg": 0.9945475260416666, "train/cont_loss_mean": 4.2001076136660094e-05, "train/cont_loss_std": 0.0012896381968670785, "train/cont_neg_acc": 0.9982638888888888, "train/cont_neg_loss": 0.0037302058150627815, "train/cont_pos_acc": 0.999999985926681, "train/cont_pos_loss": 1.278512501162115e-05, "train/cont_pred": 0.9945504201783074, "train/cont_rate": 0.9945475260416666, "train/dyn_loss_mean": 5.46790196498235, "train/dyn_loss_std": 8.833759718471104, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9184014855159653, "train/extr_critic_critic_opt_grad_steps": 452545.0, "train/extr_critic_critic_opt_loss": 15446.400729709201, "train/extr_critic_mag": 12.169123358196682, "train/extr_critic_max": 12.169123358196682, "train/extr_critic_mean": 3.9144293698999615, "train/extr_critic_min": -0.37488920489947003, "train/extr_critic_std": 2.977150645520952, "train/extr_return_normed_mag": 1.3850151615010367, "train/extr_return_normed_max": 1.3850151615010367, "train/extr_return_normed_mean": 0.41658977833059097, "train/extr_return_normed_min": -0.07915903653742538, "train/extr_return_normed_std": 0.32311179778642124, "train/extr_return_rate": 0.8634856484002538, "train/extr_return_raw_mag": 12.93164481057061, "train/extr_return_raw_max": 12.93164481057061, "train/extr_return_raw_mean": 3.9298548731538983, "train/extr_return_raw_min": -0.6784826670255926, "train/extr_return_raw_std": 3.0036207967334323, "train/extr_reward_mag": 1.0776327815320756, "train/extr_reward_max": 1.0776327815320756, "train/extr_reward_mean": 0.0630176894677182, "train/extr_reward_min": -0.6429850227302976, "train/extr_reward_std": 0.24158848449587822, "train/image_loss_mean": 3.143710422847006, "train/image_loss_std": 8.238614737987518, "train/model_loss_mean": 6.484788676102956, "train/model_loss_std": 12.383918205897013, "train/model_opt_grad_norm": 23.905227263768513, "train/model_opt_grad_steps": 452177.0, "train/model_opt_loss": 8505.743401421441, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1319.4444444444443, "train/policy_entropy_mag": 2.6742195619477167, "train/policy_entropy_max": 2.6742195619477167, "train/policy_entropy_mean": 0.376401425856683, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5745385343001949, "train/policy_logprob_mag": 7.438384268018934, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37629967162178624, "train/policy_logprob_min": -7.438384268018934, "train/policy_logprob_std": 1.0065770687328444, "train/policy_randomness_mag": 0.9438821491267946, "train/policy_randomness_max": 0.9438821491267946, "train/policy_randomness_mean": 0.13285318368838894, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20278688934114245, "train/post_ent_mag": 56.2042949464586, "train/post_ent_max": 56.2042949464586, "train/post_ent_mean": 40.537426153818764, "train/post_ent_min": 19.550773633850945, "train/post_ent_std": 5.846406963136461, "train/prior_ent_mag": 76.72849877675374, "train/prior_ent_max": 76.72849877675374, "train/prior_ent_mean": 46.003878911336265, "train/prior_ent_min": 28.191025336583454, "train/prior_ent_std": 7.832160194714864, "train/rep_loss_mean": 5.46790196498235, "train/rep_loss_std": 8.833759718471104, "train/reward_avg": 0.044090440263971686, "train/reward_loss_mean": 0.06029513876678215, "train/reward_loss_std": 0.22452249916063416, "train/reward_max_data": 1.0305555628405676, "train/reward_max_pred": 1.0263799511724048, "train/reward_neg_acc": 0.9931409416927232, "train/reward_neg_loss": 0.026373419522618253, "train/reward_pos_acc": 0.9902764252490468, "train/reward_pos_loss": 0.7191891123851141, "train/reward_pred": 0.04385445978389018, "train/reward_rate": 0.04896375868055555, "stats/sum_log_reward": 9.975000023841858, "stats/max_log_achievement_collect_coal": 0.625, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.375, "stats/max_log_achievement_collect_stone": 8.125, "stats/max_log_achievement_collect_wood": 10.25, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 1.125, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_stone_pickaxe": 0.625, "stats/max_log_achievement_make_stone_sword": 0.625, "stats/max_log_achievement_make_wood_pickaxe": 0.875, "stats/max_log_achievement_make_wood_sword": 0.75, "stats/max_log_achievement_place_furnace": 1.125, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 2.0, "stats/max_log_achievement_place_table": 2.125, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.33391098864376545, "replay/size": 906848.0, "replay/inserts": 1447.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.2508628650130116e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4377150746340252e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.380845785141, "timer/env.step_count": 1447.0, "timer/env.step_total": 20.416173458099365, "timer/env.step_frac": 0.06796762757869995, "timer/env.step_avg": 0.014109311304837157, "timer/env.step_min": 0.0028285980224609375, "timer/env.step_max": 1.6559953689575195, "timer/replay.add_count": 1447.0, "timer/replay.add_total": 0.2685248851776123, "timer/replay.add_frac": 0.0008939480960436642, "timer/replay.add_avg": 0.0001855735212008378, "timer/replay.add_min": 7.319450378417969e-05, "timer/replay.add_max": 0.005809307098388672, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03072214126586914, "timer/logger.write_frac": 0.00010227729796008477, "timer/logger.write_avg": 0.03072214126586914, "timer/logger.write_min": 0.03072214126586914, "timer/logger.write_max": 0.03072214126586914, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1447.0, "timer/agent.policy_total": 10.606279611587524, "timer/agent.policy_frac": 0.03530944053328246, "timer/agent.policy_avg": 0.007329840782023168, "timer/agent.policy_min": 0.0056874752044677734, "timer/agent.policy_max": 0.019382715225219727, "timer/dataset_count": 724.0, "timer/dataset_total": 0.06405186653137207, "timer/dataset_frac": 0.00021323552227157534, "timer/dataset_avg": 8.84694289107349e-05, "timer/dataset_min": 6.508827209472656e-05, "timer/dataset_max": 0.0010030269622802734, "timer/agent.train_count": 724.0, "timer/agent.train_total": 268.3459119796753, "timer/agent.train_frac": 0.89335227510352, "timer/agent.train_avg": 0.37064352483380564, "timer/agent.train_min": 0.3635268211364746, "timer/agent.train_max": 0.38550806045532227, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21799659729003906, "timer/agent.report_frac": 0.0007257340151641012, "timer/agent.report_avg": 0.21799659729003906, "timer/agent.report_min": 0.21799659729003906, "timer/agent.report_max": 0.21799659729003906, "fps": 4.817158135968629}
{"step": 906965, "episode/length": 169.0, "episode/score": 12.099999964237213, "episode/sum_abs_reward": 14.700000002980232, "episode/reward_rate": 0.07647058823529412}
{"step": 907177, "episode/length": 211.0, "episode/score": 15.100000008940697, "episode/sum_abs_reward": 17.299999997019768, "episode/reward_rate": 0.08018867924528301}
{"step": 907326, "episode/length": 148.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.087248322147651}
{"step": 907581, "episode/length": 254.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.054901960784313725}
{"step": 907753, "episode/length": 171.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.900000013411045, "episode/reward_rate": 0.05232558139534884}
{"step": 908143, "episode/length": 389.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.035897435897435895}
{"step": 908316, "episode/length": 172.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.08092485549132948}
{"step": 908365, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.388954476134418, "train/action_min": 0.0, "train/action_std": 3.287653929566684, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038946552942060446, "train/actor_opt_grad_steps": 453270.0, "train/actor_opt_loss": -12.004414339588113, "train/adv_mag": 0.40281031780863463, "train/adv_max": 0.3142963629471113, "train/adv_mean": 0.002208177199575664, "train/adv_min": -0.3584001162280775, "train/adv_std": 0.04370169622236735, "train/cont_avg": 0.9950636772260274, "train/cont_loss_mean": 2.6878025823623648e-05, "train/cont_loss_std": 0.0008253111260797971, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.001410163723428553, "train/cont_pos_acc": 0.9999865595608541, "train/cont_pos_loss": 1.7150029891637132e-05, "train/cont_pred": 0.995059998884593, "train/cont_rate": 0.9950636772260274, "train/dyn_loss_mean": 5.545221714124287, "train/dyn_loss_std": 8.930952842921426, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9291234220543952, "train/extr_critic_critic_opt_grad_steps": 453270.0, "train/extr_critic_critic_opt_loss": 15593.67499197346, "train/extr_critic_mag": 12.109870179058754, "train/extr_critic_max": 12.109870179058754, "train/extr_critic_mean": 3.7664824740527427, "train/extr_critic_min": -0.39249424901727126, "train/extr_critic_std": 2.863841566320968, "train/extr_return_normed_mag": 1.385809401943259, "train/extr_return_normed_max": 1.385809401943259, "train/extr_return_normed_mean": 0.40348703608120956, "train/extr_return_normed_min": -0.077413327864384, "train/extr_return_normed_std": 0.31146665897271403, "train/extr_return_rate": 0.8689400063802118, "train/extr_return_raw_mag": 12.906474492321276, "train/extr_return_raw_max": 12.906474492321276, "train/extr_return_raw_mean": 3.786990035070132, "train/extr_return_raw_min": -0.6776629073979104, "train/extr_return_raw_std": 2.891619538607663, "train/extr_reward_mag": 1.074805445867042, "train/extr_reward_max": 1.074805445867042, "train/extr_reward_mean": 0.06142874000823661, "train/extr_reward_min": -0.61303944783668, "train/extr_reward_std": 0.23782839125966374, "train/image_loss_mean": 3.239841938018799, "train/image_loss_std": 8.467402366742697, "train/model_loss_mean": 6.624877746791055, "train/model_loss_std": 12.67338450967449, "train/model_opt_grad_norm": 23.823019367374787, "train/model_opt_grad_steps": 452902.0, "train/model_opt_loss": 16562.194402825342, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6475107898450876, "train/policy_entropy_max": 2.6475107898450876, "train/policy_entropy_mean": 0.3783846815971479, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5628381379663128, "train/policy_logprob_mag": 7.438384297775896, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3794681423739211, "train/policy_logprob_min": -7.438384297775896, "train/policy_logprob_std": 1.007204241132083, "train/policy_randomness_mag": 0.9344551269322225, "train/policy_randomness_max": 0.9344551269322225, "train/policy_randomness_mean": 0.13355318701838795, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19865716483495008, "train/post_ent_mag": 55.53663509839202, "train/post_ent_max": 55.53663509839202, "train/post_ent_mean": 40.217078640036384, "train/post_ent_min": 19.530228053053765, "train/post_ent_std": 5.788821912791631, "train/prior_ent_mag": 76.75972319302494, "train/prior_ent_max": 76.75972319302494, "train/prior_ent_mean": 45.7548286751525, "train/prior_ent_min": 27.88068622432343, "train/prior_ent_std": 7.868207604917761, "train/rep_loss_mean": 5.545221714124287, "train/rep_loss_std": 8.930952842921426, "train/reward_avg": 0.04206977669813045, "train/reward_loss_mean": 0.05787593350835042, "train/reward_loss_std": 0.2173451005596004, "train/reward_max_data": 1.035616446847785, "train/reward_max_pred": 1.0334935743514806, "train/reward_neg_acc": 0.9940117785375412, "train/reward_neg_loss": 0.025276453642506306, "train/reward_pos_acc": 0.9892411828041077, "train/reward_pos_loss": 0.7258168532423777, "train/reward_pred": 0.04172501820203376, "train/reward_rate": 0.04647367294520548, "stats/sum_log_reward": 12.385714530944824, "stats/max_log_achievement_collect_coal": 0.14285714285714285, "stats/max_log_achievement_collect_drink": 2.7142857142857144, "stats/max_log_achievement_collect_iron": 0.2857142857142857, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 19.571428571428573, "stats/max_log_achievement_collect_wood": 12.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 1.2857142857142858, "stats/max_log_achievement_make_stone_sword": 0.8571428571428571, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.8571428571428572, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 5.714285714285714, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.4576969934361322, "replay/size": 908302.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.269482839550244e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4343033794523762e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.29040241241455, "timer/env.step_count": 1454.0, "timer/env.step_total": 18.826492071151733, "timer/env.step_frac": 0.06269428499847857, "timer/env.step_avg": 0.01294806882472609, "timer/env.step_min": 0.002842426300048828, "timer/env.step_max": 1.7161457538604736, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.2693028450012207, "timer/replay.add_frac": 0.00089680803261692, "timer/replay.add_avg": 0.00018521516162394821, "timer/replay.add_min": 7.176399230957031e-05, "timer/replay.add_max": 0.005415678024291992, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023531436920166016, "timer/logger.write_frac": 7.836226776188563e-05, "timer/logger.write_avg": 0.023531436920166016, "timer/logger.write_min": 0.023531436920166016, "timer/logger.write_max": 0.023531436920166016, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 10.666781902313232, "timer/agent.policy_frac": 0.03552155452395587, "timer/agent.policy_avg": 0.007336163619197546, "timer/agent.policy_min": 0.0055959224700927734, "timer/agent.policy_max": 0.014821767807006836, "timer/dataset_count": 727.0, "timer/dataset_total": 0.06356024742126465, "timer/dataset_frac": 0.0002116626003050604, "timer/dataset_avg": 8.742812575139567e-05, "timer/dataset_min": 6.771087646484375e-05, "timer/dataset_max": 0.0001838207244873047, "timer/agent.train_count": 727.0, "timer/agent.train_total": 269.7745921611786, "timer/agent.train_frac": 0.8983790024386927, "timer/agent.train_avg": 0.3710792189287188, "timer/agent.train_min": 0.36343860626220703, "timer/agent.train_max": 0.38963961601257324, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22244644165039062, "timer/agent.report_frac": 0.0007407710664854545, "timer/agent.report_avg": 0.22244644165039062, "timer/agent.report_min": 0.22244644165039062, "timer/agent.report_max": 0.22244644165039062, "fps": 4.841882481603837}
{"step": 908514, "episode/length": 197.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.05555555555555555}
{"step": 908736, "episode/length": 221.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.06306306306306306}
{"step": 908949, "episode/length": 212.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.099999994039536, "episode/reward_rate": 0.06572769953051644}
{"step": 909131, "episode/length": 181.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.100000031292439, "episode/reward_rate": 0.06043956043956044}
{"step": 909400, "episode/length": 268.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.055762081784386616}
{"step": 909582, "episode/length": 181.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.08241758241758242}
{"step": 909756, "episode/length": 173.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.08620689655172414}
{"step": 909781, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.387818242462588, "train/action_min": 0.0, "train/action_std": 3.2460269256376884, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03792385373946647, "train/actor_opt_grad_steps": 453990.0, "train/actor_opt_loss": -12.784603023193252, "train/adv_mag": 0.3941356229110503, "train/adv_max": 0.33946081009549156, "train/adv_mean": 0.001582380726279258, "train/adv_min": -0.3372410609268806, "train/adv_std": 0.04268112925576492, "train/cont_avg": 0.994567011443662, "train/cont_loss_mean": 0.00010966720975962859, "train/cont_loss_std": 0.0033754809076920627, "train/cont_neg_acc": 0.9920634946352999, "train/cont_neg_loss": 0.014254074256061705, "train/cont_pos_acc": 0.9999999840494612, "train/cont_pos_loss": 1.795259049926321e-05, "train/cont_pred": 0.9945940022737207, "train/cont_rate": 0.994567011443662, "train/dyn_loss_mean": 5.682991148720325, "train/dyn_loss_std": 9.011017611328985, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9061609556977178, "train/extr_critic_critic_opt_grad_steps": 453990.0, "train/extr_critic_critic_opt_loss": 15341.774675396127, "train/extr_critic_mag": 12.091712038281937, "train/extr_critic_max": 12.091712038281937, "train/extr_critic_mean": 3.832087217921942, "train/extr_critic_min": -0.38674737869853704, "train/extr_critic_std": 2.938877438155698, "train/extr_return_normed_mag": 1.3752081629256128, "train/extr_return_normed_max": 1.3752081629256128, "train/extr_return_normed_mean": 0.40856516403211673, "train/extr_return_normed_min": -0.08173462732786864, "train/extr_return_normed_std": 0.31770954459485873, "train/extr_return_rate": 0.8612823259662574, "train/extr_return_raw_mag": 12.866107457120654, "train/extr_return_raw_max": 12.866107457120654, "train/extr_return_raw_mean": 3.846871903244878, "train/extr_return_raw_min": -0.7274343560279255, "train/extr_return_raw_std": 2.9643466069664752, "train/extr_reward_mag": 1.068494434088049, "train/extr_reward_max": 1.068494434088049, "train/extr_reward_mean": 0.062347115502810815, "train/extr_reward_min": -0.6098422970570309, "train/extr_reward_std": 0.24040995706135118, "train/image_loss_mean": 3.5145072298990168, "train/image_loss_std": 9.253643647046156, "train/model_loss_mean": 6.983766502058002, "train/model_loss_std": 13.446451428910377, "train/model_opt_grad_norm": 22.31249657483168, "train/model_opt_grad_steps": 453621.3943661972, "train/model_opt_loss": 18507.928628411093, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2676.056338028169, "train/policy_entropy_mag": 2.6778935177225462, "train/policy_entropy_max": 2.6778935177225462, "train/policy_entropy_mean": 0.39003477717789126, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.589417320741734, "train/policy_logprob_mag": 7.438384230707733, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.389967335781581, "train/policy_logprob_min": -7.438384230707733, "train/policy_logprob_std": 1.017900930324071, "train/policy_randomness_mag": 0.945178896608487, "train/policy_randomness_max": 0.945178896608487, "train/policy_randomness_mean": 0.13766515832132017, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2080384480281615, "train/post_ent_mag": 55.277448251213826, "train/post_ent_max": 55.277448251213826, "train/post_ent_mean": 40.37250411342567, "train/post_ent_min": 19.58378181994801, "train/post_ent_std": 5.882653478165747, "train/prior_ent_mag": 76.53711592983193, "train/prior_ent_max": 76.53711592983193, "train/prior_ent_mean": 46.057528106259625, "train/prior_ent_min": 27.652708187909194, "train/prior_ent_std": 7.870067253918715, "train/rep_loss_mean": 5.682991148720325, "train/rep_loss_std": 9.011017611328985, "train/reward_avg": 0.04415437914955784, "train/reward_loss_mean": 0.05935497041529333, "train/reward_loss_std": 0.21716276146996188, "train/reward_max_data": 1.0295774718405495, "train/reward_max_pred": 1.0280285200602572, "train/reward_neg_acc": 0.9935920129359608, "train/reward_neg_loss": 0.02534589558367578, "train/reward_pos_acc": 0.9919370312086293, "train/reward_pos_loss": 0.7187838932158241, "train/reward_pred": 0.04377274296548165, "train/reward_rate": 0.04900693221830986, "stats/sum_log_reward": 12.528571810041155, "stats/max_log_achievement_collect_coal": 1.4285714285714286, "stats/max_log_achievement_collect_drink": 3.142857142857143, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 15.0, "stats/max_log_achievement_collect_wood": 11.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.7142857142857142, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 1.2857142857142858, "stats/max_log_achievement_make_stone_sword": 0.5714285714285714, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 3.857142857142857, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3498226489339556, "replay/size": 909718.0, "replay/inserts": 1416.0, "replay/samples": 11328.0, "replay/insert_wait_avg": 3.371871797378454e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3721906869424938e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2279739379883, "timer/env.step_count": 1416.0, "timer/env.step_total": 21.553531408309937, "timer/env.step_frac": 0.0717905501129678, "timer/env.step_avg": 0.015221420486094588, "timer/env.step_min": 0.002902984619140625, "timer/env.step_max": 2.658891201019287, "timer/replay.add_count": 1416.0, "timer/replay.add_total": 0.2509932518005371, "timer/replay.add_frac": 0.0008360088785476714, "timer/replay.add_avg": 0.00017725512132806294, "timer/replay.add_min": 6.961822509765625e-05, "timer/replay.add_max": 0.004326820373535156, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02746891975402832, "timer/logger.write_frac": 9.1493538705697e-05, "timer/logger.write_avg": 0.02746891975402832, "timer/logger.write_min": 0.02746891975402832, "timer/logger.write_max": 0.02746891975402832, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00038313865661621094, "timer/checkpoint.save_frac": 1.2761590853467497e-06, "timer/checkpoint.save_avg": 0.00038313865661621094, "timer/checkpoint.save_min": 0.00038313865661621094, "timer/checkpoint.save_max": 0.00038313865661621094, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1898884773254395, "timer/agent.save_frac": 0.0039632831735100385, "timer/agent.save_avg": 1.1898884773254395, "timer/agent.save_min": 1.1898884773254395, "timer/agent.save_max": 1.1898884773254395, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.988380432128906e-05, "timer/replay.save_frac": 2.993851743470595e-07, "timer/replay.save_avg": 8.988380432128906e-05, "timer/replay.save_min": 8.988380432128906e-05, "timer/replay.save_max": 8.988380432128906e-05, "timer/agent.policy_count": 1416.0, "timer/agent.policy_total": 11.514750719070435, "timer/agent.policy_frac": 0.038353357177332154, "timer/agent.policy_avg": 0.008131886101038443, "timer/agent.policy_min": 0.005703449249267578, "timer/agent.policy_max": 1.1902434825897217, "timer/dataset_count": 708.0, "timer/dataset_total": 0.0600893497467041, "timer/dataset_frac": 0.0002001457391146219, "timer/dataset_avg": 8.487196291907359e-05, "timer/dataset_min": 6.270408630371094e-05, "timer/dataset_max": 0.000156402587890625, "timer/agent.train_count": 708.0, "timer/agent.train_total": 266.1697916984558, "timer/agent.train_frac": 0.8865589312254856, "timer/agent.train_avg": 0.3759460334723952, "timer/agent.train_min": 0.36284756660461426, "timer/agent.train_max": 2.8565709590911865, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2218170166015625, "timer/agent.report_frac": 0.0007388286097796421, "timer/agent.report_avg": 0.2218170166015625, "timer/agent.report_min": 0.2218170166015625, "timer/agent.report_max": 0.2218170166015625, "fps": 4.716321535833692}
{"step": 909967, "episode/length": 210.0, "episode/score": 9.099999971687794, "episode/sum_abs_reward": 11.500000037252903, "episode/reward_rate": 0.052132701421800945}
{"step": 910157, "episode/length": 189.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.07894736842105263}
{"step": 910413, "episode/length": 255.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 15.100000008940697, "episode/reward_rate": 0.0546875}
{"step": 910574, "episode/length": 160.0, "episode/score": 11.099999964237213, "episode/sum_abs_reward": 13.700000047683716, "episode/reward_rate": 0.08074534161490683}
{"step": 910792, "episode/length": 217.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.06880733944954129}
{"step": 910991, "episode/length": 198.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.07537688442211055}
{"step": 911191, "episode/length": 199.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.500000044703484, "episode/reward_rate": 0.06}
{"step": 911231, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.387172275119358, "train/action_min": 0.0, "train/action_std": 3.2125428517659507, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03912072815001011, "train/actor_opt_grad_steps": 454705.0, "train/actor_opt_loss": -12.08956592116091, "train/adv_mag": 0.4177635999189483, "train/adv_max": 0.3648575734761026, "train/adv_mean": 0.0019417906289365622, "train/adv_min": -0.35058256466355586, "train/adv_std": 0.04424002533778548, "train/cont_avg": 0.99462890625, "train/cont_loss_mean": 2.8521618596677456e-05, "train/cont_loss_std": 0.0008473280491203797, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.004434043512756484, "train/cont_pos_acc": 0.999986346397135, "train/cont_pos_loss": 1.9685248836479968e-05, "train/cont_pred": 0.9946199407180151, "train/cont_rate": 0.99462890625, "train/dyn_loss_mean": 5.472628447744581, "train/dyn_loss_std": 8.861308329635197, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.927234884765413, "train/extr_critic_critic_opt_grad_steps": 454705.0, "train/extr_critic_critic_opt_loss": 15531.559380425348, "train/extr_critic_mag": 12.186719245380825, "train/extr_critic_max": 12.186719245380825, "train/extr_critic_mean": 3.892597049474716, "train/extr_critic_min": -0.37923094630241394, "train/extr_critic_std": 2.940617667304145, "train/extr_return_normed_mag": 1.3945867932505078, "train/extr_return_normed_max": 1.3945867932505078, "train/extr_return_normed_mean": 0.4152980306082302, "train/extr_return_normed_min": -0.08051733124173349, "train/extr_return_normed_std": 0.3184251435514953, "train/extr_return_rate": 0.8687048388852013, "train/extr_return_raw_mag": 13.049800316492716, "train/extr_return_raw_max": 13.049800316492716, "train/extr_return_raw_mean": 3.9106990562544928, "train/extr_return_raw_min": -0.7168479437629381, "train/extr_return_raw_std": 2.971784465842777, "train/extr_reward_mag": 1.070609387424257, "train/extr_reward_max": 1.070609387424257, "train/extr_reward_mean": 0.06422882314978375, "train/extr_reward_min": -0.6318677912155787, "train/extr_reward_std": 0.24336729302174515, "train/image_loss_mean": 3.060735676023695, "train/image_loss_std": 8.18293140331904, "train/model_loss_mean": 6.402881013022529, "train/model_loss_std": 12.352089444796244, "train/model_opt_grad_norm": 22.08233512772454, "train/model_opt_grad_steps": 454335.8333333333, "train/model_opt_loss": 16630.132500542535, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2604.1666666666665, "train/policy_entropy_mag": 2.671683179007636, "train/policy_entropy_max": 2.671683179007636, "train/policy_entropy_mean": 0.3742929388665491, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5757860127422545, "train/policy_logprob_mag": 7.438384261396196, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3754429821338918, "train/policy_logprob_min": -7.438384261396196, "train/policy_logprob_std": 1.0077045990361109, "train/policy_randomness_mag": 0.942986917992433, "train/policy_randomness_max": 0.942986917992433, "train/policy_randomness_mean": 0.13210898327330747, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20322719392263228, "train/post_ent_mag": 55.12983179092407, "train/post_ent_max": 55.12983179092407, "train/post_ent_mean": 40.17756854163276, "train/post_ent_min": 19.675151718987358, "train/post_ent_std": 5.722142722871569, "train/prior_ent_mag": 76.61681079864502, "train/prior_ent_max": 76.61681079864502, "train/prior_ent_mean": 45.676665200127495, "train/prior_ent_min": 28.174836105770535, "train/prior_ent_std": 7.76154002878401, "train/rep_loss_mean": 5.472628447744581, "train/rep_loss_std": 8.861308329635197, "train/reward_avg": 0.04293619722334875, "train/reward_loss_mean": 0.05853975877269275, "train/reward_loss_std": 0.22025389203594792, "train/reward_max_data": 1.036111119720671, "train/reward_max_pred": 1.037046213944753, "train/reward_neg_acc": 0.9938008594844077, "train/reward_neg_loss": 0.02514903350836701, "train/reward_pos_acc": 0.990368016064167, "train/reward_pos_loss": 0.724036257300112, "train/reward_pred": 0.04258013361444076, "train/reward_rate": 0.047810872395833336, "stats/sum_log_reward": 12.242857388087682, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 4.428571428571429, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 12.142857142857142, "stats/max_log_achievement_collect_wood": 13.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.4285714285714286, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 1.2857142857142858, "stats/max_log_achievement_make_stone_sword": 0.8571428571428571, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.4285714285714286, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 2.857142857142857, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.40076397146497456, "replay/size": 911168.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.406097149026805e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.300655562302162e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.003342628479, "timer/env.step_count": 1450.0, "timer/env.step_total": 18.831451654434204, "timer/env.step_frac": 0.0627708061165001, "timer/env.step_avg": 0.01298720803754083, "timer/env.step_min": 0.002884387969970703, "timer/env.step_max": 1.7009758949279785, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.24896979331970215, "timer/replay.add_frac": 0.0008298900643517954, "timer/replay.add_avg": 0.00017170330573772563, "timer/replay.add_min": 6.318092346191406e-05, "timer/replay.add_max": 0.0033164024353027344, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028865337371826172, "timer/logger.write_frac": 9.621671918360158e-05, "timer/logger.write_avg": 0.028865337371826172, "timer/logger.write_min": 0.028865337371826172, "timer/logger.write_max": 0.028865337371826172, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 10.56522250175476, "timer/agent.policy_frac": 0.035217015947847694, "timer/agent.policy_avg": 0.007286360346037766, "timer/agent.policy_min": 0.005680084228515625, "timer/agent.policy_max": 0.01940131187438965, "timer/dataset_count": 725.0, "timer/dataset_total": 0.059221506118774414, "timer/dataset_frac": 0.00019740282091494461, "timer/dataset_avg": 8.168483602589574e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.00019693374633789062, "timer/agent.train_count": 725.0, "timer/agent.train_total": 269.611629486084, "timer/agent.train_frac": 0.8986954182706164, "timer/agent.train_avg": 0.3718781096359779, "timer/agent.train_min": 0.3639965057373047, "timer/agent.train_max": 0.3854207992553711, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2193312644958496, "timer/agent.report_frac": 0.0007310960690443611, "timer/agent.report_avg": 0.2193312644958496, "timer/agent.report_min": 0.2193312644958496, "timer/agent.report_max": 0.2193312644958496, "fps": 4.833217816199776}
{"step": 911355, "episode/length": 163.0, "episode/score": 12.099999964237213, "episode/sum_abs_reward": 14.5, "episode/reward_rate": 0.07926829268292683}
{"step": 911510, "episode/length": 154.0, "episode/score": 13.100000016391277, "episode/sum_abs_reward": 14.700000040233135, "episode/reward_rate": 0.09032258064516129}
{"step": 911740, "episode/length": 229.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.06521739130434782}
{"step": 911964, "episode/length": 223.0, "episode/score": 12.100000031292439, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.0625}
{"step": 912166, "episode/length": 201.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.054455445544554455}
{"step": 912375, "episode/length": 208.0, "episode/score": 8.099999994039536, "episode/sum_abs_reward": 10.500000059604645, "episode/reward_rate": 0.04784688995215311}
{"step": 912650, "episode/length": 274.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.05090909090909091}
{"step": 912681, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.379966422303082, "train/action_min": 0.0, "train/action_std": 3.27951590982202, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03814866689786519, "train/actor_opt_grad_steps": 455430.0, "train/actor_opt_loss": -11.241813504532592, "train/adv_mag": 0.410846937805006, "train/adv_max": 0.32951812262404456, "train/adv_mean": 0.0018860431758446494, "train/adv_min": -0.3712196744059863, "train/adv_std": 0.04269175001815574, "train/cont_avg": 0.9952643407534246, "train/cont_loss_mean": 0.0001386511641082463, "train/cont_loss_std": 0.0043679284438935175, "train/cont_neg_acc": 0.9885416668322351, "train/cont_neg_loss": 0.02850834813192973, "train/cont_pos_acc": 0.9999999795874505, "train/cont_pos_loss": 8.704958297008887e-06, "train/cont_pred": 0.9952905463845763, "train/cont_rate": 0.9952643407534246, "train/dyn_loss_mean": 5.5865418225118555, "train/dyn_loss_std": 8.940732341923125, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9358361592031506, "train/extr_critic_critic_opt_grad_steps": 455430.0, "train/extr_critic_critic_opt_loss": 15462.49406035959, "train/extr_critic_mag": 12.056748677606452, "train/extr_critic_max": 12.056748677606452, "train/extr_critic_mean": 3.732707150994915, "train/extr_critic_min": -0.35580695818548336, "train/extr_critic_std": 2.8587341177953434, "train/extr_return_normed_mag": 1.3912229537963867, "train/extr_return_normed_max": 1.3912229537963867, "train/extr_return_normed_mean": 0.40170079143079995, "train/extr_return_normed_min": -0.07845132471355673, "train/extr_return_normed_std": 0.3111062523436873, "train/extr_return_rate": 0.8632322435509668, "train/extr_return_raw_mag": 12.913505436622934, "train/extr_return_raw_max": 12.913505436622934, "train/extr_return_raw_mean": 3.750150095926572, "train/extr_return_raw_min": -0.6954847214973137, "train/extr_return_raw_std": 2.8811463623830718, "train/extr_reward_mag": 1.0708452642780462, "train/extr_reward_max": 1.0708452642780462, "train/extr_reward_mean": 0.06183540795559753, "train/extr_reward_min": -0.5725355589226501, "train/extr_reward_std": 0.23849941606390967, "train/image_loss_mean": 3.320748423876828, "train/image_loss_std": 8.690180366986418, "train/model_loss_mean": 6.73098441346051, "train/model_loss_std": 12.826167276460831, "train/model_opt_grad_norm": 24.39814998678965, "train/model_opt_grad_steps": 455059.2191780822, "train/model_opt_loss": 10310.551028735017, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1523.972602739726, "train/policy_entropy_mag": 2.692058896365231, "train/policy_entropy_max": 2.692058896365231, "train/policy_entropy_mean": 0.390309187443289, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5926838064030425, "train/policy_logprob_mag": 7.438384297775896, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3900189234377587, "train/policy_logprob_min": -7.438384297775896, "train/policy_logprob_std": 1.0173238638329178, "train/policy_randomness_mag": 0.9501786485110244, "train/policy_randomness_max": 0.9501786485110244, "train/policy_randomness_mean": 0.1377620137717626, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20919137580754005, "train/post_ent_mag": 55.36955721084386, "train/post_ent_max": 55.36955721084386, "train/post_ent_mean": 40.42786104385167, "train/post_ent_min": 19.123580148775282, "train/post_ent_std": 5.881965310606238, "train/prior_ent_mag": 76.73644392457727, "train/prior_ent_max": 76.73644392457727, "train/prior_ent_mean": 45.99688501227392, "train/prior_ent_min": 28.08736484997893, "train/prior_ent_std": 7.752894891451483, "train/rep_loss_mean": 5.5865418225118555, "train/rep_loss_std": 8.940732341923125, "train/reward_avg": 0.04415266476061246, "train/reward_loss_mean": 0.058172230544972094, "train/reward_loss_std": 0.21877215210705586, "train/reward_max_data": 1.028767130146288, "train/reward_max_pred": 1.02954929495511, "train/reward_neg_acc": 0.9934416739907983, "train/reward_neg_loss": 0.024409522404511497, "train/reward_pos_acc": 0.9881276594449396, "train/reward_pos_loss": 0.7280177833282784, "train/reward_pred": 0.043966070557497954, "train/reward_rate": 0.048279644691780824, "stats/sum_log_reward": 11.81428609575544, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 3.2857142857142856, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 11.857142857142858, "stats/max_log_achievement_collect_wood": 13.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.8571428571428572, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.42857142857142855, "stats/max_log_achievement_make_stone_sword": 0.7142857142857143, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 3.142857142857143, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.36370772974831717, "replay/size": 912618.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.3993556581694505e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3061638536124395e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.29719829559326, "timer/env.step_count": 1450.0, "timer/env.step_total": 18.809349060058594, "timer/env.step_frac": 0.0626357793772817, "timer/env.step_avg": 0.012971964869005927, "timer/env.step_min": 0.002701282501220703, "timer/env.step_max": 1.657261610031128, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.26805853843688965, "timer/replay.add_frac": 0.0008926441537194432, "timer/replay.add_avg": 0.0001848679575426825, "timer/replay.add_min": 6.508827209472656e-05, "timer/replay.add_max": 0.0042934417724609375, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02316880226135254, "timer/logger.write_frac": 7.715290849482605e-05, "timer/logger.write_avg": 0.02316880226135254, "timer/logger.write_min": 0.02316880226135254, "timer/logger.write_max": 0.02316880226135254, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 10.722581624984741, "timer/agent.policy_frac": 0.03570656564844178, "timer/agent.policy_avg": 0.007394883879299822, "timer/agent.policy_min": 0.005693912506103516, "timer/agent.policy_max": 0.017612695693969727, "timer/dataset_count": 725.0, "timer/dataset_total": 0.05848979949951172, "timer/dataset_frac": 0.00019477304427575152, "timer/dataset_avg": 8.067558551656788e-05, "timer/dataset_min": 6.246566772460938e-05, "timer/dataset_max": 0.0001590251922607422, "timer/agent.train_count": 725.0, "timer/agent.train_total": 269.75318694114685, "timer/agent.train_frac": 0.898287391531436, "timer/agent.train_avg": 0.37207336129813356, "timer/agent.train_min": 0.36510443687438965, "timer/agent.train_max": 0.3858506679534912, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21915054321289062, "timer/agent.report_frac": 0.0007297788472777322, "timer/agent.report_avg": 0.21915054321289062, "timer/agent.report_min": 0.21915054321289062, "timer/agent.report_max": 0.21915054321289062, "fps": 4.828468100621167}
{"step": 912846, "episode/length": 195.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.0663265306122449}
{"step": 913030, "episode/length": 183.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.08152173913043478}
{"step": 913199, "episode/length": 168.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 11.100000031292439, "episode/reward_rate": 0.05917159763313609}
{"step": 913419, "episode/length": 219.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 15.900000013411045, "episode/reward_rate": 0.06818181818181818}
{"step": 913654, "episode/length": 234.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.06382978723404255}
{"step": 913892, "episode/length": 237.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.06722689075630252}
{"step": 914113, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.390950807383363, "train/action_min": 0.0, "train/action_std": 3.267501085576877, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03912569913016239, "train/actor_opt_grad_steps": 456150.0, "train/actor_opt_loss": -10.730843187217982, "train/adv_mag": 0.4043688354357867, "train/adv_max": 0.34666631717077445, "train/adv_mean": 0.0026025132845487104, "train/adv_min": -0.360239746075281, "train/adv_std": 0.04358302974994754, "train/cont_avg": 0.9948833626760564, "train/cont_loss_mean": 1.6210650198039454e-05, "train/cont_loss_std": 0.00046142075575477054, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 7.501444961793676e-05, "train/cont_pos_acc": 0.9999999798519511, "train/cont_pos_loss": 1.5945308729154912e-05, "train/cont_pred": 0.9948693547450321, "train/cont_rate": 0.9948833626760564, "train/dyn_loss_mean": 5.4186245286968395, "train/dyn_loss_std": 8.83079340760137, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8962024500672247, "train/extr_critic_critic_opt_grad_steps": 456150.0, "train/extr_critic_critic_opt_loss": 15518.394008582747, "train/extr_critic_mag": 12.09881842975885, "train/extr_critic_max": 12.09881842975885, "train/extr_critic_mean": 3.767234406001131, "train/extr_critic_min": -0.390342460551732, "train/extr_critic_std": 2.9118650295365023, "train/extr_return_normed_mag": 1.3894016356535361, "train/extr_return_normed_max": 1.3894016356535361, "train/extr_return_normed_mean": 0.40372389932753333, "train/extr_return_normed_min": -0.08368088955610571, "train/extr_return_normed_std": 0.31678119028957796, "train/extr_return_rate": 0.8559410303411349, "train/extr_return_raw_mag": 12.94654737391942, "train/extr_return_raw_max": 12.94654737391942, "train/extr_return_raw_mean": 3.7913958086094386, "train/extr_return_raw_min": -0.7360627525289294, "train/extr_return_raw_std": 2.942914620251723, "train/extr_reward_mag": 1.067010825788471, "train/extr_reward_max": 1.067010825788471, "train/extr_reward_mean": 0.062327200940377275, "train/extr_reward_min": -0.6165422721647881, "train/extr_reward_std": 0.2399804434725936, "train/image_loss_mean": 3.2180709268005803, "train/image_loss_std": 8.583696620565066, "train/model_loss_mean": 6.526502071971625, "train/model_loss_std": 12.687220157032282, "train/model_opt_grad_norm": 20.634543096515493, "train/model_opt_grad_steps": 455779.0, "train/model_opt_loss": 11365.403966769367, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1742.9577464788733, "train/policy_entropy_mag": 2.7057985990819797, "train/policy_entropy_max": 2.7057985990819797, "train/policy_entropy_mean": 0.37761454766904806, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5776957525333888, "train/policy_logprob_mag": 7.438384297867896, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37776427243796873, "train/policy_logprob_min": -7.438384297867896, "train/policy_logprob_std": 1.0087893344986607, "train/policy_randomness_mag": 0.9550281637151476, "train/policy_randomness_max": 0.9550281637151476, "train/policy_randomness_mean": 0.13328136524683992, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20390124744932417, "train/post_ent_mag": 55.27599254124601, "train/post_ent_max": 55.27599254124601, "train/post_ent_mean": 40.54947640862263, "train/post_ent_min": 19.673388924397212, "train/post_ent_std": 5.7828522870238395, "train/prior_ent_mag": 76.72492003105056, "train/prior_ent_max": 76.72492003105056, "train/prior_ent_mean": 45.952555804185465, "train/prior_ent_min": 27.396059331759602, "train/prior_ent_std": 7.789957509913915, "train/rep_loss_mean": 5.4186245286968395, "train/rep_loss_std": 8.83079340760137, "train/reward_avg": 0.04219162584820264, "train/reward_loss_mean": 0.0572403238587816, "train/reward_loss_std": 0.21639663169921283, "train/reward_max_data": 1.025352118720471, "train/reward_max_pred": 1.0209925779154603, "train/reward_neg_acc": 0.9939658809715594, "train/reward_neg_loss": 0.024408408689876676, "train/reward_pos_acc": 0.9878607434286198, "train/reward_pos_loss": 0.7289111446326887, "train/reward_pred": 0.041859176954333215, "train/reward_rate": 0.04665492957746479, "stats/sum_log_reward": 13.100000222524008, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 2.6666666666666665, "stats/max_log_achievement_collect_iron": 0.3333333333333333, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 12.666666666666666, "stats/max_log_achievement_collect_wood": 10.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.3333333333333333, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 0.5, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 2.5, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.36309125522772473, "replay/size": 914050.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.476882114090733e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3143406899947694e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0080144405365, "timer/env.step_count": 1432.0, "timer/env.step_total": 20.221989631652832, "timer/env.step_frac": 0.06740483139879905, "timer/env.step_avg": 0.01412150113942237, "timer/env.step_min": 0.003013134002685547, "timer/env.step_max": 2.520488977432251, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.2835679054260254, "timer/replay.add_frac": 0.0009452011005600331, "timer/replay.add_avg": 0.00019802228032543673, "timer/replay.add_min": 6.175041198730469e-05, "timer/replay.add_max": 0.005202293395996094, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02102041244506836, "timer/logger.write_frac": 7.006616967972614e-05, "timer/logger.write_avg": 0.02102041244506836, "timer/logger.write_min": 0.02102041244506836, "timer/logger.write_max": 0.02102041244506836, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002281665802001953, "timer/checkpoint.save_frac": 7.605349497935476e-07, "timer/checkpoint.save_avg": 0.0002281665802001953, "timer/checkpoint.save_min": 0.0002281665802001953, "timer/checkpoint.save_max": 0.0002281665802001953, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2373998165130615, "timer/agent.save_frac": 0.00412455586835105, "timer/agent.save_avg": 1.2373998165130615, "timer/agent.save_min": 1.2373998165130615, "timer/agent.save_max": 1.2373998165130615, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.128715515136719e-05, "timer/replay.save_frac": 2.376175026000739e-07, "timer/replay.save_avg": 7.128715515136719e-05, "timer/replay.save_min": 7.128715515136719e-05, "timer/replay.save_max": 7.128715515136719e-05, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 11.851200819015503, "timer/agent.policy_frac": 0.039502947416641385, "timer/agent.policy_avg": 0.008275978225569485, "timer/agent.policy_min": 0.005841255187988281, "timer/agent.policy_max": 1.2326767444610596, "timer/dataset_count": 716.0, "timer/dataset_total": 0.05958223342895508, "timer/dataset_frac": 0.00019860213914640155, "timer/dataset_avg": 8.321540981697637e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.0001628398895263672, "timer/agent.train_count": 716.0, "timer/agent.train_total": 266.9130094051361, "timer/agent.train_frac": 0.889686263558269, "timer/agent.train_avg": 0.3727835326887376, "timer/agent.train_min": 0.3656504154205322, "timer/agent.train_max": 0.8884899616241455, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21992182731628418, "timer/agent.report_frac": 0.0007330531743506942, "timer/agent.report_avg": 0.21992182731628418, "timer/agent.report_min": 0.21992182731628418, "timer/agent.report_max": 0.21992182731628418, "fps": 4.773114192639264}
{"step": 914140, "episode/length": 247.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.700000047683716, "episode/reward_rate": 0.06048387096774194}
{"step": 914407, "episode/length": 266.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 16.30000003427267, "episode/reward_rate": 0.052434456928838954}
{"step": 914628, "episode/length": 220.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.07239819004524888}
{"step": 914819, "episode/length": 190.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.05759162303664921}
{"step": 915013, "episode/length": 193.0, "episode/score": 13.100000016391277, "episode/sum_abs_reward": 14.30000003427267, "episode/reward_rate": 0.07216494845360824}
{"step": 915223, "episode/length": 209.0, "episode/score": 13.099999994039536, "episode/sum_abs_reward": 15.300000011920929, "episode/reward_rate": 0.07142857142857142}
{"step": 915520, "episode/length": 296.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.04713804713804714}
{"step": 915557, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.3682607014973955, "train/action_min": 0.0, "train/action_std": 3.2220450010564594, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03898951594924761, "train/actor_opt_grad_steps": 456865.0, "train/actor_opt_loss": -12.893942835430304, "train/adv_mag": 0.40558697117699516, "train/adv_max": 0.3436376303434372, "train/adv_mean": 0.0016408885250914157, "train/adv_min": -0.3545904869420661, "train/adv_std": 0.043177534360438585, "train/cont_avg": 0.9952799479166666, "train/cont_loss_mean": 0.00010888934608773344, "train/cont_loss_std": 0.0034521199597258422, "train/cont_neg_acc": 0.9918981492519379, "train/cont_neg_loss": 0.020304766701702694, "train/cont_pos_acc": 0.9999999850988388, "train/cont_pos_loss": 1.4285232825045963e-05, "train/cont_pred": 0.9953021109104156, "train/cont_rate": 0.9952799479166666, "train/dyn_loss_mean": 5.4826904733975725, "train/dyn_loss_std": 8.812451104323069, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8964480252729522, "train/extr_critic_critic_opt_grad_steps": 456865.0, "train/extr_critic_critic_opt_loss": 15514.145602756076, "train/extr_critic_mag": 12.143730190065172, "train/extr_critic_max": 12.143730190065172, "train/extr_critic_mean": 3.7124859425756664, "train/extr_critic_min": -0.3664385461144977, "train/extr_critic_std": 2.846483485566245, "train/extr_return_normed_mag": 1.379010933968756, "train/extr_return_normed_max": 1.379010933968756, "train/extr_return_normed_mean": 0.39742691732115215, "train/extr_return_normed_min": -0.08208490106173688, "train/extr_return_normed_std": 0.3105847556143999, "train/extr_return_rate": 0.8692265724142393, "train/extr_return_raw_mag": 12.807836108737522, "train/extr_return_raw_max": 12.807836108737522, "train/extr_return_raw_mean": 3.72766003674931, "train/extr_return_raw_min": -0.7082841723329492, "train/extr_return_raw_std": 2.8729816476504006, "train/extr_reward_mag": 1.07986781001091, "train/extr_reward_max": 1.07986781001091, "train/extr_reward_mean": 0.06099040382024315, "train/extr_reward_min": -0.607100225157208, "train/extr_reward_std": 0.23716056243413025, "train/image_loss_mean": 3.1136397603485317, "train/image_loss_std": 8.466731601291233, "train/model_loss_mean": 6.45957436826494, "train/model_loss_std": 12.550315645005968, "train/model_opt_grad_norm": 23.784600112173294, "train/model_opt_grad_steps": 456494.0, "train/model_opt_loss": 16148.935913085938, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.690553297599157, "train/policy_entropy_max": 2.690553297599157, "train/policy_entropy_mean": 0.3816751411391629, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5815626987152629, "train/policy_logprob_mag": 7.438384261396196, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3812136556953192, "train/policy_logprob_min": -7.438384261396196, "train/policy_logprob_std": 1.0103604040212102, "train/policy_randomness_mag": 0.9496472411685519, "train/policy_randomness_max": 0.9496472411685519, "train/policy_randomness_mean": 0.1347145757948359, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20526611359996927, "train/post_ent_mag": 55.19526386260986, "train/post_ent_max": 55.19526386260986, "train/post_ent_mean": 40.371801164415146, "train/post_ent_min": 19.190428919262356, "train/post_ent_std": 5.731815576553345, "train/prior_ent_mag": 76.75477684868707, "train/prior_ent_max": 76.75477684868707, "train/prior_ent_mean": 45.844988134172226, "train/prior_ent_min": 28.24258303642273, "train/prior_ent_std": 7.666519853803846, "train/rep_loss_mean": 5.4826904733975725, "train/rep_loss_std": 8.812451104323069, "train/reward_avg": 0.04216037271544337, "train/reward_loss_mean": 0.05621143099334505, "train/reward_loss_std": 0.20963101358049446, "train/reward_max_data": 1.027777784400516, "train/reward_max_pred": 1.030632068713506, "train/reward_neg_acc": 0.9937701664037175, "train/reward_neg_loss": 0.02357269625645131, "train/reward_pos_acc": 0.9902080520987511, "train/reward_pos_loss": 0.7265691541963153, "train/reward_pred": 0.041642058873549104, "train/reward_rate": 0.0465087890625, "stats/sum_log_reward": 12.957143102373395, "stats/max_log_achievement_collect_coal": 1.4285714285714286, "stats/max_log_achievement_collect_drink": 3.2857142857142856, "stats/max_log_achievement_collect_iron": 0.2857142857142857, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 15.0, "stats/max_log_achievement_collect_wood": 15.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5714285714285714, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_stone_sword": 1.1428571428571428, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 3.857142857142857, "stats/max_log_achievement_place_table": 4.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.44346970319747925, "replay/size": 915494.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.436430669557355e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.345686304932486e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.15954875946045, "timer/env.step_count": 1444.0, "timer/env.step_total": 19.89368510246277, "timer/env.step_frac": 0.0662770356121671, "timer/env.step_avg": 0.013776790237162582, "timer/env.step_min": 0.0028412342071533203, "timer/env.step_max": 1.699798345565796, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.2860434055328369, "timer/replay.add_frac": 0.000952971200533301, "timer/replay.add_avg": 0.0001980910010615214, "timer/replay.add_min": 6.67572021484375e-05, "timer/replay.add_max": 0.004645586013793945, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024052143096923828, "timer/logger.write_frac": 8.01311942143095e-05, "timer/logger.write_avg": 0.024052143096923828, "timer/logger.write_min": 0.024052143096923828, "timer/logger.write_max": 0.024052143096923828, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.857078313827515, "timer/agent.policy_frac": 0.03617102423927242, "timer/agent.policy_avg": 0.007518752294894401, "timer/agent.policy_min": 0.0057659149169921875, "timer/agent.policy_max": 0.016023874282836914, "timer/dataset_count": 722.0, "timer/dataset_total": 0.05955386161804199, "timer/dataset_frac": 0.0001984073532365509, "timer/dataset_avg": 8.248457287817451e-05, "timer/dataset_min": 5.984306335449219e-05, "timer/dataset_max": 0.00015616416931152344, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.3696265220642, "timer/agent.train_frac": 0.8940899186156767, "timer/agent.train_avg": 0.3717030838255737, "timer/agent.train_min": 0.36527276039123535, "timer/agent.train_max": 0.3896925449371338, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22317075729370117, "timer/agent.report_frac": 0.000743507105524549, "timer/agent.report_avg": 0.22317075729370117, "timer/agent.report_min": 0.22317075729370117, "timer/agent.report_max": 0.22317075729370117, "fps": 4.8107095953375865}
{"step": 915679, "episode/length": 158.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.299999997019768, "episode/reward_rate": 0.06289308176100629}
{"step": 915835, "episode/length": 155.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.500000022351742, "episode/reward_rate": 0.057692307692307696}
{"step": 916040, "episode/length": 204.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.07317073170731707}
{"step": 916407, "episode/length": 366.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.30000003427267, "episode/reward_rate": 0.04087193460490463}
{"step": 916661, "episode/length": 253.0, "episode/score": 13.099999971687794, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.05905511811023622}
{"step": 916953, "episode/length": 291.0, "episode/score": 15.100000008940697, "episode/sum_abs_reward": 17.700000002980232, "episode/reward_rate": 0.05821917808219178}
{"step": 917007, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.392830626605308, "train/action_min": 0.0, "train/action_std": 3.2881617807362176, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03863130030158448, "train/actor_opt_grad_steps": 457590.0, "train/actor_opt_loss": -12.670877706514647, "train/adv_mag": 0.4001036698687567, "train/adv_max": 0.3392595056801626, "train/adv_mean": 0.0016952954091260064, "train/adv_min": -0.3486162546562822, "train/adv_std": 0.04374908114949318, "train/cont_avg": 0.9950636772260274, "train/cont_loss_mean": 7.752733545191548e-05, "train/cont_loss_std": 0.0022813273176064456, "train/cont_neg_acc": 0.9954337902265052, "train/cont_neg_loss": 0.013627534284550848, "train/cont_pos_acc": 0.9999999820369564, "train/cont_pos_loss": 3.49208140879028e-05, "train/cont_pred": 0.9950512917074439, "train/cont_rate": 0.9950636772260274, "train/dyn_loss_mean": 5.571529734624575, "train/dyn_loss_std": 8.915792177801263, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8999219348985855, "train/extr_critic_critic_opt_grad_steps": 457590.0, "train/extr_critic_critic_opt_loss": 15568.054299550513, "train/extr_critic_mag": 11.9711166407964, "train/extr_critic_max": 11.9711166407964, "train/extr_critic_mean": 3.6952339851692932, "train/extr_critic_min": -0.3568292790896272, "train/extr_critic_std": 2.831772262102937, "train/extr_return_normed_mag": 1.3792042928199246, "train/extr_return_normed_max": 1.3792042928199246, "train/extr_return_normed_mean": 0.39676641560580633, "train/extr_return_normed_min": -0.08384549969883814, "train/extr_return_normed_std": 0.3092630609665831, "train/extr_return_rate": 0.8662930277928914, "train/extr_return_raw_mag": 12.793384408297603, "train/extr_return_raw_max": 12.793384408297603, "train/extr_return_raw_mean": 3.7109007280166835, "train/extr_return_raw_min": -0.7318672105057599, "train/extr_return_raw_std": 2.858948240541432, "train/extr_reward_mag": 1.073546582705354, "train/extr_reward_max": 1.073546582705354, "train/extr_reward_mean": 0.0626000936002764, "train/extr_reward_min": -0.6377700501925325, "train/extr_reward_std": 0.24066936459443342, "train/image_loss_mean": 3.155279081161708, "train/image_loss_std": 8.440159105274775, "train/model_loss_mean": 6.5566097089689075, "train/model_loss_std": 12.667155474832613, "train/model_opt_grad_norm": 22.30309311548869, "train/model_opt_grad_steps": 457217.6301369863, "train/model_opt_loss": 15097.718990796233, "train/model_opt_model_opt_grad_overflow": 0.0136986301369863, "train/model_opt_model_opt_grad_scale": 2277.3972602739727, "train/policy_entropy_mag": 2.6698220592655546, "train/policy_entropy_max": 2.6698220592655546, "train/policy_entropy_mean": 0.37281233072280884, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5683243727847321, "train/policy_logprob_mag": 7.438384284711864, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3731173903566517, "train/policy_logprob_min": -7.438384284711864, "train/policy_logprob_std": 1.005676609196075, "train/policy_randomness_mag": 0.9423300231972785, "train/policy_randomness_max": 0.9423300231972785, "train/policy_randomness_mean": 0.13158639295868677, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20059356277119622, "train/post_ent_mag": 55.51391732202817, "train/post_ent_max": 55.51391732202817, "train/post_ent_mean": 40.25138316742361, "train/post_ent_min": 19.5997548299293, "train/post_ent_std": 5.769155038546209, "train/prior_ent_mag": 76.7675985048895, "train/prior_ent_max": 76.7675985048895, "train/prior_ent_mean": 45.82866109560614, "train/prior_ent_min": 27.78707747263451, "train/prior_ent_std": 7.781111932780645, "train/rep_loss_mean": 5.571529734624575, "train/rep_loss_std": 8.915792177801263, "train/reward_avg": 0.043638966033515865, "train/reward_loss_mean": 0.05833524986080928, "train/reward_loss_std": 0.21749681479310337, "train/reward_max_data": 1.0232876767850902, "train/reward_max_pred": 1.0231176827051869, "train/reward_neg_acc": 0.9935801935522524, "train/reward_neg_loss": 0.02444562645093219, "train/reward_pos_acc": 0.9882463192286557, "train/reward_pos_loss": 0.728967402895836, "train/reward_pred": 0.0431573656068681, "train/reward_rate": 0.04813249143835616, "stats/sum_log_reward": 12.100000222524008, "stats/max_log_achievement_collect_coal": 1.1666666666666667, "stats/max_log_achievement_collect_drink": 3.1666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 11.833333333333334, "stats/max_log_achievement_collect_wood": 14.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.5, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.3333333333333333, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_stone": 2.6666666666666665, "stats/max_log_achievement_place_table": 4.333333333333333, "stats/max_log_achievement_wake_up": 1.6666666666666667, "stats/mean_log_entropy": 0.5416341672341028, "replay/size": 916944.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.498340475148168e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3618017065113988e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.29044580459595, "timer/env.step_count": 1450.0, "timer/env.step_total": 18.62510633468628, "timer/env.step_frac": 0.062023639429427437, "timer/env.step_avg": 0.012844900920473296, "timer/env.step_min": 0.0029757022857666016, "timer/env.step_max": 1.686654806137085, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.26027917861938477, "timer/replay.add_frac": 0.0008667581078778404, "timer/replay.add_avg": 0.00017950288180647225, "timer/replay.add_min": 6.532669067382812e-05, "timer/replay.add_max": 0.0010650157928466797, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02876758575439453, "timer/logger.write_frac": 9.579920425811377e-05, "timer/logger.write_avg": 0.02876758575439453, "timer/logger.write_min": 0.02876758575439453, "timer/logger.write_max": 0.02876758575439453, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 10.80582594871521, "timer/agent.policy_frac": 0.03598458126019348, "timer/agent.policy_avg": 0.007452293757734627, "timer/agent.policy_min": 0.005989551544189453, "timer/agent.policy_max": 0.018445491790771484, "timer/dataset_count": 725.0, "timer/dataset_total": 0.05810260772705078, "timer/dataset_frac": 0.00019348803313196027, "timer/dataset_avg": 8.014152789938038e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.0001232624053955078, "timer/agent.train_count": 725.0, "timer/agent.train_total": 269.84420251846313, "timer/agent.train_frac": 0.8986106827190077, "timer/agent.train_avg": 0.3721989000254664, "timer/agent.train_min": 0.3657236099243164, "timer/agent.train_max": 0.3846437931060791, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21965241432189941, "timer/agent.report_frac": 0.0007314665431108352, "timer/agent.report_avg": 0.21965241432189941, "timer/agent.report_min": 0.21965241432189941, "timer/agent.report_max": 0.21965241432189941, "fps": 4.828554128808025}
{"step": 917255, "episode/length": 301.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.04966887417218543}
{"step": 917519, "episode/length": 263.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 15.900000013411045, "episode/reward_rate": 0.056818181818181816}
{"step": 917709, "episode/length": 189.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.900000050663948, "episode/reward_rate": 0.05789473684210526}
{"step": 917896, "episode/length": 186.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.0748663101604278}
{"step": 918284, "episode/length": 387.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.03608247422680412}
{"step": 918443, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.332593282063802, "train/action_min": 0.0, "train/action_std": 3.263593703508377, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03855037531401548, "train/actor_opt_grad_steps": 458315.0, "train/actor_opt_loss": -12.476991032974588, "train/adv_mag": 0.39560261079006726, "train/adv_max": 0.3318416596286827, "train/adv_mean": 0.002007229596529214, "train/adv_min": -0.34691617637872696, "train/adv_std": 0.043757186426470675, "train/cont_avg": 0.9948052300347222, "train/cont_loss_mean": 1.3867675854663099e-05, "train/cont_loss_std": 0.0003779840720983745, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0004265236902168586, "train/cont_pos_acc": 0.9999999784761004, "train/cont_pos_loss": 1.1121596466878714e-05, "train/cont_pred": 0.9947981958587965, "train/cont_rate": 0.9948052300347222, "train/dyn_loss_mean": 5.5295312537087336, "train/dyn_loss_std": 8.842038909594217, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8918625116348267, "train/extr_critic_critic_opt_grad_steps": 458315.0, "train/extr_critic_critic_opt_loss": 15668.491712782117, "train/extr_critic_mag": 12.090668029255337, "train/extr_critic_max": 12.090668029255337, "train/extr_critic_mean": 3.690962642431259, "train/extr_critic_min": -0.36511602169937557, "train/extr_critic_std": 2.8858375251293182, "train/extr_return_normed_mag": 1.3906909442610211, "train/extr_return_normed_max": 1.3906909442610211, "train/extr_return_normed_mean": 0.40004234657519394, "train/extr_return_normed_min": -0.08212713478133082, "train/extr_return_normed_std": 0.3168328781094816, "train/extr_return_rate": 0.8484104168083932, "train/extr_return_raw_mag": 12.816273596551683, "train/extr_return_raw_max": 12.816273596551683, "train/extr_return_raw_mean": 3.7094085249635906, "train/extr_return_raw_min": -0.7226142444544368, "train/extr_return_raw_std": 2.912462148401472, "train/extr_reward_mag": 1.0650279687510595, "train/extr_reward_max": 1.0650279687510595, "train/extr_reward_mean": 0.0615607381073965, "train/extr_reward_min": -0.6316881097025342, "train/extr_reward_std": 0.2388144274138742, "train/image_loss_mean": 3.1155000726381936, "train/image_loss_std": 8.351098577181498, "train/model_loss_mean": 6.493267714977264, "train/model_loss_std": 12.450747794575161, "train/model_opt_grad_norm": 22.429070737626816, "train/model_opt_grad_steps": 457942.0, "train/model_opt_loss": 9602.29286702474, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1475.6944444444443, "train/policy_entropy_mag": 2.679570823907852, "train/policy_entropy_max": 2.679570823907852, "train/policy_entropy_mean": 0.3717249201403724, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5651714205741882, "train/policy_logprob_mag": 7.438384301132626, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3717012790342172, "train/policy_logprob_min": -7.438384301132626, "train/policy_logprob_std": 1.0029007411665387, "train/policy_randomness_mag": 0.9457709085610178, "train/policy_randomness_max": 0.9457709085610178, "train/policy_randomness_mean": 0.1312025839255916, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.1994807082745764, "train/post_ent_mag": 55.915221214294434, "train/post_ent_max": 55.915221214294434, "train/post_ent_mean": 40.54231405258179, "train/post_ent_min": 19.668219751781887, "train/post_ent_std": 5.881643189324273, "train/prior_ent_mag": 76.74186876085069, "train/prior_ent_max": 76.74186876085069, "train/prior_ent_mean": 46.069649749332, "train/prior_ent_min": 28.04993971188863, "train/prior_ent_std": 7.797666086090936, "train/rep_loss_mean": 5.5295312537087336, "train/rep_loss_std": 8.842038909594217, "train/reward_avg": 0.043717447927014694, "train/reward_loss_mean": 0.0600350382220414, "train/reward_loss_std": 0.2234406020078394, "train/reward_max_data": 1.027777784400516, "train/reward_max_pred": 1.0263903472158644, "train/reward_neg_acc": 0.9934853803780344, "train/reward_neg_loss": 0.026085800387793116, "train/reward_pos_acc": 0.9913777030176587, "train/reward_pos_loss": 0.7251616170008978, "train/reward_pred": 0.04336716058767504, "train/reward_rate": 0.04857042100694445, "stats/sum_log_reward": 12.900000190734863, "stats/max_log_achievement_collect_coal": 1.2, "stats/max_log_achievement_collect_drink": 5.2, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.6, "stats/max_log_achievement_collect_stone": 12.6, "stats/max_log_achievement_collect_wood": 12.6, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.8, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_stone_pickaxe": 1.2, "stats/max_log_achievement_make_stone_sword": 1.6, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2, "stats/max_log_achievement_place_furnace": 1.4, "stats/max_log_achievement_place_plant": 2.4, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 3.2, "stats/max_log_achievement_wake_up": 1.8, "stats/mean_log_entropy": 0.5706600368022918, "replay/size": 918380.0, "replay/inserts": 1436.0, "replay/samples": 11488.0, "replay/insert_wait_avg": 3.4713479469745603e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3539302980003251e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.12872314453125, "timer/env.step_count": 1436.0, "timer/env.step_total": 17.410027027130127, "timer/env.step_frac": 0.058008533287718954, "timer/env.step_avg": 0.012123974252876132, "timer/env.step_min": 0.0028963088989257812, "timer/env.step_max": 1.6731092929840088, "timer/replay.add_count": 1436.0, "timer/replay.add_total": 0.26759839057922363, "timer/replay.add_frac": 0.0008916120649017583, "timer/replay.add_avg": 0.00018634985416380475, "timer/replay.add_min": 6.127357482910156e-05, "timer/replay.add_max": 0.0008141994476318359, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.01993083953857422, "timer/logger.write_frac": 6.640763779538769e-05, "timer/logger.write_avg": 0.01993083953857422, "timer/logger.write_min": 0.01993083953857422, "timer/logger.write_max": 0.01993083953857422, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00031447410583496094, "timer/checkpoint.save_frac": 1.0477974335149571e-06, "timer/checkpoint.save_avg": 0.00031447410583496094, "timer/checkpoint.save_min": 0.00031447410583496094, "timer/checkpoint.save_max": 0.00031447410583496094, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4587745666503906, "timer/agent.save_frac": 0.004860496360916102, "timer/agent.save_avg": 1.4587745666503906, "timer/agent.save_min": 1.4587745666503906, "timer/agent.save_max": 1.4587745666503906, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.939338684082031e-05, "timer/replay.save_frac": 2.6453111854471623e-07, "timer/replay.save_avg": 7.939338684082031e-05, "timer/replay.save_min": 7.939338684082031e-05, "timer/replay.save_max": 7.939338684082031e-05, "timer/agent.policy_count": 1436.0, "timer/agent.policy_total": 14.553130149841309, "timer/agent.policy_frac": 0.04848962804147553, "timer/agent.policy_avg": 0.010134491747800354, "timer/agent.policy_min": 0.0059506893157958984, "timer/agent.policy_max": 2.4917290210723877, "timer/dataset_count": 718.0, "timer/dataset_total": 0.05783271789550781, "timer/dataset_frac": 0.00019269304613559978, "timer/dataset_avg": 8.054696085725322e-05, "timer/dataset_min": 6.079673767089844e-05, "timer/dataset_max": 0.00015091896057128906, "timer/agent.train_count": 718.0, "timer/agent.train_total": 267.16392731666565, "timer/agent.train_frac": 0.8901644751542459, "timer/agent.train_avg": 0.3720946062906207, "timer/agent.train_min": 0.36599278450012207, "timer/agent.train_max": 0.38428521156311035, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22221899032592773, "timer/agent.report_frac": 0.0007404122737659968, "timer/agent.report_avg": 0.22221899032592773, "timer/agent.report_min": 0.22221899032592773, "timer/agent.report_max": 0.22221899032592773, "fps": 4.784510294887754}
{"step": 918550, "episode/length": 265.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 16.900000013411045, "episode/reward_rate": 0.06015037593984962}
{"step": 918603, "episode/length": 52.0, "episode/score": 4.099999971687794, "episode/sum_abs_reward": 6.1000000312924385, "episode/reward_rate": 0.11320754716981132}
{"step": 918642, "episode/length": 38.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.10256410256410256}
{"step": 918860, "episode/length": 217.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.04128440366972477}
{"step": 919080, "episode/length": 219.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.045454545454545456}
{"step": 919283, "episode/length": 202.0, "episode/score": 11.099999971687794, "episode/sum_abs_reward": 13.30000003427267, "episode/reward_rate": 0.06403940886699508}
{"step": 919506, "episode/length": 222.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 11.300000011920929, "episode/reward_rate": 0.04484304932735426}
{"step": 919558, "episode/length": 51.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 6.299999997019768, "episode/reward_rate": 0.11538461538461539}
{"step": 919754, "episode/length": 195.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.0663265306122449}
{"step": 919879, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.384039137098524, "train/action_min": 0.0, "train/action_std": 3.2443177236451044, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03939067924188243, "train/actor_opt_grad_steps": 459035.0, "train/actor_opt_loss": -10.242291510932976, "train/adv_mag": 0.38888206022481125, "train/adv_max": 0.3282491210848093, "train/adv_mean": 0.002628208443133594, "train/adv_min": -0.3584873225126002, "train/adv_std": 0.0439804300872816, "train/cont_avg": 0.9950358072916666, "train/cont_loss_mean": 5.543851316068703e-05, "train/cont_loss_std": 0.0016667783683719979, "train/cont_neg_acc": 0.9982638888888888, "train/cont_neg_loss": 0.005101941547572942, "train/cont_pos_acc": 0.9999999850988388, "train/cont_pos_loss": 1.6047164047202262e-05, "train/cont_pred": 0.9950342575709025, "train/cont_rate": 0.9950358072916666, "train/dyn_loss_mean": 5.461688597997029, "train/dyn_loss_std": 8.912390563223097, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9372032317850325, "train/extr_critic_critic_opt_grad_steps": 459035.0, "train/extr_critic_critic_opt_loss": 15532.055270724826, "train/extr_critic_mag": 11.920953551928202, "train/extr_critic_max": 11.920953551928202, "train/extr_critic_mean": 3.7679089075989194, "train/extr_critic_min": -0.3890073365635342, "train/extr_critic_std": 2.8815946877002716, "train/extr_return_normed_mag": 1.3701710568534002, "train/extr_return_normed_max": 1.3701710568534002, "train/extr_return_normed_mean": 0.406214137458139, "train/extr_return_normed_min": -0.07907175934977001, "train/extr_return_normed_std": 0.31465703890555435, "train/extr_return_rate": 0.86370899528265, "train/extr_return_raw_mag": 12.712859723303053, "train/extr_return_raw_max": 12.712859723303053, "train/extr_return_raw_mean": 3.7922344075308905, "train/extr_return_raw_min": -0.6984847378399637, "train/extr_return_raw_std": 2.9116257230440774, "train/extr_reward_mag": 1.0753718283441331, "train/extr_reward_max": 1.0753718283441331, "train/extr_reward_mean": 0.06329312449735072, "train/extr_reward_min": -0.6356363015042411, "train/extr_reward_std": 0.24139418825507164, "train/image_loss_mean": 3.2134595728582807, "train/image_loss_std": 8.46979327334298, "train/model_loss_mean": 6.548517604668935, "train/model_loss_std": 12.620164884461296, "train/model_opt_grad_norm": 23.62227291531033, "train/model_opt_grad_steps": 458662.0, "train/model_opt_loss": 16371.293999565973, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.687206781572766, "train/policy_entropy_max": 2.687206781572766, "train/policy_entropy_mean": 0.3785216634472211, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5746247830490271, "train/policy_logprob_mag": 7.438384314378102, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37882706626421875, "train/policy_logprob_min": -7.438384314378102, "train/policy_logprob_std": 1.0111828487780359, "train/policy_randomness_mag": 0.9484660724798838, "train/policy_randomness_max": 0.9484660724798838, "train/policy_randomness_mean": 0.133601535215146, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20281733406914604, "train/post_ent_mag": 55.59283452563815, "train/post_ent_max": 55.59283452563815, "train/post_ent_mean": 40.543920305040146, "train/post_ent_min": 19.616104231940376, "train/post_ent_std": 5.86764532327652, "train/prior_ent_mag": 76.8094088236491, "train/prior_ent_max": 76.8094088236491, "train/prior_ent_mean": 45.985054175059, "train/prior_ent_min": 27.659878333409626, "train/prior_ent_std": 7.828653991222382, "train/rep_loss_mean": 5.461688597997029, "train/rep_loss_std": 8.912390563223097, "train/reward_avg": 0.04343668549942473, "train/reward_loss_mean": 0.05798948318180111, "train/reward_loss_std": 0.2257882191075219, "train/reward_max_data": 1.0333333412806194, "train/reward_max_pred": 1.029559897051917, "train/reward_neg_acc": 0.9930479543076621, "train/reward_neg_loss": 0.02386577890461518, "train/reward_pos_acc": 0.9872341710660193, "train/reward_pos_loss": 0.7371290019816823, "train/reward_pred": 0.043061704400719866, "train/reward_rate": 0.047783745659722224, "stats/sum_log_reward": 8.32222244474623, "stats/max_log_achievement_collect_coal": 0.0, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 6.444444444444445, "stats/max_log_achievement_collect_wood": 10.555555555555555, "stats/max_log_achievement_defeat_skeleton": 0.1111111111111111, "stats/max_log_achievement_defeat_zombie": 1.1111111111111112, "stats/max_log_achievement_eat_cow": 0.2222222222222222, "stats/max_log_achievement_make_stone_pickaxe": 0.3333333333333333, "stats/max_log_achievement_make_stone_sword": 0.5555555555555556, "stats/max_log_achievement_make_wood_pickaxe": 0.7777777777777778, "stats/max_log_achievement_make_wood_sword": 0.5555555555555556, "stats/max_log_achievement_place_furnace": 0.6666666666666666, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_stone": 1.5555555555555556, "stats/max_log_achievement_place_table": 2.4444444444444446, "stats/max_log_achievement_wake_up": 0.6666666666666666, "stats/mean_log_entropy": 0.27671878536542255, "replay/size": 919816.0, "replay/inserts": 1436.0, "replay/samples": 11488.0, "replay/insert_wait_avg": 3.4788192812778823e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3480362453832599e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.03984689712524, "timer/env.step_count": 1436.0, "timer/env.step_total": 21.497474431991577, "timer/env.step_frac": 0.0716487315078601, "timer/env.step_avg": 0.014970386094701655, "timer/env.step_min": 0.0028841495513916016, "timer/env.step_max": 1.6426994800567627, "timer/replay.add_count": 1436.0, "timer/replay.add_total": 0.28369617462158203, "timer/replay.add_frac": 0.0009455283275052898, "timer/replay.add_avg": 0.00019756001018216018, "timer/replay.add_min": 6.461143493652344e-05, "timer/replay.add_max": 0.005082845687866211, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022790193557739258, "timer/logger.write_frac": 7.595722299362903e-05, "timer/logger.write_avg": 0.022790193557739258, "timer/logger.write_min": 0.022790193557739258, "timer/logger.write_max": 0.022790193557739258, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1436.0, "timer/agent.policy_total": 10.66499638557434, "timer/agent.policy_frac": 0.0355452667232931, "timer/agent.policy_avg": 0.0074268777058317135, "timer/agent.policy_min": 0.0057909488677978516, "timer/agent.policy_max": 0.01598668098449707, "timer/dataset_count": 718.0, "timer/dataset_total": 0.06020164489746094, "timer/dataset_frac": 0.00020064549932296923, "timer/dataset_avg": 8.38463020856002e-05, "timer/dataset_min": 6.198883056640625e-05, "timer/dataset_max": 0.00016379356384277344, "timer/agent.train_count": 718.0, "timer/agent.train_total": 266.83941292762756, "timer/agent.train_frac": 0.8893465840859427, "timer/agent.train_avg": 0.37164263638945344, "timer/agent.train_min": 0.3651118278503418, "timer/agent.train_max": 0.3867483139038086, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21969318389892578, "timer/agent.report_frac": 0.0007322133582285558, "timer/agent.report_avg": 0.21969318389892578, "timer/agent.report_min": 0.21969318389892578, "timer/agent.report_max": 0.21969318389892578, "fps": 4.785968506773901}
{"step": 919988, "episode/length": 233.0, "episode/score": 15.100000023841858, "episode/sum_abs_reward": 18.10000006854534, "episode/reward_rate": 0.06837606837606838}
{"step": 920288, "episode/length": 299.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.05}
{"step": 920666, "episode/length": 377.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.03968253968253968}
{"step": 920864, "episode/length": 197.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.07575757575757576}
{"step": 921105, "episode/length": 240.0, "episode/score": 12.099999971687794, "episode/sum_abs_reward": 14.900000043213367, "episode/reward_rate": 0.058091286307053944}
{"step": 921239, "episode/length": 133.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.07462686567164178}
{"step": 921335, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.364412943522136, "train/action_min": 0.0, "train/action_std": 3.2158965600861444, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03862555237073037, "train/actor_opt_grad_steps": 459755.0, "train/actor_opt_loss": -9.775451373308897, "train/adv_mag": 0.38968031253251767, "train/adv_max": 0.3232835777517822, "train/adv_mean": 0.0024199847828438375, "train/adv_min": -0.34824777642885846, "train/adv_std": 0.043683675273011126, "train/cont_avg": 0.9950900607638888, "train/cont_loss_mean": 1.375782957483788e-05, "train/cont_loss_std": 0.00038024912480436355, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0003179873260018932, "train/cont_pos_acc": 0.9999999793039428, "train/cont_pos_loss": 1.1904975316470415e-05, "train/cont_pred": 0.9950809048281776, "train/cont_rate": 0.9950900607638888, "train/dyn_loss_mean": 5.525090528859033, "train/dyn_loss_std": 8.823595404624939, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9595632321304746, "train/extr_critic_critic_opt_grad_steps": 459755.0, "train/extr_critic_critic_opt_loss": 15778.664605034723, "train/extr_critic_mag": 12.121592892540825, "train/extr_critic_max": 12.121592892540825, "train/extr_critic_mean": 3.6414752105871835, "train/extr_critic_min": -0.3587256222963333, "train/extr_critic_std": 2.8987936509980097, "train/extr_return_normed_mag": 1.3863198392921023, "train/extr_return_normed_max": 1.3863198392921023, "train/extr_return_normed_mean": 0.3917303399907218, "train/extr_return_normed_min": -0.08553733381753166, "train/extr_return_normed_std": 0.3156016133725643, "train/extr_return_rate": 0.8463478792044852, "train/extr_return_raw_mag": 12.893355621231926, "train/extr_return_raw_max": 12.893355621231926, "train/extr_return_raw_mean": 3.6639442808098264, "train/extr_return_raw_min": -0.7649030114213625, "train/extr_return_raw_std": 2.928833822409312, "train/extr_reward_mag": 1.070361809598075, "train/extr_reward_max": 1.070361809598075, "train/extr_reward_mean": 0.06104861877651678, "train/extr_reward_min": -0.6639880190292994, "train/extr_reward_std": 0.2376475946770774, "train/image_loss_mean": 3.2252500885062747, "train/image_loss_std": 8.14494095245997, "train/model_loss_mean": 6.597961399290297, "train/model_loss_std": 12.266707049475777, "train/model_opt_grad_norm": 22.729999899864197, "train/model_opt_grad_steps": 459381.27777777775, "train/model_opt_loss": 17628.195814344617, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2673.6111111111113, "train/policy_entropy_mag": 2.688195440504286, "train/policy_entropy_max": 2.688195440504286, "train/policy_entropy_mean": 0.38216018449101186, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5800948461724652, "train/policy_logprob_mag": 7.43838428788715, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3819072873642047, "train/policy_logprob_min": -7.43838428788715, "train/policy_logprob_std": 1.0102146905329492, "train/policy_randomness_mag": 0.9488150229056677, "train/policy_randomness_max": 0.9488150229056677, "train/policy_randomness_mean": 0.13488577482187086, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20474802578488985, "train/post_ent_mag": 55.487109661102295, "train/post_ent_max": 55.487109661102295, "train/post_ent_mean": 40.53979237874349, "train/post_ent_min": 19.4559002717336, "train/post_ent_std": 5.778488112820519, "train/prior_ent_mag": 76.83069674173991, "train/prior_ent_max": 76.83069674173991, "train/prior_ent_mean": 46.061447620391846, "train/prior_ent_min": 27.461694293551975, "train/prior_ent_std": 7.772933317555322, "train/rep_loss_mean": 5.525090528859033, "train/rep_loss_std": 8.823595404624939, "train/reward_avg": 0.04216444202595287, "train/reward_loss_mean": 0.057643328638126455, "train/reward_loss_std": 0.20809570968978935, "train/reward_max_data": 1.0263888951804903, "train/reward_max_pred": 1.0287459592024486, "train/reward_neg_acc": 0.9933181438181136, "train/reward_neg_loss": 0.025739860785607662, "train/reward_pos_acc": 0.9921103989084562, "train/reward_pos_loss": 0.7084870843423737, "train/reward_pred": 0.04201784522997008, "train/reward_rate": 0.04684787326388889, "stats/sum_log_reward": 13.100000063578287, "stats/max_log_achievement_collect_coal": 1.6666666666666667, "stats/max_log_achievement_collect_drink": 4.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 15.0, "stats/max_log_achievement_collect_wood": 15.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 2.1666666666666665, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_stone_sword": 1.3333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.8333333333333333, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_stone": 3.3333333333333335, "stats/max_log_achievement_place_table": 3.8333333333333335, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.49945705632368725, "replay/size": 921272.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.41449465070452e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3504791390764844e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3234279155731, "timer/env.step_count": 1456.0, "timer/env.step_total": 17.959765672683716, "timer/env.step_frac": 0.05980141408659122, "timer/env.step_avg": 0.012335003896073981, "timer/env.step_min": 0.002919912338256836, "timer/env.step_max": 1.6705200672149658, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.27256107330322266, "timer/replay.add_frac": 0.0009075584785208465, "timer/replay.add_avg": 0.00018719853935660895, "timer/replay.add_min": 7.462501525878906e-05, "timer/replay.add_max": 0.005580425262451172, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028792381286621094, "timer/logger.write_frac": 9.587124616436918e-05, "timer/logger.write_avg": 0.028792381286621094, "timer/logger.write_min": 0.028792381286621094, "timer/logger.write_max": 0.028792381286621094, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 10.82738995552063, "timer/agent.policy_frac": 0.03605243197531837, "timer/agent.policy_avg": 0.007436394200220213, "timer/agent.policy_min": 0.0057828426361083984, "timer/agent.policy_max": 0.01703476905822754, "timer/dataset_count": 728.0, "timer/dataset_total": 0.061333656311035156, "timer/dataset_frac": 0.00020422534710904161, "timer/dataset_avg": 8.424952789977356e-05, "timer/dataset_min": 6.198883056640625e-05, "timer/dataset_max": 0.0001647472381591797, "timer/agent.train_count": 728.0, "timer/agent.train_total": 270.4953374862671, "timer/agent.train_frac": 0.9006801079878081, "timer/agent.train_avg": 0.37155952951410315, "timer/agent.train_min": 0.36502742767333984, "timer/agent.train_max": 0.3835439682006836, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22261619567871094, "timer/agent.report_frac": 0.0007412548438988009, "timer/agent.report_avg": 0.22261619567871094, "timer/agent.report_min": 0.22261619567871094, "timer/agent.report_max": 0.22261619567871094, "fps": 4.848041602856793}
{"step": 921426, "episode/length": 186.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.0748663101604278}
{"step": 921745, "episode/length": 318.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.03761755485893417}
{"step": 922082, "episode/length": 336.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.04154302670623145}
{"step": 922309, "episode/length": 226.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.05726872246696035}
{"step": 922543, "episode/length": 233.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.05128205128205128}
{"step": 922775, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4019360012478295, "train/action_min": 0.0, "train/action_std": 3.248933321899838, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03842097158647246, "train/actor_opt_grad_steps": 460475.0, "train/actor_opt_loss": -11.14189142578592, "train/adv_mag": 0.4171241256925795, "train/adv_max": 0.35807797850834, "train/adv_mean": 0.0021312282379363345, "train/adv_min": -0.35732381376955247, "train/adv_std": 0.04330604859731264, "train/cont_avg": 0.9950629340277778, "train/cont_loss_mean": 1.9343723516998227e-05, "train/cont_loss_std": 0.0005627446611708504, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00018936348132569947, "train/cont_pos_acc": 0.999999982615312, "train/cont_pos_loss": 1.8334645235916645e-05, "train/cont_pred": 0.9950479169686636, "train/cont_rate": 0.9950629340277778, "train/dyn_loss_mean": 5.547937015692393, "train/dyn_loss_std": 8.965935382578108, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9366510750518905, "train/extr_critic_critic_opt_grad_steps": 460475.0, "train/extr_critic_critic_opt_loss": 15519.728352864584, "train/extr_critic_mag": 12.16003782219357, "train/extr_critic_max": 12.16003782219357, "train/extr_critic_mean": 3.7385441528426275, "train/extr_critic_min": -0.3356659710407257, "train/extr_critic_std": 2.87386182612843, "train/extr_return_normed_mag": 1.3785672899749544, "train/extr_return_normed_max": 1.3785672899749544, "train/extr_return_normed_mean": 0.3950338810682297, "train/extr_return_normed_min": -0.08082169961805145, "train/extr_return_normed_std": 0.310488876576225, "train/extr_return_rate": 0.8669352647331026, "train/extr_return_raw_mag": 12.963615616162619, "train/extr_return_raw_max": 12.963615616162619, "train/extr_return_raw_mean": 3.7584998640749188, "train/extr_return_raw_min": -0.6946080889966753, "train/extr_return_raw_std": 2.9062110665771694, "train/extr_reward_mag": 1.067512207561069, "train/extr_reward_max": 1.067512207561069, "train/extr_reward_mean": 0.06078987051215437, "train/extr_reward_min": -0.582888662815094, "train/extr_reward_std": 0.23648577969935206, "train/image_loss_mean": 3.335654010375341, "train/image_loss_std": 8.547339333428276, "train/model_loss_mean": 6.7216406795713635, "train/model_loss_std": 12.738071256213718, "train/model_opt_grad_norm": 23.78872467411889, "train/model_opt_grad_steps": 460100.7638888889, "train/model_opt_loss": 18415.247192382812, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2743.0555555555557, "train/policy_entropy_mag": 2.6762019859419928, "train/policy_entropy_max": 2.6762019859419928, "train/policy_entropy_mean": 0.37828731040159863, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5740858738621076, "train/policy_logprob_mag": 7.438384261396196, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37847027906941044, "train/policy_logprob_min": -7.438384261396196, "train/policy_logprob_std": 1.0095240026712418, "train/policy_randomness_mag": 0.9445818579859204, "train/policy_randomness_max": 0.9445818579859204, "train/policy_randomness_mean": 0.13351882104244497, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20262712198827001, "train/post_ent_mag": 55.37874364852905, "train/post_ent_max": 55.37874364852905, "train/post_ent_mean": 40.371029694875084, "train/post_ent_min": 19.333859430419075, "train/post_ent_std": 5.8429314030541315, "train/prior_ent_mag": 76.72969648573134, "train/prior_ent_max": 76.72969648573134, "train/prior_ent_mean": 45.87961790296767, "train/prior_ent_min": 27.946288267771404, "train/prior_ent_std": 7.75409992535909, "train/rep_loss_mean": 5.547937015692393, "train/rep_loss_std": 8.965935382578108, "train/reward_avg": 0.04252658373055359, "train/reward_loss_mean": 0.057205107166535325, "train/reward_loss_std": 0.22041761544015673, "train/reward_max_data": 1.027777784400516, "train/reward_max_pred": 1.0271053380436368, "train/reward_neg_acc": 0.9942533771197001, "train/reward_neg_loss": 0.023725603060382936, "train/reward_pos_acc": 0.9879704962174097, "train/reward_pos_loss": 0.7391927084989018, "train/reward_pred": 0.0420546762438284, "train/reward_rate": 0.046915690104166664, "stats/sum_log_reward": 12.100000381469727, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 3.2, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.6, "stats/max_log_achievement_collect_stone": 18.8, "stats/max_log_achievement_collect_wood": 12.8, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_stone_pickaxe": 0.8, "stats/max_log_achievement_make_stone_sword": 0.8, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.4, "stats/max_log_achievement_place_stone": 4.6, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.2, "stats/mean_log_entropy": 0.5360819339752197, "replay/size": 922712.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.4974681006537543e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3294112351205613e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.12122797966003, "timer/env.step_count": 1440.0, "timer/env.step_total": 16.667440176010132, "timer/env.step_frac": 0.055535692320770214, "timer/env.step_avg": 0.01157461123334037, "timer/env.step_min": 0.0029408931732177734, "timer/env.step_max": 1.6350359916687012, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.2704308032989502, "timer/replay.add_frac": 0.0009010718939124092, "timer/replay.add_avg": 0.0001877991689576043, "timer/replay.add_min": 6.318092346191406e-05, "timer/replay.add_max": 0.008805036544799805, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029530763626098633, "timer/logger.write_frac": 9.839611754520745e-05, "timer/logger.write_avg": 0.029530763626098633, "timer/logger.write_min": 0.029530763626098633, "timer/logger.write_max": 0.029530763626098633, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002288818359375, "timer/checkpoint.save_frac": 7.626312789610866e-07, "timer/checkpoint.save_avg": 0.0002288818359375, "timer/checkpoint.save_min": 0.0002288818359375, "timer/checkpoint.save_max": 0.0002288818359375, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2259860038757324, "timer/agent.save_frac": 0.004084969304333316, "timer/agent.save_avg": 1.2259860038757324, "timer/agent.save_min": 1.2259860038757324, "timer/agent.save_max": 1.2259860038757324, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.462501525878906e-05, "timer/replay.save_frac": 2.486495732446043e-07, "timer/replay.save_avg": 7.462501525878906e-05, "timer/replay.save_min": 7.462501525878906e-05, "timer/replay.save_max": 7.462501525878906e-05, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 14.711644411087036, "timer/agent.policy_frac": 0.04901900645323256, "timer/agent.policy_avg": 0.010216419729921553, "timer/agent.policy_min": 0.0057179927825927734, "timer/agent.policy_max": 2.6558241844177246, "timer/dataset_count": 720.0, "timer/dataset_total": 0.06039261817932129, "timer/dataset_frac": 0.00020122741262212297, "timer/dataset_avg": 8.387863636016846e-05, "timer/dataset_min": 6.198883056640625e-05, "timer/dataset_max": 0.0001728534698486328, "timer/agent.train_count": 720.0, "timer/agent.train_total": 267.71861600875854, "timer/agent.train_frac": 0.8920349213915069, "timer/agent.train_avg": 0.3718314111232758, "timer/agent.train_min": 0.3653688430786133, "timer/agent.train_max": 0.3946068286895752, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22046852111816406, "timer/agent.report_frac": 0.0007345982241986087, "timer/agent.report_avg": 0.22046852111816406, "timer/agent.report_min": 0.22046852111816406, "timer/agent.report_max": 0.22046852111816406, "fps": 4.797954481535224}
{"step": 922781, "episode/length": 237.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.300000041723251, "episode/reward_rate": 0.058823529411764705}
{"step": 923043, "episode/length": 261.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.05343511450381679}
{"step": 923283, "episode/length": 239.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.700000002980232, "episode/reward_rate": 0.0625}
{"step": 923495, "episode/length": 211.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.06132075471698113}
{"step": 923743, "episode/length": 247.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.04838709677419355}
{"step": 923936, "episode/length": 192.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06217616580310881}
{"step": 924231, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4144220221532535, "train/action_min": 0.0, "train/action_std": 3.28252551327013, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.039072426163578686, "train/actor_opt_grad_steps": 461200.0, "train/actor_opt_loss": -11.479109275014434, "train/adv_mag": 0.45922498466217354, "train/adv_max": 0.36294517247644187, "train/adv_mean": 0.0019287207774452751, "train/adv_min": -0.407350508521681, "train/adv_std": 0.044297779667867375, "train/cont_avg": 0.994408176369863, "train/cont_loss_mean": 3.0533688208276534e-05, "train/cont_loss_std": 0.000948749281685915, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00014939294620338236, "train/cont_pos_acc": 0.999986566909372, "train/cont_pos_loss": 2.9961086147289416e-05, "train/cont_pred": 0.9943908918393801, "train/cont_rate": 0.994408176369863, "train/dyn_loss_mean": 5.4363435980391825, "train/dyn_loss_std": 8.904582951166859, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9069461348938616, "train/extr_critic_critic_opt_grad_steps": 461200.0, "train/extr_critic_critic_opt_loss": 15600.562513377568, "train/extr_critic_mag": 12.103291942648692, "train/extr_critic_max": 12.103291942648692, "train/extr_critic_mean": 3.8119238859986604, "train/extr_critic_min": -0.3544287028378003, "train/extr_critic_std": 2.953775853326876, "train/extr_return_normed_mag": 1.371858830321325, "train/extr_return_normed_max": 1.371858830321325, "train/extr_return_normed_mean": 0.4070317463515556, "train/extr_return_normed_min": -0.08369651921603778, "train/extr_return_normed_std": 0.3189525924725075, "train/extr_return_rate": 0.8571285042044234, "train/extr_return_raw_mag": 12.823278753724816, "train/extr_return_raw_max": 12.823278753724816, "train/extr_return_raw_mean": 3.829912139944834, "train/extr_return_raw_min": -0.7436328395588757, "train/extr_return_raw_std": 2.973089146287474, "train/extr_reward_mag": 1.068437246427144, "train/extr_reward_max": 1.068437246427144, "train/extr_reward_mean": 0.06323404885726432, "train/extr_reward_min": -0.6257983005210145, "train/extr_reward_std": 0.24200290768113855, "train/image_loss_mean": 3.163634287167902, "train/image_loss_std": 8.361055263101239, "train/model_loss_mean": 6.482278242503127, "train/model_loss_std": 12.54226725068811, "train/model_opt_grad_norm": 22.949354851082578, "train/model_opt_grad_steps": 460825.0, "train/model_opt_loss": 16205.695606806506, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.667469521091409, "train/policy_entropy_max": 2.667469521091409, "train/policy_entropy_mean": 0.3876164861737865, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5908008630145086, "train/policy_logprob_mag": 7.438384278179848, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38841866793697827, "train/policy_logprob_min": -7.438384278179848, "train/policy_logprob_std": 1.0196633175627825, "train/policy_randomness_mag": 0.9414996855879483, "train/policy_randomness_max": 0.9414996855879483, "train/policy_randomness_mean": 0.13681160903548542, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20852677758834134, "train/post_ent_mag": 55.525405413483924, "train/post_ent_max": 55.525405413483924, "train/post_ent_mean": 40.430206873645524, "train/post_ent_min": 19.513366908243256, "train/post_ent_std": 5.771484740792888, "train/prior_ent_mag": 76.72236821422838, "train/prior_ent_max": 76.72236821422838, "train/prior_ent_mean": 45.84878247404752, "train/prior_ent_min": 28.08702821600927, "train/prior_ent_std": 7.800275665439972, "train/rep_loss_mean": 5.4363435980391825, "train/rep_loss_std": 8.904582951166859, "train/reward_avg": 0.04137280616552046, "train/reward_loss_mean": 0.05680731740104009, "train/reward_loss_std": 0.20852223181561247, "train/reward_max_data": 1.0205479501044914, "train/reward_max_pred": 1.0212004674624091, "train/reward_neg_acc": 0.9932144594519106, "train/reward_neg_loss": 0.02516202758742522, "train/reward_pos_acc": 0.9932098437661994, "train/reward_pos_loss": 0.7096255821724461, "train/reward_pred": 0.04125764218401419, "train/reward_rate": 0.04629976455479452, "stats/sum_log_reward": 12.266667048136393, "stats/max_log_achievement_collect_coal": 0.16666666666666666, "stats/max_log_achievement_collect_drink": 2.6666666666666665, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 1.1666666666666667, "stats/max_log_achievement_collect_stone": 17.333333333333332, "stats/max_log_achievement_collect_wood": 16.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.1666666666666665, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_stone_sword": 1.3333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 4.166666666666667, "stats/max_log_achievement_place_table": 4.0, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.3997868051131566, "replay/size": 924168.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.432015796284099e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3259372540882656e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1964433193207, "timer/env.step_count": 1456.0, "timer/env.step_total": 17.541704893112183, "timer/env.step_frac": 0.0584340863574222, "timer/env.step_avg": 0.012047874239774851, "timer/env.step_min": 0.002922534942626953, "timer/env.step_max": 1.6562931537628174, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.25429677963256836, "timer/replay.add_frac": 0.000847101240843388, "timer/replay.add_avg": 0.00017465438161577498, "timer/replay.add_min": 6.532669067382812e-05, "timer/replay.add_max": 0.003051280975341797, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02513742446899414, "timer/logger.write_frac": 8.373658325543623e-05, "timer/logger.write_avg": 0.02513742446899414, "timer/logger.write_min": 0.02513742446899414, "timer/logger.write_max": 0.02513742446899414, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 10.762863874435425, "timer/agent.policy_frac": 0.035852736146466946, "timer/agent.policy_avg": 0.007392076836837517, "timer/agent.policy_min": 0.005632638931274414, "timer/agent.policy_max": 0.019561052322387695, "timer/dataset_count": 728.0, "timer/dataset_total": 0.05956006050109863, "timer/dataset_frac": 0.00019840361811930015, "timer/dataset_avg": 8.181326991909152e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.0001468658447265625, "timer/agent.train_count": 728.0, "timer/agent.train_total": 270.88441228866577, "timer/agent.train_frac": 0.9023571675048944, "timer/agent.train_avg": 0.37209397292399143, "timer/agent.train_min": 0.3659048080444336, "timer/agent.train_max": 0.38500332832336426, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21855401992797852, "timer/agent.report_frac": 0.0007280366732909669, "timer/agent.report_avg": 0.21855401992797852, "timer/agent.report_min": 0.21855401992797852, "timer/agent.report_max": 0.21855401992797852, "fps": 4.850096612232912}
{"step": 924365, "episode/length": 428.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.700000040233135, "episode/reward_rate": 0.03496503496503497}
{"step": 924623, "episode/length": 257.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.050387596899224806}
{"step": 924764, "episode/length": 140.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.07092198581560284}
{"step": 925000, "episode/length": 235.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.05508474576271186}
{"step": 925105, "episode/length": 104.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.899999976158142, "episode/reward_rate": 0.11428571428571428}
{"step": 925140, "episode/length": 34.0, "episode/score": 6.100000016391277, "episode/sum_abs_reward": 7.1000000312924385, "episode/reward_rate": 0.2}
{"step": 925446, "episode/length": 305.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.500000037252903, "episode/reward_rate": 0.03594771241830065}
{"step": 925679, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.425724395333904, "train/action_min": 0.0, "train/action_std": 3.2716380765993303, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0390504633318888, "train/actor_opt_grad_steps": 461930.0, "train/actor_opt_loss": -10.079571908263311, "train/adv_mag": 0.41389737594617554, "train/adv_max": 0.3439410663630864, "train/adv_mean": 0.0021635188907205465, "train/adv_min": -0.3766354544930262, "train/adv_std": 0.043861358490300505, "train/cont_avg": 0.9948897688356164, "train/cont_loss_mean": 4.77642724117982e-05, "train/cont_loss_std": 0.001505360229198107, "train/cont_neg_acc": 0.9980430537707186, "train/cont_neg_loss": 0.006576386105898377, "train/cont_pos_acc": 0.9999999795874505, "train/cont_pos_loss": 3.0522751220388887e-06, "train/cont_pred": 0.9949007279252353, "train/cont_rate": 0.9948897688356164, "train/dyn_loss_mean": 5.5699772377536725, "train/dyn_loss_std": 8.922814525970042, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9087640569634634, "train/extr_critic_critic_opt_grad_steps": 461930.0, "train/extr_critic_critic_opt_loss": 15566.194269049658, "train/extr_critic_mag": 12.091713696309965, "train/extr_critic_max": 12.091713696309965, "train/extr_critic_mean": 3.842483014276583, "train/extr_critic_min": -0.3444556340779344, "train/extr_critic_std": 2.9016262341852057, "train/extr_return_normed_mag": 1.3760548895352507, "train/extr_return_normed_max": 1.3760548895352507, "train/extr_return_normed_mean": 0.40842677999849186, "train/extr_return_normed_min": -0.07491507473057263, "train/extr_return_normed_std": 0.31490616010476463, "train/extr_return_rate": 0.8651737734063031, "train/extr_return_raw_mag": 12.870546902695747, "train/extr_return_raw_max": 12.870546902695747, "train/extr_return_raw_mean": 3.86261472963307, "train/extr_return_raw_min": -0.637121221790575, "train/extr_return_raw_std": 2.931807145680467, "train/extr_reward_mag": 1.0653211123322788, "train/extr_reward_max": 1.0653211123322788, "train/extr_reward_mean": 0.06186823082500941, "train/extr_reward_min": -0.5963567854606941, "train/extr_reward_std": 0.238689660209499, "train/image_loss_mean": 3.266326711602407, "train/image_loss_std": 8.357671711542835, "train/model_loss_mean": 6.6659466599764885, "train/model_loss_std": 12.543590441142044, "train/model_opt_grad_norm": 22.44643647703406, "train/model_opt_grad_steps": 461554.19178082194, "train/model_opt_loss": 17629.611073951197, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2636.986301369863, "train/policy_entropy_mag": 2.686623834583857, "train/policy_entropy_max": 2.686623834583857, "train/policy_entropy_mean": 0.3721391317779071, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5660073961297126, "train/policy_logprob_mag": 7.438384330435975, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3730103518456629, "train/policy_logprob_min": -7.438384330435975, "train/policy_logprob_std": 1.005773758235043, "train/policy_randomness_mag": 0.9482603138440275, "train/policy_randomness_max": 0.9482603138440275, "train/policy_randomness_mean": 0.13134878108354464, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19977577173546568, "train/post_ent_mag": 55.60466682747619, "train/post_ent_max": 55.60466682747619, "train/post_ent_mean": 40.44752596502435, "train/post_ent_min": 19.28915891255418, "train/post_ent_std": 5.833576437545149, "train/prior_ent_mag": 76.70292600866867, "train/prior_ent_max": 76.70292600866867, "train/prior_ent_mean": 46.02847263910999, "train/prior_ent_min": 28.09869635595034, "train/prior_ent_std": 7.780256682879304, "train/rep_loss_mean": 5.5699772377536725, "train/rep_loss_std": 8.922814525970042, "train/reward_avg": 0.042731966950917896, "train/reward_loss_mean": 0.05758578963067434, "train/reward_loss_std": 0.21368949605177526, "train/reward_max_data": 1.0273972668059885, "train/reward_max_pred": 1.0276018887350005, "train/reward_neg_acc": 0.9937584285866724, "train/reward_neg_loss": 0.024609862584365556, "train/reward_pos_acc": 0.9906771101363717, "train/reward_pos_loss": 0.721254926021785, "train/reward_pred": 0.042406593666297114, "train/reward_rate": 0.04745023544520548, "stats/sum_log_reward": 10.528571741921562, "stats/max_log_achievement_collect_coal": 0.42857142857142855, "stats/max_log_achievement_collect_drink": 3.5714285714285716, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 14.142857142857142, "stats/max_log_achievement_collect_wood": 9.857142857142858, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.7142857142857143, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.42857142857142855, "stats/max_log_achievement_make_stone_sword": 0.5714285714285714, "stats/max_log_achievement_make_wood_pickaxe": 1.2857142857142858, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.7142857142857142, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 3.142857142857143, "stats/max_log_achievement_place_table": 2.4285714285714284, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.4779459780880383, "replay/size": 925616.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.476004574180308e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3283232628311241e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.22326278686523, "timer/env.step_count": 1448.0, "timer/env.step_total": 19.159284830093384, "timer/env.step_frac": 0.06381678971923958, "timer/env.step_avg": 0.013231550297025817, "timer/env.step_min": 0.002809286117553711, "timer/env.step_max": 1.6684072017669678, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.2609553337097168, "timer/replay.add_frac": 0.0008692042424939418, "timer/replay.add_avg": 0.00018021777189897569, "timer/replay.add_min": 6.341934204101562e-05, "timer/replay.add_max": 0.00498509407043457, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02316880226135254, "timer/logger.write_frac": 7.717190881973912e-05, "timer/logger.write_avg": 0.02316880226135254, "timer/logger.write_min": 0.02316880226135254, "timer/logger.write_max": 0.02316880226135254, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 10.723079442977905, "timer/agent.policy_frac": 0.035717017207259, "timer/agent.policy_avg": 0.007405441604266509, "timer/agent.policy_min": 0.005592823028564453, "timer/agent.policy_max": 0.016524553298950195, "timer/dataset_count": 724.0, "timer/dataset_total": 0.06032204627990723, "timer/dataset_frac": 0.0002009239581235619, "timer/dataset_avg": 8.331774348053484e-05, "timer/dataset_min": 6.222724914550781e-05, "timer/dataset_max": 0.0001709461212158203, "timer/agent.train_count": 724.0, "timer/agent.train_total": 269.32057332992554, "timer/agent.train_frac": 0.8970676383632598, "timer/agent.train_avg": 0.3719897421684054, "timer/agent.train_min": 0.3615255355834961, "timer/agent.train_max": 0.3832833766937256, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22258257865905762, "timer/agent.report_frac": 0.0007413901794048306, "timer/agent.report_avg": 0.22258257865905762, "timer/agent.report_min": 0.22258257865905762, "timer/agent.report_max": 0.22258257865905762, "fps": 4.82297986124662}
{"step": 925732, "episode/length": 285.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.04195804195804196}
{"step": 925910, "episode/length": 177.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 14.700000040233135, "episode/reward_rate": 0.08426966292134831}
{"step": 926106, "episode/length": 195.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.05612244897959184}
{"step": 926312, "episode/length": 205.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.06796116504854369}
{"step": 926510, "episode/length": 197.0, "episode/score": 13.099999964237213, "episode/sum_abs_reward": 15.099999994039536, "episode/reward_rate": 0.0707070707070707}
{"step": 926699, "episode/length": 188.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000055134296, "episode/reward_rate": 0.06878306878306878}
{"step": 926919, "episode/length": 219.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.06818181818181818}
{"step": 927105, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.435611348756602, "train/action_min": 0.0, "train/action_std": 3.3208526154639015, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.037971514526387334, "train/actor_opt_grad_steps": 462650.0, "train/actor_opt_loss": -13.068349246407898, "train/adv_mag": 0.37127922706201044, "train/adv_max": 0.33670247398631675, "train/adv_mean": 0.0014383073700026242, "train/adv_min": -0.31652783822845404, "train/adv_std": 0.04264396770109593, "train/cont_avg": 0.9947733274647887, "train/cont_loss_mean": 8.478044971182516e-05, "train/cont_loss_std": 0.0026630396303332503, "train/cont_neg_acc": 0.9905952385493687, "train/cont_neg_loss": 0.01461778030138439, "train/cont_pos_acc": 0.9999999806914531, "train/cont_pos_loss": 1.942764622115549e-05, "train/cont_pred": 0.9947898211613507, "train/cont_rate": 0.9947733274647887, "train/dyn_loss_mean": 5.520622723539111, "train/dyn_loss_std": 8.922446989677322, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8856494737343049, "train/extr_critic_critic_opt_grad_steps": 462650.0, "train/extr_critic_critic_opt_loss": 15437.643926056338, "train/extr_critic_mag": 12.218036530723035, "train/extr_critic_max": 12.218036530723035, "train/extr_critic_mean": 3.7821774348406723, "train/extr_critic_min": -0.3566691086325847, "train/extr_critic_std": 2.9418526182711964, "train/extr_return_normed_mag": 1.3858092637129233, "train/extr_return_normed_max": 1.3858092637129233, "train/extr_return_normed_mean": 0.4005937760984394, "train/extr_return_normed_min": -0.08206454307680398, "train/extr_return_normed_std": 0.3176347852592737, "train/extr_return_rate": 0.8653536229066445, "train/extr_return_raw_mag": 12.997039297936668, "train/extr_return_raw_max": 12.997039297936668, "train/extr_return_raw_mean": 3.7955865054063396, "train/extr_return_raw_min": -0.7125247599373401, "train/extr_return_raw_std": 2.966677635488376, "train/extr_reward_mag": 1.0654343719213781, "train/extr_reward_max": 1.0654343719213781, "train/extr_reward_mean": 0.06144995793280467, "train/extr_reward_min": -0.6142408831018797, "train/extr_reward_std": 0.238769520546349, "train/image_loss_mean": 3.249444389007461, "train/image_loss_std": 8.54260029591305, "train/model_loss_mean": 6.62159796835671, "train/model_loss_std": 12.704532932227766, "train/model_opt_grad_norm": 23.676898526473785, "train/model_opt_grad_steps": 462273.61971830984, "train/model_opt_loss": 17231.045623349473, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2605.6338028169016, "train/policy_entropy_mag": 2.6761480519469356, "train/policy_entropy_max": 2.6761480519469356, "train/policy_entropy_mean": 0.3900314705892348, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5868695819042098, "train/policy_logprob_mag": 7.438384264287814, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39012547760782107, "train/policy_logprob_min": -7.438384264287814, "train/policy_logprob_std": 1.0179844146043482, "train/policy_randomness_mag": 0.9445628263580967, "train/policy_randomness_max": 0.9445628263580967, "train/policy_randomness_mean": 0.13766399319742767, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20713920786347187, "train/post_ent_mag": 55.347283323046184, "train/post_ent_max": 55.347283323046184, "train/post_ent_mean": 40.51747797576474, "train/post_ent_min": 19.518457197807205, "train/post_ent_std": 5.804392754192084, "train/prior_ent_mag": 76.77131513138892, "train/prior_ent_max": 76.77131513138892, "train/prior_ent_mean": 46.00365227712712, "train/prior_ent_min": 27.895135476555623, "train/prior_ent_std": 7.81077147201753, "train/rep_loss_mean": 5.520622723539111, "train/rep_loss_std": 8.922446989677322, "train/reward_avg": 0.04405672305171758, "train/reward_loss_mean": 0.05969520558563756, "train/reward_loss_std": 0.22526570818793606, "train/reward_max_data": 1.0281690208005234, "train/reward_max_pred": 1.0280797011415723, "train/reward_neg_acc": 0.9929700367887255, "train/reward_neg_loss": 0.025576187337053493, "train/reward_pos_acc": 0.988048857366535, "train/reward_pos_loss": 0.7293800073610225, "train/reward_pred": 0.04372544088204142, "train/reward_rate": 0.048553036971830985, "stats/sum_log_reward": 12.242857524326869, "stats/max_log_achievement_collect_coal": 1.1428571428571428, "stats/max_log_achievement_collect_drink": 2.142857142857143, "stats/max_log_achievement_collect_iron": 0.14285714285714285, "stats/max_log_achievement_collect_sapling": 1.1428571428571428, "stats/max_log_achievement_collect_stone": 15.571428571428571, "stats/max_log_achievement_collect_wood": 13.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.8571428571428571, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.5714285714285714, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 3.4285714285714284, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.4126255512237549, "replay/size": 927042.0, "replay/inserts": 1426.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 3.416608459986276e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3140608853076652e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.13017654418945, "timer/env.step_count": 1426.0, "timer/env.step_total": 19.59106206893921, "timer/env.step_frac": 0.06527521588971155, "timer/env.step_avg": 0.013738472699115855, "timer/env.step_min": 0.002850770950317383, "timer/env.step_max": 1.643265724182129, "timer/replay.add_count": 1426.0, "timer/replay.add_total": 0.273761510848999, "timer/replay.add_frac": 0.0009121425709376875, "timer/replay.add_avg": 0.00019197861910869496, "timer/replay.add_min": 7.104873657226562e-05, "timer/replay.add_max": 0.0064885616302490234, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026889324188232422, "timer/logger.write_frac": 8.959220461549754e-05, "timer/logger.write_avg": 0.026889324188232422, "timer/logger.write_min": 0.026889324188232422, "timer/logger.write_max": 0.026889324188232422, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0006215572357177734, "timer/checkpoint.save_frac": 2.0709588181855447e-06, "timer/checkpoint.save_avg": 0.0006215572357177734, "timer/checkpoint.save_min": 0.0006215572357177734, "timer/checkpoint.save_max": 0.0006215572357177734, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2107574939727783, "timer/agent.save_frac": 0.004034107825857069, "timer/agent.save_avg": 1.2107574939727783, "timer/agent.save_min": 1.2107574939727783, "timer/agent.save_max": 1.2107574939727783, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.0558319091796875e-05, "timer/replay.save_frac": 2.0177350971197864e-07, "timer/replay.save_avg": 6.0558319091796875e-05, "timer/replay.save_min": 6.0558319091796875e-05, "timer/replay.save_max": 6.0558319091796875e-05, "timer/agent.policy_count": 1426.0, "timer/agent.policy_total": 14.30679702758789, "timer/agent.policy_frac": 0.047668638963004904, "timer/agent.policy_avg": 0.010032816989893332, "timer/agent.policy_min": 0.0057680606842041016, "timer/agent.policy_max": 2.5843665599823, "timer/dataset_count": 713.0, "timer/dataset_total": 0.060039520263671875, "timer/dataset_frac": 0.00020004493035318625, "timer/dataset_avg": 8.420690079056364e-05, "timer/dataset_min": 5.9604644775390625e-05, "timer/dataset_max": 0.00018405914306640625, "timer/agent.train_count": 713.0, "timer/agent.train_total": 265.19792675971985, "timer/agent.train_frac": 0.8836096716874906, "timer/agent.train_avg": 0.37194660134603064, "timer/agent.train_min": 0.3654923439025879, "timer/agent.train_max": 0.38507533073425293, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22067546844482422, "timer/agent.report_frac": 0.0007352658469260362, "timer/agent.report_avg": 0.22067546844482422, "timer/agent.report_min": 0.22067546844482422, "timer/agent.report_max": 0.22067546844482422, "fps": 4.751168336555319}
{"step": 927122, "episode/length": 202.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06403940886699508}
{"step": 927323, "episode/length": 200.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.05472636815920398}
{"step": 927375, "episode/length": 51.0, "episode/score": 4.099999979138374, "episode/sum_abs_reward": 6.30000002682209, "episode/reward_rate": 0.09615384615384616}
{"step": 927596, "episode/length": 220.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.06334841628959276}
{"step": 927802, "episode/length": 205.0, "episode/score": 14.099999979138374, "episode/sum_abs_reward": 16.30000002682209, "episode/reward_rate": 0.07281553398058252}
{"step": 927960, "episode/length": 157.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.08227848101265822}
{"step": 928131, "episode/length": 170.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.08187134502923976}
{"step": 928323, "episode/length": 191.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.057291666666666664}
{"step": 928503, "episode/length": 179.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.08333333333333333}
{"step": 928539, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.440636528862847, "train/action_min": 0.0, "train/action_std": 3.284145279063119, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038443446883724794, "train/actor_opt_grad_steps": 463365.0, "train/actor_opt_loss": -10.719997532044848, "train/adv_mag": 0.39907727390527725, "train/adv_max": 0.32257874434192974, "train/adv_mean": 0.00213584442654893, "train/adv_min": -0.3604494006269508, "train/adv_std": 0.043292919949938856, "train/cont_avg": 0.9953070746527778, "train/cont_loss_mean": 0.000110817655950927, "train/cont_loss_std": 0.003466654259935827, "train/cont_neg_acc": 0.9980158739619784, "train/cont_neg_loss": 0.00379238257103667, "train/cont_pos_acc": 0.9999863530198733, "train/cont_pos_loss": 8.60257293268971e-05, "train/cont_pred": 0.9952904308835665, "train/cont_rate": 0.9953070746527778, "train/dyn_loss_mean": 5.645337786939409, "train/dyn_loss_std": 8.925225284364489, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.90133768816789, "train/extr_critic_critic_opt_grad_steps": 463365.0, "train/extr_critic_critic_opt_loss": 15504.25690375434, "train/extr_critic_mag": 11.980662875705296, "train/extr_critic_max": 11.980662875705296, "train/extr_critic_mean": 3.7839260929160647, "train/extr_critic_min": -0.3331430157025655, "train/extr_critic_std": 2.8433868918153973, "train/extr_return_normed_mag": 1.3738224870628781, "train/extr_return_normed_max": 1.3738224870628781, "train/extr_return_normed_mean": 0.40344561222526765, "train/extr_return_normed_min": -0.08337407471198174, "train/extr_return_normed_std": 0.3105232937054502, "train/extr_return_rate": 0.8750759992334578, "train/extr_return_raw_mag": 12.773512681325277, "train/extr_return_raw_max": 12.773512681325277, "train/extr_return_raw_mean": 3.8036713070339627, "train/extr_return_raw_min": -0.6964163949920071, "train/extr_return_raw_std": 2.8705571492513022, "train/extr_reward_mag": 1.0700106687015958, "train/extr_reward_max": 1.0700106687015958, "train/extr_reward_mean": 0.0631790380511019, "train/extr_reward_min": -0.5927591638432609, "train/extr_reward_std": 0.241558271770676, "train/image_loss_mean": 3.286212215820948, "train/image_loss_std": 8.98886807097329, "train/model_loss_mean": 6.7316105763117475, "train/model_loss_std": 13.137357340918648, "train/model_opt_grad_norm": 22.64190000957913, "train/model_opt_grad_steps": 462987.9861111111, "train/model_opt_loss": 16710.323744032117, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2482.6388888888887, "train/policy_entropy_mag": 2.67148067884975, "train/policy_entropy_max": 2.67148067884975, "train/policy_entropy_mean": 0.3902336545288563, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5930418347318968, "train/policy_logprob_mag": 7.43838428788715, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38900801974038285, "train/policy_logprob_min": -7.43838428788715, "train/policy_logprob_std": 1.0163604749573603, "train/policy_randomness_mag": 0.9429154470562935, "train/policy_randomness_max": 0.9429154470562935, "train/policy_randomness_mean": 0.1377353561628196, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20931774615827534, "train/post_ent_mag": 55.433206452263725, "train/post_ent_max": 55.433206452263725, "train/post_ent_mean": 40.19816207885742, "train/post_ent_min": 19.276470369762844, "train/post_ent_std": 5.758058183723026, "train/prior_ent_mag": 76.78291617499457, "train/prior_ent_max": 76.78291617499457, "train/prior_ent_mean": 45.85207165612115, "train/prior_ent_min": 27.992422077390884, "train/prior_ent_std": 7.788372708691491, "train/rep_loss_mean": 5.645337786939409, "train/rep_loss_std": 8.925225284364489, "train/reward_avg": 0.043787977296031184, "train/reward_loss_mean": 0.05808494198653433, "train/reward_loss_std": 0.21737824173437226, "train/reward_max_data": 1.0305555628405676, "train/reward_max_pred": 1.0308893140819337, "train/reward_neg_acc": 0.9938250515196059, "train/reward_neg_loss": 0.023955381436583895, "train/reward_pos_acc": 0.9883688978023, "train/reward_pos_loss": 0.7302879823578728, "train/reward_pred": 0.04321895550108618, "train/reward_rate": 0.04823133680555555, "stats/sum_log_reward": 11.433333343929714, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 2.7777777777777777, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.2222222222222223, "stats/max_log_achievement_collect_stone": 11.222222222222221, "stats/max_log_achievement_collect_wood": 10.222222222222221, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.4444444444444444, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.5555555555555556, "stats/max_log_achievement_make_stone_sword": 0.8888888888888888, "stats/max_log_achievement_make_wood_pickaxe": 1.2222222222222223, "stats/max_log_achievement_make_wood_sword": 0.8888888888888888, "stats/max_log_achievement_place_furnace": 1.3333333333333333, "stats/max_log_achievement_place_plant": 1.1111111111111112, "stats/max_log_achievement_place_stone": 3.888888888888889, "stats/max_log_achievement_place_table": 2.6666666666666665, "stats/max_log_achievement_wake_up": 1.2222222222222223, "stats/mean_log_entropy": 0.2933250019947688, "replay/size": 928476.0, "replay/inserts": 1434.0, "replay/samples": 11472.0, "replay/insert_wait_avg": 3.4236508932073744e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3307755296034128e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.36801958084106, "timer/env.step_count": 1434.0, "timer/env.step_total": 22.24389362335205, "timer/env.step_frac": 0.0740554658728085, "timer/env.step_avg": 0.015511780769422629, "timer/env.step_min": 0.002818584442138672, "timer/env.step_max": 1.6829280853271484, "timer/replay.add_count": 1434.0, "timer/replay.add_total": 0.26828885078430176, "timer/replay.add_frac": 0.0008932004517614582, "timer/replay.add_avg": 0.00018709124880355771, "timer/replay.add_min": 6.580352783203125e-05, "timer/replay.add_max": 0.0019443035125732422, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024644136428833008, "timer/logger.write_frac": 8.204647240150106e-05, "timer/logger.write_avg": 0.024644136428833008, "timer/logger.write_min": 0.024644136428833008, "timer/logger.write_max": 0.024644136428833008, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1434.0, "timer/agent.policy_total": 10.490386486053467, "timer/agent.policy_frac": 0.0349251112042242, "timer/agent.policy_avg": 0.00731547174759656, "timer/agent.policy_min": 0.005816936492919922, "timer/agent.policy_max": 0.014228582382202148, "timer/dataset_count": 717.0, "timer/dataset_total": 0.05893731117248535, "timer/dataset_frac": 0.00019621699825011818, "timer/dataset_avg": 8.219987611225293e-05, "timer/dataset_min": 5.793571472167969e-05, "timer/dataset_max": 0.00018858909606933594, "timer/agent.train_count": 717.0, "timer/agent.train_total": 266.61120438575745, "timer/agent.train_frac": 0.8876151487691974, "timer/agent.train_avg": 0.37184268394108433, "timer/agent.train_min": 0.36291956901550293, "timer/agent.train_max": 0.3845376968383789, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22070908546447754, "timer/agent.report_frac": 0.000734795554375175, "timer/agent.report_avg": 0.22070908546447754, "timer/agent.report_min": 0.22070908546447754, "timer/agent.report_max": 0.22070908546447754, "fps": 4.774080838208638}
{"step": 928746, "episode/length": 242.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.053497942386831275}
{"step": 928772, "episode/length": 25.0, "episode/score": 5.100000023841858, "episode/sum_abs_reward": 6.899999976158142, "episode/reward_rate": 0.2692307692307692}
{"step": 929018, "episode/length": 245.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.056910569105691054}
{"step": 929253, "episode/length": 234.0, "episode/score": 15.099999994039536, "episode/sum_abs_reward": 17.700000017881393, "episode/reward_rate": 0.07234042553191489}
{"step": 929480, "episode/length": 226.0, "episode/score": 13.100000023841858, "episode/sum_abs_reward": 15.10000005364418, "episode/reward_rate": 0.06167400881057269}
{"step": 929716, "episode/length": 235.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.05508474576271186}
{"step": 929928, "episode/length": 211.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.0660377358490566}
{"step": 929987, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.418799506293403, "train/action_min": 0.0, "train/action_std": 3.2990946306122675, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03927695541642606, "train/actor_opt_grad_steps": 464085.0, "train/actor_opt_loss": -10.753977553711998, "train/adv_mag": 0.38790346930424374, "train/adv_max": 0.323808623270856, "train/adv_mean": 0.00220944077890945, "train/adv_min": -0.3535060797714525, "train/adv_std": 0.04344354787220558, "train/cont_avg": 0.9949679904513888, "train/cont_loss_mean": 1.2291180563364338e-05, "train/cont_loss_std": 0.0003773084594074463, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00065583367070094, "train/cont_pos_acc": 0.9999999867545234, "train/cont_pos_loss": 8.706995023890743e-06, "train/cont_pred": 0.9949642585383521, "train/cont_rate": 0.9949679904513888, "train/dyn_loss_mean": 5.599590712123447, "train/dyn_loss_std": 8.890367070833841, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8790703722172313, "train/extr_critic_critic_opt_grad_steps": 464085.0, "train/extr_critic_critic_opt_loss": 15540.984117296008, "train/extr_critic_mag": 12.044839408662584, "train/extr_critic_max": 12.044839408662584, "train/extr_critic_mean": 3.742348061667548, "train/extr_critic_min": -0.3261265721586015, "train/extr_critic_std": 2.897467361556159, "train/extr_return_normed_mag": 1.3918564899100199, "train/extr_return_normed_max": 1.3918564899100199, "train/extr_return_normed_mean": 0.4008368013633622, "train/extr_return_normed_min": -0.08265433217295343, "train/extr_return_normed_std": 0.31847358205252224, "train/extr_return_rate": 0.8658972200420167, "train/extr_return_raw_mag": 12.856522719065348, "train/extr_return_raw_max": 12.856522719065348, "train/extr_return_raw_mean": 3.7626213563813105, "train/extr_return_raw_min": -0.6740637173255285, "train/extr_return_raw_std": 2.922410267922613, "train/extr_reward_mag": 1.064395248889923, "train/extr_reward_max": 1.064395248889923, "train/extr_reward_mean": 0.061850946189628705, "train/extr_reward_min": -0.6134084860483805, "train/extr_reward_std": 0.23956436291337013, "train/image_loss_mean": 3.2802878816922507, "train/image_loss_std": 8.644101321697235, "train/model_loss_mean": 6.697527620527479, "train/model_loss_std": 12.77547792593638, "train/model_opt_grad_norm": 23.565079278416103, "train/model_opt_grad_steps": 463707.0, "train/model_opt_loss": 8371.909586588541, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.6798937883641987, "train/policy_entropy_max": 2.6798937883641987, "train/policy_entropy_mean": 0.3943687669105, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5953501222862138, "train/policy_logprob_mag": 7.438384334246318, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39500730567508274, "train/policy_logprob_min": -7.438384334246318, "train/policy_logprob_std": 1.0246511416302786, "train/policy_randomness_mag": 0.9458849024441507, "train/policy_randomness_max": 0.9458849024441507, "train/policy_randomness_mean": 0.13919486912588278, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21013246590478551, "train/post_ent_mag": 55.53398026360406, "train/post_ent_max": 55.53398026360406, "train/post_ent_mean": 40.259011798434784, "train/post_ent_min": 19.376361582014297, "train/post_ent_std": 5.851060456699795, "train/prior_ent_mag": 76.80379909939236, "train/prior_ent_max": 76.80379909939236, "train/prior_ent_mean": 45.88957569334242, "train/prior_ent_min": 27.862561146418255, "train/prior_ent_std": 7.875468995836046, "train/rep_loss_mean": 5.599590712123447, "train/rep_loss_std": 8.890367070833841, "train/reward_avg": 0.04222140781995323, "train/reward_loss_mean": 0.05747311603691843, "train/reward_loss_std": 0.20970554422173235, "train/reward_max_data": 1.0250000059604645, "train/reward_max_pred": 1.0240646931860182, "train/reward_neg_acc": 0.9936101047529114, "train/reward_neg_loss": 0.025115521223698225, "train/reward_pos_acc": 0.9916687309741974, "train/reward_pos_loss": 0.713857754237122, "train/reward_pred": 0.04208289893964926, "train/reward_rate": 0.04701063368055555, "stats/sum_log_reward": 11.957143170492989, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.14285714285714285, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 15.428571428571429, "stats/max_log_achievement_collect_wood": 13.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.2857142857142856, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_stone_sword": 1.5714285714285714, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.7142857142857142, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 3.5714285714285716, "stats/max_log_achievement_place_table": 3.4285714285714284, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.38050293922424316, "replay/size": 929924.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.4437324460698755e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3247832079618675e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2025158405304, "timer/env.step_count": 1448.0, "timer/env.step_total": 19.288509130477905, "timer/env.step_frac": 0.06425165717373299, "timer/env.step_avg": 0.013320793598396344, "timer/env.step_min": 0.0028755664825439453, "timer/env.step_max": 1.689699649810791, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.26886558532714844, "timer/replay.add_frac": 0.0008956140309962347, "timer/replay.add_avg": 0.00018568065285024064, "timer/replay.add_min": 6.508827209472656e-05, "timer/replay.add_max": 0.0025746822357177734, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0285186767578125, "timer/logger.write_frac": 9.499812710750837e-05, "timer/logger.write_avg": 0.0285186767578125, "timer/logger.write_min": 0.0285186767578125, "timer/logger.write_max": 0.0285186767578125, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 10.739169359207153, "timer/agent.policy_frac": 0.03577308247780266, "timer/agent.policy_avg": 0.007416553424866819, "timer/agent.policy_min": 0.005690097808837891, "timer/agent.policy_max": 0.014501571655273438, "timer/dataset_count": 724.0, "timer/dataset_total": 0.06065249443054199, "timer/dataset_frac": 0.00020203859471571188, "timer/dataset_avg": 8.377416357809668e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.0001647472381591797, "timer/agent.train_count": 724.0, "timer/agent.train_total": 269.1338315010071, "timer/agent.train_frac": 0.8965075817151805, "timer/agent.train_avg": 0.3717318114654794, "timer/agent.train_min": 0.3654665946960449, "timer/agent.train_max": 0.3862428665161133, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22066187858581543, "timer/agent.report_frac": 0.0007350434021779901, "timer/agent.report_avg": 0.22066187858581543, "timer/agent.report_min": 0.22066187858581543, "timer/agent.report_max": 0.22066187858581543, "fps": 4.823318138099121}
{"step": 930239, "episode/length": 310.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.04823151125401929}
{"step": 930470, "episode/length": 230.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 17.100000008940697, "episode/reward_rate": 0.06926406926406926}
{"step": 930724, "episode/length": 253.0, "episode/score": 14.099999979138374, "episode/sum_abs_reward": 17.10000003874302, "episode/reward_rate": 0.05905511811023622}
{"step": 930920, "episode/length": 195.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.30000001937151, "episode/reward_rate": 0.08163265306122448}
{"step": 931135, "episode/length": 214.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.06046511627906977}
{"step": 931406, "episode/length": 270.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.055350553505535055}
{"step": 931419, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.402307298448351, "train/action_min": 0.0, "train/action_std": 3.272913691070345, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.037852863729414016, "train/actor_opt_grad_steps": 464805.0, "train/actor_opt_loss": -10.883492262827026, "train/adv_mag": 0.38437995521558654, "train/adv_max": 0.318800937384367, "train/adv_mean": 0.0019704083450859697, "train/adv_min": -0.3445713300671842, "train/adv_std": 0.04289461848222547, "train/cont_avg": 0.9948594835069444, "train/cont_loss_mean": 4.3556025681981384e-05, "train/cont_loss_std": 0.0013033675424350595, "train/cont_neg_acc": 0.9930555555555556, "train/cont_neg_loss": 0.01271591562468593, "train/cont_pos_acc": 0.9999862644407485, "train/cont_pos_loss": 1.823309443999616e-05, "train/cont_pred": 0.9948588394456439, "train/cont_rate": 0.9948594835069444, "train/dyn_loss_mean": 5.463091949621837, "train/dyn_loss_std": 8.881389061609903, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9207799227701293, "train/extr_critic_critic_opt_grad_steps": 464805.0, "train/extr_critic_critic_opt_loss": 15469.016438802084, "train/extr_critic_mag": 12.224812878502739, "train/extr_critic_max": 12.224812878502739, "train/extr_critic_mean": 3.799648142523236, "train/extr_critic_min": -0.32997642788622117, "train/extr_critic_std": 2.9191339214642844, "train/extr_return_normed_mag": 1.3923094206386142, "train/extr_return_normed_max": 1.3923094206386142, "train/extr_return_normed_mean": 0.40274817993243534, "train/extr_return_normed_min": -0.08519810003538926, "train/extr_return_normed_std": 0.31729590168429744, "train/extr_return_rate": 0.8718940334187614, "train/extr_return_raw_mag": 13.019454916318258, "train/extr_return_raw_max": 13.019454916318258, "train/extr_return_raw_mean": 3.8179678519566855, "train/extr_return_raw_min": -0.719081447356277, "train/extr_return_raw_std": 2.950485385126538, "train/extr_reward_mag": 1.064770023028056, "train/extr_reward_max": 1.064770023028056, "train/extr_reward_mean": 0.061837612392587796, "train/extr_reward_min": -0.5921640776925616, "train/extr_reward_std": 0.23913162822524706, "train/image_loss_mean": 3.366933951775233, "train/image_loss_std": 8.516814377572802, "train/model_loss_mean": 6.704583307107289, "train/model_loss_std": 12.641931586795383, "train/model_opt_grad_norm": 21.93030125564999, "train/model_opt_grad_steps": 464427.0, "train/model_opt_loss": 13682.011440700955, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2031.25, "train/policy_entropy_mag": 2.665254169040256, "train/policy_entropy_max": 2.665254169040256, "train/policy_entropy_mean": 0.3857902294645707, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.577058267676168, "train/policy_logprob_mag": 7.438384241527981, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3858556414230002, "train/policy_logprob_min": -7.438384241527981, "train/policy_logprob_std": 1.0119226458999846, "train/policy_randomness_mag": 0.9407177608874109, "train/policy_randomness_max": 0.9407177608874109, "train/policy_randomness_mean": 0.1361670218822029, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2036762481762303, "train/post_ent_mag": 55.723225328657364, "train/post_ent_max": 55.723225328657364, "train/post_ent_mean": 40.521095010969375, "train/post_ent_min": 19.64222656355964, "train/post_ent_std": 5.83407813972897, "train/prior_ent_mag": 76.74519920349121, "train/prior_ent_max": 76.74519920349121, "train/prior_ent_mean": 45.983933978610565, "train/prior_ent_min": 27.744569910897148, "train/prior_ent_std": 7.816437880198161, "train/rep_loss_mean": 5.463091949621837, "train/rep_loss_std": 8.881389061609903, "train/reward_avg": 0.043400064705767565, "train/reward_loss_mean": 0.059750651112861104, "train/reward_loss_std": 0.22780476696789265, "train/reward_max_data": 1.0347222305006452, "train/reward_max_pred": 1.0350229971938663, "train/reward_neg_acc": 0.9932672712537978, "train/reward_neg_loss": 0.026090411016614072, "train/reward_pos_acc": 0.9890070615543259, "train/reward_pos_loss": 0.725000348356035, "train/reward_pred": 0.043125266726646155, "train/reward_rate": 0.048136393229166664, "stats/sum_log_reward": 13.93333355585734, "stats/max_log_achievement_collect_coal": 1.1666666666666667, "stats/max_log_achievement_collect_drink": 2.3333333333333335, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 14.5, "stats/max_log_achievement_collect_wood": 14.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.6666666666666665, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.8333333333333333, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 2.1666666666666665, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.46362467110157013, "replay/size": 931356.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.4464138180183964e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3432897335990181e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.01470613479614, "timer/env.step_count": 1432.0, "timer/env.step_total": 20.4369957447052, "timer/env.step_frac": 0.06811997987699606, "timer/env.step_avg": 0.014271645073118157, "timer/env.step_min": 0.0028426647186279297, "timer/env.step_max": 2.690319776535034, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.2621312141418457, "timer/replay.add_frac": 0.0008737278832727305, "timer/replay.add_avg": 0.00018305252384207102, "timer/replay.add_min": 6.29425048828125e-05, "timer/replay.add_max": 0.004942655563354492, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030808210372924805, "timer/logger.write_frac": 0.00010268900071546067, "timer/logger.write_avg": 0.030808210372924805, "timer/logger.write_min": 0.030808210372924805, "timer/logger.write_max": 0.030808210372924805, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00024890899658203125, "timer/checkpoint.save_frac": 8.296559851642634e-07, "timer/checkpoint.save_avg": 0.00024890899658203125, "timer/checkpoint.save_min": 0.00024890899658203125, "timer/checkpoint.save_max": 0.00024890899658203125, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4400579929351807, "timer/agent.save_frac": 0.004799958013685385, "timer/agent.save_avg": 1.4400579929351807, "timer/agent.save_min": 1.4400579929351807, "timer/agent.save_max": 1.4400579929351807, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.845329284667969e-05, "timer/replay.save_frac": 2.94829856796879e-07, "timer/replay.save_avg": 8.845329284667969e-05, "timer/replay.save_min": 8.845329284667969e-05, "timer/replay.save_max": 8.845329284667969e-05, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 11.930118322372437, "timer/agent.policy_frac": 0.0397651117709285, "timer/agent.policy_avg": 0.008331088213947232, "timer/agent.policy_min": 0.0056743621826171875, "timer/agent.policy_max": 1.4294767379760742, "timer/dataset_count": 716.0, "timer/dataset_total": 0.05990767478942871, "timer/dataset_frac": 0.00019968246077414713, "timer/dataset_avg": 8.366993685674401e-05, "timer/dataset_min": 6.175041198730469e-05, "timer/dataset_max": 0.00022172927856445312, "timer/agent.train_count": 716.0, "timer/agent.train_total": 266.62770080566406, "timer/agent.train_frac": 0.8887154374554848, "timer/agent.train_avg": 0.37238505699115093, "timer/agent.train_min": 0.3644428253173828, "timer/agent.train_max": 0.9090044498443604, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22063684463500977, "timer/agent.report_frac": 0.0007354200981597148, "timer/agent.report_avg": 0.22063684463500977, "timer/agent.report_min": 0.22063684463500977, "timer/agent.report_max": 0.22063684463500977, "fps": 4.773021303844903}
{"step": 931620, "episode/length": 213.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.500000044703484, "episode/reward_rate": 0.07009345794392523}
{"step": 931856, "episode/length": 235.0, "episode/score": 14.099999994039536, "episode/sum_abs_reward": 16.700000017881393, "episode/reward_rate": 0.06779661016949153}
{"step": 932019, "episode/length": 162.0, "episode/score": 12.100000016391277, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.07975460122699386}
{"step": 932265, "episode/length": 245.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.06097560975609756}
{"step": 932694, "episode/length": 428.0, "episode/score": 16.099999986588955, "episode/sum_abs_reward": 19.30000003427267, "episode/reward_rate": 0.039627039627039624}
{"step": 932844, "episode/length": 149.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.04}
{"step": 932875, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.390576680501302, "train/action_min": 0.0, "train/action_std": 3.258526881535848, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03840357872347037, "train/actor_opt_grad_steps": 465525.0, "train/actor_opt_loss": -10.619856091009247, "train/adv_mag": 0.40545248488585156, "train/adv_max": 0.3250361945894029, "train/adv_mean": 0.0019243837227299486, "train/adv_min": -0.36265387820700806, "train/adv_std": 0.0426980452094641, "train/cont_avg": 0.9950764973958334, "train/cont_loss_mean": 7.714523912912459e-05, "train/cont_loss_std": 0.0024193491389843144, "train/cont_neg_acc": 0.9944444447755814, "train/cont_neg_loss": 0.014877538133005372, "train/cont_pos_acc": 0.999999980131785, "train/cont_pos_loss": 4.50382201602453e-06, "train/cont_pred": 0.9950977348619037, "train/cont_rate": 0.9950764973958334, "train/dyn_loss_mean": 5.389361805386013, "train/dyn_loss_std": 8.889411469300589, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9004212435748842, "train/extr_critic_critic_opt_grad_steps": 465525.0, "train/extr_critic_critic_opt_loss": 15428.942138671875, "train/extr_critic_mag": 12.151754750145805, "train/extr_critic_max": 12.151754750145805, "train/extr_critic_mean": 3.8431647982862263, "train/extr_critic_min": -0.38222680820359123, "train/extr_critic_std": 2.875985417101118, "train/extr_return_normed_mag": 1.3738958620362811, "train/extr_return_normed_max": 1.3738958620362811, "train/extr_return_normed_mean": 0.4059646733933025, "train/extr_return_normed_min": -0.08261005394160748, "train/extr_return_normed_std": 0.31187564093205666, "train/extr_return_rate": 0.8812419068482187, "train/extr_return_raw_mag": 12.859693037139046, "train/extr_return_raw_max": 12.859693037139046, "train/extr_return_raw_mean": 3.86104949315389, "train/extr_return_raw_min": -0.6816024072468281, "train/extr_return_raw_std": 2.8997129831049175, "train/extr_reward_mag": 1.065962662299474, "train/extr_reward_max": 1.065962662299474, "train/extr_reward_mean": 0.062325938501291804, "train/extr_reward_min": -0.6498806940184699, "train/extr_reward_std": 0.23973602822257412, "train/image_loss_mean": 3.1685040328237744, "train/image_loss_std": 8.125680983066559, "train/model_loss_mean": 6.459742433494991, "train/model_loss_std": 12.280429270532396, "train/model_opt_grad_norm": 22.866723497708637, "train/model_opt_grad_steps": 465146.77777777775, "train/model_opt_loss": 16149.356079101562, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2534.722222222222, "train/policy_entropy_mag": 2.6529086000389523, "train/policy_entropy_max": 2.6529086000389523, "train/policy_entropy_mean": 0.36662446562614703, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.557720982366138, "train/policy_logprob_mag": 7.438384301132626, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36644833017554546, "train/policy_logprob_min": -7.438384301132626, "train/policy_logprob_std": 0.9982746905750699, "train/policy_randomness_mag": 0.936360314488411, "train/policy_randomness_max": 0.936360314488411, "train/policy_randomness_mean": 0.12940234546032217, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19685103268259102, "train/post_ent_mag": 55.90176820755005, "train/post_ent_max": 55.90176820755005, "train/post_ent_mean": 40.38153182135688, "train/post_ent_min": 19.579555590947468, "train/post_ent_std": 5.738483303123051, "train/prior_ent_mag": 76.77243900299072, "train/prior_ent_max": 76.77243900299072, "train/prior_ent_mean": 45.75865915086534, "train/prior_ent_min": 28.03510305616591, "train/prior_ent_std": 7.746918155087365, "train/rep_loss_mean": 5.389361805386013, "train/rep_loss_std": 8.889411469300589, "train/reward_avg": 0.041848415224295527, "train/reward_loss_mean": 0.05754420218161411, "train/reward_loss_std": 0.2179052219208744, "train/reward_max_data": 1.0166666706403096, "train/reward_max_pred": 1.0170594702164333, "train/reward_neg_acc": 0.9936107248067856, "train/reward_neg_loss": 0.024762198962788615, "train/reward_pos_acc": 0.9861937363942465, "train/reward_pos_loss": 0.7354630372590489, "train/reward_pred": 0.041461174505659275, "train/reward_rate": 0.046183268229166664, "stats/sum_log_reward": 12.600000222524008, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 5.333333333333333, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 14.0, "stats/max_log_achievement_collect_wood": 12.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.3333333333333333, "stats/max_log_achievement_defeat_zombie": 1.1666666666666667, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.1666666666666665, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_stone": 2.6666666666666665, "stats/max_log_achievement_place_table": 3.3333333333333335, "stats/max_log_achievement_wake_up": 1.8333333333333333, "stats/mean_log_entropy": 0.4889641652504603, "replay/size": 932812.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.447899451622596e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3390576446449363e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3742091655731, "timer/env.step_count": 1456.0, "timer/env.step_total": 18.15657353401184, "timer/env.step_frac": 0.060446512982755864, "timer/env.step_avg": 0.012470174130502639, "timer/env.step_min": 0.002937793731689453, "timer/env.step_max": 1.7020230293273926, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.2893822193145752, "timer/replay.add_frac": 0.0009634056802628521, "timer/replay.add_avg": 0.00019875152425451593, "timer/replay.add_min": 5.793571472167969e-05, "timer/replay.add_max": 0.005892038345336914, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02588939666748047, "timer/logger.write_frac": 8.619047800208985e-05, "timer/logger.write_avg": 0.02588939666748047, "timer/logger.write_min": 0.02588939666748047, "timer/logger.write_max": 0.02588939666748047, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 10.515446186065674, "timer/agent.policy_frac": 0.035007819796769965, "timer/agent.policy_avg": 0.007222147105814336, "timer/agent.policy_min": 0.005730390548706055, "timer/agent.policy_max": 0.01817488670349121, "timer/dataset_count": 728.0, "timer/dataset_total": 0.060667991638183594, "timer/dataset_frac": 0.000201974702843885, "timer/dataset_avg": 8.333515334915328e-05, "timer/dataset_min": 6.222724914550781e-05, "timer/dataset_max": 0.00014400482177734375, "timer/agent.train_count": 728.0, "timer/agent.train_total": 270.66202902793884, "timer/agent.train_frac": 0.9010827853024617, "timer/agent.train_avg": 0.3717885014120039, "timer/agent.train_min": 0.3649895191192627, "timer/agent.train_max": 0.38756465911865234, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2191462516784668, "timer/agent.report_frac": 0.0007295774570235102, "timer/agent.report_avg": 0.2191462516784668, "timer/agent.report_min": 0.2191462516784668, "timer/agent.report_max": 0.2191462516784668, "fps": 4.847189486359383}
{"step": 933094, "episode/length": 249.0, "episode/score": 14.099999979138374, "episode/sum_abs_reward": 16.30000002682209, "episode/reward_rate": 0.06}
{"step": 933301, "episode/length": 206.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.06280193236714976}
{"step": 933467, "episode/length": 165.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.0783132530120482}
{"step": 933632, "episode/length": 164.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.07878787878787878}
{"step": 933829, "episode/length": 196.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.05583756345177665}
{"step": 934020, "episode/length": 190.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06806282722513089}
{"step": 934331, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.381970549282962, "train/action_min": 0.0, "train/action_std": 3.261473916981318, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03876087870703985, "train/actor_opt_grad_steps": 466250.0, "train/actor_opt_loss": -11.53086451308368, "train/adv_mag": 0.3921756227947261, "train/adv_max": 0.32534717717399336, "train/adv_mean": 0.001835440961669569, "train/adv_min": -0.3595261363542243, "train/adv_std": 0.04342831048655183, "train/cont_avg": 0.9947426155821918, "train/cont_loss_mean": 3.0228592681570972e-05, "train/cont_loss_std": 0.0009231343886485058, "train/cont_neg_acc": 0.9977168955215036, "train/cont_neg_loss": 0.0035183946256456995, "train/cont_pos_acc": 0.9999999820369564, "train/cont_pos_loss": 9.819542182384177e-06, "train/cont_pred": 0.9947445711044416, "train/cont_rate": 0.9947426155821918, "train/dyn_loss_mean": 5.5147760534939705, "train/dyn_loss_std": 8.831609497331593, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.910343005232615, "train/extr_critic_critic_opt_grad_steps": 466250.0, "train/extr_critic_critic_opt_loss": 15400.047155928938, "train/extr_critic_mag": 12.002396087123923, "train/extr_critic_max": 12.002396087123923, "train/extr_critic_mean": 3.9179416551981885, "train/extr_critic_min": -0.33848318825029344, "train/extr_critic_std": 2.885353121038986, "train/extr_return_normed_mag": 1.3692757152531245, "train/extr_return_normed_max": 1.3692757152531245, "train/extr_return_normed_mean": 0.4186542764918445, "train/extr_return_normed_min": -0.08175861136349913, "train/extr_return_normed_std": 0.3150571435689926, "train/extr_return_rate": 0.8822123351162428, "train/extr_return_raw_mag": 12.712320118734281, "train/extr_return_raw_max": 12.712320118734281, "train/extr_return_raw_mean": 3.934894035940301, "train/extr_return_raw_min": -0.6865372200534768, "train/extr_return_raw_std": 2.909517716055047, "train/extr_reward_mag": 1.0650966036809635, "train/extr_reward_max": 1.0650966036809635, "train/extr_reward_mean": 0.06274741612476846, "train/extr_reward_min": -0.6085893356636779, "train/extr_reward_std": 0.2405483504272487, "train/image_loss_mean": 3.115388422796171, "train/image_loss_std": 8.1171762192086, "train/model_loss_mean": 6.484034642781297, "train/model_loss_std": 12.252210878346064, "train/model_opt_grad_norm": 24.134545012696147, "train/model_opt_grad_steps": 465871.0, "train/model_opt_loss": 16210.086593000857, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6640367279314017, "train/policy_entropy_max": 2.6640367279314017, "train/policy_entropy_mean": 0.37313943672670075, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5718821111607225, "train/policy_logprob_mag": 7.4383842651158165, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3738753303681334, "train/policy_logprob_min": -7.4383842651158165, "train/policy_logprob_std": 1.0073801246407914, "train/policy_randomness_mag": 0.9402880554329859, "train/policy_randomness_max": 0.9402880554329859, "train/policy_randomness_mean": 0.13170184623705197, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2018492864827587, "train/post_ent_mag": 55.63468823367602, "train/post_ent_max": 55.63468823367602, "train/post_ent_mean": 40.3974750989104, "train/post_ent_min": 19.572633978438702, "train/post_ent_std": 5.806790129779136, "train/prior_ent_mag": 76.70599542905207, "train/prior_ent_max": 76.70599542905207, "train/prior_ent_mean": 45.90068294577403, "train/prior_ent_min": 27.7503401090021, "train/prior_ent_std": 7.781166599221425, "train/rep_loss_mean": 5.5147760534939705, "train/rep_loss_std": 8.831609497331593, "train/reward_avg": 0.04418075742991003, "train/reward_loss_mean": 0.05975038721545102, "train/reward_loss_std": 0.22590010133508134, "train/reward_max_data": 1.0301369934865874, "train/reward_max_pred": 1.0294702706271655, "train/reward_neg_acc": 0.9935063393148658, "train/reward_neg_loss": 0.025144725361813423, "train/reward_pos_acc": 0.9882502833457842, "train/reward_pos_loss": 0.7354344350017913, "train/reward_pred": 0.04372694960808101, "train/reward_rate": 0.0488013698630137, "stats/sum_log_reward": 12.100000222524008, "stats/max_log_achievement_collect_coal": 1.3333333333333333, "stats/max_log_achievement_collect_drink": 1.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 12.666666666666666, "stats/max_log_achievement_collect_wood": 13.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.8333333333333333, "stats/max_log_achievement_place_plant": 1.1666666666666667, "stats/max_log_achievement_place_stone": 2.0, "stats/max_log_achievement_place_table": 3.5, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.2644352813561757, "replay/size": 934268.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.3702824141953018e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.321679779461452e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.04859495162964, "timer/env.step_count": 1456.0, "timer/env.step_total": 17.846182346343994, "timer/env.step_frac": 0.05947764011099918, "timer/env.step_avg": 0.012256993369741754, "timer/env.step_min": 0.002904176712036133, "timer/env.step_max": 1.7155470848083496, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.2587273120880127, "timer/replay.add_frac": 0.0008622846980160721, "timer/replay.add_avg": 0.00017769732973077796, "timer/replay.add_min": 6.699562072753906e-05, "timer/replay.add_max": 0.004854917526245117, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02268838882446289, "timer/logger.write_frac": 7.561571427495086e-05, "timer/logger.write_avg": 0.02268838882446289, "timer/logger.write_min": 0.02268838882446289, "timer/logger.write_max": 0.02268838882446289, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 10.555562734603882, "timer/agent.policy_frac": 0.03517951062662209, "timer/agent.policy_avg": 0.007249699680359809, "timer/agent.policy_min": 0.0057277679443359375, "timer/agent.policy_max": 0.018375635147094727, "timer/dataset_count": 728.0, "timer/dataset_total": 0.06169295310974121, "timer/dataset_frac": 0.000205609871693239, "timer/dataset_avg": 8.474306745843573e-05, "timer/dataset_min": 6.413459777832031e-05, "timer/dataset_max": 0.0010106563568115234, "timer/agent.train_count": 728.0, "timer/agent.train_total": 270.6451632976532, "timer/agent.train_frac": 0.9020044347859169, "timer/agent.train_avg": 0.37176533420007307, "timer/agent.train_min": 0.3651754856109619, "timer/agent.train_max": 0.38686108589172363, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22018766403198242, "timer/agent.report_frac": 0.0007338400103739147, "timer/agent.report_avg": 0.22018766403198242, "timer/agent.report_min": 0.22018766403198242, "timer/agent.report_max": 0.22018766403198242, "fps": 4.852465964883627}
{"step": 934431, "episode/length": 410.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.031630170316301706}
{"step": 934620, "episode/length": 188.0, "episode/score": 14.099999979138374, "episode/sum_abs_reward": 16.30000002682209, "episode/reward_rate": 0.07936507936507936}
{"step": 934675, "episode/length": 54.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.0999999940395355, "episode/reward_rate": 0.12727272727272726}
{"step": 934952, "episode/length": 276.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.05054151624548736}
{"step": 935163, "episode/length": 210.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.07109004739336493}
{"step": 935350, "episode/length": 186.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 10.500000014901161, "episode/reward_rate": 0.058823529411764705}
{"step": 935529, "episode/length": 178.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.08379888268156424}
{"step": 935711, "episode/length": 181.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 17.500000037252903, "episode/reward_rate": 0.08791208791208792}
{"step": 935747, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.397250323228433, "train/action_min": 0.0, "train/action_std": 3.267679513340265, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03970874714809404, "train/actor_opt_grad_steps": 466970.0, "train/actor_opt_loss": -10.651679505764598, "train/adv_mag": 0.41429455263513915, "train/adv_max": 0.346326921607407, "train/adv_mean": 0.0026897670179326745, "train/adv_min": -0.35987271662329284, "train/adv_std": 0.04440274483091395, "train/cont_avg": 0.994993397887324, "train/cont_loss_mean": 6.993423546630215e-05, "train/cont_loss_std": 0.0021238329975227623, "train/cont_neg_acc": 0.9976525827192925, "train/cont_neg_loss": 0.010397632863946913, "train/cont_pos_acc": 0.999999979012449, "train/cont_pos_loss": 1.0809726594404092e-05, "train/cont_pred": 0.9950024720648645, "train/cont_rate": 0.994993397887324, "train/dyn_loss_mean": 5.524928415325326, "train/dyn_loss_std": 8.891154766082764, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9253523517662371, "train/extr_critic_critic_opt_grad_steps": 466970.0, "train/extr_critic_critic_opt_loss": 15681.035183758802, "train/extr_critic_mag": 12.04524781670369, "train/extr_critic_max": 12.04524781670369, "train/extr_critic_mean": 3.841794923997261, "train/extr_critic_min": -0.34961598188104764, "train/extr_critic_std": 2.870339893958938, "train/extr_return_normed_mag": 1.3750005691823826, "train/extr_return_normed_max": 1.3750005691823826, "train/extr_return_normed_mean": 0.41161164767305614, "train/extr_return_normed_min": -0.08317274358910574, "train/extr_return_normed_std": 0.31330886735043056, "train/extr_return_rate": 0.8724151379625562, "train/extr_return_raw_mag": 12.792804556833186, "train/extr_return_raw_max": 12.792804556833186, "train/extr_return_raw_mean": 3.8667263514559034, "train/extr_return_raw_min": -0.7168713791269652, "train/extr_return_raw_std": 2.9028875290508003, "train/extr_reward_mag": 1.0721083358979562, "train/extr_reward_max": 1.0721083358979562, "train/extr_reward_mean": 0.061848694537307174, "train/extr_reward_min": -0.6563003382212679, "train/extr_reward_std": 0.23886917489515225, "train/image_loss_mean": 3.1902501986060345, "train/image_loss_std": 8.798021860525642, "train/model_loss_mean": 6.563153696731782, "train/model_loss_std": 12.933521324480084, "train/model_opt_grad_norm": 23.117683853901607, "train/model_opt_grad_steps": 466590.23943661974, "train/model_opt_loss": 17731.292941241198, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2711.2676056338028, "train/policy_entropy_mag": 2.6436701291043994, "train/policy_entropy_max": 2.6436701291043994, "train/policy_entropy_mean": 0.365003603654848, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5575163872309135, "train/policy_logprob_mag": 7.438384250855782, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3650187973825025, "train/policy_logprob_min": -7.438384250855782, "train/policy_logprob_std": 0.9968486319125538, "train/policy_randomness_mag": 0.9330995410261019, "train/policy_randomness_max": 0.9330995410261019, "train/policy_randomness_mean": 0.12883025512728893, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19677881865014493, "train/post_ent_mag": 55.41829273062692, "train/post_ent_max": 55.41829273062692, "train/post_ent_mean": 40.197699694566325, "train/post_ent_min": 19.629805524584274, "train/post_ent_std": 5.685577587342598, "train/prior_ent_mag": 76.78779365647007, "train/prior_ent_max": 76.78779365647007, "train/prior_ent_mean": 45.68926985834686, "train/prior_ent_min": 28.003753715837505, "train/prior_ent_std": 7.740535030902271, "train/rep_loss_mean": 5.524928415325326, "train/rep_loss_std": 8.891154766082764, "train/reward_avg": 0.04209259430497465, "train/reward_loss_mean": 0.0578765573740845, "train/reward_loss_std": 0.22356189430599482, "train/reward_max_data": 1.025352118720471, "train/reward_max_pred": 1.0241115462612098, "train/reward_neg_acc": 0.993641582173361, "train/reward_neg_loss": 0.02458395073059159, "train/reward_pos_acc": 0.9859373183317588, "train/reward_pos_loss": 0.7398709100736699, "train/reward_pred": 0.04164668403460946, "train/reward_rate": 0.04672370158450704, "stats/sum_log_reward": 12.100000262260437, "stats/max_log_achievement_collect_coal": 0.625, "stats/max_log_achievement_collect_drink": 4.25, "stats/max_log_achievement_collect_iron": 0.125, "stats/max_log_achievement_collect_sapling": 1.375, "stats/max_log_achievement_collect_stone": 12.75, "stats/max_log_achievement_collect_wood": 12.875, "stats/max_log_achievement_defeat_skeleton": 0.25, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.375, "stats/max_log_achievement_make_stone_pickaxe": 0.875, "stats/max_log_achievement_make_stone_sword": 0.875, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.25, "stats/max_log_achievement_place_plant": 1.375, "stats/max_log_achievement_place_stone": 2.375, "stats/max_log_achievement_place_table": 2.875, "stats/max_log_achievement_wake_up": 1.375, "stats/mean_log_entropy": 0.3868097383528948, "replay/size": 935684.0, "replay/inserts": 1416.0, "replay/samples": 11328.0, "replay/insert_wait_avg": 3.3979698763055315e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3140593208162125e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 299.9998996257782, "timer/env.step_count": 1416.0, "timer/env.step_total": 23.019787788391113, "timer/env.step_frac": 0.07673265163457102, "timer/env.step_avg": 0.016256912279937228, "timer/env.step_min": 0.002905130386352539, "timer/env.step_max": 1.9324181079864502, "timer/replay.add_count": 1416.0, "timer/replay.add_total": 0.26854968070983887, "timer/replay.add_frac": 0.0008951659018713988, "timer/replay.add_avg": 0.00018965372931485796, "timer/replay.add_min": 7.033348083496094e-05, "timer/replay.add_max": 0.0039403438568115234, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02102804183959961, "timer/logger.write_frac": 7.009349625059916e-05, "timer/logger.write_avg": 0.02102804183959961, "timer/logger.write_min": 0.02102804183959961, "timer/logger.write_max": 0.02102804183959961, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002830028533935547, "timer/checkpoint.save_frac": 9.433431602696343e-07, "timer/checkpoint.save_avg": 0.0002830028533935547, "timer/checkpoint.save_min": 0.0002830028533935547, "timer/checkpoint.save_max": 0.0002830028533935547, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.173342227935791, "timer/agent.save_frac": 0.003911142068378775, "timer/agent.save_avg": 1.173342227935791, "timer/agent.save_min": 1.173342227935791, "timer/agent.save_max": 1.173342227935791, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.699562072753906e-05, "timer/replay.save_frac": 2.2331881047663625e-07, "timer/replay.save_avg": 6.699562072753906e-05, "timer/replay.save_min": 6.699562072753906e-05, "timer/replay.save_max": 6.699562072753906e-05, "timer/agent.policy_count": 1416.0, "timer/agent.policy_total": 12.175140142440796, "timer/agent.policy_frac": 0.04058381405336516, "timer/agent.policy_avg": 0.00859826281245819, "timer/agent.policy_min": 0.00567936897277832, "timer/agent.policy_max": 1.1655774116516113, "timer/dataset_count": 708.0, "timer/dataset_total": 0.05872082710266113, "timer/dataset_frac": 0.0001957361558317515, "timer/dataset_avg": 8.293902133144228e-05, "timer/dataset_min": 6.222724914550781e-05, "timer/dataset_max": 0.0001437664031982422, "timer/agent.train_count": 708.0, "timer/agent.train_total": 263.79114866256714, "timer/agent.train_frac": 0.8793041230734474, "timer/agent.train_avg": 0.3725863681674677, "timer/agent.train_min": 0.36418747901916504, "timer/agent.train_max": 0.8833937644958496, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2219705581665039, "timer/agent.report_frac": 0.0007399021081120074, "timer/agent.report_avg": 0.2219705581665039, "timer/agent.report_min": 0.2219705581665039, "timer/agent.report_max": 0.2219705581665039, "fps": 4.719899434642917}
{"step": 935774, "episode/length": 62.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 8.899999991059303, "episode/reward_rate": 0.14285714285714285}
{"step": 936133, "episode/length": 358.0, "episode/score": 17.099999986588955, "episode/sum_abs_reward": 19.700000025331974, "episode/reward_rate": 0.05013927576601671}
{"step": 936521, "episode/length": 387.0, "episode/score": 14.100000023841858, "episode/sum_abs_reward": 16.500000059604645, "episode/reward_rate": 0.03865979381443299}
{"step": 936703, "episode/length": 181.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.07692307692307693}
{"step": 936862, "episode/length": 158.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.08176100628930817}
{"step": 937024, "episode/length": 161.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.500000044703484, "episode/reward_rate": 0.08024691358024691}
{"step": 937203, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.436765069830908, "train/action_min": 0.0, "train/action_std": 3.2814974164309567, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03934369200508889, "train/actor_opt_grad_steps": 467690.0, "train/actor_opt_loss": -11.118846568342757, "train/adv_mag": 0.39941039477309137, "train/adv_max": 0.3333694457191311, "train/adv_mean": 0.001976081853384018, "train/adv_min": -0.34629260881306373, "train/adv_std": 0.043304456627532226, "train/cont_avg": 0.995023544520548, "train/cont_loss_mean": 1.9499826740109848e-05, "train/cont_loss_std": 0.0005763608293635066, "train/cont_neg_acc": 0.9965753424657534, "train/cont_neg_loss": 0.003359542642662916, "train/cont_pos_acc": 0.9999999828534584, "train/cont_pos_loss": 6.1789077715555526e-06, "train/cont_pred": 0.9950265084227471, "train/cont_rate": 0.995023544520548, "train/dyn_loss_mean": 5.624055150437028, "train/dyn_loss_std": 8.934272681197076, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9185373334035482, "train/extr_critic_critic_opt_grad_steps": 467690.0, "train/extr_critic_critic_opt_loss": 15735.970770012842, "train/extr_critic_mag": 12.162556713574553, "train/extr_critic_max": 12.162556713574553, "train/extr_critic_mean": 3.7360199934815705, "train/extr_critic_min": -0.35787997180468417, "train/extr_critic_std": 2.861378601152603, "train/extr_return_normed_mag": 1.380502356241827, "train/extr_return_normed_max": 1.380502356241827, "train/extr_return_normed_mean": 0.39497883434165015, "train/extr_return_normed_min": -0.08444177374651987, "train/extr_return_normed_std": 0.30901834266643, "train/extr_return_rate": 0.8694260553137897, "train/extr_return_raw_mag": 12.949349429509411, "train/extr_return_raw_max": 12.949349429509411, "train/extr_return_raw_mean": 3.754461546466775, "train/extr_return_raw_min": -0.7182000244725241, "train/extr_return_raw_std": 2.8832703583861052, "train/extr_reward_mag": 1.0768672799410886, "train/extr_reward_max": 1.0768672799410886, "train/extr_reward_mean": 0.060663662289511665, "train/extr_reward_min": -0.6314119802762385, "train/extr_reward_std": 0.23722143757016692, "train/image_loss_mean": 3.394326141435806, "train/image_loss_std": 8.694215206250753, "train/model_loss_mean": 6.827683958288741, "train/model_loss_std": 12.86459400229258, "train/model_opt_grad_norm": 23.025671841347055, "train/model_opt_grad_steps": 467309.68493150687, "train/model_opt_loss": 18051.537363548803, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2636.986301369863, "train/policy_entropy_mag": 2.6794606038968856, "train/policy_entropy_max": 2.6794606038968856, "train/policy_entropy_mean": 0.38434259246473446, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5817091089405425, "train/policy_logprob_mag": 7.438384245519769, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3839090840048986, "train/policy_logprob_min": -7.438384245519769, "train/policy_logprob_std": 1.0111338161442378, "train/policy_randomness_mag": 0.945732007287953, "train/policy_randomness_max": 0.945732007287953, "train/policy_randomness_mean": 0.13565606960695084, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20531778833637498, "train/post_ent_mag": 55.19063803267805, "train/post_ent_max": 55.19063803267805, "train/post_ent_mean": 40.37796203404257, "train/post_ent_min": 19.723173141479492, "train/post_ent_std": 5.746416692864405, "train/prior_ent_mag": 76.75509497237532, "train/prior_ent_max": 76.75509497237532, "train/prior_ent_mean": 46.00629148091355, "train/prior_ent_min": 28.18136095020869, "train/prior_ent_std": 7.756241700420641, "train/rep_loss_mean": 5.624055150437028, "train/rep_loss_std": 8.934272681197076, "train/reward_avg": 0.042392176257012644, "train/reward_loss_mean": 0.058905241985435355, "train/reward_loss_std": 0.22410485005542025, "train/reward_max_data": 1.0342465835074857, "train/reward_max_pred": 1.0357429785271213, "train/reward_neg_acc": 0.9929716872842345, "train/reward_neg_loss": 0.025682888242530906, "train/reward_pos_acc": 0.9863171920384446, "train/reward_pos_loss": 0.735904482129502, "train/reward_pred": 0.04191340796955644, "train/reward_rate": 0.04694188784246575, "stats/sum_log_reward": 12.600000222524008, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 1.6666666666666667, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 1.1666666666666667, "stats/max_log_achievement_collect_stone": 11.0, "stats/max_log_achievement_collect_wood": 11.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.6666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 1.1666666666666667, "stats/max_log_achievement_place_stone": 1.8333333333333333, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.4820924202601115, "stats/max_log_achievement_make_iron_sword": 0.2, "replay/size": 937140.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.544183877798227e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3294578581065923e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2411410808563, "timer/env.step_count": 1456.0, "timer/env.step_total": 17.535014867782593, "timer/env.step_frac": 0.05840310493311219, "timer/env.step_avg": 0.012043279442158375, "timer/env.step_min": 0.0028221607208251953, "timer/env.step_max": 1.6027414798736572, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.2647511959075928, "timer/replay.add_frac": 0.0008817951962029549, "timer/replay.add_avg": 0.00018183461257389614, "timer/replay.add_min": 6.771087646484375e-05, "timer/replay.add_max": 0.0030670166015625, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02883625030517578, "timer/logger.write_frac": 9.604363413143985e-05, "timer/logger.write_avg": 0.02883625030517578, "timer/logger.write_min": 0.02883625030517578, "timer/logger.write_max": 0.02883625030517578, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 10.762302875518799, "timer/agent.policy_frac": 0.0358455301521135, "timer/agent.policy_avg": 0.007391691535383791, "timer/agent.policy_min": 0.005693912506103516, "timer/agent.policy_max": 0.01653742790222168, "timer/dataset_count": 728.0, "timer/dataset_total": 0.06104016304016113, "timer/dataset_frac": 0.00020330379381193044, "timer/dataset_avg": 8.384637780241913e-05, "timer/dataset_min": 6.389617919921875e-05, "timer/dataset_max": 0.0001926422119140625, "timer/agent.train_count": 728.0, "timer/agent.train_total": 270.9114799499512, "timer/agent.train_frac": 0.9023129840723376, "timer/agent.train_avg": 0.37213115377740547, "timer/agent.train_min": 0.36581945419311523, "timer/agent.train_max": 0.38583827018737793, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22108197212219238, "timer/agent.report_frac": 0.000736348027876213, "timer/agent.report_avg": 0.22108197212219238, "timer/agent.report_min": 0.22108197212219238, "timer/agent.report_max": 0.22108197212219238, "fps": 4.8493558201694755}
{"step": 937320, "episode/length": 295.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 15.100000008940697, "episode/reward_rate": 0.0472972972972973}
{"step": 937576, "episode/length": 255.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.500000022351742, "episode/reward_rate": 0.0625}
{"step": 937743, "episode/length": 166.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.07784431137724551}
{"step": 937996, "episode/length": 252.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000006109476, "episode/reward_rate": 0.06324110671936758}
{"step": 938191, "episode/length": 194.0, "episode/score": 13.100000016391277, "episode/sum_abs_reward": 14.700000040233135, "episode/reward_rate": 0.07179487179487179}
{"step": 938462, "episode/length": 270.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.30000003427267, "episode/reward_rate": 0.055350553505535055}
{"step": 938657, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.445272657606337, "train/action_min": 0.0, "train/action_std": 3.2934119602044425, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.039266804000362754, "train/actor_opt_grad_steps": 468415.0, "train/actor_opt_loss": -11.871338898522986, "train/adv_mag": 0.4165899165802532, "train/adv_max": 0.3272476529495584, "train/adv_mean": 0.0017025184091481707, "train/adv_min": -0.39223211507002514, "train/adv_std": 0.044171200754741825, "train/cont_avg": 0.9954291449652778, "train/cont_loss_mean": 7.987158147631451e-05, "train/cont_loss_std": 0.002468050913470342, "train/cont_neg_acc": 0.9957010596990585, "train/cont_neg_loss": 0.00930914970086658, "train/cont_pos_acc": 0.9999863704045614, "train/cont_pos_loss": 2.3643533868029148e-05, "train/cont_pred": 0.9954342088765569, "train/cont_rate": 0.9954291449652778, "train/dyn_loss_mean": 5.512525710794661, "train/dyn_loss_std": 8.844270964463552, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.896218576365047, "train/extr_critic_critic_opt_grad_steps": 468415.0, "train/extr_critic_critic_opt_loss": 15380.780734592014, "train/extr_critic_mag": 12.020932131343418, "train/extr_critic_max": 12.020932131343418, "train/extr_critic_mean": 3.8883278237448797, "train/extr_critic_min": -0.3221120900577969, "train/extr_critic_std": 2.806624243656794, "train/extr_return_normed_mag": 1.3696617053614721, "train/extr_return_normed_max": 1.3696617053614721, "train/extr_return_normed_mean": 0.41541732392377323, "train/extr_return_normed_min": -0.07847562965212597, "train/extr_return_normed_std": 0.3062386086417569, "train/extr_return_rate": 0.8856644680102667, "train/extr_return_raw_mag": 12.741179823875427, "train/extr_return_raw_max": 12.741179823875427, "train/extr_return_raw_mean": 3.9040878315766654, "train/extr_return_raw_min": -0.6703512105676863, "train/extr_return_raw_std": 2.836169295840793, "train/extr_reward_mag": 1.0707493325074513, "train/extr_reward_max": 1.0707493325074513, "train/extr_reward_mean": 0.06243276916858223, "train/extr_reward_min": -0.6303711666001214, "train/extr_reward_std": 0.24028311690522564, "train/image_loss_mean": 3.1385121411747403, "train/image_loss_std": 8.35754872030682, "train/model_loss_mean": 6.503996617264217, "train/model_loss_std": 12.471459481451246, "train/model_opt_grad_norm": 21.291361424658035, "train/model_opt_grad_steps": 468034.0, "train/model_opt_loss": 16259.99156358507, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6884318126572504, "train/policy_entropy_max": 2.6884318126572504, "train/policy_entropy_mean": 0.38001698524587685, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5804113029605813, "train/policy_logprob_mag": 7.438384281264411, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3798242414163219, "train/policy_logprob_min": -7.438384281264411, "train/policy_logprob_std": 1.010555811226368, "train/policy_randomness_mag": 0.9488984528515074, "train/policy_randomness_max": 0.9488984528515074, "train/policy_randomness_mean": 0.13412931923651034, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20485971847342122, "train/post_ent_mag": 55.544625441233315, "train/post_ent_max": 55.544625441233315, "train/post_ent_mean": 40.2746958732605, "train/post_ent_min": 19.787081294589573, "train/post_ent_std": 5.774315933386485, "train/prior_ent_mag": 76.71628761291504, "train/prior_ent_max": 76.71628761291504, "train/prior_ent_mean": 45.78541713290744, "train/prior_ent_min": 28.460920068952774, "train/prior_ent_std": 7.741712252298991, "train/rep_loss_mean": 5.512525710794661, "train/rep_loss_std": 8.844270964463552, "train/reward_avg": 0.043320040917024016, "train/reward_loss_mean": 0.05788918672543433, "train/reward_loss_std": 0.21528265956375334, "train/reward_max_data": 1.0194444490803614, "train/reward_max_pred": 1.0199538932906256, "train/reward_neg_acc": 0.9934525713324547, "train/reward_neg_loss": 0.024419036383430164, "train/reward_pos_acc": 0.9890119358897209, "train/reward_pos_loss": 0.7275137371487088, "train/reward_pred": 0.04309855116945174, "train/reward_rate": 0.04771592881944445, "stats/sum_log_reward": 13.43333371480306, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 3.6666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 21.5, "stats/max_log_achievement_collect_wood": 14.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.8333333333333334, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.5, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 2.8333333333333335, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 4.333333333333333, "stats/max_log_achievement_place_table": 3.6666666666666665, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.41634627679983777, "replay/size": 938594.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.503310139274335e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3118965917637128e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3572943210602, "timer/env.step_count": 1454.0, "timer/env.step_total": 18.066818952560425, "timer/env.step_frac": 0.060151091031098135, "timer/env.step_avg": 0.012425597628996166, "timer/env.step_min": 0.002876758575439453, "timer/env.step_max": 1.6912922859191895, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.2624838352203369, "timer/replay.add_frac": 0.0008739053127165299, "timer/replay.add_avg": 0.00018052533371412443, "timer/replay.add_min": 6.270408630371094e-05, "timer/replay.add_max": 0.003253936767578125, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022927045822143555, "timer/logger.write_frac": 7.633257542144525e-05, "timer/logger.write_avg": 0.022927045822143555, "timer/logger.write_min": 0.022927045822143555, "timer/logger.write_max": 0.022927045822143555, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 10.742442846298218, "timer/agent.policy_frac": 0.035765546731871024, "timer/agent.policy_avg": 0.007388200031841966, "timer/agent.policy_min": 0.0056264400482177734, "timer/agent.policy_max": 0.01705312728881836, "timer/dataset_count": 727.0, "timer/dataset_total": 0.06035017967224121, "timer/dataset_frac": 0.00020092796417233417, "timer/dataset_avg": 8.301262678437581e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.0001506805419921875, "timer/agent.train_count": 727.0, "timer/agent.train_total": 270.52674436569214, "timer/agent.train_frac": 0.9006831180085098, "timer/agent.train_avg": 0.37211381618389566, "timer/agent.train_min": 0.3656885623931885, "timer/agent.train_max": 0.3866701126098633, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22119498252868652, "timer/agent.report_frac": 0.0007364395228978362, "timer/agent.report_avg": 0.22119498252868652, "timer/agent.report_min": 0.22119498252868652, "timer/agent.report_max": 0.22119498252868652, "fps": 4.8408056845377105}
{"step": 938661, "episode/length": 198.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.07537688442211055}
{"step": 938832, "episode/length": 170.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.08771929824561403}
{"step": 938932, "episode/length": 99.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.300000041723251, "episode/reward_rate": 0.09}
{"step": 939151, "episode/length": 218.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.0410958904109589}
{"step": 939300, "episode/length": 148.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.500000037252903, "episode/reward_rate": 0.0738255033557047}
{"step": 939523, "episode/length": 222.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.05829596412556054}
{"step": 939685, "episode/length": 161.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.08024691358024691}
{"step": 939890, "episode/length": 204.0, "episode/score": 10.099999979138374, "episode/sum_abs_reward": 12.30000002682209, "episode/reward_rate": 0.05365853658536585}
{"step": 939936, "episode/length": 45.0, "episode/score": 6.100000023841858, "episode/sum_abs_reward": 7.899999976158142, "episode/reward_rate": 0.17391304347826086}
{"step": 940089, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.450257195366754, "train/action_min": 0.0, "train/action_std": 3.3152188857396445, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03924072513149844, "train/actor_opt_grad_steps": 469135.0, "train/actor_opt_loss": -11.50785653375917, "train/adv_mag": 0.3893284859756629, "train/adv_max": 0.3141654547717836, "train/adv_mean": 0.0019661337730414946, "train/adv_min": -0.3626242871913645, "train/adv_std": 0.04362191021856335, "train/cont_avg": 0.9946424696180556, "train/cont_loss_mean": 1.4659962833698773e-05, "train/cont_loss_std": 0.00044668149665049047, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0014870018498721728, "train/cont_pos_acc": 0.9999999793039428, "train/cont_pos_loss": 7.080288200375959e-06, "train/cont_pred": 0.9946429166528914, "train/cont_rate": 0.9946424696180556, "train/dyn_loss_mean": 5.474332630634308, "train/dyn_loss_std": 8.872104578548008, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9496323433187273, "train/extr_critic_critic_opt_grad_steps": 469135.0, "train/extr_critic_critic_opt_loss": 15439.94273546007, "train/extr_critic_mag": 12.097534603542751, "train/extr_critic_max": 12.097534603542751, "train/extr_critic_mean": 3.911991662449307, "train/extr_critic_min": -0.36292362709840137, "train/extr_critic_std": 2.9252184430758157, "train/extr_return_normed_mag": 1.3738559401697583, "train/extr_return_normed_max": 1.3738559401697583, "train/extr_return_normed_mean": 0.4167780776818593, "train/extr_return_normed_min": -0.08422139333561063, "train/extr_return_normed_std": 0.31648261348406476, "train/extr_return_rate": 0.8653447321719594, "train/extr_return_raw_mag": 12.85863843229082, "train/extr_return_raw_max": 12.85863843229082, "train/extr_return_raw_mean": 3.9303289784325495, "train/extr_return_raw_min": -0.7426851963003477, "train/extr_return_raw_std": 2.9523587392436133, "train/extr_reward_mag": 1.0628593928284116, "train/extr_reward_max": 1.0628593928284116, "train/extr_reward_mean": 0.06349072217320402, "train/extr_reward_min": -0.6417581140995026, "train/extr_reward_std": 0.242511965541376, "train/image_loss_mean": 3.199083839853605, "train/image_loss_std": 8.447148548232185, "train/model_loss_mean": 6.543523907661438, "train/model_loss_std": 12.594737847646078, "train/model_opt_grad_norm": 23.058837572733562, "train/model_opt_grad_steps": 468753.09722222225, "train/model_opt_loss": 16788.961832682293, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2569.4444444444443, "train/policy_entropy_mag": 2.666709009144041, "train/policy_entropy_max": 2.666709009144041, "train/policy_entropy_mean": 0.3775901858591371, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5682668636242548, "train/policy_logprob_mag": 7.438384274641673, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3774825781583786, "train/policy_logprob_min": -7.438384274641673, "train/policy_logprob_std": 1.0061324454016156, "train/policy_randomness_mag": 0.9412312549021509, "train/policy_randomness_max": 0.9412312549021509, "train/policy_randomness_mean": 0.13327276510083014, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20057326410379675, "train/post_ent_mag": 55.56715933481852, "train/post_ent_max": 55.56715933481852, "train/post_ent_mean": 40.4874390496148, "train/post_ent_min": 19.53368576367696, "train/post_ent_std": 5.729726301299201, "train/prior_ent_mag": 76.64748870001898, "train/prior_ent_max": 76.64748870001898, "train/prior_ent_mean": 45.94600905312432, "train/prior_ent_min": 28.416126039293076, "train/prior_ent_std": 7.781692405541738, "train/rep_loss_mean": 5.474332630634308, "train/rep_loss_std": 8.872104578548008, "train/reward_avg": 0.044010416578708425, "train/reward_loss_mean": 0.05982583968175782, "train/reward_loss_std": 0.22494741446442074, "train/reward_max_data": 1.0180555598603354, "train/reward_max_pred": 1.0174863967630599, "train/reward_neg_acc": 0.9936679767237769, "train/reward_neg_loss": 0.02537588614763485, "train/reward_pos_acc": 0.9862572823961576, "train/reward_pos_loss": 0.7341786449154218, "train/reward_pred": 0.043500323960971504, "train/reward_rate": 0.04867892795138889, "stats/sum_log_reward": 10.544444666968452, "stats/max_log_achievement_collect_coal": 0.8888888888888888, "stats/max_log_achievement_collect_drink": 2.6666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 9.11111111111111, "stats/max_log_achievement_collect_wood": 10.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.1111111111111111, "stats/max_log_achievement_defeat_zombie": 0.8888888888888888, "stats/max_log_achievement_eat_cow": 0.2222222222222222, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.1111111111111111, "stats/max_log_achievement_make_stone_sword": 0.5555555555555556, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8888888888888888, "stats/max_log_achievement_place_furnace": 0.6666666666666666, "stats/max_log_achievement_place_plant": 1.4444444444444444, "stats/max_log_achievement_place_stone": 3.7777777777777777, "stats/max_log_achievement_place_table": 2.5555555555555554, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.2912909537553787, "replay/size": 940026.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.4404200548566254e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3397309367217166e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.05377674102783, "timer/env.step_count": 1432.0, "timer/env.step_total": 22.139076709747314, "timer/env.step_frac": 0.07378369621008049, "timer/env.step_avg": 0.015460249098985555, "timer/env.step_min": 0.003000497817993164, "timer/env.step_max": 1.6829380989074707, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.2723815441131592, "timer/replay.add_frac": 0.0009077757563046701, "timer/replay.add_avg": 0.0001902105754980162, "timer/replay.add_min": 6.580352783203125e-05, "timer/replay.add_max": 0.008253812789916992, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023436784744262695, "timer/logger.write_frac": 7.810861439178169e-05, "timer/logger.write_avg": 0.023436784744262695, "timer/logger.write_min": 0.023436784744262695, "timer/logger.write_max": 0.023436784744262695, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 10.502220153808594, "timer/agent.policy_frac": 0.03500112635766925, "timer/agent.policy_avg": 0.007333952621374716, "timer/agent.policy_min": 0.0057141780853271484, "timer/agent.policy_max": 0.013876676559448242, "timer/dataset_count": 716.0, "timer/dataset_total": 0.05978560447692871, "timer/dataset_frac": 0.00019924963160363357, "timer/dataset_avg": 8.349944759347585e-05, "timer/dataset_min": 6.198883056640625e-05, "timer/dataset_max": 0.0001666545867919922, "timer/agent.train_count": 716.0, "timer/agent.train_total": 266.3913004398346, "timer/agent.train_frac": 0.8878118560385699, "timer/agent.train_avg": 0.37205488888245053, "timer/agent.train_min": 0.3654518127441406, "timer/agent.train_max": 0.3836705684661865, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21796417236328125, "timer/agent.report_frac": 0.0007264170267431863, "timer/agent.report_avg": 0.21796417236328125, "timer/agent.report_min": 0.21796417236328125, "timer/agent.report_max": 0.21796417236328125, "fps": 4.772384091420466}
{"step": 940209, "episode/length": 272.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 18.900000043213367, "episode/reward_rate": 0.05860805860805861}
{"step": 940393, "episode/length": 183.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.07065217391304347}
{"step": 940550, "episode/length": 156.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.06369426751592357}
{"step": 940750, "episode/length": 199.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.07}
{"step": 940841, "episode/length": 90.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 10.10000005364418, "episode/reward_rate": 0.0989010989010989}
{"step": 941232, "episode/length": 390.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.03580562659846547}
{"step": 941467, "episode/length": 234.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.05106382978723404}
{"step": 941514, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.49993466659331, "train/action_min": 0.0, "train/action_std": 3.284056025491634, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038703964550940086, "train/actor_opt_grad_steps": 469850.0, "train/actor_opt_loss": -10.129436348525571, "train/adv_mag": 0.3933512887484591, "train/adv_max": 0.33672113737589876, "train/adv_mean": 0.0019500042508298066, "train/adv_min": -0.3459490476779535, "train/adv_std": 0.042624424093625914, "train/cont_avg": 0.994965889084507, "train/cont_loss_mean": 6.124875959220022e-05, "train/cont_loss_std": 0.0018968083602869186, "train/cont_neg_acc": 0.9971014494481294, "train/cont_neg_loss": 0.007326852974699601, "train/cont_pos_acc": 0.9999862204135304, "train/cont_pos_loss": 3.0055957250541623e-05, "train/cont_pred": 0.9949608252082073, "train/cont_rate": 0.994965889084507, "train/dyn_loss_mean": 5.601455816080873, "train/dyn_loss_std": 8.91396042998408, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9289531531468244, "train/extr_critic_critic_opt_grad_steps": 469850.0, "train/extr_critic_critic_opt_loss": 15439.951529489437, "train/extr_critic_mag": 12.08796169388462, "train/extr_critic_max": 12.08796169388462, "train/extr_critic_mean": 3.804656277240162, "train/extr_critic_min": -0.3434001073031358, "train/extr_critic_std": 2.899695398102344, "train/extr_return_normed_mag": 1.3602642542879346, "train/extr_return_normed_max": 1.3602642542879346, "train/extr_return_normed_mean": 0.40320908225757973, "train/extr_return_normed_min": -0.08291944237032407, "train/extr_return_normed_std": 0.31298963053965234, "train/extr_return_rate": 0.8653930543174206, "train/extr_return_raw_mag": 12.771235842100332, "train/extr_return_raw_max": 12.771235842100332, "train/extr_return_raw_mean": 3.822890002962569, "train/extr_return_raw_min": -0.72325019517415, "train/extr_return_raw_std": 2.9267793205422414, "train/extr_reward_mag": 1.0688530021989848, "train/extr_reward_max": 1.0688530021989848, "train/extr_reward_mean": 0.06316416642405617, "train/extr_reward_min": -0.6302750664697566, "train/extr_reward_std": 0.24158649020631548, "train/image_loss_mean": 3.3256098552488944, "train/image_loss_std": 8.591627839585426, "train/model_loss_mean": 6.746136510875863, "train/model_loss_std": 12.754842032848948, "train/model_opt_grad_norm": 22.238711034747915, "train/model_opt_grad_steps": 469467.5633802817, "train/model_opt_loss": 17943.26837588028, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2676.056338028169, "train/policy_entropy_mag": 2.6798664113165627, "train/policy_entropy_max": 2.6798664113165627, "train/policy_entropy_mean": 0.37783512263230873, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.569137475859951, "train/policy_logprob_mag": 7.438384304583912, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3770389326021705, "train/policy_logprob_min": -7.438384304583912, "train/policy_logprob_std": 1.0040999692930301, "train/policy_randomness_mag": 0.945875240043855, "train/policy_randomness_max": 0.945875240043855, "train/policy_randomness_mean": 0.13335921730793698, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2008805523665858, "train/post_ent_mag": 55.47712788111727, "train/post_ent_max": 55.47712788111727, "train/post_ent_mean": 40.40111890980895, "train/post_ent_min": 19.621715438198034, "train/post_ent_std": 5.790216150418134, "train/prior_ent_mag": 76.79555296562087, "train/prior_ent_max": 76.79555296562087, "train/prior_ent_mean": 46.018552592102914, "train/prior_ent_min": 28.1496487738381, "train/prior_ent_std": 7.753912898856149, "train/rep_loss_mean": 5.601455816080873, "train/rep_loss_std": 8.91396042998408, "train/reward_avg": 0.043474911620289505, "train/reward_loss_mean": 0.05959197480074117, "train/reward_loss_std": 0.22271223030459714, "train/reward_max_data": 1.0281690208005234, "train/reward_max_pred": 1.0277979944793272, "train/reward_neg_acc": 0.9930352602206486, "train/reward_neg_loss": 0.025965983848231778, "train/reward_pos_acc": 0.9907253006814232, "train/reward_pos_loss": 0.7251514834417424, "train/reward_pred": 0.04323093120900678, "train/reward_rate": 0.04816791373239437, "stats/sum_log_reward": 11.671428680419922, "stats/max_log_achievement_collect_coal": 0.42857142857142855, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.14285714285714285, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 15.142857142857142, "stats/max_log_achievement_collect_wood": 12.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.2857142857142858, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.4285714285714286, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 2.7142857142857144, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.3871059609310968, "replay/size": 941451.0, "replay/inserts": 1425.0, "replay/samples": 11392.0, "replay/insert_wait_avg": 3.451129846405565e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3180202647541346e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0100803375244, "timer/env.step_count": 1425.0, "timer/env.step_total": 21.01119112968445, "timer/env.step_frac": 0.07003495051248258, "timer/env.step_avg": 0.014744695529603122, "timer/env.step_min": 0.002830028533935547, "timer/env.step_max": 1.892594337463379, "timer/replay.add_count": 1425.0, "timer/replay.add_total": 0.28835368156433105, "timer/replay.add_frac": 0.0009611466429391992, "timer/replay.add_avg": 0.00020235346074689897, "timer/replay.add_min": 6.890296936035156e-05, "timer/replay.add_max": 0.004860639572143555, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030395030975341797, "timer/logger.write_frac": 0.00010131336567473353, "timer/logger.write_avg": 0.030395030975341797, "timer/logger.write_min": 0.030395030975341797, "timer/logger.write_max": 0.030395030975341797, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004911422729492188, "timer/checkpoint.save_frac": 1.6370859019025703e-06, "timer/checkpoint.save_avg": 0.0004911422729492188, "timer/checkpoint.save_min": 0.0004911422729492188, "timer/checkpoint.save_max": 0.0004911422729492188, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4174652099609375, "timer/agent.save_frac": 0.004724725277118113, "timer/agent.save_avg": 1.4174652099609375, "timer/agent.save_min": 1.4174652099609375, "timer/agent.save_max": 1.4174652099609375, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.389617919921875e-05, "timer/replay.save_frac": 2.1298010762615964e-07, "timer/replay.save_avg": 6.389617919921875e-05, "timer/replay.save_min": 6.389617919921875e-05, "timer/replay.save_max": 6.389617919921875e-05, "timer/agent.policy_count": 1425.0, "timer/agent.policy_total": 12.53413701057434, "timer/agent.policy_frac": 0.04177905287873291, "timer/agent.policy_avg": 0.008795885621455678, "timer/agent.policy_min": 0.005750417709350586, "timer/agent.policy_max": 1.415987491607666, "timer/dataset_count": 712.0, "timer/dataset_total": 0.059699058532714844, "timer/dataset_frac": 0.00019899017548193981, "timer/dataset_avg": 8.384699232122871e-05, "timer/dataset_min": 6.198883056640625e-05, "timer/dataset_max": 0.0001494884490966797, "timer/agent.train_count": 712.0, "timer/agent.train_total": 265.4087269306183, "timer/agent.train_frac": 0.8846660306614428, "timer/agent.train_avg": 0.3727650659137897, "timer/agent.train_min": 0.36236095428466797, "timer/agent.train_max": 0.9012010097503662, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22138333320617676, "timer/agent.report_frac": 0.0007379196490901601, "timer/agent.report_avg": 0.22138333320617676, "timer/agent.report_min": 0.22138333320617676, "timer/agent.report_max": 0.22138333320617676, "fps": 4.749751533750529}
{"step": 941528, "episode/length": 60.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.299999997019768, "episode/reward_rate": 0.14754098360655737}
{"step": 941703, "episode/length": 174.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.08}
{"step": 941927, "episode/length": 223.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.30000001937151, "episode/reward_rate": 0.07142857142857142}
{"step": 941973, "episode/length": 45.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 4.899999991059303, "episode/reward_rate": 0.10869565217391304}
{"step": 942176, "episode/length": 202.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.06896551724137931}
{"step": 942354, "episode/length": 177.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.500000044703484, "episode/reward_rate": 0.07303370786516854}
{"step": 942671, "episode/length": 316.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.03785488958990536}
{"step": 942702, "episode/length": 30.0, "episode/score": 5.100000023841858, "episode/sum_abs_reward": 6.899999976158142, "episode/reward_rate": 0.22580645161290322}
{"step": 942919, "episode/length": 216.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.055299539170506916}
{"step": 942943, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.495210435655382, "train/action_min": 0.0, "train/action_std": 3.3506016068988376, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03880380802891321, "train/actor_opt_grad_steps": 470565.0, "train/actor_opt_loss": -11.742823220375511, "train/adv_mag": 0.4105990816735559, "train/adv_max": 0.3450680710375309, "train/adv_mean": 0.0016952819252209236, "train/adv_min": -0.3665093421522114, "train/adv_std": 0.043481503199372024, "train/cont_avg": 0.9951443142361112, "train/cont_loss_mean": 0.00012327048180931714, "train/cont_loss_std": 0.0038663243155557187, "train/cont_neg_acc": 0.9980158739619784, "train/cont_neg_loss": 0.0162356968869666, "train/cont_pos_acc": 0.9999999834431542, "train/cont_pos_loss": 1.2634545696875597e-05, "train/cont_pred": 0.995146761337916, "train/cont_rate": 0.9951443142361112, "train/dyn_loss_mean": 5.495867040422228, "train/dyn_loss_std": 8.845609055625069, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9558948137693934, "train/extr_critic_critic_opt_grad_steps": 470565.0, "train/extr_critic_critic_opt_loss": 15455.963541666666, "train/extr_critic_mag": 12.080974234475029, "train/extr_critic_max": 12.080974234475029, "train/extr_critic_mean": 3.8553821080260806, "train/extr_critic_min": -0.35631893078486127, "train/extr_critic_std": 2.8658860557609134, "train/extr_return_normed_mag": 1.3686907043059666, "train/extr_return_normed_max": 1.3686907043059666, "train/extr_return_normed_mean": 0.4070826019677851, "train/extr_return_normed_min": -0.08161801198083493, "train/extr_return_normed_std": 0.31037742603156304, "train/extr_return_rate": 0.8770200825399823, "train/extr_return_raw_mag": 12.82967574066586, "train/extr_return_raw_max": 12.82967574066586, "train/extr_return_raw_mean": 3.871173103650411, "train/extr_return_raw_min": -0.681011197467645, "train/extr_return_raw_std": 2.8914951847659216, "train/extr_reward_mag": 1.076229088836246, "train/extr_reward_max": 1.076229088836246, "train/extr_reward_mean": 0.06102377859254678, "train/extr_reward_min": -0.5990015317996343, "train/extr_reward_std": 0.23759761907988125, "train/image_loss_mean": 3.081021891699897, "train/image_loss_std": 8.10996976825926, "train/model_loss_mean": 6.43517843219969, "train/model_loss_std": 12.238588862948948, "train/model_opt_grad_norm": 22.767637901835972, "train/model_opt_grad_steps": 470182.0, "train/model_opt_loss": 16803.467692057293, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2604.1666666666665, "train/policy_entropy_mag": 2.6858892970614963, "train/policy_entropy_max": 2.6858892970614963, "train/policy_entropy_mean": 0.3913454879075289, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5907512307167053, "train/policy_logprob_mag": 7.438384234905243, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39193115735219586, "train/policy_logprob_min": -7.438384234905243, "train/policy_logprob_std": 1.0210981774661276, "train/policy_randomness_mag": 0.948001053598192, "train/policy_randomness_max": 0.948001053598192, "train/policy_randomness_mean": 0.13812778300295273, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20850925985723734, "train/post_ent_mag": 55.27397346496582, "train/post_ent_max": 55.27397346496582, "train/post_ent_mean": 40.27826499938965, "train/post_ent_min": 19.447288619147407, "train/post_ent_std": 5.7908541493945656, "train/prior_ent_mag": 76.6324404610528, "train/prior_ent_max": 76.6324404610528, "train/prior_ent_mean": 45.75637298160129, "train/prior_ent_min": 27.521780490875244, "train/prior_ent_std": 7.764448006947835, "train/rep_loss_mean": 5.495867040422228, "train/rep_loss_std": 8.845609055625069, "train/reward_avg": 0.042937554160339966, "train/reward_loss_mean": 0.056513061850435205, "train/reward_loss_std": 0.20764448928336302, "train/reward_max_data": 1.0333333412806194, "train/reward_max_pred": 1.0330276952849493, "train/reward_neg_acc": 0.9935174393985007, "train/reward_neg_loss": 0.023570668754271336, "train/reward_pos_acc": 0.9924025883277258, "train/reward_pos_loss": 0.7195350478092829, "train/reward_pred": 0.04262238086408211, "train/reward_rate": 0.04726833767361111, "stats/sum_log_reward": 10.100000275505913, "stats/max_log_achievement_collect_coal": 0.3333333333333333, "stats/max_log_achievement_collect_drink": 1.5555555555555556, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.2222222222222223, "stats/max_log_achievement_collect_stone": 12.222222222222221, "stats/max_log_achievement_collect_wood": 9.555555555555555, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.3333333333333333, "stats/max_log_achievement_eat_cow": 0.2222222222222222, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.5555555555555556, "stats/max_log_achievement_make_stone_sword": 0.7777777777777778, "stats/max_log_achievement_make_wood_pickaxe": 0.8888888888888888, "stats/max_log_achievement_make_wood_sword": 0.7777777777777778, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 1.1111111111111112, "stats/max_log_achievement_place_stone": 2.6666666666666665, "stats/max_log_achievement_place_table": 2.6666666666666665, "stats/max_log_achievement_wake_up": 0.8888888888888888, "stats/mean_log_entropy": 0.30023301972283256, "replay/size": 942880.0, "replay/inserts": 1429.0, "replay/samples": 11440.0, "replay/insert_wait_avg": 3.371896069728886e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3104268720933607e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0457532405853, "timer/env.step_count": 1429.0, "timer/env.step_total": 22.41670799255371, "timer/env.step_frac": 0.07471096574587859, "timer/env.step_avg": 0.015686989497938217, "timer/env.step_min": 0.0029404163360595703, "timer/env.step_max": 1.7109134197235107, "timer/replay.add_count": 1429.0, "timer/replay.add_total": 0.2567873001098633, "timer/replay.add_frac": 0.000855827144148792, "timer/replay.add_avg": 0.00017969720091662932, "timer/replay.add_min": 6.747245788574219e-05, "timer/replay.add_max": 0.004591464996337891, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028839826583862305, "timer/logger.write_frac": 9.611809623160273e-05, "timer/logger.write_avg": 0.028839826583862305, "timer/logger.write_min": 0.028839826583862305, "timer/logger.write_max": 0.028839826583862305, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1429.0, "timer/agent.policy_total": 10.522160053253174, "timer/agent.policy_frac": 0.03506851851629509, "timer/agent.policy_avg": 0.007363303046363312, "timer/agent.policy_min": 0.005730867385864258, "timer/agent.policy_max": 0.015143632888793945, "timer/dataset_count": 715.0, "timer/dataset_total": 0.05929851531982422, "timer/dataset_frac": 0.00019763157678248143, "timer/dataset_avg": 8.293498646129262e-05, "timer/dataset_min": 6.270408630371094e-05, "timer/dataset_max": 0.0001709461212158203, "timer/agent.train_count": 715.0, "timer/agent.train_total": 266.0956120491028, "timer/agent.train_frac": 0.8868501192741084, "timer/agent.train_avg": 0.37216169517357034, "timer/agent.train_min": 0.3654055595397949, "timer/agent.train_max": 0.388962984085083, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.221893310546875, "timer/agent.report_frac": 0.0007395315819349543, "timer/agent.report_avg": 0.221893310546875, "timer/agent.report_min": 0.221893310546875, "timer/agent.report_max": 0.221893310546875, "fps": 4.762470999475235}
{"step": 943100, "episode/length": 180.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.07734806629834254}
{"step": 943274, "episode/length": 173.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.08045977011494253}
{"step": 943496, "episode/length": 221.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.06756756756756757}
{"step": 943896, "episode/length": 399.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.0325}
{"step": 944132, "episode/length": 235.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.059322033898305086}
{"step": 944342, "episode/length": 209.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.300000041723251, "episode/reward_rate": 0.05714285714285714}
{"step": 944394, "episode/length": 51.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.15384615384615385}
{"step": 944395, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.418872409396702, "train/action_min": 0.0, "train/action_std": 3.2828761802779303, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03878445993177593, "train/actor_opt_grad_steps": 471285.0, "train/actor_opt_loss": -12.36759210905681, "train/adv_mag": 0.3944113159345256, "train/adv_max": 0.3214804617067178, "train/adv_mean": 0.0016788078281832794, "train/adv_min": -0.3549205938147174, "train/adv_std": 0.04294297761387295, "train/cont_avg": 0.9947916666666666, "train/cont_loss_mean": 5.553025910565168e-05, "train/cont_loss_std": 0.0017648617211906508, "train/cont_neg_acc": 0.9953703706463178, "train/cont_neg_loss": 0.014423701497771132, "train/cont_pos_acc": 0.9999999784761004, "train/cont_pos_loss": 1.330680961341023e-05, "train/cont_pred": 0.9947935789823532, "train/cont_rate": 0.9947916666666666, "train/dyn_loss_mean": 5.4848267965846595, "train/dyn_loss_std": 8.890320367283291, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9386017165250249, "train/extr_critic_critic_opt_grad_steps": 471285.0, "train/extr_critic_critic_opt_loss": 15361.724216037326, "train/extr_critic_mag": 12.190592924753824, "train/extr_critic_max": 12.190592924753824, "train/extr_critic_mean": 3.840168790684806, "train/extr_critic_min": -0.32667634387811023, "train/extr_critic_std": 2.877475851111942, "train/extr_return_normed_mag": 1.3871420125166576, "train/extr_return_normed_max": 1.3871420125166576, "train/extr_return_normed_mean": 0.40928083078728783, "train/extr_return_normed_min": -0.08059887293105324, "train/extr_return_normed_std": 0.31327447067532277, "train/extr_return_rate": 0.8704490835467974, "train/extr_return_raw_mag": 12.918878343370226, "train/extr_return_raw_max": 12.918878343370226, "train/extr_return_raw_mean": 3.855727401044634, "train/extr_return_raw_min": -0.6845962260332372, "train/extr_return_raw_std": 2.903225087457233, "train/extr_reward_mag": 1.061935481097963, "train/extr_reward_max": 1.061935481097963, "train/extr_reward_mean": 0.06250836576024692, "train/extr_reward_min": -0.5959549132320616, "train/extr_reward_std": 0.24011018934349218, "train/image_loss_mean": 3.1887832350201077, "train/image_loss_std": 8.302934262487623, "train/model_loss_mean": 6.5405069722069635, "train/model_loss_std": 12.479836450682747, "train/model_opt_grad_norm": 21.366104616059197, "train/model_opt_grad_steps": 470901.02777777775, "train/model_opt_loss": 16749.48952907986, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2569.4444444444443, "train/policy_entropy_mag": 2.6863457692994013, "train/policy_entropy_max": 2.6863457692994013, "train/policy_entropy_mean": 0.3902622250219186, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5926709398627281, "train/policy_logprob_mag": 7.438384281264411, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39047867556413013, "train/policy_logprob_min": -7.438384281264411, "train/policy_logprob_std": 1.0194209077292018, "train/policy_randomness_mag": 0.9481621690922313, "train/policy_randomness_max": 0.9481621690922313, "train/policy_randomness_mean": 0.13774543990277582, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20918683676669994, "train/post_ent_mag": 55.514652993943955, "train/post_ent_max": 55.514652993943955, "train/post_ent_mean": 40.48279979493883, "train/post_ent_min": 19.475765837563408, "train/post_ent_std": 5.758457038137648, "train/prior_ent_mag": 76.72730361090765, "train/prior_ent_max": 76.72730361090765, "train/prior_ent_mean": 45.93383344014486, "train/prior_ent_min": 28.465239736768936, "train/prior_ent_std": 7.765211337142521, "train/rep_loss_mean": 5.4848267965846595, "train/rep_loss_std": 8.890320367283291, "train/reward_avg": 0.04511989981660412, "train/reward_loss_mean": 0.06077218914611472, "train/reward_loss_std": 0.23111418013771376, "train/reward_max_data": 1.0208333383003871, "train/reward_max_pred": 1.0220674143897162, "train/reward_neg_acc": 0.9933325300614039, "train/reward_neg_loss": 0.02534010382886562, "train/reward_pos_acc": 0.9866727830635177, "train/reward_pos_loss": 0.738451292945279, "train/reward_pred": 0.04465252228288187, "train/reward_rate": 0.049763997395833336, "stats/sum_log_reward": 11.957143102373395, "stats/max_log_achievement_collect_coal": 1.1428571428571428, "stats/max_log_achievement_collect_drink": 3.7142857142857144, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 18.0, "stats/max_log_achievement_collect_wood": 13.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.2857142857142857, "stats/max_log_achievement_defeat_zombie": 0.7142857142857143, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.5714285714285714, "stats/max_log_achievement_make_stone_sword": 0.8571428571428571, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.4285714285714286, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 5.714285714285714, "stats/max_log_achievement_place_table": 3.2857142857142856, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3769190524305616, "replay/size": 944332.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.50189603064671e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.319081165902214e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.87166714668274, "timer/env.step_count": 1452.0, "timer/env.step_total": 19.012041568756104, "timer/env.step_frac": 0.06318987011657445, "timer/env.step_avg": 0.013093692540465636, "timer/env.step_min": 0.0029141902923583984, "timer/env.step_max": 1.6836578845977783, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.2799203395843506, "timer/replay.add_frac": 0.0009303645711773922, "timer/replay.add_avg": 0.0001927826030195252, "timer/replay.add_min": 6.532669067382812e-05, "timer/replay.add_max": 0.009714603424072266, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022785425186157227, "timer/logger.write_frac": 7.573137544735558e-05, "timer/logger.write_avg": 0.022785425186157227, "timer/logger.write_min": 0.022785425186157227, "timer/logger.write_max": 0.022785425186157227, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 10.68446159362793, "timer/agent.policy_frac": 0.03551169073164665, "timer/agent.policy_avg": 0.0073584446237106955, "timer/agent.policy_min": 0.00583958625793457, "timer/agent.policy_max": 0.014042854309082031, "timer/dataset_count": 726.0, "timer/dataset_total": 0.06070089340209961, "timer/dataset_frac": 0.00020175011485048323, "timer/dataset_avg": 8.361004600840167e-05, "timer/dataset_min": 6.127357482910156e-05, "timer/dataset_max": 0.0001513957977294922, "timer/agent.train_count": 726.0, "timer/agent.train_total": 270.13996839523315, "timer/agent.train_frac": 0.8978577842078195, "timer/agent.train_avg": 0.37209362037910904, "timer/agent.train_min": 0.3652007579803467, "timer/agent.train_max": 0.3880801200866699, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2202610969543457, "timer/agent.report_frac": 0.0007320765662090831, "timer/agent.report_avg": 0.2202610969543457, "timer/agent.report_min": 0.2202610969543457, "timer/agent.report_max": 0.2202610969543457, "fps": 4.825880027514}
{"step": 944697, "episode/length": 302.0, "episode/score": 11.099999979138374, "episode/sum_abs_reward": 12.900000020861626, "episode/reward_rate": 0.039603960396039604}
{"step": 944955, "episode/length": 257.0, "episode/score": 11.099999979138374, "episode/sum_abs_reward": 13.700000032782555, "episode/reward_rate": 0.046511627906976744}
{"step": 945066, "episode/length": 110.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 11.500000044703484, "episode/reward_rate": 0.09009009009009009}
{"step": 945302, "episode/length": 235.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.059322033898305086}
{"step": 945523, "episode/length": 220.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.06334841628959276}
{"step": 945833, "episode/length": 309.0, "episode/score": 14.099999979138374, "episode/sum_abs_reward": 16.700000032782555, "episode/reward_rate": 0.04838709677419355}
{"step": 945834, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.408599853515625, "train/action_min": 0.0, "train/action_std": 3.3064302371607885, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038067734748539, "train/actor_opt_grad_steps": 472005.0, "train/actor_opt_loss": -11.165671159021763, "train/adv_mag": 0.40392317643596065, "train/adv_max": 0.33780226711597705, "train/adv_mean": 0.0019370743540194882, "train/adv_min": -0.3528227402518193, "train/adv_std": 0.04267632273129291, "train/cont_avg": 0.9948323567708334, "train/cont_loss_mean": 0.0002085451655418069, "train/cont_loss_std": 0.0066115942561266496, "train/cont_neg_acc": 0.9891975315080749, "train/cont_neg_loss": 0.039482078604196696, "train/cont_pos_acc": 0.9999999834431542, "train/cont_pos_loss": 9.41639185410755e-06, "train/cont_pred": 0.9948740791943338, "train/cont_rate": 0.9948323567708334, "train/dyn_loss_mean": 5.678628888395098, "train/dyn_loss_std": 8.925480008125305, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9376963410112593, "train/extr_critic_critic_opt_grad_steps": 472005.0, "train/extr_critic_critic_opt_loss": 15408.15764702691, "train/extr_critic_mag": 12.032312552134195, "train/extr_critic_max": 12.032312552134195, "train/extr_critic_mean": 3.7727230621708765, "train/extr_critic_min": -0.38487585882345837, "train/extr_critic_std": 2.9040954411029816, "train/extr_return_normed_mag": 1.369210574362013, "train/extr_return_normed_max": 1.369210574362013, "train/extr_return_normed_mean": 0.40268563106656075, "train/extr_return_normed_min": -0.08489077062242562, "train/extr_return_normed_std": 0.31535707890159553, "train/extr_return_rate": 0.8559245235390134, "train/extr_return_raw_mag": 12.779317696889242, "train/extr_return_raw_max": 12.779317696889242, "train/extr_return_raw_mean": 3.790726817316479, "train/extr_return_raw_min": -0.744085781276226, "train/extr_return_raw_std": 2.9330377876758575, "train/extr_reward_mag": 1.0788255002763536, "train/extr_reward_max": 1.0788255002763536, "train/extr_reward_mean": 0.06092185237341457, "train/extr_reward_min": -0.6429047567976846, "train/extr_reward_std": 0.2371842068516546, "train/image_loss_mean": 3.39122544725736, "train/image_loss_std": 8.701705303457048, "train/model_loss_mean": 6.8586841556761, "train/model_loss_std": 12.83787390920851, "train/model_opt_grad_norm": 22.504429194662308, "train/model_opt_grad_steps": 471619.97222222225, "train/model_opt_loss": 13387.05504014757, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1944.4444444444443, "train/policy_entropy_mag": 2.70457019077407, "train/policy_entropy_max": 2.70457019077407, "train/policy_entropy_mean": 0.3940475885238912, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5974167639182674, "train/policy_logprob_mag": 7.438384274641673, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39399443856543964, "train/policy_logprob_min": -7.438384274641673, "train/policy_logprob_std": 1.0225619557831023, "train/policy_randomness_mag": 0.9545945939090517, "train/policy_randomness_max": 0.9545945939090517, "train/policy_randomness_mean": 0.13908150678293574, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21086190040740702, "train/post_ent_mag": 55.5866207546658, "train/post_ent_max": 55.5866207546658, "train/post_ent_mean": 40.46694888008965, "train/post_ent_min": 19.40648913383484, "train/post_ent_std": 5.83127365509669, "train/prior_ent_mag": 76.6906041039361, "train/prior_ent_max": 76.6906041039361, "train/prior_ent_mean": 46.1364246474372, "train/prior_ent_min": 28.08105715115865, "train/prior_ent_std": 7.878147184848785, "train/rep_loss_mean": 5.678628888395098, "train/rep_loss_std": 8.925480008125305, "train/reward_avg": 0.043551974567688174, "train/reward_loss_mean": 0.06007289379421207, "train/reward_loss_std": 0.22400285800298056, "train/reward_max_data": 1.036111119720671, "train/reward_max_pred": 1.0323096877998776, "train/reward_neg_acc": 0.9929631178577741, "train/reward_neg_loss": 0.025694642707498536, "train/reward_pos_acc": 0.9875901896092627, "train/reward_pos_loss": 0.7395648037393888, "train/reward_pred": 0.04292792048201793, "train/reward_rate": 0.04819064670138889, "stats/sum_log_reward": 11.93333355585734, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 5.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 14.0, "stats/max_log_achievement_collect_wood": 13.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 6.333333333333333, "stats/max_log_achievement_place_table": 2.8333333333333335, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.6476044480999311, "replay/size": 945771.0, "replay/inserts": 1439.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.5262422647800934e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3142865622657064e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.6362283229828, "timer/env.step_count": 1439.0, "timer/env.step_total": 19.29038381576538, "timer/env.step_frac": 0.0641652003265592, "timer/env.step_avg": 0.01340540918399262, "timer/env.step_min": 0.0028378963470458984, "timer/env.step_max": 1.8913679122924805, "timer/replay.add_count": 1439.0, "timer/replay.add_total": 0.2856175899505615, "timer/replay.add_frac": 0.0009500438172199052, "timer/replay.add_avg": 0.00019848338426029294, "timer/replay.add_min": 6.771087646484375e-05, "timer/replay.add_max": 0.002947092056274414, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024581193923950195, "timer/logger.write_frac": 8.176391135915216e-05, "timer/logger.write_avg": 0.024581193923950195, "timer/logger.write_min": 0.024581193923950195, "timer/logger.write_max": 0.024581193923950195, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0001876354217529297, "timer/checkpoint.save_frac": 6.241277799405704e-07, "timer/checkpoint.save_avg": 0.0001876354217529297, "timer/checkpoint.save_min": 0.0001876354217529297, "timer/checkpoint.save_max": 0.0001876354217529297, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1945409774780273, "timer/agent.save_frac": 0.003973376675663637, "timer/agent.save_avg": 1.1945409774780273, "timer/agent.save_min": 1.1945409774780273, "timer/agent.save_max": 1.1945409774780273, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.319450378417969e-05, "timer/replay.save_frac": 2.434653474482276e-07, "timer/replay.save_avg": 7.319450378417969e-05, "timer/replay.save_min": 7.319450378417969e-05, "timer/replay.save_max": 7.319450378417969e-05, "timer/agent.policy_count": 1439.0, "timer/agent.policy_total": 12.416303157806396, "timer/agent.policy_frac": 0.04130008957026689, "timer/agent.policy_avg": 0.008628424710080887, "timer/agent.policy_min": 0.00567173957824707, "timer/agent.policy_max": 1.189443826675415, "timer/dataset_count": 719.0, "timer/dataset_total": 0.06007957458496094, "timer/dataset_frac": 0.0001998414326846051, "timer/dataset_avg": 8.355990901941716e-05, "timer/dataset_min": 6.198883056640625e-05, "timer/dataset_max": 0.00016880035400390625, "timer/agent.train_count": 719.0, "timer/agent.train_total": 267.891224861145, "timer/agent.train_frac": 0.8910809796793392, "timer/agent.train_avg": 0.37258862984860225, "timer/agent.train_min": 0.3610556125640869, "timer/agent.train_max": 0.8429553508758545, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21794772148132324, "timer/agent.report_frac": 0.0007249549487002454, "timer/agent.report_avg": 0.21794772148132324, "timer/agent.report_min": 0.21794772148132324, "timer/agent.report_max": 0.21794772148132324, "fps": 4.7864475202329775}
{"step": 946132, "episode/length": 298.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.099999994039536, "episode/reward_rate": 0.05016722408026756}
{"step": 946345, "episode/length": 212.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.900000005960464, "episode/reward_rate": 0.07511737089201878}
{"step": 946832, "episode/length": 486.0, "episode/score": 14.099999971687794, "episode/sum_abs_reward": 18.10000006109476, "episode/reward_rate": 0.03285420944558522}
{"step": 946896, "episode/length": 63.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.099999994039536, "episode/reward_rate": 0.125}
{"step": 947257, "episode/length": 360.0, "episode/score": 15.100000008940697, "episode/sum_abs_reward": 18.300000056624413, "episode/reward_rate": 0.0443213296398892}
{"step": 947295, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.473755718910531, "train/action_min": 0.0, "train/action_std": 3.361761883513568, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038554052988143815, "train/actor_opt_grad_steps": 472730.0, "train/actor_opt_loss": -12.483607198277564, "train/adv_mag": 0.3831704844758935, "train/adv_max": 0.32355009080612496, "train/adv_mean": 0.001859946964106886, "train/adv_min": -0.3399916832169441, "train/adv_std": 0.042877941456151335, "train/cont_avg": 0.9950101669520548, "train/cont_loss_mean": 4.288388596597147e-05, "train/cont_loss_std": 0.0012990069678963908, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0005237058089462105, "train/cont_pos_acc": 0.9999865505793323, "train/cont_pos_loss": 4.125077756784449e-05, "train/cont_pred": 0.9949842977197203, "train/cont_rate": 0.9950101669520548, "train/dyn_loss_mean": 5.6065257542753875, "train/dyn_loss_std": 8.847600335944188, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9104531293045984, "train/extr_critic_critic_opt_grad_steps": 472730.0, "train/extr_critic_critic_opt_loss": 15418.864431720891, "train/extr_critic_mag": 11.9887167917539, "train/extr_critic_max": 11.9887167917539, "train/extr_critic_mean": 3.830431340491935, "train/extr_critic_min": -0.39119776471020423, "train/extr_critic_std": 2.8777942102249354, "train/extr_return_normed_mag": 1.3757689031836104, "train/extr_return_normed_max": 1.3757689031836104, "train/extr_return_normed_mean": 0.411744480263697, "train/extr_return_normed_min": -0.08288586889840152, "train/extr_return_normed_std": 0.3129969457649205, "train/extr_return_rate": 0.8645682187929545, "train/extr_return_raw_mag": 12.791342800610686, "train/extr_return_raw_max": 12.791342800610686, "train/extr_return_raw_mean": 3.8476902001524627, "train/extr_return_raw_min": -0.7416431046512029, "train/extr_return_raw_std": 2.9040480313235766, "train/extr_reward_mag": 1.0746239309441554, "train/extr_reward_max": 1.0746239309441554, "train/extr_reward_mean": 0.06154318812162909, "train/extr_reward_min": -0.6573348029019082, "train/extr_reward_std": 0.23831958782999482, "train/image_loss_mean": 3.1666251861885804, "train/image_loss_std": 8.222779959848483, "train/model_loss_mean": 6.587176518897488, "train/model_loss_std": 12.351930644414196, "train/model_opt_grad_norm": 23.260291125676403, "train/model_opt_grad_steps": 472344.0, "train/model_opt_loss": 8760.350559182363, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1335.6164383561643, "train/policy_entropy_mag": 2.697925381464501, "train/policy_entropy_max": 2.697925381464501, "train/policy_entropy_mean": 0.38844859742954985, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5892913684453049, "train/policy_logprob_mag": 7.438384304307911, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38806667699389263, "train/policy_logprob_min": -7.438384304307911, "train/policy_logprob_std": 1.016704703030521, "train/policy_randomness_mag": 0.9522492673299084, "train/policy_randomness_max": 0.9522492673299084, "train/policy_randomness_mean": 0.1371053080648592, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20799399269362018, "train/post_ent_mag": 55.8597295578212, "train/post_ent_max": 55.8597295578212, "train/post_ent_mean": 40.37265140063142, "train/post_ent_min": 19.431547818118577, "train/post_ent_std": 5.85524154689214, "train/prior_ent_mag": 76.75453248742508, "train/prior_ent_max": 76.75453248742508, "train/prior_ent_mean": 46.01244207930891, "train/prior_ent_min": 28.05908419987927, "train/prior_ent_std": 7.851384345799277, "train/rep_loss_mean": 5.6065257542753875, "train/rep_loss_std": 8.847600335944188, "train/reward_avg": 0.043156035550653116, "train/reward_loss_mean": 0.05659301803536611, "train/reward_loss_std": 0.21378541115212113, "train/reward_max_data": 1.0301369934865874, "train/reward_max_pred": 1.0306482853954786, "train/reward_neg_acc": 0.9936075880102915, "train/reward_neg_loss": 0.023421144342585784, "train/reward_pos_acc": 0.9898880328217597, "train/reward_pos_loss": 0.7233000716117963, "train/reward_pred": 0.042685777178570014, "train/reward_rate": 0.04743685787671233, "stats/sum_log_reward": 12.499999904632569, "stats/max_log_achievement_collect_coal": 1.4, "stats/max_log_achievement_collect_drink": 6.4, "stats/max_log_achievement_collect_iron": 0.4, "stats/max_log_achievement_collect_sapling": 1.6, "stats/max_log_achievement_collect_stone": 16.0, "stats/max_log_achievement_collect_wood": 14.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.8, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.2, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.2, "stats/max_log_achievement_make_wood_sword": 1.2, "stats/max_log_achievement_place_furnace": 1.8, "stats/max_log_achievement_place_plant": 1.6, "stats/max_log_achievement_place_stone": 2.4, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.6, "stats/mean_log_entropy": 0.5881596982479096, "replay/size": 947232.0, "replay/inserts": 1461.0, "replay/samples": 11696.0, "replay/insert_wait_avg": 3.4267979072920676e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3217187286564818e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.12205147743225, "timer/env.step_count": 1461.0, "timer/env.step_total": 16.502447605133057, "timer/env.step_frac": 0.05498578836141923, "timer/env.step_avg": 0.01129530979132995, "timer/env.step_min": 0.003056764602661133, "timer/env.step_max": 1.6810448169708252, "timer/replay.add_count": 1461.0, "timer/replay.add_total": 0.2868170738220215, "timer/replay.add_frac": 0.0009556681103907113, "timer/replay.add_avg": 0.00019631558783163688, "timer/replay.add_min": 7.152557373046875e-05, "timer/replay.add_max": 0.006507396697998047, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030405759811401367, "timer/logger.write_frac": 0.00010131131538559316, "timer/logger.write_avg": 0.030405759811401367, "timer/logger.write_min": 0.030405759811401367, "timer/logger.write_max": 0.030405759811401367, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1461.0, "timer/agent.policy_total": 10.754592418670654, "timer/agent.policy_frac": 0.03583406272790771, "timer/agent.policy_avg": 0.007361117329685595, "timer/agent.policy_min": 0.005759239196777344, "timer/agent.policy_max": 0.0164792537689209, "timer/dataset_count": 731.0, "timer/dataset_total": 0.06133246421813965, "timer/dataset_frac": 0.00020435840657563798, "timer/dataset_avg": 8.390213983329637e-05, "timer/dataset_min": 6.222724914550781e-05, "timer/dataset_max": 0.00016641616821289062, "timer/agent.train_count": 731.0, "timer/agent.train_total": 271.8147192001343, "timer/agent.train_frac": 0.9056805984833589, "timer/agent.train_avg": 0.3718395611492945, "timer/agent.train_min": 0.3650093078613281, "timer/agent.train_max": 0.3862266540527344, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22126078605651855, "timer/agent.report_frac": 0.0007372360177044715, "timer/agent.report_avg": 0.22126078605651855, "timer/agent.report_min": 0.22126078605651855, "timer/agent.report_max": 0.22126078605651855, "fps": 4.867927404384738}
{"step": 947590, "episode/length": 332.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.30000001937151, "episode/reward_rate": 0.04804804804804805}
{"step": 947797, "episode/length": 206.0, "episode/score": 15.100000016391277, "episode/sum_abs_reward": 16.900000043213367, "episode/reward_rate": 0.07729468599033816}
{"step": 948001, "episode/length": 203.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.07352941176470588}
{"step": 948202, "episode/length": 200.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.100000016391277, "episode/reward_rate": 0.07960199004975124}
{"step": 948550, "episode/length": 347.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.031609195402298854}
{"step": 948757, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.459450081603168, "train/action_min": 0.0, "train/action_std": 3.3048272590114647, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03864878831967099, "train/actor_opt_grad_steps": 473460.0, "train/actor_opt_loss": -11.3466717413027, "train/adv_mag": 0.4102424495432475, "train/adv_max": 0.34415340362346336, "train/adv_mean": 0.0018498709320476636, "train/adv_min": -0.3649941205161892, "train/adv_std": 0.04282867408370319, "train/cont_avg": 0.994769370719178, "train/cont_loss_mean": 4.340981408037575e-05, "train/cont_loss_std": 0.0013407732915101257, "train/cont_neg_acc": 0.9980430537707186, "train/cont_neg_loss": 0.003984762102459386, "train/cont_pos_acc": 0.9999999861194663, "train/cont_pos_loss": 1.6292358938468692e-05, "train/cont_pred": 0.9947705203539705, "train/cont_rate": 0.994769370719178, "train/dyn_loss_mean": 5.5578540514593255, "train/dyn_loss_std": 8.927227568953004, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9390452610303278, "train/extr_critic_critic_opt_grad_steps": 473460.0, "train/extr_critic_critic_opt_loss": 15414.546406785103, "train/extr_critic_mag": 12.046856396818814, "train/extr_critic_max": 12.046856396818814, "train/extr_critic_mean": 3.795735326531815, "train/extr_critic_min": -0.34867315259698317, "train/extr_critic_std": 2.8951255687295574, "train/extr_return_normed_mag": 1.3706129217801029, "train/extr_return_normed_max": 1.3706129217801029, "train/extr_return_normed_mean": 0.40544057300646014, "train/extr_return_normed_min": -0.08114459748341613, "train/extr_return_normed_std": 0.31381445429096483, "train/extr_return_rate": 0.8617687404972233, "train/extr_return_raw_mag": 12.795066480767238, "train/extr_return_raw_max": 12.795066480767238, "train/extr_return_raw_mean": 3.8129493210413683, "train/extr_return_raw_min": -0.7162775311568012, "train/extr_return_raw_std": 2.920798502556265, "train/extr_reward_mag": 1.0702874595171785, "train/extr_reward_max": 1.0702874595171785, "train/extr_reward_mean": 0.06235065739857008, "train/extr_reward_min": -0.6334479802275357, "train/extr_reward_std": 0.24007990017329175, "train/image_loss_mean": 3.2455595976685823, "train/image_loss_std": 8.361937640464468, "train/model_loss_mean": 6.638570380537478, "train/model_loss_std": 12.531535279260924, "train/model_opt_grad_norm": 21.999555744536934, "train/model_opt_grad_steps": 473074.0, "train/model_opt_loss": 16596.426035423803, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6929766707224387, "train/policy_entropy_max": 2.6929766707224387, "train/policy_entropy_mean": 0.3816571541844982, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.576769179269059, "train/policy_logprob_mag": 7.438384323903959, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38088296047628745, "train/policy_logprob_min": -7.438384323903959, "train/policy_logprob_std": 1.0088038828274974, "train/policy_randomness_mag": 0.950502585058343, "train/policy_randomness_max": 0.950502585058343, "train/policy_randomness_mean": 0.13470822736008525, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2035742071393418, "train/post_ent_mag": 55.312724858114166, "train/post_ent_max": 55.312724858114166, "train/post_ent_mean": 40.39135888504656, "train/post_ent_min": 19.295373237296328, "train/post_ent_std": 5.759938004898698, "train/prior_ent_mag": 76.80096937205694, "train/prior_ent_max": 76.80096937205694, "train/prior_ent_mean": 45.89443316524976, "train/prior_ent_min": 28.261540582735243, "train/prior_ent_std": 7.808965408638732, "train/rep_loss_mean": 5.5578540514593255, "train/rep_loss_std": 8.927227568953004, "train/reward_avg": 0.04241491843984552, "train/reward_loss_mean": 0.058254974958014814, "train/reward_loss_std": 0.22160101467615936, "train/reward_max_data": 1.0246575401253897, "train/reward_max_pred": 1.0258899910809243, "train/reward_neg_acc": 0.9931613933550169, "train/reward_neg_loss": 0.025526087820427874, "train/reward_pos_acc": 0.9901163684178705, "train/reward_pos_loss": 0.7222334709886002, "train/reward_pred": 0.042260314121025884, "train/reward_rate": 0.04710241866438356, "stats/sum_log_reward": 13.900000190734863, "stats/max_log_achievement_collect_coal": 1.4, "stats/max_log_achievement_collect_drink": 3.8, "stats/max_log_achievement_collect_iron": 1.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 13.6, "stats/max_log_achievement_collect_wood": 13.4, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.8, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8, "stats/max_log_achievement_make_stone_sword": 0.8, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.6, "stats/max_log_achievement_place_plant": 1.8, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 2.6, "stats/max_log_achievement_wake_up": 1.6, "stats/mean_log_entropy": 0.4795637011528015, "replay/size": 948694.0, "replay/inserts": 1462.0, "replay/samples": 11696.0, "replay/insert_wait_avg": 3.471094019272748e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3551698989972534e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.18399000167847, "timer/env.step_count": 1462.0, "timer/env.step_total": 16.15023899078369, "timer/env.step_frac": 0.05380113373365911, "timer/env.step_avg": 0.011046675096295274, "timer/env.step_min": 0.002947092056274414, "timer/env.step_max": 1.6018717288970947, "timer/replay.add_count": 1462.0, "timer/replay.add_total": 0.2688446044921875, "timer/replay.add_frac": 0.000895599410517144, "timer/replay.add_avg": 0.00018388823836674932, "timer/replay.add_min": 7.319450378417969e-05, "timer/replay.add_max": 0.004627227783203125, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030138492584228516, "timer/logger.write_frac": 0.00010040006658602944, "timer/logger.write_avg": 0.030138492584228516, "timer/logger.write_min": 0.030138492584228516, "timer/logger.write_max": 0.030138492584228516, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1462.0, "timer/agent.policy_total": 10.983356237411499, "timer/agent.policy_frac": 0.036588747578943454, "timer/agent.policy_avg": 0.007512555565944937, "timer/agent.policy_min": 0.005526065826416016, "timer/agent.policy_max": 0.020725011825561523, "timer/dataset_count": 731.0, "timer/dataset_total": 0.06109809875488281, "timer/dataset_frac": 0.00020353550085912704, "timer/dataset_avg": 8.358153044443614e-05, "timer/dataset_min": 6.151199340820312e-05, "timer/dataset_max": 0.0001595020294189453, "timer/agent.train_count": 731.0, "timer/agent.train_total": 272.0200333595276, "timer/agent.train_frac": 0.906177685752017, "timer/agent.train_avg": 0.37212042867240436, "timer/agent.train_min": 0.36594247817993164, "timer/agent.train_max": 0.4091811180114746, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21732687950134277, "timer/agent.report_frac": 0.0007239789153982782, "timer/agent.report_avg": 0.21732687950134277, "timer/agent.report_min": 0.21732687950134277, "timer/agent.report_max": 0.21732687950134277, "fps": 4.870255931665557}
{"step": 948828, "episode/length": 277.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 17.500000037252903, "episode/reward_rate": 0.05755395683453238}
{"step": 949047, "episode/length": 218.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.0684931506849315}
{"step": 949227, "episode/length": 179.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.700000025331974, "episode/reward_rate": 0.05}
{"step": 949473, "episode/length": 245.0, "episode/score": 13.100000023841858, "episode/sum_abs_reward": 15.299999982118607, "episode/reward_rate": 0.06097560975609756}
{"step": 949667, "episode/length": 193.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 15.900000013411045, "episode/reward_rate": 0.07731958762886598}
{"step": 949869, "episode/length": 201.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.30000003427267, "episode/reward_rate": 0.07425742574257425}
{"step": 950043, "episode/length": 173.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.04597701149425287}
{"step": 950185, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.471164279513889, "train/action_min": 0.0, "train/action_std": 3.2995715373092227, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03863361568397118, "train/actor_opt_grad_steps": 474185.0, "train/actor_opt_loss": -9.92774622908069, "train/adv_mag": 0.40801627975371146, "train/adv_max": 0.32699571094579166, "train/adv_mean": 0.002498490419788545, "train/adv_min": -0.3694323233018319, "train/adv_std": 0.044013491107357874, "train/cont_avg": 0.9949815538194444, "train/cont_loss_mean": 6.2680685045298406e-06, "train/cont_loss_std": 0.000171086326974527, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00014575250325115578, "train/cont_pos_acc": 0.9999999867545234, "train/cont_pos_loss": 5.858151283967396e-06, "train/cont_pred": 0.9949762970209122, "train/cont_rate": 0.9949815538194444, "train/dyn_loss_mean": 5.454416294892629, "train/dyn_loss_std": 8.79732366402944, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9140829162465202, "train/extr_critic_critic_opt_grad_steps": 474185.0, "train/extr_critic_critic_opt_loss": 15450.449815538195, "train/extr_critic_mag": 12.14515319135454, "train/extr_critic_max": 12.14515319135454, "train/extr_critic_mean": 3.8997820847564273, "train/extr_critic_min": -0.3594192845953835, "train/extr_critic_std": 2.8963294426600137, "train/extr_return_normed_mag": 1.3723897685607274, "train/extr_return_normed_max": 1.3723897685607274, "train/extr_return_normed_mean": 0.41581113470925224, "train/extr_return_normed_min": -0.08018048014491796, "train/extr_return_normed_std": 0.3136019067217906, "train/extr_return_rate": 0.876796741452482, "train/extr_return_raw_mag": 12.830763128068712, "train/extr_return_raw_max": 12.830763128068712, "train/extr_return_raw_mean": 3.923042310608758, "train/extr_return_raw_min": -0.6954364387525452, "train/extr_return_raw_std": 2.9200835956467524, "train/extr_reward_mag": 1.0663036273585424, "train/extr_reward_max": 1.0663036273585424, "train/extr_reward_mean": 0.06281016254797578, "train/extr_reward_min": -0.6232031136751175, "train/extr_reward_std": 0.2409632717155748, "train/image_loss_mean": 3.1867388006713657, "train/image_loss_std": 8.498207893636492, "train/model_loss_mean": 6.5184905131657915, "train/model_loss_std": 12.577170411745707, "train/model_opt_grad_norm": 21.449591875076294, "train/model_opt_grad_steps": 473798.52777777775, "train/model_opt_loss": 20061.663262261285, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3055.5555555555557, "train/policy_entropy_mag": 2.693117274178399, "train/policy_entropy_max": 2.693117274178399, "train/policy_entropy_mean": 0.37598141469061375, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5690986352662245, "train/policy_logprob_mag": 7.438384340869056, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3767377587242259, "train/policy_logprob_min": -7.438384340869056, "train/policy_logprob_std": 1.0092677796880405, "train/policy_randomness_mag": 0.9505522143509653, "train/policy_randomness_max": 0.9505522143509653, "train/policy_randomness_mean": 0.1327049396932125, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2008668448155125, "train/post_ent_mag": 55.34874274995592, "train/post_ent_max": 55.34874274995592, "train/post_ent_mean": 40.39442163043552, "train/post_ent_min": 19.78601098060608, "train/post_ent_std": 5.770173297988044, "train/prior_ent_mag": 76.77140945858426, "train/prior_ent_max": 76.77140945858426, "train/prior_ent_mean": 45.84025526046753, "train/prior_ent_min": 28.347509331173367, "train/prior_ent_std": 7.771596180068122, "train/rep_loss_mean": 5.454416294892629, "train/rep_loss_std": 8.79732366402944, "train/reward_avg": 0.0439927842364543, "train/reward_loss_mean": 0.059095786729206644, "train/reward_loss_std": 0.21736749385794005, "train/reward_max_data": 1.0291666736205418, "train/reward_max_pred": 1.0284213324387868, "train/reward_neg_acc": 0.9933965735965304, "train/reward_neg_loss": 0.025032462565124862, "train/reward_pos_acc": 0.9901885812481245, "train/reward_pos_loss": 0.7245417262117068, "train/reward_pred": 0.04355584770544536, "train/reward_rate": 0.048651801215277776, "stats/sum_log_reward": 12.242857524326869, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.2857142857142856, "stats/max_log_achievement_collect_stone": 12.571428571428571, "stats/max_log_achievement_collect_wood": 15.0, "stats/max_log_achievement_defeat_skeleton": 0.42857142857142855, "stats/max_log_achievement_defeat_zombie": 1.4285714285714286, "stats/max_log_achievement_eat_cow": 0.42857142857142855, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.8571428571428571, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.2857142857142858, "stats/max_log_achievement_place_plant": 1.7142857142857142, "stats/max_log_achievement_place_stone": 2.2857142857142856, "stats/max_log_achievement_place_table": 3.5714285714285716, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.3294129137481962, "replay/size": 950122.0, "replay/inserts": 1428.0, "replay/samples": 11424.0, "replay/insert_wait_avg": 3.4283523132153253e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3815713863746793e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.03262734413147, "timer/env.step_count": 1428.0, "timer/env.step_total": 19.3761248588562, "timer/env.step_frac": 0.06458005927679382, "timer/env.step_avg": 0.013568714887154203, "timer/env.step_min": 0.0026798248291015625, "timer/env.step_max": 1.6690888404846191, "timer/replay.add_count": 1428.0, "timer/replay.add_total": 0.26720547676086426, "timer/replay.add_frac": 0.0008905880641253889, "timer/replay.add_avg": 0.00018711868120508703, "timer/replay.add_min": 6.175041198730469e-05, "timer/replay.add_max": 0.0027647018432617188, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.033132314682006836, "timer/logger.write_frac": 0.00011042903891917304, "timer/logger.write_avg": 0.033132314682006836, "timer/logger.write_min": 0.033132314682006836, "timer/logger.write_max": 0.033132314682006836, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00019979476928710938, "timer/checkpoint.save_frac": 6.65910141359222e-07, "timer/checkpoint.save_avg": 0.00019979476928710938, "timer/checkpoint.save_min": 0.00019979476928710938, "timer/checkpoint.save_max": 0.00019979476928710938, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2056105136871338, "timer/agent.save_frac": 0.004018264694607105, "timer/agent.save_avg": 1.2056105136871338, "timer/agent.save_min": 1.2056105136871338, "timer/agent.save_max": 1.2056105136871338, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.179115295410156e-05, "timer/replay.save_frac": 3.059372367819815e-07, "timer/replay.save_avg": 9.179115295410156e-05, "timer/replay.save_min": 9.179115295410156e-05, "timer/replay.save_max": 9.179115295410156e-05, "timer/agent.policy_count": 1428.0, "timer/agent.policy_total": 11.847817420959473, "timer/agent.policy_frac": 0.03948843006120885, "timer/agent.policy_avg": 0.008296790911036045, "timer/agent.policy_min": 0.0058155059814453125, "timer/agent.policy_max": 1.1980795860290527, "timer/dataset_count": 714.0, "timer/dataset_total": 0.05987143516540527, "timer/dataset_frac": 0.00019954974795702445, "timer/dataset_avg": 8.385355065182812e-05, "timer/dataset_min": 6.0558319091796875e-05, "timer/dataset_max": 0.0001430511474609375, "timer/agent.train_count": 714.0, "timer/agent.train_total": 267.78320837020874, "timer/agent.train_frac": 0.8925136267365573, "timer/agent.train_avg": 0.3750465103224212, "timer/agent.train_min": 0.3648393154144287, "timer/agent.train_max": 2.7668628692626953, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22066664695739746, "timer/agent.report_frac": 0.0007354755011504039, "timer/agent.report_avg": 0.22066664695739746, "timer/agent.report_min": 0.22066664695739746, "timer/agent.report_max": 0.22066664695739746, "fps": 4.759394872165339}
{"step": 950270, "episode/length": 226.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.06167400881057269}
{"step": 950456, "episode/length": 185.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.05913978494623656}
{"step": 950624, "episode/length": 167.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.08333333333333333}
{"step": 950788, "episode/length": 163.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.09146341463414634}
{"step": 950842, "episode/length": 53.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.1111111111111111}
{"step": 951008, "episode/length": 165.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.900000050663948, "episode/reward_rate": 0.0783132530120482}
{"step": 951315, "episode/length": 306.0, "episode/score": 16.099999964237213, "episode/sum_abs_reward": 18.099999994039536, "episode/reward_rate": 0.05537459283387622}
{"step": 951406, "episode/length": 90.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 7.0999999940395355, "episode/reward_rate": 0.07692307692307693}
{"step": 951570, "episode/length": 163.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.08536585365853659}
{"step": 951617, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.478426221390845, "train/action_min": 0.0, "train/action_std": 3.3282376779636866, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03872047401439976, "train/actor_opt_grad_steps": 474900.0, "train/actor_opt_loss": -11.307502012857249, "train/adv_mag": 0.4430687303694201, "train/adv_max": 0.37135768797196134, "train/adv_mean": 0.002263300930613875, "train/adv_min": -0.3722266951497172, "train/adv_std": 0.04357931112319651, "train/cont_avg": 0.9947733274647887, "train/cont_loss_mean": 1.6343079067437303e-05, "train/cont_loss_std": 0.0004439132625917973, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 2.096472327224319e-05, "train/cont_pos_acc": 0.9999999840494612, "train/cont_pos_loss": 1.631437712375482e-05, "train/cont_pred": 0.994759739284784, "train/cont_rate": 0.9947733274647887, "train/dyn_loss_mean": 5.58910923272791, "train/dyn_loss_std": 8.948693685128655, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9201078624792502, "train/extr_critic_critic_opt_grad_steps": 474900.0, "train/extr_critic_critic_opt_loss": 15462.175836267606, "train/extr_critic_mag": 12.038755322845889, "train/extr_critic_max": 12.038755322845889, "train/extr_critic_mean": 3.8647375576932665, "train/extr_critic_min": -0.3533480167388916, "train/extr_critic_std": 2.9233384636086477, "train/extr_return_normed_mag": 1.3699146626700818, "train/extr_return_normed_max": 1.3699146626700818, "train/extr_return_normed_mean": 0.40993666648864746, "train/extr_return_normed_min": -0.0806148845545003, "train/extr_return_normed_std": 0.31557671222048744, "train/extr_return_rate": 0.8586378038769037, "train/extr_return_raw_mag": 12.869531335965009, "train/extr_return_raw_max": 12.869531335965009, "train/extr_return_raw_mean": 3.88589471158847, "train/extr_return_raw_min": -0.704288512888089, "train/extr_return_raw_std": 2.9530481083292357, "train/extr_reward_mag": 1.0739062336129201, "train/extr_reward_max": 1.0739062336129201, "train/extr_reward_mean": 0.06205397849561463, "train/extr_reward_min": -0.625724626259065, "train/extr_reward_std": 0.2393280481788474, "train/image_loss_mean": 3.2981375539806526, "train/image_loss_std": 8.259675791565801, "train/model_loss_mean": 6.710110986736459, "train/model_loss_std": 12.455583061970456, "train/model_opt_grad_norm": 23.42171209630832, "train/model_opt_grad_steps": 474513.0, "train/model_opt_loss": 17944.58672150088, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2676.056338028169, "train/policy_entropy_mag": 2.68311075089683, "train/policy_entropy_max": 2.68311075089683, "train/policy_entropy_mean": 0.3853375718627178, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.581023094939514, "train/policy_logprob_mag": 7.438384230707733, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3861046313819751, "train/policy_logprob_min": -7.438384230707733, "train/policy_logprob_std": 1.017427687074097, "train/policy_randomness_mag": 0.947020346849737, "train/policy_randomness_max": 0.947020346849737, "train/policy_randomness_mean": 0.13600725355282636, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20507565665412958, "train/post_ent_mag": 55.8061833448813, "train/post_ent_max": 55.8061833448813, "train/post_ent_mean": 40.438330421985036, "train/post_ent_min": 18.869177509361588, "train/post_ent_std": 5.831314664491465, "train/prior_ent_mag": 76.75175046249174, "train/prior_ent_max": 76.75175046249174, "train/prior_ent_mean": 46.01824048539282, "train/prior_ent_min": 28.173042942100846, "train/prior_ent_std": 7.845883470186045, "train/rep_loss_mean": 5.58910923272791, "train/rep_loss_std": 8.948693685128655, "train/reward_avg": 0.042480468408952296, "train/reward_loss_mean": 0.05849153023790306, "train/reward_loss_std": 0.21674861538578089, "train/reward_max_data": 1.025352118720471, "train/reward_max_pred": 1.0251957429966456, "train/reward_neg_acc": 0.9924304048779985, "train/reward_neg_loss": 0.025315571878052934, "train/reward_pos_acc": 0.9877059602401626, "train/reward_pos_loss": 0.7293086841072834, "train/reward_pred": 0.04200446259387782, "train/reward_rate": 0.04719135123239437, "stats/sum_log_reward": 11.21111143959893, "stats/max_log_achievement_collect_coal": 0.8888888888888888, "stats/max_log_achievement_collect_drink": 2.5555555555555554, "stats/max_log_achievement_collect_iron": 0.3333333333333333, "stats/max_log_achievement_collect_sapling": 2.2222222222222223, "stats/max_log_achievement_collect_stone": 9.444444444444445, "stats/max_log_achievement_collect_wood": 12.555555555555555, "stats/max_log_achievement_defeat_skeleton": 0.1111111111111111, "stats/max_log_achievement_defeat_zombie": 1.1111111111111112, "stats/max_log_achievement_eat_cow": 0.1111111111111111, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8888888888888888, "stats/max_log_achievement_make_stone_sword": 0.8888888888888888, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.6666666666666666, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 2.7777777777777777, "stats/max_log_achievement_place_table": 3.3333333333333335, "stats/max_log_achievement_wake_up": 1.1111111111111112, "stats/mean_log_entropy": 0.3096526347928577, "replay/size": 951554.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.3726572324443795e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.336713243463186e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0961766242981, "timer/env.step_count": 1432.0, "timer/env.step_total": 22.211007595062256, "timer/env.step_frac": 0.0740129642600181, "timer/env.step_avg": 0.01551048016414962, "timer/env.step_min": 0.0027141571044921875, "timer/env.step_max": 1.6551997661590576, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.2732365131378174, "timer/replay.add_frac": 0.0009104964821990806, "timer/replay.add_avg": 0.00019080762090629706, "timer/replay.add_min": 6.437301635742188e-05, "timer/replay.add_max": 0.005852460861206055, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030769824981689453, "timer/logger.write_frac": 0.00010253321227818032, "timer/logger.write_avg": 0.030769824981689453, "timer/logger.write_min": 0.030769824981689453, "timer/logger.write_max": 0.030769824981689453, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 10.592095375061035, "timer/agent.policy_frac": 0.0352956691891536, "timer/agent.policy_avg": 0.007396714647388991, "timer/agent.policy_min": 0.0054090023040771484, "timer/agent.policy_max": 0.016338348388671875, "timer/dataset_count": 716.0, "timer/dataset_total": 0.05950045585632324, "timer/dataset_frac": 0.0001982712893100739, "timer/dataset_avg": 8.31011953300604e-05, "timer/dataset_min": 6.0558319091796875e-05, "timer/dataset_max": 0.0001404285430908203, "timer/agent.train_count": 716.0, "timer/agent.train_total": 266.2535300254822, "timer/agent.train_frac": 0.8872273316524628, "timer/agent.train_avg": 0.37186247210262874, "timer/agent.train_min": 0.36523866653442383, "timer/agent.train_max": 0.38565993309020996, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21947932243347168, "timer/agent.report_frac": 0.0007313632746086141, "timer/agent.report_avg": 0.21947932243347168, "timer/agent.report_min": 0.21947932243347168, "timer/agent.report_max": 0.21947932243347168, "fps": 4.771708495121178}
{"step": 951773, "episode/length": 202.0, "episode/score": 13.100000016391277, "episode/sum_abs_reward": 14.700000040233135, "episode/reward_rate": 0.06896551724137931}
{"step": 951978, "episode/length": 204.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.07317073170731707}
{"step": 952220, "episode/length": 241.0, "episode/score": 12.100000023841858, "episode/sum_abs_reward": 15.30000002682209, "episode/reward_rate": 0.05785123966942149}
{"step": 952717, "episode/length": 496.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.030181086519114688}
{"step": 953012, "episode/length": 294.0, "episode/score": 14.099999979138374, "episode/sum_abs_reward": 16.30000002682209, "episode/reward_rate": 0.05084745762711865}
{"step": 953079, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.374232111750422, "train/action_min": 0.0, "train/action_std": 3.259019313631831, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03847608317595881, "train/actor_opt_grad_steps": 475625.0, "train/actor_opt_loss": -12.20310910086374, "train/adv_mag": 0.4028844122548361, "train/adv_max": 0.3361981386268461, "train/adv_mean": 0.0017506086719703416, "train/adv_min": -0.35061392429712657, "train/adv_std": 0.04328511282801628, "train/cont_avg": 0.9948268581081081, "train/cont_loss_mean": 8.584116574030378e-06, "train/cont_loss_std": 0.00021721901925819088, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 7.503860316140545e-05, "train/cont_pos_acc": 0.9999999879179774, "train/cont_pos_loss": 8.2407827990225e-06, "train/cont_pred": 0.9948193157041395, "train/cont_rate": 0.9948268581081081, "train/dyn_loss_mean": 5.570972648826805, "train/dyn_loss_std": 8.885223427334347, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8922321530612739, "train/extr_critic_critic_opt_grad_steps": 475625.0, "train/extr_critic_critic_opt_loss": 15382.453943201013, "train/extr_critic_mag": 12.238045653781375, "train/extr_critic_max": 12.238045653781375, "train/extr_critic_mean": 3.968278295284993, "train/extr_critic_min": -0.36707391610016693, "train/extr_critic_std": 2.9595144632700325, "train/extr_return_normed_mag": 1.3780837010692906, "train/extr_return_normed_max": 1.3780837010692906, "train/extr_return_normed_mean": 0.4190302797265955, "train/extr_return_normed_min": -0.08252015614227669, "train/extr_return_normed_std": 0.31757123365595535, "train/extr_return_rate": 0.8724240362644196, "train/extr_return_raw_mag": 13.007355522465062, "train/extr_return_raw_max": 13.007355522465062, "train/extr_return_raw_mean": 3.984752384391991, "train/extr_return_raw_min": -0.7335552812830822, "train/extr_return_raw_std": 2.987699376570212, "train/extr_reward_mag": 1.0734817562876522, "train/extr_reward_max": 1.0734817562876522, "train/extr_reward_mean": 0.06266761248981631, "train/extr_reward_min": -0.630114463535515, "train/extr_reward_std": 0.24032679341129354, "train/image_loss_mean": 3.2541913647909424, "train/image_loss_std": 8.483878657624528, "train/model_loss_mean": 6.657293158608514, "train/model_loss_std": 12.639375622208053, "train/model_opt_grad_norm": 21.8777844583666, "train/model_opt_grad_steps": 475237.1891891892, "train/model_opt_loss": 19782.6383947424, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2972.972972972973, "train/policy_entropy_mag": 2.677637386966396, "train/policy_entropy_max": 2.677637386966396, "train/policy_entropy_mean": 0.38265940063708537, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.588888784518113, "train/policy_logprob_mag": 7.438384358947341, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38315057251098994, "train/policy_logprob_min": -7.438384358947341, "train/policy_logprob_std": 1.014335956122424, "train/policy_randomness_mag": 0.9450884904410388, "train/policy_randomness_max": 0.9450884904410388, "train/policy_randomness_mean": 0.1350619752664824, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20785189581078453, "train/post_ent_mag": 55.119261097263646, "train/post_ent_max": 55.119261097263646, "train/post_ent_mean": 40.33736728977512, "train/post_ent_min": 19.60103986069963, "train/post_ent_std": 5.7639627005602865, "train/prior_ent_mag": 76.78260535162849, "train/prior_ent_max": 76.78260535162849, "train/prior_ent_mean": 45.91310470168655, "train/prior_ent_min": 28.091409734777503, "train/prior_ent_std": 7.774246976182267, "train/rep_loss_mean": 5.570972648826805, "train/rep_loss_std": 8.885223427334347, "train/reward_avg": 0.04572555938785946, "train/reward_loss_mean": 0.06050962844007724, "train/reward_loss_std": 0.22323224109572334, "train/reward_max_data": 1.0310810884913884, "train/reward_max_pred": 1.0292339389388625, "train/reward_neg_acc": 0.9935887617033881, "train/reward_neg_loss": 0.02529024982170479, "train/reward_pos_acc": 0.9881969013729611, "train/reward_pos_loss": 0.7284483458544757, "train/reward_pred": 0.04530752374715096, "train/reward_rate": 0.050134607263513514, "stats/sum_log_reward": 13.500000381469727, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 5.4, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.6, "stats/max_log_achievement_collect_stone": 15.4, "stats/max_log_achievement_collect_wood": 17.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.2, "stats/max_log_achievement_eat_cow": 0.4, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.2, "stats/max_log_achievement_make_stone_sword": 1.6, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.6, "stats/max_log_achievement_place_furnace": 1.4, "stats/max_log_achievement_place_plant": 1.2, "stats/max_log_achievement_place_stone": 5.6, "stats/max_log_achievement_place_table": 4.8, "stats/max_log_achievement_wake_up": 1.6, "stats/mean_log_entropy": 0.5487464010715485, "replay/size": 953016.0, "replay/inserts": 1462.0, "replay/samples": 11696.0, "replay/insert_wait_avg": 3.4301616913968983e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3540283599728272e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1502068042755, "timer/env.step_count": 1462.0, "timer/env.step_total": 16.478316068649292, "timer/env.step_frac": 0.054900232267354764, "timer/env.step_avg": 0.011271078022331937, "timer/env.step_min": 0.002946615219116211, "timer/env.step_max": 1.6724774837493896, "timer/replay.add_count": 1462.0, "timer/replay.add_total": 0.2689554691314697, "timer/replay.add_frac": 0.0008960695779458599, "timer/replay.add_avg": 0.0001839640691733719, "timer/replay.add_min": 6.890296936035156e-05, "timer/replay.add_max": 0.002249479293823242, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022000789642333984, "timer/logger.write_frac": 7.329926531311852e-05, "timer/logger.write_avg": 0.022000789642333984, "timer/logger.write_min": 0.022000789642333984, "timer/logger.write_max": 0.022000789642333984, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1462.0, "timer/agent.policy_total": 10.860857248306274, "timer/agent.policy_frac": 0.03618474018040079, "timer/agent.policy_avg": 0.00742876692770607, "timer/agent.policy_min": 0.00580906867980957, "timer/agent.policy_max": 0.018163442611694336, "timer/dataset_count": 731.0, "timer/dataset_total": 0.060976266860961914, "timer/dataset_frac": 0.00020315250657389628, "timer/dataset_avg": 8.341486574686993e-05, "timer/dataset_min": 6.079673767089844e-05, "timer/dataset_max": 0.0001475811004638672, "timer/agent.train_count": 731.0, "timer/agent.train_total": 271.78323221206665, "timer/agent.train_frac": 0.9054907378067987, "timer/agent.train_avg": 0.37179648729420883, "timer/agent.train_min": 0.36374568939208984, "timer/agent.train_max": 0.3840646743774414, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22165536880493164, "timer/agent.report_frac": 0.0007384814795395778, "timer/agent.report_avg": 0.22165536880493164, "timer/agent.report_min": 0.22165536880493164, "timer/agent.report_max": 0.22165536880493164, "fps": 4.870795431037529}
{"step": 953209, "episode/length": 196.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.100000038743019, "episode/reward_rate": 0.05583756345177665}
{"step": 953425, "episode/length": 215.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.06944444444444445}
{"step": 953710, "episode/length": 284.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.04912280701754386}
{"step": 953883, "episode/length": 172.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.08092485549132948}
{"step": 954230, "episode/length": 346.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 18.30000003427267, "episode/reward_rate": 0.04610951008645533}
{"step": 954436, "episode/length": 205.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.05825242718446602}
{"step": 954512, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.418290259132923, "train/action_min": 0.0, "train/action_std": 3.343467285935308, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.037874660808855376, "train/actor_opt_grad_steps": 476350.0, "train/actor_opt_loss": -10.935085236606463, "train/adv_mag": 0.3899962515898154, "train/adv_max": 0.3146372007232317, "train/adv_mean": 0.0019734284930602603, "train/adv_min": -0.3585936248722211, "train/adv_std": 0.04204220985862571, "train/cont_avg": 0.9951722051056338, "train/cont_loss_mean": 3.762253663888285e-06, "train/cont_loss_std": 8.353964076825794e-05, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 8.86047095486712e-06, "train/cont_pos_acc": 0.9999999823704572, "train/cont_pos_loss": 3.7397364677180516e-06, "train/cont_pred": 0.9951686246294371, "train/cont_rate": 0.9951722051056338, "train/dyn_loss_mean": 5.577471464452609, "train/dyn_loss_std": 8.920863164982325, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9381191100872738, "train/extr_critic_critic_opt_grad_steps": 476350.0, "train/extr_critic_critic_opt_loss": 15449.030603543133, "train/extr_critic_mag": 12.312617852654256, "train/extr_critic_max": 12.312617852654256, "train/extr_critic_mean": 3.8738473804903704, "train/extr_critic_min": -0.382358493939252, "train/extr_critic_std": 2.9693530411787434, "train/extr_return_normed_mag": 1.3615627674989297, "train/extr_return_normed_max": 1.3615627674989297, "train/extr_return_normed_mean": 0.4067087866051096, "train/extr_return_normed_min": -0.083315036403881, "train/extr_return_normed_std": 0.3152083284418348, "train/extr_return_rate": 0.8641689117525665, "train/extr_return_raw_mag": 12.970450629650706, "train/extr_return_raw_max": 12.970450629650706, "train/extr_return_raw_mean": 3.8926074370531967, "train/extr_return_raw_min": -0.7665695728550495, "train/extr_return_raw_std": 2.996907949447632, "train/extr_reward_mag": 1.0730873329538695, "train/extr_reward_max": 1.0730873329538695, "train/extr_reward_mean": 0.059913672087058216, "train/extr_reward_min": -0.6439471127281726, "train/extr_reward_std": 0.23591709682639217, "train/image_loss_mean": 3.427275755036045, "train/image_loss_std": 8.646190468694122, "train/model_loss_mean": 6.830588125846755, "train/model_loss_std": 12.767233821707713, "train/model_opt_grad_norm": 20.434131152193313, "train/model_opt_grad_steps": 475961.59154929576, "train/model_opt_loss": 17572.967415823063, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2570.4225352112676, "train/policy_entropy_mag": 2.68229259571559, "train/policy_entropy_max": 2.68229259571559, "train/policy_entropy_mean": 0.4008298543557315, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6083135785351337, "train/policy_logprob_mag": 7.438384257571798, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3991605979456028, "train/policy_logprob_min": -7.438384257571798, "train/policy_logprob_std": 1.0241847911351163, "train/policy_randomness_mag": 0.946731578296339, "train/policy_randomness_max": 0.946731578296339, "train/policy_randomness_mean": 0.1414753483004973, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2147079993721465, "train/post_ent_mag": 55.68455473134215, "train/post_ent_max": 55.68455473134215, "train/post_ent_mean": 40.51992346535266, "train/post_ent_min": 19.23505764276209, "train/post_ent_std": 5.904293577435991, "train/prior_ent_mag": 76.65522379270742, "train/prior_ent_max": 76.65522379270742, "train/prior_ent_mean": 46.12019074131066, "train/prior_ent_min": 27.76422753132565, "train/prior_ent_std": 7.871506267869976, "train/rep_loss_mean": 5.577471464452609, "train/rep_loss_std": 8.920863164982325, "train/reward_avg": 0.04237455953384789, "train/reward_loss_mean": 0.05682581411281102, "train/reward_loss_std": 0.21046748589461958, "train/reward_max_data": 1.0295774718405495, "train/reward_max_pred": 1.0278260741435306, "train/reward_neg_acc": 0.9927567537401764, "train/reward_neg_loss": 0.02404291306058286, "train/reward_pos_acc": 0.9887361543279298, "train/reward_pos_loss": 0.7242407051610275, "train/reward_pred": 0.04211127214973241, "train/reward_rate": 0.046875, "stats/sum_log_reward": 12.766666889190674, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 4.333333333333333, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 15.833333333333334, "stats/max_log_achievement_collect_wood": 12.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 4.166666666666667, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.48624687890211743, "replay/size": 954449.0, "replay/inserts": 1433.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.4579844717703247e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3274728585887887e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 299.9989855289459, "timer/env.step_count": 1433.0, "timer/env.step_total": 19.61841654777527, "timer/env.step_frac": 0.06539494296350663, "timer/env.step_avg": 0.013690451184769902, "timer/env.step_min": 0.0029442310333251953, "timer/env.step_max": 1.9200758934020996, "timer/replay.add_count": 1433.0, "timer/replay.add_total": 0.25426650047302246, "timer/replay.add_frac": 0.0008475578676531529, "timer/replay.add_avg": 0.00017743649718982726, "timer/replay.add_min": 7.271766662597656e-05, "timer/replay.add_max": 0.003396272659301758, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022672176361083984, "timer/logger.write_frac": 7.557417676299582e-05, "timer/logger.write_avg": 0.022672176361083984, "timer/logger.write_min": 0.022672176361083984, "timer/logger.write_max": 0.022672176361083984, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00017881393432617188, "timer/checkpoint.save_frac": 5.960484633336158e-07, "timer/checkpoint.save_avg": 0.00017881393432617188, "timer/checkpoint.save_min": 0.00017881393432617188, "timer/checkpoint.save_max": 0.00017881393432617188, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4874508380889893, "timer/agent.save_frac": 0.004958186226751323, "timer/agent.save_avg": 1.4874508380889893, "timer/agent.save_min": 1.4874508380889893, "timer/agent.save_max": 1.4874508380889893, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.818771362304688e-05, "timer/replay.save_frac": 2.2729314735121885e-07, "timer/replay.save_avg": 6.818771362304688e-05, "timer/replay.save_min": 6.818771362304688e-05, "timer/replay.save_max": 6.818771362304688e-05, "timer/agent.policy_count": 1433.0, "timer/agent.policy_total": 12.729260921478271, "timer/agent.policy_frac": 0.04243101322170993, "timer/agent.policy_avg": 0.008882945513941571, "timer/agent.policy_min": 0.005625247955322266, "timer/agent.policy_max": 1.492091417312622, "timer/dataset_count": 716.0, "timer/dataset_total": 0.05953335762023926, "timer/dataset_frac": 0.0001984451964571563, "timer/dataset_avg": 8.314714751430064e-05, "timer/dataset_min": 6.175041198730469e-05, "timer/dataset_max": 0.00018548965454101562, "timer/agent.train_count": 716.0, "timer/agent.train_total": 266.6489052772522, "timer/agent.train_frac": 0.8888326899076268, "timer/agent.train_avg": 0.37241467217493324, "timer/agent.train_min": 0.3618607521057129, "timer/agent.train_max": 0.9231390953063965, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22093892097473145, "timer/agent.report_frac": 0.0007364655603257491, "timer/agent.report_avg": 0.22093892097473145, "timer/agent.report_min": 0.22093892097473145, "timer/agent.report_max": 0.22093892097473145, "fps": 4.776586576760931}
{"step": 954559, "episode/length": 122.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.700000047683716, "episode/reward_rate": 0.0975609756097561}
{"step": 954762, "episode/length": 202.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.06403940886699508}
{"step": 955057, "episode/length": 294.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 15.900000013411045, "episode/reward_rate": 0.05084745762711865}
{"step": 955562, "episode/length": 504.0, "episode/score": 11.099999979138374, "episode/sum_abs_reward": 14.500000044703484, "episode/reward_rate": 0.023762376237623763}
{"step": 955753, "episode/length": 190.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.100000016391277, "episode/reward_rate": 0.08376963350785341}
{"step": 955827, "episode/length": 73.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.3000000193715096, "episode/reward_rate": 0.06756756756756757}
{"step": 955967, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.436115421660959, "train/action_min": 0.0, "train/action_std": 3.2649972471472335, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03853420913219452, "train/actor_opt_grad_steps": 477070.0, "train/actor_opt_loss": -12.497042751883807, "train/adv_mag": 0.4133263128261044, "train/adv_max": 0.3330272611689894, "train/adv_mean": 0.001673314180476304, "train/adv_min": -0.3694036903038417, "train/adv_std": 0.04306102947217144, "train/cont_avg": 0.9951439426369864, "train/cont_loss_mean": 1.4464930339425162e-05, "train/cont_loss_std": 0.000347510910178742, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 2.770996570757156e-06, "train/cont_pos_acc": 0.9999999795874505, "train/cont_pos_loss": 1.4522532350452223e-05, "train/cont_pred": 0.995129887371847, "train/cont_rate": 0.9951439426369864, "train/dyn_loss_mean": 5.537721934383863, "train/dyn_loss_std": 8.922741903017645, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8988040710148746, "train/extr_critic_critic_opt_grad_steps": 477070.0, "train/extr_critic_critic_opt_loss": 15370.088626391267, "train/extr_critic_mag": 12.188779752548427, "train/extr_critic_max": 12.188779752548427, "train/extr_critic_mean": 3.9092664065426344, "train/extr_critic_min": -0.3693341408690361, "train/extr_critic_std": 2.9394437907493276, "train/extr_return_normed_mag": 1.367137708076059, "train/extr_return_normed_max": 1.367137708076059, "train/extr_return_normed_mean": 0.4117682261826241, "train/extr_return_normed_min": -0.07597656507198125, "train/extr_return_normed_std": 0.31361636315306574, "train/extr_return_rate": 0.8717644582056019, "train/extr_return_raw_mag": 12.96807907052236, "train/extr_return_raw_max": 12.96807907052236, "train/extr_return_raw_mean": 3.9251020444582587, "train/extr_return_raw_min": -0.6912231032978998, "train/extr_return_raw_std": 2.968353183302161, "train/extr_reward_mag": 1.0724019775651905, "train/extr_reward_max": 1.0724019775651905, "train/extr_reward_mean": 0.06168221090346167, "train/extr_reward_min": -0.5882546885372841, "train/extr_reward_std": 0.23900200140802827, "train/image_loss_mean": 3.240581071540101, "train/image_loss_std": 8.589304048721104, "train/model_loss_mean": 6.621202436211991, "train/model_loss_std": 12.727627950171902, "train/model_opt_grad_norm": 22.63927067795845, "train/model_opt_grad_steps": 476680.16438356164, "train/model_opt_loss": 9708.635675299658, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1455.4794520547946, "train/policy_entropy_mag": 2.6838583227706283, "train/policy_entropy_max": 2.6838583227706283, "train/policy_entropy_mean": 0.3810112943796262, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5846727616982917, "train/policy_logprob_mag": 7.438384238987753, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3796167547163898, "train/policy_logprob_min": -7.438384238987753, "train/policy_logprob_std": 1.0085911375202545, "train/policy_randomness_mag": 0.94728421348415, "train/policy_randomness_max": 0.94728421348415, "train/policy_randomness_mean": 0.1344802679672633, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2063638289293198, "train/post_ent_mag": 55.366502317663745, "train/post_ent_max": 55.366502317663745, "train/post_ent_mean": 40.35274171176022, "train/post_ent_min": 19.4841490575712, "train/post_ent_std": 5.740203432840843, "train/prior_ent_mag": 76.77624501267525, "train/prior_ent_max": 76.77624501267525, "train/prior_ent_mean": 45.85191209348914, "train/prior_ent_min": 27.9256056171574, "train/prior_ent_std": 7.751746928855164, "train/rep_loss_mean": 5.537721934383863, "train/rep_loss_std": 8.922741903017645, "train/reward_avg": 0.04299015373195687, "train/reward_loss_mean": 0.05797376279553322, "train/reward_loss_std": 0.21089924994396836, "train/reward_max_data": 1.0246575401253897, "train/reward_max_pred": 1.0221815795114595, "train/reward_neg_acc": 0.9931102035796806, "train/reward_neg_loss": 0.02510550929463073, "train/reward_pos_acc": 0.9916321129015048, "train/reward_pos_loss": 0.7169657627197161, "train/reward_pred": 0.04279582562205726, "train/reward_rate": 0.04746361301369863, "stats/sum_log_reward": 11.266666809717814, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 8.333333333333334, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 9.5, "stats/max_log_achievement_collect_wood": 11.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.3333333333333333, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.8333333333333334, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 2.3333333333333335, "stats/max_log_achievement_place_table": 2.6666666666666665, "stats/max_log_achievement_wake_up": 1.6666666666666667, "stats/mean_log_entropy": 0.5060733507076899, "replay/size": 955904.0, "replay/inserts": 1455.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.448466664737033e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3355165719985962e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0449450016022, "timer/env.step_count": 1455.0, "timer/env.step_total": 17.62327289581299, "timer/env.step_frac": 0.05873544343737864, "timer/env.step_avg": 0.012112215048668721, "timer/env.step_min": 0.002951383590698242, "timer/env.step_max": 1.6456327438354492, "timer/replay.add_count": 1455.0, "timer/replay.add_total": 0.2623288631439209, "timer/replay.add_frac": 0.0008742985593125727, "timer/replay.add_avg": 0.00018029475130166385, "timer/replay.add_min": 6.651878356933594e-05, "timer/replay.add_max": 0.0043413639068603516, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.020993947982788086, "timer/logger.write_frac": 6.996934403502777e-05, "timer/logger.write_avg": 0.020993947982788086, "timer/logger.write_min": 0.020993947982788086, "timer/logger.write_max": 0.020993947982788086, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1455.0, "timer/agent.policy_total": 10.727181434631348, "timer/agent.policy_frac": 0.03575191521581564, "timer/agent.policy_avg": 0.007372633288406425, "timer/agent.policy_min": 0.0057256221771240234, "timer/agent.policy_max": 0.01421666145324707, "timer/dataset_count": 728.0, "timer/dataset_total": 0.061064958572387695, "timer/dataset_frac": 0.00020351937131305985, "timer/dataset_avg": 8.388043759943365e-05, "timer/dataset_min": 6.341934204101562e-05, "timer/dataset_max": 0.00015735626220703125, "timer/agent.train_count": 728.0, "timer/agent.train_total": 270.6801154613495, "timer/agent.train_frac": 0.9021318971392907, "timer/agent.train_avg": 0.3718133454139416, "timer/agent.train_min": 0.35939550399780273, "timer/agent.train_max": 0.3860313892364502, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21984648704528809, "timer/agent.report_frac": 0.0007327118510332316, "timer/agent.report_avg": 0.21984648704528809, "timer/agent.report_min": 0.21984648704528809, "timer/agent.report_max": 0.21984648704528809, "fps": 4.849171022192445}
{"step": 955997, "episode/length": 169.0, "episode/score": 12.099999964237213, "episode/sum_abs_reward": 14.099999994039536, "episode/reward_rate": 0.07647058823529412}
{"step": 956425, "episode/length": 427.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.030373831775700934}
{"step": 956634, "episode/length": 208.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.100000038743019, "episode/reward_rate": 0.05741626794258373}
{"step": 956733, "episode/length": 98.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.1111111111111111}
{"step": 957040, "episode/length": 306.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.900000043213367, "episode/reward_rate": 0.04560260586319218}
{"step": 957297, "episode/length": 256.0, "episode/score": 12.100000023841858, "episode/sum_abs_reward": 14.900000020861626, "episode/reward_rate": 0.054474708171206226}
{"step": 957425, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.383408637895976, "train/action_min": 0.0, "train/action_std": 3.2631278038024902, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03804722862088517, "train/actor_opt_grad_steps": 477800.0, "train/actor_opt_loss": -10.807806099318478, "train/adv_mag": 0.40796944233652666, "train/adv_max": 0.3364355047679927, "train/adv_mean": 0.0017358020798395682, "train/adv_min": -0.364692869864098, "train/adv_std": 0.0433837829081163, "train/cont_avg": 0.9945419520547946, "train/cont_loss_mean": 8.718895203860608e-05, "train/cont_loss_std": 0.0026285708910920333, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 7.92320893297284e-05, "train/cont_pos_acc": 0.9999864885251816, "train/cont_pos_loss": 8.748467066442423e-05, "train/cont_pred": 0.9945159921907398, "train/cont_rate": 0.9945419520547946, "train/dyn_loss_mean": 5.714414995010585, "train/dyn_loss_std": 8.99878929739129, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8880558511982225, "train/extr_critic_critic_opt_grad_steps": 477800.0, "train/extr_critic_critic_opt_loss": 15540.21616812928, "train/extr_critic_mag": 12.202540462964201, "train/extr_critic_max": 12.202540462964201, "train/extr_critic_mean": 3.883300111718374, "train/extr_critic_min": -0.35635775409332693, "train/extr_critic_std": 2.9459952001702296, "train/extr_return_normed_mag": 1.3767159164768377, "train/extr_return_normed_max": 1.3767159164768377, "train/extr_return_normed_mean": 0.41191036570562073, "train/extr_return_normed_min": -0.07859493271537023, "train/extr_return_normed_std": 0.31690386427591927, "train/extr_return_rate": 0.8650480247523686, "train/extr_return_raw_mag": 12.935003790136886, "train/extr_return_raw_max": 12.935003790136886, "train/extr_return_raw_mean": 3.89956972370409, "train/extr_return_raw_min": -0.696126156882064, "train/extr_return_raw_std": 2.968381300364455, "train/extr_reward_mag": 1.0760059356689453, "train/extr_reward_max": 1.0760059356689453, "train/extr_reward_mean": 0.06162417746365887, "train/extr_reward_min": -0.5931600691521004, "train/extr_reward_std": 0.238773399632271, "train/image_loss_mean": 3.3162576711341125, "train/image_loss_std": 8.537331430879357, "train/model_loss_mean": 6.803817187270073, "train/model_loss_std": 12.734807732987077, "train/model_opt_grad_norm": 23.73345238632626, "train/model_opt_grad_steps": 477409.5479452055, "train/model_opt_loss": 8765.876785905393, "train/model_opt_model_opt_grad_overflow": 0.0136986301369863, "train/model_opt_model_opt_grad_scale": 1267.123287671233, "train/policy_entropy_mag": 2.680826588852765, "train/policy_entropy_max": 2.680826588852765, "train/policy_entropy_mean": 0.3659896775059504, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5587091360190143, "train/policy_logprob_mag": 7.438384304307911, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.366521881663636, "train/policy_logprob_min": -7.438384304307911, "train/policy_logprob_std": 0.999526855063765, "train/policy_randomness_mag": 0.9462141378285134, "train/policy_randomness_max": 0.9462141378285134, "train/policy_randomness_mean": 0.12917829366171196, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19719980626481853, "train/post_ent_mag": 55.06975419553992, "train/post_ent_max": 55.06975419553992, "train/post_ent_mean": 40.37566475019063, "train/post_ent_min": 19.194987440762453, "train/post_ent_std": 5.759159969956907, "train/prior_ent_mag": 76.68143055536976, "train/prior_ent_max": 76.68143055536976, "train/prior_ent_mean": 46.06800366754401, "train/prior_ent_min": 27.785413715937366, "train/prior_ent_std": 7.826513048720686, "train/rep_loss_mean": 5.714414995010585, "train/rep_loss_std": 8.99878929739129, "train/reward_avg": 0.043626926303522225, "train/reward_loss_mean": 0.058823358624765315, "train/reward_loss_std": 0.2146018761886309, "train/reward_max_data": 1.0301369934865874, "train/reward_max_pred": 1.0300995193115652, "train/reward_neg_acc": 0.992663858688041, "train/reward_neg_loss": 0.025078649275413114, "train/reward_pos_acc": 0.9897422757867265, "train/reward_pos_loss": 0.7227354310963252, "train/reward_pred": 0.04329830704078282, "train/reward_rate": 0.048400042808219176, "stats/sum_log_reward": 11.600000063578287, "stats/max_log_achievement_collect_coal": 0.0, "stats/max_log_achievement_collect_drink": 3.6666666666666665, "stats/max_log_achievement_collect_iron": 0.3333333333333333, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 14.5, "stats/max_log_achievement_collect_wood": 13.166666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.8333333333333334, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 4.166666666666667, "stats/max_log_achievement_place_table": 3.1666666666666665, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.590080072482427, "replay/size": 957362.0, "replay/inserts": 1458.0, "replay/samples": 11664.0, "replay/insert_wait_avg": 3.3784141592855153e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3218699495815283e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.10732650756836, "timer/env.step_count": 1458.0, "timer/env.step_total": 17.50729274749756, "timer/env.step_frac": 0.05833677221824188, "timer/env.step_avg": 0.012007745368654019, "timer/env.step_min": 0.002648591995239258, "timer/env.step_max": 1.6704869270324707, "timer/replay.add_count": 1458.0, "timer/replay.add_total": 0.25319480895996094, "timer/replay.add_frac": 0.0008436808654638949, "timer/replay.add_avg": 0.00017365899105621464, "timer/replay.add_min": 6.628036499023438e-05, "timer/replay.add_max": 0.004507541656494141, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028714656829833984, "timer/logger.write_frac": 9.56812923029716e-05, "timer/logger.write_avg": 0.028714656829833984, "timer/logger.write_min": 0.028714656829833984, "timer/logger.write_max": 0.028714656829833984, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1458.0, "timer/agent.policy_total": 10.625580072402954, "timer/agent.policy_frac": 0.03540593359067823, "timer/agent.policy_avg": 0.007287777827436869, "timer/agent.policy_min": 0.0056345462799072266, "timer/agent.policy_max": 0.01565074920654297, "timer/dataset_count": 729.0, "timer/dataset_total": 0.05999588966369629, "timer/dataset_frac": 0.00019991477836241116, "timer/dataset_avg": 8.229888842756692e-05, "timer/dataset_min": 6.318092346191406e-05, "timer/dataset_max": 0.00014638900756835938, "timer/agent.train_count": 729.0, "timer/agent.train_total": 270.9618299007416, "timer/agent.train_frac": 0.9028830887069604, "timer/agent.train_avg": 0.3716897529502628, "timer/agent.train_min": 0.3654060363769531, "timer/agent.train_max": 0.3829028606414795, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22275137901306152, "timer/agent.report_frac": 0.0007422390569576581, "timer/agent.report_avg": 0.22275137901306152, "timer/agent.report_min": 0.22275137901306152, "timer/agent.report_max": 0.22275137901306152, "fps": 4.858150584926855}
{"step": 957532, "episode/length": 234.0, "episode/score": 14.100000016391277, "episode/sum_abs_reward": 17.1000000461936, "episode/reward_rate": 0.06808510638297872}
{"step": 957703, "episode/length": 170.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.07017543859649122}
{"step": 957902, "episode/length": 198.0, "episode/score": 13.099999994039536, "episode/sum_abs_reward": 15.500000059604645, "episode/reward_rate": 0.07537688442211055}
{"step": 958334, "episode/length": 431.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 17.30000003427267, "episode/reward_rate": 0.037037037037037035}
{"step": 958379, "episode/length": 44.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.17777777777777778}
{"step": 958751, "episode/length": 371.0, "episode/score": 16.099999986588955, "episode/sum_abs_reward": 18.30000001937151, "episode/reward_rate": 0.0456989247311828}
{"step": 958865, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4788767496744795, "train/action_min": 0.0, "train/action_std": 3.32503949602445, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038608496749980584, "train/actor_opt_grad_steps": 478525.0, "train/actor_opt_loss": -12.670679634230005, "train/adv_mag": 0.41694399486813283, "train/adv_max": 0.3542090178363853, "train/adv_mean": 0.002054504755455532, "train/adv_min": -0.3725911960419681, "train/adv_std": 0.04338956189652284, "train/cont_avg": 0.9947238498263888, "train/cont_loss_mean": 1.2652788153507307e-05, "train/cont_loss_std": 0.00036544906059137675, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0015163618921158041, "train/cont_pos_acc": 0.9999999793039428, "train/cont_pos_loss": 9.108358227847032e-06, "train/cont_pred": 0.9947184150417646, "train/cont_rate": 0.9947238498263888, "train/dyn_loss_mean": 5.568827052911122, "train/dyn_loss_std": 8.928315308358934, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.919732440676954, "train/extr_critic_critic_opt_grad_steps": 478525.0, "train/extr_critic_critic_opt_loss": 15438.627536349826, "train/extr_critic_mag": 12.106963766945732, "train/extr_critic_max": 12.106963766945732, "train/extr_critic_mean": 3.9111485150125294, "train/extr_critic_min": -0.3620697458585103, "train/extr_critic_std": 2.9570156236489615, "train/extr_return_normed_mag": 1.3684215943018596, "train/extr_return_normed_max": 1.3684215943018596, "train/extr_return_normed_mean": 0.4169144572483169, "train/extr_return_normed_min": -0.07874680287204683, "train/extr_return_normed_std": 0.3196530518018537, "train/extr_return_rate": 0.8723253516687287, "train/extr_return_raw_mag": 12.816989541053772, "train/extr_return_raw_max": 12.816989541053772, "train/extr_return_raw_mean": 3.9303287665049234, "train/extr_return_raw_min": -0.698896300047636, "train/extr_return_raw_std": 2.9856787853770785, "train/extr_reward_mag": 1.0702709191375308, "train/extr_reward_max": 1.0702709191375308, "train/extr_reward_mean": 0.0642982534546819, "train/extr_reward_min": -0.609062984585762, "train/extr_reward_std": 0.243786402253641, "train/image_loss_mean": 3.2614684287044735, "train/image_loss_std": 8.092680580086178, "train/model_loss_mean": 6.6620621614986, "train/model_loss_std": 12.289013412263659, "train/model_opt_grad_norm": 22.920019308725994, "train/model_opt_grad_steps": 478134.0, "train/model_opt_loss": 8781.115763346354, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1319.4444444444443, "train/policy_entropy_mag": 2.701827608876758, "train/policy_entropy_max": 2.701827608876758, "train/policy_entropy_mean": 0.386392198709978, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5941543388697836, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3859838009294536, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 1.0168020617630746, "train/policy_randomness_mag": 0.9536265772249963, "train/policy_randomness_max": 0.9536265772249963, "train/policy_randomness_mean": 0.13637948988212478, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2097104098647833, "train/post_ent_mag": 55.530227714114716, "train/post_ent_max": 55.530227714114716, "train/post_ent_mean": 40.338341606987846, "train/post_ent_min": 19.45583987236023, "train/post_ent_std": 5.846318403879802, "train/prior_ent_mag": 76.78110429975722, "train/prior_ent_max": 76.78110429975722, "train/prior_ent_mean": 45.8785531785753, "train/prior_ent_min": 27.717871295081245, "train/prior_ent_std": 7.897921793990665, "train/rep_loss_mean": 5.568827052911122, "train/rep_loss_std": 8.928315308358934, "train/reward_avg": 0.04468994096128477, "train/reward_loss_mean": 0.059284884120441146, "train/reward_loss_std": 0.22341844191153845, "train/reward_max_data": 1.036111119720671, "train/reward_max_pred": 1.032705972592036, "train/reward_neg_acc": 0.9937633532616827, "train/reward_neg_loss": 0.024810282707524795, "train/reward_pos_acc": 0.989731719924344, "train/reward_pos_loss": 0.7264750740594335, "train/reward_pred": 0.04443619762443834, "train/reward_rate": 0.049262152777777776, "stats/sum_log_reward": 12.766666412353516, "stats/max_log_achievement_collect_coal": 1.1666666666666667, "stats/max_log_achievement_collect_drink": 3.5, "stats/max_log_achievement_collect_iron": 0.3333333333333333, "stats/max_log_achievement_collect_sapling": 2.1666666666666665, "stats/max_log_achievement_collect_stone": 20.166666666666668, "stats/max_log_achievement_collect_wood": 12.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.3333333333333333, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.8333333333333335, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_stone": 5.5, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.5005145544807116, "replay/size": 958802.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.3320652114020454e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.301926871140798e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.12059783935547, "timer/env.step_count": 1440.0, "timer/env.step_total": 17.403928518295288, "timer/env.step_frac": 0.0579897835856339, "timer/env.step_avg": 0.012086061471038394, "timer/env.step_min": 0.002815723419189453, "timer/env.step_max": 1.7343547344207764, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.28412294387817383, "timer/replay.add_frac": 0.0009466959146544662, "timer/replay.add_avg": 0.0001973075999153985, "timer/replay.add_min": 7.033348083496094e-05, "timer/replay.add_max": 0.003651857376098633, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028418779373168945, "timer/logger.write_frac": 9.469119939705227e-05, "timer/logger.write_avg": 0.028418779373168945, "timer/logger.write_min": 0.028418779373168945, "timer/logger.write_max": 0.028418779373168945, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003597736358642578, "timer/checkpoint.save_frac": 1.1987635585639897e-06, "timer/checkpoint.save_avg": 0.0003597736358642578, "timer/checkpoint.save_min": 0.0003597736358642578, "timer/checkpoint.save_max": 0.0003597736358642578, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2241904735565186, "timer/agent.save_frac": 0.004078995185168153, "timer/agent.save_avg": 1.2241904735565186, "timer/agent.save_min": 1.2241904735565186, "timer/agent.save_max": 1.2241904735565186, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.036064147949219e-05, "timer/replay.save_frac": 3.010811058288616e-07, "timer/replay.save_avg": 9.036064147949219e-05, "timer/replay.save_min": 9.036064147949219e-05, "timer/replay.save_max": 9.036064147949219e-05, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 14.230816125869751, "timer/agent.policy_frac": 0.04741699246343309, "timer/agent.policy_avg": 0.00988251119852066, "timer/agent.policy_min": 0.005654096603393555, "timer/agent.policy_max": 2.5621044635772705, "timer/dataset_count": 720.0, "timer/dataset_total": 0.05852961540222168, "timer/dataset_frac": 0.00019502032124283129, "timer/dataset_avg": 8.129113250308567e-05, "timer/dataset_min": 5.2928924560546875e-05, "timer/dataset_max": 0.00013446807861328125, "timer/agent.train_count": 720.0, "timer/agent.train_total": 267.4577703475952, "timer/agent.train_frac": 0.8911676581783847, "timer/agent.train_avg": 0.3714691254827711, "timer/agent.train_min": 0.36547064781188965, "timer/agent.train_max": 0.4709818363189697, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2170543670654297, "timer/agent.report_frac": 0.0007232238261154326, "timer/agent.report_avg": 0.2170543670654297, "timer/agent.report_min": 0.2170543670654297, "timer/agent.report_max": 0.2170543670654297, "fps": 4.797976793847933}
{"step": 959133, "episode/length": 381.0, "episode/score": 16.099999986588955, "episode/sum_abs_reward": 18.30000001937151, "episode/reward_rate": 0.04450261780104712}
{"step": 959387, "episode/length": 253.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.05511811023622047}
{"step": 959715, "episode/length": 327.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.04573170731707317}
{"step": 959862, "episode/length": 146.0, "episode/score": 11.100000016391277, "episode/sum_abs_reward": 12.30000003427267, "episode/reward_rate": 0.08163265306122448}
{"step": 960056, "episode/length": 193.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 12.300000056624413, "episode/reward_rate": 0.05670103092783505}
{"step": 960248, "episode/length": 191.0, "episode/score": 14.100000023841858, "episode/sum_abs_reward": 16.30000001192093, "episode/reward_rate": 0.08333333333333333}
{"step": 960298, "episode/length": 49.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.14}
{"step": 960319, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4991521965967465, "train/action_min": 0.0, "train/action_std": 3.363239053177507, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.037558926396990475, "train/actor_opt_grad_steps": 479250.0, "train/actor_opt_loss": -12.641583800315857, "train/adv_mag": 0.3797927151804101, "train/adv_max": 0.3284494560467054, "train/adv_mean": 0.002113660600801654, "train/adv_min": -0.33943736369479194, "train/adv_std": 0.04246095889439321, "train/cont_avg": 0.9949834118150684, "train/cont_loss_mean": 7.149209064024441e-05, "train/cont_loss_std": 0.002268355189858941, "train/cont_neg_acc": 0.9965753424657534, "train/cont_neg_loss": 0.017302614075432123, "train/cont_pos_acc": 0.9999999787709485, "train/cont_pos_loss": 3.8602715701378895e-06, "train/cont_pred": 0.9949932596454881, "train/cont_rate": 0.9949834118150684, "train/dyn_loss_mean": 5.635854668813209, "train/dyn_loss_std": 8.866628058969159, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.933982152644902, "train/extr_critic_critic_opt_grad_steps": 479250.0, "train/extr_critic_critic_opt_loss": 15343.310306078767, "train/extr_critic_mag": 12.121513275250997, "train/extr_critic_max": 12.121513275250997, "train/extr_critic_mean": 3.9160927746393908, "train/extr_critic_min": -0.3537802124676639, "train/extr_critic_std": 2.915374654613129, "train/extr_return_normed_mag": 1.3590759202225569, "train/extr_return_normed_max": 1.3590759202225569, "train/extr_return_normed_mean": 0.41563978382985883, "train/extr_return_normed_min": -0.07561442888762852, "train/extr_return_normed_std": 0.31290099330960885, "train/extr_return_rate": 0.8711544414089151, "train/extr_return_raw_mag": 12.807702234346573, "train/extr_return_raw_max": 12.807702234346573, "train/extr_return_raw_mean": 3.9359420390978253, "train/extr_return_raw_min": -0.6837163502222872, "train/extr_return_raw_std": 2.9425739245871974, "train/extr_reward_mag": 1.0712098062854924, "train/extr_reward_max": 1.0712098062854924, "train/extr_reward_mean": 0.06300001611856565, "train/extr_reward_min": -0.5769185366695875, "train/extr_reward_std": 0.24087157825084582, "train/image_loss_mean": 3.215174869315265, "train/image_loss_std": 8.46574875426619, "train/model_loss_mean": 6.654450847677989, "train/model_loss_std": 12.624439344014206, "train/model_opt_grad_norm": 23.387849494202495, "train/model_opt_grad_steps": 478859.0, "train/model_opt_loss": 16636.127140410958, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.698106667766832, "train/policy_entropy_max": 2.698106667766832, "train/policy_entropy_mean": 0.3853445200070943, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5858509299689776, "train/policy_logprob_mag": 7.438384271647832, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3846083107876451, "train/policy_logprob_min": -7.438384271647832, "train/policy_logprob_std": 1.0127473195938215, "train/policy_randomness_mag": 0.9523132484253138, "train/policy_randomness_max": 0.9523132484253138, "train/policy_randomness_mean": 0.1360097055974072, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20677966849036414, "train/post_ent_mag": 55.50541671334881, "train/post_ent_max": 55.50541671334881, "train/post_ent_mean": 40.443470837318735, "train/post_ent_min": 19.465882967596183, "train/post_ent_std": 5.782573601970934, "train/prior_ent_mag": 76.6634374122097, "train/prior_ent_max": 76.6634374122097, "train/prior_ent_mean": 46.07623458235231, "train/prior_ent_min": 28.360613261183648, "train/prior_ent_std": 7.730529654515933, "train/rep_loss_mean": 5.635854668813209, "train/rep_loss_std": 8.866628058969159, "train/reward_avg": 0.04536601005453769, "train/reward_loss_mean": 0.05769165783916434, "train/reward_loss_std": 0.20961958578188125, "train/reward_max_data": 1.0232876767850902, "train/reward_max_pred": 1.022960702033892, "train/reward_neg_acc": 0.9936986557424885, "train/reward_neg_loss": 0.02302151034292701, "train/reward_pos_acc": 0.9897888947839606, "train/reward_pos_loss": 0.7229217527663871, "train/reward_pred": 0.044975743003904, "train/reward_rate": 0.04964415667808219, "stats/sum_log_reward": 12.10000010899135, "stats/max_log_achievement_collect_coal": 1.2857142857142858, "stats/max_log_achievement_collect_drink": 2.142857142857143, "stats/max_log_achievement_collect_iron": 0.42857142857142855, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 16.857142857142858, "stats/max_log_achievement_collect_wood": 11.0, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.7142857142857143, "stats/max_log_achievement_make_stone_sword": 0.7142857142857143, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.7142857142857142, "stats/max_log_achievement_place_stone": 3.7142857142857144, "stats/max_log_achievement_place_table": 2.4285714285714284, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.4408646800688335, "replay/size": 960256.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.3073608944143847e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3266952690428849e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1187844276428, "timer/env.step_count": 1454.0, "timer/env.step_total": 18.714888334274292, "timer/env.step_frac": 0.06235827047602334, "timer/env.step_avg": 0.012871312471990573, "timer/env.step_min": 0.002784252166748047, "timer/env.step_max": 1.669238567352295, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.2513086795806885, "timer/replay.add_frac": 0.0008373640459058896, "timer/replay.add_avg": 0.00017283953203623691, "timer/replay.add_min": 6.079673767089844e-05, "timer/replay.add_max": 0.0037941932678222656, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021116018295288086, "timer/logger.write_frac": 7.035886919093881e-05, "timer/logger.write_avg": 0.021116018295288086, "timer/logger.write_min": 0.021116018295288086, "timer/logger.write_max": 0.021116018295288086, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 10.593663930892944, "timer/agent.policy_frac": 0.035298236833446274, "timer/agent.policy_avg": 0.007285876156047417, "timer/agent.policy_min": 0.005670785903930664, "timer/agent.policy_max": 0.022631168365478516, "timer/dataset_count": 727.0, "timer/dataset_total": 0.058248281478881836, "timer/dataset_frac": 0.00019408409103737793, "timer/dataset_avg": 8.012143257067653e-05, "timer/dataset_min": 6.151199340820312e-05, "timer/dataset_max": 0.00012540817260742188, "timer/agent.train_count": 727.0, "timer/agent.train_total": 269.823335647583, "timer/agent.train_frac": 0.899055139657998, "timer/agent.train_avg": 0.3711462663653136, "timer/agent.train_min": 0.365215539932251, "timer/agent.train_max": 0.38216304779052734, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22033357620239258, "timer/agent.report_frac": 0.0007341545669078702, "timer/agent.report_avg": 0.22033357620239258, "timer/agent.report_min": 0.22033357620239258, "timer/agent.report_max": 0.22033357620239258, "fps": 4.8446487368079865}
{"step": 960499, "episode/length": 200.0, "episode/score": 15.100000008940697, "episode/sum_abs_reward": 17.099999994039536, "episode/reward_rate": 0.0845771144278607}
{"step": 960760, "episode/length": 260.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 14.900000013411045, "episode/reward_rate": 0.05363984674329502}
{"step": 960811, "episode/length": 50.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.0784313725490196}
{"step": 961007, "episode/length": 195.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.07142857142857142}
{"step": 961280, "episode/length": 272.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.054945054945054944}
{"step": 961477, "episode/length": 196.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.06091370558375635}
{"step": 961695, "episode/length": 217.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.05504587155963303}
{"step": 961775, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.382042778862847, "train/action_min": 0.0, "train/action_std": 3.2435494330194263, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03867743704985413, "train/actor_opt_grad_steps": 479975.0, "train/actor_opt_loss": -12.253989384406143, "train/adv_mag": 0.399584181399809, "train/adv_max": 0.34621652629640365, "train/adv_mean": 0.0018105171941695314, "train/adv_min": -0.3489661229153474, "train/adv_std": 0.04299715797727307, "train/cont_avg": 0.9945882161458334, "train/cont_loss_mean": 2.1933122773000315e-05, "train/cont_loss_std": 0.0006306181789628656, "train/cont_neg_acc": 0.9972222223877907, "train/cont_neg_loss": 0.002568950970438127, "train/cont_pos_acc": 0.999999982615312, "train/cont_pos_loss": 9.221791206610103e-06, "train/cont_pred": 0.994589096142186, "train/cont_rate": 0.9945882161458334, "train/dyn_loss_mean": 5.587437099880642, "train/dyn_loss_std": 8.94627254539066, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.881896579431163, "train/extr_critic_critic_opt_grad_steps": 479975.0, "train/extr_critic_critic_opt_loss": 15370.010403103299, "train/extr_critic_mag": 12.131725841098362, "train/extr_critic_max": 12.131725841098362, "train/extr_critic_mean": 3.897621419694689, "train/extr_critic_min": -0.411231592297554, "train/extr_critic_std": 2.9422022302945456, "train/extr_return_normed_mag": 1.3682250148720212, "train/extr_return_normed_max": 1.3682250148720212, "train/extr_return_normed_mean": 0.4129520282149315, "train/extr_return_normed_min": -0.08188063263272245, "train/extr_return_normed_std": 0.3178326998733812, "train/extr_return_rate": 0.8706263105074564, "train/extr_return_raw_mag": 12.841901779174805, "train/extr_return_raw_max": 12.841901779174805, "train/extr_return_raw_mean": 3.914535171455807, "train/extr_return_raw_min": -0.7104197376304202, "train/extr_return_raw_std": 2.9705220063527427, "train/extr_reward_mag": 1.071123116546207, "train/extr_reward_max": 1.071123116546207, "train/extr_reward_mean": 0.061806938610970974, "train/extr_reward_min": -0.6338398920165168, "train/extr_reward_std": 0.23943319564892185, "train/image_loss_mean": 3.213430111606916, "train/image_loss_std": 8.57424964507421, "train/model_loss_mean": 6.625023312038845, "train/model_loss_std": 12.715360403060913, "train/model_opt_grad_norm": 21.84136630429162, "train/model_opt_grad_steps": 479583.5, "train/model_opt_loss": 19546.796535915797, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2951.3888888888887, "train/policy_entropy_mag": 2.698550727632311, "train/policy_entropy_max": 2.698550727632311, "train/policy_entropy_mean": 0.3660645569778151, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.567075109316243, "train/policy_logprob_mag": 7.438384274641673, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3670804873108864, "train/policy_logprob_min": -7.438384274641673, "train/policy_logprob_std": 1.0039448158608542, "train/policy_randomness_mag": 0.9524699797232946, "train/policy_randomness_max": 0.9524699797232946, "train/policy_randomness_mean": 0.12920472439792421, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20015262667503622, "train/post_ent_mag": 55.150623162587486, "train/post_ent_max": 55.150623162587486, "train/post_ent_mean": 40.36922762129042, "train/post_ent_min": 19.471438619825577, "train/post_ent_std": 5.682532800568475, "train/prior_ent_mag": 76.68015352884929, "train/prior_ent_max": 76.68015352884929, "train/prior_ent_mean": 45.92478529612223, "train/prior_ent_min": 27.98805634180705, "train/prior_ent_std": 7.753919925954607, "train/rep_loss_mean": 5.587437099880642, "train/rep_loss_std": 8.94627254539066, "train/reward_avg": 0.04382731067016721, "train/reward_loss_mean": 0.05910900700837374, "train/reward_loss_std": 0.21949656907882956, "train/reward_max_data": 1.0305555628405676, "train/reward_max_pred": 1.0287206835216947, "train/reward_neg_acc": 0.9929575953218672, "train/reward_neg_loss": 0.02508486959979766, "train/reward_pos_acc": 0.9907123761044608, "train/reward_pos_loss": 0.7250412686003579, "train/reward_pred": 0.04347007118889855, "train/reward_rate": 0.048638237847222224, "stats/sum_log_reward": 11.52857163974217, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 3.142857142857143, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.1428571428571428, "stats/max_log_achievement_collect_stone": 18.428571428571427, "stats/max_log_achievement_collect_wood": 11.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.4285714285714286, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.5714285714285714, "stats/max_log_achievement_make_stone_sword": 0.7142857142857143, "stats/max_log_achievement_make_wood_pickaxe": 1.2857142857142858, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 2.4285714285714284, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 4.714285714285714, "stats/max_log_achievement_place_table": 2.5714285714285716, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3776916563510895, "replay/size": 961712.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.3298364052405723e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.315969032245678e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.340047121048, "timer/env.step_count": 1456.0, "timer/env.step_total": 18.526312828063965, "timer/env.step_frac": 0.06168445735309213, "timer/env.step_avg": 0.012724115953340635, "timer/env.step_min": 0.0027141571044921875, "timer/env.step_max": 1.6438207626342773, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.2623789310455322, "timer/replay.add_frac": 0.0008736062125600718, "timer/replay.add_avg": 0.0001802053097840194, "timer/replay.add_min": 6.246566772460938e-05, "timer/replay.add_max": 0.003331899642944336, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021610021591186523, "timer/logger.write_frac": 7.195184857408276e-05, "timer/logger.write_avg": 0.021610021591186523, "timer/logger.write_min": 0.021610021591186523, "timer/logger.write_max": 0.021610021591186523, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 10.634926080703735, "timer/agent.policy_frac": 0.03540961714112495, "timer/agent.policy_avg": 0.007304207473010808, "timer/agent.policy_min": 0.005692005157470703, "timer/agent.policy_max": 0.015079259872436523, "timer/dataset_count": 728.0, "timer/dataset_total": 0.059999704360961914, "timer/dataset_frac": 0.00019977257424075667, "timer/dataset_avg": 8.241717632000263e-05, "timer/dataset_min": 6.008148193359375e-05, "timer/dataset_max": 0.0001552104949951172, "timer/agent.train_count": 728.0, "timer/agent.train_total": 270.1785144805908, "timer/agent.train_frac": 0.8995753881988939, "timer/agent.train_avg": 0.3711243330777346, "timer/agent.train_min": 0.3647348880767822, "timer/agent.train_max": 0.3836486339569092, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2194371223449707, "timer/agent.report_frac": 0.0007306289136211314, "timer/agent.report_avg": 0.2194371223449707, "timer/agent.report_min": 0.2194371223449707, "timer/agent.report_max": 0.2194371223449707, "fps": 4.84773294326768}
{"step": 961882, "episode/length": 186.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.0748663101604278}
{"step": 962105, "episode/length": 222.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.05829596412556054}
{"step": 962349, "episode/length": 243.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.700000047683716, "episode/reward_rate": 0.06147540983606557}
{"step": 962541, "episode/length": 191.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.0625}
{"step": 962625, "episode/length": 83.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.13095238095238096}
{"step": 962884, "episode/length": 258.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.05791505791505792}
{"step": 963116, "episode/length": 231.0, "episode/score": 14.100000016391277, "episode/sum_abs_reward": 15.700000040233135, "episode/reward_rate": 0.06465517241379311}
{"step": 963211, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.495765686035156, "train/action_min": 0.0, "train/action_std": 3.3508820831775665, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03801294294599858, "train/actor_opt_grad_steps": 480695.0, "train/actor_opt_loss": -13.249263372686174, "train/adv_mag": 0.4104716007908185, "train/adv_max": 0.33046770095825195, "train/adv_mean": 0.0016253881107609737, "train/adv_min": -0.3714834033615059, "train/adv_std": 0.042916789987227984, "train/cont_avg": 0.9949815538194444, "train/cont_loss_mean": 6.349610257770798e-05, "train/cont_loss_std": 0.0017786210839771696, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0009507767261293114, "train/cont_pos_acc": 0.9999726538856825, "train/cont_pos_loss": 5.760088309416902e-05, "train/cont_pred": 0.9949508276250627, "train/cont_rate": 0.9949815538194444, "train/dyn_loss_mean": 5.394585125976139, "train/dyn_loss_std": 8.91715004046758, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9350199459327592, "train/extr_critic_critic_opt_grad_steps": 480695.0, "train/extr_critic_critic_opt_loss": 15409.71812608507, "train/extr_critic_mag": 12.331036024623447, "train/extr_critic_max": 12.331036024623447, "train/extr_critic_mean": 3.8218993643919625, "train/extr_critic_min": -0.3761911491552989, "train/extr_critic_std": 2.932233343521754, "train/extr_return_normed_mag": 1.3850761585765414, "train/extr_return_normed_max": 1.3850761585765414, "train/extr_return_normed_mean": 0.402803643917044, "train/extr_return_normed_min": -0.0816411685405506, "train/extr_return_normed_std": 0.3147968463599682, "train/extr_return_rate": 0.8668692592117522, "train/extr_return_raw_mag": 13.06175414721171, "train/extr_return_raw_max": 13.06175414721171, "train/extr_return_raw_mean": 3.8371795349650912, "train/extr_return_raw_min": -0.712276262541612, "train/extr_return_raw_std": 2.956553707520167, "train/extr_reward_mag": 1.0769929952091641, "train/extr_reward_max": 1.0769929952091641, "train/extr_reward_mean": 0.06199440823143555, "train/extr_reward_min": -0.5976952115694681, "train/extr_reward_std": 0.23899482128520808, "train/image_loss_mean": 3.1901879658301673, "train/image_loss_std": 8.510965320799086, "train/model_loss_mean": 6.484367264641656, "train/model_loss_std": 12.676501260863411, "train/model_opt_grad_norm": 22.068847431076897, "train/model_opt_grad_steps": 480302.9166666667, "train/model_opt_loss": 16571.216837565105, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2569.4444444444443, "train/policy_entropy_mag": 2.7091874049769507, "train/policy_entropy_max": 2.7091874049769507, "train/policy_entropy_mean": 0.39903573050267166, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6046248782012198, "train/policy_logprob_mag": 7.4383842084142895, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3996413542578618, "train/policy_logprob_min": -7.4383842084142895, "train/policy_logprob_std": 1.03057072394424, "train/policy_randomness_mag": 0.9562242660257552, "train/policy_randomness_max": 0.9562242660257552, "train/policy_randomness_mean": 0.1408421028819349, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2134060478872723, "train/post_ent_mag": 55.113568994734024, "train/post_ent_max": 55.113568994734024, "train/post_ent_mean": 40.31697909037272, "train/post_ent_min": 19.527777526113724, "train/post_ent_std": 5.747223728232914, "train/prior_ent_mag": 76.79127311706543, "train/prior_ent_max": 76.79127311706543, "train/prior_ent_mean": 45.69829675886366, "train/prior_ent_min": 27.702887852986652, "train/prior_ent_std": 7.7931070062849255, "train/rep_loss_mean": 5.394585125976139, "train/rep_loss_std": 8.91715004046758, "train/reward_avg": 0.04199761227290663, "train/reward_loss_mean": 0.057364697723339, "train/reward_loss_std": 0.21258368011977938, "train/reward_max_data": 1.027777784400516, "train/reward_max_pred": 1.0259905540280871, "train/reward_neg_acc": 0.9928167429235246, "train/reward_neg_loss": 0.025343391216463514, "train/reward_pos_acc": 0.9915327181418737, "train/reward_pos_loss": 0.7167498055431578, "train/reward_pred": 0.041987662876231804, "train/reward_rate": 0.04635959201388889, "stats/sum_log_reward": 12.67142881665911, "stats/max_log_achievement_collect_coal": 0.8571428571428571, "stats/max_log_achievement_collect_drink": 1.1428571428571428, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 14.0, "stats/max_log_achievement_collect_wood": 12.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 3.5714285714285716, "stats/max_log_achievement_place_table": 2.5714285714285716, "stats/max_log_achievement_wake_up": 1.5714285714285714, "stats/mean_log_entropy": 0.3802447148731777, "replay/size": 963148.0, "replay/inserts": 1436.0, "replay/samples": 11488.0, "replay/insert_wait_avg": 3.2824062039261076e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2938068105649815e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.23300981521606, "timer/env.step_count": 1436.0, "timer/env.step_total": 20.272154331207275, "timer/env.step_frac": 0.06752140393784196, "timer/env.step_avg": 0.014117099116439607, "timer/env.step_min": 0.0028896331787109375, "timer/env.step_max": 3.0492026805877686, "timer/replay.add_count": 1436.0, "timer/replay.add_total": 0.2649195194244385, "timer/replay.add_frac": 0.0008823797209623554, "timer/replay.add_avg": 0.00018448434500309085, "timer/replay.add_min": 6.580352783203125e-05, "timer/replay.add_max": 0.0019757747650146484, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022536039352416992, "timer/logger.write_frac": 7.506183069705497e-05, "timer/logger.write_avg": 0.022536039352416992, "timer/logger.write_min": 0.022536039352416992, "timer/logger.write_max": 0.022536039352416992, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002219676971435547, "timer/checkpoint.save_frac": 7.393180959021421e-07, "timer/checkpoint.save_avg": 0.0002219676971435547, "timer/checkpoint.save_min": 0.0002219676971435547, "timer/checkpoint.save_max": 0.0002219676971435547, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1974961757659912, "timer/agent.save_frac": 0.003988556010223567, "timer/agent.save_avg": 1.1974961757659912, "timer/agent.save_min": 1.1974961757659912, "timer/agent.save_max": 1.1974961757659912, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.794929504394531e-05, "timer/replay.save_frac": 2.2632186609249247e-07, "timer/replay.save_avg": 6.794929504394531e-05, "timer/replay.save_min": 6.794929504394531e-05, "timer/replay.save_max": 6.794929504394531e-05, "timer/agent.policy_count": 1436.0, "timer/agent.policy_total": 12.271086931228638, "timer/agent.policy_frac": 0.04087187794167305, "timer/agent.policy_avg": 0.008545325161022728, "timer/agent.policy_min": 0.005711793899536133, "timer/agent.policy_max": 1.1925814151763916, "timer/dataset_count": 718.0, "timer/dataset_total": 0.0591435432434082, "timer/dataset_frac": 0.00019699214047052716, "timer/dataset_avg": 8.237262290168274e-05, "timer/dataset_min": 6.127357482910156e-05, "timer/dataset_max": 0.00015878677368164062, "timer/agent.train_count": 718.0, "timer/agent.train_total": 266.69165301322937, "timer/agent.train_frac": 0.8882822484355389, "timer/agent.train_avg": 0.3714368426368097, "timer/agent.train_min": 0.36429905891418457, "timer/agent.train_max": 0.3854660987854004, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21995115280151367, "timer/agent.report_frac": 0.0007326014982059657, "timer/agent.report_avg": 0.21995115280151367, "timer/agent.report_min": 0.21995115280151367, "timer/agent.report_max": 0.21995115280151367, "fps": 4.782869973374561}
{"step": 963300, "episode/length": 183.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.100000038743019, "episode/reward_rate": 0.07065217391304347}
{"step": 963490, "episode/length": 189.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.05263157894736842}
{"step": 963738, "episode/length": 247.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.056451612903225805}
{"step": 963941, "episode/length": 202.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.06896551724137931}
{"step": 964228, "episode/length": 286.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 14.10000005364418, "episode/reward_rate": 0.041811846689895474}
{"step": 964430, "episode/length": 201.0, "episode/score": 14.099999994039536, "episode/sum_abs_reward": 16.50000001490116, "episode/reward_rate": 0.07920792079207921}
{"step": 964643, "episode/length": 212.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.056338028169014086}
{"step": 964665, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.433836218428938, "train/action_min": 0.0, "train/action_std": 3.299227672080471, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038642742173516584, "train/actor_opt_grad_steps": 481420.0, "train/actor_opt_loss": -11.027916688829253, "train/adv_mag": 0.3821461588552553, "train/adv_max": 0.3365101826517549, "train/adv_mean": 0.0022198765728150384, "train/adv_min": -0.33160598290293186, "train/adv_std": 0.04291568563817299, "train/cont_avg": 0.9949031464041096, "train/cont_loss_mean": 2.7613661672383705e-06, "train/cont_loss_std": 8.57883901021278e-05, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00024065699648521212, "train/cont_pos_acc": 0.9999999812204544, "train/cont_pos_loss": 1.8058368459335742e-06, "train/cont_pred": 0.9949023772592414, "train/cont_rate": 0.9949031464041096, "train/dyn_loss_mean": 5.533825482407662, "train/dyn_loss_std": 8.877260600050835, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9297469201153272, "train/extr_critic_critic_opt_grad_steps": 481420.0, "train/extr_critic_critic_opt_loss": 15483.166697880994, "train/extr_critic_mag": 11.998777206629923, "train/extr_critic_max": 11.998777206629923, "train/extr_critic_mean": 3.740663521910367, "train/extr_critic_min": -0.3509096723713287, "train/extr_critic_std": 2.890120999453819, "train/extr_return_normed_mag": 1.361604244741675, "train/extr_return_normed_max": 1.361604244741675, "train/extr_return_normed_mean": 0.3971215609001787, "train/extr_return_normed_min": -0.0793569110946296, "train/extr_return_normed_std": 0.3120905291544248, "train/extr_return_rate": 0.8627390575735536, "train/extr_return_raw_mag": 12.768346747306929, "train/extr_return_raw_max": 12.768346747306929, "train/extr_return_raw_mean": 3.76137941504178, "train/extr_return_raw_min": -0.6887126940570466, "train/extr_return_raw_std": 2.9147842420290595, "train/extr_reward_mag": 1.0733404322846296, "train/extr_reward_max": 1.0733404322846296, "train/extr_reward_mean": 0.059476884617789154, "train/extr_reward_min": -0.5905487912974946, "train/extr_reward_std": 0.23498595822347354, "train/image_loss_mean": 3.2781345550328087, "train/image_loss_std": 8.329474736566413, "train/model_loss_mean": 6.65616580231549, "train/model_loss_std": 12.449663214487572, "train/model_opt_grad_norm": 23.44594782999117, "train/model_opt_grad_steps": 481026.08219178085, "train/model_opt_loss": 9000.330686804366, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1352.7397260273972, "train/policy_entropy_mag": 2.689411316832451, "train/policy_entropy_max": 2.689411316832451, "train/policy_entropy_mean": 0.39717117748031877, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6006431387711878, "train/policy_logprob_mag": 7.43838429124388, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39681497665300763, "train/policy_logprob_min": -7.43838429124388, "train/policy_logprob_std": 1.025834278701103, "train/policy_randomness_mag": 0.9492441701562437, "train/policy_randomness_max": 0.9492441701562437, "train/policy_randomness_mean": 0.14018399594989542, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21200066764060765, "train/post_ent_mag": 55.63108350152839, "train/post_ent_max": 55.63108350152839, "train/post_ent_mean": 40.489018218158044, "train/post_ent_min": 19.45117383460476, "train/post_ent_std": 5.891580869073737, "train/prior_ent_mag": 76.75583983120853, "train/prior_ent_max": 76.75583983120853, "train/prior_ent_mean": 46.01019041505578, "train/prior_ent_min": 28.053682013733745, "train/prior_ent_std": 7.855500168996315, "train/rep_loss_mean": 5.533825482407662, "train/rep_loss_std": 8.877260600050835, "train/reward_avg": 0.04214870495951339, "train/reward_loss_mean": 0.057733149867351743, "train/reward_loss_std": 0.21532976117036115, "train/reward_max_data": 1.0301369934865874, "train/reward_max_pred": 1.0287772759999314, "train/reward_neg_acc": 0.9932223607416022, "train/reward_neg_loss": 0.02476854936206994, "train/reward_pos_acc": 0.9875122896612507, "train/reward_pos_loss": 0.73169139639972, "train/reward_pred": 0.04167280899845574, "train/reward_rate": 0.04664758133561644, "stats/sum_log_reward": 11.957143102373395, "stats/max_log_achievement_collect_coal": 1.2857142857142858, "stats/max_log_achievement_collect_drink": 3.857142857142857, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 0.8571428571428571, "stats/max_log_achievement_collect_stone": 13.857142857142858, "stats/max_log_achievement_collect_wood": 15.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.4285714285714286, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.4285714285714286, "stats/max_log_achievement_make_stone_sword": 1.4285714285714286, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.7142857142857142, "stats/max_log_achievement_place_plant": 0.8571428571428571, "stats/max_log_achievement_place_stone": 3.142857142857143, "stats/max_log_achievement_place_table": 3.5714285714285716, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.47013857534953524, "replay/size": 964602.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.2686629682328384e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3118965917637128e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0479884147644, "timer/env.step_count": 1454.0, "timer/env.step_total": 18.6217520236969, "timer/env.step_frac": 0.06206257912969425, "timer/env.step_avg": 0.012807257237755778, "timer/env.step_min": 0.0029480457305908203, "timer/env.step_max": 1.6039836406707764, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.266193151473999, "timer/replay.add_frac": 0.0008871685921987688, "timer/replay.add_avg": 0.00018307644530536385, "timer/replay.add_min": 6.628036499023438e-05, "timer/replay.add_max": 0.0034410953521728516, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03411674499511719, "timer/logger.write_frac": 0.00011370429502082412, "timer/logger.write_avg": 0.03411674499511719, "timer/logger.write_min": 0.03411674499511719, "timer/logger.write_max": 0.03411674499511719, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 10.578779458999634, "timer/agent.policy_frac": 0.03525695844484817, "timer/agent.policy_avg": 0.00727563924277829, "timer/agent.policy_min": 0.005980968475341797, "timer/agent.policy_max": 0.017383813858032227, "timer/dataset_count": 727.0, "timer/dataset_total": 0.06004476547241211, "timer/dataset_frac": 0.00020011720721623574, "timer/dataset_avg": 8.259252472133715e-05, "timer/dataset_min": 5.91278076171875e-05, "timer/dataset_max": 0.00015044212341308594, "timer/agent.train_count": 727.0, "timer/agent.train_total": 269.8312203884125, "timer/agent.train_frac": 0.8992935490552849, "timer/agent.train_avg": 0.3711571119510488, "timer/agent.train_min": 0.36304759979248047, "timer/agent.train_max": 0.3863790035247803, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2192690372467041, "timer/agent.report_frac": 0.0007307798942601229, "timer/agent.report_avg": 0.2192690372467041, "timer/agent.report_min": 0.2192690372467041, "timer/agent.report_max": 0.2192690372467041, "fps": 4.845812171823088}
{"step": 964805, "episode/length": 161.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.08641975308641975}
{"step": 964868, "episode/length": 62.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 4.900000013411045, "episode/reward_rate": 0.06349206349206349}
{"step": 965143, "episode/length": 274.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.05454545454545454}
{"step": 965332, "episode/length": 188.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.06878306878306878}
{"step": 965682, "episode/length": 349.0, "episode/score": 16.099999986588955, "episode/sum_abs_reward": 18.900000028312206, "episode/reward_rate": 0.04857142857142857}
{"step": 965987, "episode/length": 304.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.04918032786885246}
{"step": 966127, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.464908129548373, "train/action_min": 0.0, "train/action_std": 3.2971722557120127, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03940764214996606, "train/actor_opt_grad_steps": 482150.0, "train/actor_opt_loss": -12.22609221445371, "train/adv_mag": 0.4323238113971606, "train/adv_max": 0.3376481341172571, "train/adv_mean": 0.002441226507434207, "train/adv_min": -0.3919035173850517, "train/adv_std": 0.044352973211709765, "train/cont_avg": 0.9950502996575342, "train/cont_loss_mean": 8.85323268815458e-06, "train/cont_loss_std": 0.0002154833232622164, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00036145716067483604, "train/cont_pos_acc": 0.9999999844864623, "train/cont_pos_loss": 5.993514710956684e-06, "train/cont_pred": 0.995047150409385, "train/cont_rate": 0.9950502996575342, "train/dyn_loss_mean": 5.6834363741417455, "train/dyn_loss_std": 9.010008197941191, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9794820081697752, "train/extr_critic_critic_opt_grad_steps": 482150.0, "train/extr_critic_critic_opt_loss": 15587.840004280823, "train/extr_critic_mag": 11.999421629187179, "train/extr_critic_max": 11.999421629187179, "train/extr_critic_mean": 3.8142595356457853, "train/extr_critic_min": -0.3372184887324294, "train/extr_critic_std": 2.8815798334879417, "train/extr_return_normed_mag": 1.3682527738074735, "train/extr_return_normed_max": 1.3682527738074735, "train/extr_return_normed_mean": 0.405304490295175, "train/extr_return_normed_min": -0.07972979127135996, "train/extr_return_normed_std": 0.3129017324480292, "train/extr_return_rate": 0.8706184494985293, "train/extr_return_raw_mag": 12.790155881071744, "train/extr_return_raw_max": 12.790155881071744, "train/extr_return_raw_mean": 3.836947365982892, "train/extr_return_raw_min": -0.6731124401909031, "train/extr_return_raw_std": 2.909899107397419, "train/extr_reward_mag": 1.0797676648179146, "train/extr_reward_max": 1.0797676648179146, "train/extr_reward_mean": 0.0627967201377431, "train/extr_reward_min": -0.6023652749518825, "train/extr_reward_std": 0.24092475702501323, "train/image_loss_mean": 3.366289785463516, "train/image_loss_std": 8.976064120253472, "train/model_loss_mean": 6.834812216562767, "train/model_loss_std": 13.204967342010915, "train/model_opt_grad_norm": 23.115310629753218, "train/model_opt_grad_steps": 481756.0, "train/model_opt_loss": 13189.738027076199, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1934.9315068493152, "train/policy_entropy_mag": 2.681431397999803, "train/policy_entropy_max": 2.681431397999803, "train/policy_entropy_mean": 0.37347961411084213, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5691289509812446, "train/policy_logprob_mag": 7.438384297775896, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3739822306861616, "train/policy_logprob_min": -7.438384297775896, "train/policy_logprob_std": 1.0071559393242613, "train/policy_randomness_mag": 0.9464276106390235, "train/policy_randomness_max": 0.9464276106390235, "train/policy_randomness_mean": 0.13182191540525384, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.200877542058899, "train/post_ent_mag": 55.50325597475653, "train/post_ent_max": 55.50325597475653, "train/post_ent_mean": 40.157640901330396, "train/post_ent_min": 19.862482253819294, "train/post_ent_std": 5.8246130747337865, "train/prior_ent_mag": 76.75761674854853, "train/prior_ent_max": 76.75761674854853, "train/prior_ent_mean": 45.82513871911454, "train/prior_ent_min": 27.80898585384839, "train/prior_ent_std": 7.9467814393239475, "train/rep_loss_mean": 5.6834363741417455, "train/rep_loss_std": 9.010008197941191, "train/reward_avg": 0.04227445391963606, "train/reward_loss_mean": 0.058451744536422705, "train/reward_loss_std": 0.21814048923041723, "train/reward_max_data": 1.0315068568268868, "train/reward_max_pred": 1.0315238939572686, "train/reward_neg_acc": 0.9928979089815323, "train/reward_neg_loss": 0.025967607733933893, "train/reward_pos_acc": 0.9896602099888945, "train/reward_pos_loss": 0.7228090411996189, "train/reward_pred": 0.04208950915259041, "train/reward_rate": 0.04668771404109589, "stats/sum_log_reward": 12.100000143051147, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 2.8333333333333335, "stats/max_log_achievement_collect_iron": 0.3333333333333333, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 14.0, "stats/max_log_achievement_collect_wood": 15.0, "stats/max_log_achievement_defeat_skeleton": 0.5, "stats/max_log_achievement_defeat_zombie": 0.8333333333333334, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_stone_sword": 1.6666666666666667, "stats/max_log_achievement_make_wood_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 1.1666666666666667, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_stone": 2.3333333333333335, "stats/max_log_achievement_place_table": 4.5, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.4797239328424136, "replay/size": 966064.0, "replay/inserts": 1462.0, "replay/samples": 11696.0, "replay/insert_wait_avg": 3.3147031729263744e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2953410233420647e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.28080582618713, "timer/env.step_count": 1462.0, "timer/env.step_total": 17.199028968811035, "timer/env.step_frac": 0.057276484660715964, "timer/env.step_avg": 0.011764041702333129, "timer/env.step_min": 0.002920866012573242, "timer/env.step_max": 1.6100187301635742, "timer/replay.add_count": 1462.0, "timer/replay.add_total": 0.2555508613586426, "timer/replay.add_frac": 0.0008510396149215218, "timer/replay.add_avg": 0.00017479539080618507, "timer/replay.add_min": 6.771087646484375e-05, "timer/replay.add_max": 0.002675771713256836, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03060126304626465, "timer/logger.write_frac": 0.00010190882151814163, "timer/logger.write_avg": 0.03060126304626465, "timer/logger.write_min": 0.03060126304626465, "timer/logger.write_max": 0.03060126304626465, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1462.0, "timer/agent.policy_total": 10.667676448822021, "timer/agent.policy_frac": 0.03552566878016452, "timer/agent.policy_avg": 0.007296632317935719, "timer/agent.policy_min": 0.005814075469970703, "timer/agent.policy_max": 0.01740717887878418, "timer/dataset_count": 731.0, "timer/dataset_total": 0.058979034423828125, "timer/dataset_frac": 0.00019641293509105347, "timer/dataset_avg": 8.068267363040783e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.00015616416931152344, "timer/agent.train_count": 731.0, "timer/agent.train_total": 271.41020250320435, "timer/agent.train_frac": 0.903854649505323, "timer/agent.train_avg": 0.37128618673488967, "timer/agent.train_min": 0.3641793727874756, "timer/agent.train_max": 0.3837757110595703, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2174062728881836, "timer/agent.report_frac": 0.000724009888977139, "timer/agent.report_avg": 0.2174062728881836, "timer/agent.report_min": 0.2174062728881836, "timer/agent.report_max": 0.2174062728881836, "fps": 4.868677157640563}
{"step": 966155, "episode/length": 167.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.08333333333333333}
{"step": 966351, "episode/length": 195.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.07142857142857142}
{"step": 966649, "episode/length": 297.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.050335570469798654}
{"step": 966785, "episode/length": 135.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.07352941176470588}
{"step": 967034, "episode/length": 248.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.060240963855421686}
{"step": 967135, "episode/length": 100.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.0891089108910891}
{"step": 967453, "episode/length": 317.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.04716981132075472}
{"step": 967559, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.456060621473524, "train/action_min": 0.0, "train/action_std": 3.2987826102309756, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0390020152553916, "train/actor_opt_grad_steps": 482875.0, "train/actor_opt_loss": -13.011800224582354, "train/adv_mag": 0.4232517805778318, "train/adv_max": 0.35034268556369674, "train/adv_mean": 0.0019708673208798347, "train/adv_min": -0.38022391063471633, "train/adv_std": 0.04377790726721287, "train/cont_avg": 0.9949679904513888, "train/cont_loss_mean": 8.198552213814183e-05, "train/cont_loss_std": 0.0025809370928789755, "train/cont_neg_acc": 0.9930555555555556, "train/cont_neg_loss": 0.02117989248822995, "train/cont_pos_acc": 0.9999863414300812, "train/cont_pos_loss": 3.87230394059104e-05, "train/cont_pred": 0.9949643115202585, "train/cont_rate": 0.9949679904513888, "train/dyn_loss_mean": 5.6094257434209185, "train/dyn_loss_std": 8.974474694993761, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9068740142716302, "train/extr_critic_critic_opt_grad_steps": 482875.0, "train/extr_critic_critic_opt_loss": 15448.094224717883, "train/extr_critic_mag": 12.059384597672356, "train/extr_critic_max": 12.059384597672356, "train/extr_critic_mean": 3.8726013600826263, "train/extr_critic_min": -0.3240821278757519, "train/extr_critic_std": 2.9063324100441403, "train/extr_return_normed_mag": 1.375837066107326, "train/extr_return_normed_max": 1.375837066107326, "train/extr_return_normed_mean": 0.40806592297222877, "train/extr_return_normed_min": -0.0820231481662227, "train/extr_return_normed_std": 0.314962734364801, "train/extr_return_rate": 0.8720613130264812, "train/extr_return_raw_mag": 12.906097332636515, "train/extr_return_raw_max": 12.906097332636515, "train/extr_return_raw_mean": 3.8909516996807523, "train/extr_return_raw_min": -0.6745252381596301, "train/extr_return_raw_std": 2.934096210532718, "train/extr_reward_mag": 1.0730517076121435, "train/extr_reward_max": 1.0730517076121435, "train/extr_reward_mean": 0.06275875007526742, "train/extr_reward_min": -0.5760219775968127, "train/extr_reward_std": 0.24090191307995054, "train/image_loss_mean": 3.298045966360304, "train/image_loss_std": 8.79611967007319, "train/model_loss_mean": 6.721693933010101, "train/model_loss_std": 12.945793920093113, "train/model_opt_grad_norm": 23.21310832765367, "train/model_opt_grad_steps": 482480.2638888889, "train/model_opt_loss": 10787.66978624132, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1579.861111111111, "train/policy_entropy_mag": 2.650996165143119, "train/policy_entropy_max": 2.650996165143119, "train/policy_entropy_mean": 0.37750322185456753, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5739019670420222, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37813166197803283, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 1.0098149966862466, "train/policy_randomness_mag": 0.9356853109267023, "train/policy_randomness_max": 0.9356853109267023, "train/policy_randomness_mean": 0.13324207212362024, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20256221128834617, "train/post_ent_mag": 54.959283139970566, "train/post_ent_max": 54.959283139970566, "train/post_ent_mean": 40.30572122997708, "train/post_ent_min": 19.6854244073232, "train/post_ent_std": 5.696137156751421, "train/prior_ent_mag": 76.8385042614407, "train/prior_ent_max": 76.8385042614407, "train/prior_ent_mean": 45.896266301472984, "train/prior_ent_min": 27.76842721303304, "train/prior_ent_std": 7.82300732533137, "train/rep_loss_mean": 5.6094257434209185, "train/rep_loss_std": 8.974474694993761, "train/reward_avg": 0.04311252126677169, "train/reward_loss_mean": 0.05791056533861491, "train/reward_loss_std": 0.21416139168043932, "train/reward_max_data": 1.0319444520605936, "train/reward_max_pred": 1.0254129866758983, "train/reward_neg_acc": 0.994135165380107, "train/reward_neg_loss": 0.025210105057340115, "train/reward_pos_acc": 0.9935996615224414, "train/reward_pos_loss": 0.7119715983668963, "train/reward_pred": 0.04281771798721618, "train/reward_rate": 0.047675238715277776, "stats/sum_log_reward": 12.242857251848493, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 3.5714285714285716, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 15.142857142857142, "stats/max_log_achievement_collect_wood": 11.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.1428571428571428, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_stone_sword": 1.1428571428571428, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 4.857142857142857, "stats/max_log_achievement_place_table": 2.857142857142857, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.40513470130307333, "replay/size": 967496.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.4069548772034034e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3160264358840174e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3065619468689, "timer/env.step_count": 1432.0, "timer/env.step_total": 20.383848190307617, "timer/env.step_frac": 0.06787679915537106, "timer/env.step_avg": 0.014234530859153363, "timer/env.step_min": 0.003032207489013672, "timer/env.step_max": 1.8446552753448486, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.25079965591430664, "timer/replay.add_frac": 0.0008351454403406571, "timer/replay.add_avg": 0.00017513942452116385, "timer/replay.add_min": 6.246566772460938e-05, "timer/replay.add_max": 0.002110719680786133, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02185964584350586, "timer/logger.write_frac": 7.279110287098333e-05, "timer/logger.write_avg": 0.02185964584350586, "timer/logger.write_min": 0.02185964584350586, "timer/logger.write_max": 0.02185964584350586, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0001723766326904297, "timer/checkpoint.save_frac": 5.740022181763949e-07, "timer/checkpoint.save_avg": 0.0001723766326904297, "timer/checkpoint.save_min": 0.0001723766326904297, "timer/checkpoint.save_max": 0.0001723766326904297, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4173328876495361, "timer/agent.save_frac": 0.004719620105738132, "timer/agent.save_avg": 1.4173328876495361, "timer/agent.save_min": 1.4173328876495361, "timer/agent.save_max": 1.4173328876495361, "timer/replay.save_count": 1.0, "timer/replay.save_total": 5.14984130859375e-05, "timer/replay.save_frac": 1.7148613987012627e-07, "timer/replay.save_avg": 5.14984130859375e-05, "timer/replay.save_min": 5.14984130859375e-05, "timer/replay.save_max": 5.14984130859375e-05, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 12.479596138000488, "timer/agent.policy_frac": 0.041556188639688844, "timer/agent.policy_avg": 0.00871480177234671, "timer/agent.policy_min": 0.005704164505004883, "timer/agent.policy_max": 1.399756908416748, "timer/dataset_count": 716.0, "timer/dataset_total": 0.058480024337768555, "timer/dataset_frac": 0.0001947344205822416, "timer/dataset_avg": 8.167601164492815e-05, "timer/dataset_min": 5.53131103515625e-05, "timer/dataset_max": 0.00014495849609375, "timer/agent.train_count": 716.0, "timer/agent.train_total": 266.45355582237244, "timer/agent.train_frac": 0.8872718401321985, "timer/agent.train_avg": 0.3721418377407436, "timer/agent.train_min": 0.3652470111846924, "timer/agent.train_max": 0.8965983390808105, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21843218803405762, "timer/agent.report_frac": 0.0007273640196803401, "timer/agent.report_avg": 0.21843218803405762, "timer/agent.report_min": 0.21843218803405762, "timer/agent.report_max": 0.21843218803405762, "fps": 4.768364475597005}
{"step": 967681, "episode/length": 227.0, "episode/score": 11.100000068545341, "episode/sum_abs_reward": 13.700000032782555, "episode/reward_rate": 0.05701754385964912}
{"step": 967861, "episode/length": 179.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 9.900000020861626, "episode/reward_rate": 0.05555555555555555}
{"step": 968056, "episode/length": 194.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.07692307692307693}
{"step": 968284, "episode/length": 227.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.900000028312206, "episode/reward_rate": 0.07017543859649122}
{"step": 968542, "episode/length": 257.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.050387596899224806}
{"step": 968863, "episode/length": 320.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.040498442367601244}
{"step": 969017, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.455634223090278, "train/action_min": 0.0, "train/action_std": 3.3055955403380923, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03938021270247797, "train/actor_opt_grad_steps": 483595.0, "train/actor_opt_loss": -12.496555028379792, "train/adv_mag": 0.40478210606508785, "train/adv_max": 0.3457465927220053, "train/adv_mean": 0.00178942787159839, "train/adv_min": -0.348479591930906, "train/adv_std": 0.043932131595081754, "train/cont_avg": 0.9949408637152778, "train/cont_loss_mean": 2.8322386388859558e-05, "train/cont_loss_std": 0.0007950934744504047, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0004972697837740804, "train/cont_pos_acc": 0.9999863083163897, "train/cont_pos_loss": 2.6414027253501222e-05, "train/cont_pred": 0.9949218738410208, "train/cont_rate": 0.9949408637152778, "train/dyn_loss_mean": 5.624643080764347, "train/dyn_loss_std": 8.925123492876688, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9525401766101519, "train/extr_critic_critic_opt_grad_steps": 483595.0, "train/extr_critic_critic_opt_loss": 15521.629014756945, "train/extr_critic_mag": 11.970964047643873, "train/extr_critic_max": 11.970964047643873, "train/extr_critic_mean": 3.8842962649133472, "train/extr_critic_min": -0.3734965638981925, "train/extr_critic_std": 2.883372876379225, "train/extr_return_normed_mag": 1.36423326532046, "train/extr_return_normed_max": 1.36423326532046, "train/extr_return_normed_mean": 0.4118839278817177, "train/extr_return_normed_min": -0.08621194974208872, "train/extr_return_normed_std": 0.31381347754763234, "train/extr_return_rate": 0.8670012777050337, "train/extr_return_raw_mag": 12.728988899124992, "train/extr_return_raw_max": 12.728988899124992, "train/extr_return_raw_mean": 3.900884509086609, "train/extr_return_raw_min": -0.71643324320515, "train/extr_return_raw_std": 2.9093123277028403, "train/extr_reward_mag": 1.0671809613704681, "train/extr_reward_max": 1.0671809613704681, "train/extr_reward_mean": 0.0621002030869325, "train/extr_reward_min": -0.6308022654718823, "train/extr_reward_std": 0.23927085474133492, "train/image_loss_mean": 3.297237810161379, "train/image_loss_std": 8.550187746683756, "train/model_loss_mean": 6.730244437853496, "train/model_loss_std": 12.726869848039415, "train/model_opt_grad_norm": 22.522929125361973, "train/model_opt_grad_steps": 483200.0, "train/model_opt_loss": 11259.384046766492, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1684.0277777777778, "train/policy_entropy_mag": 2.651458286576801, "train/policy_entropy_max": 2.651458286576801, "train/policy_entropy_mean": 0.36004795589380795, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5440199942224555, "train/policy_logprob_mag": 7.43838424815072, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.360662420383758, "train/policy_logprob_min": -7.43838424815072, "train/policy_logprob_std": 0.9924489094151391, "train/policy_randomness_mag": 0.9358484165536033, "train/policy_randomness_max": 0.9358484165536033, "train/policy_randomness_mean": 0.12708112763033974, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19201518336517942, "train/post_ent_mag": 55.77224408255683, "train/post_ent_max": 55.77224408255683, "train/post_ent_mean": 40.34301736619737, "train/post_ent_min": 19.698733700646294, "train/post_ent_std": 5.845778200361464, "train/prior_ent_mag": 76.82881471845839, "train/prior_ent_max": 76.82881471845839, "train/prior_ent_mean": 45.97837368647257, "train/prior_ent_min": 27.92524904674954, "train/prior_ent_std": 7.853601773579915, "train/rep_loss_mean": 5.624643080764347, "train/rep_loss_std": 8.925123492876688, "train/reward_avg": 0.04275851707077689, "train/reward_loss_mean": 0.05819245484761066, "train/reward_loss_std": 0.21470879494316047, "train/reward_max_data": 1.027777784400516, "train/reward_max_pred": 1.027860552072525, "train/reward_neg_acc": 0.9933872744441032, "train/reward_neg_loss": 0.02502325613103393, "train/reward_pos_acc": 0.9892583241065344, "train/reward_pos_loss": 0.7232944832907783, "train/reward_pred": 0.04246742032571799, "train/reward_rate": 0.047553168402777776, "stats/sum_log_reward": 12.100000222524008, "stats/max_log_achievement_collect_coal": 1.1666666666666667, "stats/max_log_achievement_collect_drink": 5.166666666666667, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 11.166666666666666, "stats/max_log_achievement_collect_wood": 10.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.3333333333333333, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 2.0, "stats/max_log_achievement_place_table": 3.1666666666666665, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.43762847284475964, "replay/size": 968954.0, "replay/inserts": 1458.0, "replay/samples": 11664.0, "replay/insert_wait_avg": 3.3705649879570686e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3250382348833751e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.19554114341736, "timer/env.step_count": 1458.0, "timer/env.step_total": 17.584604501724243, "timer/env.step_frac": 0.058577167518032054, "timer/env.step_avg": 0.012060771263185352, "timer/env.step_min": 0.0025653839111328125, "timer/env.step_max": 1.5958399772644043, "timer/replay.add_count": 1458.0, "timer/replay.add_total": 0.2713761329650879, "timer/replay.add_frac": 0.0009039978806195489, "timer/replay.add_avg": 0.00018612903495547866, "timer/replay.add_min": 5.984306335449219e-05, "timer/replay.add_max": 0.00460505485534668, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02217268943786621, "timer/logger.write_frac": 7.38608220275773e-05, "timer/logger.write_avg": 0.02217268943786621, "timer/logger.write_min": 0.02217268943786621, "timer/logger.write_max": 0.02217268943786621, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1458.0, "timer/agent.policy_total": 10.822309255599976, "timer/agent.policy_frac": 0.036050866093409614, "timer/agent.policy_avg": 0.007422708680109723, "timer/agent.policy_min": 0.005803346633911133, "timer/agent.policy_max": 0.01692342758178711, "timer/dataset_count": 729.0, "timer/dataset_total": 0.060297489166259766, "timer/dataset_frac": 0.00020086070877865857, "timer/dataset_avg": 8.271260516633713e-05, "timer/dataset_min": 6.031990051269531e-05, "timer/dataset_max": 0.00015282630920410156, "timer/agent.train_count": 729.0, "timer/agent.train_total": 270.77073907852173, "timer/agent.train_frac": 0.9019812154676939, "timer/agent.train_avg": 0.37142762562211484, "timer/agent.train_min": 0.3648865222930908, "timer/agent.train_max": 0.38748788833618164, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2232663631439209, "timer/agent.report_frac": 0.0007437364402333217, "timer/agent.report_avg": 0.2232663631439209, "timer/agent.report_min": 0.2232663631439209, "timer/agent.report_max": 0.2232663631439209, "fps": 4.8567690391087925}
{"step": 969126, "episode/length": 262.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.500000044703484, "episode/reward_rate": 0.057034220532319393}
{"step": 969373, "episode/length": 246.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.06072874493927125}
{"step": 969585, "episode/length": 211.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.07075471698113207}
{"step": 969806, "episode/length": 220.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 13.500000014901161, "episode/reward_rate": 0.06334841628959276}
{"step": 970143, "episode/length": 336.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.700000040233135, "episode/reward_rate": 0.03857566765578635}
{"step": 970200, "episode/length": 56.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.700000040233135, "episode/reward_rate": 0.15789473684210525}
{"step": 970481, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.431384937183277, "train/action_min": 0.0, "train/action_std": 3.290734861348126, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03865117003285402, "train/actor_opt_grad_steps": 484325.0, "train/actor_opt_loss": -10.93023430898383, "train/adv_mag": 0.3804560404371571, "train/adv_max": 0.3213052226079477, "train/adv_mean": 0.0022872439197984735, "train/adv_min": -0.3382389829368205, "train/adv_std": 0.042813016605135555, "train/cont_avg": 0.9949324324324325, "train/cont_loss_mean": 1.4956646340655075e-05, "train/cont_loss_std": 0.00042991166070294184, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0014708248060361952, "train/cont_pos_acc": 0.9999999855015729, "train/cont_pos_loss": 7.966865170023102e-06, "train/cont_pred": 0.994930638654812, "train/cont_rate": 0.9949324324324325, "train/dyn_loss_mean": 5.482014340323371, "train/dyn_loss_std": 8.839262588604077, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.986132259304459, "train/extr_critic_critic_opt_grad_steps": 484325.0, "train/extr_critic_critic_opt_loss": 15378.54981788429, "train/extr_critic_mag": 12.10719920493461, "train/extr_critic_max": 12.10719920493461, "train/extr_critic_mean": 3.8985565546396614, "train/extr_critic_min": -0.3401950033935341, "train/extr_critic_std": 2.928391872225581, "train/extr_return_normed_mag": 1.3665212602228731, "train/extr_return_normed_max": 1.3665212602228731, "train/extr_return_normed_mean": 0.4111551658527271, "train/extr_return_normed_min": -0.08022323809564114, "train/extr_return_normed_std": 0.3151567093021161, "train/extr_return_rate": 0.8617390305609316, "train/extr_return_raw_mag": 12.889035998163996, "train/extr_return_raw_max": 12.889035998163996, "train/extr_return_raw_mean": 3.920042073404467, "train/extr_return_raw_min": -0.6931521074997412, "train/extr_return_raw_std": 2.9588434728416235, "train/extr_reward_mag": 1.0726736042950604, "train/extr_reward_max": 1.0726736042950604, "train/extr_reward_mean": 0.06355648170653228, "train/extr_reward_min": -0.6399226075894123, "train/extr_reward_std": 0.24219793745794813, "train/image_loss_mean": 3.259704556014087, "train/image_loss_std": 8.355304589142671, "train/model_loss_mean": 6.607611739957655, "train/model_loss_std": 12.455382707956675, "train/model_opt_grad_norm": 23.17952967343265, "train/model_opt_grad_steps": 483929.0, "train/model_opt_loss": 8383.02247413429, "train/model_opt_model_opt_grad_overflow": 0.013513513513513514, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.6566111880379752, "train/policy_entropy_max": 2.6566111880379752, "train/policy_entropy_mean": 0.3855648979141906, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5839724709858766, "train/policy_logprob_mag": 7.438384230072434, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38603170719501134, "train/policy_logprob_min": -7.438384230072434, "train/policy_logprob_std": 1.0147531862194474, "train/policy_randomness_mag": 0.937667167670018, "train/policy_randomness_max": 0.937667167670018, "train/policy_randomness_mean": 0.13608749059809222, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20611665740206436, "train/post_ent_mag": 55.84584720714672, "train/post_ent_max": 55.84584720714672, "train/post_ent_mean": 40.363860980884446, "train/post_ent_min": 19.729073576025062, "train/post_ent_std": 5.825334735818811, "train/prior_ent_mag": 76.78589279587204, "train/prior_ent_max": 76.78589279587204, "train/prior_ent_mean": 45.85347526137893, "train/prior_ent_min": 27.734942255793392, "train/prior_ent_std": 7.843920920346235, "train/rep_loss_mean": 5.482014340323371, "train/rep_loss_std": 8.839262588604077, "train/reward_avg": 0.04319573473185301, "train/reward_loss_mean": 0.058683604706783556, "train/reward_loss_std": 0.22029439863320943, "train/reward_max_data": 1.024324330123695, "train/reward_max_pred": 1.0259013788120166, "train/reward_neg_acc": 0.9936157867715165, "train/reward_neg_loss": 0.0249101203438398, "train/reward_pos_acc": 0.9888154815983128, "train/reward_pos_loss": 0.7306005076782124, "train/reward_pred": 0.04281955043709761, "train/reward_rate": 0.0478515625, "stats/sum_log_reward": 12.266666968663534, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 3.8333333333333335, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 17.833333333333332, "stats/max_log_achievement_collect_wood": 11.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.6666666666666667, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.1666666666666667, "stats/max_log_achievement_place_stone": 4.5, "stats/max_log_achievement_place_table": 3.1666666666666665, "stats/max_log_achievement_wake_up": 0.8333333333333334, "stats/mean_log_entropy": 0.33276869108279544, "replay/size": 970418.0, "replay/inserts": 1464.0, "replay/samples": 11712.0, "replay/insert_wait_avg": 3.2567587055143763e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3522803783416748e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 299.9972953796387, "timer/env.step_count": 1464.0, "timer/env.step_total": 16.911063194274902, "timer/env.step_frac": 0.05637071885222964, "timer/env.step_avg": 0.011551272673685043, "timer/env.step_min": 0.0027637481689453125, "timer/env.step_max": 1.567889928817749, "timer/replay.add_count": 1464.0, "timer/replay.add_total": 0.25878405570983887, "timer/replay.add_frac": 0.0008626212959098663, "timer/replay.add_avg": 0.000176765065375573, "timer/replay.add_min": 6.532669067382812e-05, "timer/replay.add_max": 0.00469970703125, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03488492965698242, "timer/logger.write_frac": 0.00011628414720484884, "timer/logger.write_avg": 0.03488492965698242, "timer/logger.write_min": 0.03488492965698242, "timer/logger.write_max": 0.03488492965698242, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1464.0, "timer/agent.policy_total": 10.667765855789185, "timer/agent.policy_frac": 0.035559540102817956, "timer/agent.policy_avg": 0.00728672531133141, "timer/agent.policy_min": 0.005643129348754883, "timer/agent.policy_max": 0.016268253326416016, "timer/dataset_count": 732.0, "timer/dataset_total": 0.05979347229003906, "timer/dataset_frac": 0.0001993133711901369, "timer/dataset_avg": 8.168507143447959e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.00014781951904296875, "timer/agent.train_count": 732.0, "timer/agent.train_total": 271.4075400829315, "timer/agent.train_frac": 0.904699956509516, "timer/agent.train_avg": 0.3707753279821469, "timer/agent.train_min": 0.3637850284576416, "timer/agent.train_max": 0.3842427730560303, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2230210304260254, "timer/agent.report_frac": 0.0007434101368940615, "timer/agent.report_avg": 0.2230210304260254, "timer/agent.report_min": 0.2230210304260254, "timer/agent.report_max": 0.2230210304260254, "fps": 4.879965258654923}
{"step": 970719, "episode/length": 518.0, "episode/score": 15.100000008940697, "episode/sum_abs_reward": 20.7000000923872, "episode/reward_rate": 0.030828516377649325}
{"step": 970846, "episode/length": 126.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.899999976158142, "episode/reward_rate": 0.09448818897637795}
{"step": 971113, "episode/length": 266.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.04868913857677903}
{"step": 971187, "episode/length": 73.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.10810810810810811}
{"step": 971400, "episode/length": 212.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.07042253521126761}
{"step": 971557, "episode/length": 156.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 8.100000031292439, "episode/reward_rate": 0.03821656050955414}
{"step": 971830, "episode/length": 272.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.30000003427267, "episode/reward_rate": 0.054945054945054944}
{"step": 971915, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.445275535046215, "train/action_min": 0.0, "train/action_std": 3.316239152156131, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.037900523374408066, "train/actor_opt_grad_steps": 485050.0, "train/actor_opt_loss": -11.171455051697476, "train/adv_mag": 0.4030435578504079, "train/adv_max": 0.35020733005563975, "train/adv_mean": 0.0023024314900730656, "train/adv_min": -0.3554858300887363, "train/adv_std": 0.042764287337031165, "train/cont_avg": 0.9946632922535211, "train/cont_loss_mean": 4.6342127651229645e-05, "train/cont_loss_std": 0.0013207624792508335, "train/cont_neg_acc": 0.9979879285248232, "train/cont_neg_loss": 0.0023622187927101, "train/cont_pos_acc": 0.9999861272288041, "train/cont_pos_loss": 3.057789108130688e-05, "train/cont_pred": 0.9946470277410158, "train/cont_rate": 0.9946632922535211, "train/dyn_loss_mean": 5.749162297853282, "train/dyn_loss_std": 8.952796976331253, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9244046144082513, "train/extr_critic_critic_opt_grad_steps": 485050.0, "train/extr_critic_critic_opt_loss": 15381.866939920774, "train/extr_critic_mag": 12.348777126258527, "train/extr_critic_max": 12.348777126258527, "train/extr_critic_mean": 3.936450867585733, "train/extr_critic_min": -0.38280181146003833, "train/extr_critic_std": 3.0046893475760874, "train/extr_return_normed_mag": 1.3782150762181886, "train/extr_return_normed_max": 1.3782150762181886, "train/extr_return_normed_mean": 0.4125290878222022, "train/extr_return_normed_min": -0.08470826299572495, "train/extr_return_normed_std": 0.32036373690820075, "train/extr_return_rate": 0.8619828786648495, "train/extr_return_raw_mag": 13.097295707380267, "train/extr_return_raw_max": 13.097295707380267, "train/extr_return_raw_mean": 3.9582503345650686, "train/extr_return_raw_min": -0.7475731750609169, "train/extr_return_raw_std": 3.031877920661174, "train/extr_reward_mag": 1.076491033527213, "train/extr_reward_max": 1.076491033527213, "train/extr_reward_mean": 0.06327935596796828, "train/extr_reward_min": -0.6380608031447504, "train/extr_reward_std": 0.24196992478740048, "train/image_loss_mean": 3.367558261038552, "train/image_loss_std": 8.421757113765663, "train/model_loss_mean": 6.876925569185069, "train/model_loss_std": 12.581340104761258, "train/model_opt_grad_norm": 23.726117228118465, "train/model_opt_grad_steps": 484654.0, "train/model_opt_loss": 13836.530239051497, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2024.6478873239437, "train/policy_entropy_mag": 2.67587935085028, "train/policy_entropy_max": 2.67587935085028, "train/policy_entropy_mean": 0.3995903650639762, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6033027646407275, "train/policy_logprob_mag": 7.438384257571798, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4002212949202094, "train/policy_logprob_min": -7.438384257571798, "train/policy_logprob_std": 1.0291816936412328, "train/policy_randomness_mag": 0.9444679827757285, "train/policy_randomness_max": 0.9444679827757285, "train/policy_randomness_mean": 0.14103786322012754, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21293940237710174, "train/post_ent_mag": 55.77029746686909, "train/post_ent_max": 55.77029746686909, "train/post_ent_mean": 40.4379206375337, "train/post_ent_min": 19.414188492466028, "train/post_ent_std": 6.01501111581292, "train/prior_ent_mag": 76.71585158227195, "train/prior_ent_max": 76.71585158227195, "train/prior_ent_mean": 46.17127410458847, "train/prior_ent_min": 28.174691912154078, "train/prior_ent_std": 7.911959265319394, "train/rep_loss_mean": 5.749162297853282, "train/rep_loss_std": 8.952796976331253, "train/reward_avg": 0.04418326313541809, "train/reward_loss_mean": 0.05982369520294834, "train/reward_loss_std": 0.21893620994729054, "train/reward_max_data": 1.0352112760006542, "train/reward_max_pred": 1.0316388204064169, "train/reward_neg_acc": 0.9936081019925399, "train/reward_neg_loss": 0.025769600408597732, "train/reward_pos_acc": 0.9899962586416325, "train/reward_pos_loss": 0.7254360771515, "train/reward_pred": 0.043904758333949974, "train/reward_rate": 0.04886938820422535, "stats/sum_log_reward": 11.100000381469727, "stats/max_log_achievement_collect_coal": 0.8571428571428571, "stats/max_log_achievement_collect_drink": 4.857142857142857, "stats/max_log_achievement_collect_iron": 0.14285714285714285, "stats/max_log_achievement_collect_sapling": 1.8571428571428572, "stats/max_log_achievement_collect_stone": 14.0, "stats/max_log_achievement_collect_wood": 10.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.4285714285714286, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_stone_sword": 0.7142857142857143, "stats/max_log_achievement_make_wood_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_wood_sword": 0.7142857142857143, "stats/max_log_achievement_place_furnace": 1.8571428571428572, "stats/max_log_achievement_place_plant": 1.8571428571428572, "stats/max_log_achievement_place_stone": 4.285714285714286, "stats/max_log_achievement_place_table": 2.4285714285714284, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.4681091840778078, "replay/size": 971852.0, "replay/inserts": 1434.0, "replay/samples": 11472.0, "replay/insert_wait_avg": 3.374105051804121e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.374523011211571e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3338816165924, "timer/env.step_count": 1434.0, "timer/env.step_total": 20.930914878845215, "timer/env.step_frac": 0.06969215316694011, "timer/env.step_avg": 0.014596174950380205, "timer/env.step_min": 0.002786397933959961, "timer/env.step_max": 2.43009090423584, "timer/replay.add_count": 1434.0, "timer/replay.add_total": 0.30071258544921875, "timer/replay.add_frac": 0.0010012609427567344, "timer/replay.add_avg": 0.00020970194243320693, "timer/replay.add_min": 6.437301635742188e-05, "timer/replay.add_max": 0.005589962005615234, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02086186408996582, "timer/logger.write_frac": 6.946223975021963e-05, "timer/logger.write_avg": 0.02086186408996582, "timer/logger.write_min": 0.02086186408996582, "timer/logger.write_max": 0.02086186408996582, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00026297569274902344, "timer/checkpoint.save_frac": 8.756111409525863e-07, "timer/checkpoint.save_avg": 0.00026297569274902344, "timer/checkpoint.save_min": 0.00026297569274902344, "timer/checkpoint.save_max": 0.00026297569274902344, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.220623254776001, "timer/agent.save_frac": 0.004064220953712622, "timer/agent.save_avg": 1.220623254776001, "timer/agent.save_min": 1.220623254776001, "timer/agent.save_max": 1.220623254776001, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.510185241699219e-05, "timer/replay.save_frac": 2.500612052584448e-07, "timer/replay.save_avg": 7.510185241699219e-05, "timer/replay.save_min": 7.510185241699219e-05, "timer/replay.save_max": 7.510185241699219e-05, "timer/agent.policy_count": 1434.0, "timer/agent.policy_total": 11.805858373641968, "timer/agent.policy_frac": 0.03930911261192096, "timer/agent.policy_avg": 0.008232816160140842, "timer/agent.policy_min": 0.005845546722412109, "timer/agent.policy_max": 1.2095777988433838, "timer/dataset_count": 717.0, "timer/dataset_total": 0.0600278377532959, "timer/dataset_frac": 0.0001998703490601427, "timer/dataset_avg": 8.372083368660516e-05, "timer/dataset_min": 6.222724914550781e-05, "timer/dataset_max": 0.0003275871276855469, "timer/agent.train_count": 717.0, "timer/agent.train_total": 266.56157517433167, "timer/agent.train_frac": 0.8875507942677788, "timer/agent.train_avg": 0.371773466072987, "timer/agent.train_min": 0.36418771743774414, "timer/agent.train_max": 0.8450520038604736, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.216963529586792, "timer/agent.report_frac": 0.0007224077697093417, "timer/agent.report_avg": 0.216963529586792, "timer/agent.report_min": 0.216963529586792, "timer/agent.report_max": 0.216963529586792, "fps": 4.774585416073022}
{"step": 971984, "episode/length": 153.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.07142857142857142}
{"step": 972190, "episode/length": 205.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.07281553398058252}
{"step": 972328, "episode/length": 137.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.09420289855072464}
{"step": 972781, "episode/length": 452.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 9.500000029802322, "episode/reward_rate": 0.01545253863134658}
{"step": 973044, "episode/length": 262.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.053231939163498096}
{"step": 973287, "episode/length": 242.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.06172839506172839}
{"step": 973377, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.318508200449486, "train/action_min": 0.0, "train/action_std": 3.133621255012408, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.039572785366071415, "train/actor_opt_grad_steps": 485770.0, "train/actor_opt_loss": -11.311557840198686, "train/adv_mag": 0.43132601413008287, "train/adv_max": 0.3562880958596321, "train/adv_mean": 0.0022956805353789777, "train/adv_min": -0.3825945349997037, "train/adv_std": 0.044110782648602576, "train/cont_avg": 0.9952242080479452, "train/cont_loss_mean": 2.8613143668168696e-05, "train/cont_loss_std": 0.0007285599019817473, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.002627587633432777, "train/cont_pos_acc": 0.9999999836699603, "train/cont_pos_loss": 1.4100405895090896e-05, "train/cont_pred": 0.995223099238252, "train/cont_rate": 0.9952242080479452, "train/dyn_loss_mean": 5.537144295156819, "train/dyn_loss_std": 8.82752656283444, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9504635832081102, "train/extr_critic_critic_opt_grad_steps": 485770.0, "train/extr_critic_critic_opt_loss": 15519.578352418665, "train/extr_critic_mag": 12.37775939784638, "train/extr_critic_max": 12.37775939784638, "train/extr_critic_mean": 4.029811316973542, "train/extr_critic_min": -0.3753622770309448, "train/extr_critic_std": 2.9497507239041263, "train/extr_return_normed_mag": 1.3665422887018281, "train/extr_return_normed_max": 1.3665422887018281, "train/extr_return_normed_mean": 0.4166385478352847, "train/extr_return_normed_min": -0.08724915741445267, "train/extr_return_normed_std": 0.3125580855428356, "train/extr_return_rate": 0.8716110636110175, "train/extr_return_raw_mag": 13.105365727045765, "train/extr_return_raw_max": 13.105365727045765, "train/extr_return_raw_mean": 4.0516905751946855, "train/extr_return_raw_min": -0.7502182856814502, "train/extr_return_raw_std": 2.978704184701998, "train/extr_reward_mag": 1.0766881198099214, "train/extr_reward_max": 1.0766881198099214, "train/extr_reward_mean": 0.062739492483335, "train/extr_reward_min": -0.6169171333312988, "train/extr_reward_std": 0.24086344731997136, "train/image_loss_mean": 3.1348760470952075, "train/image_loss_std": 8.184657652084141, "train/model_loss_mean": 6.515050705165079, "train/model_loss_std": 12.356198010379321, "train/model_opt_grad_norm": 22.26760537657019, "train/model_opt_grad_steps": 485373.80821917806, "train/model_opt_loss": 17007.15829676798, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2602.7397260273974, "train/policy_entropy_mag": 2.686082771379654, "train/policy_entropy_max": 2.686082771379654, "train/policy_entropy_mean": 0.3522074475680312, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5439217662158078, "train/policy_logprob_mag": 7.438384317371943, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.35203188453635126, "train/policy_logprob_min": -7.438384317371943, "train/policy_logprob_std": 0.9864641836244766, "train/policy_randomness_mag": 0.9480693438281752, "train/policy_randomness_max": 0.9480693438281752, "train/policy_randomness_mean": 0.12431377264326565, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19198051431815918, "train/post_ent_mag": 55.597254034591046, "train/post_ent_max": 55.597254034591046, "train/post_ent_mean": 40.3744581562199, "train/post_ent_min": 19.565516328158445, "train/post_ent_std": 5.859563422529665, "train/prior_ent_mag": 76.81564278798561, "train/prior_ent_max": 76.81564278798561, "train/prior_ent_mean": 45.9468050917534, "train/prior_ent_min": 27.788261073909393, "train/prior_ent_std": 7.834945149617653, "train/rep_loss_mean": 5.537144295156819, "train/rep_loss_std": 8.82752656283444, "train/reward_avg": 0.042636986081934954, "train/reward_loss_mean": 0.05785951554162862, "train/reward_loss_std": 0.21427997028174467, "train/reward_max_data": 1.0315068568268868, "train/reward_max_pred": 1.0318978649296173, "train/reward_neg_acc": 0.9921704791996577, "train/reward_neg_loss": 0.025140808065970466, "train/reward_pos_acc": 0.9903794380083476, "train/reward_pos_loss": 0.720764352850718, "train/reward_pred": 0.04254347177809232, "train/reward_rate": 0.0469017551369863, "stats/sum_log_reward": 11.43333371480306, "stats/max_log_achievement_collect_coal": 1.3333333333333333, "stats/max_log_achievement_collect_drink": 3.1666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.1666666666666667, "stats/max_log_achievement_collect_stone": 15.5, "stats/max_log_achievement_collect_wood": 12.5, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.3333333333333333, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 1.8333333333333333, "stats/max_log_achievement_place_plant": 1.1666666666666667, "stats/max_log_achievement_place_stone": 4.333333333333333, "stats/max_log_achievement_place_table": 3.3333333333333335, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.4175179402033488, "replay/size": 973314.0, "replay/inserts": 1462.0, "replay/samples": 11696.0, "replay/insert_wait_avg": 3.271324689998183e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3358248894583185e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.10327410697937, "timer/env.step_count": 1462.0, "timer/env.step_total": 16.891444206237793, "timer/env.step_frac": 0.05628543792633336, "timer/env.step_avg": 0.011553655407823387, "timer/env.step_min": 0.0026504993438720703, "timer/env.step_max": 1.580491065979004, "timer/replay.add_count": 1462.0, "timer/replay.add_total": 0.2600224018096924, "timer/replay.add_frac": 0.0008664430689183379, "timer/replay.add_avg": 0.00017785390000662953, "timer/replay.add_min": 6.580352783203125e-05, "timer/replay.add_max": 0.00413203239440918, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029496431350708008, "timer/logger.write_frac": 9.828760262106724e-05, "timer/logger.write_avg": 0.029496431350708008, "timer/logger.write_min": 0.029496431350708008, "timer/logger.write_max": 0.029496431350708008, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1462.0, "timer/agent.policy_total": 10.770637035369873, "timer/agent.policy_frac": 0.03588976850525932, "timer/agent.policy_avg": 0.007367056795738627, "timer/agent.policy_min": 0.005855083465576172, "timer/agent.policy_max": 0.01882338523864746, "timer/dataset_count": 731.0, "timer/dataset_total": 0.06017923355102539, "timer/dataset_frac": 0.0002005284138605332, "timer/dataset_avg": 8.232453290153953e-05, "timer/dataset_min": 6.151199340820312e-05, "timer/dataset_max": 0.0001392364501953125, "timer/agent.train_count": 731.0, "timer/agent.train_total": 271.4257724285126, "timer/agent.train_frac": 0.9044412235627793, "timer/agent.train_avg": 0.3713074862223154, "timer/agent.train_min": 0.36476826667785645, "timer/agent.train_max": 0.38646960258483887, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2202463150024414, "timer/agent.report_frac": 0.0007339017398521586, "timer/agent.report_avg": 0.2202463150024414, "timer/agent.report_min": 0.2202463150024414, "timer/agent.report_max": 0.2202463150024414, "fps": 4.871583337478341}
{"step": 973489, "episode/length": 201.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.07425742574257425}
{"step": 973664, "episode/length": 174.0, "episode/score": 13.099999994039536, "episode/sum_abs_reward": 15.100000023841858, "episode/reward_rate": 0.08}
{"step": 973906, "episode/length": 241.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.700000040233135, "episode/reward_rate": 0.045454545454545456}
{"step": 974140, "episode/length": 233.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.700000040233135, "episode/reward_rate": 0.05982905982905983}
{"step": 974351, "episode/length": 210.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.061611374407582936}
{"step": 974551, "episode/length": 199.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.06}
{"step": 974835, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.44361354880137, "train/action_min": 0.0, "train/action_std": 3.3006631086950433, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038202338890261846, "train/actor_opt_grad_steps": 486500.0, "train/actor_opt_loss": -12.025470233943365, "train/adv_mag": 0.38370288479818054, "train/adv_max": 0.33767738407605313, "train/adv_mean": 0.0017295546729232452, "train/adv_min": -0.3341878679108946, "train/adv_std": 0.042599525302648544, "train/cont_avg": 0.9948763912671232, "train/cont_loss_mean": 4.293336068747222e-05, "train/cont_loss_std": 0.001301852865091785, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.001183144693021982, "train/cont_pos_acc": 0.9999864836261697, "train/cont_pos_loss": 3.7283661692857105e-05, "train/cont_pred": 0.9948624609267875, "train/cont_rate": 0.9948763912671232, "train/dyn_loss_mean": 5.476746526482987, "train/dyn_loss_std": 8.877034866646545, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9558345855098881, "train/extr_critic_critic_opt_grad_steps": 486500.0, "train/extr_critic_critic_opt_loss": 15354.070687071919, "train/extr_critic_mag": 12.352157436005056, "train/extr_critic_max": 12.352157436005056, "train/extr_critic_mean": 4.010177795201132, "train/extr_critic_min": -0.3886239642966284, "train/extr_critic_std": 3.018289477857825, "train/extr_return_normed_mag": 1.3699323216529742, "train/extr_return_normed_max": 1.3699323216529742, "train/extr_return_normed_mean": 0.4149030026507704, "train/extr_return_normed_min": -0.08449833595181165, "train/extr_return_normed_std": 0.3198735967074355, "train/extr_return_rate": 0.8676905395233467, "train/extr_return_raw_mag": 13.125269981279764, "train/extr_return_raw_max": 13.125269981279764, "train/extr_return_raw_mean": 4.026633435732697, "train/extr_return_raw_min": -0.7302988634942329, "train/extr_return_raw_std": 3.047630894674014, "train/extr_reward_mag": 1.072175339476703, "train/extr_reward_max": 1.072175339476703, "train/extr_reward_mean": 0.0628649612301833, "train/extr_reward_min": -0.6417139425669631, "train/extr_reward_std": 0.2410687753190733, "train/image_loss_mean": 3.256355053757968, "train/image_loss_std": 8.400191698988824, "train/model_loss_mean": 6.600641675191383, "train/model_loss_std": 12.553485138775551, "train/model_opt_grad_norm": 21.107247705328955, "train/model_opt_grad_steps": 486103.0, "train/model_opt_loss": 16501.604184503423, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6906314092139674, "train/policy_entropy_max": 2.6906314092139674, "train/policy_entropy_mean": 0.3845440582053302, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5860431741361749, "train/policy_logprob_mag": 7.4383842651158165, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3864323182465279, "train/policy_logprob_min": -7.4383842651158165, "train/policy_logprob_std": 1.0230297830006847, "train/policy_randomness_mag": 0.949674810448738, "train/policy_randomness_max": 0.949674810448738, "train/policy_randomness_mean": 0.13572717825435612, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2068475221526133, "train/post_ent_mag": 55.540816424644156, "train/post_ent_max": 55.540816424644156, "train/post_ent_mean": 40.479865400758506, "train/post_ent_min": 19.43823069742281, "train/post_ent_std": 5.831610947439115, "train/prior_ent_mag": 76.66971755354372, "train/prior_ent_max": 76.66971755354372, "train/prior_ent_mean": 45.97360062272581, "train/prior_ent_min": 28.063531274664893, "train/prior_ent_std": 7.816925297044728, "train/rep_loss_mean": 5.476746526482987, "train/rep_loss_std": 8.877034866646545, "train/reward_avg": 0.043325931012426336, "train/reward_loss_mean": 0.05819580627426709, "train/reward_loss_std": 0.21328521428042896, "train/reward_max_data": 1.0246575401253897, "train/reward_max_pred": 1.0259060794360018, "train/reward_neg_acc": 0.9932123479777819, "train/reward_neg_loss": 0.025001512546959804, "train/reward_pos_acc": 0.9886896887870684, "train/reward_pos_loss": 0.7199635293385754, "train/reward_pred": 0.0430571913004738, "train/reward_rate": 0.0478515625, "stats/sum_log_reward": 12.266666889190674, "stats/max_log_achievement_collect_coal": 1.5, "stats/max_log_achievement_collect_drink": 1.3333333333333333, "stats/max_log_achievement_collect_iron": 0.3333333333333333, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 16.833333333333332, "stats/max_log_achievement_collect_wood": 15.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.3333333333333333, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 3.6666666666666665, "stats/max_log_achievement_place_table": 3.8333333333333335, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.30761875957250595, "replay/size": 974772.0, "replay/inserts": 1458.0, "replay/samples": 11664.0, "replay/insert_wait_avg": 3.2670540410631807e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.299324022562579e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.08379888534546, "timer/env.step_count": 1458.0, "timer/env.step_total": 17.741977214813232, "timer/env.step_frac": 0.05912340913010102, "timer/env.step_avg": 0.012168708652135277, "timer/env.step_min": 0.002852201461791992, "timer/env.step_max": 1.6610567569732666, "timer/replay.add_count": 1458.0, "timer/replay.add_total": 0.27497363090515137, "timer/replay.add_frac": 0.0009163228135825218, "timer/replay.add_avg": 0.00018859645466745635, "timer/replay.add_min": 6.365776062011719e-05, "timer/replay.add_max": 0.010778188705444336, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027750253677368164, "timer/logger.write_frac": 9.247501458074664e-05, "timer/logger.write_avg": 0.027750253677368164, "timer/logger.write_min": 0.027750253677368164, "timer/logger.write_max": 0.027750253677368164, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1458.0, "timer/agent.policy_total": 10.625498294830322, "timer/agent.policy_frac": 0.035408437024252885, "timer/agent.policy_avg": 0.007287721738566751, "timer/agent.policy_min": 0.0058100223541259766, "timer/agent.policy_max": 0.014174938201904297, "timer/dataset_count": 729.0, "timer/dataset_total": 0.05868959426879883, "timer/dataset_frac": 0.00019557735034946908, "timer/dataset_avg": 8.050698802304366e-05, "timer/dataset_min": 5.793571472167969e-05, "timer/dataset_max": 0.00012922286987304688, "timer/agent.train_count": 729.0, "timer/agent.train_total": 270.6981143951416, "timer/agent.train_frac": 0.9020750716987844, "timer/agent.train_avg": 0.37132800328551663, "timer/agent.train_min": 0.36501288414001465, "timer/agent.train_max": 0.3867769241333008, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2201249599456787, "timer/agent.report_frac": 0.000733544965650688, "timer/agent.report_avg": 0.2201249599456787, "timer/agent.report_min": 0.2201249599456787, "timer/agent.report_max": 0.2201249599456787, "fps": 4.858551174000333}
{"step": 974850, "episode/length": 298.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.700000025331974, "episode/reward_rate": 0.05351170568561873}
{"step": 975072, "episode/length": 221.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.07207207207207207}
{"step": 975149, "episode/length": 76.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 9.899999976158142, "episode/reward_rate": 0.12987012987012986}
{"step": 975435, "episode/length": 285.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 11.500000037252903, "episode/reward_rate": 0.03496503496503497}
{"step": 975639, "episode/length": 203.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.07352941176470588}
{"step": 975820, "episode/length": 180.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 13.899999991059303, "episode/reward_rate": 0.07734806629834254}
{"step": 976108, "episode/length": 287.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.04861111111111111}
{"step": 976265, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.429947747124566, "train/action_min": 0.0, "train/action_std": 3.319657176733017, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03802189484445585, "train/actor_opt_grad_steps": 487225.0, "train/actor_opt_loss": -12.874010990063349, "train/adv_mag": 0.3942891791876819, "train/adv_max": 0.3263917157633437, "train/adv_mean": 0.0015237650386931516, "train/adv_min": -0.3542013077272309, "train/adv_std": 0.042951611801981926, "train/cont_avg": 0.9950900607638888, "train/cont_loss_mean": 2.6964642060928805e-05, "train/cont_loss_std": 0.0007831896985379672, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0015275684052266708, "train/cont_pos_acc": 0.9999863430857658, "train/cont_pos_loss": 2.1025552721296333e-05, "train/cont_pred": 0.9950791887111134, "train/cont_rate": 0.9950900607638888, "train/dyn_loss_mean": 5.407335274749332, "train/dyn_loss_std": 8.795988553100162, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9109138184123569, "train/extr_critic_critic_opt_grad_steps": 487225.0, "train/extr_critic_critic_opt_loss": 15335.623494466146, "train/extr_critic_mag": 12.555665214856466, "train/extr_critic_max": 12.555665214856466, "train/extr_critic_mean": 4.099011811945173, "train/extr_critic_min": -0.3666704098383586, "train/extr_critic_std": 2.994955745008257, "train/extr_return_normed_mag": 1.3748948756191466, "train/extr_return_normed_max": 1.3748948756191466, "train/extr_return_normed_mean": 0.42167801451351905, "train/extr_return_normed_min": -0.07948826677683327, "train/extr_return_normed_std": 0.31409141918023425, "train/extr_return_rate": 0.8793168142437935, "train/extr_return_raw_mag": 13.279141770468819, "train/extr_return_raw_max": 13.279141770468819, "train/extr_return_raw_mean": 4.113664564159182, "train/extr_return_raw_min": -0.7065662845141358, "train/extr_return_raw_std": 3.020887600051032, "train/extr_reward_mag": 1.0683446029822032, "train/extr_reward_max": 1.0683446029822032, "train/extr_reward_mean": 0.06506826030090451, "train/extr_reward_min": -0.6038256469700072, "train/extr_reward_std": 0.2448753085401323, "train/image_loss_mean": 3.0581095847818585, "train/image_loss_std": 8.06920161512163, "train/model_loss_mean": 6.360631240738763, "train/model_loss_std": 12.205537584092882, "train/model_opt_grad_norm": 21.50219950411055, "train/model_opt_grad_steps": 486827.19444444444, "train/model_opt_loss": 16104.320041232639, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2534.722222222222, "train/policy_entropy_mag": 2.6938615838686624, "train/policy_entropy_max": 2.6938615838686624, "train/policy_entropy_mean": 0.3876176697926389, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5979391067392297, "train/policy_logprob_mag": 7.438384340869056, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3890706422842211, "train/policy_logprob_min": -7.438384340869056, "train/policy_logprob_std": 1.0219071432948112, "train/policy_randomness_mag": 0.9508149201671282, "train/policy_randomness_max": 0.9508149201671282, "train/policy_randomness_mean": 0.13681202775074375, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21104626854260763, "train/post_ent_mag": 55.879927476247154, "train/post_ent_max": 55.879927476247154, "train/post_ent_mean": 40.380071534050835, "train/post_ent_min": 19.310883230633205, "train/post_ent_std": 5.80710866716173, "train/prior_ent_mag": 76.5979093975491, "train/prior_ent_max": 76.5979093975491, "train/prior_ent_mean": 45.78673134909736, "train/prior_ent_min": 27.697367853588528, "train/prior_ent_std": 7.778360810544756, "train/rep_loss_mean": 5.407335274749332, "train/rep_loss_std": 8.795988553100162, "train/reward_avg": 0.045768229032142296, "train/reward_loss_mean": 0.05809358031385475, "train/reward_loss_std": 0.21490544184214538, "train/reward_max_data": 1.0236111167404387, "train/reward_max_pred": 1.0251886116133795, "train/reward_neg_acc": 0.993694759077496, "train/reward_neg_loss": 0.02334712447029435, "train/reward_pos_acc": 0.9896827240784963, "train/reward_pos_loss": 0.7215723221500715, "train/reward_pred": 0.045525297574285, "train/reward_rate": 0.04995388454861111, "stats/sum_log_reward": 12.385714530944824, "stats/max_log_achievement_collect_coal": 0.42857142857142855, "stats/max_log_achievement_collect_drink": 2.7142857142857144, "stats/max_log_achievement_collect_iron": 0.14285714285714285, "stats/max_log_achievement_collect_sapling": 1.8571428571428572, "stats/max_log_achievement_collect_stone": 15.714285714285714, "stats/max_log_achievement_collect_wood": 13.0, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.8571428571428571, "stats/max_log_achievement_eat_cow": 0.8571428571428571, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.7142857142857142, "stats/max_log_achievement_place_plant": 1.7142857142857142, "stats/max_log_achievement_place_stone": 2.2857142857142856, "stats/max_log_achievement_place_table": 3.2857142857142856, "stats/max_log_achievement_wake_up": 1.5714285714285714, "stats/mean_log_entropy": 0.4787912837096623, "replay/size": 976202.0, "replay/inserts": 1430.0, "replay/samples": 11440.0, "replay/insert_wait_avg": 3.4072182395241478e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.326140823897782e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.35298371315, "timer/env.step_count": 1430.0, "timer/env.step_total": 20.644092321395874, "timer/env.step_frac": 0.06873276924430978, "timer/env.step_avg": 0.014436428196780331, "timer/env.step_min": 0.0028285980224609375, "timer/env.step_max": 1.8186767101287842, "timer/replay.add_count": 1430.0, "timer/replay.add_total": 0.2756202220916748, "timer/replay.add_frac": 0.0009176543501725421, "timer/replay.add_avg": 0.00019274141405012225, "timer/replay.add_min": 6.413459777832031e-05, "timer/replay.add_max": 0.0019507408142089844, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022195816040039062, "timer/logger.write_frac": 7.389910286770122e-05, "timer/logger.write_avg": 0.022195816040039062, "timer/logger.write_min": 0.022195816040039062, "timer/logger.write_max": 0.022195816040039062, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00018906593322753906, "timer/checkpoint.save_frac": 6.2947912449608e-07, "timer/checkpoint.save_avg": 0.00018906593322753906, "timer/checkpoint.save_min": 0.00018906593322753906, "timer/checkpoint.save_max": 0.00018906593322753906, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1876208782196045, "timer/agent.save_frac": 0.0039540838367493406, "timer/agent.save_avg": 1.1876208782196045, "timer/agent.save_min": 1.1876208782196045, "timer/agent.save_max": 1.1876208782196045, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.651878356933594e-05, "timer/replay.save_frac": 2.2146869575587178e-07, "timer/replay.save_avg": 6.651878356933594e-05, "timer/replay.save_min": 6.651878356933594e-05, "timer/replay.save_max": 6.651878356933594e-05, "timer/agent.policy_count": 1430.0, "timer/agent.policy_total": 12.439541578292847, "timer/agent.policy_frac": 0.04141640753658416, "timer/agent.policy_avg": 0.008698980124680313, "timer/agent.policy_min": 0.005742549896240234, "timer/agent.policy_max": 1.1823203563690186, "timer/dataset_count": 715.0, "timer/dataset_total": 0.058626413345336914, "timer/dataset_frac": 0.00019519171283255055, "timer/dataset_avg": 8.199498369977191e-05, "timer/dataset_min": 6.0558319091796875e-05, "timer/dataset_max": 0.00015354156494140625, "timer/agent.train_count": 715.0, "timer/agent.train_total": 266.24822473526, "timer/agent.train_frac": 0.8864510731464499, "timer/agent.train_avg": 0.37237513948987416, "timer/agent.train_min": 0.3633553981781006, "timer/agent.train_max": 0.827692985534668, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2213575839996338, "timer/agent.report_frac": 0.0007369914600583418, "timer/agent.report_avg": 0.2213575839996338, "timer/agent.report_min": 0.2213575839996338, "timer/agent.report_max": 0.2213575839996338, "fps": 4.760952654902595}
{"step": 976325, "episode/length": 216.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.06912442396313365}
{"step": 976487, "episode/length": 161.0, "episode/score": 6.099999964237213, "episode/sum_abs_reward": 7.699999988079071, "episode/reward_rate": 0.043209876543209874}
{"step": 976711, "episode/length": 223.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.0625}
{"step": 976988, "episode/length": 276.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.036101083032490974}
{"step": 977183, "episode/length": 194.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.06153846153846154}
{"step": 977421, "episode/length": 237.0, "episode/score": 13.100000016391277, "episode/sum_abs_reward": 15.300000064074993, "episode/reward_rate": 0.058823529411764705}
{"step": 977670, "episode/length": 248.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.05622489959839357}
{"step": 977719, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.395997765946062, "train/action_min": 0.0, "train/action_std": 3.2687664881144483, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038340180372334505, "train/actor_opt_grad_steps": 487950.0, "train/actor_opt_loss": -11.67654613436085, "train/adv_mag": 0.41008067580118573, "train/adv_max": 0.34964553685220956, "train/adv_mean": 0.0017799481924506437, "train/adv_min": -0.3611409098726429, "train/adv_std": 0.04295737995472673, "train/cont_avg": 0.994488441780822, "train/cont_loss_mean": 4.383514617206576e-05, "train/cont_loss_std": 0.001286293769768136, "train/cont_neg_acc": 0.9977168955215036, "train/cont_neg_loss": 0.0031980440997388506, "train/cont_pos_acc": 0.9999999828534584, "train/cont_pos_loss": 2.3367309401150223e-05, "train/cont_pred": 0.9944817954546785, "train/cont_rate": 0.994488441780822, "train/dyn_loss_mean": 5.450280496518906, "train/dyn_loss_std": 8.866291268231118, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9432716116513291, "train/extr_critic_critic_opt_grad_steps": 487950.0, "train/extr_critic_critic_opt_loss": 15438.370692422945, "train/extr_critic_mag": 12.32332834478927, "train/extr_critic_max": 12.32332834478927, "train/extr_critic_mean": 3.9637585829382074, "train/extr_critic_min": -0.35095224805074193, "train/extr_critic_std": 3.013333637420445, "train/extr_return_normed_mag": 1.3654989706326837, "train/extr_return_normed_max": 1.3654989706326837, "train/extr_return_normed_mean": 0.41102059695818655, "train/extr_return_normed_min": -0.08019000654147096, "train/extr_return_normed_std": 0.31833035754014366, "train/extr_return_rate": 0.8664491054129927, "train/extr_return_raw_mag": 13.08132447281929, "train/extr_return_raw_max": 13.08132447281929, "train/extr_return_raw_mean": 3.980730465013687, "train/extr_return_raw_min": -0.7035471066220166, "train/extr_return_raw_std": 3.0354935339052385, "train/extr_reward_mag": 1.078339067223954, "train/extr_reward_max": 1.078339067223954, "train/extr_reward_mean": 0.062054044324649525, "train/extr_reward_min": -0.6285384550486526, "train/extr_reward_std": 0.23987176687750097, "train/image_loss_mean": 3.135878131814199, "train/image_loss_std": 7.690009143254528, "train/model_loss_mean": 6.46516790128734, "train/model_loss_std": 11.877039648082159, "train/model_opt_grad_norm": 23.421038052807116, "train/model_opt_grad_steps": 487551.65753424657, "train/model_opt_loss": 17447.49850171233, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2705.4794520547944, "train/policy_entropy_mag": 2.699408772873552, "train/policy_entropy_max": 2.699408772873552, "train/policy_entropy_mean": 0.3984164526201274, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6064615976320554, "train/policy_logprob_mag": 7.4383842651158165, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4000057245362295, "train/policy_logprob_min": -7.4383842651158165, "train/policy_logprob_std": 1.0317079669808689, "train/policy_randomness_mag": 0.9527728369791214, "train/policy_randomness_max": 0.9527728369791214, "train/policy_randomness_mean": 0.14062352458091631, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21405432955042958, "train/post_ent_mag": 55.60106021410798, "train/post_ent_max": 55.60106021410798, "train/post_ent_mean": 40.35021497125495, "train/post_ent_min": 19.564079781101174, "train/post_ent_std": 5.845578507201313, "train/prior_ent_mag": 76.67296861622431, "train/prior_ent_max": 76.67296861622431, "train/prior_ent_mean": 45.78720056194149, "train/prior_ent_min": 28.017712135837503, "train/prior_ent_std": 7.862313910706402, "train/rep_loss_mean": 5.450280496518906, "train/rep_loss_std": 8.866291268231118, "train/reward_avg": 0.04308914791231286, "train/reward_loss_mean": 0.05907763535641644, "train/reward_loss_std": 0.22021678232983366, "train/reward_max_data": 1.0273972668059885, "train/reward_max_pred": 1.0294219826998776, "train/reward_neg_acc": 0.993524773480141, "train/reward_neg_loss": 0.025479461819137614, "train/reward_pos_acc": 0.9896674025548647, "train/reward_pos_loss": 0.7303523543762834, "train/reward_pred": 0.042667586662589685, "train/reward_rate": 0.04783818493150685, "stats/sum_log_reward": 11.385714599064418, "stats/max_log_achievement_collect_coal": 0.14285714285714285, "stats/max_log_achievement_collect_drink": 4.714285714285714, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 11.571428571428571, "stats/max_log_achievement_collect_wood": 12.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.4285714285714284, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.2857142857142858, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.4285714285714286, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 2.2857142857142856, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.5714285714285714, "stats/mean_log_entropy": 0.4462939330509731, "replay/size": 977656.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.388856103364506e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3028985040551858e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.358900308609, "timer/env.step_count": 1454.0, "timer/env.step_total": 18.67665457725525, "timer/env.step_frac": 0.06218112584000538, "timer/env.step_avg": 0.012845016903201684, "timer/env.step_min": 0.002618074417114258, "timer/env.step_max": 1.6185722351074219, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.2522132396697998, "timer/replay.add_frac": 0.0008397062294829915, "timer/replay.add_avg": 0.0001734616503918843, "timer/replay.add_min": 6.365776062011719e-05, "timer/replay.add_max": 0.0027811527252197266, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021468400955200195, "timer/logger.write_frac": 7.147582752880674e-05, "timer/logger.write_avg": 0.021468400955200195, "timer/logger.write_min": 0.021468400955200195, "timer/logger.write_max": 0.021468400955200195, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 10.572420597076416, "timer/agent.policy_frac": 0.03519929186787406, "timer/agent.policy_avg": 0.007271265885196985, "timer/agent.policy_min": 0.005724191665649414, "timer/agent.policy_max": 0.014867782592773438, "timer/dataset_count": 727.0, "timer/dataset_total": 0.05823087692260742, "timer/dataset_frac": 0.00019387098854995504, "timer/dataset_avg": 8.009749232820829e-05, "timer/dataset_min": 5.984306335449219e-05, "timer/dataset_max": 0.00015807151794433594, "timer/agent.train_count": 727.0, "timer/agent.train_total": 270.10740518569946, "timer/agent.train_frac": 0.8992821751184096, "timer/agent.train_avg": 0.37153700850852744, "timer/agent.train_min": 0.3648183345794678, "timer/agent.train_max": 0.38434529304504395, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2232978343963623, "timer/agent.report_frac": 0.0007434367157654761, "timer/agent.report_avg": 0.2232978343963623, "timer/agent.report_min": 0.2232978343963623, "timer/agent.report_max": 0.2232978343963623, "fps": 4.8407708066484005}
{"step": 977904, "episode/length": 233.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 16.100000008940697, "episode/reward_rate": 0.0641025641025641}
{"step": 978287, "episode/length": 382.0, "episode/score": 16.100000008940697, "episode/sum_abs_reward": 19.300000056624413, "episode/reward_rate": 0.044386422976501305}
{"step": 978534, "episode/length": 246.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 17.10000005364418, "episode/reward_rate": 0.06072874493927125}
{"step": 978744, "episode/length": 209.0, "episode/score": 14.100000016391277, "episode/sum_abs_reward": 16.1000000461936, "episode/reward_rate": 0.07142857142857142}
{"step": 979134, "episode/length": 389.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 18.900000043213367, "episode/reward_rate": 0.041025641025641026}
{"step": 979183, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.379271624839469, "train/action_min": 0.0, "train/action_std": 3.2482180203476996, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03908458579178542, "train/actor_opt_grad_steps": 488680.0, "train/actor_opt_loss": -11.135128354373043, "train/adv_mag": 0.41152926871221357, "train/adv_max": 0.3486586909179818, "train/adv_mean": 0.002279076730128384, "train/adv_min": -0.3619553067096292, "train/adv_std": 0.044352219223159635, "train/cont_avg": 0.9952777183219178, "train/cont_loss_mean": 3.3529764456985714e-05, "train/cont_loss_std": 0.0010307665267061585, "train/cont_neg_acc": 0.9953033279066217, "train/cont_neg_loss": 0.004561504448593653, "train/cont_pos_acc": 0.9999999787709485, "train/cont_pos_loss": 6.744664240930072e-06, "train/cont_pred": 0.9952888872525464, "train/cont_rate": 0.9952777183219178, "train/dyn_loss_mean": 5.506595461335901, "train/dyn_loss_std": 8.82535827323182, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9553868893074663, "train/extr_critic_critic_opt_grad_steps": 488680.0, "train/extr_critic_critic_opt_loss": 15412.858692744006, "train/extr_critic_mag": 12.220538087087135, "train/extr_critic_max": 12.220538087087135, "train/extr_critic_mean": 3.971430050183649, "train/extr_critic_min": -0.36019578861863644, "train/extr_critic_std": 2.8947366623029316, "train/extr_return_normed_mag": 1.3773201393754515, "train/extr_return_normed_max": 1.3773201393754515, "train/extr_return_normed_mean": 0.41682349655726186, "train/extr_return_normed_min": -0.0803811745590543, "train/extr_return_normed_std": 0.31123504185513273, "train/extr_return_rate": 0.8877470852577523, "train/extr_return_raw_mag": 13.007102313107007, "train/extr_return_raw_max": 13.007102313107007, "train/extr_return_raw_mean": 3.9928141260800296, "train/extr_return_raw_min": -0.6742455065250397, "train/extr_return_raw_std": 2.9214209595771683, "train/extr_reward_mag": 1.0747362979470867, "train/extr_reward_max": 1.0747362979470867, "train/extr_reward_mean": 0.0641746608770057, "train/extr_reward_min": -0.5922265395726243, "train/extr_reward_std": 0.24308489895846747, "train/image_loss_mean": 3.2566056953717584, "train/image_loss_std": 8.420815095509568, "train/model_loss_mean": 6.617513917896845, "train/model_loss_std": 12.529673275882251, "train/model_opt_grad_norm": 20.646040929506903, "train/model_opt_grad_steps": 488281.0, "train/model_opt_loss": 16543.784754922945, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.697920613092919, "train/policy_entropy_max": 2.697920613092919, "train/policy_entropy_mean": 0.38314742135674984, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5864553022874545, "train/policy_logprob_mag": 7.4383843369679905, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38233734361112937, "train/policy_logprob_min": -7.4383843369679905, "train/policy_logprob_std": 1.012916864597634, "train/policy_randomness_mag": 0.952247581253313, "train/policy_randomness_max": 0.952247581253313, "train/policy_randomness_mean": 0.13523422742951408, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20699298545105815, "train/post_ent_mag": 55.27693824245505, "train/post_ent_max": 55.27693824245505, "train/post_ent_mean": 40.40291386434477, "train/post_ent_min": 19.702926897022824, "train/post_ent_std": 5.738914424425935, "train/prior_ent_mag": 76.86305121852926, "train/prior_ent_max": 76.86305121852926, "train/prior_ent_mean": 45.92692963064533, "train/prior_ent_min": 28.22144210501893, "train/prior_ent_std": 7.744459668250933, "train/rep_loss_mean": 5.506595461335901, "train/rep_loss_std": 8.82535827323182, "train/reward_avg": 0.0439653783169103, "train/reward_loss_mean": 0.056917449076698254, "train/reward_loss_std": 0.20940561755879283, "train/reward_max_data": 1.028767130146288, "train/reward_max_pred": 1.028036264524068, "train/reward_neg_acc": 0.9935756080771145, "train/reward_neg_loss": 0.0235092826889292, "train/reward_pos_acc": 0.992823940433868, "train/reward_pos_loss": 0.7178852231535193, "train/reward_pred": 0.04369384410140449, "train/reward_rate": 0.048199379280821915, "stats/sum_log_reward": 14.500000190734863, "stats/max_log_achievement_collect_coal": 1.6, "stats/max_log_achievement_collect_drink": 2.6, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.6, "stats/max_log_achievement_collect_stone": 22.2, "stats/max_log_achievement_collect_wood": 17.2, "stats/max_log_achievement_defeat_skeleton": 0.2, "stats/max_log_achievement_defeat_zombie": 1.8, "stats/max_log_achievement_eat_cow": 0.8, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.2, "stats/max_log_achievement_make_stone_sword": 1.8, "stats/max_log_achievement_make_wood_pickaxe": 1.2, "stats/max_log_achievement_make_wood_sword": 1.2, "stats/max_log_achievement_place_furnace": 2.4, "stats/max_log_achievement_place_plant": 1.4, "stats/max_log_achievement_place_stone": 7.0, "stats/max_log_achievement_place_table": 3.6, "stats/max_log_achievement_wake_up": 1.4, "stats/mean_log_entropy": 0.5111314356327057, "replay/size": 979120.0, "replay/inserts": 1464.0, "replay/samples": 11712.0, "replay/insert_wait_avg": 3.320434705807212e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3382545585840778e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1301152706146, "timer/env.step_count": 1464.0, "timer/env.step_total": 16.471538543701172, "timer/env.step_frac": 0.05488132548394713, "timer/env.step_avg": 0.01125105091782867, "timer/env.step_min": 0.0029366016387939453, "timer/env.step_max": 1.6269774436950684, "timer/replay.add_count": 1464.0, "timer/replay.add_total": 0.26770997047424316, "timer/replay.add_frac": 0.0008919797009802246, "timer/replay.add_avg": 0.0001828620016900568, "timer/replay.add_min": 6.389617919921875e-05, "timer/replay.add_max": 0.0042645931243896484, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02307891845703125, "timer/logger.write_frac": 7.689637688048054e-05, "timer/logger.write_avg": 0.02307891845703125, "timer/logger.write_min": 0.02307891845703125, "timer/logger.write_max": 0.02307891845703125, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1464.0, "timer/agent.policy_total": 10.856688976287842, "timer/agent.policy_frac": 0.03617327426972407, "timer/agent.policy_avg": 0.007415771158666559, "timer/agent.policy_min": 0.005857944488525391, "timer/agent.policy_max": 0.014835357666015625, "timer/dataset_count": 732.0, "timer/dataset_total": 0.05910325050354004, "timer/dataset_frac": 0.00019692542499525294, "timer/dataset_avg": 8.07421454966394e-05, "timer/dataset_min": 5.984306335449219e-05, "timer/dataset_max": 0.00014257431030273438, "timer/agent.train_count": 732.0, "timer/agent.train_total": 271.7916383743286, "timer/agent.train_frac": 0.9055793622351612, "timer/agent.train_avg": 0.3713000524239462, "timer/agent.train_min": 0.36449217796325684, "timer/agent.train_max": 0.385359525680542, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2194688320159912, "timer/agent.report_frac": 0.0007312456193144945, "timer/agent.report_avg": 0.2194688320159912, "timer/agent.report_min": 0.2194688320159912, "timer/agent.report_max": 0.2194688320159912, "fps": 4.877788644111757}
{"step": 979380, "episode/length": 245.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.052845528455284556}
{"step": 979557, "episode/length": 176.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.07344632768361582}
{"step": 979743, "episode/length": 185.0, "episode/score": 15.100000023841858, "episode/sum_abs_reward": 16.900000050663948, "episode/reward_rate": 0.08602150537634409}
{"step": 979966, "episode/length": 222.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.06726457399103139}
{"step": 980165, "episode/length": 198.0, "episode/score": 13.100000016391277, "episode/sum_abs_reward": 15.300000049173832, "episode/reward_rate": 0.07035175879396985}
{"step": 980408, "episode/length": 242.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.500000044703484, "episode/reward_rate": 0.06172839506172839}
{"step": 980448, "episode/length": 39.0, "episode/score": 1.1000000089406967, "episode/sum_abs_reward": 2.8999999910593033, "episode/reward_rate": 0.075}
{"step": 980615, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.400205800231074, "train/action_min": 0.0, "train/action_std": 3.2944657164560236, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03938706082777238, "train/actor_opt_grad_steps": 489400.0, "train/actor_opt_loss": -10.488432509798399, "train/adv_mag": 0.44105412380796083, "train/adv_max": 0.369358220570524, "train/adv_mean": 0.002608241912319397, "train/adv_min": -0.38656105478884467, "train/adv_std": 0.044456072728818574, "train/cont_avg": 0.9947458186619719, "train/cont_loss_mean": 0.00013219165276963471, "train/cont_loss_std": 0.004171074424870229, "train/cont_neg_acc": 0.9971830987594497, "train/cont_neg_loss": 0.020541444465848914, "train/cont_pos_acc": 0.9999861633273918, "train/cont_pos_loss": 2.960296846295327e-05, "train/cont_pred": 0.9947515734484498, "train/cont_rate": 0.9947458186619719, "train/dyn_loss_mean": 5.624087152346759, "train/dyn_loss_std": 8.92636934468444, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9602059092320187, "train/extr_critic_critic_opt_grad_steps": 489400.0, "train/extr_critic_critic_opt_loss": 15485.099746919013, "train/extr_critic_mag": 12.324677453914159, "train/extr_critic_max": 12.324677453914159, "train/extr_critic_mean": 4.07930382876329, "train/extr_critic_min": -0.3443845510482788, "train/extr_critic_std": 2.990888894443781, "train/extr_return_normed_mag": 1.3726604454953906, "train/extr_return_normed_max": 1.3726604454953906, "train/extr_return_normed_mean": 0.4236598144954359, "train/extr_return_normed_min": -0.08128483430810378, "train/extr_return_normed_std": 0.318037726509739, "train/extr_return_rate": 0.8756831817223992, "train/extr_return_raw_mag": 13.114930757334534, "train/extr_return_raw_max": 13.114930757334534, "train/extr_return_raw_mean": 4.1040764895963, "train/extr_return_raw_min": -0.6899799251220595, "train/extr_return_raw_std": 3.0196650934890963, "train/extr_reward_mag": 1.0699481796210921, "train/extr_reward_max": 1.0699481796210921, "train/extr_reward_mean": 0.0654693318819496, "train/extr_reward_min": -0.6149641728736985, "train/extr_reward_std": 0.24543433374082538, "train/image_loss_mean": 3.2783489714206104, "train/image_loss_std": 8.317999470401817, "train/model_loss_mean": 6.711122170300551, "train/model_loss_std": 12.494130107718455, "train/model_opt_grad_norm": 24.190700665326187, "train/model_opt_grad_steps": 489000.0281690141, "train/model_opt_loss": 16777.805320202464, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.671140667418359, "train/policy_entropy_max": 2.671140667418359, "train/policy_entropy_mean": 0.3718156399021686, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5694798205939817, "train/policy_logprob_mag": 7.438384277719847, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3721266103462434, "train/policy_logprob_min": -7.438384277719847, "train/policy_logprob_std": 1.0060006976127625, "train/policy_randomness_mag": 0.9427954361472332, "train/policy_randomness_max": 0.9427954361472332, "train/policy_randomness_mean": 0.13123460166471104, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20100138262963632, "train/post_ent_mag": 55.680568909980884, "train/post_ent_max": 55.680568909980884, "train/post_ent_mean": 40.20117235855317, "train/post_ent_min": 19.916801022811676, "train/post_ent_std": 5.7351303772187565, "train/prior_ent_mag": 76.75983955490757, "train/prior_ent_max": 76.75983955490757, "train/prior_ent_mean": 45.79022523047219, "train/prior_ent_min": 27.670664182851013, "train/prior_ent_std": 7.896998868861669, "train/rep_loss_mean": 5.624087152346759, "train/rep_loss_std": 8.92636934468444, "train/reward_avg": 0.04412136817167343, "train/reward_loss_mean": 0.05818871193578545, "train/reward_loss_std": 0.21667065901655547, "train/reward_max_data": 1.0239436676804448, "train/reward_max_pred": 1.0227306527151188, "train/reward_neg_acc": 0.9937239902120241, "train/reward_neg_loss": 0.023993364469686026, "train/reward_pos_acc": 0.9897902901743499, "train/reward_pos_loss": 0.728087132245722, "train/reward_pred": 0.04365742117376395, "train/reward_rate": 0.04864931778169014, "stats/sum_log_reward": 11.671428901808602, "stats/max_log_achievement_collect_coal": 0.42857142857142855, "stats/max_log_achievement_collect_drink": 1.8571428571428572, "stats/max_log_achievement_collect_iron": 0.14285714285714285, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 13.857142857142858, "stats/max_log_achievement_collect_wood": 12.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.2857142857142858, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_stone_sword": 0.5714285714285714, "stats/max_log_achievement_make_wood_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 2.0, "stats/max_log_achievement_place_table": 3.4285714285714284, "stats/max_log_achievement_wake_up": 0.8571428571428571, "stats/mean_log_entropy": 0.310232404087271, "replay/size": 980552.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.3516790613781805e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2879098593855703e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.23807883262634, "timer/env.step_count": 1432.0, "timer/env.step_total": 20.817672967910767, "timer/env.step_frac": 0.06933721748038492, "timer/env.step_avg": 0.014537481122842715, "timer/env.step_min": 0.002876758575439453, "timer/env.step_max": 2.3062174320220947, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.2603335380554199, "timer/replay.add_frac": 0.0008670903406644432, "timer/replay.add_avg": 0.0001817971634465223, "timer/replay.add_min": 6.985664367675781e-05, "timer/replay.add_max": 0.004674434661865234, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024257659912109375, "timer/logger.write_frac": 8.079474797609629e-05, "timer/logger.write_avg": 0.024257659912109375, "timer/logger.write_min": 0.024257659912109375, "timer/logger.write_max": 0.024257659912109375, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004353523254394531, "timer/checkpoint.save_frac": 1.4500236849775104e-06, "timer/checkpoint.save_avg": 0.0004353523254394531, "timer/checkpoint.save_min": 0.0004353523254394531, "timer/checkpoint.save_max": 0.0004353523254394531, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.446669340133667, "timer/agent.save_frac": 0.00481840726452337, "timer/agent.save_avg": 1.446669340133667, "timer/agent.save_min": 1.446669340133667, "timer/agent.save_max": 1.446669340133667, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.00010371208190917969, "timer/replay.save_frac": 3.4543280556693154e-07, "timer/replay.save_avg": 0.00010371208190917969, "timer/replay.save_min": 0.00010371208190917969, "timer/replay.save_max": 0.00010371208190917969, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 12.184180736541748, "timer/agent.policy_frac": 0.04058173028523161, "timer/agent.policy_avg": 0.008508506100936975, "timer/agent.policy_min": 0.005769014358520508, "timer/agent.policy_max": 1.079944133758545, "timer/dataset_count": 716.0, "timer/dataset_total": 0.058284759521484375, "timer/dataset_frac": 0.00019412847213819392, "timer/dataset_avg": 8.140329542106757e-05, "timer/dataset_min": 6.008148193359375e-05, "timer/dataset_max": 0.00016307830810546875, "timer/agent.train_count": 716.0, "timer/agent.train_total": 266.23988699913025, "timer/agent.train_frac": 0.8867625586811423, "timer/agent.train_avg": 0.37184341759655065, "timer/agent.train_min": 0.3653695583343506, "timer/agent.train_max": 0.6007580757141113, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21781516075134277, "timer/agent.report_frac": 0.0007254748018580553, "timer/agent.report_avg": 0.21781516075134277, "timer/agent.report_min": 0.21781516075134277, "timer/agent.report_max": 0.21781516075134277, "fps": 4.769469312199413}
{"step": 980622, "episode/length": 173.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 15.100000008940697, "episode/reward_rate": 0.08045977011494253}
{"step": 980859, "episode/length": 236.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.700000002980232, "episode/reward_rate": 0.06751054852320675}
{"step": 981063, "episode/length": 203.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.299999997019768, "episode/reward_rate": 0.049019607843137254}
{"step": 981277, "episode/length": 213.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.5, "episode/reward_rate": 0.07009345794392523}
{"step": 981466, "episode/length": 188.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.07407407407407407}
{"step": 981624, "episode/length": 157.0, "episode/score": 13.100000038743019, "episode/sum_abs_reward": 14.700000062584877, "episode/reward_rate": 0.08860759493670886}
{"step": 981855, "episode/length": 230.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.05627705627705628}
{"step": 982069, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.406612030447346, "train/action_min": 0.0, "train/action_std": 3.292644690160882, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03924912068839759, "train/actor_opt_grad_steps": 490120.0, "train/actor_opt_loss": -10.962729424238205, "train/adv_mag": 0.4035384193675159, "train/adv_max": 0.34034804611989894, "train/adv_mean": 0.002105732940744057, "train/adv_min": -0.36158742602557353, "train/adv_std": 0.04386738927601135, "train/cont_avg": 0.9945285744863014, "train/cont_loss_mean": 0.00019250713521094904, "train/cont_loss_std": 0.006083864126052604, "train/cont_neg_acc": 0.9960045667543803, "train/cont_neg_loss": 0.027995906188766326, "train/cont_pos_acc": 0.9999999771379444, "train/cont_pos_loss": 2.5109976750558235e-05, "train/cont_pred": 0.9945464664942598, "train/cont_rate": 0.9945285744863014, "train/dyn_loss_mean": 5.5898559322095895, "train/dyn_loss_std": 8.871569607355823, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9037834993780476, "train/extr_critic_critic_opt_grad_steps": 490120.0, "train/extr_critic_critic_opt_loss": 15446.083061322774, "train/extr_critic_mag": 12.438154899910705, "train/extr_critic_max": 12.438154899910705, "train/extr_critic_mean": 4.056540538186896, "train/extr_critic_min": -0.33910315820615583, "train/extr_critic_std": 2.993611322690363, "train/extr_return_normed_mag": 1.3613889348017025, "train/extr_return_normed_max": 1.3613889348017025, "train/extr_return_normed_mean": 0.418672162376038, "train/extr_return_normed_min": -0.07543232455237271, "train/extr_return_normed_std": 0.31610718512371794, "train/extr_return_rate": 0.8788046248971599, "train/extr_return_raw_mag": 13.086440334581349, "train/extr_return_raw_max": 13.086440334581349, "train/extr_return_raw_mean": 4.0766671912310875, "train/extr_return_raw_min": -0.6455375409289582, "train/extr_return_raw_std": 3.0211687022692537, "train/extr_reward_mag": 1.080751951426676, "train/extr_reward_max": 1.080751951426676, "train/extr_reward_mean": 0.06340909514525166, "train/extr_reward_min": -0.5792016035889926, "train/extr_reward_std": 0.24194648739409774, "train/image_loss_mean": 3.14926825320884, "train/image_loss_std": 8.1009967359778, "train/model_loss_mean": 6.563236393340646, "train/model_loss_std": 12.257082508034902, "train/model_opt_grad_norm": 24.684585767249537, "train/model_opt_grad_steps": 489719.4246575342, "train/model_opt_loss": 16408.090967465752, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.67829430919804, "train/policy_entropy_max": 2.67829430919804, "train/policy_entropy_mean": 0.3758159534980173, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5748752800569142, "train/policy_logprob_mag": 7.438384278179848, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3748775120467356, "train/policy_logprob_min": -7.438384278179848, "train/policy_logprob_std": 1.0034275316212276, "train/policy_randomness_mag": 0.9453203588315885, "train/policy_randomness_max": 0.9453203588315885, "train/policy_randomness_mean": 0.13264653882751726, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20290574696782518, "train/post_ent_mag": 55.12278146613134, "train/post_ent_max": 55.12278146613134, "train/post_ent_mean": 40.313702047687684, "train/post_ent_min": 19.574648007954636, "train/post_ent_std": 5.79415376219031, "train/prior_ent_mag": 76.72062066483171, "train/prior_ent_max": 76.72062066483171, "train/prior_ent_mean": 45.88107843268408, "train/prior_ent_min": 27.935250791784835, "train/prior_ent_std": 7.798652910206416, "train/rep_loss_mean": 5.5898559322095895, "train/rep_loss_std": 8.871569607355823, "train/reward_avg": 0.04395200108012108, "train/reward_loss_mean": 0.059862060548916254, "train/reward_loss_std": 0.21859905021647885, "train/reward_max_data": 1.035616446847785, "train/reward_max_pred": 1.0317240953445435, "train/reward_neg_acc": 0.9938682440209062, "train/reward_neg_loss": 0.025905602037498397, "train/reward_pos_acc": 0.9912932604959567, "train/reward_pos_loss": 0.7254313099874209, "train/reward_pred": 0.043542980816062185, "train/reward_rate": 0.04868097174657534, "stats/sum_log_reward": 12.242857524326869, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 2.7142857142857144, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 11.857142857142858, "stats/max_log_achievement_collect_wood": 14.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.4285714285714286, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2857142857142858, "stats/max_log_achievement_place_furnace": 1.1428571428571428, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 2.7142857142857144, "stats/max_log_achievement_place_table": 3.5714285714285716, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.3835910941873278, "replay/size": 982006.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.336712287577507e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3106872815705395e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2611165046692, "timer/env.step_count": 1454.0, "timer/env.step_total": 18.67510461807251, "timer/env.step_frac": 0.062196213867012996, "timer/env.step_avg": 0.012843950906514794, "timer/env.step_min": 0.002775907516479492, "timer/env.step_max": 1.5965087413787842, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.27287912368774414, "timer/replay.add_frac": 0.0009088060647489824, "timer/replay.add_avg": 0.00018767477557616515, "timer/replay.add_min": 6.747245788574219e-05, "timer/replay.add_max": 0.003918886184692383, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023235321044921875, "timer/logger.write_frac": 7.738371626470841e-05, "timer/logger.write_avg": 0.023235321044921875, "timer/logger.write_min": 0.023235321044921875, "timer/logger.write_max": 0.023235321044921875, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 10.626582622528076, "timer/agent.policy_frac": 0.03539113804088858, "timer/agent.policy_avg": 0.00730851624658052, "timer/agent.policy_min": 0.0058782100677490234, "timer/agent.policy_max": 0.014616012573242188, "timer/dataset_count": 727.0, "timer/dataset_total": 0.05941414833068848, "timer/dataset_frac": 0.00019787493306601544, "timer/dataset_avg": 8.172510086752197e-05, "timer/dataset_min": 5.91278076171875e-05, "timer/dataset_max": 0.00016617774963378906, "timer/agent.train_count": 727.0, "timer/agent.train_total": 269.9423477649689, "timer/agent.train_frac": 0.8990253247152338, "timer/agent.train_avg": 0.371309969415363, "timer/agent.train_min": 0.3627753257751465, "timer/agent.train_max": 0.38525390625, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2216048240661621, "timer/agent.report_frac": 0.0007380403651523625, "timer/agent.report_avg": 0.2216048240661621, "timer/agent.report_min": 0.2216048240661621, "timer/agent.report_max": 0.2216048240661621, "fps": 4.842392012624818}
{"step": 982097, "episode/length": 241.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.06198347107438017}
{"step": 982356, "episode/length": 258.0, "episode/score": 16.100000001490116, "episode/sum_abs_reward": 18.10000003129244, "episode/reward_rate": 0.06563706563706563}
{"step": 982557, "episode/length": 200.0, "episode/score": 15.100000008940697, "episode/sum_abs_reward": 18.300000056624413, "episode/reward_rate": 0.07960199004975124}
{"step": 982606, "episode/length": 48.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.08163265306122448}
{"step": 982811, "episode/length": 204.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.05853658536585366}
{"step": 983142, "episode/length": 330.0, "episode/score": 14.099999979138374, "episode/sum_abs_reward": 16.700000032782555, "episode/reward_rate": 0.045317220543806644}
{"step": 983345, "episode/length": 202.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 17.10000005364418, "episode/reward_rate": 0.07389162561576355}
{"step": 983519, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.403291049068922, "train/action_min": 0.0, "train/action_std": 3.2579536895229393, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038282922660447145, "train/actor_opt_grad_steps": 490850.0, "train/actor_opt_loss": -12.639450972210872, "train/adv_mag": 0.4011659093507349, "train/adv_max": 0.32559523108887345, "train/adv_mean": 0.0012797563720421947, "train/adv_min": -0.36201712387065366, "train/adv_std": 0.042432968083718055, "train/cont_avg": 0.9952242080479452, "train/cont_loss_mean": 0.00011980829611679829, "train/cont_loss_std": 0.0038011303022665913, "train/cont_neg_acc": 0.9953033279066217, "train/cont_neg_loss": 0.018026688418532003, "train/cont_pos_acc": 0.9999999812204544, "train/cont_pos_loss": 1.7902943994110815e-05, "train/cont_pred": 0.9952444230040459, "train/cont_rate": 0.9952242080479452, "train/dyn_loss_mean": 5.546471732936493, "train/dyn_loss_std": 8.85804071165111, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9009784010991658, "train/extr_critic_critic_opt_grad_steps": 490850.0, "train/extr_critic_critic_opt_loss": 15330.054139019692, "train/extr_critic_mag": 12.315882761184483, "train/extr_critic_max": 12.315882761184483, "train/extr_critic_mean": 3.9588260095413417, "train/extr_critic_min": -0.3285947074628856, "train/extr_critic_std": 2.9235731575587023, "train/extr_return_normed_mag": 1.365977310154536, "train/extr_return_normed_max": 1.365977310154536, "train/extr_return_normed_mean": 0.4095349524119129, "train/extr_return_normed_min": -0.08238695857867803, "train/extr_return_normed_std": 0.31092240794064246, "train/extr_return_rate": 0.8801851876794475, "train/extr_return_raw_mag": 13.038380270134914, "train/extr_return_raw_max": 13.038380270134914, "train/extr_return_raw_mean": 3.970979445601163, "train/extr_return_raw_min": -0.6937654373580462, "train/extr_return_raw_std": 2.9482814808414406, "train/extr_reward_mag": 1.076009557671743, "train/extr_reward_max": 1.076009557671743, "train/extr_reward_mean": 0.060968543466639845, "train/extr_reward_min": -0.6205449577880232, "train/extr_reward_std": 0.2370374219058311, "train/image_loss_mean": 3.226497366003794, "train/image_loss_std": 8.34243985398175, "train/model_loss_mean": 6.612198058873007, "train/model_loss_std": 12.450157988561342, "train/model_opt_grad_norm": 22.41284263297303, "train/model_opt_grad_steps": 490448.94520547945, "train/model_opt_loss": 18992.937714041094, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2876.7123287671234, "train/policy_entropy_mag": 2.6622961612596905, "train/policy_entropy_max": 2.6622961612596905, "train/policy_entropy_mean": 0.3863874437057809, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5910602942721485, "train/policy_logprob_mag": 7.438384304307911, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.386893459991233, "train/policy_logprob_min": -7.438384304307911, "train/policy_logprob_std": 1.0160973537458133, "train/policy_randomness_mag": 0.9396737152582979, "train/policy_randomness_max": 0.9396737152582979, "train/policy_randomness_mean": 0.136377812146324, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20861834736719523, "train/post_ent_mag": 55.2411750375408, "train/post_ent_max": 55.2411750375408, "train/post_ent_mean": 40.26552341408925, "train/post_ent_min": 19.306084711257725, "train/post_ent_std": 5.78121495573488, "train/prior_ent_mag": 76.75924212312046, "train/prior_ent_max": 76.75924212312046, "train/prior_ent_mean": 45.79727005631956, "train/prior_ent_min": 27.889341615650753, "train/prior_ent_std": 7.759813086627281, "train/rep_loss_mean": 5.546471732936493, "train/rep_loss_std": 8.85804071165111, "train/reward_avg": 0.04247913101356324, "train/reward_loss_mean": 0.05769783850402048, "train/reward_loss_std": 0.2166193043940688, "train/reward_max_data": 1.026027403465689, "train/reward_max_pred": 1.0243005785223556, "train/reward_neg_acc": 0.992925812120307, "train/reward_neg_loss": 0.02493204852591639, "train/reward_pos_acc": 0.9875570225389037, "train/reward_pos_loss": 0.7262228898806115, "train/reward_pred": 0.04227802200778706, "train/reward_rate": 0.04678135702054795, "stats/sum_log_reward": 12.528571503502983, "stats/max_log_achievement_collect_coal": 1.4285714285714286, "stats/max_log_achievement_collect_drink": 2.5714285714285716, "stats/max_log_achievement_collect_iron": 0.2857142857142857, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 15.571428571428571, "stats/max_log_achievement_collect_wood": 14.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.2857142857142857, "stats/max_log_achievement_defeat_zombie": 1.1428571428571428, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.2857142857142858, "stats/max_log_achievement_make_stone_sword": 1.1428571428571428, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 2.142857142857143, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 3.2857142857142856, "stats/max_log_achievement_place_table": 3.857142857142857, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.41071428784302305, "replay/size": 983456.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.304481506347656e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2972437102219154e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0369665622711, "timer/env.step_count": 1450.0, "timer/env.step_total": 19.277465105056763, "timer/env.step_frac": 0.06425029997447272, "timer/env.step_avg": 0.013294803520728801, "timer/env.step_min": 0.0028493404388427734, "timer/env.step_max": 1.6660995483398438, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.2549412250518799, "timer/replay.add_frac": 0.0008496993819558836, "timer/replay.add_avg": 0.00017582153451853785, "timer/replay.add_min": 6.079673767089844e-05, "timer/replay.add_max": 0.002390623092651367, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.020982027053833008, "timer/logger.write_frac": 6.993147309226078e-05, "timer/logger.write_avg": 0.020982027053833008, "timer/logger.write_min": 0.020982027053833008, "timer/logger.write_max": 0.020982027053833008, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 10.657697677612305, "timer/agent.policy_frac": 0.03552128192644007, "timer/agent.policy_avg": 0.007350136329387797, "timer/agent.policy_min": 0.00572514533996582, "timer/agent.policy_max": 0.017130136489868164, "timer/dataset_count": 725.0, "timer/dataset_total": 0.058408498764038086, "timer/dataset_frac": 0.00019467100815364263, "timer/dataset_avg": 8.056344657108702e-05, "timer/dataset_min": 5.817413330078125e-05, "timer/dataset_max": 0.00013780593872070312, "timer/agent.train_count": 725.0, "timer/agent.train_total": 269.10589838027954, "timer/agent.train_frac": 0.8969091424420464, "timer/agent.train_avg": 0.37118054949004076, "timer/agent.train_min": 0.36522769927978516, "timer/agent.train_max": 0.3839528560638428, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21978330612182617, "timer/agent.report_frac": 0.0007325207578253904, "timer/agent.report_avg": 0.21978330612182617, "timer/agent.report_min": 0.21978330612182617, "timer/agent.report_max": 0.21978330612182617, "fps": 4.832632974953534}
{"step": 983520, "episode/length": 174.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.07428571428571429}
{"step": 983677, "episode/length": 156.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.08280254777070063}
{"step": 983910, "episode/length": 232.0, "episode/score": 12.100000031292439, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.060085836909871244}
{"step": 984209, "episode/length": 298.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.043478260869565216}
{"step": 984384, "episode/length": 174.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.500000044703484, "episode/reward_rate": 0.08}
{"step": 984631, "episode/length": 246.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.05668016194331984}
{"step": 984689, "episode/length": 57.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.10344827586206896}
{"step": 984729, "episode/length": 39.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.2}
{"step": 984920, "episode/length": 190.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.07329842931937172}
{"step": 984935, "stats/sum_log_reward": 11.100000116560194, "stats/max_log_achievement_collect_coal": 1.2222222222222223, "stats/max_log_achievement_collect_drink": 6.555555555555555, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5555555555555556, "stats/max_log_achievement_collect_stone": 10.555555555555555, "stats/max_log_achievement_collect_wood": 10.777777777777779, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.1111111111111111, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.1111111111111112, "stats/max_log_achievement_make_stone_sword": 0.4444444444444444, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8888888888888888, "stats/max_log_achievement_place_furnace": 1.2222222222222223, "stats/max_log_achievement_place_plant": 1.4444444444444444, "stats/max_log_achievement_place_stone": 2.888888888888889, "stats/max_log_achievement_place_table": 2.7777777777777777, "stats/max_log_achievement_wake_up": 0.7777777777777778, "stats/mean_log_entropy": 0.35463008946842617, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4384033203125, "train/action_min": 0.0, "train/action_std": 3.318134491784232, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03917499958936657, "train/actor_opt_grad_steps": 491565.0, "train/actor_opt_loss": -11.65792864390782, "train/adv_mag": 0.43541298764092584, "train/adv_max": 0.3656570819871766, "train/adv_mean": 0.0025806106964799775, "train/adv_min": -0.3885760458452361, "train/adv_std": 0.044139526039361957, "train/cont_avg": 0.9951590401785714, "train/cont_loss_mean": 1.5749829889522006e-05, "train/cont_loss_std": 0.0004646238593475159, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00011915106741672129, "train/cont_pos_acc": 0.9999999863760812, "train/cont_pos_loss": 1.5214462185131339e-05, "train/cont_pred": 0.9951459790979112, "train/cont_rate": 0.9951590401785714, "train/dyn_loss_mean": 5.5267171451023644, "train/dyn_loss_std": 8.895105007716587, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9427725536482675, "train/extr_critic_critic_opt_grad_steps": 491565.0, "train/extr_critic_critic_opt_loss": 15401.016350446429, "train/extr_critic_mag": 12.351729883466447, "train/extr_critic_max": 12.351729883466447, "train/extr_critic_mean": 4.018110827037266, "train/extr_critic_min": -0.3390348809106009, "train/extr_critic_std": 2.8844895907810755, "train/extr_return_normed_mag": 1.3673871687480381, "train/extr_return_normed_max": 1.3673871687480381, "train/extr_return_normed_mean": 0.41470292104142054, "train/extr_return_normed_min": -0.07823080755770206, "train/extr_return_normed_std": 0.3064383464200156, "train/extr_return_rate": 0.8867885504450117, "train/extr_return_raw_mag": 13.100389426095145, "train/extr_return_raw_max": 13.100389426095145, "train/extr_return_raw_mean": 4.042651384217399, "train/extr_return_raw_min": -0.6439468541315624, "train/extr_return_raw_std": 2.913691828932081, "train/extr_reward_mag": 1.0759060076304845, "train/extr_reward_max": 1.0759060076304845, "train/extr_reward_mean": 0.06300877577492169, "train/extr_reward_min": -0.5565379500389099, "train/extr_reward_std": 0.24082815519401005, "train/image_loss_mean": 3.0869498338018144, "train/image_loss_std": 8.293473557063512, "train/model_loss_mean": 6.461687401362828, "train/model_loss_std": 12.449471269335065, "train/model_opt_grad_norm": 22.77332011631557, "train/model_opt_grad_steps": 491163.0, "train/model_opt_loss": 16154.218512834821, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6755227838243756, "train/policy_entropy_max": 2.6755227838243756, "train/policy_entropy_mean": 0.3821122075830187, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.585407121692385, "train/policy_logprob_mag": 7.438384233202253, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3823324978351593, "train/policy_logprob_min": -7.438384233202253, "train/policy_logprob_std": 1.0132002668721336, "train/policy_randomness_mag": 0.9443421304225922, "train/policy_randomness_max": 0.9443421304225922, "train/policy_randomness_mean": 0.1348688408732414, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20662302247115544, "train/post_ent_mag": 55.64205649239676, "train/post_ent_max": 55.64205649239676, "train/post_ent_mean": 40.14754818507603, "train/post_ent_min": 19.462565653664726, "train/post_ent_std": 5.821170248304095, "train/prior_ent_mag": 76.80999941144671, "train/prior_ent_max": 76.80999941144671, "train/prior_ent_mean": 45.65893472943987, "train/prior_ent_min": 27.47755573817662, "train/prior_ent_std": 7.856287050247192, "train/rep_loss_mean": 5.5267171451023644, "train/rep_loss_std": 8.895105007716587, "train/reward_avg": 0.04419224280864, "train/reward_loss_mean": 0.0586916057659047, "train/reward_loss_std": 0.2179815566965512, "train/reward_max_data": 1.0271428636142186, "train/reward_max_pred": 1.0291135157857623, "train/reward_neg_acc": 0.9935034581593105, "train/reward_neg_loss": 0.024602968698101385, "train/reward_pos_acc": 0.9875373780727387, "train/reward_pos_loss": 0.7281132910932814, "train/reward_pred": 0.04372445017631565, "train/reward_rate": 0.048507254464285714, "replay/size": 984872.0, "replay/inserts": 1416.0, "replay/samples": 11328.0, "replay/insert_wait_avg": 3.4082407331736075e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2903395345655537e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2485148906708, "timer/env.step_count": 1416.0, "timer/env.step_total": 23.631722927093506, "timer/env.step_frac": 0.07870721004464752, "timer/env.step_avg": 0.0166890698637666, "timer/env.step_min": 0.0028564929962158203, "timer/env.step_max": 1.8262965679168701, "timer/replay.add_count": 1416.0, "timer/replay.add_total": 0.2933506965637207, "timer/replay.add_frac": 0.0009770263032626097, "timer/replay.add_avg": 0.00020716857101957676, "timer/replay.add_min": 7.367134094238281e-05, "timer/replay.add_max": 0.004413127899169922, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029934406280517578, "timer/logger.write_frac": 9.969876550902364e-05, "timer/logger.write_avg": 0.029934406280517578, "timer/logger.write_min": 0.029934406280517578, "timer/logger.write_max": 0.029934406280517578, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0001895427703857422, "timer/checkpoint.save_frac": 6.312862878098172e-07, "timer/checkpoint.save_avg": 0.0001895427703857422, "timer/checkpoint.save_min": 0.0001895427703857422, "timer/checkpoint.save_max": 0.0001895427703857422, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1727371215820312, "timer/agent.save_frac": 0.003905888167370483, "timer/agent.save_avg": 1.1727371215820312, "timer/agent.save_min": 1.1727371215820312, "timer/agent.save_max": 1.1727371215820312, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.296966552734375e-05, "timer/replay.save_frac": 2.763366391922219e-07, "timer/replay.save_avg": 8.296966552734375e-05, "timer/replay.save_min": 8.296966552734375e-05, "timer/replay.save_max": 8.296966552734375e-05, "timer/agent.policy_count": 1416.0, "timer/agent.policy_total": 12.151593208312988, "timer/agent.policy_frac": 0.04047178455732824, "timer/agent.policy_avg": 0.008581633621689963, "timer/agent.policy_min": 0.005738019943237305, "timer/agent.policy_max": 1.1669294834136963, "timer/dataset_count": 708.0, "timer/dataset_total": 0.05788874626159668, "timer/dataset_frac": 0.00019280277300514094, "timer/dataset_avg": 8.176376590621e-05, "timer/dataset_min": 6.079673767089844e-05, "timer/dataset_max": 0.000152587890625, "timer/agent.train_count": 708.0, "timer/agent.train_total": 263.41243624687195, "timer/agent.train_frac": 0.8773147015990673, "timer/agent.train_avg": 0.3720514636255253, "timer/agent.train_min": 0.36457204818725586, "timer/agent.train_max": 0.8559811115264893, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21955418586730957, "timer/agent.report_frac": 0.0007312415381879762, "timer/agent.report_avg": 0.21955418586730957, "timer/agent.report_min": 0.21955418586730957, "timer/agent.report_max": 0.21955418586730957, "fps": 4.715989701645589}
{"step": 985109, "episode/length": 188.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.07936507936507936}
{"step": 985265, "episode/length": 155.0, "episode/score": 12.100000031292439, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.08974358974358974}
{"step": 985469, "episode/length": 203.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.07352941176470588}
{"step": 985634, "episode/length": 164.0, "episode/score": 10.099999979138374, "episode/sum_abs_reward": 11.900000020861626, "episode/reward_rate": 0.06666666666666667}
{"step": 985842, "episode/length": 207.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.07211538461538461}
{"step": 985986, "episode/length": 143.0, "episode/score": 12.099999979138374, "episode/sum_abs_reward": 13.299999997019768, "episode/reward_rate": 0.09027777777777778}
{"step": 986154, "episode/length": 167.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.07738095238095238}
{"step": 986373, "episode/length": 218.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.0639269406392694}
{"step": 986375, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.472684224446614, "train/action_min": 0.0, "train/action_std": 3.3384350505140095, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03763873365500735, "train/actor_opt_grad_steps": 492275.0, "train/actor_opt_loss": -12.752324910627472, "train/adv_mag": 0.39269237716992694, "train/adv_max": 0.3401765790250566, "train/adv_mean": 0.0014126378922456853, "train/adv_min": -0.3410887881699536, "train/adv_std": 0.04261391832389765, "train/cont_avg": 0.9953748914930556, "train/cont_loss_mean": 2.5714610358286273e-05, "train/cont_loss_std": 0.0007565999771688641, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0024296369352355563, "train/cont_pos_acc": 0.9999999809596274, "train/cont_pos_loss": 1.5366952655742556e-05, "train/cont_pred": 0.9953691959381104, "train/cont_rate": 0.9953748914930556, "train/dyn_loss_mean": 5.56855360004637, "train/dyn_loss_std": 8.896661308076647, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9103906510604752, "train/extr_critic_critic_opt_grad_steps": 492275.0, "train/extr_critic_critic_opt_loss": 15352.16295030382, "train/extr_critic_mag": 12.294882827334934, "train/extr_critic_max": 12.294882827334934, "train/extr_critic_mean": 3.908969316217634, "train/extr_critic_min": -0.4128822005457348, "train/extr_critic_std": 2.9041395816538067, "train/extr_return_normed_mag": 1.3717543300655153, "train/extr_return_normed_max": 1.3717543300655153, "train/extr_return_normed_mean": 0.4061327597333325, "train/extr_return_normed_min": -0.0822722044152518, "train/extr_return_normed_std": 0.3079368496934573, "train/extr_return_rate": 0.8678006049659517, "train/extr_return_raw_mag": 13.110088692771065, "train/extr_return_raw_max": 13.110088692771065, "train/extr_return_raw_mean": 3.9224655760659113, "train/extr_return_raw_min": -0.7251435750060611, "train/extr_return_raw_std": 2.930859350495868, "train/extr_reward_mag": 1.0746180481380887, "train/extr_reward_max": 1.0746180481380887, "train/extr_reward_mean": 0.06042735351042615, "train/extr_reward_min": -0.6013392325904634, "train/extr_reward_std": 0.23687677933937973, "train/image_loss_mean": 3.1939172413614063, "train/image_loss_std": 8.461001978980171, "train/model_loss_mean": 6.591513064172533, "train/model_loss_std": 12.655205567677816, "train/model_opt_grad_norm": 20.920868027378138, "train/model_opt_grad_steps": 491872.375, "train/model_opt_loss": 16942.898342556422, "train/model_opt_model_opt_grad_overflow": 0.013888888888888888, "train/model_opt_model_opt_grad_scale": 2534.722222222222, "train/policy_entropy_mag": 2.6684286759959326, "train/policy_entropy_max": 2.6684286759959326, "train/policy_entropy_mean": 0.3986973845296436, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5993384143544568, "train/policy_logprob_mag": 7.438384307755364, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3980264353255431, "train/policy_logprob_min": -7.438384307755364, "train/policy_logprob_std": 1.0252067314253912, "train/policy_randomness_mag": 0.9418382239010599, "train/policy_randomness_max": 0.9418382239010599, "train/policy_randomness_mean": 0.14072267938819197, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21154016059719855, "train/post_ent_mag": 55.73878765106201, "train/post_ent_max": 55.73878765106201, "train/post_ent_mean": 40.392531130048965, "train/post_ent_min": 19.648751921123928, "train/post_ent_std": 5.799397296375698, "train/prior_ent_mag": 76.82731776767307, "train/prior_ent_max": 76.82731776767307, "train/prior_ent_mean": 45.941163539886475, "train/prior_ent_min": 27.71437629063924, "train/prior_ent_std": 7.8183881640434265, "train/rep_loss_mean": 5.56855360004637, "train/rep_loss_std": 8.896661308076647, "train/reward_avg": 0.0416720918017543, "train/reward_loss_mean": 0.05643797981449299, "train/reward_loss_std": 0.20991060530973804, "train/reward_max_data": 1.0250000059604645, "train/reward_max_pred": 1.0264649093151093, "train/reward_neg_acc": 0.9935604830582937, "train/reward_neg_loss": 0.024201862268253334, "train/reward_pos_acc": 0.9902201162444221, "train/reward_pos_loss": 0.7238429420524173, "train/reward_pred": 0.041394244543173246, "train/reward_rate": 0.04600694444444445, "stats/sum_log_reward": 12.725000381469727, "stats/max_log_achievement_collect_coal": 1.5, "stats/max_log_achievement_collect_drink": 1.75, "stats/max_log_achievement_collect_iron": 0.25, "stats/max_log_achievement_collect_sapling": 3.125, "stats/max_log_achievement_collect_stone": 11.375, "stats/max_log_achievement_collect_wood": 11.625, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.375, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.75, "stats/max_log_achievement_make_stone_sword": 0.875, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.125, "stats/max_log_achievement_place_furnace": 1.25, "stats/max_log_achievement_place_plant": 2.75, "stats/max_log_achievement_place_stone": 2.875, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.125, "stats/mean_log_entropy": 0.31212984025478363, "replay/size": 986312.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.3448139826456706e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.333095133304596e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.04307746887207, "timer/env.step_count": 1440.0, "timer/env.step_total": 20.611185550689697, "timer/env.step_frac": 0.06869408794418196, "timer/env.step_avg": 0.014313323299090068, "timer/env.step_min": 0.0029096603393554688, "timer/env.step_max": 1.588531494140625, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.2571141719818115, "timer/replay.add_frac": 0.0008569241928552269, "timer/replay.add_avg": 0.00017855150832070244, "timer/replay.add_min": 6.198883056640625e-05, "timer/replay.add_max": 0.0008785724639892578, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03149843215942383, "timer/logger.write_frac": 0.0001049796996655976, "timer/logger.write_avg": 0.03149843215942383, "timer/logger.write_min": 0.03149843215942383, "timer/logger.write_max": 0.03149843215942383, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 10.637981176376343, "timer/agent.policy_frac": 0.0354548462378039, "timer/agent.policy_avg": 0.007387486928039127, "timer/agent.policy_min": 0.005840778350830078, "timer/agent.policy_max": 0.01678919792175293, "timer/dataset_count": 720.0, "timer/dataset_total": 0.05741286277770996, "timer/dataset_frac": 0.00019134873319537343, "timer/dataset_avg": 7.974008719126383e-05, "timer/dataset_min": 5.8650970458984375e-05, "timer/dataset_max": 0.0001552104949951172, "timer/agent.train_count": 720.0, "timer/agent.train_total": 267.78881907463074, "timer/agent.train_frac": 0.8925012412673059, "timer/agent.train_avg": 0.3719289153814316, "timer/agent.train_min": 0.36510491371154785, "timer/agent.train_max": 0.3858633041381836, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2198176383972168, "timer/agent.report_frac": 0.0007326202632354407, "timer/agent.report_avg": 0.2198176383972168, "timer/agent.report_min": 0.2198176383972168, "timer/agent.report_max": 0.2198176383972168, "fps": 4.799231709448979}
{"step": 986680, "episode/length": 306.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 18.10000003129244, "episode/reward_rate": 0.05211726384364821}
{"step": 986866, "episode/length": 185.0, "episode/score": 13.100000038743019, "episode/sum_abs_reward": 14.700000062584877, "episode/reward_rate": 0.07526881720430108}
{"step": 987085, "episode/length": 218.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.30000003427267, "episode/reward_rate": 0.0684931506849315}
{"step": 987289, "episode/length": 203.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.07352941176470588}
{"step": 987593, "episode/length": 303.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.049342105263157895}
{"step": 987843, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4496567184860645, "train/action_min": 0.0, "train/action_std": 3.3042229575079842, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03723671481113981, "train/actor_opt_grad_steps": 493005.0, "train/actor_opt_loss": -11.78786061422245, "train/adv_mag": 0.4106877560953836, "train/adv_max": 0.3360483686666231, "train/adv_mean": 0.001881245937732495, "train/adv_min": -0.36656852529661077, "train/adv_std": 0.04242728544852218, "train/cont_avg": 0.9952095650337838, "train/cont_loss_mean": 1.2437263490758019e-05, "train/cont_loss_std": 0.0003359950477004445, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 2.133817920662607e-05, "train/cont_pos_acc": 0.9999999822797002, "train/cont_pos_loss": 1.24037389098809e-05, "train/cont_pred": 0.9951980589209376, "train/cont_rate": 0.9952095650337838, "train/dyn_loss_mean": 5.476614262606646, "train/dyn_loss_std": 8.845991637255695, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9104294164760692, "train/extr_critic_critic_opt_grad_steps": 493005.0, "train/extr_critic_critic_opt_loss": 15333.511613175675, "train/extr_critic_mag": 12.211096003248885, "train/extr_critic_max": 12.211096003248885, "train/extr_critic_mean": 3.952055689450857, "train/extr_critic_min": -0.3512058837993725, "train/extr_critic_std": 2.908235387222187, "train/extr_return_normed_mag": 1.3504162672403697, "train/extr_return_normed_max": 1.3504162672403697, "train/extr_return_normed_mean": 0.4116632654457479, "train/extr_return_normed_min": -0.07391446108954984, "train/extr_return_normed_std": 0.3073842559714575, "train/extr_return_rate": 0.8781373605534837, "train/extr_return_raw_mag": 12.93271981058894, "train/extr_return_raw_max": 12.93271981058894, "train/extr_return_raw_mean": 3.970031197006638, "train/extr_return_raw_min": -0.6658704337236043, "train/extr_return_raw_std": 2.934668830923132, "train/extr_reward_mag": 1.079691548605223, "train/extr_reward_max": 1.079691548605223, "train/extr_reward_mean": 0.06322647349254505, "train/extr_reward_min": -0.6255010672517725, "train/extr_reward_std": 0.24164988603946325, "train/image_loss_mean": 3.247333093269451, "train/image_loss_std": 8.468715377756068, "train/model_loss_mean": 6.591428241214237, "train/model_loss_std": 12.60095012510145, "train/model_opt_grad_norm": 22.51456220729931, "train/model_opt_grad_steps": 492601.5675675676, "train/model_opt_loss": 12934.921716638513, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1959.4594594594594, "train/policy_entropy_mag": 2.669811081241917, "train/policy_entropy_max": 2.669811081241917, "train/policy_entropy_mean": 0.3937127743218396, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5973728315250294, "train/policy_logprob_mag": 7.438384313841124, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3924924358725548, "train/policy_logprob_min": -7.438384313841124, "train/policy_logprob_std": 1.0201296508312225, "train/policy_randomness_mag": 0.9423261502304593, "train/policy_randomness_max": 0.9423261502304593, "train/policy_randomness_mean": 0.13896333063776428, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21084639309225855, "train/post_ent_mag": 54.982226964589714, "train/post_ent_max": 54.982226964589714, "train/post_ent_mean": 40.377025965097786, "train/post_ent_min": 19.598519621668636, "train/post_ent_std": 5.710677597973798, "train/prior_ent_mag": 76.75142288208008, "train/prior_ent_max": 76.75142288208008, "train/prior_ent_mean": 45.839231594188796, "train/prior_ent_min": 27.97047455246384, "train/prior_ent_std": 7.77844609440984, "train/rep_loss_mean": 5.476614262606646, "train/rep_loss_std": 8.845991637255695, "train/reward_avg": 0.04400997616451334, "train/reward_loss_mean": 0.058114198363713315, "train/reward_loss_std": 0.21823180285659996, "train/reward_max_data": 1.0378378468590814, "train/reward_max_pred": 1.0305379854666221, "train/reward_neg_acc": 0.9939549436440339, "train/reward_neg_loss": 0.023912035633583326, "train/reward_pos_acc": 0.9887823261119224, "train/reward_pos_loss": 0.7294690077369278, "train/reward_pred": 0.043580212454135354, "train/reward_rate": 0.04835304054054054, "stats/sum_log_reward": 14.100000190734864, "stats/max_log_achievement_collect_coal": 2.0, "stats/max_log_achievement_collect_drink": 2.8, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.2, "stats/max_log_achievement_collect_stone": 19.2, "stats/max_log_achievement_collect_wood": 13.4, "stats/max_log_achievement_defeat_skeleton": 0.2, "stats/max_log_achievement_defeat_zombie": 1.6, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.2, "stats/max_log_achievement_make_stone_sword": 1.2, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2, "stats/max_log_achievement_place_furnace": 2.4, "stats/max_log_achievement_place_plant": 1.8, "stats/max_log_achievement_place_stone": 5.0, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.5570289790630341, "replay/size": 987780.0, "replay/inserts": 1468.0, "replay/samples": 11744.0, "replay/insert_wait_avg": 3.2314812454930443e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3080539755340492e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.01872062683105, "timer/env.step_count": 1468.0, "timer/env.step_total": 15.899271965026855, "timer/env.step_frac": 0.05299426626381315, "timer/env.step_avg": 0.01083056673366952, "timer/env.step_min": 0.0029654502868652344, "timer/env.step_max": 1.5703186988830566, "timer/replay.add_count": 1468.0, "timer/replay.add_total": 0.2562253475189209, "timer/replay.add_frac": 0.000854031198398512, "timer/replay.add_avg": 0.00017454042746520496, "timer/replay.add_min": 6.389617919921875e-05, "timer/replay.add_max": 0.004484891891479492, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02006840705871582, "timer/logger.write_frac": 6.689051608775202e-05, "timer/logger.write_avg": 0.02006840705871582, "timer/logger.write_min": 0.02006840705871582, "timer/logger.write_max": 0.02006840705871582, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1468.0, "timer/agent.policy_total": 10.755508184432983, "timer/agent.policy_frac": 0.035849456867096265, "timer/agent.policy_avg": 0.007326640452611024, "timer/agent.policy_min": 0.00556635856628418, "timer/agent.policy_max": 0.015634536743164062, "timer/dataset_count": 734.0, "timer/dataset_total": 0.058774709701538086, "timer/dataset_frac": 0.00019590347421900774, "timer/dataset_avg": 8.007453637811729e-05, "timer/dataset_min": 5.91278076171875e-05, "timer/dataset_max": 0.00015401840209960938, "timer/agent.train_count": 734.0, "timer/agent.train_total": 272.3742537498474, "timer/agent.train_frac": 0.9078575269595648, "timer/agent.train_avg": 0.3710820895774488, "timer/agent.train_min": 0.3647117614746094, "timer/agent.train_max": 0.384540319442749, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2236311435699463, "timer/agent.report_frac": 0.0007453906313003145, "timer/agent.report_avg": 0.2236311435699463, "timer/agent.report_min": 0.2236311435699463, "timer/agent.report_max": 0.2236311435699463, "fps": 4.892927563197438}
{"step": 987848, "episode/length": 254.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.054901960784313725}
{"step": 988066, "episode/length": 217.0, "episode/score": 13.100000023841858, "episode/sum_abs_reward": 15.300000056624413, "episode/reward_rate": 0.06422018348623854}
{"step": 988243, "episode/length": 176.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.0847457627118644}
{"step": 988417, "episode/length": 173.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 13.10000005364418, "episode/reward_rate": 0.06896551724137931}
{"step": 988562, "episode/length": 144.0, "episode/score": 6.100000023841858, "episode/sum_abs_reward": 7.700000047683716, "episode/reward_rate": 0.04827586206896552}
{"step": 988810, "episode/length": 247.0, "episode/score": 11.100000016391277, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.05241935483870968}
{"step": 989037, "episode/length": 226.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 11.900000035762787, "episode/reward_rate": 0.048458149779735685}
{"step": 989222, "episode/length": 184.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 12.100000031292439, "episode/reward_rate": 0.05405405405405406}
{"step": 989273, "stats/sum_log_reward": 10.850000143051147, "stats/max_log_achievement_collect_coal": 1.25, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 9.125, "stats/max_log_achievement_collect_wood": 12.75, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 1.125, "stats/max_log_achievement_eat_cow": 0.375, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "stats/max_log_achievement_make_stone_sword": 0.875, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.125, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 2.25, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 0.875, "stats/mean_log_entropy": 0.2855486422777176, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.41566230881382, "train/action_min": 0.0, "train/action_std": 3.29320636937316, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03914849213521245, "train/actor_opt_grad_steps": 493730.0, "train/actor_opt_loss": -12.25884239060778, "train/adv_mag": 0.40221375122036734, "train/adv_max": 0.3321772274416937, "train/adv_mean": 0.0017764478693286844, "train/adv_min": -0.3637532352561682, "train/adv_std": 0.04287427154854989, "train/cont_avg": 0.9953372579225352, "train/cont_loss_mean": 4.101549391772467e-05, "train/cont_loss_std": 0.0012423337868047153, "train/cont_neg_acc": 0.9976525827192925, "train/cont_neg_loss": 0.003921340000640988, "train/cont_pos_acc": 0.9999861431793428, "train/cont_pos_loss": 1.827289136192864e-05, "train/cont_pred": 0.9953352120560659, "train/cont_rate": 0.9953372579225352, "train/dyn_loss_mean": 5.406661349283138, "train/dyn_loss_std": 8.863941394107442, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9083376980163682, "train/extr_critic_critic_opt_grad_steps": 493730.0, "train/extr_critic_critic_opt_loss": 15263.04570587588, "train/extr_critic_mag": 12.375569974872429, "train/extr_critic_max": 12.375569974872429, "train/extr_critic_mean": 4.0306001616195894, "train/extr_critic_min": -0.3755452834384542, "train/extr_critic_std": 2.986523111101607, "train/extr_return_normed_mag": 1.3709961981840537, "train/extr_return_normed_max": 1.3709961981840537, "train/extr_return_normed_mean": 0.420395875061062, "train/extr_return_normed_min": -0.07244631684791873, "train/extr_return_normed_std": 0.3161014442292737, "train/extr_return_rate": 0.8665704282236771, "train/extr_return_raw_mag": 13.115254402160645, "train/extr_return_raw_max": 13.115254402160645, "train/extr_return_raw_mean": 4.047548841422712, "train/extr_return_raw_min": -0.6537562058845037, "train/extr_return_raw_std": 3.015384700936331, "train/extr_reward_mag": 1.0743611933479846, "train/extr_reward_max": 1.0743611933479846, "train/extr_reward_mean": 0.06329719596345659, "train/extr_reward_min": -0.5935916967794929, "train/extr_reward_std": 0.24170442723052601, "train/image_loss_mean": 3.152892485470839, "train/image_loss_std": 8.371721187108, "train/model_loss_mean": 6.455125069954026, "train/model_loss_std": 12.508856719648334, "train/model_opt_grad_norm": 23.38527139475648, "train/model_opt_grad_steps": 493326.0, "train/model_opt_loss": 8444.003954390404, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1302.8169014084508, "train/policy_entropy_mag": 2.6687296343521334, "train/policy_entropy_max": 2.6687296343521334, "train/policy_entropy_mean": 0.40188373184539905, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6090828323028457, "train/policy_logprob_mag": 7.438384304583912, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.402215086238485, "train/policy_logprob_min": -7.438384304583912, "train/policy_logprob_std": 1.0321327263200786, "train/policy_randomness_mag": 0.9419444472017423, "train/policy_randomness_max": 0.9419444472017423, "train/policy_randomness_mean": 0.14184732168493136, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2149795109117535, "train/post_ent_mag": 55.54810182813188, "train/post_ent_max": 55.54810182813188, "train/post_ent_mean": 40.24098587036133, "train/post_ent_min": 19.25826169403506, "train/post_ent_std": 5.79751830033853, "train/prior_ent_mag": 76.7728378940636, "train/prior_ent_max": 76.7728378940636, "train/prior_ent_mean": 45.62116725008253, "train/prior_ent_min": 27.59879047769896, "train/prior_ent_std": 7.834838712719125, "train/rep_loss_mean": 5.406661349283138, "train/rep_loss_std": 8.863941394107442, "train/reward_avg": 0.04360282772653539, "train/reward_loss_mean": 0.05819478373922093, "train/reward_loss_std": 0.22521168329346347, "train/reward_max_data": 1.025352118720471, "train/reward_max_pred": 1.0243541808195518, "train/reward_neg_acc": 0.9939310424764392, "train/reward_neg_loss": 0.024084254928772718, "train/reward_pos_acc": 0.9858170000600143, "train/reward_pos_loss": 0.7381947913639982, "train/reward_pred": 0.04319035867884965, "train/reward_rate": 0.04781029929577465, "replay/size": 989210.0, "replay/inserts": 1430.0, "replay/samples": 11440.0, "replay/insert_wait_avg": 3.249661905782206e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.298276694504531e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3257477283478, "timer/env.step_count": 1430.0, "timer/env.step_total": 19.561936855316162, "timer/env.step_frac": 0.06513573013063945, "timer/env.step_avg": 0.013679676122598714, "timer/env.step_min": 0.0025069713592529297, "timer/env.step_max": 1.5934834480285645, "timer/replay.add_count": 1430.0, "timer/replay.add_total": 0.2782325744628906, "timer/replay.add_frac": 0.0009264359668374455, "timer/replay.add_avg": 0.0001945682338901333, "timer/replay.add_min": 6.079673767089844e-05, "timer/replay.add_max": 0.0034427642822265625, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02057933807373047, "timer/logger.write_frac": 6.852338911795534e-05, "timer/logger.write_avg": 0.02057933807373047, "timer/logger.write_min": 0.02057933807373047, "timer/logger.write_max": 0.02057933807373047, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0011303424835205078, "timer/checkpoint.save_frac": 3.7637215326037615e-06, "timer/checkpoint.save_avg": 0.0011303424835205078, "timer/checkpoint.save_min": 0.0011303424835205078, "timer/checkpoint.save_max": 0.0011303424835205078, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1647493839263916, "timer/agent.save_frac": 0.003878286802701768, "timer/agent.save_avg": 1.1647493839263916, "timer/agent.save_min": 1.1647493839263916, "timer/agent.save_max": 1.1647493839263916, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.628036499023438e-05, "timer/replay.save_frac": 2.2069491374474706e-07, "timer/replay.save_avg": 6.628036499023438e-05, "timer/replay.save_min": 6.628036499023438e-05, "timer/replay.save_max": 6.628036499023438e-05, "timer/agent.policy_count": 1430.0, "timer/agent.policy_total": 11.561815738677979, "timer/agent.policy_frac": 0.03849758412700576, "timer/agent.policy_avg": 0.008085185831243341, "timer/agent.policy_min": 0.005782127380371094, "timer/agent.policy_max": 1.1564126014709473, "timer/dataset_count": 715.0, "timer/dataset_total": 0.05751442909240723, "timer/dataset_frac": 0.00019150682060210995, "timer/dataset_avg": 8.043976096840172e-05, "timer/dataset_min": 6.079673767089844e-05, "timer/dataset_max": 0.00014019012451171875, "timer/agent.train_count": 715.0, "timer/agent.train_total": 268.1852340698242, "timer/agent.train_frac": 0.8929811582868497, "timer/agent.train_avg": 0.3750842434542996, "timer/agent.train_min": 0.3650243282318115, "timer/agent.train_max": 3.1258716583251953, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21889781951904297, "timer/agent.report_frac": 0.0007288679747733171, "timer/agent.report_avg": 0.21889781951904297, "timer/agent.report_min": 0.21889781951904297, "timer/agent.report_max": 0.21889781951904297, "fps": 4.761438175175566}
{"step": 989601, "episode/length": 378.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.03430079155672823}
{"step": 989842, "episode/length": 240.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.30000003427267, "episode/reward_rate": 0.06224066390041494}
{"step": 990035, "episode/length": 192.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.05181347150259067}
{"step": 990244, "episode/length": 208.0, "episode/score": 15.099999979138374, "episode/sum_abs_reward": 17.30000002682209, "episode/reward_rate": 0.07655502392344497}
{"step": 990505, "episode/length": 260.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.700000002980232, "episode/reward_rate": 0.06130268199233716}
{"step": 990707, "episode/length": 201.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.06930693069306931}
{"step": 990737, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.342193185466609, "train/action_min": 0.0, "train/action_std": 3.1963426609561867, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03791838823115989, "train/actor_opt_grad_steps": 494450.0, "train/actor_opt_loss": -12.52396746204324, "train/adv_mag": 0.3605753828401435, "train/adv_max": 0.3047634444824637, "train/adv_mean": 0.001577459234957207, "train/adv_min": -0.33508421276530176, "train/adv_std": 0.042598613984372515, "train/cont_avg": 0.9951171875, "train/cont_loss_mean": 8.288079040132105e-05, "train/cont_loss_std": 0.0025855205513988645, "train/cont_neg_acc": 0.9925799092201337, "train/cont_neg_loss": 0.013689336309536887, "train/cont_pos_acc": 0.9999999844864623, "train/cont_pos_loss": 7.306554255945475e-06, "train/cont_pred": 0.9951508420787446, "train/cont_rate": 0.9951171875, "train/dyn_loss_mean": 5.565127183313239, "train/dyn_loss_std": 8.892126364250705, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9112297982385714, "train/extr_critic_critic_opt_grad_steps": 494450.0, "train/extr_critic_critic_opt_loss": 15411.859348244863, "train/extr_critic_mag": 12.221621265150096, "train/extr_critic_max": 12.221621265150096, "train/extr_critic_mean": 3.9700864341161024, "train/extr_critic_min": -0.37725327929405317, "train/extr_critic_std": 2.93553742643905, "train/extr_return_normed_mag": 1.3626127373682309, "train/extr_return_normed_max": 1.3626127373682309, "train/extr_return_normed_mean": 0.4161230260378694, "train/extr_return_normed_min": -0.07795131175893627, "train/extr_return_normed_std": 0.3118020079723776, "train/extr_return_rate": 0.8723539595734583, "train/extr_return_raw_mag": 12.96707489065928, "train/extr_return_raw_max": 12.96707489065928, "train/extr_return_raw_mean": 3.9850332181747645, "train/extr_return_raw_min": -0.7036354015134785, "train/extr_return_raw_std": 2.9590095689851945, "train/extr_reward_mag": 1.075138614602285, "train/extr_reward_max": 1.075138614602285, "train/extr_reward_mean": 0.06319296497800579, "train/extr_reward_min": -0.5724479139667668, "train/extr_reward_std": 0.2416197275870467, "train/image_loss_mean": 3.1722869889376915, "train/image_loss_std": 8.686051936998759, "train/model_loss_mean": 6.569976323271451, "train/model_loss_std": 12.832353500470724, "train/model_opt_grad_norm": 22.89339042036501, "train/model_opt_grad_steps": 494046.0, "train/model_opt_loss": 16424.940831014555, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.677317949190532, "train/policy_entropy_max": 2.677317949190532, "train/policy_entropy_mean": 0.3704483847912044, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5691186520334792, "train/policy_logprob_mag": 7.438384297775896, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36923461070615954, "train/policy_logprob_min": -7.438384297775896, "train/policy_logprob_std": 0.9997748030375128, "train/policy_randomness_mag": 0.9449757476375528, "train/policy_randomness_max": 0.9449757476375528, "train/policy_randomness_mean": 0.1307520231563751, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20087391015601486, "train/post_ent_mag": 55.40799279408912, "train/post_ent_max": 55.40799279408912, "train/post_ent_mean": 40.24063261894331, "train/post_ent_min": 19.594555580452695, "train/post_ent_std": 5.822928735654648, "train/prior_ent_mag": 76.82828647143221, "train/prior_ent_max": 76.82828647143221, "train/prior_ent_mean": 45.82383900472563, "train/prior_ent_min": 27.69734549849001, "train/prior_ent_std": 7.801350665419069, "train/rep_loss_mean": 5.565127183313239, "train/rep_loss_std": 8.892126364250705, "train/reward_avg": 0.04421687697711056, "train/reward_loss_mean": 0.05853022553332864, "train/reward_loss_std": 0.21763906025723234, "train/reward_max_data": 1.028767130146288, "train/reward_max_pred": 1.0315326762526003, "train/reward_neg_acc": 0.9934079287803337, "train/reward_neg_loss": 0.0244872143543134, "train/reward_pos_acc": 0.9905821354421851, "train/reward_pos_loss": 0.7240696712715985, "train/reward_pred": 0.04391643723906719, "train/reward_rate": 0.04861408390410959, "stats/sum_log_reward": 12.933333396911621, "stats/max_log_achievement_collect_coal": 1.3333333333333333, "stats/max_log_achievement_collect_drink": 4.666666666666667, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 17.5, "stats/max_log_achievement_collect_wood": 12.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.1666666666666667, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_stone_sword": 1.1666666666666667, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 2.3333333333333335, "stats/max_log_achievement_place_plant": 1.1666666666666667, "stats/max_log_achievement_place_stone": 3.5, "stats/max_log_achievement_place_table": 3.5, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.5143021618326505, "replay/size": 990674.0, "replay/inserts": 1464.0, "replay/samples": 11712.0, "replay/insert_wait_avg": 3.243893222079251e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3176331428882202e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.07657384872437, "timer/env.step_count": 1464.0, "timer/env.step_total": 16.77965211868286, "timer/env.step_frac": 0.05591790089932804, "timer/env.step_avg": 0.011461511010029277, "timer/env.step_min": 0.002651691436767578, "timer/env.step_max": 1.501786470413208, "timer/replay.add_count": 1464.0, "timer/replay.add_total": 0.26814818382263184, "timer/replay.add_frac": 0.0008935991916443688, "timer/replay.add_avg": 0.00018316132774769933, "timer/replay.add_min": 6.318092346191406e-05, "timer/replay.add_max": 0.003832578659057617, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02182292938232422, "timer/logger.write_frac": 7.272453528253648e-05, "timer/logger.write_avg": 0.02182292938232422, "timer/logger.write_min": 0.02182292938232422, "timer/logger.write_max": 0.02182292938232422, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1464.0, "timer/agent.policy_total": 10.64114785194397, "timer/agent.policy_frac": 0.035461441442971225, "timer/agent.policy_avg": 0.0072685436147158266, "timer/agent.policy_min": 0.00562286376953125, "timer/agent.policy_max": 0.014413833618164062, "timer/dataset_count": 732.0, "timer/dataset_total": 0.059079885482788086, "timer/dataset_frac": 0.00019688269805616897, "timer/dataset_avg": 8.071022606938263e-05, "timer/dataset_min": 5.888938903808594e-05, "timer/dataset_max": 0.00014901161193847656, "timer/agent.train_count": 732.0, "timer/agent.train_total": 271.64960384368896, "timer/agent.train_frac": 0.9052676133946861, "timer/agent.train_avg": 0.37110601617990296, "timer/agent.train_min": 0.3645451068878174, "timer/agent.train_max": 0.38596343994140625, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2216329574584961, "timer/agent.report_frac": 0.0007385880031082548, "timer/agent.report_avg": 0.2216329574584961, "timer/agent.report_min": 0.2216329574584961, "timer/agent.report_max": 0.2216329574584961, "fps": 4.878647372664643}
{"step": 991217, "episode/length": 509.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 18.100000023841858, "episode/reward_rate": 0.03137254901960784}
{"step": 991442, "episode/length": 224.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.06666666666666667}
{"step": 991649, "episode/length": 206.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 14.899999991059303, "episode/reward_rate": 0.07246376811594203}
{"step": 991828, "episode/length": 178.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.0670391061452514}
{"step": 992217, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.346633498733108, "train/action_min": 0.0, "train/action_std": 3.195720972241582, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03854317973191674, "train/actor_opt_grad_steps": 495185.0, "train/actor_opt_loss": -9.731382965236097, "train/adv_mag": 0.41459196785817276, "train/adv_max": 0.34119492648421107, "train/adv_mean": 0.0025510761034712305, "train/adv_min": -0.3587584102878699, "train/adv_std": 0.0434232419104995, "train/cont_avg": 0.9947476773648649, "train/cont_loss_mean": 0.00019787689913322506, "train/cont_loss_std": 0.00617172477251809, "train/cont_neg_acc": 0.9958172472747596, "train/cont_neg_loss": 0.024639219229721267, "train/cont_pos_acc": 0.9999866840001699, "train/cont_pos_loss": 3.6244329359450216e-05, "train/cont_pred": 0.9947482871042715, "train/cont_rate": 0.9947476773648649, "train/dyn_loss_mean": 5.589014684831774, "train/dyn_loss_std": 8.907880969949671, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9108442035881249, "train/extr_critic_critic_opt_grad_steps": 495185.0, "train/extr_critic_critic_opt_loss": 15506.976443728885, "train/extr_critic_mag": 12.417923295820081, "train/extr_critic_max": 12.417923295820081, "train/extr_critic_mean": 3.8903093789074874, "train/extr_critic_min": -0.3811743372195476, "train/extr_critic_std": 2.9617087551065393, "train/extr_return_normed_mag": 1.3899620545876992, "train/extr_return_normed_max": 1.3899620545876992, "train/extr_return_normed_mean": 0.4082695563902726, "train/extr_return_normed_min": -0.07970723550061921, "train/extr_return_normed_std": 0.31647608650697245, "train/extr_return_rate": 0.8747079605991775, "train/extr_return_raw_mag": 13.197707485508275, "train/extr_return_raw_max": 13.197707485508275, "train/extr_return_raw_mean": 3.9144209719992973, "train/extr_return_raw_min": -0.6995380629558821, "train/extr_return_raw_std": 2.9927862270458325, "train/extr_reward_mag": 1.079428727562363, "train/extr_reward_max": 1.079428727562363, "train/extr_reward_mean": 0.06342500231757357, "train/extr_reward_min": -0.6248310321086162, "train/extr_reward_std": 0.24207372963428497, "train/image_loss_mean": 3.2427485665759526, "train/image_loss_std": 8.398610901188206, "train/model_loss_mean": 6.655763729198559, "train/model_loss_std": 12.569530796360326, "train/model_opt_grad_norm": 21.35798148851137, "train/model_opt_grad_steps": 494780.41891891893, "train/model_opt_loss": 18150.07424514358, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2736.4864864864867, "train/policy_entropy_mag": 2.6808862686157227, "train/policy_entropy_max": 2.6808862686157227, "train/policy_entropy_mean": 0.3696813843137509, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5711549214414648, "train/policy_logprob_mag": 7.438384288066143, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3691538499819266, "train/policy_logprob_min": -7.438384288066143, "train/policy_logprob_std": 1.001876025586515, "train/policy_randomness_mag": 0.9462352048706364, "train/policy_randomness_max": 0.9462352048706364, "train/policy_randomness_mean": 0.1304813060607459, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2015926237847354, "train/post_ent_mag": 55.616334502761426, "train/post_ent_max": 55.616334502761426, "train/post_ent_mean": 40.3885126887141, "train/post_ent_min": 19.693010819924844, "train/post_ent_std": 5.83304035985792, "train/prior_ent_mag": 76.88310901538746, "train/prior_ent_max": 76.88310901538746, "train/prior_ent_mean": 45.962645092525996, "train/prior_ent_min": 27.849493078283363, "train/prior_ent_std": 7.836168579153113, "train/rep_loss_mean": 5.589014684831774, "train/rep_loss_std": 8.907880969949671, "train/reward_avg": 0.04305716838083557, "train/reward_loss_mean": 0.05940850235119059, "train/reward_loss_std": 0.22029414672303843, "train/reward_max_data": 1.032432440164927, "train/reward_max_pred": 1.030052135119567, "train/reward_neg_acc": 0.9929644078821749, "train/reward_neg_loss": 0.025673477532895835, "train/reward_pos_acc": 0.9881443800152959, "train/reward_pos_loss": 0.7305578992173478, "train/reward_pred": 0.042653273312828026, "train/reward_rate": 0.04782516891891892, "stats/sum_log_reward": 13.100000381469727, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 5.75, "stats/max_log_achievement_collect_iron": 0.25, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 14.25, "stats/max_log_achievement_collect_wood": 12.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.25, "stats/max_log_achievement_eat_cow": 1.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.25, "stats/max_log_achievement_make_stone_sword": 1.25, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.25, "stats/max_log_achievement_place_furnace": 1.75, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 3.75, "stats/max_log_achievement_place_table": 3.5, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.6177441775798798, "replay/size": 992154.0, "replay/inserts": 1480.0, "replay/samples": 11840.0, "replay/insert_wait_avg": 3.1988363008241395e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.329364808830055e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3390552997589, "timer/env.step_count": 1480.0, "timer/env.step_total": 14.133469104766846, "timer/env.step_frac": 0.04705837903985107, "timer/env.step_avg": 0.009549641287004626, "timer/env.step_min": 0.0027713775634765625, "timer/env.step_max": 1.6487441062927246, "timer/replay.add_count": 1480.0, "timer/replay.add_total": 0.25986480712890625, "timer/replay.add_frac": 0.0008652381451674455, "timer/replay.add_avg": 0.00017558432914115287, "timer/replay.add_min": 6.532669067382812e-05, "timer/replay.add_max": 0.0039441585540771484, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02383136749267578, "timer/logger.write_frac": 7.934821353450169e-05, "timer/logger.write_avg": 0.02383136749267578, "timer/logger.write_min": 0.02383136749267578, "timer/logger.write_max": 0.02383136749267578, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1480.0, "timer/agent.policy_total": 10.826770782470703, "timer/agent.policy_frac": 0.03604849449787623, "timer/agent.policy_avg": 0.007315385663831556, "timer/agent.policy_min": 0.005833864212036133, "timer/agent.policy_max": 0.0198366641998291, "timer/dataset_count": 740.0, "timer/dataset_total": 0.05960273742675781, "timer/dataset_frac": 0.0001984515046412136, "timer/dataset_avg": 8.054423976588894e-05, "timer/dataset_min": 5.936622619628906e-05, "timer/dataset_max": 0.00020194053649902344, "timer/agent.train_count": 740.0, "timer/agent.train_total": 274.3763315677643, "timer/agent.train_frac": 0.9135552860213866, "timer/agent.train_avg": 0.3707788264429247, "timer/agent.train_min": 0.3638026714324951, "timer/agent.train_max": 0.3855288028717041, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22091174125671387, "timer/agent.report_frac": 0.0007355411737452155, "timer/agent.report_avg": 0.22091174125671387, "timer/agent.report_min": 0.22091174125671387, "timer/agent.report_max": 0.22091174125671387, "fps": 4.927692888916289}
{"step": 992238, "episode/length": 409.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.036585365853658534}
{"step": 992428, "episode/length": 189.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.700000047683716, "episode/reward_rate": 0.07368421052631578}
{"step": 992601, "episode/length": 172.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06358381502890173}
{"step": 992814, "episode/length": 212.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 16.30000003427267, "episode/reward_rate": 0.06572769953051644}
{"step": 993014, "episode/length": 199.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.08}
{"step": 993354, "episode/length": 339.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 14.900000013411045, "episode/reward_rate": 0.041176470588235294}
{"step": 993549, "episode/length": 194.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.06666666666666667}
{"step": 993649, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.3718210856119795, "train/action_min": 0.0, "train/action_std": 3.2403451369868383, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03932422363302774, "train/actor_opt_grad_steps": 495915.0, "train/actor_opt_loss": -11.552890899487668, "train/adv_mag": 0.40943217194742626, "train/adv_max": 0.3437193036079407, "train/adv_mean": 0.0019472439376436847, "train/adv_min": -0.34897779900994563, "train/adv_std": 0.043548438077171646, "train/cont_avg": 0.9950358072916666, "train/cont_loss_mean": 2.0551407464461687e-05, "train/cont_loss_std": 0.0006379202510802015, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 5.328233458436039e-05, "train/cont_pos_acc": 0.999986352192031, "train/cont_pos_loss": 2.040664168277849e-05, "train/cont_pred": 0.9950230063663589, "train/cont_rate": 0.9950358072916666, "train/dyn_loss_mean": 5.503867593076494, "train/dyn_loss_std": 8.855903307596842, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9287167282568084, "train/extr_critic_critic_opt_grad_steps": 495915.0, "train/extr_critic_critic_opt_loss": 15507.1162109375, "train/extr_critic_mag": 12.366316543685066, "train/extr_critic_max": 12.366316543685066, "train/extr_critic_mean": 4.007520020008087, "train/extr_critic_min": -0.3434203763802846, "train/extr_critic_std": 2.9485129680898456, "train/extr_return_normed_mag": 1.3778156340122223, "train/extr_return_normed_max": 1.3778156340122223, "train/extr_return_normed_mean": 0.41630034728182685, "train/extr_return_normed_min": -0.07860875621231066, "train/extr_return_normed_std": 0.3118328851544195, "train/extr_return_rate": 0.8807138370143043, "train/extr_return_raw_mag": 13.193266656663683, "train/extr_return_raw_max": 13.193266656663683, "train/extr_return_raw_mean": 4.026081254084905, "train/extr_return_raw_min": -0.6928902715444565, "train/extr_return_raw_std": 2.9733106560177274, "train/extr_reward_mag": 1.0687432752715216, "train/extr_reward_max": 1.0687432752715216, "train/extr_reward_mean": 0.06594803396405445, "train/extr_reward_min": -0.6000391642252604, "train/extr_reward_std": 0.24649121798574924, "train/image_loss_mean": 3.155214766661326, "train/image_loss_std": 8.273807764053345, "train/model_loss_mean": 6.516418748431736, "train/model_loss_std": 12.390888896253374, "train/model_opt_grad_norm": 22.874138209554886, "train/model_opt_grad_steps": 495509.80555555556, "train/model_opt_loss": 16611.850925021703, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2534.722222222222, "train/policy_entropy_mag": 2.672529485490587, "train/policy_entropy_max": 2.672529485490587, "train/policy_entropy_mean": 0.3790593246618907, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5794153975115882, "train/policy_logprob_mag": 7.438384281264411, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37938264819482964, "train/policy_logprob_min": -7.438384281264411, "train/policy_logprob_std": 1.0132053966323535, "train/policy_randomness_mag": 0.9432856241861979, "train/policy_randomness_max": 0.9432856241861979, "train/policy_randomness_mean": 0.13379130740132597, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20450820970452493, "train/post_ent_mag": 55.065371089511444, "train/post_ent_max": 55.065371089511444, "train/post_ent_mean": 40.16301043828329, "train/post_ent_min": 19.789017385906643, "train/post_ent_std": 5.738214764330122, "train/prior_ent_mag": 76.7461462020874, "train/prior_ent_max": 76.7461462020874, "train/prior_ent_mean": 45.66024298138089, "train/prior_ent_min": 27.851289616690742, "train/prior_ent_std": 7.7934077978134155, "train/rep_loss_mean": 5.503867593076494, "train/rep_loss_std": 8.855903307596842, "train/reward_avg": 0.045608181247694626, "train/reward_loss_mean": 0.058862891203413405, "train/reward_loss_std": 0.2146407649334934, "train/reward_max_data": 1.0319444520605936, "train/reward_max_pred": 1.028489328092999, "train/reward_neg_acc": 0.992641405098968, "train/reward_neg_loss": 0.024021559187935457, "train/reward_pos_acc": 0.9914518743753433, "train/reward_pos_loss": 0.7201735567715433, "train/reward_pred": 0.045382542070001364, "train/reward_rate": 0.05007595486111111, "stats/sum_log_reward": 12.95714282989502, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 2.5714285714285716, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 15.857142857142858, "stats/max_log_achievement_collect_wood": 13.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.4285714285714286, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.4285714285714286, "stats/max_log_achievement_make_stone_sword": 1.5714285714285714, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.1428571428571428, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 6.571428571428571, "stats/max_log_achievement_place_table": 2.857142857142857, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.5652775572878974, "replay/size": 993586.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.3165489495133553e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3267028265159223e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.05013608932495, "timer/env.step_count": 1432.0, "timer/env.step_total": 19.30937123298645, "timer/env.step_frac": 0.06435381594773898, "timer/env.step_avg": 0.013484197788398359, "timer/env.step_min": 0.002797842025756836, "timer/env.step_max": 1.6094892024993896, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.2700340747833252, "timer/replay.add_frac": 0.0008999631804963955, "timer/replay.add_avg": 0.00018857128127327177, "timer/replay.add_min": 6.389617919921875e-05, "timer/replay.add_max": 0.004794120788574219, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022400617599487305, "timer/logger.write_frac": 7.465624875710317e-05, "timer/logger.write_avg": 0.022400617599487305, "timer/logger.write_min": 0.022400617599487305, "timer/logger.write_max": 0.022400617599487305, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003733634948730469, "timer/checkpoint.save_frac": 1.2443370289353795e-06, "timer/checkpoint.save_avg": 0.0003733634948730469, "timer/checkpoint.save_min": 0.0003733634948730469, "timer/checkpoint.save_max": 0.0003733634948730469, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4372684955596924, "timer/agent.save_frac": 0.004790094463186037, "timer/agent.save_avg": 1.4372684955596924, "timer/agent.save_min": 1.4372684955596924, "timer/agent.save_max": 1.4372684955596924, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.033348083496094e-05, "timer/replay.save_frac": 2.344057621557707e-07, "timer/replay.save_avg": 7.033348083496094e-05, "timer/replay.save_min": 7.033348083496094e-05, "timer/replay.save_max": 7.033348083496094e-05, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 11.883739233016968, "timer/agent.policy_frac": 0.039605845169419215, "timer/agent.policy_avg": 0.00829870058171576, "timer/agent.policy_min": 0.0057713985443115234, "timer/agent.policy_max": 1.4167821407318115, "timer/dataset_count": 716.0, "timer/dataset_total": 0.05685544013977051, "timer/dataset_frac": 0.0001894864667644898, "timer/dataset_avg": 7.940703930135546e-05, "timer/dataset_min": 6.0558319091796875e-05, "timer/dataset_max": 0.00013828277587890625, "timer/agent.train_count": 716.0, "timer/agent.train_total": 267.85617089271545, "timer/agent.train_frac": 0.8927047138981289, "timer/agent.train_avg": 0.3741007973361948, "timer/agent.train_min": 0.36399126052856445, "timer/agent.train_max": 2.5769217014312744, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21744489669799805, "timer/agent.report_frac": 0.0007246952110472121, "timer/agent.report_avg": 0.21744489669799805, "timer/agent.report_min": 0.21744489669799805, "timer/agent.report_max": 0.21744489669799805, "fps": 4.772469094313965}
{"step": 993724, "episode/length": 174.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.07428571428571429}
{"step": 994037, "episode/length": 312.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.04792332268370607}
{"step": 994202, "episode/length": 164.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.08484848484848485}
{"step": 994364, "episode/length": 161.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.08641975308641975}
{"step": 994591, "episode/length": 226.0, "episode/score": 13.099999979138374, "episode/sum_abs_reward": 15.30000002682209, "episode/reward_rate": 0.06167400881057269}
{"step": 994985, "episode/length": 393.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.03553299492385787}
{"step": 995113, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.379071797410103, "train/action_min": 0.0, "train/action_std": 3.2669895054542857, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.039318258172436935, "train/actor_opt_grad_steps": 496640.0, "train/actor_opt_loss": -12.435233577065272, "train/adv_mag": 0.42049365562118896, "train/adv_max": 0.3491042570708549, "train/adv_mean": 0.002174436417253798, "train/adv_min": -0.3693073467440801, "train/adv_std": 0.04373057436657279, "train/cont_avg": 0.995210830479452, "train/cont_loss_mean": 4.429713133688033e-05, "train/cont_loss_std": 0.0013446875161429689, "train/cont_neg_acc": 0.9965277777777778, "train/cont_neg_loss": 0.007494288414422654, "train/cont_pos_acc": 0.9999999820369564, "train/cont_pos_loss": 1.549290807973825e-05, "train/cont_pred": 0.9952091868609598, "train/cont_rate": 0.995210830479452, "train/dyn_loss_mean": 5.434859961679537, "train/dyn_loss_std": 8.799389551763666, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9167176860652558, "train/extr_critic_critic_opt_grad_steps": 496640.0, "train/extr_critic_critic_opt_loss": 15449.023129815925, "train/extr_critic_mag": 12.340065812411373, "train/extr_critic_max": 12.340065812411373, "train/extr_critic_mean": 3.8992086012069493, "train/extr_critic_min": -0.37035318270121537, "train/extr_critic_std": 2.916253770867439, "train/extr_return_normed_mag": 1.3766371077054167, "train/extr_return_normed_max": 1.3766371077054167, "train/extr_return_normed_mean": 0.40811334040066966, "train/extr_return_normed_min": -0.08094848161690855, "train/extr_return_normed_std": 0.31180472365797385, "train/extr_return_rate": 0.8713015971118456, "train/extr_return_raw_mag": 13.065922763249645, "train/extr_return_raw_max": 13.065922763249645, "train/extr_return_raw_mean": 3.919740569101621, "train/extr_return_raw_min": -0.7002969502586208, "train/extr_return_raw_std": 2.94540263855294, "train/extr_reward_mag": 1.0707553870057407, "train/extr_reward_max": 1.0707553870057407, "train/extr_reward_mean": 0.06356246968450611, "train/extr_reward_min": -0.6007531228130811, "train/extr_reward_std": 0.24188467574446168, "train/image_loss_mean": 3.184839049430743, "train/image_loss_std": 8.212452646804183, "train/model_loss_mean": 6.503565853589202, "train/model_loss_std": 12.325973719766695, "train/model_opt_grad_norm": 21.581555778033113, "train/model_opt_grad_steps": 496234.0, "train/model_opt_loss": 16258.914544092466, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.70160466677522, "train/policy_entropy_max": 2.70160466677522, "train/policy_entropy_mean": 0.398970560260015, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6061916298245731, "train/policy_logprob_mag": 7.438384350032022, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4002258197902, "train/policy_logprob_min": -7.438384350032022, "train/policy_logprob_std": 1.0343982111917782, "train/policy_randomness_mag": 0.9535478916886735, "train/policy_randomness_max": 0.9535478916886735, "train/policy_randomness_mean": 0.14081910099476985, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21395904376898725, "train/post_ent_mag": 55.08563739306306, "train/post_ent_max": 55.08563739306306, "train/post_ent_mean": 40.295910769945955, "train/post_ent_min": 19.32808216303995, "train/post_ent_std": 5.743488638368372, "train/prior_ent_mag": 76.84022124826092, "train/prior_ent_max": 76.84022124826092, "train/prior_ent_mean": 45.782209317978115, "train/prior_ent_min": 27.855053601199632, "train/prior_ent_std": 7.777414504795859, "train/rep_loss_mean": 5.434859961679537, "train/rep_loss_std": 8.799389551763666, "train/reward_avg": 0.042640999316760936, "train/reward_loss_mean": 0.05776654204277143, "train/reward_loss_std": 0.2152639486610073, "train/reward_max_data": 1.0246575401253897, "train/reward_max_pred": 1.0229190685977674, "train/reward_neg_acc": 0.9930878551038977, "train/reward_neg_loss": 0.024880378991875746, "train/reward_pos_acc": 0.9893957588770618, "train/reward_pos_loss": 0.7278759005951555, "train/reward_pred": 0.042455768544379976, "train/reward_rate": 0.04704890839041096, "stats/sum_log_reward": 13.100000381469727, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 3.1666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.1666666666666667, "stats/max_log_achievement_collect_stone": 14.5, "stats/max_log_achievement_collect_wood": 14.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.8333333333333333, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_stone_sword": 1.1666666666666667, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.3333333333333333, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.1666666666666667, "stats/max_log_achievement_place_stone": 3.5, "stats/max_log_achievement_place_table": 3.6666666666666665, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.44028185307979584, "replay/size": 995050.0, "replay/inserts": 1464.0, "replay/samples": 11712.0, "replay/insert_wait_avg": 3.2771154831015998e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3487790125966725e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0949420928955, "timer/env.step_count": 1464.0, "timer/env.step_total": 16.938722610473633, "timer/env.step_frac": 0.05644454549064072, "timer/env.step_avg": 0.011570165717536635, "timer/env.step_min": 0.002737283706665039, "timer/env.step_max": 1.6832003593444824, "timer/replay.add_count": 1464.0, "timer/replay.add_total": 0.2619028091430664, "timer/replay.add_frac": 0.0008727331667655812, "timer/replay.add_avg": 0.00017889536143652078, "timer/replay.add_min": 6.079673767089844e-05, "timer/replay.add_max": 0.003849029541015625, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030695438385009766, "timer/logger.write_frac": 0.00010228575720382478, "timer/logger.write_avg": 0.030695438385009766, "timer/logger.write_min": 0.030695438385009766, "timer/logger.write_max": 0.030695438385009766, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1464.0, "timer/agent.policy_total": 10.594484567642212, "timer/agent.policy_frac": 0.035303775844254814, "timer/agent.policy_avg": 0.007236669786640855, "timer/agent.policy_min": 0.005599021911621094, "timer/agent.policy_max": 0.01867079734802246, "timer/dataset_count": 732.0, "timer/dataset_total": 0.05742383003234863, "timer/dataset_frac": 0.00019135220884386938, "timer/dataset_avg": 7.844785523544895e-05, "timer/dataset_min": 5.9604644775390625e-05, "timer/dataset_max": 0.00014472007751464844, "timer/agent.train_count": 732.0, "timer/agent.train_total": 271.56719517707825, "timer/agent.train_frac": 0.9049375950262221, "timer/agent.train_avg": 0.3709934360342599, "timer/agent.train_min": 0.3645775318145752, "timer/agent.train_max": 0.38352441787719727, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2165062427520752, "timer/agent.report_frac": 0.0007214591530338251, "timer/agent.report_avg": 0.2165062427520752, "timer/agent.report_min": 0.2165062427520752, "timer/agent.report_max": 0.2165062427520752, "fps": 4.87838674425431}
{"step": 995506, "episode/length": 520.0, "episode/score": 16.099999986588955, "episode/sum_abs_reward": 20.1000000461936, "episode/reward_rate": 0.03262955854126679}
{"step": 995685, "episode/length": 178.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.0670391061452514}
{"step": 995905, "episode/length": 219.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.06363636363636363}
{"step": 996137, "episode/length": 231.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 15.100000008940697, "episode/reward_rate": 0.0603448275862069}
{"step": 996406, "episode/length": 268.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 12.500000014901161, "episode/reward_rate": 0.04460966542750929}
{"step": 996581, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.422602473078547, "train/action_min": 0.0, "train/action_std": 3.3070510400308146, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03776496920633961, "train/actor_opt_grad_steps": 497375.0, "train/actor_opt_loss": -11.691746182538367, "train/adv_mag": 0.3964412971525579, "train/adv_max": 0.32788866416022583, "train/adv_mean": 0.0017867898806454487, "train/adv_min": -0.3478802428454966, "train/adv_std": 0.04282006686805068, "train/cont_avg": 0.9950380067567568, "train/cont_loss_mean": 5.180571876097052e-06, "train/cont_loss_std": 0.00015179276663231063, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0002501615258174836, "train/cont_pos_acc": 0.999999986307041, "train/cont_pos_loss": 3.6512061968577974e-06, "train/cont_pred": 0.9950361018245285, "train/cont_rate": 0.9950380067567568, "train/dyn_loss_mean": 5.584591524021046, "train/dyn_loss_std": 8.85054916304511, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8942880533836983, "train/extr_critic_critic_opt_grad_steps": 497375.0, "train/extr_critic_critic_opt_loss": 15468.529996304898, "train/extr_critic_mag": 12.400757145237279, "train/extr_critic_max": 12.400757145237279, "train/extr_critic_mean": 3.9548440688365214, "train/extr_critic_min": -0.3491852057946695, "train/extr_critic_std": 2.961518509967907, "train/extr_return_normed_mag": 1.3584481413299974, "train/extr_return_normed_max": 1.3584481413299974, "train/extr_return_normed_mean": 0.40708526364854863, "train/extr_return_normed_min": -0.0720035011401853, "train/extr_return_normed_std": 0.3108485359195116, "train/extr_return_rate": 0.8711914532893413, "train/extr_return_raw_mag": 13.12375478486757, "train/extr_return_raw_max": 13.12375478486757, "train/extr_return_raw_mean": 3.972012645489461, "train/extr_return_raw_min": -0.6362948868725751, "train/extr_return_raw_std": 2.9904091873684444, "train/extr_reward_mag": 1.0815906750189292, "train/extr_reward_max": 1.0815906750189292, "train/extr_reward_mean": 0.06484804221907177, "train/extr_reward_min": -0.5597681628691183, "train/extr_reward_std": 0.24470102464830554, "train/image_loss_mean": 3.241733786222097, "train/image_loss_std": 8.150105276623288, "train/model_loss_mean": 6.651659250259399, "train/model_loss_std": 12.278490478928024, "train/model_opt_grad_norm": 21.845445156097412, "train/model_opt_grad_steps": 496968.3108108108, "train/model_opt_loss": 18830.63088576858, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2837.837837837838, "train/policy_entropy_mag": 2.684408803243895, "train/policy_entropy_max": 2.684408803243895, "train/policy_entropy_mean": 0.3956697335517084, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5999991273557818, "train/policy_logprob_mag": 7.438384230072434, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3957000328479586, "train/policy_logprob_min": -7.438384230072434, "train/policy_logprob_std": 1.0280474021628097, "train/policy_randomness_mag": 0.9474785070161562, "train/policy_randomness_max": 0.9474785070161562, "train/policy_randomness_mean": 0.13965405241863146, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21177335949362935, "train/post_ent_mag": 55.742220543526315, "train/post_ent_max": 55.742220543526315, "train/post_ent_mean": 40.331710918529616, "train/post_ent_min": 19.0962170781316, "train/post_ent_std": 5.782246125710977, "train/prior_ent_mag": 76.76861891875396, "train/prior_ent_max": 76.76861891875396, "train/prior_ent_mean": 45.92528095760861, "train/prior_ent_min": 27.59228917714712, "train/prior_ent_std": 7.827593513437219, "train/rep_loss_mean": 5.584591524021046, "train/rep_loss_std": 8.85054916304511, "train/reward_avg": 0.044152501970529556, "train/reward_loss_mean": 0.05916547936362189, "train/reward_loss_std": 0.22382731997483485, "train/reward_max_data": 1.0229729784501564, "train/reward_max_pred": 1.0232514142990112, "train/reward_neg_acc": 0.9937721716391074, "train/reward_neg_loss": 0.024962457714954745, "train/reward_pos_acc": 0.9892475564737577, "train/reward_pos_loss": 0.72713830744898, "train/reward_pred": 0.04374512473775728, "train/reward_rate": 0.04863017314189189, "stats/sum_log_reward": 12.500000381469727, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 4.6, "stats/max_log_achievement_collect_iron": 1.0, "stats/max_log_achievement_collect_sapling": 1.6, "stats/max_log_achievement_collect_stone": 12.8, "stats/max_log_achievement_collect_wood": 15.8, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.6, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.2, "stats/max_log_achievement_make_stone_sword": 1.6, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.6, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 4.6, "stats/max_log_achievement_wake_up": 1.2, "stats/mean_log_entropy": 0.6069195061922074, "replay/size": 996518.0, "replay/inserts": 1468.0, "replay/samples": 11744.0, "replay/insert_wait_avg": 3.3235679855138793e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.29558897148361e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0628113746643, "timer/env.step_count": 1468.0, "timer/env.step_total": 15.881025791168213, "timer/env.step_frac": 0.05292567152328268, "timer/env.step_avg": 0.010818137459923851, "timer/env.step_min": 0.0027625560760498047, "timer/env.step_max": 1.6101410388946533, "timer/replay.add_count": 1468.0, "timer/replay.add_total": 0.2760612964630127, "timer/replay.add_frac": 0.0009200116975452754, "timer/replay.add_avg": 0.00018805265426635742, "timer/replay.add_min": 5.888938903808594e-05, "timer/replay.add_max": 0.0035278797149658203, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0208132266998291, "timer/logger.write_frac": 6.936289973581998e-05, "timer/logger.write_avg": 0.0208132266998291, "timer/logger.write_min": 0.0208132266998291, "timer/logger.write_max": 0.0208132266998291, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1468.0, "timer/agent.policy_total": 10.83384656906128, "timer/agent.policy_frac": 0.0361052624929716, "timer/agent.policy_avg": 0.007380004474837384, "timer/agent.policy_min": 0.005715131759643555, "timer/agent.policy_max": 0.01761341094970703, "timer/dataset_count": 734.0, "timer/dataset_total": 0.059250831604003906, "timer/dataset_frac": 0.00019746142926729482, "timer/dataset_avg": 8.072320382016881e-05, "timer/dataset_min": 5.817413330078125e-05, "timer/dataset_max": 0.0001430511474609375, "timer/agent.train_count": 734.0, "timer/agent.train_total": 272.34013271331787, "timer/agent.train_frac": 0.9076104148516713, "timer/agent.train_avg": 0.37103560315165923, "timer/agent.train_min": 0.36446094512939453, "timer/agent.train_max": 0.38533997535705566, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22201275825500488, "timer/agent.report_frac": 0.0007398876163224219, "timer/agent.report_avg": 0.22201275825500488, "timer/agent.report_min": 0.22201275825500488, "timer/agent.report_max": 0.22201275825500488, "fps": 4.892225224712019}
{"step": 996605, "episode/length": 198.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.06532663316582915}
{"step": 996862, "episode/length": 256.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.058365758754863814}
{"step": 997081, "episode/length": 218.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.300000041723251, "episode/reward_rate": 0.0547945205479452}
{"step": 997301, "episode/length": 219.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 9.100000031292439, "episode/reward_rate": 0.03636363636363636}
{"step": 997416, "episode/length": 114.0, "episode/score": 7.100000023841858, "episode/sum_abs_reward": 8.899999976158142, "episode/reward_rate": 0.0782608695652174}
{"step": 997728, "episode/length": 311.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 17.10000005364418, "episode/reward_rate": 0.04807692307692308}
{"step": 997902, "episode/length": 173.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.08045977011494253}
{"step": 998017, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.431857256822183, "train/action_min": 0.0, "train/action_std": 3.3248239738840453, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03831141434190139, "train/actor_opt_grad_steps": 498100.0, "train/actor_opt_loss": -12.015939802770884, "train/adv_mag": 0.40101493076539374, "train/adv_max": 0.3221490634998805, "train/adv_mean": 0.00169889713278037, "train/adv_min": -0.3581971228122711, "train/adv_std": 0.04280725242176526, "train/cont_avg": 0.9951722051056338, "train/cont_loss_mean": 1.6746076367018532e-05, "train/cont_loss_std": 0.0005088802560617472, "train/cont_neg_acc": 0.9976525827192925, "train/cont_neg_loss": 0.0025700959976508726, "train/cont_pos_acc": 0.9999999832099592, "train/cont_pos_loss": 1.7043984208337518e-06, "train/cont_pred": 0.9951797488709571, "train/cont_rate": 0.9951722051056338, "train/dyn_loss_mean": 5.479317436755543, "train/dyn_loss_std": 8.84582233428955, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9074392259960443, "train/extr_critic_critic_opt_grad_steps": 498100.0, "train/extr_critic_critic_opt_loss": 15414.009806888203, "train/extr_critic_mag": 12.559331987945127, "train/extr_critic_max": 12.559331987945127, "train/extr_critic_mean": 3.9612371182777513, "train/extr_critic_min": -0.3786740235879388, "train/extr_critic_std": 3.0084062932242808, "train/extr_return_normed_mag": 1.3653594893468937, "train/extr_return_normed_max": 1.3653594893468937, "train/extr_return_normed_mean": 0.40887138583290744, "train/extr_return_normed_min": -0.07923947400610212, "train/extr_return_normed_std": 0.31439005489080724, "train/extr_return_rate": 0.86830073595047, "train/extr_return_raw_mag": 13.197632668723523, "train/extr_return_raw_max": 13.197632668723523, "train/extr_return_raw_mean": 3.977623892502046, "train/extr_return_raw_min": -0.7273354992060594, "train/extr_return_raw_std": 3.030515711072465, "train/extr_reward_mag": 1.075132772956096, "train/extr_reward_max": 1.075132772956096, "train/extr_reward_mean": 0.06385133179350638, "train/extr_reward_min": -0.643356010947429, "train/extr_reward_std": 0.24281505883579524, "train/image_loss_mean": 3.086807286235648, "train/image_loss_std": 8.182661654244006, "train/model_loss_mean": 6.431856303147867, "train/model_loss_std": 12.297177019253583, "train/model_opt_grad_norm": 22.701063491928746, "train/model_opt_grad_steps": 497692.78873239434, "train/model_opt_loss": 17543.280190911093, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2746.478873239437, "train/policy_entropy_mag": 2.6944790893877055, "train/policy_entropy_max": 2.6944790893877055, "train/policy_entropy_mean": 0.40835186104539417, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6155869834859606, "train/policy_logprob_mag": 7.438384331447978, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4085275868714695, "train/policy_logprob_min": -7.438384331447978, "train/policy_logprob_std": 1.0369917053571889, "train/policy_randomness_mag": 0.9510328761288818, "train/policy_randomness_max": 0.9510328761288818, "train/policy_randomness_mean": 0.14413028693115207, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21727518737316132, "train/post_ent_mag": 55.31991770569707, "train/post_ent_max": 55.31991770569707, "train/post_ent_mean": 40.35810594155755, "train/post_ent_min": 19.806164244530905, "train/post_ent_std": 5.770403156817799, "train/prior_ent_mag": 76.78998984753245, "train/prior_ent_max": 76.78998984753245, "train/prior_ent_mean": 45.826945506351095, "train/prior_ent_min": 27.644764779319225, "train/prior_ent_std": 7.810005490209015, "train/rep_loss_mean": 5.479317436755543, "train/rep_loss_std": 8.84582233428955, "train/reward_avg": 0.04332223810045652, "train/reward_loss_mean": 0.05744185282940596, "train/reward_loss_std": 0.2181252100518052, "train/reward_max_data": 1.0239436676804448, "train/reward_max_pred": 1.0242198672093137, "train/reward_neg_acc": 0.9937391658903847, "train/reward_neg_loss": 0.02385386048068463, "train/reward_pos_acc": 0.989568230131982, "train/reward_pos_loss": 0.7260774046602384, "train/reward_pred": 0.04291301107847355, "train/reward_rate": 0.047755281690140844, "stats/sum_log_reward": 11.242857251848493, "stats/max_log_achievement_collect_coal": 1.2857142857142858, "stats/max_log_achievement_collect_drink": 3.2857142857142856, "stats/max_log_achievement_collect_iron": 0.2857142857142857, "stats/max_log_achievement_collect_sapling": 2.142857142857143, "stats/max_log_achievement_collect_stone": 14.428571428571429, "stats/max_log_achievement_collect_wood": 12.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.7142857142857143, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.4285714285714286, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 5.0, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.4001708967345102, "replay/size": 997954.0, "replay/inserts": 1436.0, "replay/samples": 11488.0, "replay/insert_wait_avg": 3.3275662690484093e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.322239388330401e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.21846413612366, "timer/env.step_count": 1436.0, "timer/env.step_total": 18.84221363067627, "timer/env.step_frac": 0.06276167485199352, "timer/env.step_avg": 0.01312131868431495, "timer/env.step_min": 0.0025787353515625, "timer/env.step_max": 2.064493179321289, "timer/replay.add_count": 1436.0, "timer/replay.add_total": 0.26239943504333496, "timer/replay.add_frac": 0.0008740283040165012, "timer/replay.add_avg": 0.00018272941159006614, "timer/replay.add_min": 6.365776062011719e-05, "timer/replay.add_max": 0.003927946090698242, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02111077308654785, "timer/logger.write_frac": 7.031803705776038e-05, "timer/logger.write_avg": 0.02111077308654785, "timer/logger.write_min": 0.02111077308654785, "timer/logger.write_max": 0.02111077308654785, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0008225440979003906, "timer/checkpoint.save_frac": 2.7398184860723175e-06, "timer/checkpoint.save_avg": 0.0008225440979003906, "timer/checkpoint.save_min": 0.0008225440979003906, "timer/checkpoint.save_max": 0.0008225440979003906, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.211183786392212, "timer/agent.save_frac": 0.004034341424926625, "timer/agent.save_avg": 1.211183786392212, "timer/agent.save_min": 1.211183786392212, "timer/agent.save_max": 1.211183786392212, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.915496826171875e-05, "timer/replay.save_frac": 2.6365789489159694e-07, "timer/replay.save_avg": 7.915496826171875e-05, "timer/replay.save_min": 7.915496826171875e-05, "timer/replay.save_max": 7.915496826171875e-05, "timer/agent.policy_count": 1436.0, "timer/agent.policy_total": 13.95835542678833, "timer/agent.policy_frac": 0.046493993855285985, "timer/agent.policy_avg": 0.009720303221997444, "timer/agent.policy_min": 0.005713701248168945, "timer/agent.policy_max": 2.360825777053833, "timer/dataset_count": 718.0, "timer/dataset_total": 0.0578310489654541, "timer/dataset_frac": 0.0001926298874783152, "timer/dataset_avg": 8.054463644213663e-05, "timer/dataset_min": 5.91278076171875e-05, "timer/dataset_max": 0.0001614093780517578, "timer/agent.train_count": 718.0, "timer/agent.train_total": 266.4224646091461, "timer/agent.train_frac": 0.8874286442566907, "timer/agent.train_avg": 0.3710619284249946, "timer/agent.train_min": 0.3640596866607666, "timer/agent.train_max": 0.38476085662841797, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2212674617767334, "timer/agent.report_frac": 0.000737021496707169, "timer/agent.report_avg": 0.2212674617767334, "timer/agent.report_min": 0.2212674617767334, "timer/agent.report_max": 0.2212674617767334, "fps": 4.783078184962498}
{"step": 998112, "episode/length": 209.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.900000028312206, "episode/reward_rate": 0.047619047619047616}
{"step": 998317, "episode/length": 204.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.06829268292682927}
{"step": 998566, "episode/length": 248.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.05622489959839357}
{"step": 998720, "episode/length": 153.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.05194805194805195}
{"step": 998906, "episode/length": 185.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.053763440860215055}
{"step": 999119, "episode/length": 212.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.100000001490116, "episode/reward_rate": 0.07511737089201878}
{"step": 999304, "episode/length": 184.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.08108108108108109}
{"step": 999479, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.37811279296875, "train/action_min": 0.0, "train/action_std": 3.262286083118336, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03834568910502099, "train/actor_opt_grad_steps": 498825.0, "train/actor_opt_loss": -10.71165933480134, "train/adv_mag": 0.44723934680223465, "train/adv_max": 0.3622974405014837, "train/adv_mean": 0.0019902368534365058, "train/adv_min": -0.40329822495176987, "train/adv_std": 0.04341376910137164, "train/cont_avg": 0.9945761190878378, "train/cont_loss_mean": 0.00032535134443615005, "train/cont_loss_std": 0.010199860201368751, "train/cont_neg_acc": 0.9946911206116548, "train/cont_neg_loss": 0.02070395065334004, "train/cont_pos_acc": 0.999986745215751, "train/cont_pos_loss": 0.00016976465919225502, "train/cont_pred": 0.9945770751785588, "train/cont_rate": 0.9945761190878378, "train/dyn_loss_mean": 5.635026454925537, "train/dyn_loss_std": 8.993393015217137, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9354708686068252, "train/extr_critic_critic_opt_grad_steps": 498825.0, "train/extr_critic_critic_opt_loss": 15312.12232105152, "train/extr_critic_mag": 12.336493994738605, "train/extr_critic_max": 12.336493994738605, "train/extr_critic_mean": 3.969267455307213, "train/extr_critic_min": -0.32966149014395635, "train/extr_critic_std": 3.006753692755828, "train/extr_return_normed_mag": 1.373661495543815, "train/extr_return_normed_max": 1.373661495543815, "train/extr_return_normed_mean": 0.4118003474699484, "train/extr_return_normed_min": -0.07523708740198934, "train/extr_return_normed_std": 0.31761454388096527, "train/extr_return_rate": 0.875344921608229, "train/extr_return_raw_mag": 13.177974017890724, "train/extr_return_raw_max": 13.177974017890724, "train/extr_return_raw_mean": 3.988272876352877, "train/extr_return_raw_min": -0.6657931405950237, "train/extr_return_raw_std": 3.0349330418818705, "train/extr_reward_mag": 1.081103821058531, "train/extr_reward_max": 1.081103821058531, "train/extr_reward_mean": 0.06478839423004035, "train/extr_reward_min": -0.598207763723425, "train/extr_reward_std": 0.24434491750356313, "train/image_loss_mean": 3.302735078979183, "train/image_loss_std": 8.468642028602394, "train/model_loss_mean": 6.745825838398289, "train/model_loss_std": 12.65817472097036, "train/model_opt_grad_norm": 22.74815524590982, "train/model_opt_grad_steps": 498417.0, "train/model_opt_loss": 16864.564611486487, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6961644114674748, "train/policy_entropy_max": 2.6961644114674748, "train/policy_entropy_mean": 0.3951648161620707, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6053859531073957, "train/policy_logprob_mag": 7.438384307397379, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3947710721073924, "train/policy_logprob_min": -7.438384307397379, "train/policy_logprob_std": 1.0247124723485999, "train/policy_randomness_mag": 0.9516277224630922, "train/policy_randomness_max": 0.9516277224630922, "train/policy_randomness_mean": 0.1394758393635621, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2136746747670947, "train/post_ent_mag": 56.00508385735589, "train/post_ent_max": 56.00508385735589, "train/post_ent_mean": 40.22330382063582, "train/post_ent_min": 19.451754595782305, "train/post_ent_std": 5.844212409612295, "train/prior_ent_mag": 76.89127226133604, "train/prior_ent_max": 76.89127226133604, "train/prior_ent_mean": 45.85037659310006, "train/prior_ent_min": 27.708888182768952, "train/prior_ent_std": 7.924085520409249, "train/rep_loss_mean": 5.635026454925537, "train/rep_loss_std": 8.993393015217137, "train/reward_avg": 0.04382126252292781, "train/reward_loss_mean": 0.061749544397399235, "train/reward_loss_std": 0.22894404667454796, "train/reward_max_data": 1.032432440164927, "train/reward_max_pred": 1.0298481116423737, "train/reward_neg_acc": 0.9931628011368416, "train/reward_neg_loss": 0.027793548510384722, "train/reward_pos_acc": 0.9886479514676172, "train/reward_pos_loss": 0.7283445685296446, "train/reward_pred": 0.04357225868246845, "train/reward_rate": 0.04861697635135135, "stats/sum_log_reward": 11.385714667184013, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 3.4285714285714284, "stats/max_log_achievement_collect_iron": 0.14285714285714285, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 9.714285714285714, "stats/max_log_achievement_collect_wood": 13.857142857142858, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.4285714285714286, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 0.7142857142857143, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 2.142857142857143, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.3469520615679877, "replay/size": 999416.0, "replay/inserts": 1462.0, "replay/samples": 11696.0, "replay/insert_wait_avg": 3.210170813689643e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3856449140243427e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.30165362358093, "timer/env.step_count": 1462.0, "timer/env.step_total": 18.02630376815796, "timer/env.step_frac": 0.06002732103085049, "timer/env.step_avg": 0.012329893138274938, "timer/env.step_min": 0.0027153491973876953, "timer/env.step_max": 1.6053216457366943, "timer/replay.add_count": 1462.0, "timer/replay.add_total": 0.2686500549316406, "timer/replay.add_frac": 0.0008946006513450151, "timer/replay.add_avg": 0.00018375516753190194, "timer/replay.add_min": 6.413459777832031e-05, "timer/replay.add_max": 0.004161834716796875, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02397608757019043, "timer/logger.write_frac": 7.984001180440962e-05, "timer/logger.write_avg": 0.02397608757019043, "timer/logger.write_min": 0.02397608757019043, "timer/logger.write_max": 0.02397608757019043, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1462.0, "timer/agent.policy_total": 10.56257438659668, "timer/agent.policy_frac": 0.03517321419693729, "timer/agent.policy_avg": 0.007224743082487469, "timer/agent.policy_min": 0.005774736404418945, "timer/agent.policy_max": 0.015903472900390625, "timer/dataset_count": 731.0, "timer/dataset_total": 0.05810189247131348, "timer/dataset_frac": 0.000193478430006058, "timer/dataset_avg": 7.948275303873252e-05, "timer/dataset_min": 5.8650970458984375e-05, "timer/dataset_max": 0.0001575946807861328, "timer/agent.train_count": 731.0, "timer/agent.train_total": 270.7177791595459, "timer/agent.train_frac": 0.901486141994018, "timer/agent.train_avg": 0.37033895917858534, "timer/agent.train_min": 0.36377596855163574, "timer/agent.train_max": 0.38353729248046875, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21823525428771973, "timer/agent.report_frac": 0.0007267201217655332, "timer/agent.report_avg": 0.21823525428771973, "timer/agent.report_min": 0.21823525428771973, "timer/agent.report_max": 0.21823525428771973, "fps": 4.868342680377332}
{"step": 999520, "episode/length": 215.0, "episode/score": 15.100000008940697, "episode/sum_abs_reward": 18.500000059604645, "episode/reward_rate": 0.07407407407407407}
{"step": 999704, "episode/length": 183.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.07065217391304347}
{"step": 999974, "episode/length": 269.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.900000005960464, "episode/reward_rate": 0.05185185185185185}
{"step": 1000195, "episode/length": 220.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.06787330316742081}
{"step": 1000463, "episode/length": 267.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.05223880597014925}
{"step": 1000602, "episode/length": 138.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.899999976158142, "episode/reward_rate": 0.08633093525179857}
{"step": 1000900, "episode/length": 297.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.050335570469798654}
{"step": 1000931, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.425784640842014, "train/action_min": 0.0, "train/action_std": 3.2822574542628393, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03786997453102635, "train/actor_opt_grad_steps": 499555.0, "train/actor_opt_loss": -11.033747147561776, "train/adv_mag": 0.39441581691304844, "train/adv_max": 0.3202181431568331, "train/adv_mean": 0.0020398339024217827, "train/adv_min": -0.36339911735720104, "train/adv_std": 0.042987886609302625, "train/cont_avg": 0.9949137369791666, "train/cont_loss_mean": 9.428296053126672e-05, "train/cont_loss_std": 0.0029630913458104954, "train/cont_neg_acc": 0.9976851857370801, "train/cont_neg_loss": 0.01480371673186593, "train/cont_pos_acc": 0.999999982615312, "train/cont_pos_loss": 7.87954299872082e-06, "train/cont_pred": 0.994920459886392, "train/cont_rate": 0.9949137369791666, "train/dyn_loss_mean": 5.59234486023585, "train/dyn_loss_std": 8.8487069606781, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9192208035124673, "train/extr_critic_critic_opt_grad_steps": 499555.0, "train/extr_critic_critic_opt_loss": 15310.051147460938, "train/extr_critic_mag": 12.360421352916294, "train/extr_critic_max": 12.360421352916294, "train/extr_critic_mean": 4.011571870909797, "train/extr_critic_min": -0.3491779598924849, "train/extr_critic_std": 2.960655517048306, "train/extr_return_normed_mag": 1.3649848749240239, "train/extr_return_normed_max": 1.3649848749240239, "train/extr_return_normed_mean": 0.41629308379358715, "train/extr_return_normed_min": -0.07855607191514638, "train/extr_return_normed_std": 0.3123026457097795, "train/extr_return_rate": 0.874174490571022, "train/extr_return_raw_mag": 13.10610028107961, "train/extr_return_raw_max": 13.10610028107961, "train/extr_return_raw_mean": 4.031094961696201, "train/extr_return_raw_min": -0.70286450907588, "train/extr_return_raw_std": 2.9878697295983634, "train/extr_reward_mag": 1.0750490228335063, "train/extr_reward_max": 1.0750490228335063, "train/extr_reward_mean": 0.06524114688444468, "train/extr_reward_min": -0.6249193400144577, "train/extr_reward_std": 0.24490545131266117, "train/image_loss_mean": 3.2012278139591217, "train/image_loss_std": 8.15073155032264, "train/model_loss_mean": 6.615913795100318, "train/model_loss_std": 12.262406865755716, "train/model_opt_grad_norm": 21.248810271142233, "train/model_opt_grad_steps": 499146.19444444444, "train/model_opt_loss": 17497.723225911457, "train/model_opt_model_opt_grad_overflow": 0.013888888888888888, "train/model_opt_model_opt_grad_scale": 2604.1666666666665, "train/policy_entropy_mag": 2.6805886129538217, "train/policy_entropy_max": 2.6805886129538217, "train/policy_entropy_mean": 0.3837792345633109, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.582880675378773, "train/policy_logprob_mag": 7.438384327623579, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38346692526506054, "train/policy_logprob_min": -7.438384327623579, "train/policy_logprob_std": 1.0119602440132036, "train/policy_randomness_mag": 0.9461301490664482, "train/policy_randomness_max": 0.9461301490664482, "train/policy_randomness_mean": 0.13545722576479116, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20573129980928367, "train/post_ent_mag": 55.441084702809654, "train/post_ent_max": 55.441084702809654, "train/post_ent_mean": 40.245129426320396, "train/post_ent_min": 19.751398669348823, "train/post_ent_std": 5.7787712415059405, "train/prior_ent_mag": 76.83623112572565, "train/prior_ent_max": 76.83623112572565, "train/prior_ent_mean": 45.82495625813802, "train/prior_ent_min": 27.589460452397663, "train/prior_ent_std": 7.8786589701970415, "train/rep_loss_mean": 5.59234486023585, "train/rep_loss_std": 8.8487069606781, "train/reward_avg": 0.04510498044287993, "train/reward_loss_mean": 0.0591847579408851, "train/reward_loss_std": 0.22073729439742035, "train/reward_max_data": 1.027777784400516, "train/reward_max_pred": 1.0316330426269107, "train/reward_neg_acc": 0.9936089432901807, "train/reward_neg_loss": 0.024452410431371793, "train/reward_pos_acc": 0.9894104210866822, "train/reward_pos_loss": 0.7248603949944178, "train/reward_pred": 0.0448528403778457, "train/reward_rate": 0.049628363715277776, "stats/sum_log_reward": 12.957143102373395, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 3.2857142857142856, "stats/max_log_achievement_collect_iron": 0.42857142857142855, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 15.285714285714286, "stats/max_log_achievement_collect_wood": 14.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.2857142857142857, "stats/max_log_achievement_defeat_zombie": 2.4285714285714284, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.2857142857142858, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.2857142857142858, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.7142857142857142, "stats/max_log_achievement_place_plant": 0.8571428571428571, "stats/max_log_achievement_place_stone": 3.4285714285714284, "stats/max_log_achievement_place_table": 3.5714285714285716, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.5114219380276543, "replay/size": 1000000.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.2426240358799285e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3155303382348095e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.05438017845154, "timer/env.step_count": 1452.0, "timer/env.step_total": 18.926059246063232, "timer/env.step_frac": 0.0630754306429632, "timer/env.step_avg": 0.013034476064781841, "timer/env.step_min": 0.0029036998748779297, "timer/env.step_max": 1.6205763816833496, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.2801845073699951, "timer/replay.add_frac": 0.0009337790943207055, "timer/replay.add_avg": 0.000192964536756195, "timer/replay.add_min": 6.270408630371094e-05, "timer/replay.add_max": 0.0008771419525146484, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.020929574966430664, "timer/logger.write_frac": 6.975260602422536e-05, "timer/logger.write_avg": 0.020929574966430664, "timer/logger.write_min": 0.020929574966430664, "timer/logger.write_max": 0.020929574966430664, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 10.664009809494019, "timer/agent.policy_frac": 0.035540257079906, "timer/agent.policy_avg": 0.007344359372929765, "timer/agent.policy_min": 0.005681037902832031, "timer/agent.policy_max": 0.01724720001220703, "timer/dataset_count": 726.0, "timer/dataset_total": 0.05859518051147461, "timer/dataset_frac": 0.0001952818701617562, "timer/dataset_avg": 8.070961502957935e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.0001385211944580078, "timer/agent.train_count": 726.0, "timer/agent.train_total": 269.4504659175873, "timer/agent.train_frac": 0.8980054407382316, "timer/agent.train_avg": 0.37114389244846735, "timer/agent.train_min": 0.36417245864868164, "timer/agent.train_max": 0.385514497756958, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21726226806640625, "timer/agent.report_frac": 0.0007240763088917206, "timer/agent.report_avg": 0.21726226806640625, "timer/agent.report_min": 0.21726226806640625, "timer/agent.report_max": 0.21726226806640625, "fps": 4.8390542684328315}
{"step": 1001104, "episode/length": 203.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.10000003874302, "episode/reward_rate": 0.07352941176470588}
{"step": 1001254, "episode/length": 149.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.06}
{"step": 1001590, "episode/length": 335.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 17.700000040233135, "episode/reward_rate": 0.047619047619047616}
{"step": 1001809, "episode/length": 218.0, "episode/score": 11.099999979138374, "episode/sum_abs_reward": 13.30000002682209, "episode/reward_rate": 0.0547945205479452}
{"step": 1002056, "episode/length": 246.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.700000025331974, "episode/reward_rate": 0.06477732793522267}
{"step": 1002249, "episode/length": 192.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.05181347150259067}
{"step": 1002373, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.363684760199653, "train/action_min": 0.0, "train/action_std": 3.2004842493269177, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.040540829895892076, "train/actor_opt_grad_steps": 500275.0, "train/actor_opt_loss": -11.578563920325703, "train/adv_mag": 0.4316582116815779, "train/adv_max": 0.3462205609927575, "train/adv_mean": 0.0021269505432807514, "train/adv_min": -0.3972496711131599, "train/adv_std": 0.044681970650951065, "train/cont_avg": 0.9951307508680556, "train/cont_loss_mean": 0.00010199876296438741, "train/cont_loss_std": 0.003184249888330252, "train/cont_neg_acc": 0.9964229833911842, "train/cont_neg_loss": 0.008458792501888353, "train/cont_pos_acc": 0.9999863646096654, "train/cont_pos_loss": 3.928866976850761e-05, "train/cont_pred": 0.9951365424527062, "train/cont_rate": 0.9951307508680556, "train/dyn_loss_mean": 5.55328604247835, "train/dyn_loss_std": 8.879909912745157, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.877047672867775, "train/extr_critic_critic_opt_grad_steps": 500275.0, "train/extr_critic_critic_opt_loss": 15450.115614149305, "train/extr_critic_mag": 12.372660319010416, "train/extr_critic_max": 12.372660319010416, "train/extr_critic_mean": 4.037530399031109, "train/extr_critic_min": -0.36053071750534904, "train/extr_critic_std": 2.939322772953245, "train/extr_return_normed_mag": 1.3779113954967923, "train/extr_return_normed_max": 1.3779113954967923, "train/extr_return_normed_mean": 0.4175591270128886, "train/extr_return_normed_min": -0.08063700960742103, "train/extr_return_normed_std": 0.30990978847775197, "train/extr_return_rate": 0.881825135813819, "train/extr_return_raw_mag": 13.25610687997606, "train/extr_return_raw_max": 13.25610687997606, "train/extr_return_raw_mean": 4.057901130782233, "train/extr_return_raw_min": -0.7137353776229752, "train/extr_return_raw_std": 2.968355221880807, "train/extr_reward_mag": 1.0732457472218409, "train/extr_reward_max": 1.0732457472218409, "train/extr_reward_mean": 0.06394245201307866, "train/extr_reward_min": -0.643466603424814, "train/extr_reward_std": 0.24280396559172207, "train/image_loss_mean": 3.1798218372795315, "train/image_loss_std": 8.630687826209599, "train/model_loss_mean": 6.568664100435045, "train/model_loss_std": 12.713739607069227, "train/model_opt_grad_norm": 20.80666548675961, "train/model_opt_grad_steps": 499865.7361111111, "train/model_opt_loss": 18760.77266438802, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2847.222222222222, "train/policy_entropy_mag": 2.667607800828086, "train/policy_entropy_max": 2.667607800828086, "train/policy_entropy_mean": 0.36418418813910747, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5642807458837827, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3636744250026014, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 0.9977257640825378, "train/policy_randomness_mag": 0.9415484873784913, "train/policy_randomness_max": 0.9415484873784913, "train/policy_randomness_mean": 0.12854103702637884, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19916634158127838, "train/post_ent_mag": 55.0988056924608, "train/post_ent_max": 55.0988056924608, "train/post_ent_mean": 40.14619265662299, "train/post_ent_min": 19.577078315946792, "train/post_ent_std": 5.7662383980221215, "train/prior_ent_mag": 76.8292441897922, "train/prior_ent_max": 76.8292441897922, "train/prior_ent_mean": 45.65837446848551, "train/prior_ent_min": 27.972921000586616, "train/prior_ent_std": 7.821238352192773, "train/rep_loss_mean": 5.55328604247835, "train/rep_loss_std": 8.879909912745157, "train/reward_avg": 0.0430935324014475, "train/reward_loss_mean": 0.05676868495841821, "train/reward_loss_std": 0.2041921652853489, "train/reward_max_data": 1.0319444520605936, "train/reward_max_pred": 1.030230187707477, "train/reward_neg_acc": 0.9933554397688972, "train/reward_neg_loss": 0.02396967691472835, "train/reward_pos_acc": 0.9927944772773318, "train/reward_pos_loss": 0.7137396741244528, "train/reward_pred": 0.04279558567537202, "train/reward_rate": 0.047539605034722224, "stats/sum_log_reward": 12.100000222524008, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 2.5, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 10.166666666666666, "stats/max_log_achievement_collect_wood": 12.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.3333333333333333, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 3.1666666666666665, "stats/max_log_achievement_place_table": 3.1666666666666665, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.4566435267527898, "replay/size": 1000000.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.2651110264200113e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2935282618592748e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2526025772095, "timer/env.step_count": 1442.0, "timer/env.step_total": 18.938421487808228, "timer/env.step_frac": 0.06307496196619393, "timer/env.step_avg": 0.013133440698896135, "timer/env.step_min": 0.002826213836669922, "timer/env.step_max": 1.7755918502807617, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.2892277240753174, "timer/replay.add_frac": 0.0009632813224356413, "timer/replay.add_avg": 0.0002005740111479316, "timer/replay.add_min": 7.390975952148438e-05, "timer/replay.add_max": 0.004018545150756836, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023468971252441406, "timer/logger.write_frac": 7.816408934009623e-05, "timer/logger.write_avg": 0.023468971252441406, "timer/logger.write_min": 0.023468971252441406, "timer/logger.write_max": 0.023468971252441406, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00037217140197753906, "timer/checkpoint.save_frac": 1.23952764699795e-06, "timer/checkpoint.save_avg": 0.00037217140197753906, "timer/checkpoint.save_min": 0.00037217140197753906, "timer/checkpoint.save_max": 0.00037217140197753906, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1962156295776367, "timer/agent.save_frac": 0.003984030843729429, "timer/agent.save_avg": 1.1962156295776367, "timer/agent.save_min": 1.1962156295776367, "timer/agent.save_max": 1.1962156295776367, "timer/replay.save_count": 1.0, "timer/replay.save_total": 5.435943603515625e-05, "timer/replay.save_frac": 1.8104567810091774e-07, "timer/replay.save_avg": 5.435943603515625e-05, "timer/replay.save_min": 5.435943603515625e-05, "timer/replay.save_max": 5.435943603515625e-05, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 12.397513389587402, "timer/agent.policy_frac": 0.041290277863284805, "timer/agent.policy_avg": 0.008597443404706936, "timer/agent.policy_min": 0.005559682846069336, "timer/agent.policy_max": 1.1770861148834229, "timer/dataset_count": 721.0, "timer/dataset_total": 0.05921220779418945, "timer/dataset_frac": 0.000197207975171383, "timer/dataset_avg": 8.21251148324403e-05, "timer/dataset_min": 6.079673767089844e-05, "timer/dataset_max": 0.00014209747314453125, "timer/agent.train_count": 721.0, "timer/agent.train_total": 267.8845217227936, "timer/agent.train_frac": 0.89219716806254, "timer/agent.train_avg": 0.3715457998929176, "timer/agent.train_min": 0.36481332778930664, "timer/agent.train_max": 0.8122105598449707, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21915960311889648, "timer/agent.report_frac": 0.0007299174136635167, "timer/agent.report_avg": 0.21915960311889648, "timer/agent.report_min": 0.21915960311889648, "timer/agent.report_max": 0.21915960311889648, "fps": 4.802535708996406}
{"step": 1002489, "episode/length": 239.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 17.300000056624413, "episode/reward_rate": 0.0625}
{"step": 1002727, "episode/length": 237.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.30000003427267, "episode/reward_rate": 0.06302521008403361}
{"step": 1002968, "episode/length": 240.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.06224066390041494}
{"step": 1003474, "episode/length": 505.0, "episode/score": 12.100000016391277, "episode/sum_abs_reward": 16.300000078976154, "episode/reward_rate": 0.025691699604743084}
{"step": 1003677, "episode/length": 202.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06403940886699508}
{"step": 1003841, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.473940462679477, "train/action_min": 0.0, "train/action_std": 3.303334084717003, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03762297732503833, "train/actor_opt_grad_steps": 501005.0, "train/actor_opt_loss": -11.895895307933962, "train/adv_mag": 0.3792262176001394, "train/adv_max": 0.31591604307696625, "train/adv_mean": 0.0019975126393251843, "train/adv_min": -0.34489998946318756, "train/adv_std": 0.04283284894316583, "train/cont_avg": 0.9951303842905406, "train/cont_loss_mean": 1.8006762364285656e-05, "train/cont_loss_std": 0.0005217324952524592, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0015582828450058277, "train/cont_pos_acc": 0.9999999814742321, "train/cont_pos_loss": 7.523966500067937e-06, "train/cont_pred": 0.9951316609575942, "train/cont_rate": 0.9951303842905406, "train/dyn_loss_mean": 5.770263207925333, "train/dyn_loss_std": 9.000913400907773, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9483166892786283, "train/extr_critic_critic_opt_grad_steps": 501005.0, "train/extr_critic_critic_opt_loss": 15598.111367715372, "train/extr_critic_mag": 12.389452547640413, "train/extr_critic_max": 12.389452547640413, "train/extr_critic_mean": 3.826341464712813, "train/extr_critic_min": -0.3914690887605822, "train/extr_critic_std": 2.962414106807193, "train/extr_return_normed_mag": 1.3640593483641341, "train/extr_return_normed_max": 1.3640593483641341, "train/extr_return_normed_mean": 0.3951867073774338, "train/extr_return_normed_min": -0.0786678658143894, "train/extr_return_normed_std": 0.3119819434107961, "train/extr_return_rate": 0.8535878102521639, "train/extr_return_raw_mag": 13.129495775377428, "train/extr_return_raw_max": 13.129495775377428, "train/extr_return_raw_mean": 3.8454913899705216, "train/extr_return_raw_min": -0.6952160814323941, "train/extr_return_raw_std": 2.9896499289048686, "train/extr_reward_mag": 1.0780693550367613, "train/extr_reward_max": 1.0780693550367613, "train/extr_reward_mean": 0.062524971375997, "train/extr_reward_min": -0.597058971185942, "train/extr_reward_std": 0.24044605263987104, "train/image_loss_mean": 3.4426089122488692, "train/image_loss_std": 8.966315224363997, "train/model_loss_mean": 6.9632768502106535, "train/model_loss_std": 13.13802313160252, "train/model_opt_grad_norm": 23.02509748613512, "train/model_opt_grad_steps": 500595.0, "train/model_opt_loss": 17408.19214527027, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6591055296562813, "train/policy_entropy_max": 2.6591055296562813, "train/policy_entropy_mean": 0.3957530964870711, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5946659308833044, "train/policy_logprob_mag": 7.4383842751786515, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39588712034998713, "train/policy_logprob_min": -7.4383842751786515, "train/policy_logprob_std": 1.023479910315694, "train/policy_randomness_mag": 0.9385475604920774, "train/policy_randomness_max": 0.9385475604920774, "train/policy_randomness_mean": 0.1396834754661934, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20989097544067614, "train/post_ent_mag": 55.37786854924382, "train/post_ent_max": 55.37786854924382, "train/post_ent_mean": 40.45004195135993, "train/post_ent_min": 19.486221571226377, "train/post_ent_std": 5.798504230138418, "train/prior_ent_mag": 76.80588510874155, "train/prior_ent_max": 76.80588510874155, "train/prior_ent_mean": 46.21737232723751, "train/prior_ent_min": 27.18026908668312, "train/prior_ent_std": 7.861969103684297, "train/rep_loss_mean": 5.770263207925333, "train/rep_loss_std": 9.000913400907773, "train/reward_avg": 0.04313634894788265, "train/reward_loss_mean": 0.05849204423862535, "train/reward_loss_std": 0.21455168482419607, "train/reward_max_data": 1.0310810884913884, "train/reward_max_pred": 1.0323164511371303, "train/reward_neg_acc": 0.992553263097196, "train/reward_neg_loss": 0.02546929946874042, "train/reward_pos_acc": 0.9895851007989935, "train/reward_pos_loss": 0.7218432853350768, "train/reward_pred": 0.04292561629837429, "train/reward_rate": 0.047587626689189186, "stats/sum_log_reward": 13.099999809265137, "stats/max_log_achievement_collect_coal": 1.4, "stats/max_log_achievement_collect_drink": 7.2, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.6, "stats/max_log_achievement_collect_stone": 13.6, "stats/max_log_achievement_collect_wood": 15.6, "stats/max_log_achievement_defeat_skeleton": 0.2, "stats/max_log_achievement_defeat_zombie": 1.6, "stats/max_log_achievement_eat_cow": 0.6, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.6, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.6, "stats/max_log_achievement_place_plant": 2.4, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 3.6, "stats/max_log_achievement_wake_up": 1.4, "stats/mean_log_entropy": 0.4596833139657974, "replay/size": 1000000.0, "replay/inserts": 1468.0, "replay/samples": 11744.0, "replay/insert_wait_avg": 3.3128488940828826e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.29266558291152e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0466396808624, "timer/env.step_count": 1468.0, "timer/env.step_total": 15.82645320892334, "timer/env.step_frac": 0.05274664374097566, "timer/env.step_avg": 0.010780962676378297, "timer/env.step_min": 0.0028505325317382812, "timer/env.step_max": 1.627838134765625, "timer/replay.add_count": 1468.0, "timer/replay.add_total": 0.30520081520080566, "timer/replay.add_frac": 0.001017177914491645, "timer/replay.add_avg": 0.00020790246267084854, "timer/replay.add_min": 7.534027099609375e-05, "timer/replay.add_max": 0.0054094791412353516, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03155875205993652, "timer/logger.write_frac": 0.00010517948840721313, "timer/logger.write_avg": 0.03155875205993652, "timer/logger.write_min": 0.03155875205993652, "timer/logger.write_max": 0.03155875205993652, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1468.0, "timer/agent.policy_total": 10.765774250030518, "timer/agent.policy_frac": 0.03588033600869945, "timer/agent.policy_avg": 0.007333633685306892, "timer/agent.policy_min": 0.00581812858581543, "timer/agent.policy_max": 0.017096519470214844, "timer/dataset_count": 734.0, "timer/dataset_total": 0.059156179428100586, "timer/dataset_frac": 0.00019715661368852747, "timer/dataset_avg": 8.059424990204439e-05, "timer/dataset_min": 5.936622619628906e-05, "timer/dataset_max": 0.00020623207092285156, "timer/agent.train_count": 734.0, "timer/agent.train_total": 272.3982262611389, "timer/agent.train_frac": 0.9078529476313046, "timer/agent.train_avg": 0.3711147496745762, "timer/agent.train_min": 0.3641645908355713, "timer/agent.train_max": 0.38717198371887207, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21766448020935059, "timer/agent.report_frac": 0.0007254354870991533, "timer/agent.report_avg": 0.21766448020935059, "timer/agent.report_min": 0.21766448020935059, "timer/agent.report_max": 0.21766448020935059, "fps": 4.892514676109929}
{"step": 1004078, "episode/length": 400.0, "episode/score": 13.099999964237213, "episode/sum_abs_reward": 14.699999988079071, "episode/reward_rate": 0.034912718204488775}
{"step": 1004293, "episode/length": 214.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.05581395348837209}
{"step": 1004489, "episode/length": 195.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.300000041723251, "episode/reward_rate": 0.0663265306122449}
{"step": 1004688, "episode/length": 198.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.06030150753768844}
{"step": 1004736, "episode/length": 47.0, "episode/score": 5.0999999940395355, "episode/sum_abs_reward": 6.9000000059604645, "episode/reward_rate": 0.14583333333333334}
{"step": 1004966, "episode/length": 229.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 13.500000014901161, "episode/reward_rate": 0.05217391304347826}
{"step": 1005285, "episode/length": 318.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.700000040233135, "episode/reward_rate": 0.04075235109717868}
{"step": 1005295, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.460121154785156, "train/action_min": 0.0, "train/action_std": 3.3026964399549694, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.037872119418655835, "train/actor_opt_grad_steps": 501735.0, "train/actor_opt_loss": -11.829872368912524, "train/adv_mag": 0.36511966296368176, "train/adv_max": 0.29959517655273277, "train/adv_mean": 0.001949800493927493, "train/adv_min": -0.33941848513980705, "train/adv_std": 0.04231991282560759, "train/cont_avg": 0.9952256944444444, "train/cont_loss_mean": 6.567817337677084e-05, "train/cont_loss_std": 0.002051873755250671, "train/cont_neg_acc": 0.9965277777777778, "train/cont_neg_loss": 0.013614628601399344, "train/cont_pos_acc": 0.999999982615312, "train/cont_pos_loss": 1.235920958785207e-05, "train/cont_pred": 0.9952303692698479, "train/cont_rate": 0.9952256944444444, "train/dyn_loss_mean": 5.5651003453466625, "train/dyn_loss_std": 8.933490263091194, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9189102525512377, "train/extr_critic_critic_opt_grad_steps": 501735.0, "train/extr_critic_critic_opt_loss": 15334.584025065104, "train/extr_critic_mag": 12.330594102541605, "train/extr_critic_max": 12.330594102541605, "train/extr_critic_mean": 3.911618944671419, "train/extr_critic_min": -0.36728713578648037, "train/extr_critic_std": 2.941349681880739, "train/extr_return_normed_mag": 1.357585276166598, "train/extr_return_normed_max": 1.357585276166598, "train/extr_return_normed_mean": 0.4040239602327347, "train/extr_return_normed_min": -0.07683667638856503, "train/extr_return_normed_std": 0.3093843495266305, "train/extr_return_rate": 0.8726083743903372, "train/extr_return_raw_mag": 13.077603684531319, "train/extr_return_raw_max": 13.077603684531319, "train/extr_return_raw_mean": 3.9303148455089993, "train/extr_return_raw_min": -0.6825535429848565, "train/extr_return_raw_std": 2.9679108262062073, "train/extr_reward_mag": 1.07428644100825, "train/extr_reward_max": 1.07428644100825, "train/extr_reward_mean": 0.06327360759799679, "train/extr_reward_min": -0.6181281937493218, "train/extr_reward_std": 0.24181288791199526, "train/image_loss_mean": 3.2601247661643558, "train/image_loss_std": 8.590263227621714, "train/model_loss_mean": 6.657455113199022, "train/model_loss_std": 12.763162043359545, "train/model_opt_grad_norm": 20.41799904240502, "train/model_opt_grad_steps": 501324.2638888889, "train/model_opt_loss": 19118.9697265625, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2916.6666666666665, "train/policy_entropy_mag": 2.6767730679776935, "train/policy_entropy_max": 2.6767730679776935, "train/policy_entropy_mean": 0.3938171054340071, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5956345192260213, "train/policy_logprob_mag": 7.438384340869056, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3938996738029851, "train/policy_logprob_min": -7.438384340869056, "train/policy_logprob_std": 1.0227915578418307, "train/policy_randomness_mag": 0.9447834251655473, "train/policy_randomness_max": 0.9447834251655473, "train/policy_randomness_mean": 0.13900015513516134, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21023284581800303, "train/post_ent_mag": 55.18336746427748, "train/post_ent_max": 55.18336746427748, "train/post_ent_mean": 40.300550884670685, "train/post_ent_min": 19.618596606784397, "train/post_ent_std": 5.781287776099311, "train/prior_ent_mag": 76.84118631150987, "train/prior_ent_max": 76.84118631150987, "train/prior_ent_mean": 45.86521975199381, "train/prior_ent_min": 27.45738877190484, "train/prior_ent_std": 7.873186568419139, "train/rep_loss_mean": 5.5651003453466625, "train/rep_loss_std": 8.933490263091194, "train/reward_avg": 0.04386528871125645, "train/reward_loss_mean": 0.05820446973666549, "train/reward_loss_std": 0.22103958225084674, "train/reward_max_data": 1.0305555628405676, "train/reward_max_pred": 1.03106399708324, "train/reward_neg_acc": 0.9934948003954358, "train/reward_neg_loss": 0.02454477799538937, "train/reward_pos_acc": 0.9911484718322754, "train/reward_pos_loss": 0.7237082637018628, "train/reward_pred": 0.04363591834488842, "train/reward_rate": 0.04823133680555555, "stats/sum_log_reward": 10.671428748539515, "stats/max_log_achievement_collect_coal": 1.2857142857142858, "stats/max_log_achievement_collect_drink": 3.5714285714285716, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.1428571428571428, "stats/max_log_achievement_collect_stone": 16.428571428571427, "stats/max_log_achievement_collect_wood": 10.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.2857142857142858, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.5714285714285714, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.8571428571428572, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 3.857142857142857, "stats/max_log_achievement_place_table": 2.5714285714285716, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.5077657316412244, "replay/size": 1000000.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.2448867000280746e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3339306334189896e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0294396877289, "timer/env.step_count": 1454.0, "timer/env.step_total": 18.551538467407227, "timer/env.step_frac": 0.061832393803473745, "timer/env.step_avg": 0.012758967309083375, "timer/env.step_min": 0.00272369384765625, "timer/env.step_max": 1.6018893718719482, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.29452991485595703, "timer/replay.add_frac": 0.0009816700493208408, "timer/replay.add_avg": 0.00020256527844288654, "timer/replay.add_min": 8.034706115722656e-05, "timer/replay.add_max": 0.002434253692626953, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0218045711517334, "timer/logger.write_frac": 7.267477209712364e-05, "timer/logger.write_avg": 0.0218045711517334, "timer/logger.write_min": 0.0218045711517334, "timer/logger.write_max": 0.0218045711517334, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 10.7192223072052, "timer/agent.policy_frac": 0.03572723502854181, "timer/agent.policy_avg": 0.007372229922424484, "timer/agent.policy_min": 0.00584721565246582, "timer/agent.policy_max": 0.01306462287902832, "timer/dataset_count": 727.0, "timer/dataset_total": 0.05952930450439453, "timer/dataset_frac": 0.00019841154443494855, "timer/dataset_avg": 8.188350000604475e-05, "timer/dataset_min": 6.079673767089844e-05, "timer/dataset_max": 0.00015854835510253906, "timer/agent.train_count": 727.0, "timer/agent.train_total": 269.7196834087372, "timer/agent.train_frac": 0.8989773926500741, "timer/agent.train_avg": 0.3710036910711653, "timer/agent.train_min": 0.36475133895874023, "timer/agent.train_max": 0.38425230979919434, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2167203426361084, "timer/agent.report_frac": 0.0007223302581962333, "timer/agent.report_avg": 0.2167203426361084, "timer/agent.report_min": 0.2167203426361084, "timer/agent.report_max": 0.2167203426361084, "fps": 4.8461060118384625}
{"step": 1005458, "episode/length": 172.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06358381502890173}
{"step": 1005688, "episode/length": 229.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.10000003874302, "episode/reward_rate": 0.06521739130434782}
{"step": 1005990, "episode/length": 301.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.700000040233135, "episode/reward_rate": 0.04966887417218543}
{"step": 1006247, "episode/length": 256.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.054474708171206226}
{"step": 1006473, "episode/length": 225.0, "episode/score": 13.100000038743019, "episode/sum_abs_reward": 16.10000006854534, "episode/reward_rate": 0.06637168141592921}
{"step": 1006729, "episode/length": 255.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.500000022351742, "episode/reward_rate": 0.0625}
{"step": 1006733, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.344822353786892, "train/action_min": 0.0, "train/action_std": 3.2100614806016288, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038660516341527305, "train/actor_opt_grad_steps": 502455.0, "train/actor_opt_loss": -12.664317432377073, "train/adv_mag": 0.41748858036266434, "train/adv_max": 0.32169038740297157, "train/adv_mean": 0.0017934190106656286, "train/adv_min": -0.3956471395989259, "train/adv_std": 0.04377694345182843, "train/cont_avg": 0.9946560329861112, "train/cont_loss_mean": 2.021308619898971e-05, "train/cont_loss_std": 0.0005673947068526925, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00023919933211067088, "train/cont_pos_acc": 0.999999982615312, "train/cont_pos_loss": 1.8989171512847253e-05, "train/cont_pred": 0.9946410515242152, "train/cont_rate": 0.9946560329861112, "train/dyn_loss_mean": 5.7025768756866455, "train/dyn_loss_std": 8.90884076886707, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8887353266278902, "train/extr_critic_critic_opt_grad_steps": 502455.0, "train/extr_critic_critic_opt_loss": 15382.801540798611, "train/extr_critic_mag": 12.449025538232592, "train/extr_critic_max": 12.449025538232592, "train/extr_critic_mean": 4.06931025452084, "train/extr_critic_min": -0.31436531245708466, "train/extr_critic_std": 3.0025825930966272, "train/extr_return_normed_mag": 1.3679615375068452, "train/extr_return_normed_max": 1.3679615375068452, "train/extr_return_normed_mean": 0.41882890090346336, "train/extr_return_normed_min": -0.07185137295164168, "train/extr_return_normed_std": 0.3143295072433021, "train/extr_return_rate": 0.8757975680960549, "train/extr_return_raw_mag": 13.247097783618504, "train/extr_return_raw_max": 13.247097783618504, "train/extr_return_raw_mean": 4.086632185512119, "train/extr_return_raw_min": -0.6497128821081586, "train/extr_return_raw_std": 3.0339451829592385, "train/extr_reward_mag": 1.0724514292346106, "train/extr_reward_max": 1.0724514292346106, "train/extr_reward_mean": 0.06504032517679864, "train/extr_reward_min": -0.5515146652857462, "train/extr_reward_std": 0.24489202039937177, "train/image_loss_mean": 3.283283139268557, "train/image_loss_std": 8.68778332736757, "train/model_loss_mean": 6.76450166437361, "train/model_loss_std": 12.81006415685018, "train/model_opt_grad_norm": 24.538608802689446, "train/model_opt_grad_steps": 502043.2638888889, "train/model_opt_loss": 10589.673366970486, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1579.861111111111, "train/policy_entropy_mag": 2.656010342968835, "train/policy_entropy_max": 2.656010342968835, "train/policy_entropy_mean": 0.361820659496718, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.553222311867608, "train/policy_logprob_mag": 7.438384301132626, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36268162520395386, "train/policy_logprob_min": -7.438384301132626, "train/policy_logprob_std": 0.9982026351822747, "train/policy_randomness_mag": 0.9374550945229001, "train/policy_randomness_max": 0.9374550945229001, "train/policy_randomness_mean": 0.1277068153851562, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19526319868034786, "train/post_ent_mag": 55.418617725372314, "train/post_ent_max": 55.418617725372314, "train/post_ent_mean": 40.12195237477621, "train/post_ent_min": 19.56792488363054, "train/post_ent_std": 5.766565197043949, "train/prior_ent_mag": 76.73405890994601, "train/prior_ent_max": 76.73405890994601, "train/prior_ent_mean": 45.84257226520114, "train/prior_ent_min": 27.65133288171556, "train/prior_ent_std": 7.833787341912587, "train/rep_loss_mean": 5.7025768756866455, "train/rep_loss_std": 8.90884076886707, "train/reward_avg": 0.04587809198225538, "train/reward_loss_mean": 0.05965220840233895, "train/reward_loss_std": 0.21273139491677284, "train/reward_max_data": 1.0194444490803614, "train/reward_max_pred": 1.0194319387276967, "train/reward_neg_acc": 0.9928564007083575, "train/reward_neg_loss": 0.024746193343566522, "train/reward_pos_acc": 0.9930836392773522, "train/reward_pos_loss": 0.7141244361797968, "train/reward_pred": 0.04565040679234597, "train/reward_rate": 0.050591362847222224, "stats/sum_log_reward": 13.266666889190674, "stats/max_log_achievement_collect_coal": 1.6666666666666667, "stats/max_log_achievement_collect_drink": 2.3333333333333335, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.3333333333333335, "stats/max_log_achievement_collect_stone": 22.666666666666668, "stats/max_log_achievement_collect_wood": 16.333333333333332, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.8333333333333333, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_stone_sword": 1.5, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.5, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 5.166666666666667, "stats/max_log_achievement_place_table": 4.333333333333333, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.4231376200914383, "replay/size": 1000000.0, "replay/inserts": 1438.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.3570927605343795e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3302032407036412e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.09250259399414, "timer/env.step_count": 1438.0, "timer/env.step_total": 19.74643325805664, "timer/env.step_frac": 0.06580115493512444, "timer/env.step_avg": 0.013731872919371795, "timer/env.step_min": 0.0029344558715820312, "timer/env.step_max": 2.3592162132263184, "timer/replay.add_count": 1438.0, "timer/replay.add_total": 0.32242298126220703, "timer/replay.add_frac": 0.001074411984555391, "timer/replay.add_avg": 0.00022421625957038042, "timer/replay.add_min": 8.463859558105469e-05, "timer/replay.add_max": 0.0047740936279296875, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.035581350326538086, "timer/logger.write_frac": 0.00011856794161458064, "timer/logger.write_avg": 0.035581350326538086, "timer/logger.write_min": 0.035581350326538086, "timer/logger.write_max": 0.035581350326538086, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00027251243591308594, "timer/checkpoint.save_frac": 9.080947826336659e-07, "timer/checkpoint.save_avg": 0.00027251243591308594, "timer/checkpoint.save_min": 0.00027251243591308594, "timer/checkpoint.save_max": 0.00027251243591308594, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.465341567993164, "timer/agent.save_frac": 0.004882966269822732, "timer/agent.save_avg": 1.465341567993164, "timer/agent.save_min": 1.465341567993164, "timer/agent.save_max": 1.465341567993164, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.367134094238281e-05, "timer/replay.save_frac": 2.4549543992458685e-07, "timer/replay.save_avg": 7.367134094238281e-05, "timer/replay.save_min": 7.367134094238281e-05, "timer/replay.save_max": 7.367134094238281e-05, "timer/agent.policy_count": 1438.0, "timer/agent.policy_total": 12.174822807312012, "timer/agent.policy_frac": 0.0405702331850115, "timer/agent.policy_avg": 0.008466497084361622, "timer/agent.policy_min": 0.005606889724731445, "timer/agent.policy_max": 1.4634883403778076, "timer/dataset_count": 719.0, "timer/dataset_total": 0.05872654914855957, "timer/dataset_frac": 0.0001956948228993672, "timer/dataset_avg": 8.167809339159884e-05, "timer/dataset_min": 6.079673767089844e-05, "timer/dataset_max": 0.00013685226440429688, "timer/agent.train_count": 719.0, "timer/agent.train_total": 267.0955195426941, "timer/agent.train_frac": 0.8900439605585787, "timer/agent.train_avg": 0.3714819465127873, "timer/agent.train_min": 0.36482810974121094, "timer/agent.train_max": 0.7963016033172607, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21901893615722656, "timer/agent.report_frac": 0.000729838080805188, "timer/agent.report_avg": 0.21901893615722656, "timer/agent.report_min": 0.21901893615722656, "timer/agent.report_max": 0.21901893615722656, "fps": 4.791754545225407}
{"step": 1006928, "episode/length": 198.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06030150753768844}
{"step": 1007094, "episode/length": 165.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.07228915662650602}
{"step": 1007343, "episode/length": 248.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.05622489959839357}
{"step": 1007564, "episode/length": 220.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.06334841628959276}
{"step": 1007702, "episode/length": 137.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.500000022351742, "episode/reward_rate": 0.057971014492753624}
{"step": 1007920, "episode/length": 217.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.06880733944954129}
{"step": 1008141, "episode/length": 220.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.04072398190045249}
{"step": 1008189, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.401734234535531, "train/action_min": 0.0, "train/action_std": 3.2243428752846914, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.037770225168907476, "train/actor_opt_grad_steps": 503180.0, "train/actor_opt_loss": -12.872995356990867, "train/adv_mag": 0.3841203363382653, "train/adv_max": 0.3400141841744723, "train/adv_mean": 0.0015628690865213846, "train/adv_min": -0.3325341394911074, "train/adv_std": 0.04252940977681173, "train/cont_avg": 0.994769370719178, "train/cont_loss_mean": 6.250078523681959e-05, "train/cont_loss_std": 0.001931865729355737, "train/cont_neg_acc": 0.9955479453687799, "train/cont_neg_loss": 0.008530829343873874, "train/cont_pos_acc": 0.9999999804039524, "train/cont_pos_loss": 1.2651003491064112e-05, "train/cont_pred": 0.9947806874366656, "train/cont_rate": 0.994769370719178, "train/dyn_loss_mean": 5.614499699579526, "train/dyn_loss_std": 8.891978799480281, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9044772149765328, "train/extr_critic_critic_opt_grad_steps": 503180.0, "train/extr_critic_critic_opt_loss": 15331.077844071062, "train/extr_critic_mag": 12.50963472340205, "train/extr_critic_max": 12.50963472340205, "train/extr_critic_mean": 3.972605773847397, "train/extr_critic_min": -0.3678222274127072, "train/extr_critic_std": 3.017125515088643, "train/extr_return_normed_mag": 1.3641090425726485, "train/extr_return_normed_max": 1.3641090425726485, "train/extr_return_normed_mean": 0.4095713875881613, "train/extr_return_normed_min": -0.076413606331773, "train/extr_return_normed_std": 0.31602706647899054, "train/extr_return_rate": 0.8739717586399758, "train/extr_return_raw_mag": 13.180273617783637, "train/extr_return_raw_max": 13.180273617783637, "train/extr_return_raw_mean": 3.9876537845559317, "train/extr_return_raw_min": -0.691723012352643, "train/extr_return_raw_std": 3.0436853774606365, "train/extr_reward_mag": 1.0795855750776318, "train/extr_reward_max": 1.0795855750776318, "train/extr_reward_mean": 0.06352283035035003, "train/extr_reward_min": -0.6084329069477238, "train/extr_reward_std": 0.24196954704310797, "train/image_loss_mean": 3.2770805015955884, "train/image_loss_std": 8.552025788450894, "train/model_loss_mean": 6.70528246605233, "train/model_loss_std": 12.698238581827242, "train/model_opt_grad_norm": 22.241666441094385, "train/model_opt_grad_steps": 502768.0, "train/model_opt_loss": 11254.968321917808, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1695.2054794520548, "train/policy_entropy_mag": 2.687769938821662, "train/policy_entropy_max": 2.687769938821662, "train/policy_entropy_mean": 0.39714816090178817, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6069457784090957, "train/policy_logprob_mag": 7.438384284711864, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39593692981217005, "train/policy_logprob_min": -7.438384284711864, "train/policy_logprob_std": 1.0232386074654043, "train/policy_randomness_mag": 0.9486648366875845, "train/policy_randomness_max": 0.9486648366875845, "train/policy_randomness_mean": 0.1401758740005428, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21422522219076548, "train/post_ent_mag": 55.73204766887508, "train/post_ent_max": 55.73204766887508, "train/post_ent_mean": 40.32494234058955, "train/post_ent_min": 19.49302660275812, "train/post_ent_std": 5.82368686101208, "train/prior_ent_mag": 76.72998747107101, "train/prior_ent_max": 76.72998747107101, "train/prior_ent_mean": 45.95596271671661, "train/prior_ent_min": 27.715640734319816, "train/prior_ent_std": 7.8838290319050826, "train/rep_loss_mean": 5.614499699579526, "train/rep_loss_std": 8.891978799480281, "train/reward_avg": 0.04631314225086611, "train/reward_loss_mean": 0.059439630643145676, "train/reward_loss_std": 0.2136390207156743, "train/reward_max_data": 1.0328767201671862, "train/reward_max_pred": 1.0325545807407326, "train/reward_neg_acc": 0.9938025188772646, "train/reward_neg_loss": 0.024179588390948022, "train/reward_pos_acc": 0.9917438814084824, "train/reward_pos_loss": 0.7208601497624019, "train/reward_pred": 0.04584320586123695, "train/reward_rate": 0.05079462756849315, "stats/sum_log_reward": 11.100000313350133, "stats/max_log_achievement_collect_coal": 0.42857142857142855, "stats/max_log_achievement_collect_drink": 2.4285714285714284, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 9.714285714285714, "stats/max_log_achievement_collect_wood": 14.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.4285714285714286, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.42857142857142855, "stats/max_log_achievement_make_stone_sword": 0.8571428571428571, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.1428571428571428, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 2.2857142857142856, "stats/max_log_achievement_place_table": 3.4285714285714284, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.337457788842065, "replay/size": 1000000.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.334257628891494e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2959097767924214e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1980152130127, "timer/env.step_count": 1456.0, "timer/env.step_total": 18.377174377441406, "timer/env.step_frac": 0.06121684170497077, "timer/env.step_avg": 0.012621685698792174, "timer/env.step_min": 0.0029039382934570312, "timer/env.step_max": 1.5657193660736084, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.30317091941833496, "timer/replay.add_frac": 0.001009903144107108, "timer/replay.add_avg": 0.0002082217853147905, "timer/replay.add_min": 7.724761962890625e-05, "timer/replay.add_max": 0.005419015884399414, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029092073440551758, "timer/logger.write_frac": 9.690961287638354e-05, "timer/logger.write_avg": 0.029092073440551758, "timer/logger.write_min": 0.029092073440551758, "timer/logger.write_max": 0.029092073440551758, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 10.643916606903076, "timer/agent.policy_frac": 0.03545631905444288, "timer/agent.policy_avg": 0.007310382284960904, "timer/agent.policy_min": 0.005749702453613281, "timer/agent.policy_max": 0.017084121704101562, "timer/dataset_count": 728.0, "timer/dataset_total": 0.05931496620178223, "timer/dataset_frac": 0.00019758613713582974, "timer/dataset_avg": 8.147660192552504e-05, "timer/dataset_min": 6.151199340820312e-05, "timer/dataset_max": 0.00016427040100097656, "timer/agent.train_count": 728.0, "timer/agent.train_total": 270.11600375175476, "timer/agent.train_frac": 0.8997927703155781, "timer/agent.train_avg": 0.3710384666919708, "timer/agent.train_min": 0.3644828796386719, "timer/agent.train_max": 0.3850102424621582, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2214336395263672, "timer/agent.report_frac": 0.0007376252616768423, "timer/agent.report_avg": 0.2214336395263672, "timer/agent.report_min": 0.2214336395263672, "timer/agent.report_max": 0.2214336395263672, "fps": 4.850037019603298}
{"step": 1008456, "episode/length": 314.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.30000003427267, "episode/reward_rate": 0.047619047619047616}
{"step": 1008632, "episode/length": 175.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.08522727272727272}
{"step": 1008840, "episode/length": 207.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.07211538461538461}
{"step": 1009074, "episode/length": 233.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.700000047683716, "episode/reward_rate": 0.05982905982905983}
{"step": 1009391, "episode/length": 316.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.0473186119873817}
{"step": 1009599, "episode/length": 207.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.057692307692307696}
{"step": 1009651, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.421857441941353, "train/action_min": 0.0, "train/action_std": 3.3074250939774186, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03779448823977823, "train/actor_opt_grad_steps": 503910.0, "train/actor_opt_loss": -12.106014406129923, "train/adv_mag": 0.3585348598761101, "train/adv_max": 0.30971676560297406, "train/adv_mean": 0.0015439032539477124, "train/adv_min": -0.333742475264693, "train/adv_std": 0.04256540307239311, "train/cont_avg": 0.9947024828767124, "train/cont_loss_mean": 2.517199474018179e-05, "train/cont_loss_std": 0.0007583491072682474, "train/cont_neg_acc": 0.9954337902265052, "train/cont_neg_loss": 0.005948966953450756, "train/cont_pos_acc": 0.9999999820369564, "train/cont_pos_loss": 7.674404953062842e-06, "train/cont_pred": 0.9947062649138986, "train/cont_rate": 0.9947024828767124, "train/dyn_loss_mean": 5.565202425603998, "train/dyn_loss_std": 8.957278891785505, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.880608226338478, "train/extr_critic_critic_opt_grad_steps": 503910.0, "train/extr_critic_critic_opt_loss": 15412.04225973887, "train/extr_critic_mag": 12.363821473840165, "train/extr_critic_max": 12.363821473840165, "train/extr_critic_mean": 3.9104791308102542, "train/extr_critic_min": -0.3893998289761478, "train/extr_critic_std": 3.0026180417570347, "train/extr_return_normed_mag": 1.3791586781201297, "train/extr_return_normed_max": 1.3791586781201297, "train/extr_return_normed_mean": 0.40705352450070315, "train/extr_return_normed_min": -0.08365731900685454, "train/extr_return_normed_std": 0.3173324704578478, "train/extr_return_rate": 0.8640027919860735, "train/extr_return_raw_mag": 13.190904930846331, "train/extr_return_raw_max": 13.190904930846331, "train/extr_return_raw_mean": 3.9251932248677295, "train/extr_return_raw_min": -0.7522515850524379, "train/extr_return_raw_std": 3.0247966492012757, "train/extr_reward_mag": 1.0728648394754488, "train/extr_reward_max": 1.0728648394754488, "train/extr_reward_mean": 0.06424721095659962, "train/extr_reward_min": -0.6506184976394862, "train/extr_reward_std": 0.24344979491952348, "train/image_loss_mean": 3.2472887986326873, "train/image_loss_std": 8.505579105795245, "train/model_loss_mean": 6.645765879382826, "train/model_loss_std": 12.664109334553757, "train/model_opt_grad_norm": 20.970680066983995, "train/model_opt_grad_steps": 503498.0, "train/model_opt_loss": 16614.414637735445, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.699822089443468, "train/policy_entropy_max": 2.699822089443468, "train/policy_entropy_mean": 0.3899226633653249, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5997701805748351, "train/policy_logprob_mag": 7.4383843369679905, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39174470509568304, "train/policy_logprob_min": -7.4383843369679905, "train/policy_logprob_std": 1.02817623256004, "train/policy_randomness_mag": 0.9529187173059542, "train/policy_randomness_max": 0.9529187173059542, "train/policy_randomness_mean": 0.137625589558523, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.211692554493473, "train/post_ent_mag": 55.6141215807771, "train/post_ent_max": 55.6141215807771, "train/post_ent_mean": 40.28290782562674, "train/post_ent_min": 19.564920699759707, "train/post_ent_std": 5.780606446200854, "train/prior_ent_mag": 76.83926046711125, "train/prior_ent_max": 76.83926046711125, "train/prior_ent_mean": 45.8237195994756, "train/prior_ent_min": 27.71963623778461, "train/prior_ent_std": 7.951653774470499, "train/rep_loss_mean": 5.565202425603998, "train/rep_loss_std": 8.957278891785505, "train/reward_avg": 0.04394397430428087, "train/reward_loss_mean": 0.0593304562140001, "train/reward_loss_std": 0.21783464391754098, "train/reward_max_data": 1.0246575401253897, "train/reward_max_pred": 1.0220607339519343, "train/reward_neg_acc": 0.9931789514136641, "train/reward_neg_loss": 0.025429904830884444, "train/reward_pos_acc": 0.990392508572095, "train/reward_pos_loss": 0.7223750752945469, "train/reward_pred": 0.043582220217340616, "train/reward_rate": 0.04854719606164384, "stats/sum_log_reward": 13.43333371480306, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 4.833333333333333, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 11.5, "stats/max_log_achievement_collect_wood": 14.5, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 2.5, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 1.1666666666666667, "stats/max_log_achievement_make_wood_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 3.3333333333333335, "stats/max_log_achievement_place_table": 3.5, "stats/max_log_achievement_wake_up": 1.6666666666666667, "stats/mean_log_entropy": 0.5345208992560705, "replay/size": 1000000.0, "replay/inserts": 1462.0, "replay/samples": 11696.0, "replay/insert_wait_avg": 3.4019493697932254e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.287452173298263e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.29909110069275, "timer/env.step_count": 1462.0, "timer/env.step_total": 17.248621463775635, "timer/env.step_frac": 0.05743814075678314, "timer/env.step_avg": 0.011797962697520955, "timer/env.step_min": 0.003086566925048828, "timer/env.step_max": 1.6357474327087402, "timer/replay.add_count": 1462.0, "timer/replay.add_total": 0.3140292167663574, "timer/replay.add_frac": 0.001045721502570452, "timer/replay.add_avg": 0.00021479426591406117, "timer/replay.add_min": 8.058547973632812e-05, "timer/replay.add_max": 0.0045166015625, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0310060977935791, "timer/logger.write_frac": 0.00010325072140555532, "timer/logger.write_avg": 0.0310060977935791, "timer/logger.write_min": 0.0310060977935791, "timer/logger.write_max": 0.0310060977935791, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1462.0, "timer/agent.policy_total": 10.636965274810791, "timer/agent.policy_frac": 0.035421236993501685, "timer/agent.policy_avg": 0.007275626042962237, "timer/agent.policy_min": 0.005660295486450195, "timer/agent.policy_max": 0.018811702728271484, "timer/dataset_count": 731.0, "timer/dataset_total": 0.05896735191345215, "timer/dataset_frac": 0.0001963620725501294, "timer/dataset_avg": 8.066669208406587e-05, "timer/dataset_min": 5.91278076171875e-05, "timer/dataset_max": 0.00013685226440429688, "timer/agent.train_count": 731.0, "timer/agent.train_total": 271.3468863964081, "timer/agent.train_frac": 0.9035887701219291, "timer/agent.train_avg": 0.3711995709937183, "timer/agent.train_min": 0.36506009101867676, "timer/agent.train_max": 0.3854258060455322, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21856069564819336, "timer/agent.report_frac": 0.0007278100471336696, "timer/agent.report_avg": 0.21856069564819336, "timer/agent.report_min": 0.21856069564819336, "timer/agent.report_max": 0.21856069564819336, "fps": 4.868380044092727}
{"step": 1009799, "episode/length": 199.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 16.30000003427267, "episode/reward_rate": 0.07}
{"step": 1009974, "episode/length": 174.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.07428571428571429}
{"step": 1010095, "episode/length": 120.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.09090909090909091}
{"step": 1010300, "episode/length": 204.0, "episode/score": 13.099999994039536, "episode/sum_abs_reward": 15.100000008940697, "episode/reward_rate": 0.07317073170731707}
{"step": 1010513, "episode/length": 212.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.06572769953051644}
{"step": 1010693, "episode/length": 179.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.07777777777777778}
{"step": 1011014, "episode/length": 320.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.04361370716510903}
{"step": 1011087, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.465539720323351, "train/action_min": 0.0, "train/action_std": 3.325663020213445, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03760944534507063, "train/actor_opt_grad_steps": 504635.0, "train/actor_opt_loss": -12.138691467750403, "train/adv_mag": 0.38577641877863145, "train/adv_max": 0.3241207030498319, "train/adv_mean": 0.00175999635777973, "train/adv_min": -0.3464140635397699, "train/adv_std": 0.042822605619827904, "train/cont_avg": 0.9947509765625, "train/cont_loss_mean": 2.4068741927729675e-05, "train/cont_loss_std": 0.0007292193667431452, "train/cont_neg_acc": 0.9953703706463178, "train/cont_neg_loss": 0.0035486809944641116, "train/cont_pos_acc": 0.999999982615312, "train/cont_pos_loss": 1.3535633799799385e-05, "train/cont_pred": 0.9947467984424697, "train/cont_rate": 0.9947509765625, "train/dyn_loss_mean": 5.614758451779683, "train/dyn_loss_std": 8.949525482124752, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8776457019978099, "train/extr_critic_critic_opt_grad_steps": 504635.0, "train/extr_critic_critic_opt_loss": 15304.162679036459, "train/extr_critic_mag": 12.437285900115967, "train/extr_critic_max": 12.437285900115967, "train/extr_critic_mean": 3.9108787178993225, "train/extr_critic_min": -0.41849198440710705, "train/extr_critic_std": 3.0421019792556763, "train/extr_return_normed_mag": 1.3761094742351108, "train/extr_return_normed_max": 1.3761094742351108, "train/extr_return_normed_mean": 0.41052351105544305, "train/extr_return_normed_min": -0.07563733570795092, "train/extr_return_normed_std": 0.321557695666949, "train/extr_return_rate": 0.8424985963437293, "train/extr_return_raw_mag": 13.152012983957926, "train/extr_return_raw_max": 13.152012983957926, "train/extr_return_raw_mean": 3.927682919634713, "train/extr_return_raw_min": -0.7168785341911845, "train/extr_return_raw_std": 3.0719495349460177, "train/extr_reward_mag": 1.0740891695022583, "train/extr_reward_max": 1.0740891695022583, "train/extr_reward_mean": 0.06459574380682574, "train/extr_reward_min": -0.6222711818085777, "train/extr_reward_std": 0.24370613073309264, "train/image_loss_mean": 3.4201957003937826, "train/image_loss_std": 8.737839632564121, "train/model_loss_mean": 6.848758419354756, "train/model_loss_std": 12.876847638024223, "train/model_opt_grad_norm": 21.708444264199997, "train/model_opt_grad_steps": 504222.19444444444, "train/model_opt_loss": 20214.62430826823, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2951.3888888888887, "train/policy_entropy_mag": 2.6959109405676522, "train/policy_entropy_max": 2.6959109405676522, "train/policy_entropy_mean": 0.403449858021405, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6160974535677168, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4025893687374062, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 1.0303616954220667, "train/policy_randomness_mag": 0.9515382548173269, "train/policy_randomness_max": 0.9515382548173269, "train/policy_randomness_mean": 0.1424000948253605, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21745536497069728, "train/post_ent_mag": 55.72608412636651, "train/post_ent_max": 55.72608412636651, "train/post_ent_mean": 40.2918258772956, "train/post_ent_min": 19.67803366978963, "train/post_ent_std": 5.897462930944231, "train/prior_ent_mag": 76.88485940297444, "train/prior_ent_max": 76.88485940297444, "train/prior_ent_mean": 45.87246243158976, "train/prior_ent_min": 27.755724986394245, "train/prior_ent_std": 7.975124412112766, "train/rep_loss_mean": 5.614758451779683, "train/rep_loss_std": 8.949525482124752, "train/reward_avg": 0.04483642550702724, "train/reward_loss_mean": 0.05968361192693313, "train/reward_loss_std": 0.21759228284160295, "train/reward_max_data": 1.027777784400516, "train/reward_max_pred": 1.0249552362494998, "train/reward_neg_acc": 0.992985326382849, "train/reward_neg_loss": 0.025458111557074718, "train/reward_pos_acc": 0.992232749859492, "train/reward_pos_loss": 0.7202198786867989, "train/reward_pred": 0.04460950669211646, "train/reward_rate": 0.04946560329861111, "stats/sum_log_reward": 12.52857153756278, "stats/max_log_achievement_collect_coal": 0.42857142857142855, "stats/max_log_achievement_collect_drink": 3.142857142857143, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 13.142857142857142, "stats/max_log_achievement_collect_wood": 11.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.4285714285714286, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.7142857142857143, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 2.7142857142857144, "stats/max_log_achievement_place_table": 2.7142857142857144, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.4400243546281542, "replay/size": 1000000.0, "replay/inserts": 1436.0, "replay/samples": 11488.0, "replay/insert_wait_avg": 3.3126236004417653e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3207451214697367e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3318190574646, "timer/env.step_count": 1436.0, "timer/env.step_total": 20.20898985862732, "timer/env.step_frac": 0.06728887375986156, "timer/env.step_avg": 0.014073112714921532, "timer/env.step_min": 0.002759695053100586, "timer/env.step_max": 1.7857849597930908, "timer/replay.add_count": 1436.0, "timer/replay.add_total": 0.30769920349121094, "timer/replay.add_frac": 0.0010245308154722584, "timer/replay.add_avg": 0.00021427521134485442, "timer/replay.add_min": 8.225440979003906e-05, "timer/replay.add_max": 0.005909442901611328, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025639772415161133, "timer/logger.write_frac": 8.537148176848786e-05, "timer/logger.write_avg": 0.025639772415161133, "timer/logger.write_min": 0.025639772415161133, "timer/logger.write_max": 0.025639772415161133, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00020647048950195312, "timer/checkpoint.save_frac": 6.874745744554215e-07, "timer/checkpoint.save_avg": 0.00020647048950195312, "timer/checkpoint.save_min": 0.00020647048950195312, "timer/checkpoint.save_max": 0.00020647048950195312, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1960957050323486, "timer/agent.save_frac": 0.003982580696198198, "timer/agent.save_avg": 1.1960957050323486, "timer/agent.save_min": 1.1960957050323486, "timer/agent.save_max": 1.1960957050323486, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.200241088867188e-05, "timer/replay.save_frac": 2.397428654567405e-07, "timer/replay.save_avg": 7.200241088867188e-05, "timer/replay.save_min": 7.200241088867188e-05, "timer/replay.save_max": 7.200241088867188e-05, "timer/agent.policy_count": 1436.0, "timer/agent.policy_total": 12.269398212432861, "timer/agent.policy_frac": 0.04085280824035921, "timer/agent.policy_avg": 0.008544149173003385, "timer/agent.policy_min": 0.00588679313659668, "timer/agent.policy_max": 1.1931824684143066, "timer/dataset_count": 718.0, "timer/dataset_total": 0.05876755714416504, "timer/dataset_frac": 0.00019567542769392886, "timer/dataset_avg": 8.184896538184546e-05, "timer/dataset_min": 6.175041198730469e-05, "timer/dataset_max": 0.00014257431030273438, "timer/agent.train_count": 718.0, "timer/agent.train_total": 266.7948741912842, "timer/agent.train_frac": 0.8883336938076363, "timer/agent.train_avg": 0.371580604723237, "timer/agent.train_min": 0.3634307384490967, "timer/agent.train_max": 0.800358772277832, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21951866149902344, "timer/agent.report_frac": 0.000730920427239251, "timer/agent.report_avg": 0.21951866149902344, "timer/agent.report_min": 0.21951866149902344, "timer/agent.report_max": 0.21951866149902344, "fps": 4.781278079568256}
{"step": 1011240, "episode/length": 225.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.06637168141592921}
{"step": 1011284, "episode/length": 43.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 8.899999991059303, "episode/reward_rate": 0.20454545454545456}
{"step": 1011490, "episode/length": 205.0, "episode/score": 14.099999979138374, "episode/sum_abs_reward": 16.700000032782555, "episode/reward_rate": 0.07281553398058252}
{"step": 1011754, "episode/length": 263.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.700000025331974, "episode/reward_rate": 0.06060606060606061}
{"step": 1011798, "episode/length": 43.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.1590909090909091}
{"step": 1012037, "episode/length": 238.0, "episode/score": 12.099999971687794, "episode/sum_abs_reward": 14.900000043213367, "episode/reward_rate": 0.058577405857740586}
{"step": 1012252, "episode/length": 214.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.06976744186046512}
{"step": 1012543, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.370151467519264, "train/action_min": 0.0, "train/action_std": 3.233645207261386, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038722825223860675, "train/actor_opt_grad_steps": 505360.0, "train/actor_opt_loss": -11.843712459280066, "train/adv_mag": 0.40237270663045854, "train/adv_max": 0.33950177610737003, "train/adv_mean": 0.002078340323849211, "train/adv_min": -0.3615217974332914, "train/adv_std": 0.04321485410814416, "train/cont_avg": 0.9948897688356164, "train/cont_loss_mean": 3.828666041350167e-05, "train/cont_loss_std": 0.0011130612144412437, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0005624298048137976, "train/cont_pos_acc": 0.999986522818265, "train/cont_pos_loss": 3.619682966695894e-05, "train/cont_pred": 0.994871344468365, "train/cont_rate": 0.9948897688356164, "train/dyn_loss_mean": 5.572924920957383, "train/dyn_loss_std": 8.93743047975514, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9247634329207955, "train/extr_critic_critic_opt_grad_steps": 505360.0, "train/extr_critic_critic_opt_loss": 15502.21796072346, "train/extr_critic_mag": 12.429507085721786, "train/extr_critic_max": 12.429507085721786, "train/extr_critic_mean": 3.920379847696383, "train/extr_critic_min": -0.36340395065203107, "train/extr_critic_std": 2.9703662820058327, "train/extr_return_normed_mag": 1.3761448598887822, "train/extr_return_normed_max": 1.3761448598887822, "train/extr_return_normed_mean": 0.40861182016869113, "train/extr_return_normed_min": -0.07213147933760734, "train/extr_return_normed_std": 0.3122987363436451, "train/extr_return_rate": 0.872186299872725, "train/extr_return_raw_mag": 13.232531312393816, "train/extr_return_raw_max": 13.232531312393816, "train/extr_return_raw_mean": 3.94033798452926, "train/extr_return_raw_min": -0.6765682705461162, "train/extr_return_raw_std": 2.9990253154545616, "train/extr_reward_mag": 1.0792762351362672, "train/extr_reward_max": 1.0792762351362672, "train/extr_reward_mean": 0.06398716170902122, "train/extr_reward_min": -0.5917947749568991, "train/extr_reward_std": 0.24289657236778572, "train/image_loss_mean": 3.2189198928336573, "train/image_loss_std": 8.298708922242465, "train/model_loss_mean": 6.6223041194759, "train/model_loss_std": 12.482443208563817, "train/model_opt_grad_norm": 22.4254231910183, "train/model_opt_grad_steps": 504946.2191780822, "train/model_opt_loss": 10160.434851241438, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1523.972602739726, "train/policy_entropy_mag": 2.675706742561027, "train/policy_entropy_max": 2.675706742561027, "train/policy_entropy_mean": 0.3772059946435772, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5843720346280973, "train/policy_logprob_mag": 7.438384252051785, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37722536145824276, "train/policy_logprob_min": -7.438384252051785, "train/policy_logprob_std": 1.0106140187341872, "train/policy_randomness_mag": 0.9444070629877587, "train/policy_randomness_max": 0.9444070629877587, "train/policy_randomness_mean": 0.13313716109076593, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20625768336531233, "train/post_ent_mag": 55.069815178440045, "train/post_ent_max": 55.069815178440045, "train/post_ent_mean": 40.104364734806424, "train/post_ent_min": 19.261585196403608, "train/post_ent_std": 5.763823189147531, "train/prior_ent_mag": 76.81056882257332, "train/prior_ent_max": 76.81056882257332, "train/prior_ent_mean": 45.67576855176116, "train/prior_ent_min": 27.696810186725774, "train/prior_ent_std": 7.881406908165919, "train/rep_loss_mean": 5.572924920957383, "train/rep_loss_std": 8.93743047975514, "train/reward_avg": 0.045400791584628904, "train/reward_loss_mean": 0.05959105680454267, "train/reward_loss_std": 0.21556808646411113, "train/reward_max_data": 1.0301369934865874, "train/reward_max_pred": 1.0284814573314092, "train/reward_neg_acc": 0.9939666137303391, "train/reward_neg_loss": 0.024946316783252643, "train/reward_pos_acc": 0.9906616904964186, "train/reward_pos_loss": 0.721018615650804, "train/reward_pred": 0.045091202201908584, "train/reward_rate": 0.04993846318493151, "stats/sum_log_reward": 11.81428575515747, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_iron": 0.2857142857142857, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 13.285714285714286, "stats/max_log_achievement_collect_wood": 12.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.1428571428571428, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.7142857142857143, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.2857142857142858, "stats/max_log_achievement_place_plant": 1.7142857142857142, "stats/max_log_achievement_place_stone": 2.5714285714285716, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 0.8571428571428571, "stats/mean_log_entropy": 0.3881909889834268, "replay/size": 1000000.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.22814826126937e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3900654656546457e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3158702850342, "timer/env.step_count": 1456.0, "timer/env.step_total": 18.744269847869873, "timer/env.step_frac": 0.06241518248795647, "timer/env.step_avg": 0.012873811708701836, "timer/env.step_min": 0.0028824806213378906, "timer/env.step_max": 1.652597427368164, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.3026564121246338, "timer/replay.add_frac": 0.0010077936002428982, "timer/replay.add_avg": 0.00020786841492076498, "timer/replay.add_min": 7.414817810058594e-05, "timer/replay.add_max": 0.004837512969970703, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029134511947631836, "timer/logger.write_frac": 9.701289485627198e-05, "timer/logger.write_avg": 0.029134511947631836, "timer/logger.write_min": 0.029134511947631836, "timer/logger.write_max": 0.029134511947631836, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 10.743698596954346, "timer/agent.policy_frac": 0.03577466148145066, "timer/agent.policy_avg": 0.007378913871534578, "timer/agent.policy_min": 0.005909442901611328, "timer/agent.policy_max": 0.01729607582092285, "timer/dataset_count": 728.0, "timer/dataset_total": 0.059081315994262695, "timer/dataset_frac": 0.0001967305821639987, "timer/dataset_avg": 8.115565383827293e-05, "timer/dataset_min": 6.079673767089844e-05, "timer/dataset_max": 0.0001354217529296875, "timer/agent.train_count": 728.0, "timer/agent.train_total": 269.7817862033844, "timer/agent.train_frac": 0.8983267715666526, "timer/agent.train_avg": 0.37057937665300056, "timer/agent.train_min": 0.3642261028289795, "timer/agent.train_max": 0.3833887577056885, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21764302253723145, "timer/agent.report_frac": 0.0007247136900579489, "timer/agent.report_avg": 0.21764302253723145, "timer/agent.report_min": 0.21764302253723145, "timer/agent.report_max": 0.21764302253723145, "fps": 4.848160510630457}
{"step": 1012696, "episode/length": 443.0, "episode/score": 14.100000023841858, "episode/sum_abs_reward": 17.100000023841858, "episode/reward_rate": 0.036036036036036036}
{"step": 1012881, "episode/length": 184.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.07567567567567568}
{"step": 1013160, "episode/length": 278.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 14.100000008940697, "episode/reward_rate": 0.04659498207885305}
{"step": 1013372, "episode/length": 211.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.500000037252903, "episode/reward_rate": 0.07075471698113207}
{"step": 1013609, "episode/length": 236.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.06329113924050633}
{"step": 1013777, "episode/length": 167.0, "episode/score": 12.100000023841858, "episode/sum_abs_reward": 13.899999976158142, "episode/reward_rate": 0.08333333333333333}
{"step": 1013998, "episode/length": 220.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.058823529411764705}
{"step": 1013999, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.406581094820205, "train/action_min": 0.0, "train/action_std": 3.2837327571764385, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0388174029449894, "train/actor_opt_grad_steps": 506090.0, "train/actor_opt_loss": -12.973481403229988, "train/adv_mag": 0.3976927054663227, "train/adv_max": 0.3315349476386423, "train/adv_mean": 0.0016635759263520674, "train/adv_min": -0.338762200858495, "train/adv_std": 0.042954939175142, "train/cont_avg": 0.9947827482876712, "train/cont_loss_mean": 0.00012271929141130473, "train/cont_loss_std": 0.0038257461747213573, "train/cont_neg_acc": 0.9932648408902834, "train/cont_neg_loss": 0.01940835671769387, "train/cont_pos_acc": 0.9999999836699603, "train/cont_pos_loss": 1.3070380805674774e-05, "train/cont_pred": 0.9948051596341068, "train/cont_rate": 0.9947827482876712, "train/dyn_loss_mean": 5.546497802211814, "train/dyn_loss_std": 8.869774224006967, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9084845275095065, "train/extr_critic_critic_opt_grad_steps": 506090.0, "train/extr_critic_critic_opt_loss": 15383.314346104453, "train/extr_critic_mag": 12.382664667416925, "train/extr_critic_max": 12.382664667416925, "train/extr_critic_mean": 3.947837868781939, "train/extr_critic_min": -0.37170742309256777, "train/extr_critic_std": 2.9706284934527254, "train/extr_return_normed_mag": 1.3680325632225978, "train/extr_return_normed_max": 1.3680325632225978, "train/extr_return_normed_mean": 0.41208334287551984, "train/extr_return_normed_min": -0.07741255063104303, "train/extr_return_normed_std": 0.3137669124423641, "train/extr_return_rate": 0.8610008669226137, "train/extr_return_raw_mag": 13.08507501262508, "train/extr_return_raw_max": 13.08507501262508, "train/extr_return_raw_mean": 3.9637040602017755, "train/extr_return_raw_min": -0.7068670232818551, "train/extr_return_raw_std": 2.9937003965247166, "train/extr_reward_mag": 1.0817046720687657, "train/extr_reward_max": 1.0817046720687657, "train/extr_reward_mean": 0.06496398217261654, "train/extr_reward_min": -0.6059201874145089, "train/extr_reward_std": 0.24450465873496174, "train/image_loss_mean": 3.212107377509548, "train/image_loss_std": 8.421377064430551, "train/model_loss_mean": 6.60100657972571, "train/model_loss_std": 12.558606461302874, "train/model_opt_grad_norm": 21.80543312961108, "train/model_opt_grad_steps": 505676.0, "train/model_opt_loss": 11454.53022661601, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1763.6986301369864, "train/policy_entropy_mag": 2.672188638007804, "train/policy_entropy_max": 2.672188638007804, "train/policy_entropy_mean": 0.38810197886538833, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5908104034319316, "train/policy_logprob_mag": 7.438384278179848, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3881467674693016, "train/policy_logprob_min": -7.438384278179848, "train/policy_logprob_std": 1.0192951584515506, "train/policy_randomness_mag": 0.9431653275881728, "train/policy_randomness_max": 0.9431653275881728, "train/policy_randomness_mean": 0.1369829658571988, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20853014678171236, "train/post_ent_mag": 55.59477071892725, "train/post_ent_max": 55.59477071892725, "train/post_ent_mean": 40.18027992771096, "train/post_ent_min": 19.69945698568266, "train/post_ent_std": 5.820872385207921, "train/prior_ent_mag": 76.77356155604532, "train/prior_ent_max": 76.77356155604532, "train/prior_ent_mean": 45.75790295535571, "train/prior_ent_min": 27.60325578140886, "train/prior_ent_std": 7.935168305488482, "train/rep_loss_mean": 5.546497802211814, "train/rep_loss_std": 8.869774224006967, "train/reward_avg": 0.04532186393562245, "train/reward_loss_mean": 0.06087782606482506, "train/reward_loss_std": 0.22296934870824422, "train/reward_max_data": 1.0342465835074857, "train/reward_max_pred": 1.0344255101190853, "train/reward_neg_acc": 0.9935842409525832, "train/reward_neg_loss": 0.02625314714004324, "train/reward_pos_acc": 0.9906729247472058, "train/reward_pos_loss": 0.7186916707313225, "train/reward_pred": 0.045023004766808795, "train/reward_rate": 0.05003210616438356, "stats/sum_log_reward": 12.957142966134208, "stats/max_log_achievement_collect_coal": 0.42857142857142855, "stats/max_log_achievement_collect_drink": 5.428571428571429, "stats/max_log_achievement_collect_iron": 0.14285714285714285, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 14.428571428571429, "stats/max_log_achievement_collect_wood": 15.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.7142857142857143, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_stone_sword": 1.1428571428571428, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2857142857142858, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 4.571428571428571, "stats/max_log_achievement_place_table": 3.7142857142857144, "stats/max_log_achievement_wake_up": 1.5714285714285714, "stats/mean_log_entropy": 0.4608865422861917, "replay/size": 1000000.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.2040771547254624e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3029919220851018e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.73870372772217, "timer/env.step_count": 1456.0, "timer/env.step_total": 18.833555936813354, "timer/env.step_frac": 0.06262431706783098, "timer/env.step_avg": 0.012935134571987195, "timer/env.step_min": 0.00292205810546875, "timer/env.step_max": 1.598639965057373, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.31276488304138184, "timer/replay.add_frac": 0.0010399887981313762, "timer/replay.add_avg": 0.0002148110460449051, "timer/replay.add_min": 7.605552673339844e-05, "timer/replay.add_max": 0.0040302276611328125, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02937936782836914, "timer/logger.write_frac": 9.769067786821395e-05, "timer/logger.write_avg": 0.02937936782836914, "timer/logger.write_min": 0.02937936782836914, "timer/logger.write_max": 0.02937936782836914, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 10.65245532989502, "timer/agent.policy_frac": 0.03542096576814191, "timer/agent.policy_avg": 0.007316246792510315, "timer/agent.policy_min": 0.005934715270996094, "timer/agent.policy_max": 0.014311552047729492, "timer/dataset_count": 728.0, "timer/dataset_total": 0.05904245376586914, "timer/dataset_frac": 0.00019632475977991853, "timer/dataset_avg": 8.110227165641366e-05, "timer/dataset_min": 5.9604644775390625e-05, "timer/dataset_max": 0.00014710426330566406, "timer/agent.train_count": 728.0, "timer/agent.train_total": 270.17759585380554, "timer/agent.train_frac": 0.8983798643303805, "timer/agent.train_avg": 0.37112307122775484, "timer/agent.train_min": 0.364635705947876, "timer/agent.train_max": 0.3871145248413086, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21830463409423828, "timer/agent.report_frac": 0.0007258947098870365, "timer/agent.report_avg": 0.21830463409423828, "timer/agent.report_min": 0.21830463409423828, "timer/agent.report_max": 0.21830463409423828, "fps": 4.8413449321068445}
{"step": 1014137, "episode/length": 138.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.30000003427267, "episode/reward_rate": 0.08633093525179857}
{"step": 1014548, "episode/length": 410.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.0364963503649635}
{"step": 1014763, "episode/length": 214.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.099999994039536, "episode/reward_rate": 0.07441860465116279}
{"step": 1014967, "episode/length": 203.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 10.900000043213367, "episode/reward_rate": 0.04411764705882353}
{"step": 1015126, "episode/length": 158.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.08176100628930817}
{"step": 1015178, "episode/length": 51.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.1346153846153846}
{"step": 1015358, "episode/length": 179.0, "episode/score": 10.099999994039536, "episode/sum_abs_reward": 11.900000035762787, "episode/reward_rate": 0.06111111111111111}
{"step": 1015433, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.404375962808099, "train/action_min": 0.0, "train/action_std": 3.263606309890747, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03822996908090484, "train/actor_opt_grad_steps": 506810.0, "train/actor_opt_loss": -12.14605864840494, "train/adv_mag": 0.41163390371161446, "train/adv_max": 0.3290115370297096, "train/adv_mean": 0.001763850754312597, "train/adv_min": -0.3735107193950196, "train/adv_std": 0.042758843323714296, "train/cont_avg": 0.9946770466549296, "train/cont_loss_mean": 3.7293129715910997e-05, "train/cont_loss_std": 0.001088450756697057, "train/cont_neg_acc": 0.9979879285248232, "train/cont_neg_loss": 0.0031173286510641648, "train/cont_pos_acc": 0.9999999832099592, "train/cont_pos_loss": 1.6623508027040273e-05, "train/cont_pred": 0.9946736315606346, "train/cont_rate": 0.9946770466549296, "train/dyn_loss_mean": 5.561127078365272, "train/dyn_loss_std": 8.911353084403025, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9262998389526153, "train/extr_critic_critic_opt_grad_steps": 506810.0, "train/extr_critic_critic_opt_loss": 15292.82538787412, "train/extr_critic_mag": 12.331122384944432, "train/extr_critic_max": 12.331122384944432, "train/extr_critic_mean": 3.8754906990158724, "train/extr_critic_min": -0.36938381698769585, "train/extr_critic_std": 2.962710273097938, "train/extr_return_normed_mag": 1.3763023295872647, "train/extr_return_normed_max": 1.3763023295872647, "train/extr_return_normed_mean": 0.40649394376177184, "train/extr_return_normed_min": -0.07893845349760123, "train/extr_return_normed_std": 0.3155294788975111, "train/extr_return_rate": 0.8661889727686493, "train/extr_return_raw_mag": 13.08347731576839, "train/extr_return_raw_max": 13.08347731576839, "train/extr_return_raw_mean": 3.892204052965406, "train/extr_return_raw_min": -0.7090248612450881, "train/extr_return_raw_std": 2.99052554452923, "train/extr_reward_mag": 1.0780187526219327, "train/extr_reward_max": 1.0780187526219327, "train/extr_reward_mean": 0.060977893448631526, "train/extr_reward_min": -0.6287192492417886, "train/extr_reward_std": 0.23828496437677196, "train/image_loss_mean": 3.297813202293826, "train/image_loss_std": 8.49089625183965, "train/model_loss_mean": 6.693925118782151, "train/model_loss_std": 12.642502851889168, "train/model_opt_grad_norm": 21.209281196056956, "train/model_opt_grad_steps": 506396.0, "train/model_opt_loss": 16734.812843860036, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.676824670442393, "train/policy_entropy_max": 2.676824670442393, "train/policy_entropy_mean": 0.40153290877040004, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6120017023993211, "train/policy_logprob_mag": 7.438384277719847, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40045540685385045, "train/policy_logprob_min": -7.438384277719847, "train/policy_logprob_std": 1.0292908356223307, "train/policy_randomness_mag": 0.9448016411821607, "train/policy_randomness_max": 0.9448016411821607, "train/policy_randomness_mean": 0.14172349702304518, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21600974340673904, "train/post_ent_mag": 55.380847124986246, "train/post_ent_max": 55.380847124986246, "train/post_ent_mean": 40.334488935873544, "train/post_ent_min": 19.208557021449987, "train/post_ent_std": 5.817214777771856, "train/prior_ent_mag": 76.80441370144696, "train/prior_ent_max": 76.80441370144696, "train/prior_ent_mean": 45.889198356950786, "train/prior_ent_min": 27.936016190219934, "train/prior_ent_std": 7.906270604738047, "train/rep_loss_mean": 5.561127078365272, "train/rep_loss_std": 8.911353084403025, "train/reward_avg": 0.04295774630572594, "train/reward_loss_mean": 0.05939836920776837, "train/reward_loss_std": 0.22088316439742772, "train/reward_max_data": 1.0281690208005234, "train/reward_max_pred": 1.030103649891598, "train/reward_neg_acc": 0.9933292454397175, "train/reward_neg_loss": 0.025822880454886128, "train/reward_pos_acc": 0.9879091944493038, "train/reward_pos_loss": 0.7315570292338519, "train/reward_pred": 0.04254322501660233, "train/reward_rate": 0.04759022887323944, "stats/sum_log_reward": 10.814285959516253, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 4.428571428571429, "stats/max_log_achievement_collect_iron": 0.2857142857142857, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 9.0, "stats/max_log_achievement_collect_wood": 9.857142857142858, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.42857142857142855, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.42857142857142855, "stats/max_log_achievement_make_stone_sword": 0.14285714285714285, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 3.2857142857142856, "stats/max_log_achievement_place_table": 2.7142857142857144, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.42345509571688517, "replay/size": 1000000.0, "replay/inserts": 1434.0, "replay/samples": 11472.0, "replay/insert_wait_avg": 3.306270476996982e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3182643733430274e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1553301811218, "timer/env.step_count": 1434.0, "timer/env.step_total": 20.29707980155945, "timer/env.step_frac": 0.06762192025479488, "timer/env.step_avg": 0.014154170015034483, "timer/env.step_min": 0.002950429916381836, "timer/env.step_max": 1.7765660285949707, "timer/replay.add_count": 1434.0, "timer/replay.add_total": 0.2794816493988037, "timer/replay.add_frac": 0.0009311233927785222, "timer/replay.add_avg": 0.00019489654769791053, "timer/replay.add_min": 7.510185241699219e-05, "timer/replay.add_max": 0.004459381103515625, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022244691848754883, "timer/logger.write_frac": 7.411060078570597e-05, "timer/logger.write_avg": 0.022244691848754883, "timer/logger.write_min": 0.022244691848754883, "timer/logger.write_max": 0.022244691848754883, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003032684326171875, "timer/checkpoint.save_frac": 1.0103716380255087e-06, "timer/checkpoint.save_avg": 0.0003032684326171875, "timer/checkpoint.save_min": 0.0003032684326171875, "timer/checkpoint.save_max": 0.0003032684326171875, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2049243450164795, "timer/agent.save_frac": 0.0040143359915994015, "timer/agent.save_avg": 1.2049243450164795, "timer/agent.save_min": 1.2049243450164795, "timer/agent.save_max": 1.2049243450164795, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.651878356933594e-05, "timer/replay.save_frac": 2.2161453381219887e-07, "timer/replay.save_avg": 6.651878356933594e-05, "timer/replay.save_min": 6.651878356933594e-05, "timer/replay.save_max": 6.651878356933594e-05, "timer/agent.policy_count": 1434.0, "timer/agent.policy_total": 12.28641152381897, "timer/agent.policy_frac": 0.04093351104711356, "timer/agent.policy_avg": 0.008567929932928152, "timer/agent.policy_min": 0.0058574676513671875, "timer/agent.policy_max": 1.2005219459533691, "timer/dataset_count": 717.0, "timer/dataset_total": 0.05746603012084961, "timer/dataset_frac": 0.00019145430496327704, "timer/dataset_avg": 8.014788022433697e-05, "timer/dataset_min": 6.0558319091796875e-05, "timer/dataset_max": 0.00013184547424316406, "timer/agent.train_count": 717.0, "timer/agent.train_total": 266.5613543987274, "timer/agent.train_frac": 0.8880780302581237, "timer/agent.train_avg": 0.37177315815722095, "timer/agent.train_min": 0.36310338973999023, "timer/agent.train_max": 0.8016600608825684, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21846985816955566, "timer/agent.report_frac": 0.0007278560005505318, "timer/agent.report_avg": 0.21846985816955566, "timer/agent.report_min": 0.21846985816955566, "timer/agent.report_max": 0.21846985816955566, "fps": 4.777419605857874}
{"step": 1015585, "episode/length": 226.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.06167400881057269}
{"step": 1015786, "episode/length": 200.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.06965174129353234}
{"step": 1016023, "episode/length": 236.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.099999994039536, "episode/reward_rate": 0.06329113924050633}
{"step": 1016226, "episode/length": 202.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.06896551724137931}
{"step": 1016467, "episode/length": 240.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.06224066390041494}
{"step": 1016725, "episode/length": 257.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.900000028312206, "episode/reward_rate": 0.06201550387596899}
{"step": 1016824, "episode/length": 98.0, "episode/score": 5.100000001490116, "episode/sum_abs_reward": 7.1000000312924385, "episode/reward_rate": 0.06060606060606061}
{"step": 1016885, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.403367133989726, "train/action_min": 0.0, "train/action_std": 3.2504545629841006, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03800289417068436, "train/actor_opt_grad_steps": 507530.0, "train/actor_opt_loss": -12.134175201801405, "train/adv_mag": 0.41356547932102256, "train/adv_max": 0.33592751887563155, "train/adv_mean": 0.0018552052068814304, "train/adv_min": -0.36724956496937633, "train/adv_std": 0.042739526866233515, "train/cont_avg": 0.9950101669520548, "train/cont_loss_mean": 5.948573616221862e-05, "train/cont_loss_std": 0.0018121334714441505, "train/cont_neg_acc": 0.9965753424657534, "train/cont_neg_loss": 0.01175258758452594, "train/cont_pos_acc": 0.9999999779544465, "train/cont_pos_loss": 1.6308012680831917e-05, "train/cont_pred": 0.9950156799734455, "train/cont_rate": 0.9950101669520548, "train/dyn_loss_mean": 5.493852295287668, "train/dyn_loss_std": 8.826914212475085, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9146711581373868, "train/extr_critic_critic_opt_grad_steps": 507530.0, "train/extr_critic_critic_opt_loss": 15393.021497752568, "train/extr_critic_mag": 12.271564731859181, "train/extr_critic_max": 12.271564731859181, "train/extr_critic_mean": 3.8369671220648778, "train/extr_critic_min": -0.390733733569106, "train/extr_critic_std": 2.888484833991691, "train/extr_return_normed_mag": 1.3659549624952552, "train/extr_return_normed_max": 1.3659549624952552, "train/extr_return_normed_mean": 0.4056668893931663, "train/extr_return_normed_min": -0.07986053592231993, "train/extr_return_normed_std": 0.307377671133982, "train/extr_return_rate": 0.8747467651759109, "train/extr_return_raw_mag": 12.966648755008228, "train/extr_return_raw_max": 12.966648755008228, "train/extr_return_raw_mean": 3.854551178135284, "train/extr_return_raw_min": -0.7530033384283928, "train/extr_return_raw_std": 2.916866811987472, "train/extr_reward_mag": 1.079766962626209, "train/extr_reward_max": 1.079766962626209, "train/extr_reward_mean": 0.06219749984471765, "train/extr_reward_min": -0.6332831007160552, "train/extr_reward_std": 0.2401977442715266, "train/image_loss_mean": 3.221885236975265, "train/image_loss_std": 8.518314851473455, "train/model_loss_mean": 6.577535145903287, "train/model_loss_std": 12.629612700579917, "train/model_opt_grad_norm": 22.48664205368251, "train/model_opt_grad_steps": 507115.08219178085, "train/model_opt_loss": 17857.175313035103, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2705.4794520547944, "train/policy_entropy_mag": 2.699642690893722, "train/policy_entropy_max": 2.699642690893722, "train/policy_entropy_mean": 0.3915544407416696, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6032949837103282, "train/policy_logprob_mag": 7.438384297775896, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38981637358665466, "train/policy_logprob_min": -7.438384297775896, "train/policy_logprob_std": 1.0215410386046317, "train/policy_randomness_mag": 0.952855399210159, "train/policy_randomness_max": 0.952855399210159, "train/policy_randomness_mean": 0.13820153505426563, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21293665672818277, "train/post_ent_mag": 55.29250586522769, "train/post_ent_max": 55.29250586522769, "train/post_ent_mean": 40.33151396659956, "train/post_ent_min": 19.424659114994416, "train/post_ent_std": 5.810816183482131, "train/prior_ent_mag": 76.78697277748421, "train/prior_ent_max": 76.78697277748421, "train/prior_ent_mean": 45.81690691595208, "train/prior_ent_min": 27.69142352064995, "train/prior_ent_std": 7.8668199304032, "train/rep_loss_mean": 5.493852295287668, "train/rep_loss_std": 8.826914212475085, "train/reward_avg": 0.04384498040459744, "train/reward_loss_mean": 0.059279148454127246, "train/reward_loss_std": 0.22098838772675763, "train/reward_max_data": 1.035616446847785, "train/reward_max_pred": 1.0383195779094958, "train/reward_neg_acc": 0.9927513297290018, "train/reward_neg_loss": 0.025665313107510135, "train/reward_pos_acc": 0.9914532369130278, "train/reward_pos_loss": 0.7177814057428543, "train/reward_pred": 0.0435580703085416, "train/reward_rate": 0.048400042808219176, "stats/sum_log_reward": 12.385714599064418, "stats/max_log_achievement_collect_coal": 0.8571428571428571, "stats/max_log_achievement_collect_drink": 2.4285714285714284, "stats/max_log_achievement_collect_iron": 0.14285714285714285, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 14.428571428571429, "stats/max_log_achievement_collect_wood": 13.857142857142858, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.8571428571428571, "stats/max_log_achievement_eat_cow": 0.42857142857142855, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.5714285714285714, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.8571428571428572, "stats/max_log_achievement_place_stone": 3.4285714285714284, "stats/max_log_achievement_place_table": 3.7142857142857144, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.3775813898869923, "replay/size": 1000000.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.2846592674570634e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.288745193113637e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.28974080085754, "timer/env.step_count": 1452.0, "timer/env.step_total": 18.993021965026855, "timer/env.step_frac": 0.06324898717609675, "timer/env.step_avg": 0.013080593639825657, "timer/env.step_min": 0.002866029739379883, "timer/env.step_max": 1.6467399597167969, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.30158424377441406, "timer/replay.add_frac": 0.0010043108464848122, "timer/replay.add_avg": 0.00020770264722755788, "timer/replay.add_min": 7.271766662597656e-05, "timer/replay.add_max": 0.006308555603027344, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.031462669372558594, "timer/logger.write_frac": 0.00010477437320585527, "timer/logger.write_avg": 0.031462669372558594, "timer/logger.write_min": 0.031462669372558594, "timer/logger.write_max": 0.031462669372558594, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 10.643640995025635, "timer/agent.policy_frac": 0.03544457085559961, "timer/agent.policy_avg": 0.007330331263791759, "timer/agent.policy_min": 0.005902528762817383, "timer/agent.policy_max": 0.01692962646484375, "timer/dataset_count": 726.0, "timer/dataset_total": 0.05826258659362793, "timer/dataset_frac": 0.00019402123575132656, "timer/dataset_avg": 8.025149668543792e-05, "timer/dataset_min": 5.984306335449219e-05, "timer/dataset_max": 0.00012803077697753906, "timer/agent.train_count": 726.0, "timer/agent.train_total": 269.5921666622162, "timer/agent.train_frac": 0.8977734835137142, "timer/agent.train_avg": 0.3713390725374879, "timer/agent.train_min": 0.3650836944580078, "timer/agent.train_max": 0.38447070121765137, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21965622901916504, "timer/agent.report_frac": 0.0007314809637963422, "timer/agent.report_avg": 0.21965622901916504, "timer/agent.report_min": 0.21965622901916504, "timer/agent.report_max": 0.21965622901916504, "fps": 4.835266109567454}
{"step": 1017020, "episode/length": 195.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.07653061224489796}
{"step": 1017186, "episode/length": 165.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.0783132530120482}
{"step": 1017443, "episode/length": 256.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.700000040233135, "episode/reward_rate": 0.05058365758754864}
{"step": 1017647, "episode/length": 203.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.500000022351742, "episode/reward_rate": 0.0784313725490196}
{"step": 1017881, "episode/length": 233.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.700000025331974, "episode/reward_rate": 0.06837606837606838}
{"step": 1018153, "episode/length": 271.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.300000041723251, "episode/reward_rate": 0.04779411764705882}
{"step": 1018345, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.349978930329623, "train/action_min": 0.0, "train/action_std": 3.1595863642757887, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03761809474903427, "train/actor_opt_grad_steps": 508260.0, "train/actor_opt_loss": -11.082835395858712, "train/adv_mag": 0.3631877062255389, "train/adv_max": 0.3117002285506627, "train/adv_mean": 0.001950633271394197, "train/adv_min": -0.33282222302809156, "train/adv_std": 0.04237683658322243, "train/cont_avg": 0.9948897688356164, "train/cont_loss_mean": 0.00018098763201038928, "train/cont_loss_std": 0.005711430335794439, "train/cont_neg_acc": 0.9957599492922221, "train/cont_neg_loss": 0.028262895922311713, "train/cont_pos_acc": 0.9999999869359683, "train/cont_pos_loss": 1.1103001232716495e-05, "train/cont_pred": 0.9949072436110614, "train/cont_rate": 0.9948897688356164, "train/dyn_loss_mean": 5.683234796132127, "train/dyn_loss_std": 8.938566234013805, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8909293707102945, "train/extr_critic_critic_opt_grad_steps": 508260.0, "train/extr_critic_critic_opt_loss": 15371.426918343323, "train/extr_critic_mag": 12.16638447487191, "train/extr_critic_max": 12.16638447487191, "train/extr_critic_mean": 3.9143344147564614, "train/extr_critic_min": -0.3778756318027026, "train/extr_critic_std": 2.921295949857529, "train/extr_return_normed_mag": 1.356450908804593, "train/extr_return_normed_max": 1.356450908804593, "train/extr_return_normed_mean": 0.40881925168102734, "train/extr_return_normed_min": -0.07881989569900787, "train/extr_return_normed_std": 0.3095316278607878, "train/extr_return_rate": 0.871866129032553, "train/extr_return_raw_mag": 12.963364993056206, "train/extr_return_raw_max": 12.963364993056206, "train/extr_return_raw_mean": 3.9329143452317745, "train/extr_return_raw_min": -0.7139967908597973, "train/extr_return_raw_std": 2.9495707766650474, "train/extr_reward_mag": 1.0808926641124568, "train/extr_reward_max": 1.0808926641124568, "train/extr_reward_mean": 0.06254563654122287, "train/extr_reward_min": -0.600170855652796, "train/extr_reward_std": 0.24010578634804242, "train/image_loss_mean": 3.231338783486249, "train/image_loss_std": 8.353414137069493, "train/model_loss_mean": 6.700293325398066, "train/model_loss_std": 12.527276849093502, "train/model_opt_grad_norm": 22.424233305944156, "train/model_opt_grad_steps": 507844.7123287671, "train/model_opt_loss": 21124.74751177226, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3150.6849315068494, "train/policy_entropy_mag": 2.7053949049074357, "train/policy_entropy_max": 2.7053949049074357, "train/policy_entropy_mean": 0.37986495294799544, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5834882014418301, "train/policy_logprob_mag": 7.438384278179848, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37934671913924284, "train/policy_logprob_min": -7.438384278179848, "train/policy_logprob_std": 1.0115627924056902, "train/policy_randomness_mag": 0.9548856787485619, "train/policy_randomness_max": 0.9548856787485619, "train/policy_randomness_mean": 0.13407565714561775, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20594572806603287, "train/post_ent_mag": 55.9386508366833, "train/post_ent_max": 55.9386508366833, "train/post_ent_mean": 40.38304592811898, "train/post_ent_min": 19.58526862157534, "train/post_ent_std": 5.868045643584369, "train/prior_ent_mag": 76.71618119331255, "train/prior_ent_max": 76.71618119331255, "train/prior_ent_mean": 45.99860136476281, "train/prior_ent_min": 27.518849725592627, "train/prior_ent_std": 7.916316006281605, "train/rep_loss_mean": 5.683234796132127, "train/rep_loss_std": 8.938566234013805, "train/reward_avg": 0.04428644016487141, "train/reward_loss_mean": 0.05883268384288435, "train/reward_loss_std": 0.21727766239479795, "train/reward_max_data": 1.028767130146288, "train/reward_max_pred": 1.0267288897135487, "train/reward_neg_acc": 0.9927957237583317, "train/reward_neg_loss": 0.02440407853063247, "train/reward_pos_acc": 0.9876493574821785, "train/reward_pos_loss": 0.7308163471417884, "train/reward_pred": 0.043855932528433735, "train/reward_rate": 0.0487746147260274, "stats/sum_log_reward": 13.43333355585734, "stats/max_log_achievement_collect_coal": 1.3333333333333333, "stats/max_log_achievement_collect_drink": 2.6666666666666665, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 16.833333333333332, "stats/max_log_achievement_collect_wood": 14.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.8333333333333333, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.3333333333333333, "stats/max_log_achievement_place_furnace": 1.3333333333333333, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_stone": 3.5, "stats/max_log_achievement_place_table": 4.0, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.37996163467566174, "replay/size": 1000000.0, "replay/inserts": 1460.0, "replay/samples": 11680.0, "replay/insert_wait_avg": 3.3390032101983892e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2916244872628826e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.35451555252075, "timer/env.step_count": 1460.0, "timer/env.step_total": 17.514724254608154, "timer/env.step_frac": 0.0583135040350192, "timer/env.step_avg": 0.01199638647575901, "timer/env.step_min": 0.0027608871459960938, "timer/env.step_max": 1.6738812923431396, "timer/replay.add_count": 1460.0, "timer/replay.add_total": 0.2865447998046875, "timer/replay.add_frac": 0.0009540219472897572, "timer/replay.add_avg": 0.00019626356151005993, "timer/replay.add_min": 7.343292236328125e-05, "timer/replay.add_max": 0.003737926483154297, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030652999877929688, "timer/logger.write_frac": 0.00010205606471919223, "timer/logger.write_avg": 0.030652999877929688, "timer/logger.write_min": 0.030652999877929688, "timer/logger.write_max": 0.030652999877929688, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1460.0, "timer/agent.policy_total": 10.6986083984375, "timer/agent.policy_frac": 0.03561993525802915, "timer/agent.policy_avg": 0.007327813971532534, "timer/agent.policy_min": 0.005795001983642578, "timer/agent.policy_max": 0.013900279998779297, "timer/dataset_count": 730.0, "timer/dataset_total": 0.05860733985900879, "timer/dataset_frac": 0.00019512721408964655, "timer/dataset_avg": 8.028402720412162e-05, "timer/dataset_min": 5.9604644775390625e-05, "timer/dataset_max": 0.000179290771484375, "timer/agent.train_count": 730.0, "timer/agent.train_total": 271.11016869544983, "timer/agent.train_frac": 0.9026339031285275, "timer/agent.train_avg": 0.3713837927334929, "timer/agent.train_min": 0.3649561405181885, "timer/agent.train_max": 0.3901810646057129, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21925926208496094, "timer/agent.report_frac": 0.0007300015506063557, "timer/agent.report_avg": 0.21925926208496094, "timer/agent.report_min": 0.21925926208496094, "timer/agent.report_max": 0.21925926208496094, "fps": 4.860831298900159}
{"step": 1018370, "episode/length": 216.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.06451612903225806}
{"step": 1018738, "episode/length": 367.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 16.500000052154064, "episode/reward_rate": 0.03804347826086957}
{"step": 1018903, "episode/length": 164.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.700000040233135, "episode/reward_rate": 0.07272727272727272}
{"step": 1019101, "episode/length": 197.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.07575757575757576}
{"step": 1019342, "episode/length": 240.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.06224066390041494}
{"step": 1019505, "episode/length": 162.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.500000044703484, "episode/reward_rate": 0.08588957055214724}
{"step": 1019715, "episode/length": 209.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.299999997019768, "episode/reward_rate": 0.047619047619047616}
{"step": 1019775, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.394302583076585, "train/action_min": 0.0, "train/action_std": 3.199638843536377, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038192187265401155, "train/actor_opt_grad_steps": 508980.0, "train/actor_opt_loss": -11.637202726283544, "train/adv_mag": 0.4149583466875721, "train/adv_max": 0.33705235010301565, "train/adv_mean": 0.0019204786042625439, "train/adv_min": -0.37383942096166206, "train/adv_std": 0.04334338885587706, "train/cont_avg": 0.9951859595070423, "train/cont_loss_mean": 4.824448542125807e-05, "train/cont_loss_std": 0.0013509397310378557, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0020936855068862796, "train/cont_pos_acc": 0.9999861876729509, "train/cont_pos_loss": 3.8998572436790245e-05, "train/cont_pred": 0.9951656519527167, "train/cont_rate": 0.9951859595070423, "train/dyn_loss_mean": 5.597087759367177, "train/dyn_loss_std": 8.834591731219225, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9134103538284839, "train/extr_critic_critic_opt_grad_steps": 508980.0, "train/extr_critic_critic_opt_loss": 15491.389180787852, "train/extr_critic_mag": 12.313576053565656, "train/extr_critic_max": 12.313576053565656, "train/extr_critic_mean": 3.8717511774788442, "train/extr_critic_min": -0.3369116245860785, "train/extr_critic_std": 2.896811220007883, "train/extr_return_normed_mag": 1.3677919968752794, "train/extr_return_normed_max": 1.3677919968752794, "train/extr_return_normed_mean": 0.40493735713018497, "train/extr_return_normed_min": -0.07752967405487114, "train/extr_return_normed_std": 0.30879957344330533, "train/extr_return_rate": 0.8798993616036965, "train/extr_return_raw_mag": 13.011339066733777, "train/extr_return_raw_max": 13.011339066733777, "train/extr_return_raw_mean": 3.889950416457485, "train/extr_return_raw_min": -0.6810087133461321, "train/extr_return_raw_std": 2.925688434654558, "train/extr_reward_mag": 1.0750428790777502, "train/extr_reward_max": 1.0750428790777502, "train/extr_reward_mean": 0.06457193757236844, "train/extr_reward_min": -0.5918755900691932, "train/extr_reward_std": 0.2435494000223321, "train/image_loss_mean": 3.2990379081645482, "train/image_loss_std": 8.567567167147784, "train/model_loss_mean": 6.716537260673415, "train/model_loss_std": 12.689110218639104, "train/model_opt_grad_norm": 20.309683719151458, "train/model_opt_grad_steps": 508564.0, "train/model_opt_loss": 16791.343296104755, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6644669317863356, "train/policy_entropy_max": 2.6644669317863356, "train/policy_entropy_mean": 0.36329887051817394, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5559281509527019, "train/policy_logprob_mag": 7.438384304583912, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36425458062702504, "train/policy_logprob_min": -7.438384304583912, "train/policy_logprob_std": 0.9995658448044683, "train/policy_randomness_mag": 0.9404398992028035, "train/policy_randomness_max": 0.9404398992028035, "train/policy_randomness_mean": 0.12822855977525174, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19621824053391604, "train/post_ent_mag": 55.723971514634684, "train/post_ent_max": 55.723971514634684, "train/post_ent_mean": 40.34053646678656, "train/post_ent_min": 19.813164160285197, "train/post_ent_std": 5.863619878258504, "train/prior_ent_mag": 76.78421966122909, "train/prior_ent_max": 76.78421966122909, "train/prior_ent_mean": 45.91113608991596, "train/prior_ent_min": 27.82197385438731, "train/prior_ent_std": 7.8426596010235, "train/rep_loss_mean": 5.597087759367177, "train/rep_loss_std": 8.834591731219225, "train/reward_avg": 0.045106183475172014, "train/reward_loss_mean": 0.05919845774769783, "train/reward_loss_std": 0.21353164630036958, "train/reward_max_data": 1.0394366291207326, "train/reward_max_pred": 1.0383655957772697, "train/reward_neg_acc": 0.9926076674125563, "train/reward_neg_loss": 0.024711981914202933, "train/reward_pos_acc": 0.9891248462905347, "train/reward_pos_loss": 0.722539957980035, "train/reward_pred": 0.044762653338027675, "train/reward_rate": 0.049529599471830985, "stats/sum_log_reward": 12.242857524326869, "stats/max_log_achievement_collect_coal": 0.8571428571428571, "stats/max_log_achievement_collect_drink": 2.4285714285714284, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 18.285714285714285, "stats/max_log_achievement_collect_wood": 14.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.4285714285714286, "stats/max_log_achievement_eat_cow": 0.5714285714285714, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.5714285714285714, "stats/max_log_achievement_make_wood_pickaxe": 1.5714285714285714, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.8571428571428572, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 3.857142857142857, "stats/max_log_achievement_place_table": 2.857142857142857, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.4111240676471165, "replay/size": 1000000.0, "replay/inserts": 1430.0, "replay/samples": 11440.0, "replay/insert_wait_avg": 3.2971788953234266e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2950463728471235e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.12747073173523, "timer/env.step_count": 1430.0, "timer/env.step_total": 20.48385524749756, "timer/env.step_frac": 0.06825051768022518, "timer/env.step_avg": 0.014324374298949342, "timer/env.step_min": 0.002863645553588867, "timer/env.step_max": 1.823272705078125, "timer/replay.add_count": 1430.0, "timer/replay.add_total": 0.29427289962768555, "timer/replay.add_frac": 0.000980493051536483, "timer/replay.add_avg": 0.000205785244494885, "timer/replay.add_min": 7.486343383789062e-05, "timer/replay.add_max": 0.0012693405151367188, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03386712074279785, "timer/logger.write_frac": 0.00011284245544143977, "timer/logger.write_avg": 0.03386712074279785, "timer/logger.write_min": 0.03386712074279785, "timer/logger.write_max": 0.03386712074279785, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002651214599609375, "timer/checkpoint.save_frac": 8.833628568372958e-07, "timer/checkpoint.save_avg": 0.0002651214599609375, "timer/checkpoint.save_min": 0.0002651214599609375, "timer/checkpoint.save_max": 0.0002651214599609375, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4122827053070068, "timer/agent.save_frac": 0.004705609592696552, "timer/agent.save_avg": 1.4122827053070068, "timer/agent.save_min": 1.4122827053070068, "timer/agent.save_max": 1.4122827053070068, "timer/replay.save_count": 1.0, "timer/replay.save_total": 5.793571472167969e-05, "timer/replay.save_frac": 1.9303702716858171e-07, "timer/replay.save_avg": 5.793571472167969e-05, "timer/replay.save_min": 5.793571472167969e-05, "timer/replay.save_max": 5.793571472167969e-05, "timer/agent.policy_count": 1430.0, "timer/agent.policy_total": 12.521545886993408, "timer/agent.policy_frac": 0.041720759037701075, "timer/agent.policy_avg": 0.008756325795100285, "timer/agent.policy_min": 0.005874156951904297, "timer/agent.policy_max": 1.4068999290466309, "timer/dataset_count": 715.0, "timer/dataset_total": 0.057495832443237305, "timer/dataset_frac": 0.00019157137566600544, "timer/dataset_avg": 8.041375166886336e-05, "timer/dataset_min": 5.936622619628906e-05, "timer/dataset_max": 0.0001347064971923828, "timer/agent.train_count": 715.0, "timer/agent.train_total": 266.0715124607086, "timer/agent.train_frac": 0.8865283534759567, "timer/agent.train_avg": 0.37212798945553655, "timer/agent.train_min": 0.36492228507995605, "timer/agent.train_max": 0.8443748950958252, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21851134300231934, "timer/agent.report_frac": 0.0007280617881114677, "timer/agent.report_avg": 0.21851134300231934, "timer/agent.report_min": 0.21851134300231934, "timer/agent.report_max": 0.21851134300231934, "fps": 4.764584517689874}
{"step": 1019975, "episode/length": 259.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.30000004172325, "episode/reward_rate": 0.057692307692307696}
{"step": 1020246, "episode/length": 270.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 11.10000005364418, "episode/reward_rate": 0.033210332103321034}
{"step": 1020285, "episode/length": 38.0, "episode/score": 4.1000000312924385, "episode/sum_abs_reward": 4.9000000432133675, "episode/reward_rate": 0.1282051282051282}
{"step": 1020506, "episode/length": 220.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 15.300000011920929, "episode/reward_rate": 0.06334841628959276}
{"step": 1020686, "episode/length": 179.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.07222222222222222}
{"step": 1020889, "episode/length": 202.0, "episode/score": 14.100000023841858, "episode/sum_abs_reward": 16.500000059604645, "episode/reward_rate": 0.07389162561576355}
{"step": 1021159, "episode/length": 269.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 18.30000003427267, "episode/reward_rate": 0.05925925925925926}
{"step": 1021229, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.405940643728596, "train/action_min": 0.0, "train/action_std": 3.247587161521389, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038242086028195406, "train/actor_opt_grad_steps": 509700.0, "train/actor_opt_loss": -13.782122174354448, "train/adv_mag": 0.413349329404635, "train/adv_max": 0.3434714648413332, "train/adv_mean": 0.0014578035711876934, "train/adv_min": -0.36413377462184593, "train/adv_std": 0.0432910974303337, "train/cont_avg": 0.9949299015410958, "train/cont_loss_mean": 3.336930861423005e-05, "train/cont_loss_std": 0.0009653494448287671, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0005660879543385151, "train/cont_pos_acc": 0.9999865277172768, "train/cont_pos_loss": 3.005926083940952e-05, "train/cont_pred": 0.9949082699540543, "train/cont_rate": 0.9949299015410958, "train/dyn_loss_mean": 5.644432368343824, "train/dyn_loss_std": 8.894469404873783, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8751861763327089, "train/extr_critic_critic_opt_grad_steps": 509700.0, "train/extr_critic_critic_opt_loss": 15292.755698844177, "train/extr_critic_mag": 12.2504197734676, "train/extr_critic_max": 12.2504197734676, "train/extr_critic_mean": 3.9685159219454413, "train/extr_critic_min": -0.3634371871817602, "train/extr_critic_std": 2.924590956674863, "train/extr_return_normed_mag": 1.3828573030968234, "train/extr_return_normed_max": 1.3828573030968234, "train/extr_return_normed_mean": 0.41795437037944794, "train/extr_return_normed_min": -0.07316949989085328, "train/extr_return_normed_std": 0.31282341072004133, "train/extr_return_rate": 0.8749768587007914, "train/extr_return_raw_mag": 13.087188616190872, "train/extr_return_raw_max": 13.087188616190872, "train/extr_return_raw_mean": 3.982283977613057, "train/extr_return_raw_min": -0.6522412557307988, "train/extr_return_raw_std": 2.9518287541115122, "train/extr_reward_mag": 1.0759269733951515, "train/extr_reward_max": 1.0759269733951515, "train/extr_reward_mean": 0.06496837576978827, "train/extr_reward_min": -0.6091580260289858, "train/extr_reward_std": 0.24413452348480486, "train/image_loss_mean": 3.112372636795044, "train/image_loss_std": 8.368549203219478, "train/model_loss_mean": 6.5599688569160355, "train/model_loss_std": 12.530016572508094, "train/model_opt_grad_norm": 23.986647749600344, "train/model_opt_grad_steps": 509282.7123287671, "train/model_opt_loss": 13141.468522581335, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2037.6712328767123, "train/policy_entropy_mag": 2.671352931897934, "train/policy_entropy_max": 2.671352931897934, "train/policy_entropy_mean": 0.37798839521734684, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5792632715342796, "train/policy_logprob_mag": 7.438384278179848, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37902966733664684, "train/policy_logprob_min": -7.438384278179848, "train/policy_logprob_std": 1.0154219922954089, "train/policy_randomness_mag": 0.9428703572652112, "train/policy_randomness_max": 0.9428703572652112, "train/policy_randomness_mean": 0.1334133162482144, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20445451293497868, "train/post_ent_mag": 55.19094420132572, "train/post_ent_max": 55.19094420132572, "train/post_ent_mean": 40.02925313662176, "train/post_ent_min": 19.685377695789075, "train/post_ent_std": 5.784555206560109, "train/prior_ent_mag": 76.78125533012495, "train/prior_ent_max": 76.78125533012495, "train/prior_ent_mean": 45.677970781718216, "train/prior_ent_min": 27.72992674945152, "train/prior_ent_std": 7.874801211161156, "train/rep_loss_mean": 5.644432368343824, "train/rep_loss_std": 8.894469404873783, "train/reward_avg": 0.04671580681245621, "train/reward_loss_mean": 0.0609034965809894, "train/reward_loss_std": 0.2203086735042807, "train/reward_max_data": 1.0424657635492822, "train/reward_max_pred": 1.0392756625397566, "train/reward_neg_acc": 0.9932310777167751, "train/reward_neg_loss": 0.025226880694190934, "train/reward_pos_acc": 0.9897349787085024, "train/reward_pos_loss": 0.7243131456309801, "train/reward_pred": 0.04639817580376586, "train/reward_rate": 0.051075556506849314, "stats/sum_log_reward": 11.385714258466448, "stats/max_log_achievement_collect_coal": 1.2857142857142858, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.5714285714285716, "stats/max_log_achievement_collect_stone": 12.285714285714286, "stats/max_log_achievement_collect_wood": 10.857142857142858, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.2857142857142858, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.7142857142857143, "stats/max_log_achievement_make_stone_sword": 0.8571428571428571, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.4285714285714286, "stats/max_log_achievement_place_plant": 2.5714285714285716, "stats/max_log_achievement_place_stone": 2.5714285714285716, "stats/max_log_achievement_place_table": 2.4285714285714284, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.417349493929318, "replay/size": 1000000.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.331629085409592e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.312081062810129e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.34563875198364, "timer/env.step_count": 1454.0, "timer/env.step_total": 18.723248958587646, "timer/env.step_frac": 0.0623390072730463, "timer/env.step_avg": 0.012877062557488064, "timer/env.step_min": 0.0027475357055664062, "timer/env.step_max": 1.6533691883087158, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.2972118854522705, "timer/replay.add_frac": 0.0009895661767797437, "timer/replay.add_avg": 0.00020440982493278578, "timer/replay.add_min": 7.295608520507812e-05, "timer/replay.add_max": 0.003715038299560547, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02162766456604004, "timer/logger.write_frac": 7.200925126100969e-05, "timer/logger.write_avg": 0.02162766456604004, "timer/logger.write_min": 0.02162766456604004, "timer/logger.write_max": 0.02162766456604004, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 10.713654041290283, "timer/agent.policy_frac": 0.03567108244290937, "timer/agent.policy_avg": 0.007368400303500882, "timer/agent.policy_min": 0.005683183670043945, "timer/agent.policy_max": 0.016216516494750977, "timer/dataset_count": 727.0, "timer/dataset_total": 0.058551788330078125, "timer/dataset_frac": 0.00019494802246297448, "timer/dataset_avg": 8.053891104549948e-05, "timer/dataset_min": 6.127357482910156e-05, "timer/dataset_max": 0.0001323223114013672, "timer/agent.train_count": 727.0, "timer/agent.train_total": 269.8656430244446, "timer/agent.train_frac": 0.8985169358403485, "timer/agent.train_avg": 0.37120446083142306, "timer/agent.train_min": 0.36290669441223145, "timer/agent.train_max": 0.38642048835754395, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21775388717651367, "timer/agent.report_frac": 0.0007250109842824395, "timer/agent.report_avg": 0.21775388717651367, "timer/agent.report_min": 0.21775388717651367, "timer/agent.report_max": 0.21775388717651367, "fps": 4.840982425602859}
{"step": 1021432, "episode/length": 272.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.700000040233135, "episode/reward_rate": 0.03663003663003663}
{"step": 1021636, "episode/length": 203.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.06862745098039216}
{"step": 1021907, "episode/length": 270.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.05166051660516605}
{"step": 1022156, "episode/length": 248.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.05622489959839357}
{"step": 1022448, "episode/length": 291.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.900000028312206, "episode/reward_rate": 0.0547945205479452}
{"step": 1022697, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4502061817744005, "train/action_min": 0.0, "train/action_std": 3.3157800517670095, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03851323579884555, "train/actor_opt_grad_steps": 510430.0, "train/actor_opt_loss": -9.927596543749718, "train/adv_mag": 0.42549272718494885, "train/adv_max": 0.3422103085338253, "train/adv_mean": 0.0023192925492578867, "train/adv_min": -0.38793528569887764, "train/adv_std": 0.04335442945769388, "train/cont_avg": 0.9947158604452054, "train/cont_loss_mean": 0.0001085640234646546, "train/cont_loss_std": 0.003410091236194631, "train/cont_neg_acc": 0.9957599492922221, "train/cont_neg_loss": 0.01532884609914602, "train/cont_pos_acc": 0.9999999795874505, "train/cont_pos_loss": 7.34864361547433e-06, "train/cont_pred": 0.9947327914303297, "train/cont_rate": 0.9947158604452054, "train/dyn_loss_mean": 5.771935828744549, "train/dyn_loss_std": 9.046131395313838, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9179733003655525, "train/extr_critic_critic_opt_grad_steps": 510430.0, "train/extr_critic_critic_opt_loss": 15571.99965218322, "train/extr_critic_mag": 12.264938197723806, "train/extr_critic_max": 12.264938197723806, "train/extr_critic_mean": 3.751675386951394, "train/extr_critic_min": -0.3761918659079565, "train/extr_critic_std": 2.943572165214852, "train/extr_return_normed_mag": 1.375609525262493, "train/extr_return_normed_max": 1.375609525262493, "train/extr_return_normed_mean": 0.39677522933646425, "train/extr_return_normed_min": -0.07474176391755065, "train/extr_return_normed_std": 0.31422609356168196, "train/extr_return_rate": 0.8577135458384475, "train/extr_return_raw_mag": 13.023883127186396, "train/extr_return_raw_max": 13.023883127186396, "train/extr_return_raw_mean": 3.773576961804743, "train/extr_return_raw_min": -0.6832949906995852, "train/extr_return_raw_std": 2.9698625198782307, "train/extr_reward_mag": 1.0780343944079256, "train/extr_reward_max": 1.0780343944079256, "train/extr_reward_mean": 0.0625051898396995, "train/extr_reward_min": -0.6082741397700898, "train/extr_reward_std": 0.23975679727449808, "train/image_loss_mean": 3.5033311158010405, "train/image_loss_std": 9.11942259252888, "train/model_loss_mean": 7.028180769045059, "train/model_loss_std": 13.295262153834512, "train/model_opt_grad_norm": 21.591379191777477, "train/model_opt_grad_steps": 510012.0, "train/model_opt_loss": 9306.5126953125, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1318.4931506849316, "train/policy_entropy_mag": 2.66984750473336, "train/policy_entropy_max": 2.66984750473336, "train/policy_entropy_mean": 0.39183000709912547, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5917509581944714, "train/policy_logprob_mag": 7.438384245519769, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3922030760409081, "train/policy_logprob_min": -7.438384245519769, "train/policy_logprob_std": 1.0230012691184267, "train/policy_randomness_mag": 0.942339006352098, "train/policy_randomness_max": 0.942339006352098, "train/policy_randomness_mean": 0.13829879932207603, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20886211770854585, "train/post_ent_mag": 55.86641008559972, "train/post_ent_max": 55.86641008559972, "train/post_ent_mean": 40.44608505458048, "train/post_ent_min": 19.788709222453914, "train/post_ent_std": 5.877979585569199, "train/prior_ent_mag": 76.8094051831389, "train/prior_ent_max": 76.8094051831389, "train/prior_ent_mean": 46.202048523785315, "train/prior_ent_min": 27.894430108266334, "train/prior_ent_std": 7.898309942794173, "train/rep_loss_mean": 5.771935828744549, "train/rep_loss_std": 9.046131395313838, "train/reward_avg": 0.04441352698900928, "train/reward_loss_mean": 0.061579555324087404, "train/reward_loss_std": 0.22828227628583778, "train/reward_max_data": 1.0369863101880845, "train/reward_max_pred": 1.0336651671422672, "train/reward_neg_acc": 0.9928361757160866, "train/reward_neg_loss": 0.027024631796736424, "train/reward_pos_acc": 0.9881374346066828, "train/reward_pos_loss": 0.7326501060838568, "train/reward_pred": 0.044067439482840774, "train/reward_rate": 0.04904216609589041, "stats/sum_log_reward": 12.500000381469727, "stats/max_log_achievement_collect_coal": 0.4, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.2, "stats/max_log_achievement_collect_sapling": 3.4, "stats/max_log_achievement_collect_stone": 15.6, "stats/max_log_achievement_collect_wood": 15.4, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.4, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.6, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 3.0, "stats/max_log_achievement_place_stone": 3.4, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.4, "stats/mean_log_entropy": 0.5342345297336578, "replay/size": 1000000.0, "replay/inserts": 1468.0, "replay/samples": 11744.0, "replay/insert_wait_avg": 3.2927099950307073e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2850728931478973e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1862072944641, "timer/env.step_count": 1468.0, "timer/env.step_total": 15.87550950050354, "timer/env.step_frac": 0.05288553942430355, "timer/env.step_avg": 0.010814379768735382, "timer/env.step_min": 0.003064870834350586, "timer/env.step_max": 1.5671849250793457, "timer/replay.add_count": 1468.0, "timer/replay.add_total": 0.3139684200286865, "timer/replay.add_frac": 0.0010459122118182563, "timer/replay.add_avg": 0.00021387494552362843, "timer/replay.add_min": 7.700920104980469e-05, "timer/replay.add_max": 0.0047664642333984375, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02404165267944336, "timer/logger.write_frac": 8.008913166306799e-05, "timer/logger.write_avg": 0.02404165267944336, "timer/logger.write_min": 0.02404165267944336, "timer/logger.write_max": 0.02404165267944336, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1468.0, "timer/agent.policy_total": 10.861499071121216, "timer/agent.policy_frac": 0.03618253872825928, "timer/agent.policy_avg": 0.007398841329101646, "timer/agent.policy_min": 0.005794048309326172, "timer/agent.policy_max": 0.014856100082397461, "timer/dataset_count": 734.0, "timer/dataset_total": 0.05886054039001465, "timer/dataset_frac": 0.00019608009615270598, "timer/dataset_avg": 8.019147192100089e-05, "timer/dataset_min": 5.9604644775390625e-05, "timer/dataset_max": 0.00012421607971191406, "timer/agent.train_count": 734.0, "timer/agent.train_total": 272.3957452774048, "timer/agent.train_frac": 0.9074225885741692, "timer/agent.train_avg": 0.37111136958774493, "timer/agent.train_min": 0.36470627784729004, "timer/agent.train_max": 0.38454365730285645, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21860671043395996, "timer/agent.report_frac": 0.0007282370246262524, "timer/agent.report_avg": 0.21860671043395996, "timer/agent.report_min": 0.21860671043395996, "timer/agent.report_max": 0.21860671043395996, "fps": 4.890200291493106}
{"step": 1022701, "episode/length": 252.0, "episode/score": 15.1000000461936, "episode/sum_abs_reward": 17.500000037252903, "episode/reward_rate": 0.06719367588932806}
{"step": 1022902, "episode/length": 200.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.05472636815920398}
{"step": 1023131, "episode/length": 228.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 12.899999976158142, "episode/reward_rate": 0.056768558951965066}
{"step": 1023377, "episode/length": 245.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.30000003427267, "episode/reward_rate": 0.06097560975609756}
{"step": 1023676, "episode/length": 298.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.05016722408026756}
{"step": 1023856, "episode/length": 179.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.07222222222222222}
{"step": 1024080, "episode/length": 223.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.07142857142857142}
{"step": 1024133, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.330407036675347, "train/action_min": 0.0, "train/action_std": 3.1924345890680947, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03868355951271951, "train/actor_opt_grad_steps": 511155.0, "train/actor_opt_loss": -10.270561442348278, "train/adv_mag": 0.420445731944508, "train/adv_max": 0.3358028700782193, "train/adv_mean": 0.0024272585356218063, "train/adv_min": -0.37580279798971283, "train/adv_std": 0.042942552361637354, "train/cont_avg": 0.9949001736111112, "train/cont_loss_mean": 5.214754328757781e-05, "train/cont_loss_std": 0.0016057426273465107, "train/cont_neg_acc": 0.9982638888888888, "train/cont_neg_loss": 0.006016672362645458, "train/cont_pos_acc": 0.999999985926681, "train/cont_pos_loss": 7.329771716888287e-06, "train/cont_pred": 0.994909663995107, "train/cont_rate": 0.9949001736111112, "train/dyn_loss_mean": 5.628867109616597, "train/dyn_loss_std": 8.931846314006382, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8861458458834224, "train/extr_critic_critic_opt_grad_steps": 511155.0, "train/extr_critic_critic_opt_loss": 15335.361043294271, "train/extr_critic_mag": 12.260096377796597, "train/extr_critic_max": 12.260096377796597, "train/extr_critic_mean": 3.92544107304679, "train/extr_critic_min": -0.3410109165641997, "train/extr_critic_std": 2.905902862548828, "train/extr_return_normed_mag": 1.3757642441325717, "train/extr_return_normed_max": 1.3757642441325717, "train/extr_return_normed_mean": 0.4125810998181502, "train/extr_return_normed_min": -0.07242142041731212, "train/extr_return_normed_std": 0.3109857866333591, "train/extr_return_rate": 0.8780671755472819, "train/extr_return_raw_mag": 13.053000238206652, "train/extr_return_raw_max": 13.053000238206652, "train/extr_return_raw_mean": 3.948373519712024, "train/extr_return_raw_min": -0.6360195506778028, "train/extr_return_raw_std": 2.939776168929206, "train/extr_reward_mag": 1.0799679888619318, "train/extr_reward_max": 1.0799679888619318, "train/extr_reward_mean": 0.06392995625113447, "train/extr_reward_min": -0.5616939846012328, "train/extr_reward_std": 0.2430015295330021, "train/image_loss_mean": 3.2299508651097617, "train/image_loss_std": 8.694476650820839, "train/model_loss_mean": 6.667288992140028, "train/model_loss_std": 12.824360039499071, "train/model_opt_grad_norm": 21.850323968463474, "train/model_opt_grad_steps": 510737.0, "train/model_opt_loss": 16668.222507052953, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.680300537082884, "train/policy_entropy_max": 2.680300537082884, "train/policy_entropy_mean": 0.36336529523962074, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5608042673104339, "train/policy_logprob_mag": 7.4383842547734575, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.36274371813568806, "train/policy_logprob_min": -7.4383842547734575, "train/policy_logprob_std": 0.9964026336868604, "train/policy_randomness_mag": 0.9460284668538306, "train/policy_randomness_max": 0.9460284668538306, "train/policy_randomness_mean": 0.12825200313495266, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.19793929759826925, "train/post_ent_mag": 55.520548820495605, "train/post_ent_max": 55.520548820495605, "train/post_ent_mean": 40.23686991797553, "train/post_ent_min": 19.525804625617134, "train/post_ent_std": 5.79281743367513, "train/prior_ent_mag": 76.73729048834906, "train/prior_ent_max": 76.73729048834906, "train/prior_ent_mean": 45.83847925398085, "train/prior_ent_min": 27.390807337231106, "train/prior_ent_std": 7.857997245258755, "train/rep_loss_mean": 5.628867109616597, "train/rep_loss_std": 8.931846314006382, "train/reward_avg": 0.04507242808014982, "train/reward_loss_mean": 0.05996570379162828, "train/reward_loss_std": 0.21734474413096905, "train/reward_max_data": 1.0305555628405676, "train/reward_max_pred": 1.0298049863841798, "train/reward_neg_acc": 0.9936306344138252, "train/reward_neg_loss": 0.025366902131483786, "train/reward_pos_acc": 0.990712396800518, "train/reward_pos_loss": 0.7203481702340974, "train/reward_pred": 0.04479303718027142, "train/reward_rate": 0.049858940972222224, "stats/sum_log_reward": 13.100000381469727, "stats/max_log_achievement_collect_coal": 1.2857142857142858, "stats/max_log_achievement_collect_drink": 2.5714285714285716, "stats/max_log_achievement_collect_iron": 0.2857142857142857, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 15.857142857142858, "stats/max_log_achievement_collect_wood": 11.857142857142858, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.8571428571428572, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 3.142857142857143, "stats/max_log_achievement_place_table": 3.142857142857143, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.43015046417713165, "replay/size": 1000000.0, "replay/inserts": 1436.0, "replay/samples": 11488.0, "replay/insert_wait_avg": 3.281742085321368e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3561716982913216e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.32446026802063, "timer/env.step_count": 1436.0, "timer/env.step_total": 20.234922647476196, "timer/env.step_frac": 0.0673768717653494, "timer/env.step_avg": 0.014091171760080916, "timer/env.step_min": 0.0025968551635742188, "timer/env.step_max": 1.7954761981964111, "timer/replay.add_count": 1436.0, "timer/replay.add_total": 0.286848783493042, "timer/replay.add_frac": 0.0009551296062833096, "timer/replay.add_avg": 0.00019975542025977856, "timer/replay.add_min": 7.748603820800781e-05, "timer/replay.add_max": 0.002844095230102539, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025266408920288086, "timer/logger.write_frac": 8.413037318951447e-05, "timer/logger.write_avg": 0.025266408920288086, "timer/logger.write_min": 0.025266408920288086, "timer/logger.write_max": 0.025266408920288086, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003674030303955078, "timer/checkpoint.save_frac": 1.2233536691204699e-06, "timer/checkpoint.save_avg": 0.0003674030303955078, "timer/checkpoint.save_min": 0.0003674030303955078, "timer/checkpoint.save_max": 0.0003674030303955078, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.178924560546875, "timer/agent.save_frac": 0.003925502969337759, "timer/agent.save_avg": 1.178924560546875, "timer/agent.save_min": 1.178924560546875, "timer/agent.save_max": 1.178924560546875, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.726119995117188e-05, "timer/replay.save_frac": 2.905564197911045e-07, "timer/replay.save_avg": 8.726119995117188e-05, "timer/replay.save_min": 8.726119995117188e-05, "timer/replay.save_max": 8.726119995117188e-05, "timer/agent.policy_count": 1436.0, "timer/agent.policy_total": 12.23388147354126, "timer/agent.policy_frac": 0.040735548022373176, "timer/agent.policy_avg": 0.008519416067925669, "timer/agent.policy_min": 0.005822896957397461, "timer/agent.policy_max": 1.1754395961761475, "timer/dataset_count": 718.0, "timer/dataset_total": 0.05762052536010742, "timer/dataset_frac": 0.0001918609137220616, "timer/dataset_avg": 8.025142807814405e-05, "timer/dataset_min": 5.888938903808594e-05, "timer/dataset_max": 0.0002040863037109375, "timer/agent.train_count": 718.0, "timer/agent.train_total": 266.82104086875916, "timer/agent.train_frac": 0.8884425884945842, "timer/agent.train_avg": 0.3716170485637314, "timer/agent.train_min": 0.3643181324005127, "timer/agent.train_max": 0.8171696662902832, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22092485427856445, "timer/agent.report_frac": 0.0007356205820911256, "timer/agent.report_avg": 0.22092485427856445, "timer/agent.report_min": 0.22092485427856445, "timer/agent.report_max": 0.22092485427856445, "fps": 4.781428399095415}
{"step": 1024247, "episode/length": 166.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.300000049173832, "episode/reward_rate": 0.0658682634730539}
{"step": 1024441, "episode/length": 193.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.07216494845360824}
{"step": 1024741, "episode/length": 299.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.30000001937151, "episode/reward_rate": 0.05333333333333334}
{"step": 1024882, "episode/length": 140.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.09219858156028368}
{"step": 1025070, "episode/length": 187.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.06914893617021277}
{"step": 1025229, "episode/length": 158.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.0880503144654088}
{"step": 1025443, "episode/length": 213.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.06542056074766354}
{"step": 1025587, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.333848091020976, "train/action_min": 0.0, "train/action_std": 3.178028067497358, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038050841182878575, "train/actor_opt_grad_steps": 511880.0, "train/actor_opt_loss": -12.295349790625377, "train/adv_mag": 0.4140552719161935, "train/adv_max": 0.34704880232680335, "train/adv_mean": 0.0018730192601302805, "train/adv_min": -0.3540654684582802, "train/adv_std": 0.042858011459242805, "train/cont_avg": 0.994943279109589, "train/cont_loss_mean": 9.751013015706782e-05, "train/cont_loss_std": 0.0030609189977879284, "train/cont_neg_acc": 0.9977168955215036, "train/cont_neg_loss": 0.013310158556313397, "train/cont_pos_acc": 0.9999865285337788, "train/cont_pos_loss": 2.2007327565339837e-05, "train/cont_pred": 0.994948246707655, "train/cont_rate": 0.994943279109589, "train/dyn_loss_mean": 5.652126547408431, "train/dyn_loss_std": 8.975633738792105, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9264143917658557, "train/extr_critic_critic_opt_grad_steps": 511880.0, "train/extr_critic_critic_opt_loss": 15381.901648116438, "train/extr_critic_mag": 12.430446311219098, "train/extr_critic_max": 12.430446311219098, "train/extr_critic_mean": 3.9139709309355855, "train/extr_critic_min": -0.35612412021584705, "train/extr_critic_std": 2.9126140450778073, "train/extr_return_normed_mag": 1.3869608869291332, "train/extr_return_normed_max": 1.3869608869291332, "train/extr_return_normed_mean": 0.4068774940216378, "train/extr_return_normed_min": -0.08163709262360448, "train/extr_return_normed_std": 0.30817604656905345, "train/extr_return_rate": 0.8764037963462202, "train/extr_return_raw_mag": 13.288782916656912, "train/extr_return_raw_max": 13.288782916656912, "train/extr_return_raw_mean": 3.9318625404410166, "train/extr_return_raw_min": -0.7320786722718853, "train/extr_return_raw_std": 2.94226725134131, "train/extr_reward_mag": 1.0764982602367663, "train/extr_reward_max": 1.0764982602367663, "train/extr_reward_mean": 0.06169661527423009, "train/extr_reward_min": -0.5896006642955623, "train/extr_reward_std": 0.2392417604792608, "train/image_loss_mean": 3.3327489585092622, "train/image_loss_std": 8.60131696805562, "train/model_loss_mean": 6.782685142673858, "train/model_loss_std": 12.775349068315062, "train/model_opt_grad_norm": 23.14756821932858, "train/model_opt_grad_steps": 511461.4246575342, "train/model_opt_loss": 18407.995612157534, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2739.72602739726, "train/policy_entropy_mag": 2.70110101242588, "train/policy_entropy_max": 2.70110101242588, "train/policy_entropy_mean": 0.39617407811831123, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6114949808545309, "train/policy_logprob_mag": 7.438384317371943, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3966078939911437, "train/policy_logprob_min": -7.438384317371943, "train/policy_logprob_std": 1.0317808528469032, "train/policy_randomness_mag": 0.9533701228768858, "train/policy_randomness_max": 0.9533701228768858, "train/policy_randomness_mean": 0.13983206318257607, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21583089620283205, "train/post_ent_mag": 56.23219644206844, "train/post_ent_max": 56.23219644206844, "train/post_ent_mean": 40.25134867837984, "train/post_ent_min": 19.468489855936127, "train/post_ent_std": 5.935221763506328, "train/prior_ent_mag": 76.7948199755525, "train/prior_ent_max": 76.7948199755525, "train/prior_ent_mean": 45.88001538629401, "train/prior_ent_min": 27.68369779194871, "train/prior_ent_std": 8.029223984234953, "train/rep_loss_mean": 5.652126547408431, "train/rep_loss_std": 8.975633738792105, "train/reward_avg": 0.044721211268477244, "train/reward_loss_mean": 0.05856274231655957, "train/reward_loss_std": 0.20950414138297513, "train/reward_max_data": 1.026027403465689, "train/reward_max_pred": 1.025824781966536, "train/reward_neg_acc": 0.9933895289081417, "train/reward_neg_loss": 0.024653007659091525, "train/reward_pos_acc": 0.9921661370421109, "train/reward_pos_loss": 0.7121999026977852, "train/reward_pred": 0.04446958712212844, "train/reward_rate": 0.04921607448630137, "stats/sum_log_reward": 12.67142881665911, "stats/max_log_achievement_collect_coal": 1.5714285714285714, "stats/max_log_achievement_collect_drink": 2.4285714285714284, "stats/max_log_achievement_collect_iron": 0.2857142857142857, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 13.857142857142858, "stats/max_log_achievement_collect_wood": 11.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.4285714285714286, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.8571428571428571, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 3.142857142857143, "stats/max_log_achievement_place_table": 2.7142857142857144, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.37122029066085815, "replay/size": 1000000.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.2158632553919147e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3492827238374105e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.07121682167053, "timer/env.step_count": 1454.0, "timer/env.step_total": 18.768179893493652, "timer/env.step_frac": 0.06254575194610353, "timer/env.step_avg": 0.012907964163338137, "timer/env.step_min": 0.00296783447265625, "timer/env.step_max": 1.566298484802246, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.27212047576904297, "timer/replay.add_frac": 0.0009068529752747381, "timer/replay.add_avg": 0.0001871530094697682, "timer/replay.add_min": 7.510185241699219e-05, "timer/replay.add_max": 0.003157377243041992, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03426694869995117, "timer/logger.write_frac": 0.0001141960533999357, "timer/logger.write_avg": 0.03426694869995117, "timer/logger.write_min": 0.03426694869995117, "timer/logger.write_max": 0.03426694869995117, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 10.670077800750732, "timer/agent.policy_frac": 0.03555848479493406, "timer/agent.policy_avg": 0.007338430399415909, "timer/agent.policy_min": 0.00587916374206543, "timer/agent.policy_max": 0.01559758186340332, "timer/dataset_count": 727.0, "timer/dataset_total": 0.05817413330078125, "timer/dataset_frac": 0.00019386775551802953, "timer/dataset_avg": 8.001944057879127e-05, "timer/dataset_min": 5.8650970458984375e-05, "timer/dataset_max": 0.0001552104949951172, "timer/agent.train_count": 727.0, "timer/agent.train_total": 269.6136953830719, "timer/agent.train_frac": 0.8984990237944106, "timer/agent.train_avg": 0.37085790286529835, "timer/agent.train_min": 0.3625054359436035, "timer/agent.train_max": 0.38407278060913086, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2178044319152832, "timer/agent.report_frac": 0.0007258424657394657, "timer/agent.report_avg": 0.2178044319152832, "timer/agent.report_min": 0.2178044319152832, "timer/agent.report_max": 0.2178044319152832, "fps": 4.84540940063185}
{"step": 1025636, "episode/length": 192.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.06735751295336788}
{"step": 1025875, "episode/length": 238.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.05439330543933055}
{"step": 1026061, "episode/length": 185.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 11.099999994039536, "episode/reward_rate": 0.05913978494623656}
{"step": 1026246, "episode/length": 184.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.08108108108108109}
{"step": 1026392, "episode/length": 145.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.08904109589041095}
{"step": 1026574, "episode/length": 181.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.07692307692307693}
{"step": 1026836, "episode/length": 261.0, "episode/score": 14.099999979138374, "episode/sum_abs_reward": 16.500000029802322, "episode/reward_rate": 0.05725190839694656}
{"step": 1027039, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.348616926637415, "train/action_min": 0.0, "train/action_std": 3.233728774606365, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038299511760881505, "train/actor_opt_grad_steps": 512610.0, "train/actor_opt_loss": -12.281736898095641, "train/adv_mag": 0.40198071117270484, "train/adv_max": 0.33215709071453303, "train/adv_mean": 0.0018938572315139574, "train/adv_min": -0.35858095263781614, "train/adv_std": 0.043080377966573796, "train/cont_avg": 0.9950636772260274, "train/cont_loss_mean": 2.1096610598270322e-05, "train/cont_loss_std": 0.0006075648394060359, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0009365440981130629, "train/cont_pos_acc": 0.9999999828534584, "train/cont_pos_loss": 1.4601904743530406e-05, "train/cont_pred": 0.9950561351972084, "train/cont_rate": 0.9950636772260274, "train/dyn_loss_mean": 5.9335144970515, "train/dyn_loss_std": 8.980829199699507, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9241814254081413, "train/extr_critic_critic_opt_grad_steps": 512610.0, "train/extr_critic_critic_opt_loss": 15336.668918557363, "train/extr_critic_mag": 12.302590735971112, "train/extr_critic_max": 12.302590735971112, "train/extr_critic_mean": 3.98288116389758, "train/extr_critic_min": -0.31321281929538675, "train/extr_critic_std": 2.936202633870791, "train/extr_return_normed_mag": 1.374853586497372, "train/extr_return_normed_max": 1.374853586497372, "train/extr_return_normed_mean": 0.41631374048860104, "train/extr_return_normed_min": -0.07551309160173755, "train/extr_return_normed_std": 0.31207745981543034, "train/extr_return_rate": 0.8746656056952803, "train/extr_return_raw_mag": 13.106613694804988, "train/extr_return_raw_max": 13.106613694804988, "train/extr_return_raw_mean": 4.000857820249584, "train/extr_return_raw_min": -0.6713582995819719, "train/extr_return_raw_std": 2.964699255277033, "train/extr_reward_mag": 1.0715326511696592, "train/extr_reward_max": 1.0715326511696592, "train/extr_reward_mean": 0.06341921364607876, "train/extr_reward_min": -0.57387940687676, "train/extr_reward_std": 0.2410395325046696, "train/image_loss_mean": 3.294450661907457, "train/image_loss_std": 8.870364940329774, "train/model_loss_mean": 6.915555888659333, "train/model_loss_std": 13.054124636192844, "train/model_opt_grad_norm": 22.885505179836326, "train/model_opt_grad_steps": 512190.8493150685, "train/model_opt_loss": 18308.101883561645, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2636.986301369863, "train/policy_entropy_mag": 2.697037752360514, "train/policy_entropy_max": 2.697037752360514, "train/policy_entropy_mean": 0.3855663380802494, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5886445253679197, "train/policy_logprob_mag": 7.438384271647832, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38568820263424963, "train/policy_logprob_min": -7.438384271647832, "train/policy_logprob_std": 1.0176507014117828, "train/policy_randomness_mag": 0.9519359649044193, "train/policy_randomness_max": 0.9519359649044193, "train/policy_randomness_mean": 0.1360879982375119, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20776568516476512, "train/post_ent_mag": 55.82005785589349, "train/post_ent_max": 55.82005785589349, "train/post_ent_mean": 40.140027451188594, "train/post_ent_min": 19.440241238842273, "train/post_ent_std": 5.798099093241234, "train/prior_ent_mag": 76.7343247296059, "train/prior_ent_max": 76.7343247296059, "train/prior_ent_mean": 46.03179889835724, "train/prior_ent_min": 27.994422834213466, "train/prior_ent_std": 7.890657555567075, "train/rep_loss_mean": 5.9335144970515, "train/rep_loss_std": 8.980829199699507, "train/reward_avg": 0.045424871146678925, "train/reward_loss_mean": 0.06097548623403458, "train/reward_loss_std": 0.2305461049896397, "train/reward_max_data": 1.0273972668059885, "train/reward_max_pred": 1.0254100708112324, "train/reward_neg_acc": 0.9931474687301949, "train/reward_neg_loss": 0.025730304509299258, "train/reward_pos_acc": 0.9876228015716761, "train/reward_pos_loss": 0.7321214447282764, "train/reward_pred": 0.045153915422828234, "train/reward_rate": 0.04993846318493151, "stats/sum_log_reward": 12.385714530944824, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 1.8571428571428572, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 16.857142857142858, "stats/max_log_achievement_collect_wood": 11.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.8571428571428571, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.1428571428571428, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 2.2857142857142856, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 3.2857142857142856, "stats/max_log_achievement_place_table": 2.7142857142857144, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.36572431666510447, "replay/size": 1000000.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.2674182545055044e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3049599552942702e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3168079853058, "timer/env.step_count": 1452.0, "timer/env.step_total": 18.97907590866089, "timer/env.step_frac": 0.06319684880770815, "timer/env.step_avg": 0.01307098891781053, "timer/env.step_min": 0.002896547317504883, "timer/env.step_max": 1.6286382675170898, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.31870079040527344, "timer/replay.add_frac": 0.0010612152964174658, "timer/replay.add_avg": 0.00021949090248297068, "timer/replay.add_min": 8.368492126464844e-05, "timer/replay.add_max": 0.005213260650634766, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03257298469543457, "timer/logger.write_frac": 0.00010846207681132631, "timer/logger.write_avg": 0.03257298469543457, "timer/logger.write_min": 0.03257298469543457, "timer/logger.write_max": 0.03257298469543457, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 10.740281105041504, "timer/agent.policy_frac": 0.03576317015718619, "timer/agent.policy_avg": 0.007396887813389466, "timer/agent.policy_min": 0.005865812301635742, "timer/agent.policy_max": 0.018940210342407227, "timer/dataset_count": 726.0, "timer/dataset_total": 0.058682918548583984, "timer/dataset_frac": 0.00019540337732763623, "timer/dataset_avg": 8.083046632036361e-05, "timer/dataset_min": 5.936622619628906e-05, "timer/dataset_max": 0.0001342296600341797, "timer/agent.train_count": 726.0, "timer/agent.train_total": 269.52564787864685, "timer/agent.train_frac": 0.897471072920549, "timer/agent.train_avg": 0.37124744886865957, "timer/agent.train_min": 0.36449193954467773, "timer/agent.train_max": 0.38745546340942383, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21698832511901855, "timer/agent.report_frac": 0.0007225314046679518, "timer/agent.report_avg": 0.21698832511901855, "timer/agent.report_min": 0.21698832511901855, "timer/agent.report_max": 0.21698832511901855, "fps": 4.834793840062426}
{"step": 1027065, "episode/length": 228.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.500000037252903, "episode/reward_rate": 0.06550218340611354}
{"step": 1027541, "episode/length": 475.0, "episode/score": 15.100000023841858, "episode/sum_abs_reward": 17.899999991059303, "episode/reward_rate": 0.03571428571428571}
{"step": 1027721, "episode/length": 179.0, "episode/score": 13.100000023841858, "episode/sum_abs_reward": 14.899999976158142, "episode/reward_rate": 0.08333333333333333}
{"step": 1027910, "episode/length": 188.0, "episode/score": 11.099999979138374, "episode/sum_abs_reward": 12.900000020861626, "episode/reward_rate": 0.06349206349206349}
{"step": 1027983, "episode/length": 72.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.136986301369863}
{"step": 1028176, "episode/length": 192.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.07772020725388601}
{"step": 1028447, "episode/length": 270.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 11.300000041723251, "episode/reward_rate": 0.03690036900369004}
{"step": 1028471, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.368209623954665, "train/action_min": 0.0, "train/action_std": 3.1960549421713385, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.036505718335089546, "train/actor_opt_grad_steps": 513330.0, "train/actor_opt_loss": -12.256632060861923, "train/adv_mag": 0.37836384731279293, "train/adv_max": 0.3092296377454006, "train/adv_mean": 0.001956914614375294, "train/adv_min": -0.3286941951849091, "train/adv_std": 0.04172646936396478, "train/cont_avg": 0.9949796434859155, "train/cont_loss_mean": 3.3770915283131235e-06, "train/cont_loss_std": 7.304658412050697e-05, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 2.2438895788943234e-05, "train/cont_pos_acc": 0.9999999798519511, "train/cont_pos_loss": 3.275427923479673e-06, "train/cont_pred": 0.9949765658714402, "train/cont_rate": 0.9949796434859155, "train/dyn_loss_mean": 5.771129755906656, "train/dyn_loss_std": 8.936632895133865, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.861517759276108, "train/extr_critic_critic_opt_grad_steps": 513330.0, "train/extr_critic_critic_opt_loss": 15249.174144476232, "train/extr_critic_mag": 12.360767633142606, "train/extr_critic_max": 12.360767633142606, "train/extr_critic_mean": 3.9590059132643147, "train/extr_critic_min": -0.37493338215519006, "train/extr_critic_std": 2.9781685463139707, "train/extr_return_normed_mag": 1.3742572589659354, "train/extr_return_normed_max": 1.3742572589659354, "train/extr_return_normed_mean": 0.41529814122428355, "train/extr_return_normed_min": -0.0802191209415315, "train/extr_return_normed_std": 0.3173620352442835, "train/extr_return_rate": 0.8650812842476536, "train/extr_return_raw_mag": 13.053320253399056, "train/extr_return_raw_max": 13.053320253399056, "train/extr_return_raw_mean": 3.977523212701502, "train/extr_return_raw_min": -0.7117628358619313, "train/extr_return_raw_std": 3.003568429342458, "train/extr_reward_mag": 1.0802692258861704, "train/extr_reward_max": 1.0802692258861704, "train/extr_reward_mean": 0.06372667549991272, "train/extr_reward_min": -0.5874350440334266, "train/extr_reward_std": 0.24273755873592806, "train/image_loss_mean": 3.3068063427025165, "train/image_loss_std": 8.371418281340263, "train/model_loss_mean": 6.830356409851934, "train/model_loss_std": 12.558138148885378, "train/model_opt_grad_norm": 21.00335227267843, "train/model_opt_grad_steps": 512910.0, "train/model_opt_loss": 17075.891065140844, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6898365390132852, "train/policy_entropy_max": 2.6898365390132852, "train/policy_entropy_mean": 0.373470620370247, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5714547126226022, "train/policy_logprob_mag": 7.438384284435863, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37456493121637424, "train/policy_logprob_min": -7.438384284435863, "train/policy_logprob_std": 1.0081427978797697, "train/policy_randomness_mag": 0.9493942579752962, "train/policy_randomness_max": 0.9493942579752962, "train/policy_randomness_mean": 0.13181873998591598, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2016984375429825, "train/post_ent_mag": 55.310993946773905, "train/post_ent_max": 55.310993946773905, "train/post_ent_mean": 40.05803186121121, "train/post_ent_min": 19.5071692936857, "train/post_ent_std": 5.661053476199298, "train/prior_ent_mag": 76.78365594568388, "train/prior_ent_max": 76.78365594568388, "train/prior_ent_mean": 45.815212034843334, "train/prior_ent_min": 27.514607228023905, "train/prior_ent_std": 7.870366559901708, "train/rep_loss_mean": 5.771129755906656, "train/rep_loss_std": 8.936632895133865, "train/reward_avg": 0.04537301888348351, "train/reward_loss_mean": 0.060868832899231305, "train/reward_loss_std": 0.2208122967834204, "train/reward_max_data": 1.0281690208005234, "train/reward_max_pred": 1.0268338666835302, "train/reward_neg_acc": 0.9930618111516388, "train/reward_neg_loss": 0.02598562785489878, "train/reward_pos_acc": 0.990357690294024, "train/reward_pos_loss": 0.7232485740957125, "train/reward_pred": 0.04505112801324314, "train/reward_rate": 0.04998349471830986, "stats/sum_log_reward": 12.242857388087682, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 3.142857142857143, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 18.428571428571427, "stats/max_log_achievement_collect_wood": 13.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.7142857142857143, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.142857142857143, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 3.4285714285714284, "stats/max_log_achievement_place_table": 2.5714285714285716, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.4662728139332363, "replay/size": 1000000.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.2859141600198586e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3246216587514184e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1008846759796, "timer/env.step_count": 1432.0, "timer/env.step_total": 20.512823820114136, "timer/env.step_frac": 0.06835309346809135, "timer/env.step_avg": 0.014324597639744509, "timer/env.step_min": 0.0028676986694335938, "timer/env.step_max": 1.821592092514038, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.29176926612854004, "timer/replay.add_frac": 0.0009722372742871609, "timer/replay.add_avg": 0.0002037494875199302, "timer/replay.add_min": 7.2479248046875e-05, "timer/replay.add_max": 0.0038704872131347656, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028640270233154297, "timer/logger.write_frac": 9.543547418754642e-05, "timer/logger.write_avg": 0.028640270233154297, "timer/logger.write_min": 0.028640270233154297, "timer/logger.write_max": 0.028640270233154297, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002987384796142578, "timer/checkpoint.save_frac": 9.954601764563513e-07, "timer/checkpoint.save_avg": 0.0002987384796142578, "timer/checkpoint.save_min": 0.0002987384796142578, "timer/checkpoint.save_max": 0.0002987384796142578, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2038874626159668, "timer/agent.save_frac": 0.004011609175747049, "timer/agent.save_avg": 1.2038874626159668, "timer/agent.save_min": 1.2038874626159668, "timer/agent.save_max": 1.2038874626159668, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.604194641113281e-05, "timer/replay.save_frac": 2.2006581714158765e-07, "timer/replay.save_avg": 6.604194641113281e-05, "timer/replay.save_min": 6.604194641113281e-05, "timer/replay.save_max": 6.604194641113281e-05, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 12.418835639953613, "timer/agent.policy_frac": 0.04138220269947651, "timer/agent.policy_avg": 0.008672371256950848, "timer/agent.policy_min": 0.005830526351928711, "timer/agent.policy_max": 1.1922619342803955, "timer/dataset_count": 716.0, "timer/dataset_total": 0.05749630928039551, "timer/dataset_frac": 0.00019158993597261317, "timer/dataset_avg": 8.030210793351327e-05, "timer/dataset_min": 6.0558319091796875e-05, "timer/dataset_max": 0.00014448165893554688, "timer/agent.train_count": 716.0, "timer/agent.train_total": 266.13699412345886, "timer/agent.train_frac": 0.8868250902052763, "timer/agent.train_avg": 0.3716997124629314, "timer/agent.train_min": 0.36377573013305664, "timer/agent.train_max": 0.8221514225006104, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21727800369262695, "timer/agent.report_frac": 0.0007240165383958233, "timer/agent.report_avg": 0.21727800369262695, "timer/agent.report_min": 0.21727800369262695, "timer/agent.report_max": 0.21727800369262695, "fps": 4.771651829087102}
{"step": 1028737, "episode/length": 289.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.03793103448275862}
{"step": 1028876, "episode/length": 138.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.06474820143884892}
{"step": 1029118, "episode/length": 241.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.05371900826446281}
{"step": 1029432, "episode/length": 313.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 18.500000067055225, "episode/reward_rate": 0.050955414012738856}
{"step": 1029628, "episode/length": 195.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.07142857142857142}
{"step": 1029801, "episode/length": 172.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06358381502890173}
{"step": 1029931, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.435957399133134, "train/action_min": 0.0, "train/action_std": 3.3153392811344093, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038410960173566044, "train/actor_opt_grad_steps": 514050.0, "train/actor_opt_loss": -10.187248714268208, "train/adv_mag": 0.4075095100353842, "train/adv_max": 0.3554892366471356, "train/adv_mean": 0.0019457951824584248, "train/adv_min": -0.34565725330620595, "train/adv_std": 0.04221706582258825, "train/cont_avg": 0.9950502996575342, "train/cont_loss_mean": 6.1117672701534685e-06, "train/cont_loss_std": 0.0001580840340670252, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00025379415953703094, "train/cont_pos_acc": 0.9999999812204544, "train/cont_pos_loss": 4.778086099927599e-06, "train/cont_pred": 0.9950470303835934, "train/cont_rate": 0.9950502996575342, "train/dyn_loss_mean": 5.6857571275266885, "train/dyn_loss_std": 8.921447283601108, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9073977094807036, "train/extr_critic_critic_opt_grad_steps": 514050.0, "train/extr_critic_critic_opt_loss": 15266.362772902397, "train/extr_critic_mag": 12.387953993392317, "train/extr_critic_max": 12.387953993392317, "train/extr_critic_mean": 3.9141432683761805, "train/extr_critic_min": -0.36166793842838235, "train/extr_critic_std": 2.9917557370172787, "train/extr_return_normed_mag": 1.3772565306049505, "train/extr_return_normed_max": 1.3772565306049505, "train/extr_return_normed_mean": 0.40803102801923885, "train/extr_return_normed_min": -0.08063635811822055, "train/extr_return_normed_std": 0.3157388696523562, "train/extr_return_rate": 0.8621210145623717, "train/extr_return_raw_mag": 13.201124308860464, "train/extr_return_raw_max": 13.201124308860464, "train/extr_return_raw_mean": 3.9327318243784446, "train/extr_return_raw_min": -0.7375770758276117, "train/extr_return_raw_std": 3.0190872786796255, "train/extr_reward_mag": 1.0816028738675052, "train/extr_reward_max": 1.0816028738675052, "train/extr_reward_mean": 0.06300759453275433, "train/extr_reward_min": -0.5951538984089682, "train/extr_reward_std": 0.24116767432591688, "train/image_loss_mean": 3.3649254237135797, "train/image_loss_std": 8.435831697019813, "train/model_loss_mean": 6.835651064572269, "train/model_loss_std": 12.58897627216496, "train/model_opt_grad_norm": 21.08275490590971, "train/model_opt_grad_steps": 513629.2876712329, "train/model_opt_loss": 17654.37936108733, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2602.7397260273974, "train/policy_entropy_mag": 2.701593957535208, "train/policy_entropy_max": 2.701593957535208, "train/policy_entropy_mean": 0.41715469180721126, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6287999928814091, "train/policy_logprob_mag": 7.4383842324557365, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41901416219260595, "train/policy_logprob_min": -7.4383842324557365, "train/policy_logprob_std": 1.0488737429658028, "train/policy_randomness_mag": 0.9535441129174951, "train/policy_randomness_max": 0.9535441129174951, "train/policy_randomness_mean": 0.147237300362489, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2219388046085018, "train/post_ent_mag": 55.99773929543691, "train/post_ent_max": 55.99773929543691, "train/post_ent_mean": 40.258878734013805, "train/post_ent_min": 19.416156664286575, "train/post_ent_std": 5.779535189066848, "train/prior_ent_mag": 76.7940171124184, "train/prior_ent_max": 76.7940171124184, "train/prior_ent_mean": 45.93645545227887, "train/prior_ent_min": 27.818739747347898, "train/prior_ent_std": 7.904725231536447, "train/rep_loss_mean": 5.6857571275266885, "train/rep_loss_std": 8.921447283601108, "train/reward_avg": 0.04500347771362899, "train/reward_loss_mean": 0.0592652423026627, "train/reward_loss_std": 0.21298708940205507, "train/reward_max_data": 1.0369863101880845, "train/reward_max_pred": 1.031452289999348, "train/reward_neg_acc": 0.9931367284631076, "train/reward_neg_loss": 0.024923710943493126, "train/reward_pos_acc": 0.991389225607049, "train/reward_pos_loss": 0.7184380341882575, "train/reward_pred": 0.04480019949172458, "train/reward_rate": 0.049510380993150686, "stats/sum_log_reward": 11.433333396911621, "stats/max_log_achievement_collect_coal": 1.1666666666666667, "stats/max_log_achievement_collect_drink": 5.333333333333333, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 0.5, "stats/max_log_achievement_collect_stone": 16.0, "stats/max_log_achievement_collect_wood": 11.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.3333333333333333, "stats/max_log_achievement_place_furnace": 2.3333333333333335, "stats/max_log_achievement_place_plant": 0.5, "stats/max_log_achievement_place_stone": 3.5, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.5640420963366827, "replay/size": 1000000.0, "replay/inserts": 1460.0, "replay/samples": 11680.0, "replay/insert_wait_avg": 3.3212034669640947e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.317038111490746e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2587773799896, "timer/env.step_count": 1460.0, "timer/env.step_total": 17.47705888748169, "timer/env.step_frac": 0.05820665440652136, "timer/env.step_avg": 0.011970588279097048, "timer/env.step_min": 0.0026597976684570312, "timer/env.step_max": 1.6226892471313477, "timer/replay.add_count": 1460.0, "timer/replay.add_total": 0.30524134635925293, "timer/replay.add_frac": 0.0010165942492097663, "timer/replay.add_avg": 0.0002090694153145568, "timer/replay.add_min": 7.724761962890625e-05, "timer/replay.add_max": 0.0041656494140625, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029050827026367188, "timer/logger.write_frac": 9.67526321124068e-05, "timer/logger.write_avg": 0.029050827026367188, "timer/logger.write_min": 0.029050827026367188, "timer/logger.write_max": 0.029050827026367188, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1460.0, "timer/agent.policy_total": 10.727406740188599, "timer/agent.policy_frac": 0.03572720449271873, "timer/agent.policy_avg": 0.0073475388631428756, "timer/agent.policy_min": 0.005844831466674805, "timer/agent.policy_max": 0.016249895095825195, "timer/dataset_count": 730.0, "timer/dataset_total": 0.05843400955200195, "timer/dataset_frac": 0.00019461216108947034, "timer/dataset_avg": 8.004658842739993e-05, "timer/dataset_min": 5.936622619628906e-05, "timer/dataset_max": 0.00012874603271484375, "timer/agent.train_count": 730.0, "timer/agent.train_total": 270.99206471443176, "timer/agent.train_frac": 0.9025283692922, "timer/agent.train_avg": 0.3712220064581257, "timer/agent.train_min": 0.36372995376586914, "timer/agent.train_max": 0.38619446754455566, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2205204963684082, "timer/agent.report_frac": 0.000734434804180031, "timer/agent.report_avg": 0.2205204963684082, "timer/agent.report_min": 0.2205204963684082, "timer/agent.report_max": 0.2205204963684082, "fps": 4.862382700950833}
{"step": 1030248, "episode/length": 446.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.029082774049217}
{"step": 1030446, "episode/length": 197.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.05555555555555555}
{"step": 1030638, "episode/length": 191.0, "episode/score": 15.100000008940697, "episode/sum_abs_reward": 17.30000004172325, "episode/reward_rate": 0.08333333333333333}
{"step": 1030855, "episode/length": 216.0, "episode/score": 13.099999994039536, "episode/sum_abs_reward": 15.300000011920929, "episode/reward_rate": 0.06912442396313365}
{"step": 1031022, "episode/length": 166.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.07784431137724551}
{"step": 1031273, "episode/length": 250.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.055776892430278883}
{"step": 1031393, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.351972188035103, "train/action_min": 0.0, "train/action_std": 3.2050673079817265, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03730933130910135, "train/actor_opt_grad_steps": 514780.0, "train/actor_opt_loss": -11.220124584763017, "train/adv_mag": 0.39247979448266224, "train/adv_max": 0.3437744915893633, "train/adv_mean": 0.002174090417935226, "train/adv_min": -0.3275927942093105, "train/adv_std": 0.042301567654087116, "train/cont_avg": 0.9951706977739726, "train/cont_loss_mean": 6.843969209352561e-05, "train/cont_loss_std": 0.0021287942872255006, "train/cont_neg_acc": 0.9965753424657534, "train/cont_neg_loss": 0.016308075216510447, "train/cont_pos_acc": 0.9999999820369564, "train/cont_pos_loss": 5.020411452259807e-06, "train/cont_pred": 0.9951856487417874, "train/cont_rate": 0.9951706977739726, "train/dyn_loss_mean": 5.625737523379391, "train/dyn_loss_std": 8.834657943412049, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9251326583836177, "train/extr_critic_critic_opt_grad_steps": 514780.0, "train/extr_critic_critic_opt_loss": 15454.556774400686, "train/extr_critic_mag": 12.344110645659983, "train/extr_critic_max": 12.344110645659983, "train/extr_critic_mean": 3.8560101430710048, "train/extr_critic_min": -0.3474968230887635, "train/extr_critic_std": 2.9369105933463735, "train/extr_return_normed_mag": 1.3712963486370975, "train/extr_return_normed_max": 1.3712963486370975, "train/extr_return_normed_mean": 0.4012727929304724, "train/extr_return_normed_min": -0.07208766436127767, "train/extr_return_normed_std": 0.3106066547844508, "train/extr_return_rate": 0.8657053104818684, "train/extr_return_raw_mag": 13.138400744085443, "train/extr_return_raw_max": 13.138400744085443, "train/extr_return_raw_mean": 3.8767593984734523, "train/extr_return_raw_min": -0.6430440518545778, "train/extr_return_raw_std": 2.9657529314903366, "train/extr_reward_mag": 1.0774981648954627, "train/extr_reward_max": 1.0774981648954627, "train/extr_reward_mean": 0.06401063593691342, "train/extr_reward_min": -0.6179381119061823, "train/extr_reward_std": 0.2429585530333323, "train/image_loss_mean": 3.3006754052149105, "train/image_loss_std": 8.442804441060105, "train/model_loss_mean": 6.734970288733914, "train/model_loss_std": 12.557338936688149, "train/model_opt_grad_norm": 22.27512897857248, "train/model_opt_grad_steps": 514358.3561643836, "train/model_opt_loss": 11289.333944242295, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1695.2054794520548, "train/policy_entropy_mag": 2.6894050983533466, "train/policy_entropy_max": 2.6894050983533466, "train/policy_entropy_mean": 0.38619182432351046, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5885271977071893, "train/policy_logprob_mag": 7.438384323903959, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38647422745619736, "train/policy_logprob_min": -7.438384323903959, "train/policy_logprob_std": 1.017815255138972, "train/policy_randomness_mag": 0.9492419778484188, "train/policy_randomness_max": 0.9492419778484188, "train/policy_randomness_mean": 0.13630876751386956, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20772427769556437, "train/post_ent_mag": 55.3175198280648, "train/post_ent_max": 55.3175198280648, "train/post_ent_mean": 40.43044385518113, "train/post_ent_min": 19.650687831721893, "train/post_ent_std": 5.786724998526378, "train/prior_ent_mag": 76.79093264227043, "train/prior_ent_max": 76.79093264227043, "train/prior_ent_mean": 46.036063050570554, "train/prior_ent_min": 27.969818350386944, "train/prior_ent_std": 7.832218294274317, "train/rep_loss_mean": 5.625737523379391, "train/rep_loss_std": 8.834657943412049, "train/reward_avg": 0.04426637368455325, "train/reward_loss_mean": 0.058783928978524795, "train/reward_loss_std": 0.21516815909784134, "train/reward_max_data": 1.0328767201671862, "train/reward_max_pred": 1.0310695530617073, "train/reward_neg_acc": 0.9936022652338629, "train/reward_neg_loss": 0.0244590193798689, "train/reward_pos_acc": 0.9902827119174069, "train/reward_pos_loss": 0.7280533272926122, "train/reward_pred": 0.043770634377860045, "train/reward_rate": 0.0488013698630137, "stats/sum_log_reward": 12.600000381469727, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 4.166666666666667, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 15.5, "stats/max_log_achievement_collect_wood": 11.166666666666666, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.3333333333333333, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.3333333333333333, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 4.0, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.6666666666666667, "stats/mean_log_entropy": 0.491988904774189, "replay/size": 1000000.0, "replay/inserts": 1462.0, "replay/samples": 11696.0, "replay/insert_wait_avg": 3.272629306026099e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3011914108422484e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1185495853424, "timer/env.step_count": 1462.0, "timer/env.step_total": 17.05813694000244, "timer/env.step_frac": 0.056837996063791286, "timer/env.step_avg": 0.011667672325583064, "timer/env.step_min": 0.0028328895568847656, "timer/env.step_max": 1.6013474464416504, "timer/replay.add_count": 1462.0, "timer/replay.add_total": 0.28403282165527344, "timer/replay.add_frac": 0.0009464020869343339, "timer/replay.add_avg": 0.00019427689579704067, "timer/replay.add_min": 7.581710815429688e-05, "timer/replay.add_max": 0.0012710094451904297, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02698993682861328, "timer/logger.write_frac": 8.993091851837822e-05, "timer/logger.write_avg": 0.02698993682861328, "timer/logger.write_min": 0.02698993682861328, "timer/logger.write_max": 0.02698993682861328, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1462.0, "timer/agent.policy_total": 10.704654455184937, "timer/agent.policy_frac": 0.035668086727644724, "timer/agent.policy_avg": 0.007321925071945921, "timer/agent.policy_min": 0.005724668502807617, "timer/agent.policy_max": 0.015947818756103516, "timer/dataset_count": 731.0, "timer/dataset_total": 0.05800509452819824, "timer/dataset_frac": 0.0001932739399425352, "timer/dataset_avg": 7.93503345118991e-05, "timer/dataset_min": 5.888938903808594e-05, "timer/dataset_max": 0.00013184547424316406, "timer/agent.train_count": 731.0, "timer/agent.train_total": 271.3267197608948, "timer/agent.train_frac": 0.9040651440431531, "timer/agent.train_avg": 0.371171983257038, "timer/agent.train_min": 0.36290669441223145, "timer/agent.train_max": 0.3874399662017822, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21712636947631836, "timer/agent.report_frac": 0.0007234686752162109, "timer/agent.report_avg": 0.21712636947631836, "timer/agent.report_min": 0.21712636947631836, "timer/agent.report_max": 0.21712636947631836, "fps": 4.871303731843268}
{"step": 1031452, "episode/length": 178.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.0782122905027933}
{"step": 1031672, "episode/length": 219.0, "episode/score": 14.099999994039536, "episode/sum_abs_reward": 15.900000035762787, "episode/reward_rate": 0.06818181818181818}
{"step": 1031828, "episode/length": 155.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.0641025641025641}
{"step": 1032035, "episode/length": 206.0, "episode/score": 13.099999994039536, "episode/sum_abs_reward": 15.700000017881393, "episode/reward_rate": 0.07246376811594203}
{"step": 1032250, "episode/length": 214.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.06046511627906977}
{"step": 1032586, "episode/length": 335.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 9.500000037252903, "episode/reward_rate": 0.023809523809523808}
{"step": 1032663, "episode/length": 76.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.07792207792207792}
{"step": 1032822, "episode/length": 158.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.08176100628930817}
{"step": 1032823, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4376415676540795, "train/action_min": 0.0, "train/action_std": 3.295412666267819, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038069314090535045, "train/actor_opt_grad_steps": 515505.0, "train/actor_opt_loss": -11.438545554876328, "train/adv_mag": 0.39501772820949554, "train/adv_max": 0.31983810000949436, "train/adv_mean": 0.0020936896169637797, "train/adv_min": -0.35936665369404686, "train/adv_std": 0.043246257222361036, "train/cont_avg": 0.9949679904513888, "train/cont_loss_mean": 1.233720150735825e-05, "train/cont_loss_std": 0.0003540822361409981, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0018649736692556553, "train/cont_pos_acc": 0.999999980131785, "train/cont_pos_loss": 2.9542540605436643e-06, "train/cont_pred": 0.9949724599719048, "train/cont_rate": 0.9949679904513888, "train/dyn_loss_mean": 5.664107514752282, "train/dyn_loss_std": 8.855037596490648, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9171899366709921, "train/extr_critic_critic_opt_grad_steps": 515505.0, "train/extr_critic_critic_opt_loss": 15486.594645182291, "train/extr_critic_mag": 12.420043932067024, "train/extr_critic_max": 12.420043932067024, "train/extr_critic_mean": 3.9241173499160342, "train/extr_critic_min": -0.32502381172445083, "train/extr_critic_std": 2.9577370120419397, "train/extr_return_normed_mag": 1.3842356668578253, "train/extr_return_normed_max": 1.3842356668578253, "train/extr_return_normed_mean": 0.4083150989479489, "train/extr_return_normed_min": -0.07571638385868734, "train/extr_return_normed_std": 0.3132638484239578, "train/extr_return_rate": 0.8701995180712806, "train/extr_return_raw_mag": 13.239508165253532, "train/extr_return_raw_max": 13.239508165253532, "train/extr_return_raw_mean": 3.944064845641454, "train/extr_return_raw_min": -0.6662774951093726, "train/extr_return_raw_std": 2.983890732129415, "train/extr_reward_mag": 1.0805662274360657, "train/extr_reward_max": 1.0805662274360657, "train/extr_reward_mean": 0.06503711625312765, "train/extr_reward_min": -0.5852577570411894, "train/extr_reward_std": 0.24493356256021392, "train/image_loss_mean": 3.284494654999839, "train/image_loss_std": 8.459382904900444, "train/model_loss_mean": 6.74434275759591, "train/model_loss_std": 12.564500159687466, "train/model_opt_grad_norm": 23.12167806095547, "train/model_opt_grad_steps": 515083.0, "train/model_opt_loss": 10623.015733506945, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1579.861111111111, "train/policy_entropy_mag": 2.670122789012061, "train/policy_entropy_max": 2.670122789012061, "train/policy_entropy_mean": 0.3997061277429263, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5969624804953734, "train/policy_logprob_mag": 7.438384321000841, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39921997487545013, "train/policy_logprob_min": -7.438384321000841, "train/policy_logprob_std": 1.0250055028332605, "train/policy_randomness_mag": 0.9424361669354968, "train/policy_randomness_max": 0.9424361669354968, "train/policy_randomness_mean": 0.1410787215249406, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21070155998071036, "train/post_ent_mag": 55.75413052241007, "train/post_ent_max": 55.75413052241007, "train/post_ent_mean": 40.24976518419054, "train/post_ent_min": 19.424770924780105, "train/post_ent_std": 5.81295997566647, "train/prior_ent_mag": 76.78219657474094, "train/prior_ent_max": 76.78219657474094, "train/prior_ent_mean": 45.953527238633896, "train/prior_ent_min": 27.97736398379008, "train/prior_ent_std": 7.851843025949266, "train/rep_loss_mean": 5.664107514752282, "train/rep_loss_std": 8.855037596490648, "train/reward_avg": 0.04697808144717581, "train/reward_loss_mean": 0.06137137311614222, "train/reward_loss_std": 0.21926578113602269, "train/reward_max_data": 1.0305555628405676, "train/reward_max_pred": 1.0283540884653728, "train/reward_neg_acc": 0.99288310110569, "train/reward_neg_loss": 0.025797107101728518, "train/reward_pos_acc": 0.989390647245778, "train/reward_pos_loss": 0.7197977345850732, "train/reward_pred": 0.04676182599117359, "train/reward_rate": 0.05141872829861111, "stats/sum_log_reward": 10.600000262260437, "stats/max_log_achievement_collect_coal": 0.375, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.75, "stats/max_log_achievement_collect_stone": 11.375, "stats/max_log_achievement_collect_wood": 9.75, "stats/max_log_achievement_defeat_skeleton": 0.25, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.625, "stats/max_log_achievement_make_stone_sword": 0.375, "stats/max_log_achievement_make_wood_pickaxe": 0.875, "stats/max_log_achievement_make_wood_sword": 0.625, "stats/max_log_achievement_place_furnace": 1.75, "stats/max_log_achievement_place_plant": 1.75, "stats/max_log_achievement_place_stone": 2.0, "stats/max_log_achievement_place_table": 3.125, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.29270109720528126, "replay/size": 1000000.0, "replay/inserts": 1430.0, "replay/samples": 11440.0, "replay/insert_wait_avg": 3.3673706588211593e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3087596093024407e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 301.0365171432495, "timer/env.step_count": 1430.0, "timer/env.step_total": 22.270718574523926, "timer/env.step_frac": 0.07398012302914835, "timer/env.step_avg": 0.015573929073093655, "timer/env.step_min": 0.0027129650115966797, "timer/env.step_max": 2.353111982345581, "timer/replay.add_count": 1430.0, "timer/replay.add_total": 0.314098596572876, "timer/replay.add_frac": 0.0010433903486313947, "timer/replay.add_avg": 0.0002196493682327804, "timer/replay.add_min": 8.225440979003906e-05, "timer/replay.add_max": 0.005918025970458984, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03251361846923828, "timer/logger.write_frac": 0.0001080055628392968, "timer/logger.write_avg": 0.03251361846923828, "timer/logger.write_min": 0.03251361846923828, "timer/logger.write_max": 0.03251361846923828, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003376007080078125, "timer/checkpoint.save_frac": 1.121460981583054e-06, "timer/checkpoint.save_avg": 0.0003376007080078125, "timer/checkpoint.save_min": 0.0003376007080078125, "timer/checkpoint.save_max": 0.0003376007080078125, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4427440166473389, "timer/agent.save_frac": 0.00479258805655396, "timer/agent.save_avg": 1.4427440166473389, "timer/agent.save_min": 1.4427440166473389, "timer/agent.save_max": 1.4427440166473389, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.890296936035156e-05, "timer/replay.save_frac": 2.28885751184677e-07, "timer/replay.save_avg": 6.890296936035156e-05, "timer/replay.save_min": 6.890296936035156e-05, "timer/replay.save_max": 6.890296936035156e-05, "timer/agent.policy_count": 1430.0, "timer/agent.policy_total": 11.854273796081543, "timer/agent.policy_frac": 0.0393781920830576, "timer/agent.policy_avg": 0.008289701955301779, "timer/agent.policy_min": 0.005823850631713867, "timer/agent.policy_max": 1.4269964694976807, "timer/dataset_count": 715.0, "timer/dataset_total": 0.057436466217041016, "timer/dataset_frac": 0.00019079567742178477, "timer/dataset_avg": 8.033072198187554e-05, "timer/dataset_min": 5.91278076171875e-05, "timer/dataset_max": 0.000148773193359375, "timer/agent.train_count": 715.0, "timer/agent.train_total": 265.85346817970276, "timer/agent.train_frac": 0.8831269731080341, "timer/agent.train_avg": 0.3718230324191647, "timer/agent.train_min": 0.36434078216552734, "timer/agent.train_max": 0.7664453983306885, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22169709205627441, "timer/agent.report_frac": 0.000736445844378338, "timer/agent.report_avg": 0.22169709205627441, "timer/agent.report_min": 0.22169709205627441, "timer/agent.report_max": 0.22169709205627441, "fps": 4.750166196089719}
{"step": 1033074, "episode/length": 251.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.30000003427267, "episode/reward_rate": 0.05952380952380952}
{"step": 1033229, "episode/length": 154.0, "episode/score": 13.100000023841858, "episode/sum_abs_reward": 14.5, "episode/reward_rate": 0.0967741935483871}
{"step": 1033476, "episode/length": 246.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.05668016194331984}
{"step": 1033792, "episode/length": 315.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.500000037252903, "episode/reward_rate": 0.04746835443037975}
{"step": 1034004, "episode/length": 211.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.05188679245283019}
{"step": 1034248, "episode/length": 243.0, "episode/score": 16.099999979138374, "episode/sum_abs_reward": 18.700000032782555, "episode/reward_rate": 0.06967213114754098}
{"step": 1034285, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.3812933098779965, "train/action_min": 0.0, "train/action_std": 3.2390700072458345, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03911535949637628, "train/actor_opt_grad_steps": 516230.0, "train/actor_opt_loss": -10.258629816035702, "train/adv_mag": 0.3978771648994864, "train/adv_max": 0.3430544342080208, "train/adv_mean": 0.0027547884987243003, "train/adv_min": -0.35106607985823124, "train/adv_std": 0.04363324135950167, "train/cont_avg": 0.9947024828767124, "train/cont_loss_mean": 7.292612712456866e-05, "train/cont_loss_std": 0.0023070953938533626, "train/cont_neg_acc": 0.9965753424657534, "train/cont_neg_loss": 0.01767882899923948, "train/cont_pos_acc": 0.9999999861194663, "train/cont_pos_loss": 3.0314366796152132e-06, "train/cont_pred": 0.9947157926755409, "train/cont_rate": 0.9947024828767124, "train/dyn_loss_mean": 5.68108304559368, "train/dyn_loss_std": 8.90875199722917, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9260912300789192, "train/extr_critic_critic_opt_grad_steps": 516230.0, "train/extr_critic_critic_opt_loss": 15449.706282106165, "train/extr_critic_mag": 12.36324261965817, "train/extr_critic_max": 12.36324261965817, "train/extr_critic_mean": 3.9270974642609895, "train/extr_critic_min": -0.3493743498031407, "train/extr_critic_std": 2.968865107183587, "train/extr_return_normed_mag": 1.3909398758248106, "train/extr_return_normed_max": 1.3909398758248106, "train/extr_return_normed_mean": 0.413755230299414, "train/extr_return_normed_min": -0.07740704235557007, "train/extr_return_normed_std": 0.3187983944399716, "train/extr_return_rate": 0.8607172598577526, "train/extr_return_raw_mag": 13.150696532367027, "train/extr_return_raw_max": 13.150696532367027, "train/extr_return_raw_mean": 3.9530298187308115, "train/extr_return_raw_min": -0.6701233117547754, "train/extr_return_raw_std": 3.0007646704373294, "train/extr_reward_mag": 1.0785582424843148, "train/extr_reward_max": 1.0785582424843148, "train/extr_reward_mean": 0.06450994578126358, "train/extr_reward_min": -0.596188925716975, "train/extr_reward_std": 0.24442996513353635, "train/image_loss_mean": 3.3721406639438785, "train/image_loss_std": 8.888035623994591, "train/model_loss_mean": 6.8438118124661385, "train/model_loss_std": 13.012073373141353, "train/model_opt_grad_norm": 20.56137082348131, "train/model_opt_grad_steps": 515808.0, "train/model_opt_loss": 17109.529497538526, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.692888432986116, "train/policy_entropy_max": 2.692888432986116, "train/policy_entropy_mean": 0.38150989254043527, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5783585407962538, "train/policy_logprob_mag": 7.438384284711864, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3810419936294425, "train/policy_logprob_min": -7.438384284711864, "train/policy_logprob_std": 1.0114340643360191, "train/policy_randomness_mag": 0.9504714453057067, "train/policy_randomness_max": 0.9504714453057067, "train/policy_randomness_mean": 0.13465625180365287, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20413518574548095, "train/post_ent_mag": 55.63926336210068, "train/post_ent_max": 55.63926336210068, "train/post_ent_mean": 40.36167442635314, "train/post_ent_min": 19.29313798146705, "train/post_ent_std": 5.769895089815741, "train/prior_ent_mag": 76.94265893387468, "train/prior_ent_max": 76.94265893387468, "train/prior_ent_mean": 46.05470730507211, "train/prior_ent_min": 27.99409270613161, "train/prior_ent_std": 7.8080218132228065, "train/rep_loss_mean": 5.68108304559368, "train/rep_loss_std": 8.90875199722917, "train/reward_avg": 0.046026861703355015, "train/reward_loss_mean": 0.06294838344193485, "train/reward_loss_std": 0.22955332369837042, "train/reward_max_data": 1.026027403465689, "train/reward_max_pred": 1.0274071448469815, "train/reward_neg_acc": 0.9930939935658076, "train/reward_neg_loss": 0.02714196657634353, "train/reward_pos_acc": 0.987927498066262, "train/reward_pos_loss": 0.7279222681097788, "train/reward_pred": 0.045605060070344844, "train/reward_rate": 0.05106217893835616, "stats/sum_log_reward": 13.433333396911621, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 3.6666666666666665, "stats/max_log_achievement_collect_iron": 0.3333333333333333, "stats/max_log_achievement_collect_sapling": 2.1666666666666665, "stats/max_log_achievement_collect_stone": 14.5, "stats/max_log_achievement_collect_wood": 15.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.3333333333333335, "stats/max_log_achievement_eat_cow": 0.6666666666666666, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_stone_sword": 1.1666666666666667, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 2.1666666666666665, "stats/max_log_achievement_place_stone": 3.6666666666666665, "stats/max_log_achievement_place_table": 4.166666666666667, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.3897470210989316, "replay/size": 1000000.0, "replay/inserts": 1462.0, "replay/samples": 11696.0, "replay/insert_wait_avg": 3.403090908817651e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.332848734144636e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.28529596328735, "timer/env.step_count": 1462.0, "timer/env.step_total": 17.122433185577393, "timer/env.step_frac": 0.057020551508025784, "timer/env.step_avg": 0.01171165060573009, "timer/env.step_min": 0.0027441978454589844, "timer/env.step_max": 1.6575429439544678, "timer/replay.add_count": 1462.0, "timer/replay.add_total": 0.29926109313964844, "timer/replay.add_frac": 0.0009965892341802706, "timer/replay.add_avg": 0.00020469295016391822, "timer/replay.add_min": 7.867813110351562e-05, "timer/replay.add_max": 0.0037217140197753906, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021095752716064453, "timer/logger.write_frac": 7.0252366664812e-05, "timer/logger.write_avg": 0.021095752716064453, "timer/logger.write_min": 0.021095752716064453, "timer/logger.write_max": 0.021095752716064453, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1462.0, "timer/agent.policy_total": 10.735322952270508, "timer/agent.policy_frac": 0.03575041168044072, "timer/agent.policy_avg": 0.007342902156135778, "timer/agent.policy_min": 0.005713701248168945, "timer/agent.policy_max": 0.018702030181884766, "timer/dataset_count": 731.0, "timer/dataset_total": 0.05936598777770996, "timer/dataset_frac": 0.00019769861720091682, "timer/dataset_avg": 8.121202158373456e-05, "timer/dataset_min": 6.0558319091796875e-05, "timer/dataset_max": 0.00015926361083984375, "timer/agent.train_count": 731.0, "timer/agent.train_total": 271.39086532592773, "timer/agent.train_frac": 0.9037767382359867, "timer/agent.train_avg": 0.37125973368799964, "timer/agent.train_min": 0.36431026458740234, "timer/agent.train_max": 0.38454151153564453, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22176432609558105, "timer/agent.report_frac": 0.0007385121052437206, "timer/agent.report_avg": 0.22176432609558105, "timer/agent.report_min": 0.22176432609558105, "timer/agent.report_max": 0.22176432609558105, "fps": 4.868601250427498}
{"step": 1034490, "episode/length": 241.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.500000037252903, "episode/reward_rate": 0.05785123966942149}
{"step": 1034702, "episode/length": 211.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.07547169811320754}
{"step": 1034767, "episode/length": 64.0, "episode/score": 7.100000023841858, "episode/sum_abs_reward": 8.899999976158142, "episode/reward_rate": 0.13846153846153847}
{"step": 1034920, "episode/length": 152.0, "episode/score": 8.100000016391277, "episode/sum_abs_reward": 9.30000003427267, "episode/reward_rate": 0.058823529411764705}
{"step": 1035185, "episode/length": 264.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.04905660377358491}
{"step": 1035394, "episode/length": 208.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06220095693779904}
{"step": 1035749, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.408521678349743, "train/action_min": 0.0, "train/action_std": 3.2530195125161785, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03846285321226675, "train/actor_opt_grad_steps": 516960.0, "train/actor_opt_loss": -12.443996375554228, "train/adv_mag": 0.4236812983473686, "train/adv_max": 0.35775913318542585, "train/adv_mean": 0.0019225042987310276, "train/adv_min": -0.3688873058720811, "train/adv_std": 0.042800406836075326, "train/cont_avg": 0.9952375856164384, "train/cont_loss_mean": 6.883155650023914e-05, "train/cont_loss_std": 0.0021387213636018423, "train/cont_neg_acc": 0.9987546703586839, "train/cont_neg_loss": 0.0017396535970536592, "train/cont_pos_acc": 0.999986567725874, "train/cont_pos_loss": 5.082173075127226e-05, "train/cont_pred": 0.9952266322423334, "train/cont_rate": 0.9952375856164384, "train/dyn_loss_mean": 5.543995778854579, "train/dyn_loss_std": 8.914645606524324, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9053078669391267, "train/extr_critic_critic_opt_grad_steps": 516960.0, "train/extr_critic_critic_opt_loss": 15289.222014126712, "train/extr_critic_mag": 12.296330086172443, "train/extr_critic_max": 12.296330086172443, "train/extr_critic_mean": 3.9603237060651386, "train/extr_critic_min": -0.33733189759189136, "train/extr_critic_std": 2.907650010226524, "train/extr_return_normed_mag": 1.3707756620563873, "train/extr_return_normed_max": 1.3707756620563873, "train/extr_return_normed_mean": 0.41214740705000213, "train/extr_return_normed_min": -0.07913401748423707, "train/extr_return_normed_std": 0.3095596614357543, "train/extr_return_rate": 0.8815693226579118, "train/extr_return_raw_mag": 13.079037927601435, "train/extr_return_raw_max": 13.079037927601435, "train/extr_return_raw_mean": 3.9785803213511426, "train/extr_return_raw_min": -0.6852519365206157, "train/extr_return_raw_std": 2.9386864524998075, "train/extr_reward_mag": 1.07275673461287, "train/extr_reward_max": 1.07275673461287, "train/extr_reward_mean": 0.06313732506273544, "train/extr_reward_min": -0.6271343900732798, "train/extr_reward_std": 0.24135116865373638, "train/image_loss_mean": 3.2820641700535607, "train/image_loss_std": 8.488899217893, "train/model_loss_mean": 6.667146708867321, "train/model_loss_std": 12.650744869284434, "train/model_opt_grad_norm": 21.991528968288474, "train/model_opt_grad_steps": 516537.12328767125, "train/model_opt_loss": 16869.350733090752, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2534.246575342466, "train/policy_entropy_mag": 2.7003962144459766, "train/policy_entropy_max": 2.7003962144459766, "train/policy_entropy_mean": 0.39162684670866355, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6001643338432051, "train/policy_logprob_mag": 7.438384258583801, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39102007060834804, "train/policy_logprob_min": -7.438384258583801, "train/policy_logprob_std": 1.022155566574776, "train/policy_randomness_mag": 0.9531213657496727, "train/policy_randomness_max": 0.9531213657496727, "train/policy_randomness_mean": 0.1382270895250856, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21183167255088076, "train/post_ent_mag": 55.695379231074085, "train/post_ent_max": 55.695379231074085, "train/post_ent_mean": 40.24379583907454, "train/post_ent_min": 19.671460347632838, "train/post_ent_std": 5.813710467456138, "train/prior_ent_mag": 76.87222342295189, "train/prior_ent_max": 76.87222342295189, "train/prior_ent_mean": 45.78589123242522, "train/prior_ent_min": 27.874667180727606, "train/prior_ent_std": 7.895473297328165, "train/rep_loss_mean": 5.543995778854579, "train/rep_loss_std": 8.914645606524324, "train/reward_avg": 0.04332994417070526, "train/reward_loss_mean": 0.05861620263081707, "train/reward_loss_std": 0.22509281847574938, "train/reward_max_data": 1.0273972668059885, "train/reward_max_pred": 1.0266937115421033, "train/reward_neg_acc": 0.9931489139387052, "train/reward_neg_loss": 0.024838543752182838, "train/reward_pos_acc": 0.986118003930131, "train/reward_pos_loss": 0.7366442018992281, "train/reward_pred": 0.0428683719508452, "train/reward_rate": 0.04766427654109589, "stats/sum_log_reward": 11.266666809717814, "stats/max_log_achievement_collect_coal": 0.3333333333333333, "stats/max_log_achievement_collect_drink": 3.1666666666666665, "stats/max_log_achievement_collect_iron": 0.5, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 8.666666666666666, "stats/max_log_achievement_collect_wood": 12.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.6666666666666666, "stats/max_log_achievement_place_plant": 1.1666666666666667, "stats/max_log_achievement_place_stone": 1.8333333333333333, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.43934054176012677, "replay/size": 1000000.0, "replay/inserts": 1464.0, "replay/samples": 11712.0, "replay/insert_wait_avg": 3.312943411655113e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2908436235834341e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.09251523017883, "timer/env.step_count": 1464.0, "timer/env.step_total": 16.73737144470215, "timer/env.step_frac": 0.05577403832236251, "timer/env.step_avg": 0.011432630768239173, "timer/env.step_min": 0.002541065216064453, "timer/env.step_max": 1.544288158416748, "timer/replay.add_count": 1464.0, "timer/replay.add_total": 0.300487756729126, "timer/replay.add_frac": 0.0010013170655010972, "timer/replay.add_avg": 0.00020525119995158878, "timer/replay.add_min": 7.200241088867188e-05, "timer/replay.add_max": 0.0038671493530273438, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03587222099304199, "timer/logger.write_frac": 0.00011953720660286065, "timer/logger.write_avg": 0.03587222099304199, "timer/logger.write_min": 0.03587222099304199, "timer/logger.write_max": 0.03587222099304199, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1464.0, "timer/agent.policy_total": 10.693159580230713, "timer/agent.policy_frac": 0.03563287665481686, "timer/agent.policy_avg": 0.007304070751523711, "timer/agent.policy_min": 0.005780220031738281, "timer/agent.policy_max": 0.01858687400817871, "timer/dataset_count": 732.0, "timer/dataset_total": 0.058570146560668945, "timer/dataset_frac": 0.0001951736334234931, "timer/dataset_avg": 8.001386142167888e-05, "timer/dataset_min": 5.8650970458984375e-05, "timer/dataset_max": 0.0001735687255859375, "timer/agent.train_count": 732.0, "timer/agent.train_total": 271.61641788482666, "timer/agent.train_frac": 0.9051089384101757, "timer/agent.train_avg": 0.37106068017052823, "timer/agent.train_min": 0.3623046875, "timer/agent.train_max": 0.38524913787841797, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21958494186401367, "timer/agent.report_frac": 0.0007317241541182268, "timer/agent.report_avg": 0.21958494186401367, "timer/agent.report_min": 0.21958494186401367, "timer/agent.report_max": 0.21958494186401367, "fps": 4.878394073236289}
{"step": 1035819, "episode/length": 424.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.700000025331974, "episode/reward_rate": 0.01411764705882353}
{"step": 1036024, "episode/length": 204.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.900000043213367, "episode/reward_rate": 0.05853658536585366}
{"step": 1036243, "episode/length": 218.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.0639269406392694}
{"step": 1036541, "episode/length": 297.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.04697986577181208}
{"step": 1036772, "episode/length": 230.0, "episode/score": 15.099999971687794, "episode/sum_abs_reward": 17.30000003427267, "episode/reward_rate": 0.0735930735930736}
{"step": 1037051, "episode/length": 278.0, "episode/score": 16.099999986588955, "episode/sum_abs_reward": 18.30000001937151, "episode/reward_rate": 0.06093189964157706}
{"step": 1037189, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.435312906901042, "train/action_min": 0.0, "train/action_std": 3.282633582750956, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03779830478338732, "train/actor_opt_grad_steps": 517685.0, "train/actor_opt_loss": -12.229240268468857, "train/adv_mag": 0.39816930662426686, "train/adv_max": 0.32542977316512, "train/adv_mean": 0.0017365218423543007, "train/adv_min": -0.3603026931070619, "train/adv_std": 0.042352286684844226, "train/cont_avg": 0.9950358072916666, "train/cont_loss_mean": 3.166392632674647e-05, "train/cont_loss_std": 0.0009291806085419315, "train/cont_neg_acc": 0.9964788732394366, "train/cont_neg_loss": 0.00438504235115239, "train/cont_pos_acc": 0.9999999784761004, "train/cont_pos_loss": 1.477868226413332e-05, "train/cont_pred": 0.9950327368246185, "train/cont_rate": 0.9950358072916666, "train/dyn_loss_mean": 5.654615110821194, "train/dyn_loss_std": 8.881700860129463, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.879661411874824, "train/extr_critic_critic_opt_grad_steps": 517685.0, "train/extr_critic_critic_opt_loss": 15264.340087890625, "train/extr_critic_mag": 12.580051753256056, "train/extr_critic_max": 12.580051753256056, "train/extr_critic_mean": 4.037590940793355, "train/extr_critic_min": -0.3419283926486969, "train/extr_critic_std": 3.02657221754392, "train/extr_return_normed_mag": 1.3933521724409528, "train/extr_return_normed_max": 1.3933521724409528, "train/extr_return_normed_mean": 0.41947728250589633, "train/extr_return_normed_min": -0.07708624388194746, "train/extr_return_normed_std": 0.3184834093683296, "train/extr_return_rate": 0.8614963582820363, "train/extr_return_raw_mag": 13.391377594735888, "train/extr_return_raw_max": 13.391377594735888, "train/extr_return_raw_mean": 4.05422858066029, "train/extr_return_raw_min": -0.7072610101766057, "train/extr_return_raw_std": 3.0536436670356326, "train/extr_reward_mag": 1.066268526845508, "train/extr_reward_max": 1.066268526845508, "train/extr_reward_mean": 0.06500802070109381, "train/extr_reward_min": -0.6360625906123055, "train/extr_reward_std": 0.2438853925300969, "train/image_loss_mean": 3.233964302473598, "train/image_loss_std": 8.289635837078094, "train/model_loss_mean": 6.686875157886082, "train/model_loss_std": 12.43162269062466, "train/model_opt_grad_norm": 20.58102668656243, "train/model_opt_grad_steps": 517261.31944444444, "train/model_opt_loss": 10923.076768663195, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1649.3055555555557, "train/policy_entropy_mag": 2.715771499607298, "train/policy_entropy_max": 2.715771499607298, "train/policy_entropy_mean": 0.40997554506692624, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6188663757509656, "train/policy_logprob_mag": 7.4383842547734575, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40815738774836063, "train/policy_logprob_min": -7.4383842547734575, "train/policy_logprob_std": 1.0320930232604344, "train/policy_randomness_mag": 0.9585481608907381, "train/policy_randomness_max": 0.9585481608907381, "train/policy_randomness_mean": 0.14470337631387842, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21843267149395412, "train/post_ent_mag": 55.54411930508084, "train/post_ent_max": 55.54411930508084, "train/post_ent_mean": 40.24612892998589, "train/post_ent_min": 19.44388877020942, "train/post_ent_std": 5.803984238041772, "train/prior_ent_mag": 76.7310192320082, "train/prior_ent_max": 76.7310192320082, "train/prior_ent_mean": 45.894559966193306, "train/prior_ent_min": 27.979651345147026, "train/prior_ent_std": 7.857420252429114, "train/rep_loss_mean": 5.654615110821194, "train/rep_loss_std": 8.881700860129463, "train/reward_avg": 0.04619140594473316, "train/reward_loss_mean": 0.06011019109023942, "train/reward_loss_std": 0.2150957261522611, "train/reward_max_data": 1.0208333383003871, "train/reward_max_pred": 1.0187924835417006, "train/reward_neg_acc": 0.9934791773557663, "train/reward_neg_loss": 0.0251071246392611, "train/reward_pos_acc": 0.9902058757013745, "train/reward_pos_loss": 0.716946172217528, "train/reward_pred": 0.04591271268307335, "train/reward_rate": 0.050537109375, "stats/sum_log_reward": 12.266666809717814, "stats/max_log_achievement_collect_coal": 1.6666666666666667, "stats/max_log_achievement_collect_drink": 4.833333333333333, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 2.3333333333333335, "stats/max_log_achievement_collect_stone": 12.333333333333334, "stats/max_log_achievement_collect_wood": 9.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.3333333333333335, "stats/max_log_achievement_eat_cow": 0.8333333333333334, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 1.1666666666666667, "stats/max_log_achievement_place_plant": 2.1666666666666665, "stats/max_log_achievement_place_stone": 4.0, "stats/max_log_achievement_place_table": 2.6666666666666665, "stats/max_log_achievement_wake_up": 1.6666666666666667, "stats/mean_log_entropy": 0.5371686021486918, "replay/size": 1000000.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.2665001021491156e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.289674805270301e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2675905227661, "timer/env.step_count": 1440.0, "timer/env.step_total": 17.901222944259644, "timer/env.step_frac": 0.059617566161881144, "timer/env.step_avg": 0.01243140482240253, "timer/env.step_min": 0.0027909278869628906, "timer/env.step_max": 1.6217272281646729, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.29233431816101074, "timer/replay.add_frac": 0.0009735793252014194, "timer/replay.add_avg": 0.00020300994316736857, "timer/replay.add_min": 7.605552673339844e-05, "timer/replay.add_max": 0.0018744468688964844, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023142099380493164, "timer/logger.write_frac": 7.707158584848518e-05, "timer/logger.write_avg": 0.023142099380493164, "timer/logger.write_min": 0.023142099380493164, "timer/logger.write_max": 0.023142099380493164, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00040149688720703125, "timer/checkpoint.save_frac": 1.3371302793885443e-06, "timer/checkpoint.save_avg": 0.00040149688720703125, "timer/checkpoint.save_min": 0.00040149688720703125, "timer/checkpoint.save_max": 0.00040149688720703125, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.170576572418213, "timer/agent.save_frac": 0.0038984446186158092, "timer/agent.save_avg": 1.170576572418213, "timer/agent.save_min": 1.170576572418213, "timer/agent.save_max": 1.170576572418213, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.413459777832031e-05, "timer/replay.save_frac": 2.1359147574555723e-07, "timer/replay.save_avg": 6.413459777832031e-05, "timer/replay.save_min": 6.413459777832031e-05, "timer/replay.save_max": 6.413459777832031e-05, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 14.018851041793823, "timer/agent.policy_frac": 0.04668785937698768, "timer/agent.policy_avg": 0.009735313223467932, "timer/agent.policy_min": 0.005930662155151367, "timer/agent.policy_max": 2.385586977005005, "timer/dataset_count": 720.0, "timer/dataset_total": 0.05840158462524414, "timer/dataset_frac": 0.00019449846226682986, "timer/dataset_avg": 8.111331197950575e-05, "timer/dataset_min": 6.008148193359375e-05, "timer/dataset_max": 0.00015926361083984375, "timer/agent.train_count": 720.0, "timer/agent.train_total": 267.3148639202118, "timer/agent.train_frac": 0.8902554666483199, "timer/agent.train_avg": 0.3712706443336275, "timer/agent.train_min": 0.3621382713317871, "timer/agent.train_max": 0.4146535396575928, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21904373168945312, "timer/agent.report_frac": 0.0007294950857270271, "timer/agent.report_avg": 0.21904373168945312, "timer/agent.report_min": 0.21904373168945312, "timer/agent.report_max": 0.21904373168945312, "fps": 4.795616753527881}
{"step": 1037258, "episode/length": 206.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.07246376811594203}
{"step": 1037476, "episode/length": 217.0, "episode/score": 14.100000016391277, "episode/sum_abs_reward": 15.700000040233135, "episode/reward_rate": 0.06880733944954129}
{"step": 1037660, "episode/length": 183.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.07608695652173914}
{"step": 1037875, "episode/length": 214.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.06511627906976744}
{"step": 1038070, "episode/length": 194.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 16.900000013411045, "episode/reward_rate": 0.08205128205128205}
{"step": 1038592, "episode/length": 521.0, "episode/score": 16.099999986588955, "episode/sum_abs_reward": 20.500000052154064, "episode/reward_rate": 0.032567049808429116}
{"step": 1038651, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.462419065710616, "train/action_min": 0.0, "train/action_std": 3.289397602211939, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038731446081440746, "train/actor_opt_grad_steps": 518410.0, "train/actor_opt_loss": -10.639148795033154, "train/adv_mag": 0.37037516660886266, "train/adv_max": 0.31479997749197974, "train/adv_mean": 0.0018099651434530556, "train/adv_min": -0.334824314672653, "train/adv_std": 0.04284041982195149, "train/cont_avg": 0.9950101669520548, "train/cont_loss_mean": 2.841133591173894e-05, "train/cont_loss_std": 0.0007425224381325292, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.001923210832012345, "train/cont_pos_acc": 0.9999999787709485, "train/cont_pos_loss": 1.9466301359403892e-05, "train/cont_pred": 0.994999397290896, "train/cont_rate": 0.9950101669520548, "train/dyn_loss_mean": 5.611905261261822, "train/dyn_loss_std": 8.880907829493692, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.921314001083374, "train/extr_critic_critic_opt_grad_steps": 518410.0, "train/extr_critic_critic_opt_loss": 15534.714094606165, "train/extr_critic_mag": 12.391697491685004, "train/extr_critic_max": 12.391697491685004, "train/extr_critic_mean": 3.8974282055684966, "train/extr_critic_min": -0.3615071561238537, "train/extr_critic_std": 2.9696433086917824, "train/extr_return_normed_mag": 1.3718362344454413, "train/extr_return_normed_max": 1.3718362344454413, "train/extr_return_normed_mean": 0.4039733932442861, "train/extr_return_normed_min": -0.08486838041715426, "train/extr_return_normed_std": 0.3149914663948425, "train/extr_return_rate": 0.8642765846970963, "train/extr_return_raw_mag": 13.122959541947875, "train/extr_return_raw_max": 13.122959541947875, "train/extr_return_raw_mean": 3.9146577887339133, "train/extr_return_raw_min": -0.735991748228465, "train/extr_return_raw_std": 2.9968242612603593, "train/extr_reward_mag": 1.0811071036613151, "train/extr_reward_max": 1.0811071036613151, "train/extr_reward_mean": 0.063551529935778, "train/extr_reward_min": -0.6024175914999557, "train/extr_reward_std": 0.24208674222639162, "train/image_loss_mean": 3.2555539150760597, "train/image_loss_std": 8.486891602816646, "train/model_loss_mean": 6.682106024598422, "train/model_loss_std": 12.602627649699173, "train/model_opt_grad_norm": 21.149901991021142, "train/model_opt_grad_steps": 517986.0, "train/model_opt_loss": 10967.083161654538, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1626.7123287671234, "train/policy_entropy_mag": 2.714949954045962, "train/policy_entropy_max": 2.714949954045962, "train/policy_entropy_mean": 0.40129360719902873, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6087650481152208, "train/policy_logprob_mag": 7.4383843369679905, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40129359454324803, "train/policy_logprob_min": -7.4383843369679905, "train/policy_logprob_std": 1.030724193951855, "train/policy_randomness_mag": 0.9582581920166539, "train/policy_randomness_max": 0.9582581920166539, "train/policy_randomness_mean": 0.14163903412345338, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21486734598875046, "train/post_ent_mag": 55.18620697439533, "train/post_ent_max": 55.18620697439533, "train/post_ent_mean": 40.25907767308902, "train/post_ent_min": 19.60104780327784, "train/post_ent_std": 5.824417382070463, "train/prior_ent_mag": 76.7799386847509, "train/prior_ent_max": 76.7799386847509, "train/prior_ent_mean": 45.87248287462209, "train/prior_ent_min": 27.80433832455988, "train/prior_ent_std": 7.895357086233897, "train/rep_loss_mean": 5.611905261261822, "train/rep_loss_std": 8.880907829493692, "train/reward_avg": 0.04430918199048467, "train/reward_loss_mean": 0.0593805316172234, "train/reward_loss_std": 0.21675953166942075, "train/reward_max_data": 1.0328767201671862, "train/reward_max_pred": 1.0340719680263573, "train/reward_neg_acc": 0.9931633741888282, "train/reward_neg_loss": 0.02540080268446305, "train/reward_pos_acc": 0.989727352579979, "train/reward_pos_loss": 0.7236057479087621, "train/reward_pred": 0.044017789655760545, "train/reward_rate": 0.04876123715753425, "stats/sum_log_reward": 14.266666730244955, "stats/max_log_achievement_collect_coal": 1.5, "stats/max_log_achievement_collect_drink": 4.5, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 18.666666666666668, "stats/max_log_achievement_collect_wood": 13.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 3.0, "stats/max_log_achievement_eat_cow": 0.8333333333333334, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_stone_sword": 1.3333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 2.8333333333333335, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_stone": 3.3333333333333335, "stats/max_log_achievement_place_table": 3.5, "stats/max_log_achievement_wake_up": 1.6666666666666667, "stats/mean_log_entropy": 0.4758781095345815, "replay/size": 1000000.0, "replay/inserts": 1462.0, "replay/samples": 11696.0, "replay/insert_wait_avg": 3.3098108628216913e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.336008351087244e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.34559988975525, "timer/env.step_count": 1462.0, "timer/env.step_total": 17.422733783721924, "timer/env.step_frac": 0.05800895298654985, "timer/env.step_avg": 0.011917054571629223, "timer/env.step_min": 0.0028200149536132812, "timer/env.step_max": 1.6142504215240479, "timer/replay.add_count": 1462.0, "timer/replay.add_total": 0.2927534580230713, "timer/replay.add_frac": 0.0009747219807133158, "timer/replay.add_avg": 0.00020024176335367393, "timer/replay.add_min": 7.200241088867188e-05, "timer/replay.add_max": 0.00344085693359375, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02814936637878418, "timer/logger.write_frac": 9.372325211062415e-05, "timer/logger.write_avg": 0.02814936637878418, "timer/logger.write_min": 0.02814936637878418, "timer/logger.write_max": 0.02814936637878418, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1462.0, "timer/agent.policy_total": 10.751244306564331, "timer/agent.policy_frac": 0.03579624376222152, "timer/agent.policy_avg": 0.0073537922753518, "timer/agent.policy_min": 0.005793333053588867, "timer/agent.policy_max": 0.014049768447875977, "timer/dataset_count": 731.0, "timer/dataset_total": 0.05864143371582031, "timer/dataset_frac": 0.00019524652179803937, "timer/dataset_avg": 8.022083955652574e-05, "timer/dataset_min": 5.888938903808594e-05, "timer/dataset_max": 0.00016355514526367188, "timer/agent.train_count": 731.0, "timer/agent.train_total": 271.135418176651, "timer/agent.train_frac": 0.9027447656172551, "timer/agent.train_avg": 0.3709102847833803, "timer/agent.train_min": 0.3644399642944336, "timer/agent.train_max": 0.38558244705200195, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2198495864868164, "timer/agent.report_frac": 0.0007319887042377658, "timer/agent.report_avg": 0.2198495864868164, "timer/agent.report_min": 0.2198495864868164, "timer/agent.report_max": 0.2198495864868164, "fps": 4.867654659762977}
{"step": 1038785, "episode/length": 192.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06735751295336788}
{"step": 1038968, "episode/length": 182.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.07103825136612021}
{"step": 1039199, "episode/length": 230.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.500000037252903, "episode/reward_rate": 0.06493506493506493}
{"step": 1039385, "episode/length": 185.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.05913978494623656}
{"step": 1039652, "episode/length": 266.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.056179775280898875}
{"step": 1039846, "episode/length": 193.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.07216494845360824}
{"step": 1040080, "episode/length": 233.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.0641025641025641}
{"step": 1040105, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.454175139126712, "train/action_min": 0.0, "train/action_std": 3.2835209794240456, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0384111201314077, "train/actor_opt_grad_steps": 519140.0, "train/actor_opt_loss": -12.100320066491218, "train/adv_mag": 0.3902462271794881, "train/adv_max": 0.3271282143788795, "train/adv_mean": 0.002035919813451609, "train/adv_min": -0.34311482861433945, "train/adv_std": 0.042440394883694714, "train/cont_avg": 0.9950101669520548, "train/cont_loss_mean": 0.00015988178582124543, "train/cont_loss_std": 0.004939243929951872, "train/cont_neg_acc": 0.9957599492922221, "train/cont_neg_loss": 0.017905400460241912, "train/cont_pos_acc": 0.999986567725874, "train/cont_pos_loss": 5.03876323230306e-05, "train/cont_pred": 0.9950102967758702, "train/cont_rate": 0.9950101669520548, "train/dyn_loss_mean": 5.657166794554828, "train/dyn_loss_std": 9.01587773675788, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9365904739458267, "train/extr_critic_critic_opt_grad_steps": 519140.0, "train/extr_critic_critic_opt_loss": 15338.056346318494, "train/extr_critic_mag": 12.430929458304627, "train/extr_critic_max": 12.430929458304627, "train/extr_critic_mean": 3.9686605603727574, "train/extr_critic_min": -0.3475262710492905, "train/extr_critic_std": 2.976675856603335, "train/extr_return_normed_mag": 1.361736586649124, "train/extr_return_normed_max": 1.361736586649124, "train/extr_return_normed_mean": 0.4114552136153391, "train/extr_return_normed_min": -0.07881673078422677, "train/extr_return_normed_std": 0.3133736020081664, "train/extr_return_rate": 0.8588176426822192, "train/extr_return_raw_mag": 13.090528475095148, "train/extr_return_raw_max": 13.090528475095148, "train/extr_return_raw_mean": 3.9881461417838318, "train/extr_return_raw_min": -0.7082099792075484, "train/extr_return_raw_std": 3.0020928088932823, "train/extr_reward_mag": 1.082363340952625, "train/extr_reward_max": 1.082363340952625, "train/extr_reward_mean": 0.06615787606737385, "train/extr_reward_min": -0.6021160736475906, "train/extr_reward_std": 0.24705652341450732, "train/image_loss_mean": 3.2058365475641537, "train/image_loss_std": 8.407514630931697, "train/model_loss_mean": 6.661708733806871, "train/model_loss_std": 12.653632634306607, "train/model_opt_grad_norm": 23.10397954183082, "train/model_opt_grad_steps": 518716.0, "train/model_opt_loss": 16654.27177868151, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.688350341091417, "train/policy_entropy_max": 2.688350341091417, "train/policy_entropy_mean": 0.39685977240131326, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6038780024606888, "train/policy_logprob_mag": 7.43838429124388, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3964318690234668, "train/policy_logprob_min": -7.43838429124388, "train/policy_logprob_std": 1.026174208072767, "train/policy_randomness_mag": 0.9488696986681795, "train/policy_randomness_max": 0.9488696986681795, "train/policy_randomness_mean": 0.14007408304573737, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21314243319099896, "train/post_ent_mag": 55.6019164830038, "train/post_ent_max": 55.6019164830038, "train/post_ent_mean": 40.13597232348298, "train/post_ent_min": 19.316533637373414, "train/post_ent_std": 5.81075695116226, "train/prior_ent_mag": 76.73368553266134, "train/prior_ent_max": 76.73368553266134, "train/prior_ent_mean": 45.76874699004709, "train/prior_ent_min": 27.81638678459272, "train/prior_ent_std": 7.934630544218298, "train/rep_loss_mean": 5.657166794554828, "train/rep_loss_std": 9.01587773675788, "train/reward_avg": 0.04618070425133999, "train/reward_loss_mean": 0.06141225131203051, "train/reward_loss_std": 0.22584605114917233, "train/reward_max_data": 1.0328767201671862, "train/reward_max_pred": 1.0292962283304292, "train/reward_neg_acc": 0.9935423478688279, "train/reward_neg_loss": 0.025297609987120107, "train/reward_pos_acc": 0.9882196963649906, "train/reward_pos_loss": 0.734325156636434, "train/reward_pred": 0.04555884911997678, "train/reward_rate": 0.0508347602739726, "stats/sum_log_reward": 12.81428609575544, "stats/max_log_achievement_collect_coal": 0.8571428571428571, "stats/max_log_achievement_collect_drink": 3.2857142857142856, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.7142857142857144, "stats/max_log_achievement_collect_stone": 14.571428571428571, "stats/max_log_achievement_collect_wood": 12.857142857142858, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.8571428571428572, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_stone_sword": 1.1428571428571428, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.7142857142857142, "stats/max_log_achievement_place_plant": 2.4285714285714284, "stats/max_log_achievement_place_stone": 3.2857142857142856, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 0.8571428571428571, "stats/mean_log_entropy": 0.3692328759602138, "replay/size": 1000000.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.2527574646751686e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3320859229548269e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0002200603485, "timer/env.step_count": 1454.0, "timer/env.step_total": 18.699787139892578, "timer/env.step_frac": 0.06233257807654574, "timer/env.step_avg": 0.01286092650611594, "timer/env.step_min": 0.002773761749267578, "timer/env.step_max": 1.6139962673187256, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.26799583435058594, "timer/replay.add_frac": 0.000893318792555137, "timer/replay.add_avg": 0.00018431625471154465, "timer/replay.add_min": 8.177757263183594e-05, "timer/replay.add_max": 0.0012383460998535156, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02298760414123535, "timer/logger.write_frac": 7.662529093015709e-05, "timer/logger.write_avg": 0.02298760414123535, "timer/logger.write_min": 0.02298760414123535, "timer/logger.write_max": 0.02298760414123535, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 10.623679161071777, "timer/agent.policy_frac": 0.03541223789414122, "timer/agent.policy_avg": 0.007306519367999847, "timer/agent.policy_min": 0.005579948425292969, "timer/agent.policy_max": 0.01598978042602539, "timer/dataset_count": 727.0, "timer/dataset_total": 0.05753302574157715, "timer/dataset_frac": 0.00019177661179716374, "timer/dataset_avg": 7.913758698978975e-05, "timer/dataset_min": 6.008148193359375e-05, "timer/dataset_max": 0.00015115737915039062, "timer/agent.train_count": 727.0, "timer/agent.train_total": 269.6748585700989, "timer/agent.train_frac": 0.8989155358481092, "timer/agent.train_avg": 0.37094203379655966, "timer/agent.train_min": 0.3645496368408203, "timer/agent.train_max": 0.3822896480560303, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21829915046691895, "timer/agent.report_frac": 0.0007276633011235977, "timer/agent.report_avg": 0.21829915046691895, "timer/agent.report_min": 0.21829915046691895, "timer/agent.report_max": 0.21829915046691895, "fps": 4.846576370962569}
{"step": 1040343, "episode/length": 262.0, "episode/score": 14.100000038743019, "episode/sum_abs_reward": 16.7000000923872, "episode/reward_rate": 0.057034220532319393}
{"step": 1040663, "episode/length": 319.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.040625}
{"step": 1041105, "episode/length": 441.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.033936651583710405}
{"step": 1041571, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.458299610712757, "train/action_min": 0.0, "train/action_std": 3.3139030639439415, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03825548587188329, "train/actor_opt_grad_steps": 519870.0, "train/actor_opt_loss": -11.262416315813587, "train/adv_mag": 0.38854107464829535, "train/adv_max": 0.3096469630525537, "train/adv_mean": 0.0021609874067557754, "train/adv_min": -0.36217040435908593, "train/adv_std": 0.04306975609227402, "train/cont_avg": 0.9948897688356164, "train/cont_loss_mean": 0.00015295925435152203, "train/cont_loss_std": 0.0041277327335298855, "train/cont_neg_acc": 0.9950532725412552, "train/cont_neg_loss": 0.022083304621149522, "train/cont_pos_acc": 0.9999865464968224, "train/cont_pos_loss": 4.975412812165335e-05, "train/cont_pred": 0.9948859173957616, "train/cont_rate": 0.9948897688356164, "train/dyn_loss_mean": 5.51918213334802, "train/dyn_loss_std": 8.843041740051687, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9162437319755554, "train/extr_critic_critic_opt_grad_steps": 519870.0, "train/extr_critic_critic_opt_loss": 15394.47505083476, "train/extr_critic_mag": 12.319063709206777, "train/extr_critic_max": 12.319063709206777, "train/extr_critic_mean": 3.899472360741602, "train/extr_critic_min": -0.3786214149161561, "train/extr_critic_std": 3.008876085281372, "train/extr_return_normed_mag": 1.3649122306745347, "train/extr_return_normed_max": 1.3649122306745347, "train/extr_return_normed_mean": 0.4083856327892983, "train/extr_return_normed_min": -0.0745657453798268, "train/extr_return_normed_std": 0.3197974536108644, "train/extr_return_rate": 0.8577626012775996, "train/extr_return_raw_mag": 13.005560195609315, "train/extr_return_raw_max": 13.005560195609315, "train/extr_return_raw_mean": 3.919995467956752, "train/extr_return_raw_min": -0.6672022265114196, "train/extr_return_raw_std": 3.0375694020153725, "train/extr_reward_mag": 1.0875083910275811, "train/extr_reward_max": 1.0875083910275811, "train/extr_reward_mean": 0.06562026447221024, "train/extr_reward_min": -0.594698772038499, "train/extr_reward_std": 0.24589967666423485, "train/image_loss_mean": 3.2989013946219665, "train/image_loss_std": 8.313879293938205, "train/model_loss_mean": 6.671740629901625, "train/model_loss_std": 12.398585358711138, "train/model_opt_grad_norm": 20.820741731826573, "train/model_opt_grad_steps": 519445.1780821918, "train/model_opt_loss": 18533.17986140839, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2773.972602739726, "train/policy_entropy_mag": 2.695444270356061, "train/policy_entropy_max": 2.695444270356061, "train/policy_entropy_mean": 0.40801670698270404, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6200386077573855, "train/policy_logprob_mag": 7.438384304307911, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4081622878574345, "train/policy_logprob_min": -7.438384304307911, "train/policy_logprob_std": 1.0371180519665757, "train/policy_randomness_mag": 0.9513735403753307, "train/policy_randomness_max": 0.9513735403753307, "train/policy_randomness_mean": 0.14401199454314087, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21884641816763029, "train/post_ent_mag": 55.300655521758614, "train/post_ent_max": 55.300655521758614, "train/post_ent_mean": 40.23622005932952, "train/post_ent_min": 19.451621930893154, "train/post_ent_std": 5.780769341612515, "train/prior_ent_mag": 76.83223975194643, "train/prior_ent_max": 76.83223975194643, "train/prior_ent_mean": 45.72692500075249, "train/prior_ent_min": 27.526083097065964, "train/prior_ent_std": 7.935987968967385, "train/rep_loss_mean": 5.51918213334802, "train/rep_loss_std": 8.843041740051687, "train/reward_avg": 0.04470114460954928, "train/reward_loss_mean": 0.06117702484743236, "train/reward_loss_std": 0.22671810731495898, "train/reward_max_data": 1.035616446847785, "train/reward_max_pred": 1.0334895277676517, "train/reward_neg_acc": 0.9932127578617775, "train/reward_neg_loss": 0.02639155759641977, "train/reward_pos_acc": 0.9889292512854485, "train/reward_pos_loss": 0.7299793468762751, "train/reward_pred": 0.04422066281613422, "train/reward_rate": 0.049376605308219176, "stats/sum_log_reward": 13.43333371480306, "stats/max_log_achievement_collect_coal": 1.6666666666666667, "stats/max_log_achievement_collect_drink": 8.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 25.0, "stats/max_log_achievement_collect_wood": 13.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.6666666666666667, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.3333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 3.6666666666666665, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 2.6666666666666665, "stats/max_log_achievement_place_table": 3.3333333333333335, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.7932430307070414, "replay/size": 1000000.0, "replay/inserts": 1466.0, "replay/samples": 11728.0, "replay/insert_wait_avg": 3.3248495437601254e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3446214254361058e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2883553504944, "timer/env.step_count": 1466.0, "timer/env.step_total": 15.087799072265625, "timer/env.step_frac": 0.05024436946499392, "timer/env.step_avg": 0.010291813828284873, "timer/env.step_min": 0.002711772918701172, "timer/env.step_max": 2.4309194087982178, "timer/replay.add_count": 1466.0, "timer/replay.add_total": 0.28361082077026367, "timer/replay.add_frac": 0.0009444616007145371, "timer/replay.add_avg": 0.00019345895004792884, "timer/replay.add_min": 7.677078247070312e-05, "timer/replay.add_max": 0.004101753234863281, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028174638748168945, "timer/logger.write_frac": 9.38252790897726e-05, "timer/logger.write_avg": 0.028174638748168945, "timer/logger.write_min": 0.028174638748168945, "timer/logger.write_max": 0.028174638748168945, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004024505615234375, "timer/checkpoint.save_frac": 1.3402136791275177e-06, "timer/checkpoint.save_avg": 0.0004024505615234375, "timer/checkpoint.save_min": 0.0004024505615234375, "timer/checkpoint.save_max": 0.0004024505615234375, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.201059103012085, "timer/agent.save_frac": 0.003999685907268091, "timer/agent.save_avg": 1.201059103012085, "timer/agent.save_min": 1.201059103012085, "timer/agent.save_max": 1.201059103012085, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.296966552734375e-05, "timer/replay.save_frac": 2.7629997650259253e-07, "timer/replay.save_avg": 8.296966552734375e-05, "timer/replay.save_min": 8.296966552734375e-05, "timer/replay.save_max": 8.296966552734375e-05, "timer/agent.policy_count": 1466.0, "timer/agent.policy_total": 12.022480010986328, "timer/agent.policy_frac": 0.04003645095379665, "timer/agent.policy_avg": 0.008200873131641424, "timer/agent.policy_min": 0.00565791130065918, "timer/agent.policy_max": 1.2040433883666992, "timer/dataset_count": 733.0, "timer/dataset_total": 0.05832338333129883, "timer/dataset_frac": 0.0001942245921032276, "timer/dataset_avg": 7.95680536579793e-05, "timer/dataset_min": 5.91278076171875e-05, "timer/dataset_max": 0.00014209747314453125, "timer/agent.train_count": 733.0, "timer/agent.train_total": 272.16375613212585, "timer/agent.train_frac": 0.9063413591727801, "timer/agent.train_avg": 0.37130116798380064, "timer/agent.train_min": 0.36181092262268066, "timer/agent.train_max": 0.7678182125091553, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2185041904449463, "timer/agent.report_frac": 0.0007276478976013232, "timer/agent.report_avg": 0.2185041904449463, "timer/agent.report_min": 0.2185041904449463, "timer/agent.report_max": 0.2185041904449463, "fps": 4.881890659807346}
{"step": 1041605, "episode/length": 499.0, "episode/score": 16.099999986588955, "episode/sum_abs_reward": 18.700000025331974, "episode/reward_rate": 0.034}
{"step": 1041873, "episode/length": 267.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.048507462686567165}
{"step": 1042077, "episode/length": 203.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 15.700000040233135, "episode/reward_rate": 0.07352941176470588}
{"step": 1042296, "episode/length": 218.0, "episode/score": 14.100000016391277, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.0684931506849315}
{"step": 1042471, "episode/length": 174.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.300000056624413, "episode/reward_rate": 0.08571428571428572}
{"step": 1042580, "episode/length": 108.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.700000002980232, "episode/reward_rate": 0.08256880733944955}
{"step": 1042850, "episode/length": 269.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.05555555555555555}
{"step": 1043023, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.400714194937928, "train/action_min": 0.0, "train/action_std": 3.2610023152338314, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03845462333155821, "train/actor_opt_grad_steps": 520600.0, "train/actor_opt_loss": -10.293477092703728, "train/adv_mag": 0.38934031884147696, "train/adv_max": 0.3334079027584154, "train/adv_mean": 0.002277134621679529, "train/adv_min": -0.3472690369984875, "train/adv_std": 0.04296634004336514, "train/cont_avg": 0.9952509631849316, "train/cont_loss_mean": 4.73732728689912e-05, "train/cont_loss_std": 0.0014171017397628686, "train/cont_neg_acc": 0.9972602741359031, "train/cont_neg_loss": 0.003213504735982658, "train/cont_pos_acc": 0.9999999804039524, "train/cont_pos_loss": 3.174578085081178e-05, "train/cont_pred": 0.9952321166861547, "train/cont_rate": 0.9952509631849316, "train/dyn_loss_mean": 5.640689738809246, "train/dyn_loss_std": 8.922017071345081, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9198297180541574, "train/extr_critic_critic_opt_grad_steps": 520600.0, "train/extr_critic_critic_opt_loss": 15348.97175995291, "train/extr_critic_mag": 12.334742781234114, "train/extr_critic_max": 12.334742781234114, "train/extr_critic_mean": 3.93350466963363, "train/extr_critic_min": -0.3472007790656939, "train/extr_critic_std": 2.9249514651625126, "train/extr_return_normed_mag": 1.3720791519504705, "train/extr_return_normed_max": 1.3720791519504705, "train/extr_return_normed_mean": 0.41192760981925547, "train/extr_return_normed_min": -0.07865810572896918, "train/extr_return_normed_std": 0.3110898684148919, "train/extr_return_rate": 0.8711053925017788, "train/extr_return_raw_mag": 13.057395059768467, "train/extr_return_raw_max": 13.057395059768467, "train/extr_return_raw_mean": 3.9551077476919514, "train/extr_return_raw_min": -0.6948044667505238, "train/extr_return_raw_std": 2.9490441361518753, "train/extr_reward_mag": 1.0896457123429808, "train/extr_reward_max": 1.0896457123429808, "train/extr_reward_mean": 0.06453745189594896, "train/extr_reward_min": -0.6318136894539611, "train/extr_reward_std": 0.24332083312615957, "train/image_loss_mean": 3.310356533690675, "train/image_loss_std": 8.52378503590414, "train/model_loss_mean": 6.754960334464295, "train/model_loss_std": 12.668238038886082, "train/model_opt_grad_norm": 21.234646483643413, "train/model_opt_grad_steps": 520174.7397260274, "train/model_opt_loss": 20080.425058861303, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2979.4520547945203, "train/policy_entropy_mag": 2.6915142862764125, "train/policy_entropy_max": 2.6915142862764125, "train/policy_entropy_mean": 0.3950928157731278, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6029893351744299, "train/policy_logprob_mag": 7.438384258583801, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39447231468272537, "train/policy_logprob_min": -7.438384258583801, "train/policy_logprob_std": 1.0230035594064895, "train/policy_randomness_mag": 0.9499864300636396, "train/policy_randomness_max": 0.9499864300636396, "train/policy_randomness_mean": 0.1394504262772325, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2128287742603315, "train/post_ent_mag": 55.923753032945605, "train/post_ent_max": 55.923753032945605, "train/post_ent_mean": 40.22802493996816, "train/post_ent_min": 19.72612603069985, "train/post_ent_std": 5.837428439153384, "train/prior_ent_mag": 76.85254867762735, "train/prior_ent_max": 76.85254867762735, "train/prior_ent_mean": 45.838356488371545, "train/prior_ent_min": 27.617462105947, "train/prior_ent_std": 7.953681299131211, "train/rep_loss_mean": 5.640689738809246, "train/rep_loss_std": 8.922017071345081, "train/reward_avg": 0.04582619825250482, "train/reward_loss_mean": 0.06014263655429017, "train/reward_loss_std": 0.2263708143201593, "train/reward_max_data": 1.0315068568268868, "train/reward_max_pred": 1.0328015464625946, "train/reward_neg_acc": 0.9928807485593508, "train/reward_neg_loss": 0.02494874855579987, "train/reward_pos_acc": 0.9876619381447361, "train/reward_pos_loss": 0.7320842171368533, "train/reward_pred": 0.04543993731782044, "train/reward_rate": 0.05003210616438356, "stats/sum_log_reward": 13.099999972752162, "stats/max_log_achievement_collect_coal": 1.2857142857142858, "stats/max_log_achievement_collect_drink": 4.428571428571429, "stats/max_log_achievement_collect_iron": 0.2857142857142857, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 15.857142857142858, "stats/max_log_achievement_collect_wood": 15.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.7142857142857142, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.2857142857142858, "stats/max_log_achievement_make_stone_sword": 1.4285714285714286, "stats/max_log_achievement_make_wood_pickaxe": 1.2857142857142858, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 4.142857142857143, "stats/max_log_achievement_place_table": 3.7142857142857144, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.4871549393449511, "replay/size": 1000000.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.3588777232104423e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3425617835410042e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0075376033783, "timer/env.step_count": 1452.0, "timer/env.step_total": 18.925828456878662, "timer/env.step_frac": 0.06308450983621401, "timer/env.step_avg": 0.013034317119062439, "timer/env.step_min": 0.0029191970825195312, "timer/env.step_max": 1.6236562728881836, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.3149533271789551, "timer/replay.add_frac": 0.0010498180468896609, "timer/replay.add_avg": 0.00021691000494418393, "timer/replay.add_min": 7.677078247070312e-05, "timer/replay.add_max": 0.004202127456665039, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029743194580078125, "timer/logger.write_frac": 9.914149096946955e-05, "timer/logger.write_avg": 0.029743194580078125, "timer/logger.write_min": 0.029743194580078125, "timer/logger.write_max": 0.029743194580078125, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 10.683628559112549, "timer/agent.policy_frac": 0.03561120045335902, "timer/agent.policy_avg": 0.007357870908479717, "timer/agent.policy_min": 0.0058557987213134766, "timer/agent.policy_max": 0.014554500579833984, "timer/dataset_count": 726.0, "timer/dataset_total": 0.05934858322143555, "timer/dataset_frac": 0.00019782364035098577, "timer/dataset_avg": 8.174735980913987e-05, "timer/dataset_min": 6.079673767089844e-05, "timer/dataset_max": 0.00014591217041015625, "timer/agent.train_count": 726.0, "timer/agent.train_total": 269.33359932899475, "timer/agent.train_frac": 0.8977561079984074, "timer/agent.train_avg": 0.37098291918594317, "timer/agent.train_min": 0.36464738845825195, "timer/agent.train_max": 0.3894224166870117, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22000479698181152, "timer/agent.report_frac": 0.0007333308980811891, "timer/agent.report_avg": 0.22000479698181152, "timer/agent.report_min": 0.22000479698181152, "timer/agent.report_max": 0.22000479698181152, "fps": 4.839798040965607}
{"step": 1043128, "episode/length": 277.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.05755395683453238}
{"step": 1043400, "episode/length": 271.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.04411764705882353}
{"step": 1043579, "episode/length": 178.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.061452513966480445}
{"step": 1044033, "episode/length": 453.0, "episode/score": 16.099999986588955, "episode/sum_abs_reward": 18.100000016391277, "episode/reward_rate": 0.037444933920704845}
{"step": 1044307, "episode/length": 273.0, "episode/score": 15.100000008940697, "episode/sum_abs_reward": 17.299999997019768, "episode/reward_rate": 0.06204379562043796}
{"step": 1044491, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.3769205171767975, "train/action_min": 0.0, "train/action_std": 3.238821509766252, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.037790911297683846, "train/actor_opt_grad_steps": 521330.0, "train/actor_opt_loss": -10.801384655427034, "train/adv_mag": 0.3717671385774874, "train/adv_max": 0.2999403862512275, "train/adv_mean": 0.001908094710801977, "train/adv_min": -0.3431249926351521, "train/adv_std": 0.04237909987568855, "train/cont_avg": 0.9951439426369864, "train/cont_loss_mean": 6.959981780216931e-05, "train/cont_loss_std": 0.0020758423127495164, "train/cont_neg_acc": 0.9980158739619784, "train/cont_neg_loss": 0.006279590945317122, "train/cont_pos_acc": 0.9999999836699603, "train/cont_pos_loss": 2.787519102366709e-05, "train/cont_pred": 0.9951350844069703, "train/cont_rate": 0.9951439426369864, "train/dyn_loss_mean": 5.587934147821714, "train/dyn_loss_std": 8.839379918085386, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8895314401143217, "train/extr_critic_critic_opt_grad_steps": 521330.0, "train/extr_critic_critic_opt_loss": 15337.030233304795, "train/extr_critic_mag": 12.441895171387555, "train/extr_critic_max": 12.441895171387555, "train/extr_critic_mean": 3.916821777004085, "train/extr_critic_min": -0.34500184287763624, "train/extr_critic_std": 2.9588284459832597, "train/extr_return_normed_mag": 1.3884172129304442, "train/extr_return_normed_max": 1.3884172129304442, "train/extr_return_normed_mean": 0.40878391102568745, "train/extr_return_normed_min": -0.07604692309890708, "train/extr_return_normed_std": 0.31487132527240336, "train/extr_return_rate": 0.8692459063987209, "train/extr_return_raw_mag": 13.22191862864037, "train/extr_return_raw_max": 13.22191862864037, "train/extr_return_raw_mean": 3.9349286654224134, "train/extr_return_raw_min": -0.662064596806487, "train/extr_return_raw_std": 2.9853448214596265, "train/extr_reward_mag": 1.077187371580568, "train/extr_reward_max": 1.077187371580568, "train/extr_reward_mean": 0.06300083945875298, "train/extr_reward_min": -0.5825186428958422, "train/extr_reward_std": 0.24162381907848463, "train/image_loss_mean": 3.2243842507061893, "train/image_loss_std": 8.103479176351469, "train/model_loss_mean": 6.636772110037608, "train/model_loss_std": 12.226972292547357, "train/model_opt_grad_norm": 21.1252256550201, "train/model_opt_grad_steps": 520904.0, "train/model_opt_loss": 16591.930343000855, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6904955824760544, "train/policy_entropy_max": 2.6904955824760544, "train/policy_entropy_mean": 0.39034270648270436, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.592412919622578, "train/policy_logprob_mag": 7.4383842651158165, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3906524385491463, "train/policy_logprob_min": -7.4383842651158165, "train/policy_logprob_std": 1.0205100203213626, "train/policy_randomness_mag": 0.949626871167797, "train/policy_randomness_max": 0.949626871167797, "train/policy_randomness_mean": 0.13777384631437797, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20909576546655942, "train/post_ent_mag": 55.38323990286213, "train/post_ent_max": 55.38323990286213, "train/post_ent_mean": 40.27558104632652, "train/post_ent_min": 19.36343961219265, "train/post_ent_std": 5.81269072179925, "train/prior_ent_mag": 76.7818646365649, "train/prior_ent_max": 76.7818646365649, "train/prior_ent_mean": 45.85553569009859, "train/prior_ent_min": 27.595091440906263, "train/prior_ent_std": 7.911065532736583, "train/rep_loss_mean": 5.587934147821714, "train/rep_loss_std": 8.839379918085386, "train/reward_avg": 0.04534728146375042, "train/reward_loss_mean": 0.05955783828888854, "train/reward_loss_std": 0.2203781051586752, "train/reward_max_data": 1.0315068568268868, "train/reward_max_pred": 1.027836701641344, "train/reward_neg_acc": 0.9938310523555703, "train/reward_neg_loss": 0.024760742888671076, "train/reward_pos_acc": 0.9901150995737886, "train/reward_pos_loss": 0.7231419413057092, "train/reward_pred": 0.044969236172021254, "train/reward_rate": 0.04981806506849315, "stats/sum_log_reward": 13.500000190734863, "stats/max_log_achievement_collect_coal": 0.4, "stats/max_log_achievement_collect_drink": 3.8, "stats/max_log_achievement_collect_iron": 0.4, "stats/max_log_achievement_collect_sapling": 1.4, "stats/max_log_achievement_collect_stone": 26.8, "stats/max_log_achievement_collect_wood": 14.2, "stats/max_log_achievement_defeat_skeleton": 0.4, "stats/max_log_achievement_defeat_zombie": 1.6, "stats/max_log_achievement_eat_cow": 0.4, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.4, "stats/max_log_achievement_make_stone_sword": 1.2, "stats/max_log_achievement_make_wood_pickaxe": 1.2, "stats/max_log_achievement_make_wood_sword": 1.2, "stats/max_log_achievement_place_furnace": 4.0, "stats/max_log_achievement_place_plant": 1.4, "stats/max_log_achievement_place_stone": 5.0, "stats/max_log_achievement_place_table": 3.4, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.49830359518527984, "replay/size": 1000000.0, "replay/inserts": 1468.0, "replay/samples": 11744.0, "replay/insert_wait_avg": 3.2915731216971168e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.336760027207211e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1100986003876, "timer/env.step_count": 1468.0, "timer/env.step_total": 15.887106657028198, "timer/env.step_frac": 0.05293759433994495, "timer/env.step_avg": 0.010822279739120026, "timer/env.step_min": 0.0027313232421875, "timer/env.step_max": 1.5665907859802246, "timer/replay.add_count": 1468.0, "timer/replay.add_total": 0.2984659671783447, "timer/replay.add_frac": 0.0009945215724838634, "timer/replay.add_avg": 0.00020331469153838196, "timer/replay.add_min": 7.414817810058594e-05, "timer/replay.add_max": 0.0037260055541992188, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023570537567138672, "timer/logger.write_frac": 7.853963487754568e-05, "timer/logger.write_avg": 0.023570537567138672, "timer/logger.write_min": 0.023570537567138672, "timer/logger.write_max": 0.023570537567138672, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1468.0, "timer/agent.policy_total": 10.825366258621216, "timer/agent.policy_frac": 0.036071316190648295, "timer/agent.policy_avg": 0.007374227696608457, "timer/agent.policy_min": 0.00580143928527832, "timer/agent.policy_max": 0.01427149772644043, "timer/dataset_count": 734.0, "timer/dataset_total": 0.05865883827209473, "timer/dataset_frac": 0.00019545772883238448, "timer/dataset_avg": 7.991667339522443e-05, "timer/dataset_min": 5.91278076171875e-05, "timer/dataset_max": 0.00027823448181152344, "timer/agent.train_count": 734.0, "timer/agent.train_total": 272.3562400341034, "timer/agent.train_frac": 0.9075210774455147, "timer/agent.train_avg": 0.3710575477303861, "timer/agent.train_min": 0.3633592128753662, "timer/agent.train_max": 0.3881266117095947, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22160553932189941, "timer/agent.report_frac": 0.0007384141365298703, "timer/agent.report_avg": 0.22160553932189941, "timer/agent.report_min": 0.22160553932189941, "timer/agent.report_max": 0.22160553932189941, "fps": 4.8914681249292515}
{"step": 1044606, "episode/length": 298.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.05016722408026756}
{"step": 1044821, "episode/length": 214.0, "episode/score": 13.100000023841858, "episode/sum_abs_reward": 14.900000005960464, "episode/reward_rate": 0.06976744186046512}
{"step": 1045016, "episode/length": 194.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.02564102564102564}
{"step": 1045209, "episode/length": 192.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 10.899999991059303, "episode/reward_rate": 0.05699481865284974}
{"step": 1045386, "episode/length": 176.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.06779661016949153}
{"step": 1045895, "episode/length": 508.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.900000028312206, "episode/reward_rate": 0.03143418467583497}
{"step": 1045929, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.387228224012587, "train/action_min": 0.0, "train/action_std": 3.239662680361006, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.037115703207544155, "train/actor_opt_grad_steps": 522055.0, "train/actor_opt_loss": -13.475863145457375, "train/adv_mag": 0.41669181403186584, "train/adv_max": 0.3287670777903663, "train/adv_mean": 0.001612176214621286, "train/adv_min": -0.36958722439077163, "train/adv_std": 0.04232544426081909, "train/cont_avg": 0.9947645399305556, "train/cont_loss_mean": 4.863934528347929e-05, "train/cont_loss_std": 0.0013947243585461263, "train/cont_neg_acc": 0.9972222223877907, "train/cont_neg_loss": 0.002472680881830157, "train/cont_pos_acc": 0.999986320734024, "train/cont_pos_loss": 3.669221049465124e-05, "train/cont_pred": 0.9947462057073911, "train/cont_rate": 0.9947645399305556, "train/dyn_loss_mean": 5.737418989340465, "train/dyn_loss_std": 9.019637968805101, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8716553598642349, "train/extr_critic_critic_opt_grad_steps": 522055.0, "train/extr_critic_critic_opt_loss": 15256.64453125, "train/extr_critic_mag": 12.266542620129055, "train/extr_critic_max": 12.266542620129055, "train/extr_critic_mean": 3.8832787440882788, "train/extr_critic_min": -0.32625085446569657, "train/extr_critic_std": 2.9593335853682623, "train/extr_return_normed_mag": 1.3602858831485112, "train/extr_return_normed_max": 1.3602858831485112, "train/extr_return_normed_mean": 0.40374404481715626, "train/extr_return_normed_min": -0.07476381978227033, "train/extr_return_normed_std": 0.31438038705123794, "train/extr_return_rate": 0.862075962126255, "train/extr_return_raw_mag": 12.985597915119595, "train/extr_return_raw_max": 12.985597915119595, "train/extr_return_raw_mean": 3.8986082639959125, "train/extr_return_raw_min": -0.6479008934564061, "train/extr_return_raw_std": 2.9869899451732635, "train/extr_reward_mag": 1.0775395068857405, "train/extr_reward_max": 1.0775395068857405, "train/extr_reward_mean": 0.06350687032358514, "train/extr_reward_min": -0.5979421701696184, "train/extr_reward_std": 0.24160008049673504, "train/image_loss_mean": 3.437443960044119, "train/image_loss_std": 8.827410333686405, "train/model_loss_mean": 6.940868616104126, "train/model_loss_std": 13.056996530956692, "train/model_opt_grad_norm": 21.718207544750637, "train/model_opt_grad_steps": 521628.3333333333, "train/model_opt_loss": 21132.494330512152, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3055.5555555555557, "train/policy_entropy_mag": 2.6846640209356942, "train/policy_entropy_max": 2.6846640209356942, "train/policy_entropy_mean": 0.3888477683067322, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5847817183368735, "train/policy_logprob_mag": 7.438384268018934, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.389597878480951, "train/policy_logprob_min": -7.438384268018934, "train/policy_logprob_std": 1.0218357377582126, "train/policy_randomness_mag": 0.9475685871309705, "train/policy_randomness_max": 0.9475685871309705, "train/policy_randomness_mean": 0.13724619719303316, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2064022830583983, "train/post_ent_mag": 56.04818783866035, "train/post_ent_max": 56.04818783866035, "train/post_ent_mean": 40.40912940767076, "train/post_ent_min": 19.960059881210327, "train/post_ent_std": 5.9167025619082985, "train/prior_ent_mag": 76.70341618855794, "train/prior_ent_max": 76.70341618855794, "train/prior_ent_mean": 46.148285706837974, "train/prior_ent_min": 27.853433423572117, "train/prior_ent_std": 8.002789894739786, "train/rep_loss_mean": 5.737418989340465, "train/rep_loss_std": 9.019637968805101, "train/reward_avg": 0.04451497351854212, "train/reward_loss_mean": 0.06092463190563851, "train/reward_loss_std": 0.21955841013954747, "train/reward_max_data": 1.027777784400516, "train/reward_max_pred": 1.0266289677884843, "train/reward_neg_acc": 0.9924019765522745, "train/reward_neg_loss": 0.02685001919356485, "train/reward_pos_acc": 0.9889011300272412, "train/reward_pos_loss": 0.7199451070692804, "train/reward_pred": 0.044311942998319864, "train/reward_rate": 0.04916720920138889, "stats/sum_log_reward": 11.099999984105429, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 4.666666666666667, "stats/max_log_achievement_collect_iron": 1.0, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 15.0, "stats/max_log_achievement_collect_wood": 10.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.8333333333333334, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.5, "stats/max_log_achievement_make_wood_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 2.1666666666666665, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 2.8333333333333335, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 1.6666666666666667, "stats/mean_log_entropy": 0.5293484901388487, "replay/size": 1000000.0, "replay/inserts": 1438.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.362398320013691e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3238407142968105e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3053617477417, "timer/env.step_count": 1438.0, "timer/env.step_total": 19.137494802474976, "timer/env.step_frac": 0.06372678360152152, "timer/env.step_avg": 0.01330841085012168, "timer/env.step_min": 0.002866506576538086, "timer/env.step_max": 1.753544569015503, "timer/replay.add_count": 1438.0, "timer/replay.add_total": 0.31638121604919434, "timer/replay.add_frac": 0.0010535316925675022, "timer/replay.add_avg": 0.00022001475385896685, "timer/replay.add_min": 7.82012939453125e-05, "timer/replay.add_max": 0.004438638687133789, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023104429244995117, "timer/logger.write_frac": 7.693645265116171e-05, "timer/logger.write_avg": 0.023104429244995117, "timer/logger.write_min": 0.023104429244995117, "timer/logger.write_max": 0.023104429244995117, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002186298370361328, "timer/checkpoint.save_frac": 7.280250867441494e-07, "timer/checkpoint.save_avg": 0.0002186298370361328, "timer/checkpoint.save_min": 0.0002186298370361328, "timer/checkpoint.save_max": 0.0002186298370361328, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4179844856262207, "timer/agent.save_frac": 0.004721808752843168, "timer/agent.save_avg": 1.4179844856262207, "timer/agent.save_min": 1.4179844856262207, "timer/agent.save_max": 1.4179844856262207, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.104873657226562e-05, "timer/replay.save_frac": 2.3658830517966905e-07, "timer/replay.save_avg": 7.104873657226562e-05, "timer/replay.save_min": 7.104873657226562e-05, "timer/replay.save_max": 7.104873657226562e-05, "timer/agent.policy_count": 1438.0, "timer/agent.policy_total": 12.652161121368408, "timer/agent.policy_frac": 0.042130986432391104, "timer/agent.policy_avg": 0.00879844306075689, "timer/agent.policy_min": 0.005780696868896484, "timer/agent.policy_max": 1.414670705795288, "timer/dataset_count": 719.0, "timer/dataset_total": 0.05776357650756836, "timer/dataset_frac": 0.00019234946779301965, "timer/dataset_avg": 8.033877122054014e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.00015616416931152344, "timer/agent.train_count": 719.0, "timer/agent.train_total": 267.4507818222046, "timer/agent.train_frac": 0.8905960928092415, "timer/agent.train_avg": 0.3719760526039007, "timer/agent.train_min": 0.3653714656829834, "timer/agent.train_max": 0.7971019744873047, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21978354454040527, "timer/agent.report_frac": 0.0007318668679816138, "timer/agent.report_avg": 0.21978354454040527, "timer/agent.report_min": 0.21978354454040527, "timer/agent.report_max": 0.21978354454040527, "fps": 4.788357178235923}
{"step": 1046103, "episode/length": 207.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.0625}
{"step": 1046329, "episode/length": 225.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.30000003427267, "episode/reward_rate": 0.05309734513274336}
{"step": 1046524, "episode/length": 194.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06666666666666667}
{"step": 1046728, "episode/length": 203.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.900000043213367, "episode/reward_rate": 0.06862745098039216}
{"step": 1046902, "episode/length": 173.0, "episode/score": 4.0999999940395355, "episode/sum_abs_reward": 6.300000041723251, "episode/reward_rate": 0.028735632183908046}
{"step": 1047054, "episode/length": 151.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.07236842105263158}
{"step": 1047293, "episode/length": 238.0, "episode/score": 13.099999994039536, "episode/sum_abs_reward": 15.700000017881393, "episode/reward_rate": 0.06276150627615062}
{"step": 1047383, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.465849575931078, "train/action_min": 0.0, "train/action_std": 3.3201795114229804, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03745459096684848, "train/actor_opt_grad_steps": 522780.0, "train/actor_opt_loss": -13.446196649580786, "train/adv_mag": 0.40416743759423085, "train/adv_max": 0.3281139796727324, "train/adv_mean": 0.0011792612921989567, "train/adv_min": -0.358478064406408, "train/adv_std": 0.04234192882702775, "train/cont_avg": 0.9949299015410958, "train/cont_loss_mean": 1.945719273969457e-05, "train/cont_loss_std": 0.0005735694409448314, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0005895234220828296, "train/cont_pos_acc": 0.999986562826862, "train/cont_pos_loss": 1.6930128946038253e-05, "train/cont_pred": 0.9949190077716357, "train/cont_rate": 0.9949299015410958, "train/dyn_loss_mean": 5.734719302556286, "train/dyn_loss_std": 8.941402187086132, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.917915113984722, "train/extr_critic_critic_opt_grad_steps": 522780.0, "train/extr_critic_critic_opt_loss": 15380.559958261987, "train/extr_critic_mag": 12.387736150663192, "train/extr_critic_max": 12.387736150663192, "train/extr_critic_mean": 3.889015749709247, "train/extr_critic_min": -0.33413419004989, "train/extr_critic_std": 2.988561297116214, "train/extr_return_normed_mag": 1.370374029629851, "train/extr_return_normed_max": 1.370374029629851, "train/extr_return_normed_mean": 0.403670849048928, "train/extr_return_normed_min": -0.07842236461296473, "train/extr_return_normed_std": 0.3161725463116006, "train/extr_return_rate": 0.8627399500102213, "train/extr_return_raw_mag": 13.11745660598964, "train/extr_return_raw_max": 13.11745660598964, "train/extr_return_raw_mean": 3.9002808446753514, "train/extr_return_raw_min": -0.6966504589335559, "train/extr_return_raw_std": 3.0146871919501317, "train/extr_reward_mag": 1.0772908256478506, "train/extr_reward_max": 1.0772908256478506, "train/extr_reward_mean": 0.06423278219283443, "train/extr_reward_min": -0.6107865229044875, "train/extr_reward_std": 0.24324236851032466, "train/image_loss_mean": 3.397025839923179, "train/image_loss_std": 8.746529128453503, "train/model_loss_mean": 6.89816864875898, "train/model_loss_std": 12.907703099185474, "train/model_opt_grad_norm": 20.602590730745497, "train/model_opt_grad_steps": 522352.9315068493, "train/model_opt_loss": 20763.952737050513, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3047.945205479452, "train/policy_entropy_mag": 2.66987962592138, "train/policy_entropy_max": 2.66987962592138, "train/policy_entropy_mean": 0.38745369017124176, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5853444121471824, "train/policy_logprob_mag": 7.438384245519769, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38761465496396363, "train/policy_logprob_min": -7.438384245519769, "train/policy_logprob_std": 1.0173258193551677, "train/policy_randomness_mag": 0.9423503434821351, "train/policy_randomness_max": 0.9423503434821351, "train/policy_randomness_mean": 0.13675414842285522, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20660089017593697, "train/post_ent_mag": 55.85356171490395, "train/post_ent_max": 55.85356171490395, "train/post_ent_mean": 40.362435327817316, "train/post_ent_min": 19.391139775106353, "train/post_ent_std": 5.847252564887478, "train/prior_ent_mag": 76.66954489930035, "train/prior_ent_max": 76.66954489930035, "train/prior_ent_mean": 46.07985692481472, "train/prior_ent_min": 27.724219309140558, "train/prior_ent_std": 7.86706806862191, "train/rep_loss_mean": 5.734719302556286, "train/rep_loss_std": 8.941402187086132, "train/reward_avg": 0.04599074241131136, "train/reward_loss_mean": 0.060291777887981235, "train/reward_loss_std": 0.2193820882741719, "train/reward_max_data": 1.026027403465689, "train/reward_max_pred": 1.0272782665409455, "train/reward_neg_acc": 0.9936595167199226, "train/reward_neg_loss": 0.025148657329176385, "train/reward_pos_acc": 0.9921399918321061, "train/reward_pos_loss": 0.7210207336569485, "train/reward_pred": 0.04568640928562373, "train/reward_rate": 0.05055383133561644, "stats/sum_log_reward": 10.81428589139666, "stats/max_log_achievement_collect_coal": 0.2857142857142857, "stats/max_log_achievement_collect_drink": 2.2857142857142856, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 3.4285714285714284, "stats/max_log_achievement_collect_stone": 9.0, "stats/max_log_achievement_collect_wood": 10.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.4285714285714286, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.7142857142857143, "stats/max_log_achievement_make_stone_sword": 0.42857142857142855, "stats/max_log_achievement_make_wood_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.1428571428571428, "stats/max_log_achievement_place_plant": 2.142857142857143, "stats/max_log_achievement_place_stone": 2.4285714285714284, "stats/max_log_achievement_place_table": 2.4285714285714284, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3216504837785448, "replay/size": 1000000.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.325234089133828e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3743297925841529e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2371325492859, "timer/env.step_count": 1454.0, "timer/env.step_total": 18.51295495033264, "timer/env.step_frac": 0.061661110313507336, "timer/env.step_avg": 0.012732431190049959, "timer/env.step_min": 0.0029311180114746094, "timer/env.step_max": 1.5698556900024414, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.3105485439300537, "timer/replay.add_frac": 0.0010343442241578002, "timer/replay.add_avg": 0.0002135822172833932, "timer/replay.add_min": 7.677078247070312e-05, "timer/replay.add_max": 0.004361867904663086, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03587198257446289, "timer/logger.write_frac": 0.00011947883417976046, "timer/logger.write_avg": 0.03587198257446289, "timer/logger.write_min": 0.03587198257446289, "timer/logger.write_max": 0.03587198257446289, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 10.75727367401123, "timer/agent.policy_frac": 0.035829257969099984, "timer/agent.policy_avg": 0.007398400050901809, "timer/agent.policy_min": 0.005640983581542969, "timer/agent.policy_max": 0.01576375961303711, "timer/dataset_count": 727.0, "timer/dataset_total": 0.059278011322021484, "timer/dataset_frac": 0.0001974373083658818, "timer/dataset_avg": 8.153784225862652e-05, "timer/dataset_min": 6.008148193359375e-05, "timer/dataset_max": 0.0001671314239501953, "timer/agent.train_count": 727.0, "timer/agent.train_total": 269.89035511016846, "timer/agent.train_frac": 0.8989239699252196, "timer/agent.train_avg": 0.3712384526962427, "timer/agent.train_min": 0.3643825054168701, "timer/agent.train_max": 0.38649773597717285, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21891379356384277, "timer/agent.report_frac": 0.0007291363053765731, "timer/agent.report_avg": 0.21891379356384277, "timer/agent.report_min": 0.21891379356384277, "timer/agent.report_max": 0.21891379356384277, "fps": 4.842775165753427}
{"step": 1047587, "episode/length": 293.0, "episode/score": 12.100000016391277, "episode/sum_abs_reward": 14.700000055134296, "episode/reward_rate": 0.04421768707482993}
{"step": 1047800, "episode/length": 212.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.06572769953051644}
{"step": 1047974, "episode/length": 173.0, "episode/score": 14.099999964237213, "episode/sum_abs_reward": 16.099999994039536, "episode/reward_rate": 0.08620689655172414}
{"step": 1048200, "episode/length": 225.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.700000002980232, "episode/reward_rate": 0.06637168141592921}
{"step": 1048451, "episode/length": 250.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.055776892430278883}
{"step": 1048675, "episode/length": 223.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.700000002980232, "episode/reward_rate": 0.03571428571428571}
{"step": 1048845, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.407637922731165, "train/action_min": 0.0, "train/action_std": 3.212251307213143, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03726070836084346, "train/actor_opt_grad_steps": 523510.0, "train/actor_opt_loss": -11.064272508229294, "train/adv_mag": 0.41710258918265775, "train/adv_max": 0.3464915064507968, "train/adv_mean": 0.002549063264729602, "train/adv_min": -0.35463315901690967, "train/adv_std": 0.04246703101551696, "train/cont_avg": 0.9951171875, "train/cont_loss_mean": 0.00017321157775859476, "train/cont_loss_std": 0.00547286744121926, "train/cont_neg_acc": 0.9908675804530105, "train/cont_neg_loss": 0.052118922977095826, "train/cont_pos_acc": 0.9999999836699603, "train/cont_pos_loss": 1.7980715592854772e-05, "train/cont_pred": 0.9951351742221884, "train/cont_rate": 0.9951171875, "train/dyn_loss_mean": 5.672684388617947, "train/dyn_loss_std": 8.936702349414563, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9052618227592887, "train/extr_critic_critic_opt_grad_steps": 523510.0, "train/extr_critic_critic_opt_loss": 15375.564466502568, "train/extr_critic_mag": 12.178936252855275, "train/extr_critic_max": 12.178936252855275, "train/extr_critic_mean": 3.8878794990173757, "train/extr_critic_min": -0.3504589093874579, "train/extr_critic_std": 2.937627165284875, "train/extr_return_normed_mag": 1.3670027239681923, "train/extr_return_normed_max": 1.3670027239681923, "train/extr_return_normed_mean": 0.4100455649911541, "train/extr_return_normed_min": -0.07428571663490713, "train/extr_return_normed_std": 0.31269694007422827, "train/extr_return_rate": 0.8701056405289532, "train/extr_return_raw_mag": 12.99036715781852, "train/extr_return_raw_max": 12.99036715781852, "train/extr_return_raw_mean": 3.9120694349889886, "train/extr_return_raw_min": -0.6830170975156027, "train/extr_return_raw_std": 2.9663823500071484, "train/extr_reward_mag": 1.086613028016809, "train/extr_reward_max": 1.086613028016809, "train/extr_reward_mean": 0.0666671777016496, "train/extr_reward_min": -0.5827207728608014, "train/extr_reward_std": 0.24743175935255338, "train/image_loss_mean": 3.2394261948049885, "train/image_loss_std": 8.462714371615894, "train/model_loss_mean": 6.703969334902829, "train/model_loss_std": 12.665063296278863, "train/model_opt_grad_norm": 23.25924051624455, "train/model_opt_grad_steps": 523082.0, "train/model_opt_loss": 16759.923346532534, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.687589998114599, "train/policy_entropy_max": 2.687589998114599, "train/policy_entropy_mean": 0.3717673894477217, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.571140372181592, "train/policy_logprob_mag": 7.438384284711864, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37102592705863796, "train/policy_logprob_min": -7.438384284711864, "train/policy_logprob_std": 1.0027843183034086, "train/policy_randomness_mag": 0.9486013267138232, "train/policy_randomness_max": 0.9486013267138232, "train/policy_randomness_mean": 0.13121757339941312, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20158748716524202, "train/post_ent_mag": 55.557849152447425, "train/post_ent_max": 55.557849152447425, "train/post_ent_mean": 40.42491437311042, "train/post_ent_min": 19.471296832986074, "train/post_ent_std": 5.852523241957573, "train/prior_ent_mag": 76.66500708175032, "train/prior_ent_max": 76.66500708175032, "train/prior_ent_mean": 46.07020469561015, "train/prior_ent_min": 27.95341251321035, "train/prior_ent_std": 7.844023972341459, "train/rep_loss_mean": 5.672684388617947, "train/rep_loss_std": 8.936702349414563, "train/reward_avg": 0.04627702221886752, "train/reward_loss_mean": 0.06075934626876491, "train/reward_loss_std": 0.22111764346083548, "train/reward_max_data": 1.0342465835074857, "train/reward_max_pred": 1.0339397894193048, "train/reward_neg_acc": 0.9927836403454819, "train/reward_neg_loss": 0.02497002297425515, "train/reward_pos_acc": 0.9864939051131679, "train/reward_pos_loss": 0.731740998895201, "train/reward_pred": 0.04576205638275571, "train/reward_rate": 0.05066085188356165, "stats/sum_log_reward": 11.933333476384481, "stats/max_log_achievement_collect_coal": 1.8333333333333333, "stats/max_log_achievement_collect_drink": 2.8333333333333335, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 10.5, "stats/max_log_achievement_collect_wood": 11.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.3333333333333333, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_stone": 2.6666666666666665, "stats/max_log_achievement_place_table": 3.1666666666666665, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.45236431062221527, "replay/size": 1000000.0, "replay/inserts": 1462.0, "replay/samples": 11696.0, "replay/insert_wait_avg": 3.2736077680470354e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3234921910694294e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3072636127472, "timer/env.step_count": 1462.0, "timer/env.step_total": 17.065539836883545, "timer/env.step_frac": 0.05682692996360532, "timer/env.step_avg": 0.011672735866541412, "timer/env.step_min": 0.002730846405029297, "timer/env.step_max": 1.551847219467163, "timer/replay.add_count": 1462.0, "timer/replay.add_total": 0.31737208366394043, "timer/replay.add_frac": 0.001056824533132834, "timer/replay.add_avg": 0.0002170807685799866, "timer/replay.add_min": 7.748603820800781e-05, "timer/replay.add_max": 0.009612321853637695, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.034357547760009766, "timer/logger.write_frac": 0.00011440798116796329, "timer/logger.write_avg": 0.034357547760009766, "timer/logger.write_min": 0.034357547760009766, "timer/logger.write_max": 0.034357547760009766, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1462.0, "timer/agent.policy_total": 10.755248785018921, "timer/agent.policy_frac": 0.035814148001721495, "timer/agent.policy_avg": 0.007356531316702409, "timer/agent.policy_min": 0.0057566165924072266, "timer/agent.policy_max": 0.015277624130249023, "timer/dataset_count": 731.0, "timer/dataset_total": 0.05955982208251953, "timer/dataset_frac": 0.00019832960870145062, "timer/dataset_avg": 8.147718479140839e-05, "timer/dataset_min": 6.079673767089844e-05, "timer/dataset_max": 0.0001633167266845703, "timer/agent.train_count": 731.0, "timer/agent.train_total": 271.41204357147217, "timer/agent.train_frac": 0.9037811483689717, "timer/agent.train_avg": 0.37128870529613156, "timer/agent.train_min": 0.36533284187316895, "timer/agent.train_max": 0.38524556159973145, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21819233894348145, "timer/agent.report_frac": 0.0007265636412472702, "timer/agent.report_avg": 0.21819233894348145, "timer/agent.report_min": 0.21819233894348145, "timer/agent.report_max": 0.21819233894348145, "fps": 4.8682390335651125}
{"step": 1049000, "episode/length": 324.0, "episode/score": 12.099999979138374, "episode/sum_abs_reward": 13.900000020861626, "episode/reward_rate": 0.04}
{"step": 1049264, "episode/length": 263.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.056818181818181816}
{"step": 1049497, "episode/length": 232.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.04721030042918455}
{"step": 1049655, "episode/length": 157.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.0759493670886076}
{"step": 1049878, "episode/length": 222.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.06726457399103139}
{"step": 1050043, "episode/length": 164.0, "episode/score": 14.100000016391277, "episode/sum_abs_reward": 16.1000000461936, "episode/reward_rate": 0.09090909090909091}
{"step": 1050283, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.3756298489040795, "train/action_min": 0.0, "train/action_std": 3.2049467265605927, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038252280093729496, "train/actor_opt_grad_steps": 524235.0, "train/actor_opt_loss": -11.09780682116333, "train/adv_mag": 0.38397708121273255, "train/adv_max": 0.3266707950582107, "train/adv_mean": 0.0020552596086215796, "train/adv_min": -0.3390587048812045, "train/adv_std": 0.04306281694314546, "train/cont_avg": 0.9951307508680556, "train/cont_loss_mean": 2.7518283356108163e-05, "train/cont_loss_std": 0.0008255252023935276, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 6.817287428696595e-05, "train/cont_pos_acc": 0.999986320734024, "train/cont_pos_loss": 2.724632034912923e-05, "train/cont_pred": 0.9951115639673339, "train/cont_rate": 0.9951307508680556, "train/dyn_loss_mean": 5.628934661547343, "train/dyn_loss_std": 8.975729776753319, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8748220826188723, "train/extr_critic_critic_opt_grad_steps": 524235.0, "train/extr_critic_critic_opt_loss": 15305.168253580729, "train/extr_critic_mag": 12.30071911546919, "train/extr_critic_max": 12.30071911546919, "train/extr_critic_mean": 3.9335472683111825, "train/extr_critic_min": -0.35994331704245675, "train/extr_critic_std": 2.8982046710120306, "train/extr_return_normed_mag": 1.3781943801376555, "train/extr_return_normed_max": 1.3781943801376555, "train/extr_return_normed_mean": 0.414071462634537, "train/extr_return_normed_min": -0.07867401724474297, "train/extr_return_normed_std": 0.31015722991691697, "train/extr_return_rate": 0.8725857651895947, "train/extr_return_raw_mag": 13.054618702994453, "train/extr_return_raw_max": 13.054618702994453, "train/extr_return_raw_mean": 3.952940215667089, "train/extr_return_raw_min": -0.6993828275137477, "train/extr_return_raw_std": 2.9280636807282767, "train/extr_reward_mag": 1.0769245094723172, "train/extr_reward_max": 1.0769245094723172, "train/extr_reward_mean": 0.06725408649072051, "train/extr_reward_min": -0.5954941031005647, "train/extr_reward_std": 0.24871178343892097, "train/image_loss_mean": 3.1902747833066516, "train/image_loss_std": 8.453592717647552, "train/model_loss_mean": 6.627380543284946, "train/model_loss_std": 12.637062377399868, "train/model_opt_grad_norm": 23.621615727742512, "train/model_opt_grad_steps": 523806.3611111111, "train/model_opt_loss": 17524.207912868922, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2638.8888888888887, "train/policy_entropy_mag": 2.6924242211712732, "train/policy_entropy_max": 2.6924242211712732, "train/policy_entropy_mean": 0.3758943289932277, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5812150359981589, "train/policy_logprob_mag": 7.438384268018934, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3753023081355625, "train/policy_logprob_min": -7.438384268018934, "train/policy_logprob_std": 1.0101211551162932, "train/policy_randomness_mag": 0.9503075968888071, "train/policy_randomness_max": 0.9503075968888071, "train/policy_randomness_mean": 0.13267420128815705, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2051434020201365, "train/post_ent_mag": 55.64896175596449, "train/post_ent_max": 55.64896175596449, "train/post_ent_mean": 40.16067202885946, "train/post_ent_min": 19.596243964301216, "train/post_ent_std": 5.775225738684337, "train/prior_ent_mag": 76.7619817521837, "train/prior_ent_max": 76.7619817521837, "train/prior_ent_mean": 45.753547721438935, "train/prior_ent_min": 27.840321593814426, "train/prior_ent_std": 7.82724513610204, "train/rep_loss_mean": 5.628934661547343, "train/rep_loss_std": 8.975729776753319, "train/reward_avg": 0.0453097869693819, "train/reward_loss_mean": 0.059717518018765584, "train/reward_loss_std": 0.21612709760665894, "train/reward_max_data": 1.0250000059604645, "train/reward_max_pred": 1.023591137594647, "train/reward_neg_acc": 0.9930411552389463, "train/reward_neg_loss": 0.024889079077790182, "train/reward_pos_acc": 0.9899158875147501, "train/reward_pos_loss": 0.7239058398538165, "train/reward_pred": 0.04502021645506223, "train/reward_rate": 0.04983181423611111, "stats/sum_log_reward": 12.600000381469727, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 3.3333333333333335, "stats/max_log_achievement_collect_iron": 0.5, "stats/max_log_achievement_collect_sapling": 0.8333333333333334, "stats/max_log_achievement_collect_stone": 14.666666666666666, "stats/max_log_achievement_collect_wood": 14.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.3333333333333333, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_stone_sword": 1.5, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.8333333333333333, "stats/max_log_achievement_place_plant": 0.8333333333333334, "stats/max_log_achievement_place_stone": 3.1666666666666665, "stats/max_log_achievement_place_table": 3.8333333333333335, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.49909097452958423, "replay/size": 1000000.0, "replay/inserts": 1438.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.2826491290902894e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.339695218209597e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2219922542572, "timer/env.step_count": 1438.0, "timer/env.step_total": 19.818753480911255, "timer/env.step_frac": 0.06601366319668815, "timer/env.step_avg": 0.013782165146669858, "timer/env.step_min": 0.002730131149291992, "timer/env.step_max": 2.4002041816711426, "timer/replay.add_count": 1438.0, "timer/replay.add_total": 0.280803918838501, "timer/replay.add_frac": 0.0009353209494416015, "timer/replay.add_avg": 0.00019527393521453476, "timer/replay.add_min": 6.961822509765625e-05, "timer/replay.add_max": 0.0033783912658691406, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023681640625, "timer/logger.write_frac": 7.888043259983459e-05, "timer/logger.write_avg": 0.023681640625, "timer/logger.write_min": 0.023681640625, "timer/logger.write_max": 0.023681640625, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00016546249389648438, "timer/checkpoint.save_frac": 5.5113382152349e-07, "timer/checkpoint.save_avg": 0.00016546249389648438, "timer/checkpoint.save_min": 0.00016546249389648438, "timer/checkpoint.save_max": 0.00016546249389648438, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.207275629043579, "timer/agent.save_frac": 0.004021276456060356, "timer/agent.save_avg": 1.207275629043579, "timer/agent.save_min": 1.207275629043579, "timer/agent.save_max": 1.207275629043579, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.2479248046875e-05, "timer/replay.save_frac": 2.414188497739783e-07, "timer/replay.save_avg": 7.2479248046875e-05, "timer/replay.save_min": 7.2479248046875e-05, "timer/replay.save_max": 7.2479248046875e-05, "timer/agent.policy_count": 1438.0, "timer/agent.policy_total": 11.899053812026978, "timer/agent.policy_frac": 0.03963418443359639, "timer/agent.policy_avg": 0.008274724486805964, "timer/agent.policy_min": 0.00596165657043457, "timer/agent.policy_max": 1.2080726623535156, "timer/dataset_count": 719.0, "timer/dataset_total": 0.058786869049072266, "timer/dataset_frac": 0.0001958113348314797, "timer/dataset_avg": 8.176198755086546e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.00017404556274414062, "timer/agent.train_count": 719.0, "timer/agent.train_total": 267.4895746707916, "timer/agent.train_frac": 0.8909726188355163, "timer/agent.train_avg": 0.37203000649623313, "timer/agent.train_min": 0.36385250091552734, "timer/agent.train_max": 0.814697265625, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21785473823547363, "timer/agent.report_frac": 0.0007256455018490886, "timer/agent.report_avg": 0.21785473823547363, "timer/agent.report_min": 0.21785473823547363, "timer/agent.report_max": 0.21785473823547363, "fps": 4.789689367904747}
{"step": 1050444, "episode/length": 400.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.700000025331974, "episode/reward_rate": 0.0399002493765586}
{"step": 1050636, "episode/length": 191.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.299999997019768, "episode/reward_rate": 0.078125}
{"step": 1050773, "episode/length": 136.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.10948905109489052}
{"step": 1050979, "episode/length": 205.0, "episode/score": 11.099999994039536, "episode/sum_abs_reward": 13.700000017881393, "episode/reward_rate": 0.06310679611650485}
{"step": 1051187, "episode/length": 207.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 14.900000013411045, "episode/reward_rate": 0.0673076923076923}
{"step": 1051399, "episode/length": 211.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.07075471698113207}
{"step": 1051616, "episode/length": 216.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.06912442396313365}
{"step": 1051735, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.376482645670573, "train/action_min": 0.0, "train/action_std": 3.170206112994088, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03836583087427749, "train/actor_opt_grad_steps": 524955.0, "train/actor_opt_loss": -12.740773952669567, "train/adv_mag": 0.3962380902634727, "train/adv_max": 0.3255125234524409, "train/adv_mean": 0.0015672883043230791, "train/adv_min": -0.35876793704099125, "train/adv_std": 0.043055892870244056, "train/cont_avg": 0.9948459201388888, "train/cont_loss_mean": 9.869587940908925e-05, "train/cont_loss_std": 0.0028237082880006406, "train/cont_neg_acc": 0.9907407412926356, "train/cont_neg_loss": 0.029487642888156133, "train/cont_pos_acc": 0.999999980131785, "train/cont_pos_loss": 1.6976366211057188e-05, "train/cont_pred": 0.9948635432455275, "train/cont_rate": 0.9948459201388888, "train/dyn_loss_mean": 5.706589500109355, "train/dyn_loss_std": 8.940139876471626, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8863774405585395, "train/extr_critic_critic_opt_grad_steps": 524955.0, "train/extr_critic_critic_opt_loss": 15475.508124457465, "train/extr_critic_mag": 12.375282367070517, "train/extr_critic_max": 12.375282367070517, "train/extr_critic_mean": 3.8777017659611173, "train/extr_critic_min": -0.35306202206346726, "train/extr_critic_std": 2.974866214725706, "train/extr_return_normed_mag": 1.3726159284512203, "train/extr_return_normed_max": 1.3726159284512203, "train/extr_return_normed_mean": 0.4078008321424325, "train/extr_return_normed_min": -0.07550982634226482, "train/extr_return_normed_std": 0.3162709907111194, "train/extr_return_rate": 0.8609791414605247, "train/extr_return_raw_mag": 13.05244787534078, "train/extr_return_raw_max": 13.05244787534078, "train/extr_return_raw_mean": 3.892580807209015, "train/extr_return_raw_min": -0.695626727408833, "train/extr_return_raw_std": 3.002623435523775, "train/extr_reward_mag": 1.0760706729359097, "train/extr_reward_max": 1.0760706729359097, "train/extr_reward_mean": 0.06569375853157705, "train/extr_reward_min": -0.5926283333036635, "train/extr_reward_std": 0.24624809353715843, "train/image_loss_mean": 3.335314439402686, "train/image_loss_std": 8.69722831249237, "train/model_loss_mean": 6.820486803849538, "train/model_loss_std": 12.841885050137838, "train/model_opt_grad_norm": 21.173310200373333, "train/model_opt_grad_steps": 524526.0, "train/model_opt_loss": 21302.104342990453, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3125.0, "train/policy_entropy_mag": 2.6909885538948908, "train/policy_entropy_max": 2.6909885538948908, "train/policy_entropy_mean": 0.4008367889457279, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6066104028787878, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39957869466808105, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 1.0266034031907718, "train/policy_randomness_mag": 0.9498008671734068, "train/policy_randomness_max": 0.9498008671734068, "train/policy_randomness_mean": 0.14147779355860418, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21410685270610783, "train/post_ent_mag": 55.880157205793594, "train/post_ent_max": 55.880157205793594, "train/post_ent_mean": 40.20070934295654, "train/post_ent_min": 19.59538706143697, "train/post_ent_std": 5.828581790129344, "train/prior_ent_mag": 76.79910087585449, "train/prior_ent_max": 76.79910087585449, "train/prior_ent_mean": 45.91831021838718, "train/prior_ent_min": 27.9634870423211, "train/prior_ent_std": 7.964052763250139, "train/rep_loss_mean": 5.706589500109355, "train/rep_loss_std": 8.940139876471626, "train/reward_avg": 0.0459350582677871, "train/reward_loss_mean": 0.06111999714954032, "train/reward_loss_std": 0.2238171450379822, "train/reward_max_data": 1.0388888981607225, "train/reward_max_pred": 1.0349507166279688, "train/reward_neg_acc": 0.9930728293127484, "train/reward_neg_loss": 0.025877209677774873, "train/reward_pos_acc": 0.9888000140587488, "train/reward_pos_loss": 0.7230832179387411, "train/reward_pred": 0.04572953827058276, "train/reward_rate": 0.050496419270833336, "stats/sum_log_reward": 13.385714394705635, "stats/max_log_achievement_collect_coal": 1.7142857142857142, "stats/max_log_achievement_collect_drink": 2.7142857142857144, "stats/max_log_achievement_collect_iron": 0.42857142857142855, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 20.0, "stats/max_log_achievement_collect_wood": 13.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.2857142857142858, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.7142857142857142, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.7142857142857142, "stats/max_log_achievement_place_stone": 3.2857142857142856, "stats/max_log_achievement_place_table": 3.2857142857142856, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3896044705595289, "replay/size": 1000000.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.3196338937302266e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3314988002304202e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1500573158264, "timer/env.step_count": 1452.0, "timer/env.step_total": 18.779444456100464, "timer/env.step_frac": 0.06256685280702845, "timer/env.step_avg": 0.012933501691529245, "timer/env.step_min": 0.0026535987854003906, "timer/env.step_max": 1.618779182434082, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.29512929916381836, "timer/replay.add_frac": 0.0009832725064359222, "timer/replay.add_avg": 0.00020325709308802918, "timer/replay.add_min": 7.82012939453125e-05, "timer/replay.add_max": 0.003664255142211914, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021858692169189453, "timer/logger.write_frac": 7.282588037685802e-05, "timer/logger.write_avg": 0.021858692169189453, "timer/logger.write_min": 0.021858692169189453, "timer/logger.write_max": 0.021858692169189453, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 10.738046169281006, "timer/agent.policy_frac": 0.03577559259961136, "timer/agent.policy_avg": 0.0073953486014332, "timer/agent.policy_min": 0.005804538726806641, "timer/agent.policy_max": 0.017022132873535156, "timer/dataset_count": 726.0, "timer/dataset_total": 0.05852460861206055, "timer/dataset_frac": 0.0001949844992049403, "timer/dataset_avg": 8.061240855655723e-05, "timer/dataset_min": 6.079673767089844e-05, "timer/dataset_max": 0.00014972686767578125, "timer/agent.train_count": 726.0, "timer/agent.train_total": 269.5878384113312, "timer/agent.train_frac": 0.8981768680046034, "timer/agent.train_avg": 0.37133311075940933, "timer/agent.train_min": 0.36480212211608887, "timer/agent.train_max": 0.3866088390350342, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21872878074645996, "timer/agent.report_frac": 0.0007287314308799459, "timer/agent.report_avg": 0.21872878074645996, "timer/agent.report_min": 0.21872878074645996, "timer/agent.report_max": 0.21872878074645996, "fps": 4.8374748765838245}
{"step": 1051783, "episode/length": 166.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.500000037252903, "episode/reward_rate": 0.0658682634730539}
{"step": 1052024, "episode/length": 240.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.05394190871369295}
{"step": 1052281, "episode/length": 256.0, "episode/score": 14.099999994039536, "episode/sum_abs_reward": 16.30000001192093, "episode/reward_rate": 0.0622568093385214}
{"step": 1052464, "episode/length": 182.0, "episode/score": 11.100000016391277, "episode/sum_abs_reward": 12.30000003427267, "episode/reward_rate": 0.06557377049180328}
{"step": 1052654, "episode/length": 189.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.30000003427267, "episode/reward_rate": 0.05789473684210526}
{"step": 1052725, "episode/length": 70.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 8.899999991059303, "episode/reward_rate": 0.1267605633802817}
{"step": 1052811, "episode/length": 85.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.900000028312206, "episode/reward_rate": 0.10465116279069768}
{"step": 1052993, "episode/length": 181.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.07692307692307693}
{"step": 1053179, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.392633307470034, "train/action_min": 0.0, "train/action_std": 3.1766167242233068, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038184526465731124, "train/actor_opt_grad_steps": 525680.0, "train/actor_opt_loss": -10.032827031122496, "train/adv_mag": 0.40517589123281716, "train/adv_max": 0.3400231636550328, "train/adv_mean": 0.0020961798815222533, "train/adv_min": -0.35331397901659145, "train/adv_std": 0.042613393231614, "train/cont_avg": 0.9951038099315068, "train/cont_loss_mean": 1.6106098274881893e-05, "train/cont_loss_std": 0.0004404040910402142, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00015115661100277103, "train/cont_pos_acc": 0.9999999828534584, "train/cont_pos_loss": 1.5318189898603778e-05, "train/cont_pred": 0.9950903327497718, "train/cont_rate": 0.9951038099315068, "train/dyn_loss_mean": 5.697235153145986, "train/dyn_loss_std": 8.905547364117348, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9056786502877326, "train/extr_critic_critic_opt_grad_steps": 525680.0, "train/extr_critic_critic_opt_loss": 15377.93031624572, "train/extr_critic_mag": 12.149958362318065, "train/extr_critic_max": 12.149958362318065, "train/extr_critic_mean": 3.8478072212166983, "train/extr_critic_min": -0.3190728817900566, "train/extr_critic_std": 2.899494842307208, "train/extr_return_normed_mag": 1.3659203036190712, "train/extr_return_normed_max": 1.3659203036190712, "train/extr_return_normed_mean": 0.403937332434197, "train/extr_return_normed_min": -0.07616479633605644, "train/extr_return_normed_std": 0.31117594017557904, "train/extr_return_rate": 0.8692610729230593, "train/extr_return_raw_mag": 12.920189674586466, "train/extr_return_raw_max": 12.920189674586466, "train/extr_return_raw_mean": 3.8675203976565844, "train/extr_return_raw_min": -0.650418709402215, "train/extr_return_raw_std": 2.92817348650057, "train/extr_reward_mag": 1.072712829668228, "train/extr_reward_max": 1.072712829668228, "train/extr_reward_mean": 0.06347540776207022, "train/extr_reward_min": -0.6150446460671621, "train/extr_reward_std": 0.24181863400217604, "train/image_loss_mean": 3.3795802266630406, "train/image_loss_std": 8.505564082158754, "train/model_loss_mean": 6.857382206067647, "train/model_loss_std": 12.638644897774475, "train/model_opt_grad_norm": 20.578849400559516, "train/model_opt_grad_steps": 525250.0684931506, "train/model_opt_loss": 18357.357676048803, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2671.2328767123286, "train/policy_entropy_mag": 2.673552340024138, "train/policy_entropy_max": 2.673552340024138, "train/policy_entropy_mean": 0.3830214755175865, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5790470883454362, "train/policy_logprob_mag": 7.4383843696280705, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3824109422833952, "train/policy_logprob_min": -7.4383843696280705, "train/policy_logprob_std": 1.0131409690804678, "train/policy_randomness_mag": 0.9436466489752678, "train/policy_randomness_max": 0.9436466489752678, "train/policy_randomness_mean": 0.13518977348935113, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20437821153908559, "train/post_ent_mag": 55.04824013905982, "train/post_ent_max": 55.04824013905982, "train/post_ent_mean": 40.1377205522093, "train/post_ent_min": 19.70915149009391, "train/post_ent_std": 5.744832783529203, "train/prior_ent_mag": 76.73802435888003, "train/prior_ent_max": 76.73802435888003, "train/prior_ent_mean": 45.81876535285009, "train/prior_ent_min": 27.791415279858732, "train/prior_ent_std": 7.92251210016747, "train/rep_loss_mean": 5.697235153145986, "train/rep_loss_std": 8.905547364117348, "train/reward_avg": 0.04437339432180336, "train/reward_loss_mean": 0.05944472837121519, "train/reward_loss_std": 0.22632590181207005, "train/reward_max_data": 1.0328767201671862, "train/reward_max_pred": 1.031050440383284, "train/reward_neg_acc": 0.9931966564426683, "train/reward_neg_loss": 0.025026624346126434, "train/reward_pos_acc": 0.9877310991287231, "train/reward_pos_loss": 0.7307156806122767, "train/reward_pred": 0.044029651311774776, "train/reward_rate": 0.0487211044520548, "stats/sum_log_reward": 10.725000143051147, "stats/max_log_achievement_collect_coal": 0.625, "stats/max_log_achievement_collect_drink": 1.0, "stats/max_log_achievement_collect_iron": 0.25, "stats/max_log_achievement_collect_sapling": 1.25, "stats/max_log_achievement_collect_stone": 11.0, "stats/max_log_achievement_collect_wood": 10.125, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.875, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.75, "stats/max_log_achievement_make_stone_sword": 0.75, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 1.375, "stats/max_log_achievement_place_plant": 1.125, "stats/max_log_achievement_place_stone": 2.25, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 0.75, "stats/mean_log_entropy": 0.31735868006944656, "replay/size": 1000000.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.278915901923774e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.293594156936265e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1711120605469, "timer/env.step_count": 1444.0, "timer/env.step_total": 20.461183786392212, "timer/env.step_frac": 0.06816506640474128, "timer/env.step_avg": 0.014169794865922585, "timer/env.step_min": 0.002841472625732422, "timer/env.step_max": 1.6165800094604492, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.2847745418548584, "timer/replay.add_frac": 0.0009487073552814674, "timer/replay.add_avg": 0.00019721228660308753, "timer/replay.add_min": 7.653236389160156e-05, "timer/replay.add_max": 0.003851175308227539, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02427816390991211, "timer/logger.write_frac": 8.088108060516833e-05, "timer/logger.write_avg": 0.02427816390991211, "timer/logger.write_min": 0.02427816390991211, "timer/logger.write_max": 0.02427816390991211, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 10.622048616409302, "timer/agent.policy_frac": 0.0353866451154925, "timer/agent.policy_avg": 0.007355989346543838, "timer/agent.policy_min": 0.005700588226318359, "timer/agent.policy_max": 0.016140222549438477, "timer/dataset_count": 722.0, "timer/dataset_total": 0.05786013603210449, "timer/dataset_frac": 0.00019275717651481947, "timer/dataset_avg": 8.013869256524168e-05, "timer/dataset_min": 6.031990051269531e-05, "timer/dataset_max": 0.00015401840209960938, "timer/agent.train_count": 722.0, "timer/agent.train_total": 268.0643618106842, "timer/agent.train_frac": 0.8930385071719144, "timer/agent.train_avg": 0.3712802795161831, "timer/agent.train_min": 0.3641195297241211, "timer/agent.train_max": 0.3883638381958008, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21721720695495605, "timer/agent.report_frac": 0.000723644608782812, "timer/agent.report_avg": 0.21721720695495605, "timer/agent.report_min": 0.21721720695495605, "timer/agent.report_max": 0.21721720695495605, "fps": 4.810505934204863}
{"step": 1053204, "episode/length": 210.0, "episode/score": 14.100000016391277, "episode/sum_abs_reward": 16.30000003427267, "episode/reward_rate": 0.07582938388625593}
{"step": 1053389, "episode/length": 184.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.05945945945945946}
{"step": 1053694, "episode/length": 304.0, "episode/score": 14.099999979138374, "episode/sum_abs_reward": 16.700000032782555, "episode/reward_rate": 0.04918032786885246}
{"step": 1053892, "episode/length": 197.0, "episode/score": 13.099999979138374, "episode/sum_abs_reward": 15.30000002682209, "episode/reward_rate": 0.0707070707070707}
{"step": 1054110, "episode/length": 217.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.06880733944954129}
{"step": 1054340, "episode/length": 229.0, "episode/score": 15.099999964237213, "episode/sum_abs_reward": 17.099999994039536, "episode/reward_rate": 0.06956521739130435}
{"step": 1054605, "episode/length": 264.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.052830188679245285}
{"step": 1054613, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.356018926056338, "train/action_min": 0.0, "train/action_std": 3.1903111095159824, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.037671161763055225, "train/actor_opt_grad_steps": 526400.0, "train/actor_opt_loss": -10.756295363772923, "train/adv_mag": 0.41138151434945386, "train/adv_max": 0.33161884399367053, "train/adv_mean": 0.0019399766036219941, "train/adv_min": -0.3735225647687912, "train/adv_std": 0.04241501560933154, "train/cont_avg": 0.9950759242957746, "train/cont_loss_mean": 7.710101222277873e-05, "train/cont_loss_std": 0.002422017261942144, "train/cont_neg_acc": 0.9951020419597626, "train/cont_neg_loss": 0.011557718095348994, "train/cont_pos_acc": 0.9999999806914531, "train/cont_pos_loss": 6.416298593031845e-06, "train/cont_pred": 0.9950945881051076, "train/cont_rate": 0.9950759242957746, "train/dyn_loss_mean": 5.621217284404056, "train/dyn_loss_std": 8.953205968292666, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8898424010881236, "train/extr_critic_critic_opt_grad_steps": 526400.0, "train/extr_critic_critic_opt_loss": 15316.53046599912, "train/extr_critic_mag": 12.307252118285273, "train/extr_critic_max": 12.307252118285273, "train/extr_critic_mean": 3.875720071121001, "train/extr_critic_min": -0.3399627225499758, "train/extr_critic_std": 2.9034659056596355, "train/extr_return_normed_mag": 1.3749080510206626, "train/extr_return_normed_max": 1.3749080510206626, "train/extr_return_normed_mean": 0.40506964082449254, "train/extr_return_normed_min": -0.08198402061218947, "train/extr_return_normed_std": 0.3121160312857426, "train/extr_return_rate": 0.8751577600626879, "train/extr_return_raw_mag": 13.005243019318916, "train/extr_return_raw_max": 13.005243019318916, "train/extr_return_raw_mean": 3.8939435649925556, "train/extr_return_raw_min": -0.6819587647914886, "train/extr_return_raw_std": 2.93235135414231, "train/extr_reward_mag": 1.071873446585427, "train/extr_reward_max": 1.071873446585427, "train/extr_reward_mean": 0.062337821270798295, "train/extr_reward_min": -0.5859382454778107, "train/extr_reward_std": 0.23989736530142772, "train/image_loss_mean": 3.371731630513366, "train/image_loss_std": 8.771396012373373, "train/model_loss_mean": 6.805249677577489, "train/model_loss_std": 12.94733536411339, "train/model_opt_grad_norm": 22.172409460578166, "train/model_opt_grad_steps": 525969.4507042253, "train/model_opt_loss": 17013.124119718308, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.686382142590805, "train/policy_entropy_max": 2.686382142590805, "train/policy_entropy_mean": 0.3892055800263311, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5930226969886834, "train/policy_logprob_mag": 7.438384277719847, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38909295830928103, "train/policy_logprob_min": -7.438384277719847, "train/policy_logprob_std": 1.0189265877428189, "train/policy_randomness_mag": 0.9481750105468321, "train/policy_randomness_max": 0.9481750105468321, "train/policy_randomness_mean": 0.13737248933651078, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20931098767569367, "train/post_ent_mag": 55.46667931785046, "train/post_ent_max": 55.46667931785046, "train/post_ent_mean": 40.28144981491734, "train/post_ent_min": 19.75417053867394, "train/post_ent_std": 5.827425278408427, "train/prior_ent_mag": 76.89925352284607, "train/prior_ent_max": 76.89925352284607, "train/prior_ent_mean": 45.85828598452286, "train/prior_ent_min": 28.01896823292047, "train/prior_ent_std": 7.918625522667254, "train/rep_loss_mean": 5.621217284404056, "train/rep_loss_std": 8.953205968292666, "train/reward_avg": 0.0445505063456129, "train/reward_loss_mean": 0.060710655813905556, "train/reward_loss_std": 0.22701848497692967, "train/reward_max_data": 1.0197183145603663, "train/reward_max_pred": 1.022301885443674, "train/reward_neg_acc": 0.9927252698952044, "train/reward_neg_loss": 0.026035973303754564, "train/reward_pos_acc": 0.987025691589839, "train/reward_pos_loss": 0.7341536594108796, "train/reward_pred": 0.044133837006881206, "train/reward_rate": 0.04908945862676056, "stats/sum_log_reward": 13.385714530944824, "stats/max_log_achievement_collect_coal": 1.8571428571428572, "stats/max_log_achievement_collect_drink": 2.142857142857143, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8571428571428572, "stats/max_log_achievement_collect_stone": 17.571428571428573, "stats/max_log_achievement_collect_wood": 14.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.142857142857143, "stats/max_log_achievement_eat_cow": 0.5714285714285714, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_stone_sword": 1.2857142857142858, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 2.4285714285714284, "stats/max_log_achievement_place_plant": 1.8571428571428572, "stats/max_log_achievement_place_stone": 2.857142857142857, "stats/max_log_achievement_place_table": 3.5714285714285716, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.39777676122529165, "replay/size": 1000000.0, "replay/inserts": 1434.0, "replay/samples": 11472.0, "replay/insert_wait_avg": 3.352657355357746e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3184514172073854e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3219163417816, "timer/env.step_count": 1434.0, "timer/env.step_total": 19.082700490951538, "timer/env.step_frac": 0.06354081887661657, "timer/env.step_avg": 0.013307322518097306, "timer/env.step_min": 0.0028426647186279297, "timer/env.step_max": 1.584810495376587, "timer/replay.add_count": 1434.0, "timer/replay.add_total": 0.2892005443572998, "timer/replay.add_frac": 0.0009629684968717864, "timer/replay.add_avg": 0.000201674019774965, "timer/replay.add_min": 7.796287536621094e-05, "timer/replay.add_max": 0.004019260406494141, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03687119483947754, "timer/logger.write_frac": 0.00012277224149541004, "timer/logger.write_avg": 0.03687119483947754, "timer/logger.write_min": 0.03687119483947754, "timer/logger.write_max": 0.03687119483947754, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00025463104248046875, "timer/checkpoint.save_frac": 8.478603412702178e-07, "timer/checkpoint.save_avg": 0.00025463104248046875, "timer/checkpoint.save_min": 0.00025463104248046875, "timer/checkpoint.save_max": 0.00025463104248046875, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1702513694763184, "timer/agent.save_frac": 0.003896656573490004, "timer/agent.save_avg": 1.1702513694763184, "timer/agent.save_min": 1.1702513694763184, "timer/agent.save_max": 1.1702513694763184, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.225440979003906e-05, "timer/replay.save_frac": 2.7388746979234564e-07, "timer/replay.save_avg": 8.225440979003906e-05, "timer/replay.save_min": 8.225440979003906e-05, "timer/replay.save_max": 8.225440979003906e-05, "timer/agent.policy_count": 1434.0, "timer/agent.policy_total": 13.910561561584473, "timer/agent.policy_frac": 0.04631883590458162, "timer/agent.policy_avg": 0.00970053107502404, "timer/agent.policy_min": 0.005876779556274414, "timer/agent.policy_max": 2.424654960632324, "timer/dataset_count": 717.0, "timer/dataset_total": 0.05766892433166504, "timer/dataset_frac": 0.00019202369588649956, "timer/dataset_avg": 8.043085680845891e-05, "timer/dataset_min": 6.127357482910156e-05, "timer/dataset_max": 0.00015616416931152344, "timer/agent.train_count": 717.0, "timer/agent.train_total": 266.2812316417694, "timer/agent.train_frac": 0.8866526788498773, "timer/agent.train_avg": 0.3713824709090229, "timer/agent.train_min": 0.3643832206726074, "timer/agent.train_max": 0.4671354293823242, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22032690048217773, "timer/agent.report_frac": 0.000733635770462501, "timer/agent.report_avg": 0.22032690048217773, "timer/agent.report_min": 0.22032690048217773, "timer/agent.report_max": 0.22032690048217773, "fps": 4.774773034620326}
{"step": 1054826, "episode/length": 220.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.06334841628959276}
{"step": 1054992, "episode/length": 165.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.0783132530120482}
{"step": 1055242, "episode/length": 249.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.06}
{"step": 1055313, "episode/length": 70.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.07042253521126761}
{"step": 1055611, "episode/length": 297.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 15.900000013411045, "episode/reward_rate": 0.050335570469798654}
{"step": 1055905, "episode/length": 293.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.04421768707482993}
{"step": 1056077, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.390317315924658, "train/action_min": 0.0, "train/action_std": 3.2100461737750328, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03815348145284065, "train/actor_opt_grad_steps": 527120.0, "train/actor_opt_loss": -12.130534937120464, "train/adv_mag": 0.38674886177663936, "train/adv_max": 0.31324585292437307, "train/adv_mean": 0.00201380363970912, "train/adv_min": -0.3541209509927932, "train/adv_std": 0.04263329801902379, "train/cont_avg": 0.9949031464041096, "train/cont_loss_mean": 4.861544020601771e-05, "train/cont_loss_std": 0.0015201581756177538, "train/cont_neg_acc": 0.9949771696574068, "train/cont_neg_loss": 0.007575216771710354, "train/cont_pos_acc": 0.9999999787709485, "train/cont_pos_loss": 6.815462670113226e-06, "train/cont_pred": 0.9949194405176868, "train/cont_rate": 0.9949031464041096, "train/dyn_loss_mean": 5.664867374994984, "train/dyn_loss_std": 8.889224581522484, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9325672584037258, "train/extr_critic_critic_opt_grad_steps": 527120.0, "train/extr_critic_critic_opt_loss": 15062.427078874143, "train/extr_critic_mag": 12.292535037210543, "train/extr_critic_max": 12.292535037210543, "train/extr_critic_mean": 3.963214831809475, "train/extr_critic_min": -0.33642862594290956, "train/extr_critic_std": 2.965967295921012, "train/extr_return_normed_mag": 1.3721786149560589, "train/extr_return_normed_max": 1.3721786149560589, "train/extr_return_normed_mean": 0.4129232605026193, "train/extr_return_normed_min": -0.08077342354067385, "train/extr_return_normed_std": 0.31713995970275305, "train/extr_return_rate": 0.8758428341721836, "train/extr_return_raw_mag": 13.035544748175633, "train/extr_return_raw_max": 13.035544748175633, "train/extr_return_raw_mean": 3.9822387499352025, "train/extr_return_raw_min": -0.6777149259227596, "train/extr_return_raw_std": 2.9934625788910747, "train/extr_reward_mag": 1.0804233746985867, "train/extr_reward_max": 1.0804233746985867, "train/extr_reward_mean": 0.0652728859998592, "train/extr_reward_min": -0.6008514182208335, "train/extr_reward_std": 0.24508357823711552, "train/image_loss_mean": 3.308402040233351, "train/image_loss_std": 8.637374165939958, "train/model_loss_mean": 6.769155423935145, "train/model_loss_std": 12.756044557649796, "train/model_opt_grad_norm": 20.687678154200725, "train/model_opt_grad_steps": 526688.9589041095, "train/model_opt_loss": 19013.32466020976, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2808.219178082192, "train/policy_entropy_mag": 2.6751122605310726, "train/policy_entropy_max": 2.6751122605310726, "train/policy_entropy_mean": 0.39407395581676535, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5986082415058188, "train/policy_logprob_mag": 7.438384284711864, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39320671231779336, "train/policy_logprob_min": -7.438384284711864, "train/policy_logprob_std": 1.0226079168385023, "train/policy_randomness_mag": 0.9441972358586037, "train/policy_randomness_max": 0.9441972358586037, "train/policy_randomness_mean": 0.1390908117571922, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21128243922370754, "train/post_ent_mag": 55.59724483751271, "train/post_ent_max": 55.59724483751271, "train/post_ent_mean": 40.1982043540641, "train/post_ent_min": 19.64957672275909, "train/post_ent_std": 5.741301673732392, "train/prior_ent_mag": 76.73864359398411, "train/prior_ent_max": 76.73864359398411, "train/prior_ent_mean": 45.85986312448162, "train/prior_ent_min": 27.616813999332795, "train/prior_ent_std": 7.91430063770242, "train/rep_loss_mean": 5.664867374994984, "train/rep_loss_std": 8.889224581522484, "train/reward_avg": 0.04757197127256491, "train/reward_loss_mean": 0.06178428584786311, "train/reward_loss_std": 0.2257891489218359, "train/reward_max_data": 1.0315068568268868, "train/reward_max_pred": 1.0310732109905922, "train/reward_neg_acc": 0.9932408879881036, "train/reward_neg_loss": 0.025641513159115836, "train/reward_pos_acc": 0.9904868014871258, "train/reward_pos_loss": 0.7201554734412938, "train/reward_pred": 0.0472929780052541, "train/reward_rate": 0.05203874143835616, "stats/sum_log_reward": 11.600000381469727, "stats/max_log_achievement_collect_coal": 1.6666666666666667, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 14.666666666666666, "stats/max_log_achievement_collect_wood": 12.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.3333333333333333, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 2.6666666666666665, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.398682380716006, "replay/size": 1000000.0, "replay/inserts": 1464.0, "replay/samples": 11712.0, "replay/insert_wait_avg": 3.3173404756139536e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.336442805378815e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1737804412842, "timer/env.step_count": 1464.0, "timer/env.step_total": 16.891334056854248, "timer/env.step_frac": 0.056271850366219095, "timer/env.step_avg": 0.0115377964869223, "timer/env.step_min": 0.0027196407318115234, "timer/env.step_max": 1.5678179264068604, "timer/replay.add_count": 1464.0, "timer/replay.add_total": 0.2985975742340088, "timer/replay.add_frac": 0.0009947490210338885, "timer/replay.add_avg": 0.00020396009168989672, "timer/replay.add_min": 8.130073547363281e-05, "timer/replay.add_max": 0.003221273422241211, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02424168586730957, "timer/logger.write_frac": 8.075883853570413e-05, "timer/logger.write_avg": 0.02424168586730957, "timer/logger.write_min": 0.02424168586730957, "timer/logger.write_max": 0.02424168586730957, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1464.0, "timer/agent.policy_total": 10.74815559387207, "timer/agent.policy_frac": 0.035806443780903356, "timer/agent.policy_avg": 0.00734163633461207, "timer/agent.policy_min": 0.005722522735595703, "timer/agent.policy_max": 0.016815185546875, "timer/dataset_count": 732.0, "timer/dataset_total": 0.059474945068359375, "timer/dataset_frac": 0.00019813504357684244, "timer/dataset_avg": 8.124992495677511e-05, "timer/dataset_min": 6.008148193359375e-05, "timer/dataset_max": 0.00018477439880371094, "timer/agent.train_count": 732.0, "timer/agent.train_total": 271.48831272125244, "timer/agent.train_frac": 0.9044371307918321, "timer/agent.train_avg": 0.3708856731164651, "timer/agent.train_min": 0.36117076873779297, "timer/agent.train_max": 0.3856933116912842, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21889138221740723, "timer/agent.report_frac": 0.0007292155294030543, "timer/agent.report_avg": 0.21889138221740723, "timer/agent.report_min": 0.21889138221740723, "timer/agent.report_max": 0.21889138221740723, "fps": 4.8770733750466375}
{"step": 1056101, "episode/length": 195.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 12.300000056624413, "episode/reward_rate": 0.05102040816326531}
{"step": 1056330, "episode/length": 228.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.0611353711790393}
{"step": 1056796, "episode/length": 465.0, "episode/score": 12.099999994039536, "episode/sum_abs_reward": 15.100000023841858, "episode/reward_rate": 0.030042918454935622}
{"step": 1057094, "episode/length": 297.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.04697986577181208}
{"step": 1057256, "episode/length": 161.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.08024691358024691}
{"step": 1057466, "episode/length": 209.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.07142857142857142}
{"step": 1057528, "episode/length": 61.0, "episode/score": 5.099999979138374, "episode/sum_abs_reward": 7.30000002682209, "episode/reward_rate": 0.0967741935483871}
{"step": 1057531, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.347142885809076, "train/action_min": 0.0, "train/action_std": 3.211499723669601, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038658994671008355, "train/actor_opt_grad_steps": 527850.0, "train/actor_opt_loss": -10.357518154719513, "train/adv_mag": 0.3868875354528427, "train/adv_max": 0.333047430400979, "train/adv_mean": 0.0021376561511815078, "train/adv_min": -0.34686255638730035, "train/adv_std": 0.04355097771303294, "train/cont_avg": 0.9947158604452054, "train/cont_loss_mean": 2.7379050486720717e-05, "train/cont_loss_std": 0.0008398578373589654, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 2.7067837941111575e-05, "train/cont_pos_acc": 0.9999865260842729, "train/cont_pos_loss": 2.738736601264457e-05, "train/cont_pred": 0.9946957385703309, "train/cont_rate": 0.9947158604452054, "train/dyn_loss_mean": 5.647819094461937, "train/dyn_loss_std": 9.025608689817664, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9249640793016513, "train/extr_critic_critic_opt_grad_steps": 527850.0, "train/extr_critic_critic_opt_loss": 15472.858144263699, "train/extr_critic_mag": 12.307852914888565, "train/extr_critic_max": 12.307852914888565, "train/extr_critic_mean": 3.8736179266890436, "train/extr_critic_min": -0.34227770321989714, "train/extr_critic_std": 2.9177078743503517, "train/extr_return_normed_mag": 1.3761240505192378, "train/extr_return_normed_max": 1.3761240505192378, "train/extr_return_normed_mean": 0.4079076288497611, "train/extr_return_normed_min": -0.07722515046392402, "train/extr_return_normed_std": 0.31310101731182777, "train/extr_return_rate": 0.8763930944547261, "train/extr_return_raw_mag": 13.00143096871572, "train/extr_return_raw_max": 13.00143096871572, "train/extr_return_raw_mean": 3.893714245051554, "train/extr_return_raw_min": -0.6704808873673008, "train/extr_return_raw_std": 2.9455433871648085, "train/extr_reward_mag": 1.076885363827013, "train/extr_reward_max": 1.076885363827013, "train/extr_reward_mean": 0.06336896274596045, "train/extr_reward_min": -0.6028822546135889, "train/extr_reward_std": 0.24203778680873245, "train/image_loss_mean": 3.3197085106209534, "train/image_loss_std": 9.030629282128322, "train/model_loss_mean": 6.767166091971202, "train/model_loss_std": 13.196887068552513, "train/model_opt_grad_norm": 22.326293670967832, "train/model_opt_grad_steps": 527417.0547945206, "train/model_opt_loss": 8928.127414651113, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1318.4931506849316, "train/policy_entropy_mag": 2.699023860774628, "train/policy_entropy_max": 2.699023860774628, "train/policy_entropy_mean": 0.37533175312492945, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5719624655703975, "train/policy_logprob_mag": 7.4383842651158165, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.37460199202576727, "train/policy_logprob_min": -7.4383842651158165, "train/policy_logprob_std": 1.0060870704585558, "train/policy_randomness_mag": 0.9526369808471367, "train/policy_randomness_max": 0.9526369808471367, "train/policy_randomness_mean": 0.132475639042789, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20187765094515395, "train/post_ent_mag": 55.442563670955295, "train/post_ent_max": 55.442563670955295, "train/post_ent_mean": 40.13003623648866, "train/post_ent_min": 19.431043755518246, "train/post_ent_std": 5.770737693734365, "train/prior_ent_mag": 76.67162584278681, "train/prior_ent_max": 76.67162584278681, "train/prior_ent_mean": 45.75998849738134, "train/prior_ent_min": 27.60918065946396, "train/prior_ent_std": 7.887619580308052, "train/rep_loss_mean": 5.647819094461937, "train/rep_loss_std": 9.025608689817664, "train/reward_avg": 0.044517872140628016, "train/reward_loss_mean": 0.05873877958279766, "train/reward_loss_std": 0.20927136932333854, "train/reward_max_data": 1.0273972668059885, "train/reward_max_pred": 1.0252457644841442, "train/reward_neg_acc": 0.9930382705714604, "train/reward_neg_loss": 0.02498359437266441, "train/reward_pos_acc": 0.993443541330834, "train/reward_pos_loss": 0.7107639908790588, "train/reward_pred": 0.044359737905125096, "train/reward_rate": 0.049149186643835614, "stats/sum_log_reward": 11.242857388087682, "stats/max_log_achievement_collect_coal": 0.14285714285714285, "stats/max_log_achievement_collect_drink": 3.2857142857142856, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 10.714285714285714, "stats/max_log_achievement_collect_wood": 12.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5714285714285714, "stats/max_log_achievement_eat_cow": 0.42857142857142855, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.5714285714285714, "stats/max_log_achievement_make_wood_pickaxe": 1.2857142857142858, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.4285714285714286, "stats/max_log_achievement_place_plant": 1.8571428571428572, "stats/max_log_achievement_place_stone": 2.7142857142857144, "stats/max_log_achievement_place_table": 3.142857142857143, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.3541020452976227, "replay/size": 1000000.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.354093559506507e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3060755054101328e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2027175426483, "timer/env.step_count": 1454.0, "timer/env.step_total": 18.69851803779602, "timer/env.step_frac": 0.06228630503699426, "timer/env.step_avg": 0.01286005367111143, "timer/env.step_min": 0.0028350353240966797, "timer/env.step_max": 1.6547274589538574, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.2944035530090332, "timer/replay.add_frac": 0.000980682504871758, "timer/replay.add_avg": 0.00020247837208324155, "timer/replay.add_min": 7.104873657226562e-05, "timer/replay.add_max": 0.004296541213989258, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02442312240600586, "timer/logger.write_frac": 8.13554341077415e-05, "timer/logger.write_avg": 0.02442312240600586, "timer/logger.write_min": 0.02442312240600586, "timer/logger.write_max": 0.02442312240600586, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 10.71850872039795, "timer/agent.policy_frac": 0.03570423615127742, "timer/agent.policy_avg": 0.0073717391474538855, "timer/agent.policy_min": 0.005676746368408203, "timer/agent.policy_max": 0.01470184326171875, "timer/dataset_count": 727.0, "timer/dataset_total": 0.05859208106994629, "timer/dataset_frac": 0.00019517505220992013, "timer/dataset_avg": 8.05943343465561e-05, "timer/dataset_min": 5.793571472167969e-05, "timer/dataset_max": 0.00014162063598632812, "timer/agent.train_count": 727.0, "timer/agent.train_total": 269.74644327163696, "timer/agent.train_frac": 0.8985476396738994, "timer/agent.train_avg": 0.37104049968588304, "timer/agent.train_min": 0.36387157440185547, "timer/agent.train_max": 0.38425207138061523, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22005581855773926, "timer/agent.report_frac": 0.0007330240723969363, "timer/agent.report_avg": 0.22005581855773926, "timer/agent.report_min": 0.22005581855773926, "timer/agent.report_max": 0.22005581855773926, "fps": 4.843302532082441}
{"step": 1057752, "episode/length": 223.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.05803571428571429}
{"step": 1058029, "episode/length": 276.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.700000047683716, "episode/reward_rate": 0.04693140794223827}
{"step": 1058270, "episode/length": 240.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 10.500000014901161, "episode/reward_rate": 0.04149377593360996}
{"step": 1058498, "episode/length": 227.0, "episode/score": 14.100000016391277, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.06578947368421052}
{"step": 1058631, "episode/length": 132.0, "episode/score": 12.100000023841858, "episode/sum_abs_reward": 14.299999982118607, "episode/reward_rate": 0.10526315789473684}
{"step": 1058688, "episode/length": 56.0, "episode/score": 4.099999971687794, "episode/sum_abs_reward": 6.1000000312924385, "episode/reward_rate": 0.10526315789473684}
{"step": 1058847, "episode/length": 158.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.0880503144654088}
{"step": 1058965, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.332501729329427, "train/action_min": 0.0, "train/action_std": 3.1839610735575357, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038529522328947984, "train/actor_opt_grad_steps": 528575.0, "train/actor_opt_loss": -12.94666640791628, "train/adv_mag": 0.4116378277540207, "train/adv_max": 0.34086931455466485, "train/adv_mean": 0.001826509621499402, "train/adv_min": -0.3759272618012296, "train/adv_std": 0.043736872573693596, "train/cont_avg": 0.9949815538194444, "train/cont_loss_mean": 1.544169728420444e-05, "train/cont_loss_std": 0.0004256174048017493, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0011947196706604145, "train/cont_pos_acc": 0.9999999875823656, "train/cont_pos_loss": 7.936031899389048e-06, "train/cont_pred": 0.9949805786212286, "train/cont_rate": 0.9949815538194444, "train/dyn_loss_mean": 5.639810065428416, "train/dyn_loss_std": 8.897890329360962, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9519254705972142, "train/extr_critic_critic_opt_grad_steps": 528575.0, "train/extr_critic_critic_opt_loss": 15448.97447374132, "train/extr_critic_mag": 12.266727328300476, "train/extr_critic_max": 12.266727328300476, "train/extr_critic_mean": 3.8503504395484924, "train/extr_critic_min": -0.33938762380017173, "train/extr_critic_std": 2.883082398109966, "train/extr_return_normed_mag": 1.3793244527445898, "train/extr_return_normed_max": 1.3793244527445898, "train/extr_return_normed_mean": 0.40290629325641525, "train/extr_return_normed_min": -0.07667410570300287, "train/extr_return_normed_std": 0.30861785676744247, "train/extr_return_rate": 0.8768175401621394, "train/extr_return_raw_mag": 13.099326345655653, "train/extr_return_raw_max": 13.099326345655653, "train/extr_return_raw_mean": 3.8676029642422995, "train/extr_return_raw_min": -0.6668201308283541, "train/extr_return_raw_std": 2.9183847655852637, "train/extr_reward_mag": 1.080905454026328, "train/extr_reward_max": 1.080905454026328, "train/extr_reward_mean": 0.06378594599664211, "train/extr_reward_min": -0.610820449060864, "train/extr_reward_std": 0.24297485790318912, "train/image_loss_mean": 3.2462299449576273, "train/image_loss_std": 8.136299424701267, "train/model_loss_mean": 6.691338135136498, "train/model_loss_std": 12.285602675543892, "train/model_opt_grad_norm": 21.312402857674492, "train/model_opt_grad_steps": 528141.5833333334, "train/model_opt_loss": 9573.611497667102, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1440.9722222222222, "train/policy_entropy_mag": 2.7045753498872123, "train/policy_entropy_max": 2.7045753498872123, "train/policy_entropy_mean": 0.3774244897067547, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.582743399673038, "train/policy_logprob_mag": 7.438384314378102, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3771021407511499, "train/policy_logprob_min": -7.438384314378102, "train/policy_logprob_std": 1.010656321214305, "train/policy_randomness_mag": 0.9545964110228751, "train/policy_randomness_max": 0.9545964110228751, "train/policy_randomness_mean": 0.13321428187191486, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20568284723493788, "train/post_ent_mag": 54.995677365197075, "train/post_ent_max": 54.995677365197075, "train/post_ent_mean": 40.16948991351657, "train/post_ent_min": 19.536338912116157, "train/post_ent_std": 5.767170482211643, "train/prior_ent_mag": 76.71928776635065, "train/prior_ent_max": 76.71928776635065, "train/prior_ent_mean": 45.821378495958115, "train/prior_ent_min": 27.975183063083225, "train/prior_ent_std": 7.850217117203607, "train/rep_loss_mean": 5.639810065428416, "train/rep_loss_std": 8.897890329360962, "train/reward_avg": 0.04558241095704337, "train/reward_loss_mean": 0.06120669226058655, "train/reward_loss_std": 0.21691873917977014, "train/reward_max_data": 1.0347222305006452, "train/reward_max_pred": 1.0343906035025914, "train/reward_neg_acc": 0.9927270230319765, "train/reward_neg_loss": 0.026323329579705994, "train/reward_pos_acc": 0.9896062140663465, "train/reward_pos_loss": 0.7196570038795471, "train/reward_pred": 0.045195236077739134, "train/reward_rate": 0.050374348958333336, "stats/sum_log_reward": 10.814286027635847, "stats/max_log_achievement_collect_coal": 0.2857142857142857, "stats/max_log_achievement_collect_drink": 2.142857142857143, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.2857142857142856, "stats/max_log_achievement_collect_stone": 9.0, "stats/max_log_achievement_collect_wood": 12.857142857142858, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5714285714285714, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_stone_sword": 0.5714285714285714, "stats/max_log_achievement_make_wood_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 2.2857142857142856, "stats/max_log_achievement_place_stone": 1.7142857142857142, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.34442474586623056, "replay/size": 1000000.0, "replay/inserts": 1434.0, "replay/samples": 11472.0, "replay/insert_wait_avg": 3.2908081842100603e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3450947765525913e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0166389942169, "timer/env.step_count": 1434.0, "timer/env.step_total": 18.745357275009155, "timer/env.step_frac": 0.06248105884344131, "timer/env.step_avg": 0.013072076202935256, "timer/env.step_min": 0.00266265869140625, "timer/env.step_max": 1.5897045135498047, "timer/replay.add_count": 1434.0, "timer/replay.add_total": 0.3040425777435303, "timer/replay.add_frac": 0.0010134190515659733, "timer/replay.add_avg": 0.00021202411279186211, "timer/replay.add_min": 7.653236389160156e-05, "timer/replay.add_max": 0.0017070770263671875, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025634288787841797, "timer/logger.write_frac": 8.544289034694478e-05, "timer/logger.write_avg": 0.025634288787841797, "timer/logger.write_min": 0.025634288787841797, "timer/logger.write_max": 0.025634288787841797, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00026106834411621094, "timer/checkpoint.save_frac": 8.701795506789983e-07, "timer/checkpoint.save_avg": 0.00026106834411621094, "timer/checkpoint.save_min": 0.00026106834411621094, "timer/checkpoint.save_max": 0.00026106834411621094, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3870604038238525, "timer/agent.save_frac": 0.0046232782570789, "timer/agent.save_avg": 1.3870604038238525, "timer/agent.save_min": 1.3870604038238525, "timer/agent.save_max": 1.3870604038238525, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.818771362304688e-05, "timer/replay.save_frac": 2.2727977305405802e-07, "timer/replay.save_avg": 6.818771362304688e-05, "timer/replay.save_min": 6.818771362304688e-05, "timer/replay.save_max": 6.818771362304688e-05, "timer/agent.policy_count": 1434.0, "timer/agent.policy_total": 14.160677909851074, "timer/agent.policy_frac": 0.04719964185094425, "timer/agent.policy_avg": 0.009874949727929619, "timer/agent.policy_min": 0.005900859832763672, "timer/agent.policy_max": 2.394855499267578, "timer/dataset_count": 717.0, "timer/dataset_total": 0.058159589767456055, "timer/dataset_frac": 0.0001938545474092093, "timer/dataset_avg": 8.111518796018976e-05, "timer/dataset_min": 6.0558319091796875e-05, "timer/dataset_max": 0.00015234947204589844, "timer/agent.train_count": 717.0, "timer/agent.train_total": 266.06204557418823, "timer/agent.train_frac": 0.886824299032684, "timer/agent.train_avg": 0.37107677206999756, "timer/agent.train_min": 0.3637380599975586, "timer/agent.train_max": 0.4103353023529053, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21770310401916504, "timer/agent.report_frac": 0.000725636767177308, "timer/agent.report_avg": 0.21770310401916504, "timer/agent.report_min": 0.21770310401916504, "timer/agent.report_max": 0.21770310401916504, "fps": 4.779628521163578}
{"step": 1059079, "episode/length": 231.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.05172413793103448}
{"step": 1059604, "episode/length": 524.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 16.10000005364418, "episode/reward_rate": 0.02666666666666667}
{"step": 1059719, "episode/length": 114.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.09565217391304348}
{"step": 1060030, "episode/length": 310.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.04823151125401929}
{"step": 1060443, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.372559418549409, "train/action_min": 0.0, "train/action_std": 3.2234762520403475, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.037991504335927, "train/actor_opt_grad_steps": 529305.0, "train/actor_opt_loss": -11.63585492243638, "train/adv_mag": 0.38116691825357646, "train/adv_max": 0.3210290128717551, "train/adv_mean": 0.0020637763700997805, "train/adv_min": -0.3423247967620154, "train/adv_std": 0.04280781129224075, "train/cont_avg": 0.9948664484797297, "train/cont_loss_mean": 4.477253291994614e-05, "train/cont_loss_std": 0.0013832269996352832, "train/cont_neg_acc": 0.9977477482847266, "train/cont_neg_loss": 0.006896095742603054, "train/cont_pos_acc": 0.9999999814742321, "train/cont_pos_loss": 6.0619542150899746e-06, "train/cont_pred": 0.9948829339968192, "train/cont_rate": 0.9948664484797297, "train/dyn_loss_mean": 5.8113574144002555, "train/dyn_loss_std": 9.043997203981554, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9226528776658548, "train/extr_critic_critic_opt_grad_steps": 529305.0, "train/extr_critic_critic_opt_loss": 15506.562302048142, "train/extr_critic_mag": 12.31463977452871, "train/extr_critic_max": 12.31463977452871, "train/extr_critic_mean": 3.809568572688747, "train/extr_critic_min": -0.3433519730696807, "train/extr_critic_std": 2.9507546424865723, "train/extr_return_normed_mag": 1.3774990664946067, "train/extr_return_normed_max": 1.3774990664946067, "train/extr_return_normed_mean": 0.400212143119928, "train/extr_return_normed_min": -0.07559875237780649, "train/extr_return_normed_std": 0.3142419622556583, "train/extr_return_rate": 0.8646044900288453, "train/extr_return_raw_mag": 13.077761701635412, "train/extr_return_raw_max": 13.077761701635412, "train/extr_return_raw_mean": 3.829102706264805, "train/extr_return_raw_min": -0.6745249931071255, "train/extr_return_raw_std": 2.9747123009449727, "train/extr_reward_mag": 1.082831569620081, "train/extr_reward_max": 1.082831569620081, "train/extr_reward_mean": 0.063291708611556, "train/extr_reward_min": -0.5895525684227815, "train/extr_reward_std": 0.24207419660445806, "train/image_loss_mean": 3.298447269040185, "train/image_loss_std": 8.657197449658367, "train/model_loss_mean": 6.847301160967028, "train/model_loss_std": 12.901711889215418, "train/model_opt_grad_norm": 22.124953450383366, "train/model_opt_grad_steps": 528871.0, "train/model_opt_loss": 9017.687269056165, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1317.5675675675675, "train/policy_entropy_mag": 2.6979656090607516, "train/policy_entropy_max": 2.6979656090607516, "train/policy_entropy_mean": 0.39603401438609975, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.607705388520215, "train/policy_logprob_mag": 7.438384313841124, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39741407938905665, "train/policy_logprob_min": -7.438384313841124, "train/policy_logprob_std": 1.0312558098419293, "train/policy_randomness_mag": 0.9522634607714575, "train/policy_randomness_max": 0.9522634607714575, "train/policy_randomness_mean": 0.13978262638320793, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2144933348974666, "train/post_ent_mag": 55.20659823031039, "train/post_ent_max": 55.20659823031039, "train/post_ent_mean": 40.19663857124947, "train/post_ent_min": 19.44947366456728, "train/post_ent_std": 5.780296931395659, "train/prior_ent_mag": 76.72849242751663, "train/prior_ent_max": 76.72849242751663, "train/prior_ent_mean": 45.96363670761521, "train/prior_ent_min": 28.02827518050735, "train/prior_ent_std": 7.842225583823952, "train/rep_loss_mean": 5.8113574144002555, "train/rep_loss_std": 9.043997203981554, "train/reward_avg": 0.045891838626483, "train/reward_loss_mean": 0.0619947483914124, "train/reward_loss_std": 0.22707984979088242, "train/reward_max_data": 1.0189189234295406, "train/reward_max_pred": 1.0193459729890566, "train/reward_neg_acc": 0.993061106752705, "train/reward_neg_loss": 0.026344898635068455, "train/reward_pos_acc": 0.9884825421346201, "train/reward_pos_loss": 0.7308016789926065, "train/reward_pred": 0.04547370562480914, "train/reward_rate": 0.05042493665540541, "stats/sum_log_reward": 11.849999904632568, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 4.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 10.75, "stats/max_log_achievement_collect_wood": 14.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.75, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "stats/max_log_achievement_make_stone_sword": 0.25, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.75, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 2.5, "stats/max_log_achievement_place_table": 3.75, "stats/max_log_achievement_wake_up": 3.0, "stats/mean_log_entropy": 0.6740663126111031, "replay/size": 1000000.0, "replay/inserts": 1478.0, "replay/samples": 11824.0, "replay/insert_wait_avg": 3.3647991484976266e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3429192632073801e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.04384112358093, "timer/env.step_count": 1478.0, "timer/env.step_total": 14.095964908599854, "timer/env.step_frac": 0.04697968422152701, "timer/env.step_avg": 0.0095371887067658, "timer/env.step_min": 0.002764463424682617, "timer/env.step_max": 1.635951280593872, "timer/replay.add_count": 1478.0, "timer/replay.add_total": 0.2868218421936035, "timer/replay.add_frac": 0.0009559331100399705, "timer/replay.add_avg": 0.00019406078632855448, "timer/replay.add_min": 7.891654968261719e-05, "timer/replay.add_max": 0.004749298095703125, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023036479949951172, "timer/logger.write_frac": 7.677704652655408e-05, "timer/logger.write_avg": 0.023036479949951172, "timer/logger.write_min": 0.023036479949951172, "timer/logger.write_max": 0.023036479949951172, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1478.0, "timer/agent.policy_total": 10.85526967048645, "timer/agent.policy_frac": 0.03617894514960373, "timer/agent.policy_avg": 0.0073445667594630925, "timer/agent.policy_min": 0.005948781967163086, "timer/agent.policy_max": 0.014417171478271484, "timer/dataset_count": 739.0, "timer/dataset_total": 0.059294700622558594, "timer/dataset_frac": 0.0001976201224478276, "timer/dataset_avg": 8.023640138370581e-05, "timer/dataset_min": 5.793571472167969e-05, "timer/dataset_max": 0.0001609325408935547, "timer/agent.train_count": 739.0, "timer/agent.train_total": 274.06932401657104, "timer/agent.train_frac": 0.9134309272613544, "timer/agent.train_avg": 0.3708651204554412, "timer/agent.train_min": 0.36434173583984375, "timer/agent.train_max": 0.38606858253479004, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21986865997314453, "timer/agent.report_frac": 0.0007327884456811291, "timer/agent.report_avg": 0.21986865997314453, "timer/agent.report_min": 0.21986865997314453, "timer/agent.report_max": 0.21986865997314453, "fps": 4.925844949496488}
{"step": 1060568, "episode/length": 537.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 19.700000070035458, "episode/reward_rate": 0.02973977695167286}
{"step": 1060733, "episode/length": 164.0, "episode/score": 13.099999964237213, "episode/sum_abs_reward": 15.099999994039536, "episode/reward_rate": 0.08484848484848485}
{"step": 1060898, "episode/length": 164.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.07878787878787878}
{"step": 1061184, "episode/length": 285.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.700000002980232, "episode/reward_rate": 0.04895104895104895}
{"step": 1061527, "episode/length": 342.0, "episode/score": 16.100000008940697, "episode/sum_abs_reward": 20.10000006854534, "episode/reward_rate": 0.04956268221574344}
{"step": 1061794, "episode/length": 266.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.30000003427267, "episode/reward_rate": 0.056179775280898875}
{"step": 1061903, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.369949967893835, "train/action_min": 0.0, "train/action_std": 3.227572581539415, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038576924458962596, "train/actor_opt_grad_steps": 530040.0, "train/actor_opt_loss": -10.587962054226496, "train/adv_mag": 0.401439174397351, "train/adv_max": 0.33613323348842256, "train/adv_mean": 0.0019393614374702375, "train/adv_min": -0.3749601463340733, "train/adv_std": 0.04283389887989384, "train/cont_avg": 0.9952375856164384, "train/cont_loss_mean": 5.487002007345038e-05, "train/cont_loss_std": 0.001719208928270917, "train/cont_neg_acc": 0.9965753424657534, "train/cont_neg_loss": 0.012156647915774945, "train/cont_pos_acc": 0.9999999812204544, "train/cont_pos_loss": 7.343152730771551e-06, "train/cont_pred": 0.9952439249378361, "train/cont_rate": 0.9952375856164384, "train/dyn_loss_mean": 5.675030584204687, "train/dyn_loss_std": 8.925006788070888, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.876310555085744, "train/extr_critic_critic_opt_grad_steps": 530040.0, "train/extr_critic_critic_opt_loss": 15248.860257919521, "train/extr_critic_mag": 12.291094479495532, "train/extr_critic_max": 12.291094479495532, "train/extr_critic_mean": 3.9172933036333895, "train/extr_critic_min": -0.32754061646657445, "train/extr_critic_std": 2.9505393505096436, "train/extr_return_normed_mag": 1.3779806813148603, "train/extr_return_normed_max": 1.3779806813148603, "train/extr_return_normed_mean": 0.4102070009055203, "train/extr_return_normed_min": -0.07185571337093229, "train/extr_return_normed_std": 0.3142644971200865, "train/extr_return_rate": 0.8741831207928592, "train/extr_return_raw_mag": 13.108616214908965, "train/extr_return_raw_max": 13.108616214908965, "train/extr_return_raw_mean": 3.935692950470807, "train/extr_return_raw_min": -0.6340576630749114, "train/extr_return_raw_std": 2.9785822286997754, "train/extr_reward_mag": 1.0707191833078045, "train/extr_reward_max": 1.0707191833078045, "train/extr_reward_mean": 0.06313855262243584, "train/extr_reward_min": -0.6026191254184671, "train/extr_reward_std": 0.24149987856819205, "train/image_loss_mean": 3.2786130023329227, "train/image_loss_std": 8.49102356662489, "train/model_loss_mean": 6.7432004392963565, "train/model_loss_std": 12.650087291247225, "train/model_opt_grad_norm": 21.062131228512282, "train/model_opt_grad_steps": 529606.0, "train/model_opt_loss": 16858.00096318493, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.693840457968516, "train/policy_entropy_max": 2.693840457968516, "train/policy_entropy_mean": 0.40581518942362643, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6187561885134815, "train/policy_logprob_mag": 7.43838429124388, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4051280274783095, "train/policy_logprob_min": -7.43838429124388, "train/policy_logprob_std": 1.0318448314928028, "train/policy_randomness_mag": 0.9508074677153809, "train/policy_randomness_max": 0.9508074677153809, "train/policy_randomness_mean": 0.1432349523656989, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21839377855601377, "train/post_ent_mag": 55.511651548620776, "train/post_ent_max": 55.511651548620776, "train/post_ent_mean": 40.240739430466746, "train/post_ent_min": 19.531077646229367, "train/post_ent_std": 5.777192377064326, "train/prior_ent_mag": 76.82061412236462, "train/prior_ent_max": 76.82061412236462, "train/prior_ent_mean": 45.91135443073429, "train/prior_ent_min": 28.24777671082379, "train/prior_ent_std": 7.841854761724603, "train/rep_loss_mean": 5.675030584204687, "train/rep_loss_std": 8.925006788070888, "train/reward_avg": 0.04515732003197278, "train/reward_loss_mean": 0.059514243359843344, "train/reward_loss_std": 0.2208459050688025, "train/reward_max_data": 1.0246575401253897, "train/reward_max_pred": 1.0258643627166748, "train/reward_neg_acc": 0.99254689314594, "train/reward_neg_loss": 0.02475716271884229, "train/reward_pos_acc": 0.9876169137758751, "train/reward_pos_loss": 0.7274694516234201, "train/reward_pred": 0.0448097271002727, "train/reward_rate": 0.04952375856164384, "stats/sum_log_reward": 13.766666889190674, "stats/max_log_achievement_collect_coal": 2.0, "stats/max_log_achievement_collect_drink": 7.833333333333333, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 2.1666666666666665, "stats/max_log_achievement_collect_stone": 19.0, "stats/max_log_achievement_collect_wood": 11.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.6666666666666666, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.3333333333333333, "stats/max_log_achievement_place_furnace": 2.3333333333333335, "stats/max_log_achievement_place_plant": 2.1666666666666665, "stats/max_log_achievement_place_stone": 3.3333333333333335, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 1.6666666666666667, "stats/mean_log_entropy": 0.6054852132995924, "replay/size": 1000000.0, "replay/inserts": 1460.0, "replay/samples": 11680.0, "replay/insert_wait_avg": 3.275316055506876e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3189568911513237e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1554033756256, "timer/env.step_count": 1460.0, "timer/env.step_total": 17.432474613189697, "timer/env.step_frac": 0.05807816356840344, "timer/env.step_avg": 0.01194005110492445, "timer/env.step_min": 0.0026242733001708984, "timer/env.step_max": 1.6270737648010254, "timer/replay.add_count": 1460.0, "timer/replay.add_total": 0.31063199043273926, "timer/replay.add_frac": 0.0010349038762564034, "timer/replay.add_avg": 0.00021276163728269813, "timer/replay.add_min": 7.915496826171875e-05, "timer/replay.add_max": 0.004251956939697266, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026140451431274414, "timer/logger.write_frac": 8.708972464693991e-05, "timer/logger.write_avg": 0.026140451431274414, "timer/logger.write_min": 0.026140451431274414, "timer/logger.write_max": 0.026140451431274414, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1460.0, "timer/agent.policy_total": 10.721678256988525, "timer/agent.policy_frac": 0.035720423941763994, "timer/agent.policy_avg": 0.007343615244512688, "timer/agent.policy_min": 0.0058176517486572266, "timer/agent.policy_max": 0.01707935333251953, "timer/dataset_count": 730.0, "timer/dataset_total": 0.059007883071899414, "timer/dataset_frac": 0.0001965911071674254, "timer/dataset_avg": 8.08327165368485e-05, "timer/dataset_min": 6.198883056640625e-05, "timer/dataset_max": 0.00016617774963378906, "timer/agent.train_count": 730.0, "timer/agent.train_total": 270.943683385849, "timer/agent.train_frac": 0.9026780139179438, "timer/agent.train_avg": 0.3711557306655466, "timer/agent.train_min": 0.364271879196167, "timer/agent.train_max": 0.38425421714782715, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2179248332977295, "timer/agent.report_frac": 0.0007260400140956659, "timer/agent.report_avg": 0.2179248332977295, "timer/agent.report_min": 0.2179248332977295, "timer/agent.report_max": 0.2179248332977295, "fps": 4.86403922441734}
{"step": 1061983, "episode/length": 188.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 12.90000006556511, "episode/reward_rate": 0.0582010582010582}
{"step": 1062298, "episode/length": 314.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.500000037252903, "episode/reward_rate": 0.047619047619047616}
{"step": 1062513, "episode/length": 214.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.299999997019768, "episode/reward_rate": 0.05581395348837209}
{"step": 1062664, "episode/length": 150.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.0728476821192053}
{"step": 1062886, "episode/length": 221.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.06306306306306306}
{"step": 1063101, "episode/length": 214.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 14.900000013411045, "episode/reward_rate": 0.06511627906976744}
{"step": 1063343, "episode/length": 241.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.0371900826446281}
{"step": 1063344, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.407744513617621, "train/action_min": 0.0, "train/action_std": 3.2580085363652973, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03682182289453016, "train/actor_opt_grad_steps": 530765.0, "train/actor_opt_loss": -12.65050889386071, "train/adv_mag": 0.36360411159694195, "train/adv_max": 0.3231029539472527, "train/adv_mean": 0.0015526954957749695, "train/adv_min": -0.31915279167393845, "train/adv_std": 0.0420432535207106, "train/cont_avg": 0.9954020182291666, "train/cont_loss_mean": 0.00025061338685265316, "train/cont_loss_std": 0.007817915935250695, "train/cont_neg_acc": 0.9930555563833978, "train/cont_neg_loss": 0.04534556866586955, "train/cont_pos_acc": 0.9999863803386688, "train/cont_pos_loss": 0.00010334999255073246, "train/cont_pred": 0.9953974551624722, "train/cont_rate": 0.9954020182291666, "train/dyn_loss_mean": 5.786059922642178, "train/dyn_loss_std": 8.976786997583178, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8942854776978493, "train/extr_critic_critic_opt_grad_steps": 530765.0, "train/extr_critic_critic_opt_loss": 15344.061089409723, "train/extr_critic_mag": 12.376537190543281, "train/extr_critic_max": 12.376537190543281, "train/extr_critic_mean": 3.850427097744412, "train/extr_critic_min": -0.32655571069982314, "train/extr_critic_std": 2.922581762075424, "train/extr_return_normed_mag": 1.3714607208967209, "train/extr_return_normed_max": 1.3714607208967209, "train/extr_return_normed_mean": 0.40414115600287914, "train/extr_return_normed_min": -0.07208508454884092, "train/extr_return_normed_std": 0.3103451199001736, "train/extr_return_rate": 0.8664949089288712, "train/extr_return_raw_mag": 13.062879668341743, "train/extr_return_raw_max": 13.062879668341743, "train/extr_return_raw_mean": 3.865164190530777, "train/extr_return_raw_min": -0.6632585666245885, "train/extr_return_raw_std": 2.9512507584359913, "train/extr_reward_mag": 1.08012275563346, "train/extr_reward_max": 1.08012275563346, "train/extr_reward_mean": 0.06416642614122894, "train/extr_reward_min": -0.5832656257682376, "train/extr_reward_std": 0.24327006480760044, "train/image_loss_mean": 3.3024431698852115, "train/image_loss_std": 8.468525323602888, "train/model_loss_mean": 6.835515962706672, "train/model_loss_std": 12.65647358364529, "train/model_opt_grad_norm": 21.45430913236406, "train/model_opt_grad_steps": 530330.4027777778, "train/model_opt_loss": 18472.535725911457, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2708.3333333333335, "train/policy_entropy_mag": 2.675911466280619, "train/policy_entropy_max": 2.675911466280619, "train/policy_entropy_mean": 0.40131590308414566, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6096162187556425, "train/policy_logprob_mag": 7.438384347491795, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4016955964681175, "train/policy_logprob_min": -7.438384347491795, "train/policy_logprob_std": 1.0312632653448317, "train/policy_randomness_mag": 0.9444793206122186, "train/policy_randomness_max": 0.9444793206122186, "train/policy_randomness_mean": 0.14164690093861687, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21516777181790936, "train/post_ent_mag": 55.60763512717353, "train/post_ent_max": 55.60763512717353, "train/post_ent_mean": 40.17041121588813, "train/post_ent_min": 19.356768555111355, "train/post_ent_std": 5.85544157690472, "train/prior_ent_mag": 76.74929226769342, "train/prior_ent_max": 76.74929226769342, "train/prior_ent_mean": 45.89558717939589, "train/prior_ent_min": 27.879424333572388, "train/prior_ent_std": 7.909842517640856, "train/rep_loss_mean": 5.786059922642178, "train/rep_loss_std": 8.976786997583178, "train/reward_avg": 0.046835665901501976, "train/reward_loss_mean": 0.06118626887392667, "train/reward_loss_std": 0.2249176622264915, "train/reward_max_data": 1.036111119720671, "train/reward_max_pred": 1.0300958818859525, "train/reward_neg_acc": 0.9925617095496919, "train/reward_neg_loss": 0.025314822068644896, "train/reward_pos_acc": 0.9890127902229627, "train/reward_pos_loss": 0.7267253597577413, "train/reward_pred": 0.04644596387839152, "train/reward_rate": 0.051093207465277776, "stats/sum_log_reward": 11.242857524326869, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 3.142857142857143, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 11.428571428571429, "stats/max_log_achievement_collect_wood": 12.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.42857142857142855, "stats/max_log_achievement_make_stone_sword": 0.8571428571428571, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 2.142857142857143, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.3895963451692036, "replay/size": 1000000.0, "replay/inserts": 1441.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.2950076355361673e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3150895635286966e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 301.473881483078, "timer/env.step_count": 1441.0, "timer/env.step_total": 20.350502014160156, "timer/env.step_frac": 0.06750336683910194, "timer/env.step_avg": 0.014122485783594834, "timer/env.step_min": 0.0027799606323242188, "timer/env.step_max": 1.7700917720794678, "timer/replay.add_count": 1441.0, "timer/replay.add_total": 0.2931363582611084, "timer/replay.add_frac": 0.0009723441275212506, "timer/replay.add_avg": 0.00020342564764823623, "timer/replay.add_min": 7.510185241699219e-05, "timer/replay.add_max": 0.004125833511352539, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021091938018798828, "timer/logger.write_frac": 6.996273745187686e-05, "timer/logger.write_avg": 0.021091938018798828, "timer/logger.write_min": 0.021091938018798828, "timer/logger.write_max": 0.021091938018798828, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003762245178222656, "timer/checkpoint.save_frac": 1.2479506216971683e-06, "timer/checkpoint.save_avg": 0.0003762245178222656, "timer/checkpoint.save_min": 0.0003762245178222656, "timer/checkpoint.save_max": 0.0003762245178222656, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1657750606536865, "timer/agent.save_frac": 0.003866918934797085, "timer/agent.save_avg": 1.1657750606536865, "timer/agent.save_min": 1.1657750606536865, "timer/agent.save_max": 1.1657750606536865, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.083747863769531e-05, "timer/replay.save_frac": 3.0131127177859384e-07, "timer/replay.save_avg": 9.083747863769531e-05, "timer/replay.save_min": 9.083747863769531e-05, "timer/replay.save_max": 9.083747863769531e-05, "timer/agent.policy_count": 1441.0, "timer/agent.policy_total": 12.325992345809937, "timer/agent.policy_frac": 0.04088577187905349, "timer/agent.policy_avg": 0.008553776784045758, "timer/agent.policy_min": 0.005684852600097656, "timer/agent.policy_max": 1.1715807914733887, "timer/dataset_count": 720.0, "timer/dataset_total": 0.06184792518615723, "timer/dataset_frac": 0.00020515185223310566, "timer/dataset_avg": 8.589989609188503e-05, "timer/dataset_min": 5.888938903808594e-05, "timer/dataset_max": 0.0032160282135009766, "timer/agent.train_count": 720.0, "timer/agent.train_total": 267.7574336528778, "timer/agent.train_frac": 0.8881612972097792, "timer/agent.train_avg": 0.37188532451788586, "timer/agent.train_min": 0.3637888431549072, "timer/agent.train_max": 0.7979292869567871, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21759939193725586, "timer/agent.report_frac": 0.000721785220221374, "timer/agent.report_avg": 0.21759939193725586, "timer/agent.report_min": 0.21759939193725586, "timer/agent.report_max": 0.21759939193725586, "fps": 4.77973709946828}
{"step": 1063552, "episode/length": 208.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000058114529, "episode/reward_rate": 0.07177033492822966}
{"step": 1063711, "episode/length": 158.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.100000038743019, "episode/reward_rate": 0.0880503144654088}
{"step": 1063801, "episode/length": 89.0, "episode/score": 6.100000023841858, "episode/sum_abs_reward": 8.300000011920929, "episode/reward_rate": 0.08888888888888889}
{"step": 1064030, "episode/length": 228.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.06550218340611354}
{"step": 1064213, "episode/length": 182.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.07103825136612021}
{"step": 1064491, "episode/length": 277.0, "episode/score": 13.100000023841858, "episode/sum_abs_reward": 15.700000017881393, "episode/reward_rate": 0.0539568345323741}
{"step": 1064682, "episode/length": 190.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.06282722513089005}
{"step": 1064797, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.3579601711697045, "train/action_min": 0.0, "train/action_std": 3.2085223926438227, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03853810578584671, "train/actor_opt_grad_steps": 531485.0, "train/actor_opt_loss": -12.408141697860426, "train/adv_mag": 0.4021858010027144, "train/adv_max": 0.32087111059162354, "train/adv_mean": 0.0014994234709067517, "train/adv_min": -0.36934695827464264, "train/adv_std": 0.043206040643983416, "train/cont_avg": 0.9947374131944444, "train/cont_loss_mean": 2.2662152982238444e-05, "train/cont_loss_std": 0.0006071376806949678, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0003054529465059809, "train/cont_pos_acc": 0.9999999759925736, "train/cont_pos_loss": 2.1608158636215397e-05, "train/cont_pred": 0.9947192197044691, "train/cont_rate": 0.9947374131944444, "train/dyn_loss_mean": 5.730981859895918, "train/dyn_loss_std": 8.980094803704155, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9209020394417975, "train/extr_critic_critic_opt_grad_steps": 531485.0, "train/extr_critic_critic_opt_loss": 15385.217190212674, "train/extr_critic_mag": 12.456415176391602, "train/extr_critic_max": 12.456415176391602, "train/extr_critic_mean": 3.8829402459992304, "train/extr_critic_min": -0.3483029438389672, "train/extr_critic_std": 2.996717436446084, "train/extr_return_normed_mag": 1.3840254329972796, "train/extr_return_normed_max": 1.3840254329972796, "train/extr_return_normed_mean": 0.4051986067659325, "train/extr_return_normed_min": -0.07534691970795393, "train/extr_return_normed_std": 0.3163053581698073, "train/extr_return_rate": 0.8641276450620757, "train/extr_return_raw_mag": 13.239615241686503, "train/extr_return_raw_max": 13.239615241686503, "train/extr_return_raw_mean": 3.8972541160053678, "train/extr_return_raw_min": -0.6894028708338737, "train/extr_return_raw_std": 3.0192521942986383, "train/extr_reward_mag": 1.0787368814150493, "train/extr_reward_max": 1.0787368814150493, "train/extr_reward_mean": 0.06386981345713139, "train/extr_reward_min": -0.5957737035221524, "train/extr_reward_std": 0.2429373622354534, "train/image_loss_mean": 3.3234413497977786, "train/image_loss_std": 8.702350152863396, "train/model_loss_mean": 6.823017305798, "train/model_loss_std": 12.884468674659729, "train/model_opt_grad_norm": 22.589231371879578, "train/model_opt_grad_steps": 531049.8194444445, "train/model_opt_loss": 17502.087944878473, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2569.4444444444443, "train/policy_entropy_mag": 2.6864747173256345, "train/policy_entropy_max": 2.6864747173256345, "train/policy_entropy_mean": 0.39096449832949376, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.600438533971707, "train/policy_logprob_mag": 7.438384274641673, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38998641404840684, "train/policy_logprob_min": -7.438384274641673, "train/policy_logprob_std": 1.0184710787402258, "train/policy_randomness_mag": 0.9482076838612556, "train/policy_randomness_max": 0.9482076838612556, "train/policy_randomness_mean": 0.13799331171645057, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21192845236510038, "train/post_ent_mag": 55.38312519921197, "train/post_ent_max": 55.38312519921197, "train/post_ent_mean": 40.3303034040663, "train/post_ent_min": 19.805657532480026, "train/post_ent_std": 5.834613528516558, "train/prior_ent_mag": 76.71627955966525, "train/prior_ent_max": 76.71627955966525, "train/prior_ent_mean": 46.057331244150795, "train/prior_ent_min": 27.76904747221205, "train/prior_ent_std": 7.935433195696937, "train/rep_loss_mean": 5.730981859895918, "train/rep_loss_std": 8.980094803704155, "train/reward_avg": 0.0452975802278767, "train/reward_loss_mean": 0.06096413995449742, "train/reward_loss_std": 0.22667992094324696, "train/reward_max_data": 1.0347222305006452, "train/reward_max_pred": 1.0334512690703075, "train/reward_neg_acc": 0.9933743609322442, "train/reward_neg_loss": 0.025967882842653327, "train/reward_pos_acc": 0.9886345391472181, "train/reward_pos_loss": 0.7269160192873743, "train/reward_pred": 0.044945583368341126, "train/reward_rate": 0.04994032118055555, "stats/sum_log_reward": 11.814285959516253, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 13.857142857142858, "stats/max_log_achievement_collect_wood": 11.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.7142857142857142, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.5714285714285714, "stats/max_log_achievement_make_stone_sword": 0.7142857142857143, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.7142857142857142, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 3.142857142857143, "stats/max_log_achievement_place_table": 3.142857142857143, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.3226098758833749, "replay/size": 1000000.0, "replay/inserts": 1453.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.2879776242512798e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3318809551254756e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.040549993515, "timer/env.step_count": 1453.0, "timer/env.step_total": 18.562814712524414, "timer/env.step_frac": 0.06186768659411411, "timer/env.step_avg": 0.012775509093272136, "timer/env.step_min": 0.002773284912109375, "timer/env.step_max": 1.5940594673156738, "timer/replay.add_count": 1453.0, "timer/replay.add_total": 0.2858247756958008, "timer/replay.add_frac": 0.0009526204898037232, "timer/replay.add_avg": 0.00019671354142863096, "timer/replay.add_min": 7.653236389160156e-05, "timer/replay.add_max": 0.004639863967895508, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03551959991455078, "timer/logger.write_frac": 0.00011838266499417659, "timer/logger.write_avg": 0.03551959991455078, "timer/logger.write_min": 0.03551959991455078, "timer/logger.write_max": 0.03551959991455078, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1453.0, "timer/agent.policy_total": 10.686085939407349, "timer/agent.policy_frac": 0.03561547244076947, "timer/agent.policy_avg": 0.00735449823772013, "timer/agent.policy_min": 0.005776643753051758, "timer/agent.policy_max": 0.014674663543701172, "timer/dataset_count": 727.0, "timer/dataset_total": 0.05838632583618164, "timer/dataset_frac": 0.00019459478339658952, "timer/dataset_avg": 8.031131476778768e-05, "timer/dataset_min": 5.936622619628906e-05, "timer/dataset_max": 0.0001430511474609375, "timer/agent.train_count": 727.0, "timer/agent.train_total": 269.7535455226898, "timer/agent.train_frac": 0.8990569625622943, "timer/agent.train_avg": 0.37105026894455273, "timer/agent.train_min": 0.36413145065307617, "timer/agent.train_max": 0.3857550621032715, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21948909759521484, "timer/agent.report_frac": 0.0007315314466659884, "timer/agent.report_avg": 0.21948909759521484, "timer/agent.report_min": 0.21948909759521484, "timer/agent.report_max": 0.21948909759521484, "fps": 4.842585627187565}
{"step": 1064919, "episode/length": 236.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.05485232067510549}
{"step": 1065130, "episode/length": 210.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.061611374407582936}
{"step": 1065304, "episode/length": 173.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.07471264367816093}
{"step": 1065673, "episode/length": 368.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 16.10000005364418, "episode/reward_rate": 0.037940379403794036}
{"step": 1065861, "episode/length": 187.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.0797872340425532}
{"step": 1066033, "episode/length": 171.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.0872093023255814}
{"step": 1066259, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4010207717483105, "train/action_min": 0.0, "train/action_std": 3.264322458086787, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03829374149240352, "train/actor_opt_grad_steps": 532215.0, "train/actor_opt_loss": -12.141406412462931, "train/adv_mag": 0.397836633630701, "train/adv_max": 0.33215821010840907, "train/adv_mean": 0.0017975033432702657, "train/adv_min": -0.3630028040827932, "train/adv_std": 0.04258575109211174, "train/cont_avg": 0.9956846494932432, "train/cont_loss_mean": 0.00019040821326860174, "train/cont_loss_std": 0.006030977380679649, "train/cont_neg_acc": 0.9927701680627588, "train/cont_neg_loss": 0.03093638296777133, "train/cont_pos_acc": 0.9999867701852644, "train/cont_pos_loss": 2.5317719201064244e-05, "train/cont_pred": 0.9957034209290067, "train/cont_rate": 0.9956846494932432, "train/dyn_loss_mean": 5.742858351887883, "train/dyn_loss_std": 8.911884913573394, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8985518515110016, "train/extr_critic_critic_opt_grad_steps": 532215.0, "train/extr_critic_critic_opt_loss": 15380.781315983953, "train/extr_critic_mag": 12.275369360640243, "train/extr_critic_max": 12.275369360640243, "train/extr_critic_mean": 3.7315201114963843, "train/extr_critic_min": -0.2965348008516672, "train/extr_critic_std": 2.814402354730142, "train/extr_return_normed_mag": 1.3807262874938346, "train/extr_return_normed_max": 1.3807262874938346, "train/extr_return_normed_mean": 0.3938310512819806, "train/extr_return_normed_min": -0.07120402648138839, "train/extr_return_normed_std": 0.3019717724339382, "train/extr_return_rate": 0.8717756311635714, "train/extr_return_raw_mag": 13.029543786435514, "train/extr_return_raw_max": 13.029543786435514, "train/extr_return_raw_mean": 3.748415222039094, "train/extr_return_raw_min": -0.6242145799301766, "train/extr_return_raw_std": 2.8396637681368233, "train/extr_reward_mag": 1.0766112643319208, "train/extr_reward_max": 1.0766112643319208, "train/extr_reward_mean": 0.061320222259776014, "train/extr_reward_min": -0.5706194075378211, "train/extr_reward_std": 0.23749425362896276, "train/image_loss_mean": 3.3895187265164144, "train/image_loss_std": 8.765956388937461, "train/model_loss_mean": 6.893148931297096, "train/model_loss_std": 12.912358735058758, "train/model_opt_grad_norm": 21.794525185146846, "train/model_opt_grad_steps": 531779.0, "train/model_opt_loss": 17232.872255067567, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7004354290060095, "train/policy_entropy_max": 2.7004354290060095, "train/policy_entropy_mean": 0.3921425876182479, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6036906032948881, "train/policy_logprob_mag": 7.4383842751786515, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.392574891850755, "train/policy_logprob_min": -7.4383842751786515, "train/policy_logprob_std": 1.0254149308075775, "train/policy_randomness_mag": 0.9531351996434702, "train/policy_randomness_max": 0.9531351996434702, "train/policy_randomness_mean": 0.13840912554312396, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21307628883703336, "train/post_ent_mag": 55.30654850521603, "train/post_ent_max": 55.30654850521603, "train/post_ent_mean": 40.23007815592998, "train/post_ent_min": 19.669064032064902, "train/post_ent_std": 5.858701390189093, "train/prior_ent_mag": 76.8528653737661, "train/prior_ent_max": 76.8528653737661, "train/prior_ent_mean": 45.98270034790039, "train/prior_ent_min": 27.719021204355602, "train/prior_ent_std": 7.900899635778891, "train/rep_loss_mean": 5.742858351887883, "train/rep_loss_std": 8.911884913573394, "train/reward_avg": 0.043468908129914385, "train/reward_loss_mean": 0.05772485634362375, "train/reward_loss_std": 0.21741556356082092, "train/reward_max_data": 1.0283783851443111, "train/reward_max_pred": 1.0297227389103658, "train/reward_neg_acc": 0.9933260389276453, "train/reward_neg_loss": 0.02439633965794299, "train/reward_pos_acc": 0.9911672835414475, "train/reward_pos_loss": 0.7226695160608034, "train/reward_pred": 0.04326672361207169, "train/reward_rate": 0.04768000422297297, "stats/sum_log_reward": 12.93333355585734, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 20.0, "stats/max_log_achievement_collect_wood": 12.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.6666666666666665, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_stone": 2.8333333333333335, "stats/max_log_achievement_place_table": 2.8333333333333335, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.36923079937696457, "replay/size": 1000000.0, "replay/inserts": 1462.0, "replay/samples": 11696.0, "replay/insert_wait_avg": 3.3964047516745844e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3188444964699805e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.20236229896545, "timer/env.step_count": 1462.0, "timer/env.step_total": 17.015339374542236, "timer/env.step_frac": 0.05667956522472999, "timer/env.step_avg": 0.01163839902499469, "timer/env.step_min": 0.0026793479919433594, "timer/env.step_max": 1.544823408126831, "timer/replay.add_count": 1462.0, "timer/replay.add_total": 0.2936866283416748, "timer/replay.add_frac": 0.0009782955273656315, "timer/replay.add_avg": 0.0002008800467453316, "timer/replay.add_min": 7.677078247070312e-05, "timer/replay.add_max": 0.003847360610961914, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.020842552185058594, "timer/logger.write_frac": 6.942834168740457e-05, "timer/logger.write_avg": 0.020842552185058594, "timer/logger.write_min": 0.020842552185058594, "timer/logger.write_max": 0.020842552185058594, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1462.0, "timer/agent.policy_total": 10.759017705917358, "timer/agent.policy_frac": 0.03583921733168332, "timer/agent.policy_avg": 0.00735910923797357, "timer/agent.policy_min": 0.005657196044921875, "timer/agent.policy_max": 0.014747381210327148, "timer/dataset_count": 731.0, "timer/dataset_total": 0.059609413146972656, "timer/dataset_frac": 0.00019856410419451945, "timer/dataset_avg": 8.154502482486e-05, "timer/dataset_min": 6.0558319091796875e-05, "timer/dataset_max": 0.0001518726348876953, "timer/agent.train_count": 731.0, "timer/agent.train_total": 271.3834140300751, "timer/agent.train_frac": 0.9040015939641735, "timer/agent.train_avg": 0.3712495403968195, "timer/agent.train_min": 0.36423277854919434, "timer/agent.train_max": 0.38571953773498535, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22080349922180176, "timer/agent.report_frac": 0.0007355155286949675, "timer/agent.report_avg": 0.22080349922180176, "timer/agent.report_min": 0.22080349922180176, "timer/agent.report_max": 0.22080349922180176, "fps": 4.869962678665528}
{"step": 1066264, "episode/length": 230.0, "episode/score": 14.100000031292439, "episode/sum_abs_reward": 16.100000090897083, "episode/reward_rate": 0.06926406926406926}
{"step": 1066804, "episode/length": 539.0, "episode/score": 17.099999986588955, "episode/sum_abs_reward": 20.500000037252903, "episode/reward_rate": 0.03333333333333333}
{"step": 1067289, "episode/length": 484.0, "episode/score": 16.099999986588955, "episode/sum_abs_reward": 19.10000003129244, "episode/reward_rate": 0.03505154639175258}
{"step": 1067551, "episode/length": 261.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.05343511450381679}
{"step": 1067713, "stats/sum_log_reward": 15.100000381469727, "stats/max_log_achievement_collect_coal": 1.5, "stats/max_log_achievement_collect_drink": 8.75, "stats/max_log_achievement_collect_iron": 0.25, "stats/max_log_achievement_collect_sapling": 3.25, "stats/max_log_achievement_collect_stone": 20.25, "stats/max_log_achievement_collect_wood": 15.5, "stats/max_log_achievement_defeat_skeleton": 0.25, "stats/max_log_achievement_defeat_zombie": 2.25, "stats/max_log_achievement_eat_cow": 0.75, "stats/max_log_achievement_make_iron_sword": 0.25, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.75, "stats/max_log_achievement_make_wood_pickaxe": 1.25, "stats/max_log_achievement_make_wood_sword": 1.5, "stats/max_log_achievement_place_furnace": 2.25, "stats/max_log_achievement_place_plant": 2.75, "stats/max_log_achievement_place_stone": 7.0, "stats/max_log_achievement_place_table": 4.5, "stats/max_log_achievement_wake_up": 2.5, "stats/mean_log_entropy": 0.8714424595236778, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.405712551540798, "train/action_min": 0.0, "train/action_std": 3.285615642865499, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03810171097413533, "train/actor_opt_grad_steps": 532945.0, "train/actor_opt_loss": -11.058976914319727, "train/adv_mag": 0.4007965674002965, "train/adv_max": 0.33528350128067863, "train/adv_mean": 0.0020647509588292857, "train/adv_min": -0.3627783769948615, "train/adv_std": 0.042407536465260715, "train/cont_avg": 0.9950900607638888, "train/cont_loss_mean": 0.0001541165180288178, "train/cont_loss_std": 0.004800070983073902, "train/cont_neg_acc": 0.9953703714741601, "train/cont_neg_loss": 0.023558650641968073, "train/cont_pos_acc": 0.9999999834431542, "train/cont_pos_loss": 1.6330534013064835e-05, "train/cont_pred": 0.9951012267006768, "train/cont_rate": 0.9950900607638888, "train/dyn_loss_mean": 5.741979393694136, "train/dyn_loss_std": 8.90912291738722, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9067861114939054, "train/extr_critic_critic_opt_grad_steps": 532945.0, "train/extr_critic_critic_opt_loss": 15295.040134006076, "train/extr_critic_mag": 12.517668459150526, "train/extr_critic_max": 12.517668459150526, "train/extr_critic_mean": 3.8980606529447765, "train/extr_critic_min": -0.34104375541210175, "train/extr_critic_std": 2.950894776317808, "train/extr_return_normed_mag": 1.385286529858907, "train/extr_return_normed_max": 1.385286529858907, "train/extr_return_normed_mean": 0.4053944612128867, "train/extr_return_normed_min": -0.0723149547767308, "train/extr_return_normed_std": 0.31224011360771126, "train/extr_return_rate": 0.8627884950902727, "train/extr_return_raw_mag": 13.26583402686649, "train/extr_return_raw_max": 13.26583402686649, "train/extr_return_raw_mean": 3.9177869690789118, "train/extr_return_raw_min": -0.6407815031707287, "train/extr_return_raw_std": 2.9792809850639768, "train/extr_reward_mag": 1.0739095045460596, "train/extr_reward_max": 1.0739095045460596, "train/extr_reward_mean": 0.06471400669155021, "train/extr_reward_min": -0.5514374805821313, "train/extr_reward_std": 0.24318657546407646, "train/image_loss_mean": 3.3922000494268207, "train/image_loss_std": 9.001817815833622, "train/model_loss_mean": 6.898497250345018, "train/model_loss_std": 13.12749641471439, "train/model_opt_grad_norm": 20.29730846484502, "train/model_opt_grad_steps": 532508.2361111111, "train/model_opt_loss": 18210.908596462672, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2638.8888888888887, "train/policy_entropy_mag": 2.7059801618258157, "train/policy_entropy_max": 2.7059801618258157, "train/policy_entropy_mean": 0.41164859881003696, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6281929649412632, "train/policy_logprob_mag": 7.438384268018934, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41195257421996856, "train/policy_logprob_min": -7.438384268018934, "train/policy_logprob_std": 1.0417248788807127, "train/policy_randomness_mag": 0.9550922455059158, "train/policy_randomness_max": 0.9550922455059158, "train/policy_randomness_mean": 0.14529389111946026, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22172454972234037, "train/post_ent_mag": 55.559549278683136, "train/post_ent_max": 55.559549278683136, "train/post_ent_mean": 40.22376743952433, "train/post_ent_min": 19.803914546966553, "train/post_ent_std": 5.828524602784051, "train/prior_ent_mag": 76.68815528021918, "train/prior_ent_max": 76.68815528021918, "train/prior_ent_mean": 46.01168171564738, "train/prior_ent_min": 28.12262111239963, "train/prior_ent_std": 7.95182282394833, "train/rep_loss_mean": 5.741979393694136, "train/rep_loss_std": 8.90912291738722, "train/reward_avg": 0.04631483231464194, "train/reward_loss_mean": 0.06095544176383151, "train/reward_loss_std": 0.22806557681825426, "train/reward_max_data": 1.0263888951804903, "train/reward_max_pred": 1.0267572320169873, "train/reward_neg_acc": 0.9926790570219358, "train/reward_neg_loss": 0.0253946223270355, "train/reward_pos_acc": 0.988385328816043, "train/reward_pos_loss": 0.731423536936442, "train/reward_pred": 0.045939207490947515, "train/reward_rate": 0.050591362847222224, "replay/size": 1000000.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.3891840518914687e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.345757277172566e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2384638786316, "timer/env.step_count": 1454.0, "timer/env.step_total": 16.510478019714355, "timer/env.step_frac": 0.054991215337381126, "timer/env.step_avg": 0.011355211842994742, "timer/env.step_min": 0.0029604434967041016, "timer/env.step_max": 1.8231689929962158, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.2938969135284424, "timer/replay.add_frac": 0.000978878288050552, "timer/replay.add_avg": 0.00020212992677334413, "timer/replay.add_min": 7.557868957519531e-05, "timer/replay.add_max": 0.001870870590209961, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.032301902770996094, "timer/logger.write_frac": 0.00010758749013602007, "timer/logger.write_avg": 0.032301902770996094, "timer/logger.write_min": 0.032301902770996094, "timer/logger.write_max": 0.032301902770996094, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00017023086547851562, "timer/checkpoint.save_frac": 5.669855330306038e-07, "timer/checkpoint.save_avg": 0.00017023086547851562, "timer/checkpoint.save_min": 0.00017023086547851562, "timer/checkpoint.save_max": 0.00017023086547851562, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1965267658233643, "timer/agent.save_frac": 0.003985254755057128, "timer/agent.save_avg": 1.1965267658233643, "timer/agent.save_min": 1.1965267658233643, "timer/agent.save_max": 1.1965267658233643, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.2479248046875e-05, "timer/replay.save_frac": 2.4140560509986495e-07, "timer/replay.save_avg": 7.2479248046875e-05, "timer/replay.save_min": 7.2479248046875e-05, "timer/replay.save_max": 7.2479248046875e-05, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 12.655768394470215, "timer/agent.policy_frac": 0.04215238857465706, "timer/agent.policy_avg": 0.008704104810502211, "timer/agent.policy_min": 0.005628347396850586, "timer/agent.policy_max": 1.1899120807647705, "timer/dataset_count": 727.0, "timer/dataset_total": 0.05904817581176758, "timer/dataset_frac": 0.0001966709230021814, "timer/dataset_avg": 8.12216998786349e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.00013828277587890625, "timer/agent.train_count": 727.0, "timer/agent.train_total": 270.0294225215912, "timer/agent.train_frac": 0.8993831737386849, "timer/agent.train_avg": 0.3714297421204831, "timer/agent.train_min": 0.3640751838684082, "timer/agent.train_max": 0.819831371307373, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22071146965026855, "timer/agent.report_frac": 0.0007351205664957338, "timer/agent.report_avg": 0.22071146965026855, "timer/agent.report_min": 0.22071146965026855, "timer/agent.report_max": 0.22071146965026855, "fps": 4.842664080405027}
{"step": 1067781, "episode/length": 229.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.06521739130434782}
{"step": 1068040, "episode/length": 258.0, "episode/score": 15.100000008940697, "episode/sum_abs_reward": 17.700000002980232, "episode/reward_rate": 0.06563706563706563}
{"step": 1068332, "episode/length": 291.0, "episode/score": 17.099999986588955, "episode/sum_abs_reward": 20.30000003427267, "episode/reward_rate": 0.06164383561643835}
{"step": 1068537, "episode/length": 204.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.06341463414634146}
{"step": 1068758, "episode/length": 220.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.06334841628959276}
{"step": 1068926, "episode/length": 167.0, "episode/score": 12.099999979138374, "episode/sum_abs_reward": 13.900000005960464, "episode/reward_rate": 0.07738095238095238}
{"step": 1069087, "episode/length": 160.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.700000002980232, "episode/reward_rate": 0.09316770186335403}
{"step": 1069165, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.391930149026113, "train/action_min": 0.0, "train/action_std": 3.258648692745052, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03706807676345518, "train/actor_opt_grad_steps": 533670.0, "train/actor_opt_loss": -12.676862386808004, "train/adv_mag": 0.37362665203336165, "train/adv_max": 0.321385458928265, "train/adv_mean": 0.0018118049695048074, "train/adv_min": -0.3431882948091585, "train/adv_std": 0.04209140279929932, "train/cont_avg": 0.9951171875, "train/cont_loss_mean": 8.587213204088104e-05, "train/cont_loss_std": 0.002640013290601928, "train/cont_neg_acc": 0.9963307250035952, "train/cont_neg_loss": 0.0076200377773446735, "train/cont_pos_acc": 0.9999999820369564, "train/cont_pos_loss": 3.1934437991667873e-05, "train/cont_pred": 0.9951151470615439, "train/cont_rate": 0.9951171875, "train/dyn_loss_mean": 5.654763665917802, "train/dyn_loss_std": 8.908906564320603, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9016243382676007, "train/extr_critic_critic_opt_grad_steps": 533670.0, "train/extr_critic_critic_opt_loss": 15234.950757170376, "train/extr_critic_mag": 12.291489013253827, "train/extr_critic_max": 12.291489013253827, "train/extr_critic_mean": 3.8755235476036596, "train/extr_critic_min": -0.3167198504487129, "train/extr_critic_std": 2.9358433795301884, "train/extr_return_normed_mag": 1.363035366959768, "train/extr_return_normed_max": 1.363035366959768, "train/extr_return_normed_mean": 0.4033472942162866, "train/extr_return_normed_min": -0.07484068951174004, "train/extr_return_normed_std": 0.31210790656200826, "train/extr_return_rate": 0.8689738952950256, "train/extr_return_raw_mag": 13.007351548704383, "train/extr_return_raw_max": 13.007351548704383, "train/extr_return_raw_mean": 3.8927127759750575, "train/extr_return_raw_min": -0.6486761639379475, "train/extr_return_raw_std": 2.9641696165685785, "train/extr_reward_mag": 1.0788550605512646, "train/extr_reward_max": 1.0788550605512646, "train/extr_reward_mean": 0.062425156774586196, "train/extr_reward_min": -0.5835980356556095, "train/extr_reward_std": 0.23958272599194147, "train/image_loss_mean": 3.335236560808469, "train/image_loss_std": 8.584144755585553, "train/model_loss_mean": 6.79002223602713, "train/model_loss_std": 12.704947837411542, "train/model_opt_grad_norm": 21.634463787078857, "train/model_opt_grad_steps": 533232.698630137, "train/model_opt_loss": 18526.832004494863, "train/model_opt_model_opt_grad_overflow": 0.0136986301369863, "train/model_opt_model_opt_grad_scale": 2705.4794520547944, "train/policy_entropy_mag": 2.7095780993161136, "train/policy_entropy_max": 2.7095780993161136, "train/policy_entropy_mean": 0.4043440794291562, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6184581318130232, "train/policy_logprob_mag": 7.438384258583801, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40416078432782054, "train/policy_logprob_min": -7.438384258583801, "train/policy_logprob_std": 1.0325195862822336, "train/policy_randomness_mag": 0.9563621658168427, "train/policy_randomness_max": 0.9563621658168427, "train/policy_randomness_mean": 0.14271571670901284, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21828858064462062, "train/post_ent_mag": 55.50573929042032, "train/post_ent_max": 55.50573929042032, "train/post_ent_mean": 40.3014764132565, "train/post_ent_min": 19.60450054848031, "train/post_ent_std": 5.819851248231653, "train/prior_ent_mag": 76.72487096917139, "train/prior_ent_max": 76.72487096917139, "train/prior_ent_mean": 45.97311944830908, "train/prior_ent_min": 27.733288255456376, "train/prior_ent_std": 7.8652039423380815, "train/rep_loss_mean": 5.654763665917802, "train/rep_loss_std": 8.908906564320603, "train/reward_avg": 0.04683486714142643, "train/reward_loss_mean": 0.061841682365087615, "train/reward_loss_std": 0.2219851019039546, "train/reward_max_data": 1.0342465835074857, "train/reward_max_pred": 1.030783421372714, "train/reward_neg_acc": 0.9923062896075314, "train/reward_neg_loss": 0.026350294176029833, "train/reward_pos_acc": 0.990246546595064, "train/reward_pos_loss": 0.723980576208193, "train/reward_pred": 0.04640374294392867, "train/reward_rate": 0.051088934075342464, "stats/sum_log_reward": 13.81428609575544, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 2.5714285714285716, "stats/max_log_achievement_collect_iron": 0.14285714285714285, "stats/max_log_achievement_collect_sapling": 2.142857142857143, "stats/max_log_achievement_collect_stone": 16.142857142857142, "stats/max_log_achievement_collect_wood": 14.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 2.142857142857143, "stats/max_log_achievement_eat_cow": 0.42857142857142855, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.4285714285714286, "stats/max_log_achievement_make_stone_sword": 1.4285714285714286, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.8571428571428572, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 3.857142857142857, "stats/max_log_achievement_place_table": 3.7142857142857144, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.4423651397228241, "replay/size": 1000000.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.339666308778705e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3212568175365773e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.15439915657043, "timer/env.step_count": 1452.0, "timer/env.step_total": 19.032764434814453, "timer/env.step_frac": 0.06340991332559592, "timer/env.step_avg": 0.013107964486786814, "timer/env.step_min": 0.0027921199798583984, "timer/env.step_max": 1.7013130187988281, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.2934443950653076, "timer/replay.add_frac": 0.000977644825096291, "timer/replay.add_avg": 0.00020209669081632756, "timer/replay.add_min": 7.796287536621094e-05, "timer/replay.add_max": 0.004983663558959961, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03519153594970703, "timer/logger.write_frac": 0.00011724477818281105, "timer/logger.write_avg": 0.03519153594970703, "timer/logger.write_min": 0.03519153594970703, "timer/logger.write_max": 0.03519153594970703, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 10.723070859909058, "timer/agent.policy_frac": 0.03572518307258109, "timer/agent.policy_avg": 0.007385035027485577, "timer/agent.policy_min": 0.005752086639404297, "timer/agent.policy_max": 0.01880359649658203, "timer/dataset_count": 726.0, "timer/dataset_total": 0.05956840515136719, "timer/dataset_frac": 0.00019845921072206022, "timer/dataset_avg": 8.205014483659392e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.00016117095947265625, "timer/agent.train_count": 726.0, "timer/agent.train_total": 269.34891843795776, "timer/agent.train_frac": 0.8973678853111078, "timer/agent.train_avg": 0.37100401988699416, "timer/agent.train_min": 0.3641953468322754, "timer/agent.train_max": 0.383533239364624, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21739959716796875, "timer/agent.report_frac": 0.0007242925566936833, "timer/agent.report_avg": 0.21739959716796875, "timer/agent.report_min": 0.21739959716796875, "timer/agent.report_max": 0.21739959716796875, "fps": 4.83740326161585}
{"step": 1069333, "episode/length": 245.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.056910569105691054}
{"step": 1069530, "episode/length": 196.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.08121827411167512}
{"step": 1069788, "episode/length": 257.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.05813953488372093}
{"step": 1070029, "episode/length": 240.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 17.500000037252903, "episode/reward_rate": 0.06639004149377593}
{"step": 1070203, "episode/length": 173.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.07471264367816093}
{"step": 1070388, "episode/length": 184.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.07567567567567568}
{"step": 1070601, "episode/length": 212.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.07042253521126761}
{"step": 1070619, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.397079676797945, "train/action_min": 0.0, "train/action_std": 3.20972866228182, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.037714901877796816, "train/actor_opt_grad_steps": 534400.0, "train/actor_opt_loss": -9.829738272328491, "train/adv_mag": 0.4245379836591956, "train/adv_max": 0.3462047717750889, "train/adv_mean": 0.0024725374757869996, "train/adv_min": -0.36536182218218505, "train/adv_std": 0.042381106633437825, "train/cont_avg": 0.9955854023972602, "train/cont_loss_mean": 9.646017183131771e-05, "train/cont_loss_std": 0.0029241022466428386, "train/cont_neg_acc": 0.9942129635148578, "train/cont_neg_loss": 0.01665753930211173, "train/cont_pos_acc": 0.9999865611938581, "train/cont_pos_loss": 2.464901380259973e-05, "train/cont_pred": 0.9955906965961195, "train/cont_rate": 0.9955854023972602, "train/dyn_loss_mean": 5.5568488721978175, "train/dyn_loss_std": 8.852874194106011, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9101510488823669, "train/extr_critic_critic_opt_grad_steps": 534400.0, "train/extr_critic_critic_opt_loss": 15319.983545590754, "train/extr_critic_mag": 12.468631666000576, "train/extr_critic_max": 12.468631666000576, "train/extr_critic_mean": 3.875153855101703, "train/extr_critic_min": -0.28990704066132844, "train/extr_critic_std": 2.8997593138315905, "train/extr_return_normed_mag": 1.3794156116982028, "train/extr_return_normed_max": 1.3794156116982028, "train/extr_return_normed_mean": 0.40048607408183895, "train/extr_return_normed_min": -0.07763708132791193, "train/extr_return_normed_std": 0.30731301152542845, "train/extr_return_rate": 0.8758258868570197, "train/extr_return_raw_mag": 13.248178599631949, "train/extr_return_raw_max": 13.248178599631949, "train/extr_return_raw_mean": 3.898818470027349, "train/extr_return_raw_min": -0.6662583710396126, "train/extr_return_raw_std": 2.934859220295736, "train/extr_reward_mag": 1.0755046426433406, "train/extr_reward_max": 1.0755046426433406, "train/extr_reward_mean": 0.06351217025355117, "train/extr_reward_min": -0.5918981555390032, "train/extr_reward_std": 0.2417826242234609, "train/image_loss_mean": 3.3904355029537254, "train/image_loss_std": 8.489550355362566, "train/model_loss_mean": 6.782578644687182, "train/model_loss_std": 12.564947324256375, "train/model_opt_grad_norm": 21.68015301064269, "train/model_opt_grad_steps": 533961.6164383561, "train/model_opt_loss": 13734.289878531677, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2020.5479452054794, "train/policy_entropy_mag": 2.6987158239704288, "train/policy_entropy_max": 2.6987158239704288, "train/policy_entropy_mean": 0.38767626003859795, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5948916400132114, "train/policy_logprob_mag": 7.438384284711864, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3870457912961098, "train/policy_logprob_min": -7.438384284711864, "train/policy_logprob_std": 1.0183375902371863, "train/policy_randomness_mag": 0.9525282570760544, "train/policy_randomness_max": 0.9525282570760544, "train/policy_randomness_mean": 0.13683270887561041, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20997064162607063, "train/post_ent_mag": 55.439788243541976, "train/post_ent_max": 55.439788243541976, "train/post_ent_mean": 40.33028678371482, "train/post_ent_min": 19.48528417822433, "train/post_ent_std": 5.87644243893558, "train/prior_ent_mag": 76.7795870010167, "train/prior_ent_max": 76.7795870010167, "train/prior_ent_mean": 45.86972469173065, "train/prior_ent_min": 27.692864352709627, "train/prior_ent_std": 7.831603821009805, "train/rep_loss_mean": 5.5568488721978175, "train/rep_loss_std": 8.852874194106011, "train/reward_avg": 0.04485231127640973, "train/reward_loss_mean": 0.057937323332649386, "train/reward_loss_std": 0.20871656153300036, "train/reward_max_data": 1.0301369934865874, "train/reward_max_pred": 1.0279292831682179, "train/reward_neg_acc": 0.9933649097403435, "train/reward_neg_loss": 0.024178421175847314, "train/reward_pos_acc": 0.992881272753624, "train/reward_pos_loss": 0.711970276212039, "train/reward_pred": 0.04462484979670342, "train/reward_rate": 0.04898865582191781, "stats/sum_log_reward": 13.814285823277064, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 3.2857142857142856, "stats/max_log_achievement_collect_iron": 0.2857142857142857, "stats/max_log_achievement_collect_sapling": 1.8571428571428572, "stats/max_log_achievement_collect_stone": 18.571428571428573, "stats/max_log_achievement_collect_wood": 14.857142857142858, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 2.7142857142857144, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.2857142857142858, "stats/max_log_achievement_make_stone_sword": 1.7142857142857142, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.142857142857143, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 3.7142857142857144, "stats/max_log_achievement_place_table": 3.7142857142857144, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.40137547680309843, "replay/size": 1000000.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.2853883431079134e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3405715910899753e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0640959739685, "timer/env.step_count": 1454.0, "timer/env.step_total": 18.759618043899536, "timer/env.step_frac": 0.06251870282250294, "timer/env.step_avg": 0.012902075683562267, "timer/env.step_min": 0.002752065658569336, "timer/env.step_max": 1.5971970558166504, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.27279186248779297, "timer/replay.add_frac": 0.0009091119735680024, "timer/replay.add_avg": 0.00018761476099573107, "timer/replay.add_min": 7.772445678710938e-05, "timer/replay.add_max": 0.004374504089355469, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029987812042236328, "timer/logger.write_frac": 9.993802139139587e-05, "timer/logger.write_avg": 0.029987812042236328, "timer/logger.write_min": 0.029987812042236328, "timer/logger.write_max": 0.029987812042236328, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 10.802024364471436, "timer/agent.policy_frac": 0.03599905656626291, "timer/agent.policy_avg": 0.00742917769220869, "timer/agent.policy_min": 0.005868434906005859, "timer/agent.policy_max": 0.015649795532226562, "timer/dataset_count": 727.0, "timer/dataset_total": 0.05877685546875, "timer/dataset_frac": 0.00019588100095070714, "timer/dataset_avg": 8.084849445495186e-05, "timer/dataset_min": 5.8650970458984375e-05, "timer/dataset_max": 0.00015878677368164062, "timer/agent.train_count": 727.0, "timer/agent.train_total": 269.4772970676422, "timer/agent.train_frac": 0.898065782222143, "timer/agent.train_avg": 0.37067028482481734, "timer/agent.train_min": 0.36330485343933105, "timer/agent.train_max": 0.3856468200683594, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22142267227172852, "timer/agent.report_frac": 0.0007379179156807138, "timer/agent.report_avg": 0.22142267227172852, "timer/agent.report_min": 0.22142267227172852, "timer/agent.report_max": 0.22142267227172852, "fps": 4.845524015336474}
{"step": 1070780, "episode/length": 178.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 14.899999991059303, "episode/reward_rate": 0.08379888268156424}
{"step": 1070938, "episode/length": 157.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.056962025316455694}
{"step": 1071153, "episode/length": 214.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.06976744186046512}
{"step": 1071374, "episode/length": 220.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.06787330316742081}
{"step": 1071673, "episode/length": 298.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.05016722408026756}
{"step": 1071906, "episode/length": 232.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.06437768240343347}
{"step": 1072050, "episode/length": 143.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.0763888888888889}
{"step": 1072069, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.405055575900608, "train/action_min": 0.0, "train/action_std": 3.2185831566651664, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.037612145921836294, "train/actor_opt_grad_steps": 535125.0, "train/actor_opt_loss": -12.216982077600228, "train/adv_mag": 0.38195567578077316, "train/adv_max": 0.347079708137446, "train/adv_mean": 0.0017910873854513436, "train/adv_min": -0.3285010757131709, "train/adv_std": 0.04206842706642217, "train/cont_avg": 0.9948594835069444, "train/cont_loss_mean": 6.636516908741107e-05, "train/cont_loss_std": 0.00207637123820111, "train/cont_neg_acc": 0.9972222223877907, "train/cont_neg_loss": 0.010764415153871424, "train/cont_pos_acc": 0.9999999809596274, "train/cont_pos_loss": 1.3804537911986535e-05, "train/cont_pred": 0.9948609504434798, "train/cont_rate": 0.9948594835069444, "train/dyn_loss_mean": 5.660208688841926, "train/dyn_loss_std": 8.956289238399929, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8486491797698869, "train/extr_critic_critic_opt_grad_steps": 535125.0, "train/extr_critic_critic_opt_loss": 15153.12584092882, "train/extr_critic_mag": 12.529320081075033, "train/extr_critic_max": 12.529320081075033, "train/extr_critic_mean": 4.061777512232463, "train/extr_critic_min": -0.33357927534315324, "train/extr_critic_std": 3.009286903672748, "train/extr_return_normed_mag": 1.3751478476656809, "train/extr_return_normed_max": 1.3751478476656809, "train/extr_return_normed_mean": 0.41624386939737534, "train/extr_return_normed_min": -0.07699330647786458, "train/extr_return_normed_std": 0.31523517415755326, "train/extr_return_rate": 0.8836661328872045, "train/extr_return_raw_mag": 13.310489734013876, "train/extr_return_raw_max": 13.310489734013876, "train/extr_return_raw_mean": 4.079019394185808, "train/extr_return_raw_min": -0.669776826683018, "train/extr_return_raw_std": 3.034782065285577, "train/extr_reward_mag": 1.0851127472188737, "train/extr_reward_max": 1.0851127472188737, "train/extr_reward_mean": 0.06344786188047793, "train/extr_reward_min": -0.6062618113226361, "train/extr_reward_std": 0.2421694387578302, "train/image_loss_mean": 3.2537801646524005, "train/image_loss_std": 8.497206489245096, "train/model_loss_mean": 6.712473491827647, "train/model_loss_std": 12.677125506930881, "train/model_opt_grad_norm": 21.65697905752394, "train/model_opt_grad_steps": 534686.0, "train/model_opt_loss": 8390.59186469184, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.670804762177997, "train/policy_entropy_max": 2.670804762177997, "train/policy_entropy_mean": 0.3801015793449349, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5845113491846455, "train/policy_logprob_mag": 7.438384314378102, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38128583712710273, "train/policy_logprob_min": -7.438384314378102, "train/policy_logprob_std": 1.018423080444336, "train/policy_randomness_mag": 0.9426768778098954, "train/policy_randomness_max": 0.9426768778098954, "train/policy_randomness_mean": 0.1341591766104102, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20630685405598748, "train/post_ent_mag": 55.2020837465922, "train/post_ent_max": 55.2020837465922, "train/post_ent_mean": 40.162050088246666, "train/post_ent_min": 19.608627769682144, "train/post_ent_std": 5.715715825557709, "train/prior_ent_mag": 76.8283814324273, "train/prior_ent_max": 76.8283814324273, "train/prior_ent_mean": 45.79578897688124, "train/prior_ent_min": 28.00651741027832, "train/prior_ent_std": 7.841274393929376, "train/rep_loss_mean": 5.660208688841926, "train/rep_loss_std": 8.956289238399929, "train/reward_avg": 0.045760090850914516, "train/reward_loss_mean": 0.06250177861915694, "train/reward_loss_std": 0.2297512139711115, "train/reward_max_data": 1.036111119720671, "train/reward_max_pred": 1.0357979635397594, "train/reward_neg_acc": 0.9925974119040701, "train/reward_neg_loss": 0.02690881891693506, "train/reward_pos_acc": 0.9873455878761079, "train/reward_pos_loss": 0.7326717252532641, "train/reward_pred": 0.045323622697550386, "train/reward_rate": 0.050469292534722224, "stats/sum_log_reward": 12.242857388087682, "stats/max_log_achievement_collect_coal": 0.42857142857142855, "stats/max_log_achievement_collect_drink": 2.7142857142857144, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 19.428571428571427, "stats/max_log_achievement_collect_wood": 12.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.2857142857142858, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.8571428571428571, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 2.2857142857142856, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 2.7142857142857144, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.39766979430403027, "replay/size": 1000000.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.3784734791722793e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3128025778408709e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.02480936050415, "timer/env.step_count": 1450.0, "timer/env.step_total": 19.053267002105713, "timer/env.step_frac": 0.06350563822610972, "timer/env.step_avg": 0.01314018413938325, "timer/env.step_min": 0.0028171539306640625, "timer/env.step_max": 1.7302038669586182, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.2976572513580322, "timer/replay.add_frac": 0.0009921087925777927, "timer/replay.add_avg": 0.00020528086300553947, "timer/replay.add_min": 7.271766662597656e-05, "timer/replay.add_max": 0.0045244693756103516, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0230712890625, "timer/logger.write_frac": 7.689793757948189e-05, "timer/logger.write_avg": 0.0230712890625, "timer/logger.write_min": 0.0230712890625, "timer/logger.write_max": 0.0230712890625, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 10.711284875869751, "timer/agent.policy_frac": 0.03570133049563669, "timer/agent.policy_avg": 0.007387093017841208, "timer/agent.policy_min": 0.005864143371582031, "timer/agent.policy_max": 0.01588892936706543, "timer/dataset_count": 725.0, "timer/dataset_total": 0.059538841247558594, "timer/dataset_frac": 0.000198446393064841, "timer/dataset_avg": 8.212253965180496e-05, "timer/dataset_min": 6.198883056640625e-05, "timer/dataset_max": 0.00017714500427246094, "timer/agent.train_count": 725.0, "timer/agent.train_total": 269.2142069339752, "timer/agent.train_frac": 0.8973064844463996, "timer/agent.train_avg": 0.3713299405985865, "timer/agent.train_min": 0.3647491931915283, "timer/agent.train_max": 0.3893160820007324, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2177598476409912, "timer/agent.report_frac": 0.0007258061361830084, "timer/agent.report_avg": 0.2177598476409912, "timer/agent.report_min": 0.2177598476409912, "timer/agent.report_max": 0.2177598476409912, "fps": 4.832834798529268}
{"step": 1072219, "episode/length": 168.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.05325443786982249}
{"step": 1072552, "episode/length": 332.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.03903903903903904}
{"step": 1072768, "episode/length": 215.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.06481481481481481}
{"step": 1072983, "episode/length": 214.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.900000050663948, "episode/reward_rate": 0.06046511627906977}
{"step": 1073202, "episode/length": 218.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.0684931506849315}
{"step": 1073290, "episode/length": 87.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.299999997019768, "episode/reward_rate": 0.11363636363636363}
{"step": 1073511, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.398562961154514, "train/action_min": 0.0, "train/action_std": 3.263214041789373, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0366539948930343, "train/actor_opt_grad_steps": 535845.0, "train/actor_opt_loss": -13.557482903616297, "train/adv_mag": 0.39367808360192513, "train/adv_max": 0.33935033198859954, "train/adv_mean": 0.001125694117743276, "train/adv_min": -0.3483268804848194, "train/adv_std": 0.04177550029837423, "train/cont_avg": 0.9951443142361112, "train/cont_loss_mean": 8.319356300508692e-05, "train/cont_loss_std": 0.002612124365473139, "train/cont_neg_acc": 0.9949074081248708, "train/cont_neg_loss": 0.013790515850242442, "train/cont_pos_acc": 0.9999999867545234, "train/cont_pos_loss": 6.640989108359147e-06, "train/cont_pred": 0.9951697753535377, "train/cont_rate": 0.9951443142361112, "train/dyn_loss_mean": 5.60633987850613, "train/dyn_loss_std": 8.883044362068176, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8816592949959967, "train/extr_critic_critic_opt_grad_steps": 535845.0, "train/extr_critic_critic_opt_loss": 15178.013699001736, "train/extr_critic_mag": 12.433373345269096, "train/extr_critic_max": 12.433373345269096, "train/extr_critic_mean": 3.891163067685233, "train/extr_critic_min": -0.33091307679812115, "train/extr_critic_std": 2.953375428915024, "train/extr_return_normed_mag": 1.3772094994783401, "train/extr_return_normed_max": 1.3772094994783401, "train/extr_return_normed_mean": 0.40159912862711483, "train/extr_return_normed_min": -0.07162048905673954, "train/extr_return_normed_std": 0.3109477365182506, "train/extr_return_rate": 0.8749476017223464, "train/extr_return_raw_mag": 13.249846431944105, "train/extr_return_raw_max": 13.249846431944105, "train/extr_return_raw_mean": 3.901931795809004, "train/extr_return_raw_min": -0.6319961854153209, "train/extr_return_raw_std": 2.979379269811842, "train/extr_reward_mag": 1.0740162432193756, "train/extr_reward_max": 1.0740162432193756, "train/extr_reward_mean": 0.06150918138316936, "train/extr_reward_min": -0.5815751155217489, "train/extr_reward_std": 0.23854611358708805, "train/image_loss_mean": 3.2499499486552343, "train/image_loss_std": 8.391233325004578, "train/model_loss_mean": 6.673627005683051, "train/model_loss_std": 12.556264188554552, "train/model_opt_grad_norm": 22.948890050252277, "train/model_opt_grad_steps": 535406.0, "train/model_opt_loss": 16684.067545572918, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6905072496996985, "train/policy_entropy_max": 2.6905072496996985, "train/policy_entropy_mean": 0.40707580869396526, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6180470349888006, "train/policy_logprob_mag": 7.438384281264411, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4072071202099323, "train/policy_logprob_min": -7.438384281264411, "train/policy_logprob_std": 1.0374272018671036, "train/policy_randomness_mag": 0.9496309873130586, "train/policy_randomness_max": 0.9496309873130586, "train/policy_randomness_mean": 0.14367989657653701, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21814348010553253, "train/post_ent_mag": 55.31870826085409, "train/post_ent_max": 55.31870826085409, "train/post_ent_mean": 40.299290392133926, "train/post_ent_min": 19.74238085746765, "train/post_ent_std": 5.794936365551418, "train/prior_ent_mag": 76.81010235680475, "train/prior_ent_max": 76.81010235680475, "train/prior_ent_mean": 45.89422061708238, "train/prior_ent_min": 27.71327394909329, "train/prior_ent_std": 7.863000565105015, "train/rep_loss_mean": 5.60633987850613, "train/rep_loss_std": 8.883044362068176, "train/reward_avg": 0.04475504524695376, "train/reward_loss_mean": 0.059789975794653095, "train/reward_loss_std": 0.2202138505462143, "train/reward_max_data": 1.0291666736205418, "train/reward_max_pred": 1.0298225548532274, "train/reward_neg_acc": 0.9937248180309931, "train/reward_neg_loss": 0.025039484452766676, "train/reward_pos_acc": 0.9880266644888454, "train/reward_pos_loss": 0.7311681293778949, "train/reward_pred": 0.044290065196239285, "train/reward_rate": 0.049235026041666664, "stats/sum_log_reward": 11.266667048136393, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 4.166666666666667, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 0.8333333333333334, "stats/max_log_achievement_collect_stone": 10.0, "stats/max_log_achievement_collect_wood": 10.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 0.8333333333333334, "stats/max_log_achievement_place_stone": 1.8333333333333333, "stats/max_log_achievement_place_table": 2.8333333333333335, "stats/max_log_achievement_wake_up": 1.6666666666666667, "stats/mean_log_entropy": 0.43174365411202115, "replay/size": 1000000.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.33041986050123e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.322255881913988e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2785642147064, "timer/env.step_count": 1442.0, "timer/env.step_total": 18.862468004226685, "timer/env.step_frac": 0.06281656519024637, "timer/env.step_avg": 0.01308076838018494, "timer/env.step_min": 0.0026564598083496094, "timer/env.step_max": 1.7912168502807617, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.26493096351623535, "timer/replay.add_frac": 0.0008822839692506433, "timer/replay.add_avg": 0.00018372466263261815, "timer/replay.add_min": 7.295608520507812e-05, "timer/replay.add_max": 0.0032858848571777344, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03239941596984863, "timer/logger.write_frac": 0.00010789786495276521, "timer/logger.write_avg": 0.03239941596984863, "timer/logger.write_min": 0.03239941596984863, "timer/logger.write_max": 0.03239941596984863, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00042700767517089844, "timer/checkpoint.save_frac": 1.4220384871215038e-06, "timer/checkpoint.save_avg": 0.00042700767517089844, "timer/checkpoint.save_min": 0.00042700767517089844, "timer/checkpoint.save_max": 0.00042700767517089844, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3887300491333008, "timer/agent.save_frac": 0.004624805812446623, "timer/agent.save_avg": 1.3887300491333008, "timer/agent.save_min": 1.3887300491333008, "timer/agent.save_max": 1.3887300491333008, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.00012087821960449219, "timer/replay.save_frac": 4.025536085821342e-07, "timer/replay.save_avg": 0.00012087821960449219, "timer/replay.save_min": 0.00012087821960449219, "timer/replay.save_max": 0.00012087821960449219, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 12.538731098175049, "timer/agent.policy_frac": 0.04175699697701216, "timer/agent.policy_avg": 0.008695375241452877, "timer/agent.policy_min": 0.005866289138793945, "timer/agent.policy_max": 1.3782265186309814, "timer/dataset_count": 721.0, "timer/dataset_total": 0.05809926986694336, "timer/dataset_frac": 0.0001934845732957514, "timer/dataset_avg": 8.058151160463712e-05, "timer/dataset_min": 6.0558319091796875e-05, "timer/dataset_max": 0.00014066696166992188, "timer/agent.train_count": 721.0, "timer/agent.train_total": 267.87431502342224, "timer/agent.train_frac": 0.8920860392548222, "timer/agent.train_avg": 0.3715316435831099, "timer/agent.train_min": 0.3647174835205078, "timer/agent.train_max": 0.8142833709716797, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21962618827819824, "timer/agent.report_frac": 0.0007314081471402009, "timer/agent.report_avg": 0.21962618827819824, "timer/agent.report_min": 0.21962618827819824, "timer/agent.report_max": 0.21962618827819824, "fps": 4.80213887026428}
{"step": 1073526, "episode/length": 235.0, "episode/score": 13.099999971687794, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.0635593220338983}
{"step": 1073776, "episode/length": 249.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.06}
{"step": 1073983, "episode/length": 206.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.07246376811594203}
{"step": 1074191, "episode/length": 207.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.07211538461538461}
{"step": 1074371, "episode/length": 179.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.07222222222222222}
{"step": 1074657, "episode/length": 285.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.05244755244755245}
{"step": 1074872, "episode/length": 214.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.06511627906976744}
{"step": 1074963, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.382140277183219, "train/action_min": 0.0, "train/action_std": 3.28129089041932, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038259080139129126, "train/actor_opt_grad_steps": 536570.0, "train/actor_opt_loss": -10.050443144489641, "train/adv_mag": 0.4029667757145346, "train/adv_max": 0.3309739393322435, "train/adv_mean": 0.0020857369487352465, "train/adv_min": -0.3659449966802989, "train/adv_std": 0.04292649377698768, "train/cont_avg": 0.9948228809931506, "train/cont_loss_mean": 3.706676883287444e-05, "train/cont_loss_std": 0.0010957434185160906, "train/cont_neg_acc": 0.9965753424657534, "train/cont_neg_loss": 0.006858189783300427, "train/cont_pos_acc": 0.9999999738719365, "train/cont_pos_loss": 1.0241393709391448e-05, "train/cont_pred": 0.994825053704928, "train/cont_rate": 0.9948228809931506, "train/dyn_loss_mean": 5.761287552036651, "train/dyn_loss_std": 8.895060957294621, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8574926150988226, "train/extr_critic_critic_opt_grad_steps": 536570.0, "train/extr_critic_critic_opt_loss": 15259.488736087329, "train/extr_critic_mag": 12.488254808399775, "train/extr_critic_max": 12.488254808399775, "train/extr_critic_mean": 3.9424699593896735, "train/extr_critic_min": -0.3469940750566247, "train/extr_critic_std": 2.9902033936487484, "train/extr_return_normed_mag": 1.3867414569201535, "train/extr_return_normed_max": 1.3867414569201535, "train/extr_return_normed_mean": 0.41278376807905226, "train/extr_return_normed_min": -0.07652654677425345, "train/extr_return_normed_std": 0.31864957286886975, "train/extr_return_rate": 0.8553073724655256, "train/extr_return_raw_mag": 13.174246579000394, "train/extr_return_raw_max": 13.174246579000394, "train/extr_return_raw_mean": 3.962189785421711, "train/extr_return_raw_min": -0.6650141579647587, "train/extr_return_raw_std": 3.013613465714128, "train/extr_reward_mag": 1.0684489420015517, "train/extr_reward_max": 1.0684489420015517, "train/extr_reward_mean": 0.06335584421272147, "train/extr_reward_min": -0.5874447789910722, "train/extr_reward_std": 0.24165681126999528, "train/image_loss_mean": 3.4032706528493804, "train/image_loss_std": 8.551683334455099, "train/model_loss_mean": 6.919827219558089, "train/model_loss_std": 12.639129965272668, "train/model_opt_grad_norm": 20.715126638543115, "train/model_opt_grad_steps": 536130.3424657534, "train/model_opt_loss": 11632.757150310359, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1678.0821917808219, "train/policy_entropy_mag": 2.685186666985081, "train/policy_entropy_max": 2.685186666985081, "train/policy_entropy_mean": 0.39709147300622233, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5972863198959664, "train/policy_logprob_mag": 7.438384271647832, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39826023129567706, "train/policy_logprob_min": -7.438384271647832, "train/policy_logprob_std": 1.0292878869461686, "train/policy_randomness_mag": 0.9477530587209414, "train/policy_randomness_max": 0.9477530587209414, "train/policy_randomness_mean": 0.14015586449675363, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21081585977991965, "train/post_ent_mag": 55.89269267043022, "train/post_ent_max": 55.89269267043022, "train/post_ent_mean": 40.21032641685172, "train/post_ent_min": 19.596055775472564, "train/post_ent_std": 5.892549632346793, "train/prior_ent_mag": 76.77250838606325, "train/prior_ent_max": 76.77250838606325, "train/prior_ent_mean": 45.961273350127755, "train/prior_ent_min": 27.77673551481064, "train/prior_ent_std": 8.017881138683999, "train/rep_loss_mean": 5.761287552036651, "train/rep_loss_std": 8.895060957294621, "train/reward_avg": 0.044521885324422625, "train/reward_loss_mean": 0.05974700322298154, "train/reward_loss_std": 0.21836427099084202, "train/reward_max_data": 1.0205479501044914, "train/reward_max_pred": 1.021838220831466, "train/reward_neg_acc": 0.9928192439144605, "train/reward_neg_loss": 0.025279200533787682, "train/reward_pos_acc": 0.9869070510341696, "train/reward_pos_loss": 0.7293582958717869, "train/reward_pred": 0.0441582996194085, "train/reward_rate": 0.049135809075342464, "stats/sum_log_reward": 13.528571673801967, "stats/max_log_achievement_collect_coal": 1.7142857142857142, "stats/max_log_achievement_collect_drink": 3.142857142857143, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 20.428571428571427, "stats/max_log_achievement_collect_wood": 15.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5714285714285714, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.2857142857142858, "stats/max_log_achievement_make_stone_sword": 1.2857142857142858, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 2.5714285714285716, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 3.4285714285714284, "stats/max_log_achievement_place_table": 4.0, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.47529910291944233, "replay/size": 1000000.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.419960169095967e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3097833339176231e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0793478488922, "timer/env.step_count": 1452.0, "timer/env.step_total": 18.88159680366516, "timer/env.step_frac": 0.06292201359079588, "timer/env.step_avg": 0.013003854547978762, "timer/env.step_min": 0.0027434825897216797, "timer/env.step_max": 1.5811681747436523, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.27403903007507324, "timer/replay.add_frac": 0.0009132218929410236, "timer/replay.add_avg": 0.0001887321143767722, "timer/replay.add_min": 8.20159912109375e-05, "timer/replay.add_max": 0.002749919891357422, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030464649200439453, "timer/logger.write_frac": 0.00010152197883267933, "timer/logger.write_avg": 0.030464649200439453, "timer/logger.write_min": 0.030464649200439453, "timer/logger.write_max": 0.030464649200439453, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 10.701676607131958, "timer/agent.policy_frac": 0.035662822796192185, "timer/agent.policy_avg": 0.007370300693617051, "timer/agent.policy_min": 0.005656003952026367, "timer/agent.policy_max": 0.01332712173461914, "timer/dataset_count": 726.0, "timer/dataset_total": 0.05881500244140625, "timer/dataset_frac": 0.0001959981680279547, "timer/dataset_avg": 8.10124000570334e-05, "timer/dataset_min": 6.175041198730469e-05, "timer/dataset_max": 0.00014543533325195312, "timer/agent.train_count": 726.0, "timer/agent.train_total": 269.46644830703735, "timer/agent.train_frac": 0.8979839840318825, "timer/agent.train_avg": 0.3711659067590046, "timer/agent.train_min": 0.36155247688293457, "timer/agent.train_max": 0.38634204864501953, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21914434432983398, "timer/agent.report_frac": 0.0007302879918287019, "timer/agent.report_avg": 0.21914434432983398, "timer/agent.report_min": 0.21914434432983398, "timer/agent.report_max": 0.21914434432983398, "fps": 4.838652785513532}
{"step": 1075092, "episode/length": 219.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.06363636363636363}
{"step": 1075257, "episode/length": 164.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.07878787878787878}
{"step": 1075468, "episode/length": 210.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.06635071090047394}
{"step": 1075623, "episode/length": 154.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.099999994039536, "episode/reward_rate": 0.05806451612903226}
{"step": 1075787, "episode/length": 163.0, "episode/score": 14.100000016391277, "episode/sum_abs_reward": 16.1000000461936, "episode/reward_rate": 0.09146341463414634}
{"step": 1075990, "episode/length": 202.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.900000028312206, "episode/reward_rate": 0.07881773399014778}
{"step": 1076338, "episode/length": 347.0, "episode/score": 15.100000008940697, "episode/sum_abs_reward": 17.500000044703484, "episode/reward_rate": 0.04597701149425287}
{"step": 1076417, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.388110690646702, "train/action_min": 0.0, "train/action_std": 3.2228025363551245, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.037199732252500124, "train/actor_opt_grad_steps": 537295.0, "train/actor_opt_loss": -11.948076298667324, "train/adv_mag": 0.37352357618510723, "train/adv_max": 0.3209216433266799, "train/adv_mean": 0.0017000757610377251, "train/adv_min": -0.32756493447555435, "train/adv_std": 0.0414287977748447, "train/cont_avg": 0.9949815538194444, "train/cont_loss_mean": 5.1925512810117404e-05, "train/cont_loss_std": 0.0016276229924342782, "train/cont_neg_acc": 0.9976851857370801, "train/cont_neg_loss": 0.008082783363516076, "train/cont_pos_acc": 0.9999999776482582, "train/cont_pos_loss": 4.637284936591533e-06, "train/cont_pred": 0.9949905268020101, "train/cont_rate": 0.9949815538194444, "train/dyn_loss_mean": 5.689834866258833, "train/dyn_loss_std": 8.893320189581978, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8750729155209329, "train/extr_critic_critic_opt_grad_steps": 537295.0, "train/extr_critic_critic_opt_loss": 15208.111151801215, "train/extr_critic_mag": 12.413061671786839, "train/extr_critic_max": 12.413061671786839, "train/extr_critic_mean": 3.8433770570490093, "train/extr_critic_min": -0.2991207506921556, "train/extr_critic_std": 2.9140378567907543, "train/extr_return_normed_mag": 1.3915534367163975, "train/extr_return_normed_max": 1.3915534367163975, "train/extr_return_normed_mean": 0.4003116000029776, "train/extr_return_normed_min": -0.07314081471930775, "train/extr_return_normed_std": 0.31030820765429074, "train/extr_return_rate": 0.8801459877027406, "train/extr_return_raw_mag": 13.249006311098734, "train/extr_return_raw_max": 13.249006311098734, "train/extr_return_raw_mean": 3.8594707449277244, "train/extr_return_raw_min": -0.6255915007657475, "train/extr_return_raw_std": 2.939348965883255, "train/extr_reward_mag": 1.0695157382223341, "train/extr_reward_max": 1.0695157382223341, "train/extr_reward_mean": 0.06301889164994161, "train/extr_reward_min": -0.5791210283835729, "train/extr_reward_std": 0.24051440859006512, "train/image_loss_mean": 3.3900751372178397, "train/image_loss_std": 8.652221308814156, "train/model_loss_mean": 6.864341166284349, "train/model_loss_std": 12.788545462820265, "train/model_opt_grad_norm": 23.788180073102314, "train/model_opt_grad_steps": 536855.0, "train/model_opt_loss": 10999.912638346354, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1597.2222222222222, "train/policy_entropy_mag": 2.69209866060151, "train/policy_entropy_max": 2.69209866060151, "train/policy_entropy_mean": 0.39473963777224225, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6035775360133913, "train/policy_logprob_mag": 7.438384281264411, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3945801051126586, "train/policy_logprob_min": -7.438384281264411, "train/policy_logprob_std": 1.0248480323288176, "train/policy_randomness_mag": 0.9501926882399453, "train/policy_randomness_max": 0.9501926882399453, "train/policy_randomness_mean": 0.1393257703425156, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2130363823639022, "train/post_ent_mag": 55.33845806121826, "train/post_ent_max": 55.33845806121826, "train/post_ent_mean": 40.29739009009467, "train/post_ent_min": 20.003578901290894, "train/post_ent_std": 5.739406731393602, "train/prior_ent_mag": 76.79928270975749, "train/prior_ent_max": 76.79928270975749, "train/prior_ent_mean": 45.94378349516127, "train/prior_ent_min": 27.67765476968553, "train/prior_ent_std": 7.854496657848358, "train/rep_loss_mean": 5.689834866258833, "train/rep_loss_std": 8.893320189581978, "train/reward_avg": 0.04592963305508925, "train/reward_loss_mean": 0.06031318184816175, "train/reward_loss_std": 0.22640839674406582, "train/reward_max_data": 1.0263888951804903, "train/reward_max_pred": 1.024526533153322, "train/reward_neg_acc": 0.9936072006821632, "train/reward_neg_loss": 0.02464120242641204, "train/reward_pos_acc": 0.9890341957410177, "train/reward_pos_loss": 0.7306396025750372, "train/reward_pred": 0.04542151763517824, "train/reward_rate": 0.050360785590277776, "stats/sum_log_reward": 12.814286163875035, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 3.857142857142857, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 16.714285714285715, "stats/max_log_achievement_collect_wood": 11.0, "stats/max_log_achievement_defeat_skeleton": 0.2857142857142857, "stats/max_log_achievement_defeat_zombie": 1.7142857142857142, "stats/max_log_achievement_eat_cow": 0.7142857142857143, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_stone_sword": 0.7142857142857143, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.8571428571428572, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 3.142857142857143, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.42304751915591104, "replay/size": 1000000.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.4605128565057598e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.341534939887927e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.33145236968994, "timer/env.step_count": 1454.0, "timer/env.step_total": 18.74652886390686, "timer/env.step_frac": 0.06241946594668017, "timer/env.step_avg": 0.012893073496497152, "timer/env.step_min": 0.002946615219116211, "timer/env.step_max": 1.5327908992767334, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.28168511390686035, "timer/replay.add_frac": 0.0009379141334825063, "timer/replay.add_avg": 0.00019373116499784069, "timer/replay.add_min": 7.581710815429688e-05, "timer/replay.add_max": 0.005082130432128906, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03285837173461914, "timer/logger.write_frac": 0.00010940702838599956, "timer/logger.write_avg": 0.03285837173461914, "timer/logger.write_min": 0.03285837173461914, "timer/logger.write_max": 0.03285837173461914, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 10.780946493148804, "timer/agent.policy_frac": 0.03589682801479649, "timer/agent.policy_avg": 0.007414681219497114, "timer/agent.policy_min": 0.0057277679443359375, "timer/agent.policy_max": 0.017059326171875, "timer/dataset_count": 727.0, "timer/dataset_total": 0.059090375900268555, "timer/dataset_frac": 0.0001967505415567726, "timer/dataset_avg": 8.127974676790723e-05, "timer/dataset_min": 5.936622619628906e-05, "timer/dataset_max": 0.0001423358917236328, "timer/agent.train_count": 727.0, "timer/agent.train_total": 269.76675629615784, "timer/agent.train_frac": 0.8982301193152797, "timer/agent.train_avg": 0.3710684405724317, "timer/agent.train_min": 0.36478281021118164, "timer/agent.train_max": 0.38284778594970703, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21990704536437988, "timer/agent.report_frac": 0.0007322145037732763, "timer/agent.report_avg": 0.21990704536437988, "timer/agent.report_min": 0.21990704536437988, "timer/agent.report_max": 0.21990704536437988, "fps": 4.841210165665405}
{"step": 1076482, "episode/length": 143.0, "episode/score": 15.100000031292439, "episode/sum_abs_reward": 17.90000007301569, "episode/reward_rate": 0.1111111111111111}
{"step": 1076670, "episode/length": 187.0, "episode/score": 13.100000023841858, "episode/sum_abs_reward": 14.700000047683716, "episode/reward_rate": 0.07446808510638298}
{"step": 1076922, "episode/length": 251.0, "episode/score": 14.100000031292439, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.06349206349206349}
{"step": 1077105, "episode/length": 182.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.03825136612021858}
{"step": 1077334, "episode/length": 228.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.06550218340611354}
{"step": 1077536, "episode/length": 201.0, "episode/score": 12.099999994039536, "episode/sum_abs_reward": 14.500000059604645, "episode/reward_rate": 0.06930693069306931}
{"step": 1077608, "episode/length": 71.0, "episode/score": 5.100000001490116, "episode/sum_abs_reward": 6.700000025331974, "episode/reward_rate": 0.08333333333333333}
{"step": 1077786, "episode/length": 177.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 8.900000028312206, "episode/reward_rate": 0.0449438202247191}
{"step": 1077843, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.468112521701389, "train/action_min": 0.0, "train/action_std": 3.3252463705009885, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03772311129917701, "train/actor_opt_grad_steps": 538015.0, "train/actor_opt_loss": -11.237444491850006, "train/adv_mag": 0.3952007755223248, "train/adv_max": 0.3404806192136473, "train/adv_mean": 0.001934236988745397, "train/adv_min": -0.33783705967168015, "train/adv_std": 0.04228833824810055, "train/cont_avg": 0.9950493706597222, "train/cont_loss_mean": 2.792465038462903e-05, "train/cont_loss_std": 0.0008382457015838125, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.002669583204489154, "train/cont_pos_acc": 0.999999982615312, "train/cont_pos_loss": 1.5226471578897202e-05, "train/cont_pred": 0.9950472083356645, "train/cont_rate": 0.9950493706597222, "train/dyn_loss_mean": 5.8352199991544085, "train/dyn_loss_std": 8.953539841704899, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8982171821925375, "train/extr_critic_critic_opt_grad_steps": 538015.0, "train/extr_critic_critic_opt_loss": 15238.433539496527, "train/extr_critic_mag": 12.330864217546251, "train/extr_critic_max": 12.330864217546251, "train/extr_critic_mean": 3.9054172337055206, "train/extr_critic_min": -0.33268847068150836, "train/extr_critic_std": 2.9730394350157843, "train/extr_return_normed_mag": 1.3724894374608994, "train/extr_return_normed_max": 1.3724894374608994, "train/extr_return_normed_mean": 0.40460437453455395, "train/extr_return_normed_min": -0.07610769083516465, "train/extr_return_normed_std": 0.3144414321415954, "train/extr_return_rate": 0.8596445065405633, "train/extr_return_raw_mag": 13.16920804977417, "train/extr_return_raw_max": 13.16920804977417, "train/extr_return_raw_mean": 3.923893312613169, "train/extr_return_raw_min": -0.6679549954003758, "train/extr_return_raw_std": 3.003796421819263, "train/extr_reward_mag": 1.07405196958118, "train/extr_reward_max": 1.07405196958118, "train/extr_reward_mean": 0.06283203067464961, "train/extr_reward_min": -0.589341382185618, "train/extr_reward_std": 0.24057622419463265, "train/image_loss_mean": 3.4178285201390586, "train/image_loss_std": 8.826840188768175, "train/model_loss_mean": 6.978745652569665, "train/model_loss_std": 12.96232873863644, "train/model_opt_grad_norm": 21.9048676888148, "train/model_opt_grad_steps": 537575.0, "train/model_opt_loss": 17446.864135742188, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6950554880830975, "train/policy_entropy_max": 2.6950554880830975, "train/policy_entropy_mean": 0.4182019428246551, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6257716740171114, "train/policy_logprob_mag": 7.43838424815072, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41819480972157586, "train/policy_logprob_min": -7.43838424815072, "train/policy_logprob_std": 1.0438840902513928, "train/policy_randomness_mag": 0.951236315899425, "train/policy_randomness_max": 0.951236315899425, "train/policy_randomness_mean": 0.14760693390336302, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22086994101603827, "train/post_ent_mag": 55.42287105984158, "train/post_ent_max": 55.42287105984158, "train/post_ent_mean": 40.25849628448486, "train/post_ent_min": 19.839107539918686, "train/post_ent_std": 5.749262730280559, "train/prior_ent_mag": 76.82522625393338, "train/prior_ent_max": 76.82522625393338, "train/prior_ent_mean": 46.11346170637343, "train/prior_ent_min": 27.717793809043037, "train/prior_ent_std": 7.881292290157742, "train/rep_loss_mean": 5.8352199991544085, "train/rep_loss_std": 8.953539841704899, "train/reward_avg": 0.045959472061238356, "train/reward_loss_mean": 0.05975723463214106, "train/reward_loss_std": 0.21463514450523588, "train/reward_max_data": 1.0291666736205418, "train/reward_max_pred": 1.0301675448815029, "train/reward_neg_acc": 0.9934037311209573, "train/reward_neg_loss": 0.024710311696657702, "train/reward_pos_acc": 0.9916386008262634, "train/reward_pos_loss": 0.7213650585876571, "train/reward_pred": 0.0456433658902016, "train/reward_rate": 0.050374348958333336, "stats/sum_log_reward": 10.850000083446503, "stats/max_log_achievement_collect_coal": 0.125, "stats/max_log_achievement_collect_drink": 3.375, "stats/max_log_achievement_collect_iron": 0.125, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 8.375, "stats/max_log_achievement_collect_wood": 11.375, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.625, "stats/max_log_achievement_eat_cow": 0.375, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.75, "stats/max_log_achievement_make_stone_sword": 0.75, "stats/max_log_achievement_make_wood_pickaxe": 1.125, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.125, "stats/max_log_achievement_place_stone": 1.5, "stats/max_log_achievement_place_table": 2.625, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.40698946081101894, "replay/size": 1000000.0, "replay/inserts": 1426.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 3.3723020620466448e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3158373210741126e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1831896305084, "timer/env.step_count": 1426.0, "timer/env.step_total": 21.761338710784912, "timer/env.step_frac": 0.07249352882674963, "timer/env.step_avg": 0.01526040582803991, "timer/env.step_min": 0.0029687881469726562, "timer/env.step_max": 1.788048505783081, "timer/replay.add_count": 1426.0, "timer/replay.add_total": 0.2686936855316162, "timer/replay.add_frac": 0.0008950990422293393, "timer/replay.add_avg": 0.00018842474441207308, "timer/replay.add_min": 7.82012939453125e-05, "timer/replay.add_max": 0.0006210803985595703, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030207395553588867, "timer/logger.write_frac": 0.00010062987068253474, "timer/logger.write_avg": 0.030207395553588867, "timer/logger.write_min": 0.030207395553588867, "timer/logger.write_max": 0.030207395553588867, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00018215179443359375, "timer/checkpoint.save_frac": 6.068021152610245e-07, "timer/checkpoint.save_avg": 0.00018215179443359375, "timer/checkpoint.save_min": 0.00018215179443359375, "timer/checkpoint.save_max": 0.00018215179443359375, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1939756870269775, "timer/agent.save_frac": 0.003977490173572433, "timer/agent.save_avg": 1.1939756870269775, "timer/agent.save_min": 1.1939756870269775, "timer/agent.save_max": 1.1939756870269775, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.0108642578125e-05, "timer/replay.save_frac": 2.6686585173783276e-07, "timer/replay.save_avg": 8.0108642578125e-05, "timer/replay.save_min": 8.0108642578125e-05, "timer/replay.save_max": 8.0108642578125e-05, "timer/agent.policy_count": 1426.0, "timer/agent.policy_total": 12.224403142929077, "timer/agent.policy_frac": 0.04072314361765539, "timer/agent.policy_avg": 0.008572512722951666, "timer/agent.policy_min": 0.005849361419677734, "timer/agent.policy_max": 1.1859619617462158, "timer/dataset_count": 713.0, "timer/dataset_total": 0.05796980857849121, "timer/dataset_frac": 0.00019311477318182104, "timer/dataset_avg": 8.13040793527226e-05, "timer/dataset_min": 6.175041198730469e-05, "timer/dataset_max": 0.0001430511474609375, "timer/agent.train_count": 713.0, "timer/agent.train_total": 265.18757677078247, "timer/agent.train_frac": 0.8834191451466633, "timer/agent.train_avg": 0.371932085232514, "timer/agent.train_min": 0.3647909164428711, "timer/agent.train_max": 0.7872331142425537, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2193617820739746, "timer/agent.report_frac": 0.0007307597149060351, "timer/agent.report_avg": 0.2193617820739746, "timer/agent.report_min": 0.2193617820739746, "timer/agent.report_max": 0.2193617820739746, "fps": 4.7503514070798545}
{"step": 1078035, "episode/length": 248.0, "episode/score": 14.100000016391277, "episode/sum_abs_reward": 16.90000007301569, "episode/reward_rate": 0.060240963855421686}
{"step": 1078216, "episode/length": 180.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06629834254143646}
{"step": 1078440, "episode/length": 223.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.900000028312206, "episode/reward_rate": 0.07142857142857142}
{"step": 1078624, "episode/length": 183.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.07065217391304347}
{"step": 1078773, "episode/length": 148.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.06711409395973154}
{"step": 1078943, "episode/length": 169.0, "episode/score": 12.099999979138374, "episode/sum_abs_reward": 13.900000020861626, "episode/reward_rate": 0.07647058823529412}
{"step": 1079145, "episode/length": 201.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.07425742574257425}
{"step": 1079299, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4173257906142975, "train/action_min": 0.0, "train/action_std": 3.2829659311738735, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03667633416615937, "train/actor_opt_grad_steps": 538740.0, "train/actor_opt_loss": -12.052277039175165, "train/adv_mag": 0.37612536100492083, "train/adv_max": 0.32729336986803026, "train/adv_mean": 0.00214042160873822, "train/adv_min": -0.3321997004829041, "train/adv_std": 0.0422187037255666, "train/cont_avg": 0.9952242080479452, "train/cont_loss_mean": 2.7059186671967587e-05, "train/cont_loss_std": 0.0008086332744884913, "train/cont_neg_acc": 0.9980430537707186, "train/cont_neg_loss": 0.002871348463631093, "train/cont_pos_acc": 0.9999999820369564, "train/cont_pos_loss": 7.644594767862768e-06, "train/cont_pred": 0.9952275818341398, "train/cont_rate": 0.9952242080479452, "train/dyn_loss_mean": 5.680202033421764, "train/dyn_loss_std": 8.93144661759677, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9109545113289192, "train/extr_critic_critic_opt_grad_steps": 538740.0, "train/extr_critic_critic_opt_loss": 15341.821462970891, "train/extr_critic_mag": 12.534254047968616, "train/extr_critic_max": 12.534254047968616, "train/extr_critic_mean": 3.8579792453818125, "train/extr_critic_min": -0.3379252267210451, "train/extr_critic_std": 2.9643014163187105, "train/extr_return_normed_mag": 1.382313795285682, "train/extr_return_normed_max": 1.382313795285682, "train/extr_return_normed_mean": 0.40059746087413944, "train/extr_return_normed_min": -0.07277303041048246, "train/extr_return_normed_std": 0.31279818285001465, "train/extr_return_rate": 0.858809622183238, "train/extr_return_raw_mag": 13.267905679467606, "train/extr_return_raw_max": 13.267905679467606, "train/extr_return_raw_mean": 3.8784330348445946, "train/extr_return_raw_min": -0.6487479614068384, "train/extr_return_raw_std": 2.991901312788872, "train/extr_reward_mag": 1.08012358129841, "train/extr_reward_max": 1.08012358129841, "train/extr_reward_mean": 0.06428839220371965, "train/extr_reward_min": -0.60532730899445, "train/extr_reward_std": 0.24332579317158215, "train/image_loss_mean": 3.3885772326221204, "train/image_loss_std": 8.502482584078018, "train/model_loss_mean": 6.8563260574863385, "train/model_loss_std": 12.64740156147578, "train/model_opt_grad_norm": 19.357534500017557, "train/model_opt_grad_steps": 538299.2739726028, "train/model_opt_loss": 19962.790266481163, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2910.958904109589, "train/policy_entropy_mag": 2.7177272757438766, "train/policy_entropy_max": 2.7177272757438766, "train/policy_entropy_mean": 0.4062462491940146, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6208315920339872, "train/policy_logprob_mag": 7.438384310839927, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40703177880750946, "train/policy_logprob_min": -7.438384310839927, "train/policy_logprob_std": 1.0367411293395579, "train/policy_randomness_mag": 0.9592384581696497, "train/policy_randomness_max": 0.9592384581696497, "train/policy_randomness_mean": 0.14338709812049996, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21912630800515004, "train/post_ent_mag": 55.58820578170149, "train/post_ent_max": 55.58820578170149, "train/post_ent_mean": 40.280504514093266, "train/post_ent_min": 20.175547952521338, "train/post_ent_std": 5.831924915313721, "train/prior_ent_mag": 76.79521231455345, "train/prior_ent_max": 76.79521231455345, "train/prior_ent_mean": 45.94508006474743, "train/prior_ent_min": 28.141115841800218, "train/prior_ent_std": 7.934985781369144, "train/rep_loss_mean": 5.680202033421764, "train/rep_loss_std": 8.93144661759677, "train/reward_avg": 0.046446917655125056, "train/reward_loss_mean": 0.059600594619365586, "train/reward_loss_std": 0.21716748259655416, "train/reward_max_data": 1.0369863101880845, "train/reward_max_pred": 1.0374091292080814, "train/reward_neg_acc": 0.9933260736400134, "train/reward_neg_loss": 0.023989722910911254, "train/reward_pos_acc": 0.9884164406828684, "train/reward_pos_loss": 0.7276041679186364, "train/reward_pred": 0.04609904695965656, "train/reward_rate": 0.05068760702054795, "stats/sum_log_reward": 12.528571673801967, "stats/max_log_achievement_collect_coal": 1.4285714285714286, "stats/max_log_achievement_collect_drink": 2.2857142857142856, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 13.857142857142858, "stats/max_log_achievement_collect_wood": 11.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.4285714285714286, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_stone_sword": 0.7142857142857143, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.7142857142857142, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 4.0, "stats/max_log_achievement_place_table": 3.142857142857143, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.3237572674240385, "replay/size": 1000000.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.3958272619561836e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3342065798057305e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1191146373749, "timer/env.step_count": 1456.0, "timer/env.step_total": 18.24388027191162, "timer/env.step_frac": 0.06078879812088999, "timer/env.step_avg": 0.01253013754938985, "timer/env.step_min": 0.002869844436645508, "timer/env.step_max": 1.5556142330169678, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.26793432235717773, "timer/replay.add_frac": 0.0008927599386027609, "timer/replay.add_avg": 0.00018402082579476492, "timer/replay.add_min": 7.176399230957031e-05, "timer/replay.add_max": 0.003820657730102539, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0251314640045166, "timer/logger.write_frac": 8.373829849152465e-05, "timer/logger.write_avg": 0.0251314640045166, "timer/logger.write_min": 0.0251314640045166, "timer/logger.write_max": 0.0251314640045166, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 10.642624378204346, "timer/agent.policy_frac": 0.035461334713930225, "timer/agent.policy_avg": 0.007309494765250237, "timer/agent.policy_min": 0.005705118179321289, "timer/agent.policy_max": 0.015959978103637695, "timer/dataset_count": 728.0, "timer/dataset_total": 0.0586702823638916, "timer/dataset_frac": 0.00019548998881587794, "timer/dataset_avg": 8.05910472031478e-05, "timer/dataset_min": 6.151199340820312e-05, "timer/dataset_max": 0.00013756752014160156, "timer/agent.train_count": 728.0, "timer/agent.train_total": 270.22457695007324, "timer/agent.train_frac": 0.9003910906393872, "timer/agent.train_avg": 0.37118760570065007, "timer/agent.train_min": 0.3639068603515625, "timer/agent.train_max": 0.38568997383117676, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21983957290649414, "timer/agent.report_frac": 0.0007325077350442002, "timer/agent.report_avg": 0.21983957290649414, "timer/agent.report_min": 0.21983957290649414, "timer/agent.report_max": 0.21983957290649414, "fps": 4.851318104137986}
{"step": 1079446, "episode/length": 300.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.299999997019768, "episode/reward_rate": 0.04983388704318937}
{"step": 1079632, "episode/length": 185.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.07526881720430108}
{"step": 1079866, "episode/length": 233.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.05555555555555555}
{"step": 1080087, "episode/length": 220.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.500000037252903, "episode/reward_rate": 0.06334841628959276}
{"step": 1080294, "episode/length": 206.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.057971014492753624}
{"step": 1080458, "episode/length": 163.0, "episode/score": 13.099999971687794, "episode/sum_abs_reward": 15.900000043213367, "episode/reward_rate": 0.09146341463414634}
{"step": 1080669, "episode/length": 210.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.037914691943127965}
{"step": 1080751, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4070019192165795, "train/action_min": 0.0, "train/action_std": 3.284829874833425, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03693904634565115, "train/actor_opt_grad_steps": 539465.0, "train/actor_opt_loss": -10.3950624399715, "train/adv_mag": 0.3770868687166108, "train/adv_max": 0.3218646982891692, "train/adv_mean": 0.0014890544851166648, "train/adv_min": -0.33944646786484456, "train/adv_std": 0.04111544736143616, "train/cont_avg": 0.9952935112847222, "train/cont_loss_mean": 5.0104638677458034e-05, "train/cont_loss_std": 0.0015762142436841486, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0002286803114076163, "train/cont_pos_acc": 0.9999863513641887, "train/cont_pos_loss": 4.9001415884831876e-05, "train/cont_pred": 0.9952747374773026, "train/cont_rate": 0.9952935112847222, "train/dyn_loss_mean": 5.603509300284916, "train/dyn_loss_std": 8.891870657602945, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8796064746048715, "train/extr_critic_critic_opt_grad_steps": 539465.0, "train/extr_critic_critic_opt_loss": 15113.030883789062, "train/extr_critic_mag": 12.492992427614, "train/extr_critic_max": 12.492992427614, "train/extr_critic_mean": 3.8730916447109647, "train/extr_critic_min": -0.3162040561437607, "train/extr_critic_std": 2.9573611385292478, "train/extr_return_normed_mag": 1.3877297821972105, "train/extr_return_normed_max": 1.3877297821972105, "train/extr_return_normed_mean": 0.4031720910635259, "train/extr_return_normed_min": -0.07592188349614541, "train/extr_return_normed_std": 0.31449586856696343, "train/extr_return_rate": 0.8649749101863967, "train/extr_return_raw_mag": 13.216510878668892, "train/extr_return_raw_max": 13.216510878668892, "train/extr_return_raw_mean": 3.8872165944841175, "train/extr_return_raw_min": -0.652857832196686, "train/extr_return_raw_std": 2.9801386064953275, "train/extr_reward_mag": 1.0764038893911574, "train/extr_reward_max": 1.0764038893911574, "train/extr_reward_mean": 0.06215019462009271, "train/extr_reward_min": -0.5999598685238097, "train/extr_reward_std": 0.23940040771332052, "train/image_loss_mean": 3.3850842399729624, "train/image_loss_std": 8.49625031153361, "train/model_loss_mean": 6.806591153144836, "train/model_loss_std": 12.596202545695835, "train/model_opt_grad_norm": 22.355050418112015, "train/model_opt_grad_steps": 539023.7083333334, "train/model_opt_loss": 18048.302761501734, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2638.8888888888887, "train/policy_entropy_mag": 2.701152010096444, "train/policy_entropy_max": 2.701152010096444, "train/policy_entropy_mean": 0.4209344271156523, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6315872607131799, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.42074870152605903, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 1.0467932853433821, "train/policy_randomness_mag": 0.953388124704361, "train/policy_randomness_max": 0.953388124704361, "train/policy_randomness_mean": 0.14857138289759556, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22292258569763768, "train/post_ent_mag": 55.76361062791612, "train/post_ent_max": 55.76361062791612, "train/post_ent_mean": 40.17625607384576, "train/post_ent_min": 19.703217400444878, "train/post_ent_std": 5.797209554248386, "train/prior_ent_mag": 76.83080715603299, "train/prior_ent_max": 76.83080715603299, "train/prior_ent_mean": 45.78128517998589, "train/prior_ent_min": 27.566825442843967, "train/prior_ent_std": 7.923945367336273, "train/rep_loss_mean": 5.603509300284916, "train/rep_loss_std": 8.891870657602945, "train/reward_avg": 0.04520806183831559, "train/reward_loss_mean": 0.05935132643207908, "train/reward_loss_std": 0.21391308742264906, "train/reward_max_data": 1.0305555628405676, "train/reward_max_pred": 1.0301273100905948, "train/reward_neg_acc": 0.992681048810482, "train/reward_neg_loss": 0.024904733394376107, "train/reward_pos_acc": 0.9906063162618213, "train/reward_pos_loss": 0.722298301756382, "train/reward_pred": 0.04489179597132736, "train/reward_rate": 0.04941134982638889, "stats/sum_log_reward": 11.81428589139666, "stats/max_log_achievement_collect_coal": 0.2857142857142857, "stats/max_log_achievement_collect_drink": 3.4285714285714284, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8571428571428572, "stats/max_log_achievement_collect_stone": 10.428571428571429, "stats/max_log_achievement_collect_wood": 13.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.1428571428571428, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_stone_sword": 0.5714285714285714, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 0.7142857142857143, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 2.5714285714285716, "stats/max_log_achievement_place_table": 3.4285714285714284, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.3851029191698347, "replay/size": 1000000.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.2838382668403227e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3490476884132575e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1029636859894, "timer/env.step_count": 1452.0, "timer/env.step_total": 18.890931844711304, "timer/env.step_frac": 0.06294816823094655, "timer/env.step_avg": 0.013010283639608336, "timer/env.step_min": 0.0027017593383789062, "timer/env.step_max": 1.6048154830932617, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.28351330757141113, "timer/replay.add_frac": 0.0009447201190190954, "timer/replay.add_avg": 0.00019525709887838232, "timer/replay.add_min": 7.462501525878906e-05, "timer/replay.add_max": 0.0036869049072265625, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03398609161376953, "timer/logger.write_frac": 0.00011324810390520048, "timer/logger.write_avg": 0.03398609161376953, "timer/logger.write_min": 0.03398609161376953, "timer/logger.write_max": 0.03398609161376953, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 10.680192947387695, "timer/agent.policy_frac": 0.03558842877194255, "timer/agent.policy_avg": 0.00735550478470227, "timer/agent.policy_min": 0.005574941635131836, "timer/agent.policy_max": 0.014543294906616211, "timer/dataset_count": 726.0, "timer/dataset_total": 0.059418678283691406, "timer/dataset_frac": 0.00019799430686683828, "timer/dataset_avg": 8.18439094816686e-05, "timer/dataset_min": 6.127357482910156e-05, "timer/dataset_max": 0.00015926361083984375, "timer/agent.train_count": 726.0, "timer/agent.train_total": 269.4987065792084, "timer/agent.train_frac": 0.8980208101549988, "timer/agent.train_avg": 0.37121033964078287, "timer/agent.train_min": 0.3646430969238281, "timer/agent.train_max": 0.3856849670410156, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22101688385009766, "timer/agent.report_frac": 0.0007364701805522891, "timer/agent.report_avg": 0.22101688385009766, "timer/agent.report_min": 0.22101688385009766, "timer/agent.report_max": 0.22101688385009766, "fps": 4.838253071971594}
{"step": 1080895, "episode/length": 225.0, "episode/score": 15.100000023841858, "episode/sum_abs_reward": 17.10000005364418, "episode/reward_rate": 0.07079646017699115}
{"step": 1081083, "episode/length": 187.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.0797872340425532}
{"step": 1081311, "episode/length": 227.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.06140350877192982}
{"step": 1081482, "episode/length": 170.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.08187134502923976}
{"step": 1081688, "episode/length": 205.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 12.900000050663948, "episode/reward_rate": 0.05825242718446602}
{"step": 1082152, "episode/length": 463.0, "episode/score": 16.100000023841858, "episode/sum_abs_reward": 19.500000074505806, "episode/reward_rate": 0.036637931034482756}
{"step": 1082191, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.44541761610243, "train/action_min": 0.0, "train/action_std": 3.27672611673673, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0378069969980667, "train/actor_opt_grad_steps": 540185.0, "train/actor_opt_loss": -11.513400371703836, "train/adv_mag": 0.38090229344864684, "train/adv_max": 0.32184249266154236, "train/adv_mean": 0.0020381611182326903, "train/adv_min": -0.342998537959324, "train/adv_std": 0.04214311297982931, "train/cont_avg": 0.9948866102430556, "train/cont_loss_mean": 4.12820824646529e-05, "train/cont_loss_std": 0.0012963991632144456, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0023243978580543465, "train/cont_pos_acc": 0.9999863430857658, "train/cont_pos_loss": 2.771218471912344e-05, "train/cont_pred": 0.9948821746640735, "train/cont_rate": 0.9948866102430556, "train/dyn_loss_mean": 5.7752339243888855, "train/dyn_loss_std": 9.028083483378092, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8604988240533404, "train/extr_critic_critic_opt_grad_steps": 540185.0, "train/extr_critic_critic_opt_loss": 15213.180013020834, "train/extr_critic_mag": 12.471793704562717, "train/extr_critic_max": 12.471793704562717, "train/extr_critic_mean": 3.9576225413216486, "train/extr_critic_min": -0.34684417645136517, "train/extr_critic_std": 2.9647556526793375, "train/extr_return_normed_mag": 1.381467388735877, "train/extr_return_normed_max": 1.381467388735877, "train/extr_return_normed_mean": 0.4136439603235986, "train/extr_return_normed_min": -0.0769238555803895, "train/extr_return_normed_std": 0.31482667703595424, "train/extr_return_rate": 0.8723913588457637, "train/extr_return_raw_mag": 13.17816752857632, "train/extr_return_raw_max": 13.17816752857632, "train/extr_return_raw_mean": 3.9770012729697757, "train/extr_return_raw_min": -0.687454727374845, "train/extr_return_raw_std": 2.993299163050122, "train/extr_reward_mag": 1.0852185918225183, "train/extr_reward_max": 1.0852185918225183, "train/extr_reward_mean": 0.06694818784793218, "train/extr_reward_min": -0.579506536324819, "train/extr_reward_std": 0.24814127095871502, "train/image_loss_mean": 3.4408367143736944, "train/image_loss_std": 8.839989357524448, "train/model_loss_mean": 6.967700229750739, "train/model_loss_std": 12.99931025505066, "train/model_opt_grad_norm": 22.399806923336453, "train/model_opt_grad_steps": 539743.0, "train/model_opt_loss": 17419.250569661457, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.692203422387441, "train/policy_entropy_max": 2.692203422387441, "train/policy_entropy_mean": 0.3898882211910354, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5936806400616964, "train/policy_logprob_mag": 7.438384261396196, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38979686092999244, "train/policy_logprob_min": -7.438384261396196, "train/policy_logprob_std": 1.019765507015917, "train/policy_randomness_mag": 0.9502296662992902, "train/policy_randomness_max": 0.9502296662992902, "train/policy_randomness_mean": 0.13761343279232582, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20954321117864716, "train/post_ent_mag": 55.44917885462443, "train/post_ent_max": 55.44917885462443, "train/post_ent_mean": 40.035239961412216, "train/post_ent_min": 19.331313437885708, "train/post_ent_std": 5.806176728672451, "train/prior_ent_mag": 76.76353465186224, "train/prior_ent_max": 76.76353465186224, "train/prior_ent_mean": 45.81028079986572, "train/prior_ent_min": 27.5496613184611, "train/prior_ent_std": 7.942500657505459, "train/rep_loss_mean": 5.7752339243888855, "train/rep_loss_std": 9.028083483378092, "train/reward_avg": 0.04803466802049014, "train/reward_loss_mean": 0.06168185221031308, "train/reward_loss_std": 0.22097716252836916, "train/reward_max_data": 1.0375000089406967, "train/reward_max_pred": 1.037652336888843, "train/reward_neg_acc": 0.993274685409334, "train/reward_neg_loss": 0.024948459687746234, "train/reward_pos_acc": 0.9888834175136354, "train/reward_pos_loss": 0.7218212203847038, "train/reward_pred": 0.047735989869882665, "train/reward_rate": 0.0526123046875, "stats/sum_log_reward": 13.766666889190674, "stats/max_log_achievement_collect_coal": 1.6666666666666667, "stats/max_log_achievement_collect_drink": 4.166666666666667, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 2.3333333333333335, "stats/max_log_achievement_collect_stone": 21.166666666666668, "stats/max_log_achievement_collect_wood": 13.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.8333333333333334, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.1666666666666667, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 3.0, "stats/max_log_achievement_place_plant": 2.3333333333333335, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 3.6666666666666665, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.44392794370651245, "replay/size": 1000000.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.33355532752143e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3001470102204216e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1692817211151, "timer/env.step_count": 1440.0, "timer/env.step_total": 19.048060655593872, "timer/env.step_frac": 0.06345772807389156, "timer/env.step_avg": 0.013227819899717967, "timer/env.step_min": 0.0029273033142089844, "timer/env.step_max": 1.795651912689209, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.29181909561157227, "timer/replay.add_frac": 0.0009721817433760563, "timer/replay.add_avg": 0.00020265214973025852, "timer/replay.add_min": 7.581710815429688e-05, "timer/replay.add_max": 0.005714893341064453, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03070354461669922, "timer/logger.write_frac": 0.00010228743074791256, "timer/logger.write_avg": 0.03070354461669922, "timer/logger.write_min": 0.03070354461669922, "timer/logger.write_max": 0.03070354461669922, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00016236305236816406, "timer/checkpoint.save_frac": 5.409049568203794e-07, "timer/checkpoint.save_avg": 0.00016236305236816406, "timer/checkpoint.save_min": 0.00016236305236816406, "timer/checkpoint.save_max": 0.00016236305236816406, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.193704605102539, "timer/agent.save_frac": 0.003976771368002941, "timer/agent.save_avg": 1.193704605102539, "timer/agent.save_min": 1.193704605102539, "timer/agent.save_max": 1.193704605102539, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.319450378417969e-05, "timer/replay.save_frac": 2.4384408479274077e-07, "timer/replay.save_avg": 7.319450378417969e-05, "timer/replay.save_min": 7.319450378417969e-05, "timer/replay.save_max": 7.319450378417969e-05, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 12.352930545806885, "timer/agent.policy_frac": 0.04115321352997038, "timer/agent.policy_avg": 0.00857842399014367, "timer/agent.policy_min": 0.005902290344238281, "timer/agent.policy_max": 1.1992816925048828, "timer/dataset_count": 720.0, "timer/dataset_total": 0.05805253982543945, "timer/dataset_frac": 0.00019339933617649658, "timer/dataset_avg": 8.062852753533257e-05, "timer/dataset_min": 6.222724914550781e-05, "timer/dataset_max": 0.00015592575073242188, "timer/agent.train_count": 720.0, "timer/agent.train_total": 267.73385763168335, "timer/agent.train_frac": 0.8919428933452049, "timer/agent.train_avg": 0.3718525800440047, "timer/agent.train_min": 0.3649923801422119, "timer/agent.train_max": 0.8088290691375732, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21909618377685547, "timer/agent.report_frac": 0.0007299087452273547, "timer/agent.report_avg": 0.21909618377685547, "timer/agent.report_min": 0.21909618377685547, "timer/agent.report_max": 0.21909618377685547, "fps": 4.797191715081152}
{"step": 1082356, "episode/length": 203.0, "episode/score": 13.100000016391277, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.06862745098039216}
{"step": 1082561, "episode/length": 204.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.06829268292682927}
{"step": 1082807, "episode/length": 245.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.056910569105691054}
{"step": 1083050, "episode/length": 242.0, "episode/score": 14.100000023841858, "episode/sum_abs_reward": 17.100000023841858, "episode/reward_rate": 0.06584362139917696}
{"step": 1083236, "episode/length": 185.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.07526881720430108}
{"step": 1083529, "episode/length": 292.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.04778156996587031}
{"step": 1083651, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.422959419145976, "train/action_min": 0.0, "train/action_std": 3.297929796454025, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03807419043493598, "train/actor_opt_grad_steps": 540910.0, "train/actor_opt_loss": -10.24400013562751, "train/adv_mag": 0.39050510301165386, "train/adv_max": 0.3275419218491202, "train/adv_mean": 0.002276519647052301, "train/adv_min": -0.3461032558793891, "train/adv_std": 0.04217128731208305, "train/cont_avg": 0.9953312285958904, "train/cont_loss_mean": 7.376849117943724e-06, "train/cont_loss_std": 0.00019811157945655053, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0008698918721213669, "train/cont_pos_acc": 0.9999999755049405, "train/cont_pos_loss": 4.420795626580253e-06, "train/cont_pred": 0.9953300071089235, "train/cont_rate": 0.9953312285958904, "train/dyn_loss_mean": 5.65681108709884, "train/dyn_loss_std": 8.899691313913424, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.93284877522351, "train/extr_critic_critic_opt_grad_steps": 540910.0, "train/extr_critic_critic_opt_loss": 15339.282841930652, "train/extr_critic_mag": 12.379800313139615, "train/extr_critic_max": 12.379800313139615, "train/extr_critic_mean": 3.869418601467185, "train/extr_critic_min": -0.33971391475363955, "train/extr_critic_std": 2.9338397228554505, "train/extr_return_normed_mag": 1.38098046551012, "train/extr_return_normed_max": 1.38098046551012, "train/extr_return_normed_mean": 0.4030584925658082, "train/extr_return_normed_min": -0.08031134537025673, "train/extr_return_normed_std": 0.31260950108097024, "train/extr_return_rate": 0.8666239005245574, "train/extr_return_raw_mag": 13.159210557806981, "train/extr_return_raw_max": 13.159210557806981, "train/extr_return_raw_mean": 3.890991687774658, "train/extr_return_raw_min": -0.6908680367959689, "train/extr_return_raw_std": 2.9631709758549523, "train/extr_reward_mag": 1.078022101154066, "train/extr_reward_max": 1.078022101154066, "train/extr_reward_mean": 0.06191269420597651, "train/extr_reward_min": -0.59503728396272, "train/extr_reward_std": 0.2395659038057066, "train/image_loss_mean": 3.4399653820142353, "train/image_loss_std": 8.660444553584268, "train/model_loss_mean": 6.894565301398709, "train/model_loss_std": 12.740471186703198, "train/model_opt_grad_norm": 21.5277281591337, "train/model_opt_grad_steps": 540467.1780821917, "train/model_opt_loss": 18597.930797838184, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2705.4794520547944, "train/policy_entropy_mag": 2.690297440306781, "train/policy_entropy_max": 2.690297440306781, "train/policy_entropy_mean": 0.39632254206154444, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5996319961874452, "train/policy_logprob_mag": 7.43838429124388, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39700277251740024, "train/policy_logprob_min": -7.43838429124388, "train/policy_logprob_std": 1.0258683423473411, "train/policy_randomness_mag": 0.9495569353234278, "train/policy_randomness_max": 0.9495569353234278, "train/policy_randomness_mean": 0.13988446658604767, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21164377809387364, "train/post_ent_mag": 55.96904132790761, "train/post_ent_max": 55.96904132790761, "train/post_ent_mean": 40.49932354443694, "train/post_ent_min": 19.578459413084264, "train/post_ent_std": 5.934029219901725, "train/prior_ent_mag": 76.80650486358225, "train/prior_ent_max": 76.80650486358225, "train/prior_ent_mean": 46.153738675052175, "train/prior_ent_min": 27.762130580536308, "train/prior_ent_std": 7.899550150518548, "train/rep_loss_mean": 5.65681108709884, "train/rep_loss_std": 8.899691313913424, "train/reward_avg": 0.04597201325917897, "train/reward_loss_mean": 0.06050598407036638, "train/reward_loss_std": 0.2162537546190497, "train/reward_max_data": 1.0410959002089828, "train/reward_max_pred": 1.0429025627162358, "train/reward_neg_acc": 0.992789524875275, "train/reward_neg_loss": 0.025641648519835244, "train/reward_pos_acc": 0.990323639895818, "train/reward_pos_loss": 0.7175557825663318, "train/reward_pred": 0.04566029921071987, "train/reward_rate": 0.05040667808219178, "stats/sum_log_reward": 13.266667048136393, "stats/max_log_achievement_collect_coal": 1.1666666666666667, "stats/max_log_achievement_collect_drink": 2.8333333333333335, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 1.1666666666666667, "stats/max_log_achievement_collect_stone": 18.833333333333332, "stats/max_log_achievement_collect_wood": 16.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.1666666666666665, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_stone_sword": 1.8333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.3333333333333333, "stats/max_log_achievement_place_plant": 1.1666666666666667, "stats/max_log_achievement_place_stone": 4.166666666666667, "stats/max_log_achievement_place_table": 3.6666666666666665, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.4249761799971263, "replay/size": 1000000.0, "replay/inserts": 1460.0, "replay/samples": 11680.0, "replay/insert_wait_avg": 3.3122219451486248e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3358176571049103e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.00277519226074, "timer/env.step_count": 1460.0, "timer/env.step_total": 17.29494595527649, "timer/env.step_frac": 0.05764928655807532, "timer/env.step_avg": 0.011845853394024993, "timer/env.step_min": 0.0028502941131591797, "timer/env.step_max": 1.543433666229248, "timer/replay.add_count": 1460.0, "timer/replay.add_total": 0.27585816383361816, "timer/replay.add_frac": 0.0009195187066413996, "timer/replay.add_avg": 0.00018894394783124533, "timer/replay.add_min": 7.176399230957031e-05, "timer/replay.add_max": 0.0006916522979736328, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03007793426513672, "timer/logger.write_frac": 0.00010025885342514208, "timer/logger.write_avg": 0.03007793426513672, "timer/logger.write_min": 0.03007793426513672, "timer/logger.write_max": 0.03007793426513672, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1460.0, "timer/agent.policy_total": 10.77394413948059, "timer/agent.policy_frac": 0.035912814915048594, "timer/agent.policy_avg": 0.007379413794164788, "timer/agent.policy_min": 0.00594019889831543, "timer/agent.policy_max": 0.015889644622802734, "timer/dataset_count": 730.0, "timer/dataset_total": 0.05960512161254883, "timer/dataset_frac": 0.00019868190077358485, "timer/dataset_avg": 8.165085152403949e-05, "timer/dataset_min": 6.246566772460938e-05, "timer/dataset_max": 0.00013899803161621094, "timer/agent.train_count": 730.0, "timer/agent.train_total": 270.9032304286957, "timer/agent.train_frac": 0.9030024147446095, "timer/agent.train_avg": 0.3711003156557475, "timer/agent.train_min": 0.36461424827575684, "timer/agent.train_max": 0.3869187831878662, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22148752212524414, "timer/agent.report_frac": 0.0007382849108089114, "timer/agent.report_avg": 0.22148752212524414, "timer/agent.report_min": 0.22148752212524414, "timer/agent.report_max": 0.22148752212524414, "fps": 4.866532693948334}
{"step": 1083791, "episode/length": 261.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 18.30000003427267, "episode/reward_rate": 0.061068702290076333}
{"step": 1083974, "episode/length": 182.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.07650273224043716}
{"step": 1084362, "episode/length": 387.0, "episode/score": 16.099999979138374, "episode/sum_abs_reward": 18.30000001192093, "episode/reward_rate": 0.04381443298969072}
{"step": 1084550, "episode/length": 187.0, "episode/score": 12.100000016391277, "episode/sum_abs_reward": 13.30000003427267, "episode/reward_rate": 0.06914893617021277}
{"step": 1084715, "episode/length": 164.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.06666666666666667}
{"step": 1084971, "episode/length": 255.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.05859375}
{"step": 1085099, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.528430677440069, "train/action_min": 0.0, "train/action_std": 3.3379257378512865, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03744530848750513, "train/actor_opt_grad_steps": 541640.0, "train/actor_opt_loss": -12.093065077311373, "train/adv_mag": 0.3990283767654471, "train/adv_max": 0.32318408521887376, "train/adv_mean": 0.0020585601994080457, "train/adv_min": -0.3574588231436194, "train/adv_std": 0.04219556150779332, "train/cont_avg": 0.995384738869863, "train/cont_loss_mean": 1.1759301173502499e-05, "train/cont_loss_std": 0.0002999407748467865, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0016059071856091567, "train/cont_pos_acc": 0.9999999795874505, "train/cont_pos_loss": 4.726573934216541e-06, "train/cont_pred": 0.9953864763860834, "train/cont_rate": 0.995384738869863, "train/dyn_loss_mean": 5.767142263177323, "train/dyn_loss_std": 8.952524204776712, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9031841485467675, "train/extr_critic_critic_opt_grad_steps": 541640.0, "train/extr_critic_critic_opt_loss": 15171.827964469177, "train/extr_critic_mag": 12.412894797651735, "train/extr_critic_max": 12.412894797651735, "train/extr_critic_mean": 3.962482648353054, "train/extr_critic_min": -0.363231556056297, "train/extr_critic_std": 2.9493785263740855, "train/extr_return_normed_mag": 1.3808331113972077, "train/extr_return_normed_max": 1.3808331113972077, "train/extr_return_normed_mean": 0.4123184142047412, "train/extr_return_normed_min": -0.07505208381438909, "train/extr_return_normed_std": 0.31171444609557114, "train/extr_return_rate": 0.8698568156320755, "train/extr_return_raw_mag": 13.247170539751444, "train/extr_return_raw_max": 13.247170539751444, "train/extr_return_raw_mean": 3.982157047480753, "train/extr_return_raw_min": -0.6795060793830924, "train/extr_return_raw_std": 2.9821674823760986, "train/extr_reward_mag": 1.0770961389149705, "train/extr_reward_max": 1.0770961389149705, "train/extr_reward_mean": 0.06396435548181403, "train/extr_reward_min": -0.625951690216587, "train/extr_reward_std": 0.24256797461477045, "train/image_loss_mean": 3.2870227735336512, "train/image_loss_std": 8.399879651526883, "train/model_loss_mean": 6.808489982395956, "train/model_loss_std": 12.594970820701285, "train/model_opt_grad_norm": 20.83875891280501, "train/model_opt_grad_steps": 541196.6575342466, "train/model_opt_loss": 18915.466248394692, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2773.972602739726, "train/policy_entropy_mag": 2.68159673311939, "train/policy_entropy_max": 2.68159673311939, "train/policy_entropy_mean": 0.39520547630852215, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.594997085937082, "train/policy_logprob_mag": 7.438384304307911, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39444402370550863, "train/policy_logprob_min": -7.438384304307911, "train/policy_logprob_std": 1.0207821457353357, "train/policy_randomness_mag": 0.9464859676687685, "train/policy_randomness_max": 0.9464859676687685, "train/policy_randomness_mean": 0.1394901888011253, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21000785829677973, "train/post_ent_mag": 55.513017576034756, "train/post_ent_max": 55.513017576034756, "train/post_ent_mean": 40.120646385297384, "train/post_ent_min": 19.63905235186015, "train/post_ent_std": 5.839727545437747, "train/prior_ent_mag": 76.79471818061724, "train/prior_ent_max": 76.79471818061724, "train/prior_ent_mean": 45.86106062588627, "train/prior_ent_min": 27.49758513986248, "train/prior_ent_std": 7.936257081489041, "train/rep_loss_mean": 5.767142263177323, "train/rep_loss_std": 8.952524204776712, "train/reward_avg": 0.046722495162936105, "train/reward_loss_mean": 0.06117013479544692, "train/reward_loss_std": 0.2205841596404167, "train/reward_max_data": 1.0246575401253897, "train/reward_max_pred": 1.0259572610463181, "train/reward_neg_acc": 0.9919781978816202, "train/reward_neg_loss": 0.02570394573299444, "train/reward_pos_acc": 0.9900158619227475, "train/reward_pos_loss": 0.7231715060260198, "train/reward_pred": 0.046444336998544326, "train/reward_rate": 0.05098191352739726, "stats/sum_log_reward": 13.43333371480306, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 2.3333333333333335, "stats/max_log_achievement_collect_iron": 0.3333333333333333, "stats/max_log_achievement_collect_sapling": 1.1666666666666667, "stats/max_log_achievement_collect_stone": 22.666666666666668, "stats/max_log_achievement_collect_wood": 11.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_stone_sword": 1.1666666666666667, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 2.5, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 3.3333333333333335, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.4785946061213811, "replay/size": 1000000.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.3264990010972838e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3177854250807789e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.05175137519836, "timer/env.step_count": 1448.0, "timer/env.step_total": 17.339722871780396, "timer/env.step_frac": 0.05778910735334458, "timer/env.step_avg": 0.011974946734654969, "timer/env.step_min": 0.002855539321899414, "timer/env.step_max": 1.668696403503418, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.27715492248535156, "timer/replay.add_frac": 0.0009236904007895106, "timer/replay.add_avg": 0.0001914053332081157, "timer/replay.add_min": 7.390975952148438e-05, "timer/replay.add_max": 0.0044400691986083984, "timer/logger.write_count": 1.0, "timer/logger.write_total": 2.3416852951049805, "timer/logger.write_frac": 0.007804271377762534, "timer/logger.write_avg": 2.3416852951049805, "timer/logger.write_min": 2.3416852951049805, "timer/logger.write_max": 2.3416852951049805, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 10.613988161087036, "timer/agent.policy_frac": 0.03537385838423193, "timer/agent.policy_avg": 0.007330102321192704, "timer/agent.policy_min": 0.005936384201049805, "timer/agent.policy_max": 0.014213323593139648, "timer/dataset_count": 724.0, "timer/dataset_total": 0.05839896202087402, "timer/dataset_frac": 0.00019462963223250545, "timer/dataset_avg": 8.066154975258843e-05, "timer/dataset_min": 6.079673767089844e-05, "timer/dataset_max": 0.00015878677368164062, "timer/agent.train_count": 724.0, "timer/agent.train_total": 268.7640058994293, "timer/agent.train_frac": 0.8957255029095117, "timer/agent.train_avg": 0.37122100262352115, "timer/agent.train_min": 0.3636603355407715, "timer/agent.train_max": 0.38877153396606445, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21857833862304688, "timer/agent.report_frac": 0.0007284687978698933, "timer/agent.report_avg": 0.21857833862304688, "timer/agent.report_min": 0.21857833862304688, "timer/agent.report_max": 0.21857833862304688, "fps": 4.825727739082545}
{"step": 1085189, "episode/length": 217.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.05504587155963303}
{"step": 1085369, "episode/length": 179.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.07777777777777778}
{"step": 1085535, "episode/length": 165.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.07228915662650602}
{"step": 1085681, "episode/length": 145.0, "episode/score": 12.099999964237213, "episode/sum_abs_reward": 13.699999988079071, "episode/reward_rate": 0.08904109589041095}
{"step": 1085854, "episode/length": 172.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.08092485549132948}
{"step": 1085945, "episode/length": 90.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.13186813186813187}
{"step": 1086137, "episode/length": 191.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.06770833333333333}
{"step": 1086414, "episode/length": 276.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.04332129963898917}
{"step": 1086474, "episode/length": 59.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.1}
{"step": 1086523, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.51281308456206, "train/action_min": 0.0, "train/action_std": 3.33427525238252, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.037292832482448766, "train/actor_opt_grad_steps": 542360.0, "train/actor_opt_loss": -11.743545297165992, "train/adv_mag": 0.3779198565113712, "train/adv_max": 0.31324136802847957, "train/adv_mean": 0.0020470015530828648, "train/adv_min": -0.32835883342883954, "train/adv_std": 0.041309224362944215, "train/cont_avg": 0.9950759242957746, "train/cont_loss_mean": 1.5186519623140657e-05, "train/cont_loss_std": 0.0004073760253432533, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00020579220038950197, "train/cont_pos_acc": 0.9999999857284654, "train/cont_pos_loss": 1.3624221240984875e-05, "train/cont_pred": 0.9950656042972081, "train/cont_rate": 0.9950759242957746, "train/dyn_loss_mean": 5.696531228616204, "train/dyn_loss_std": 8.922928420590683, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.90668948603348, "train/extr_critic_critic_opt_grad_steps": 542360.0, "train/extr_critic_critic_opt_loss": 15197.411889304578, "train/extr_critic_mag": 12.611681763554962, "train/extr_critic_max": 12.611681763554962, "train/extr_critic_mean": 3.906117734774737, "train/extr_critic_min": -0.3540684370927408, "train/extr_critic_std": 2.9497968999432844, "train/extr_return_normed_mag": 1.3771878632021621, "train/extr_return_normed_max": 1.3771878632021621, "train/extr_return_normed_mean": 0.40340526045208247, "train/extr_return_normed_min": -0.07842217438237768, "train/extr_return_normed_std": 0.31010989005297, "train/extr_return_rate": 0.8638397278920026, "train/extr_return_raw_mag": 13.27430616298192, "train/extr_return_raw_max": 13.27430616298192, "train/extr_return_raw_mean": 3.9257575794005057, "train/extr_return_raw_min": -0.700612121484649, "train/extr_return_raw_std": 2.977443389489617, "train/extr_reward_mag": 1.0837040451210989, "train/extr_reward_max": 1.0837040451210989, "train/extr_reward_mean": 0.06308703381620662, "train/extr_reward_min": -0.609948821470771, "train/extr_reward_std": 0.24088507428975173, "train/image_loss_mean": 3.3694641019257023, "train/image_loss_std": 8.636933199116882, "train/model_loss_mean": 6.847760764645859, "train/model_loss_std": 12.751500774437273, "train/model_opt_grad_norm": 21.59802471751898, "train/model_opt_grad_steps": 541916.0, "train/model_opt_loss": 17119.401903609156, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6762629764180788, "train/policy_entropy_max": 2.6762629764180788, "train/policy_entropy_mean": 0.39682417625272776, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5998745900644383, "train/policy_logprob_mag": 7.43838429115188, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3969485423934292, "train/policy_logprob_min": -7.43838429115188, "train/policy_logprob_std": 1.0280217184147364, "train/policy_randomness_mag": 0.9446033877386174, "train/policy_randomness_max": 0.9446033877386174, "train/policy_randomness_mean": 0.14006152004003525, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2117294041623532, "train/post_ent_mag": 55.48883572430678, "train/post_ent_max": 55.48883572430678, "train/post_ent_mean": 40.192160324311594, "train/post_ent_min": 19.382724305273783, "train/post_ent_std": 5.80613881097713, "train/prior_ent_mag": 76.8401314104107, "train/prior_ent_max": 76.8401314104107, "train/prior_ent_mean": 45.870206268740375, "train/prior_ent_min": 27.674482775406098, "train/prior_ent_std": 7.891297810514208, "train/rep_loss_mean": 5.696531228616204, "train/rep_loss_std": 8.922928420590683, "train/reward_avg": 0.04641835349546352, "train/reward_loss_mean": 0.060362762391147476, "train/reward_loss_std": 0.22133461438434224, "train/reward_max_data": 1.0267605697604971, "train/reward_max_pred": 1.0284649922814169, "train/reward_neg_acc": 0.9934869668853115, "train/reward_neg_loss": 0.024705496695364863, "train/reward_pos_acc": 0.9883428526596284, "train/reward_pos_loss": 0.730785760241495, "train/reward_pred": 0.045994307609720966, "train/reward_rate": 0.050616197183098594, "stats/sum_log_reward": 10.98888905843099, "stats/max_log_achievement_collect_coal": 0.2222222222222222, "stats/max_log_achievement_collect_drink": 1.8888888888888888, "stats/max_log_achievement_collect_iron": 0.1111111111111111, "stats/max_log_achievement_collect_sapling": 1.1111111111111112, "stats/max_log_achievement_collect_stone": 6.555555555555555, "stats/max_log_achievement_collect_wood": 11.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.2222222222222222, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.2222222222222222, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.5555555555555556, "stats/max_log_achievement_make_stone_sword": 0.3333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2222222222222223, "stats/max_log_achievement_place_furnace": 0.5555555555555556, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 2.7777777777777777, "stats/max_log_achievement_place_table": 3.111111111111111, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.2738477620813582, "replay/size": 1000000.0, "replay/inserts": 1424.0, "replay/samples": 11392.0, "replay/insert_wait_avg": 3.136443288138743e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.379131768526656e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2630264759064, "timer/env.step_count": 1424.0, "timer/env.step_total": 22.49050760269165, "timer/env.step_frac": 0.0749026873759841, "timer/env.step_avg": 0.015793895788407057, "timer/env.step_min": 0.0027468204498291016, "timer/env.step_max": 1.7935583591461182, "timer/replay.add_count": 1424.0, "timer/replay.add_total": 0.2671799659729004, "timer/replay.add_frac": 0.0008898197327480125, "timer/replay.add_avg": 0.0001876263805989469, "timer/replay.add_min": 7.390975952148438e-05, "timer/replay.add_max": 0.0038652420043945312, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02165365219116211, "timer/logger.write_frac": 7.211561291879417e-05, "timer/logger.write_avg": 0.02165365219116211, "timer/logger.write_min": 0.02165365219116211, "timer/logger.write_max": 0.02165365219116211, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00019598007202148438, "timer/checkpoint.save_frac": 6.526946534897801e-07, "timer/checkpoint.save_avg": 0.00019598007202148438, "timer/checkpoint.save_min": 0.00019598007202148438, "timer/checkpoint.save_max": 0.00019598007202148438, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.434345006942749, "timer/agent.save_frac": 0.004776961798384602, "timer/agent.save_avg": 1.434345006942749, "timer/agent.save_min": 1.434345006942749, "timer/agent.save_max": 1.434345006942749, "timer/replay.save_count": 1.0, "timer/replay.save_total": 5.888938903808594e-05, "timer/replay.save_frac": 1.9612600901700204e-07, "timer/replay.save_avg": 5.888938903808594e-05, "timer/replay.save_min": 5.888938903808594e-05, "timer/replay.save_max": 5.888938903808594e-05, "timer/agent.policy_count": 1424.0, "timer/agent.policy_total": 12.515370845794678, "timer/agent.policy_frac": 0.041681358483206164, "timer/agent.policy_avg": 0.008788884020923229, "timer/agent.policy_min": 0.005743980407714844, "timer/agent.policy_max": 1.4266808032989502, "timer/dataset_count": 712.0, "timer/dataset_total": 0.05840778350830078, "timer/dataset_frac": 0.00019452206351815854, "timer/dataset_avg": 8.203340380379324e-05, "timer/dataset_min": 6.127357482910156e-05, "timer/dataset_max": 0.0001614093780517578, "timer/agent.train_count": 712.0, "timer/agent.train_total": 264.26253032684326, "timer/agent.train_frac": 0.8801034660457875, "timer/agent.train_avg": 0.37115523922309446, "timer/agent.train_min": 0.36385202407836914, "timer/agent.train_max": 0.8249003887176514, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21713519096374512, "timer/agent.report_frac": 0.0007231499446075437, "timer/agent.report_avg": 0.21713519096374512, "timer/agent.report_min": 0.21713519096374512, "timer/agent.report_max": 0.21713519096374512, "fps": 4.74241293410283}
{"step": 1086686, "episode/length": 211.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.06132075471698113}
{"step": 1086910, "episode/length": 223.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.06696428571428571}
{"step": 1087065, "episode/length": 154.0, "episode/score": 7.099999979138374, "episode/sum_abs_reward": 9.30000002682209, "episode/reward_rate": 0.05161290322580645}
{"step": 1087326, "episode/length": 260.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.05747126436781609}
{"step": 1087513, "episode/length": 186.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.06951871657754011}
{"step": 1087743, "episode/length": 229.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.04782608695652174}
{"step": 1087967, "episode/length": 223.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.05803571428571429}
{"step": 1087979, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.464495933219178, "train/action_min": 0.0, "train/action_std": 3.2546155681348825, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0375203371099005, "train/actor_opt_grad_steps": 543080.0, "train/actor_opt_loss": -10.218846541561492, "train/adv_mag": 0.4052364544509208, "train/adv_max": 0.3304239840131916, "train/adv_mean": 0.0022257425052760495, "train/adv_min": -0.3573125880466749, "train/adv_std": 0.04181767627596855, "train/cont_avg": 0.9953178510273972, "train/cont_loss_mean": 8.169765822829081e-06, "train/cont_loss_std": 0.00022788779084101108, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0011246208000158643, "train/cont_pos_acc": 0.9999999779544465, "train/cont_pos_loss": 3.895857937476344e-06, "train/cont_pred": 0.9953179947317463, "train/cont_rate": 0.9953178510273972, "train/dyn_loss_mean": 5.735440698388505, "train/dyn_loss_std": 8.961869069974716, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9092062507590203, "train/extr_critic_critic_opt_grad_steps": 543080.0, "train/extr_critic_critic_opt_loss": 15221.633387735445, "train/extr_critic_mag": 12.4248892509774, "train/extr_critic_max": 12.4248892509774, "train/extr_critic_mean": 3.9571085564077717, "train/extr_critic_min": -0.33175003691895366, "train/extr_critic_std": 2.9523049739942158, "train/extr_return_normed_mag": 1.368809606930981, "train/extr_return_normed_max": 1.368809606930981, "train/extr_return_normed_mean": 0.4078213131591065, "train/extr_return_normed_min": -0.07910273142465174, "train/extr_return_normed_std": 0.30939518650100656, "train/extr_return_rate": 0.877571214551795, "train/extr_return_raw_mag": 13.22317259279016, "train/extr_return_raw_max": 13.22317259279016, "train/extr_return_raw_mean": 3.9785058857643443, "train/extr_return_raw_min": -0.7056593098869063, "train/extr_return_raw_std": 2.976372531015579, "train/extr_reward_mag": 1.0753486221783781, "train/extr_reward_max": 1.0753486221783781, "train/extr_reward_mean": 0.0633704239272908, "train/extr_reward_min": -0.6310569929749998, "train/extr_reward_std": 0.2416552039858413, "train/image_loss_mean": 3.405141205003817, "train/image_loss_std": 9.063062498014267, "train/model_loss_mean": 6.907512638666859, "train/model_loss_std": 13.159505974756529, "train/model_opt_grad_norm": 20.292822524292827, "train/model_opt_grad_steps": 542635.0821917808, "train/model_opt_loss": 17770.419988762842, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2568.4931506849316, "train/policy_entropy_mag": 2.6865451629847694, "train/policy_entropy_max": 2.6865451629847694, "train/policy_entropy_mean": 0.4074742555210035, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6127366893095513, "train/policy_logprob_mag": 7.438384310839927, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40785195341665453, "train/policy_logprob_min": -7.438384310839927, "train/policy_logprob_std": 1.035186960272593, "train/policy_randomness_mag": 0.948232547877586, "train/policy_randomness_max": 0.948232547877586, "train/policy_randomness_mean": 0.14382053044152587, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21626916139909666, "train/post_ent_mag": 55.77949628438035, "train/post_ent_max": 55.77949628438035, "train/post_ent_mean": 40.18127770619849, "train/post_ent_min": 19.6025469270471, "train/post_ent_std": 5.887459833328038, "train/prior_ent_mag": 76.81821546162645, "train/prior_ent_max": 76.81821546162645, "train/prior_ent_mean": 45.94650101335081, "train/prior_ent_min": 27.18324645578045, "train/prior_ent_std": 7.993063998548952, "train/rep_loss_mean": 5.735440698388505, "train/rep_loss_std": 8.961869069974716, "train/reward_avg": 0.04681480091626514, "train/reward_loss_mean": 0.061098906479469715, "train/reward_loss_std": 0.22094080852319117, "train/reward_max_data": 1.019178086764192, "train/reward_max_pred": 1.0161414277063656, "train/reward_neg_acc": 0.992885411602177, "train/reward_neg_loss": 0.025328556152239237, "train/reward_pos_acc": 0.9906300347145289, "train/reward_pos_loss": 0.7259111290108667, "train/reward_pred": 0.0464059213967356, "train/reward_rate": 0.05103542380136986, "stats/sum_log_reward": 11.671428884778704, "stats/max_log_achievement_collect_coal": 0.14285714285714285, "stats/max_log_achievement_collect_drink": 2.142857142857143, "stats/max_log_achievement_collect_iron": 0.42857142857142855, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 9.571428571428571, "stats/max_log_achievement_collect_wood": 13.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5714285714285714, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.7142857142857143, "stats/max_log_achievement_place_plant": 1.7142857142857142, "stats/max_log_achievement_place_stone": 2.2857142857142856, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.3648660012653896, "replay/size": 1000000.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.2466519009935986e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3317503444441072e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.33918476104736, "timer/env.step_count": 1456.0, "timer/env.step_total": 18.50408411026001, "timer/env.step_frac": 0.061610622420054946, "timer/env.step_avg": 0.01270884897682693, "timer/env.step_min": 0.0028650760650634766, "timer/env.step_max": 1.6319282054901123, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.29319167137145996, "timer/replay.add_frac": 0.0009762018619206347, "timer/replay.add_avg": 0.00020136790616171702, "timer/replay.add_min": 8.0108642578125e-05, "timer/replay.add_max": 0.004503726959228516, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023938655853271484, "timer/logger.write_frac": 7.970540331697744e-05, "timer/logger.write_avg": 0.023938655853271484, "timer/logger.write_min": 0.023938655853271484, "timer/logger.write_max": 0.023938655853271484, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 10.666501760482788, "timer/agent.policy_frac": 0.035514852212737924, "timer/agent.policy_avg": 0.007325894066265651, "timer/agent.policy_min": 0.0057947635650634766, "timer/agent.policy_max": 0.013843774795532227, "timer/dataset_count": 728.0, "timer/dataset_total": 0.05890941619873047, "timer/dataset_frac": 0.00019614295832093753, "timer/dataset_avg": 8.091952774550889e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.00015735626220703125, "timer/agent.train_count": 728.0, "timer/agent.train_total": 270.1274492740631, "timer/agent.train_frac": 0.8994079460160319, "timer/agent.train_avg": 0.3710541885632735, "timer/agent.train_min": 0.36035752296447754, "timer/agent.train_max": 0.3835024833679199, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21934008598327637, "timer/agent.report_frac": 0.0007303079222172937, "timer/agent.report_avg": 0.21934008598327637, "timer/agent.report_min": 0.21934008598327637, "timer/agent.report_max": 0.21934008598327637, "fps": 4.847752834624522}
{"step": 1088146, "episode/length": 178.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.0782122905027933}
{"step": 1088377, "episode/length": 230.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.06060606060606061}
{"step": 1088613, "episode/length": 235.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.100000038743019, "episode/reward_rate": 0.05508474576271186}
{"step": 1088999, "episode/length": 385.0, "episode/score": 14.099999979138374, "episode/sum_abs_reward": 16.30000002682209, "episode/reward_rate": 0.038860103626943004}
{"step": 1089237, "episode/length": 237.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.06302521008403361}
{"step": 1089448, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.415836700021404, "train/action_min": 0.0, "train/action_std": 3.283212501708775, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03619053357676284, "train/actor_opt_grad_steps": 543810.0, "train/actor_opt_loss": -12.39511321240092, "train/adv_mag": 0.3986943737693029, "train/adv_max": 0.31613075753597364, "train/adv_mean": 0.0013101834322709418, "train/adv_min": -0.3606737903127932, "train/adv_std": 0.041265248639942846, "train/cont_avg": 0.9952242080479452, "train/cont_loss_mean": 6.899819526196308e-05, "train/cont_loss_std": 0.0021518374863602084, "train/cont_neg_acc": 0.9963307250035952, "train/cont_neg_loss": 0.006449462426171401, "train/cont_pos_acc": 0.9999865211852609, "train/cont_pos_loss": 2.2349879543915522e-05, "train/cont_pred": 0.99523331694407, "train/cont_rate": 0.9952242080479452, "train/dyn_loss_mean": 5.832785266719452, "train/dyn_loss_std": 8.924529807208335, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9237231906146219, "train/extr_critic_critic_opt_grad_steps": 543810.0, "train/extr_critic_critic_opt_loss": 15189.73091020976, "train/extr_critic_mag": 12.447007296836539, "train/extr_critic_max": 12.447007296836539, "train/extr_critic_mean": 3.9001089383478034, "train/extr_critic_min": -0.34951285140155114, "train/extr_critic_std": 2.973228644018304, "train/extr_return_normed_mag": 1.3618856831772688, "train/extr_return_normed_max": 1.3618856831772688, "train/extr_return_normed_mean": 0.4012485932405681, "train/extr_return_normed_min": -0.07742467440970957, "train/extr_return_normed_std": 0.31219118078277536, "train/extr_return_rate": 0.8626989240515722, "train/extr_return_raw_mag": 13.1429277446172, "train/extr_return_raw_max": 13.1429277446172, "train/extr_return_raw_mean": 3.912707217752117, "train/extr_return_raw_min": -0.6869375664893895, "train/extr_return_raw_std": 3.0001525225704664, "train/extr_reward_mag": 1.0847163722939688, "train/extr_reward_max": 1.0847163722939688, "train/extr_reward_mean": 0.06329282301746003, "train/extr_reward_min": -0.5972455805295134, "train/extr_reward_std": 0.24148307312024783, "train/image_loss_mean": 3.4279381053088462, "train/image_loss_std": 8.755918639979951, "train/model_loss_mean": 6.98889401840837, "train/model_loss_std": 12.90493084633187, "train/model_opt_grad_norm": 22.614268329045544, "train/model_opt_grad_steps": 543364.493150685, "train/model_opt_loss": 18138.683821168663, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2602.7397260273974, "train/policy_entropy_mag": 2.692024962542808, "train/policy_entropy_max": 2.692024962542808, "train/policy_entropy_mean": 0.41240023790973507, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6198709329513654, "train/policy_logprob_mag": 7.438384271647832, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4111331280780165, "train/policy_logprob_min": -7.438384271647832, "train/policy_logprob_std": 1.0336475143693897, "train/policy_randomness_mag": 0.9501666728764364, "train/policy_randomness_max": 0.9501666728764364, "train/policy_randomness_mean": 0.1455591868047845, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21878724045132938, "train/post_ent_mag": 54.907786016594876, "train/post_ent_max": 54.907786016594876, "train/post_ent_mean": 40.20672853025672, "train/post_ent_min": 19.673257252941394, "train/post_ent_std": 5.809438868744732, "train/prior_ent_mag": 76.76383271935867, "train/prior_ent_max": 76.76383271935867, "train/prior_ent_mean": 46.06106661443841, "train/prior_ent_min": 27.85493986573938, "train/prior_ent_std": 7.806595077253368, "train/rep_loss_mean": 5.832785266719452, "train/rep_loss_std": 8.924529807208335, "train/reward_avg": 0.04684556910946761, "train/reward_loss_mean": 0.06121576398815194, "train/reward_loss_std": 0.21738538411382127, "train/reward_max_data": 1.0315068568268868, "train/reward_max_pred": 1.034081516200549, "train/reward_neg_acc": 0.9924878445390153, "train/reward_neg_loss": 0.025763564653796693, "train/reward_pos_acc": 0.991527063389347, "train/reward_pos_loss": 0.7196229108392376, "train/reward_pred": 0.046538161496593525, "train/reward_rate": 0.051142444349315065, "stats/sum_log_reward": 13.300000190734863, "stats/max_log_achievement_collect_coal": 1.2, "stats/max_log_achievement_collect_drink": 3.4, "stats/max_log_achievement_collect_iron": 0.6, "stats/max_log_achievement_collect_sapling": 1.6, "stats/max_log_achievement_collect_stone": 20.6, "stats/max_log_achievement_collect_wood": 13.4, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.2, "stats/max_log_achievement_make_stone_sword": 1.2, "stats/max_log_achievement_make_wood_pickaxe": 1.2, "stats/max_log_achievement_make_wood_sword": 1.2, "stats/max_log_achievement_place_furnace": 3.0, "stats/max_log_achievement_place_plant": 1.6, "stats/max_log_achievement_place_stone": 4.6, "stats/max_log_achievement_place_table": 3.6, "stats/max_log_achievement_wake_up": 1.2, "stats/mean_log_entropy": 0.5058990567922592, "replay/size": 1000000.0, "replay/inserts": 1469.0, "replay/samples": 11744.0, "replay/insert_wait_avg": 3.2899816317003224e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.319219695774671e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 299.9973678588867, "timer/env.step_count": 1469.0, "timer/env.step_total": 15.714397668838501, "timer/env.step_frac": 0.05238178515029594, "timer/env.step_avg": 0.010697343545839687, "timer/env.step_min": 0.0027573108673095703, "timer/env.step_max": 1.5860755443572998, "timer/replay.add_count": 1469.0, "timer/replay.add_total": 0.2905294895172119, "timer/replay.add_frac": 0.000968440128627634, "timer/replay.add_avg": 0.00019777364841198905, "timer/replay.add_min": 7.557868957519531e-05, "timer/replay.add_max": 0.005314350128173828, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02376556396484375, "timer/logger.write_frac": 7.921924160355513e-05, "timer/logger.write_avg": 0.02376556396484375, "timer/logger.write_min": 0.02376556396484375, "timer/logger.write_max": 0.02376556396484375, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1469.0, "timer/agent.policy_total": 10.835735559463501, "timer/agent.policy_frac": 0.03611943543638167, "timer/agent.policy_avg": 0.007376266548307353, "timer/agent.policy_min": 0.005786895751953125, "timer/agent.policy_max": 0.015111446380615234, "timer/dataset_count": 734.0, "timer/dataset_total": 0.059911489486694336, "timer/dataset_frac": 0.00019970671714318375, "timer/dataset_avg": 8.162328267942007e-05, "timer/dataset_min": 6.151199340820312e-05, "timer/dataset_max": 0.0001461505889892578, "timer/agent.train_count": 734.0, "timer/agent.train_total": 272.4193341732025, "timer/agent.train_frac": 0.9080724144931285, "timer/agent.train_avg": 0.37114350704795984, "timer/agent.train_min": 0.36387133598327637, "timer/agent.train_max": 0.3876969814300537, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21611618995666504, "timer/agent.report_frac": 0.0007203936204477706, "timer/agent.report_avg": 0.21611618995666504, "timer/agent.report_min": 0.21611618995666504, "timer/agent.report_max": 0.21611618995666504, "fps": 4.896617275979943}
{"step": 1089488, "episode/length": 250.0, "episode/score": 12.100000016391277, "episode/sum_abs_reward": 15.900000058114529, "episode/reward_rate": 0.055776892430278883}
{"step": 1089760, "episode/length": 271.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.500000022351742, "episode/reward_rate": 0.058823529411764705}
{"step": 1089961, "episode/length": 200.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.04975124378109453}
{"step": 1090208, "episode/length": 246.0, "episode/score": 12.099999994039536, "episode/sum_abs_reward": 14.300000041723251, "episode/reward_rate": 0.05263157894736842}
{"step": 1090408, "episode/length": 199.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.075}
{"step": 1090547, "episode/length": 138.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.07194244604316546}
{"step": 1090729, "episode/length": 181.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.07142857142857142}
{"step": 1090867, "episode/length": 137.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.07971014492753623}
{"step": 1090873, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.471550739986796, "train/action_min": 0.0, "train/action_std": 3.3226830623519255, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03755942656015846, "train/actor_opt_grad_steps": 544530.0, "train/actor_opt_loss": -12.782020040590998, "train/adv_mag": 0.36914100487467266, "train/adv_max": 0.3012902623331043, "train/adv_mean": 0.001693841472676378, "train/adv_min": -0.3448800257813763, "train/adv_std": 0.0419283808327057, "train/cont_avg": 0.9952547315140845, "train/cont_loss_mean": 4.985922987803944e-06, "train/cont_loss_std": 0.00014578302328296033, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0002532327793863637, "train/cont_pos_acc": 0.9999999756544409, "train/cont_pos_loss": 3.351852714132119e-06, "train/cont_pred": 0.9952531255466838, "train/cont_rate": 0.9952547315140845, "train/dyn_loss_mean": 5.7693708648144355, "train/dyn_loss_std": 9.01169004574628, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8921176732425958, "train/extr_critic_critic_opt_grad_steps": 544530.0, "train/extr_critic_critic_opt_loss": 15295.462766835388, "train/extr_critic_mag": 12.503665198742503, "train/extr_critic_max": 12.503665198742503, "train/extr_critic_mean": 3.901594658972512, "train/extr_critic_min": -0.3332555327616947, "train/extr_critic_std": 2.952698166941253, "train/extr_return_normed_mag": 1.3650927896230993, "train/extr_return_normed_max": 1.3650927896230993, "train/extr_return_normed_mean": 0.4011563549579029, "train/extr_return_normed_min": -0.07375975052865458, "train/extr_return_normed_std": 0.3085987666543101, "train/extr_return_rate": 0.8649675871284914, "train/extr_return_raw_mag": 13.226998624667315, "train/extr_return_raw_max": 13.226998624667315, "train/extr_return_raw_mean": 3.917948648963176, "train/extr_return_raw_min": -0.6687511377771136, "train/extr_return_raw_std": 2.9803255645322126, "train/extr_reward_mag": 1.0835571893503968, "train/extr_reward_max": 1.0835571893503968, "train/extr_reward_mean": 0.06391700918615704, "train/extr_reward_min": -0.5987895072346002, "train/extr_reward_std": 0.2422839600435445, "train/image_loss_mean": 3.470295916140919, "train/image_loss_std": 8.90858946383839, "train/model_loss_mean": 6.992150058209057, "train/model_loss_std": 13.11419785190636, "train/model_opt_grad_norm": 20.33360690801916, "train/model_opt_grad_steps": 544083.9577464788, "train/model_opt_loss": 18631.63806668134, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2676.056338028169, "train/policy_entropy_mag": 2.681616766352049, "train/policy_entropy_max": 2.681616766352049, "train/policy_entropy_mean": 0.41435291859465584, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6197377833682047, "train/policy_logprob_mag": 7.438384284435863, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41458098779261954, "train/policy_logprob_min": -7.438384284435863, "train/policy_logprob_std": 1.0398258827102016, "train/policy_randomness_mag": 0.9464930388289439, "train/policy_randomness_max": 0.9464930388289439, "train/policy_randomness_mean": 0.14624839737801484, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21874024183817312, "train/post_ent_mag": 55.56032734185877, "train/post_ent_max": 55.56032734185877, "train/post_ent_mean": 40.20338837529572, "train/post_ent_min": 19.735039214013327, "train/post_ent_std": 5.848374541376678, "train/prior_ent_mag": 76.8116708674901, "train/prior_ent_max": 76.8116708674901, "train/prior_ent_mean": 45.96978695291868, "train/prior_ent_min": 27.45753871219259, "train/prior_ent_std": 7.939398631243638, "train/rep_loss_mean": 5.7693708648144355, "train/rep_loss_std": 9.01169004574628, "train/reward_avg": 0.045444541728832354, "train/reward_loss_mean": 0.060226780008262315, "train/reward_loss_std": 0.21925230492168749, "train/reward_max_data": 1.0366197270406803, "train/reward_max_pred": 1.0308642185909647, "train/reward_neg_acc": 0.9922558220339494, "train/reward_neg_loss": 0.025311318239275838, "train/reward_pos_acc": 0.9905049448281946, "train/reward_pos_loss": 0.7252728091159337, "train/reward_pred": 0.04500603350535245, "train/reward_rate": 0.049928477112676055, "stats/sum_log_reward": 11.725000143051147, "stats/max_log_achievement_collect_coal": 1.375, "stats/max_log_achievement_collect_drink": 3.375, "stats/max_log_achievement_collect_iron": 0.125, "stats/max_log_achievement_collect_sapling": 1.25, "stats/max_log_achievement_collect_stone": 16.75, "stats/max_log_achievement_collect_wood": 11.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.625, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.625, "stats/max_log_achievement_make_stone_sword": 0.625, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 3.5, "stats/max_log_achievement_place_table": 2.375, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.34873902052640915, "replay/size": 1000000.0, "replay/inserts": 1425.0, "replay/samples": 11408.0, "replay/insert_wait_avg": 3.264410453930236e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3230475603614582e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2110562324524, "timer/env.step_count": 1425.0, "timer/env.step_total": 21.806787967681885, "timer/env.step_frac": 0.07263819074936721, "timer/env.step_avg": 0.015303009100127638, "timer/env.step_min": 0.0028455257415771484, "timer/env.step_max": 1.7998554706573486, "timer/replay.add_count": 1425.0, "timer/replay.add_total": 0.27431511878967285, "timer/replay.add_frac": 0.0009137408935974416, "timer/replay.add_avg": 0.00019250183774713884, "timer/replay.add_min": 7.319450378417969e-05, "timer/replay.add_max": 0.003942966461181641, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03131914138793945, "timer/logger.write_frac": 0.00010432374403855783, "timer/logger.write_avg": 0.03131914138793945, "timer/logger.write_min": 0.03131914138793945, "timer/logger.write_max": 0.03131914138793945, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003414154052734375, "timer/checkpoint.save_frac": 1.137251271016084e-06, "timer/checkpoint.save_avg": 0.0003414154052734375, "timer/checkpoint.save_min": 0.0003414154052734375, "timer/checkpoint.save_max": 0.0003414154052734375, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4100182056427002, "timer/agent.save_frac": 0.004696756419759997, "timer/agent.save_avg": 1.4100182056427002, "timer/agent.save_min": 1.4100182056427002, "timer/agent.save_max": 1.4100182056427002, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.62939453125e-05, "timer/replay.save_frac": 2.5413436223823104e-07, "timer/replay.save_avg": 7.62939453125e-05, "timer/replay.save_min": 7.62939453125e-05, "timer/replay.save_max": 7.62939453125e-05, "timer/agent.policy_count": 1425.0, "timer/agent.policy_total": 12.446131229400635, "timer/agent.policy_frac": 0.04145793757763418, "timer/agent.policy_avg": 0.00873412717852676, "timer/agent.policy_min": 0.005673408508300781, "timer/agent.policy_max": 1.404874324798584, "timer/dataset_count": 713.0, "timer/dataset_total": 0.058357954025268555, "timer/dataset_frac": 0.0001943897561856689, "timer/dataset_avg": 8.184846286853935e-05, "timer/dataset_min": 5.936622619628906e-05, "timer/dataset_max": 0.00018262863159179688, "timer/agent.train_count": 713.0, "timer/agent.train_total": 264.9418206214905, "timer/agent.train_frac": 0.8825185319502254, "timer/agent.train_avg": 0.3715874062012489, "timer/agent.train_min": 0.36263513565063477, "timer/agent.train_max": 0.8040492534637451, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21785616874694824, "timer/agent.report_frac": 0.0007256767005218587, "timer/agent.report_avg": 0.21785616874694824, "timer/agent.report_min": 0.21785616874694824, "timer/agent.report_max": 0.21785616874694824, "fps": 4.746562737258819}
{"step": 1091140, "episode/length": 272.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.05128205128205128}
{"step": 1091334, "episode/length": 193.0, "episode/score": 12.100000016391277, "episode/sum_abs_reward": 14.1000000461936, "episode/reward_rate": 0.06701030927835051}
{"step": 1091577, "episode/length": 242.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.04526748971193416}
{"step": 1091783, "episode/length": 205.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.05339805825242718}
{"step": 1092007, "episode/length": 223.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.05803571428571429}
{"step": 1092276, "episode/length": 268.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.69999998062849, "episode/reward_rate": 0.05947955390334572}
{"step": 1092335, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.442550032106165, "train/action_min": 0.0, "train/action_std": 3.3027385358941066, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03729384933432488, "train/actor_opt_grad_steps": 545250.0, "train/actor_opt_loss": -11.34537391425812, "train/adv_mag": 0.38510204116775565, "train/adv_max": 0.31817981968187303, "train/adv_mean": 0.0017283053944644451, "train/adv_min": -0.35526653879309356, "train/adv_std": 0.04149178849303559, "train/cont_avg": 0.9954248715753424, "train/cont_loss_mean": 3.879717984384819e-05, "train/cont_loss_std": 0.0011254259625532116, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.004865303668712255, "train/cont_pos_acc": 0.9999999893854742, "train/cont_pos_loss": 1.801376771267819e-05, "train/cont_pred": 0.9954266107245667, "train/cont_rate": 0.9954248715753424, "train/dyn_loss_mean": 5.690210022338449, "train/dyn_loss_std": 8.870970118535707, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8900430553579983, "train/extr_critic_critic_opt_grad_steps": 545250.0, "train/extr_critic_critic_opt_loss": 15252.811483304795, "train/extr_critic_mag": 12.499836477514815, "train/extr_critic_max": 12.499836477514815, "train/extr_critic_mean": 3.903429201204483, "train/extr_critic_min": -0.32761620985318535, "train/extr_critic_std": 2.93717507466878, "train/extr_return_normed_mag": 1.367998524887921, "train/extr_return_normed_max": 1.367998524887921, "train/extr_return_normed_mean": 0.40200452588192404, "train/extr_return_normed_min": -0.07032724301496597, "train/extr_return_normed_std": 0.3076164634668664, "train/extr_return_rate": 0.8680874117433208, "train/extr_return_raw_mag": 13.22637705606957, "train/extr_return_raw_max": 13.22637705606957, "train/extr_return_raw_mean": 3.9200960120109665, "train/extr_return_raw_min": -0.6302693633184041, "train/extr_return_raw_std": 2.9634806228010624, "train/extr_reward_mag": 1.0826765086552868, "train/extr_reward_max": 1.0826765086552868, "train/extr_reward_mean": 0.06224871758524686, "train/extr_reward_min": -0.562455949718005, "train/extr_reward_std": 0.239312058646385, "train/image_loss_mean": 3.29109242027753, "train/image_loss_std": 8.365900797386692, "train/model_loss_mean": 6.766105370978787, "train/model_loss_std": 12.448358483510475, "train/model_opt_grad_norm": 22.851882359752917, "train/model_opt_grad_steps": 544802.7260273972, "train/model_opt_loss": 14485.949285637842, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2157.5342465753424, "train/policy_entropy_mag": 2.694036754843307, "train/policy_entropy_max": 2.694036754843307, "train/policy_entropy_mean": 0.41248528230680176, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6252792726640832, "train/policy_logprob_mag": 7.438384278179848, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41215456695589303, "train/policy_logprob_min": -7.438384278179848, "train/policy_logprob_std": 1.0386814221943894, "train/policy_randomness_mag": 0.9508767503581635, "train/policy_randomness_max": 0.9508767503581635, "train/policy_randomness_mean": 0.14558920315275453, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22069614370391794, "train/post_ent_mag": 55.23791791314948, "train/post_ent_max": 55.23791791314948, "train/post_ent_mean": 40.29190037348499, "train/post_ent_min": 19.663946308501778, "train/post_ent_std": 5.700557989616916, "train/prior_ent_mag": 76.83021148263592, "train/prior_ent_max": 76.83021148263592, "train/prior_ent_mean": 45.894200468716555, "train/prior_ent_min": 27.822599907443948, "train/prior_ent_std": 7.756489505506542, "train/rep_loss_mean": 5.690210022338449, "train/rep_loss_std": 8.870970118535707, "train/reward_avg": 0.04591716570805197, "train/reward_loss_mean": 0.06084816407871573, "train/reward_loss_std": 0.22835513500318136, "train/reward_max_data": 1.028767130146288, "train/reward_max_pred": 1.029344581577876, "train/reward_neg_acc": 0.9928324777786046, "train/reward_neg_loss": 0.02579967000151742, "train/reward_pos_acc": 0.9911298800821173, "train/reward_pos_loss": 0.724466913366971, "train/reward_pred": 0.045522223596703514, "train/reward_rate": 0.050299657534246575, "stats/sum_log_reward": 11.93333355585734, "stats/max_log_achievement_collect_coal": 0.0, "stats/max_log_achievement_collect_drink": 4.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 11.666666666666666, "stats/max_log_achievement_collect_wood": 15.0, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 2.3333333333333335, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_stone_sword": 2.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_stone": 1.3333333333333333, "stats/max_log_achievement_place_table": 4.166666666666667, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.4493145744005839, "replay/size": 1000000.0, "replay/inserts": 1462.0, "replay/samples": 11696.0, "replay/insert_wait_avg": 3.2785000781517185e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3341533501725517e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2564239501953, "timer/env.step_count": 1462.0, "timer/env.step_total": 17.129722356796265, "timer/env.step_frac": 0.057050310968992414, "timer/env.step_avg": 0.011716636358957774, "timer/env.step_min": 0.002721071243286133, "timer/env.step_max": 1.568401575088501, "timer/replay.add_count": 1462.0, "timer/replay.add_total": 0.2818589210510254, "timer/replay.add_frac": 0.0009387273629082401, "timer/replay.add_avg": 0.00019278995967922393, "timer/replay.add_min": 7.486343383789062e-05, "timer/replay.add_max": 0.003943204879760742, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02727961540222168, "timer/logger.write_frac": 9.085439386551362e-05, "timer/logger.write_avg": 0.02727961540222168, "timer/logger.write_min": 0.02727961540222168, "timer/logger.write_max": 0.02727961540222168, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1462.0, "timer/agent.policy_total": 10.769170761108398, "timer/agent.policy_frac": 0.035866579037438756, "timer/agent.policy_avg": 0.0073660538721671675, "timer/agent.policy_min": 0.005797624588012695, "timer/agent.policy_max": 0.014442205429077148, "timer/dataset_count": 731.0, "timer/dataset_total": 0.05891919136047363, "timer/dataset_frac": 0.0001962295779898011, "timer/dataset_avg": 8.060080897465614e-05, "timer/dataset_min": 6.127357482910156e-05, "timer/dataset_max": 0.0001590251922607422, "timer/agent.train_count": 731.0, "timer/agent.train_total": 271.33320713043213, "timer/agent.train_frac": 0.9036716136186289, "timer/agent.train_avg": 0.3711808579075679, "timer/agent.train_min": 0.3652637004852295, "timer/agent.train_max": 0.38413023948669434, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.219679594039917, "timer/agent.report_frac": 0.0007316399467821415, "timer/agent.report_avg": 0.219679594039917, "timer/agent.report_min": 0.219679594039917, "timer/agent.report_max": 0.219679594039917, "fps": 4.869069673227779}
{"step": 1092543, "episode/length": 266.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.299999997019768, "episode/reward_rate": 0.0599250936329588}
{"step": 1092844, "episode/length": 300.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 17.700000040233135, "episode/reward_rate": 0.053156146179401995}
{"step": 1093027, "episode/length": 182.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.07103825136612021}
{"step": 1093162, "episode/length": 134.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.1037037037037037}
{"step": 1093392, "episode/length": 229.0, "episode/score": 12.099999994039536, "episode/sum_abs_reward": 14.700000017881393, "episode/reward_rate": 0.06086956521739131}
{"step": 1093629, "episode/length": 236.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.700000002980232, "episode/reward_rate": 0.06751054852320675}
{"step": 1093795, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.356592465753424, "train/action_min": 0.0, "train/action_std": 3.245576362087302, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03733442363979882, "train/actor_opt_grad_steps": 545980.0, "train/actor_opt_loss": -13.45423794772527, "train/adv_mag": 0.41017639208329865, "train/adv_max": 0.3289469931631872, "train/adv_mean": 0.001428544397241825, "train/adv_min": -0.3650693464769076, "train/adv_std": 0.0419376050058293, "train/cont_avg": 0.9949700342465754, "train/cont_loss_mean": 5.967875369165459e-05, "train/cont_loss_std": 0.001800013837036615, "train/cont_neg_acc": 0.9965753424657534, "train/cont_neg_loss": 0.01085079847803969, "train/cont_pos_acc": 0.9999999861194663, "train/cont_pos_loss": 1.3020207440109043e-05, "train/cont_pred": 0.9949786246639408, "train/cont_rate": 0.9949700342465754, "train/dyn_loss_mean": 5.786191731283109, "train/dyn_loss_std": 8.938813823543184, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9096092777709438, "train/extr_critic_critic_opt_grad_steps": 545980.0, "train/extr_critic_critic_opt_loss": 15268.976401969177, "train/extr_critic_mag": 12.615881188275063, "train/extr_critic_max": 12.615881188275063, "train/extr_critic_mean": 3.962092553099541, "train/extr_critic_min": -0.3458973381617298, "train/extr_critic_std": 3.036925782896068, "train/extr_return_normed_mag": 1.3809727283373272, "train/extr_return_normed_max": 1.3809727283373272, "train/extr_return_normed_mean": 0.40919222203019545, "train/extr_return_normed_min": -0.0717719873949273, "train/extr_return_normed_std": 0.3182380403557869, "train/extr_return_rate": 0.8637245387247164, "train/extr_return_raw_mag": 13.338511022802901, "train/extr_return_raw_max": 13.338511022802901, "train/extr_return_raw_mean": 3.9758529826386333, "train/extr_return_raw_min": -0.6577550879080002, "train/extr_return_raw_std": 3.0664114331545895, "train/extr_reward_mag": 1.0808969654449045, "train/extr_reward_max": 1.0808969654449045, "train/extr_reward_mean": 0.06399471782249948, "train/extr_reward_min": -0.5575439864642, "train/extr_reward_std": 0.24306341332115539, "train/image_loss_mean": 3.3078814924579776, "train/image_loss_std": 8.499197718215315, "train/model_loss_mean": 6.841224761858379, "train/model_loss_std": 12.645051877792568, "train/model_opt_grad_norm": 19.343977052871494, "train/model_opt_grad_steps": 545532.0, "train/model_opt_loss": 8551.53094900471, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.710403569757122, "train/policy_entropy_max": 2.710403569757122, "train/policy_entropy_mean": 0.4203942526284962, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6302812564862917, "train/policy_logprob_mag": 7.438384238987753, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4192471634851743, "train/policy_logprob_min": -7.438384238987753, "train/policy_logprob_std": 1.0405378031404051, "train/policy_randomness_mag": 0.9566535157700108, "train/policy_randomness_max": 0.9566535157700108, "train/policy_randomness_mean": 0.14838072269746702, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2224616234841412, "train/post_ent_mag": 55.44328234946891, "train/post_ent_max": 55.44328234946891, "train/post_ent_mean": 40.168383350111036, "train/post_ent_min": 19.765021049813047, "train/post_ent_std": 5.786829870041102, "train/prior_ent_mag": 76.80013567780796, "train/prior_ent_max": 76.80013567780796, "train/prior_ent_mean": 45.96539797848218, "train/prior_ent_min": 27.924103854453726, "train/prior_ent_std": 7.92902693683154, "train/rep_loss_mean": 5.786191731283109, "train/rep_loss_std": 8.938813823543184, "train/reward_avg": 0.04742615537284172, "train/reward_loss_mean": 0.061568532700408, "train/reward_loss_std": 0.2217342153395692, "train/reward_max_data": 1.038356173528384, "train/reward_max_pred": 1.0374656670714077, "train/reward_neg_acc": 0.9935151534537746, "train/reward_neg_loss": 0.025489768370577735, "train/reward_pos_acc": 0.9906430097475444, "train/reward_pos_loss": 0.7209604137564358, "train/reward_pred": 0.04716589518707909, "train/reward_rate": 0.05194509845890411, "stats/sum_log_reward": 13.43333371480306, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 2.6666666666666665, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 14.333333333333334, "stats/max_log_achievement_collect_wood": 15.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.1666666666666667, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.5, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.6666666666666667, "stats/max_log_achievement_place_furnace": 1.8333333333333333, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 3.8333333333333335, "stats/max_log_achievement_place_table": 4.166666666666667, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.5084093908468882, "replay/size": 1000000.0, "replay/inserts": 1460.0, "replay/samples": 11680.0, "replay/insert_wait_avg": 3.272050047573978e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3092405175509517e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0806682109833, "timer/env.step_count": 1460.0, "timer/env.step_total": 17.36903667449951, "timer/env.step_frac": 0.05788122499876447, "timer/env.step_avg": 0.011896600461985967, "timer/env.step_min": 0.002844572067260742, "timer/env.step_max": 1.6050257682800293, "timer/replay.add_count": 1460.0, "timer/replay.add_total": 0.30693960189819336, "timer/replay.add_frac": 0.001022856966188797, "timer/replay.add_avg": 0.00021023260403985847, "timer/replay.add_min": 7.319450378417969e-05, "timer/replay.add_max": 0.009969949722290039, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025043725967407227, "timer/logger.write_frac": 8.345664556371645e-05, "timer/logger.write_avg": 0.025043725967407227, "timer/logger.write_min": 0.025043725967407227, "timer/logger.write_max": 0.025043725967407227, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1460.0, "timer/agent.policy_total": 10.776229858398438, "timer/agent.policy_frac": 0.035911109911358215, "timer/agent.policy_avg": 0.007380979355067423, "timer/agent.policy_min": 0.005738973617553711, "timer/agent.policy_max": 0.018259525299072266, "timer/dataset_count": 730.0, "timer/dataset_total": 0.0595700740814209, "timer/dataset_frac": 0.00019851353449912296, "timer/dataset_avg": 8.160284120742588e-05, "timer/dataset_min": 5.936622619628906e-05, "timer/dataset_max": 0.00014781951904296875, "timer/agent.train_count": 730.0, "timer/agent.train_total": 270.8913378715515, "timer/agent.train_frac": 0.9027283879583037, "timer/agent.train_avg": 0.3710840244815774, "timer/agent.train_min": 0.36456727981567383, "timer/agent.train_max": 0.38422155380249023, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22015166282653809, "timer/agent.report_frac": 0.0007336416042360715, "timer/agent.report_avg": 0.22015166282653809, "timer/agent.report_min": 0.22015166282653809, "timer/agent.report_max": 0.22015166282653809, "fps": 4.865288882849284}
{"step": 1093842, "episode/length": 212.0, "episode/score": 15.099999994039536, "episode/sum_abs_reward": 17.30000001192093, "episode/reward_rate": 0.07981220657276995}
{"step": 1094101, "episode/length": 258.0, "episode/score": 15.100000031292439, "episode/sum_abs_reward": 18.10000003129244, "episode/reward_rate": 0.06563706563706563}
{"step": 1094299, "episode/length": 197.0, "episode/score": 13.100000016391277, "episode/sum_abs_reward": 14.30000003427267, "episode/reward_rate": 0.0707070707070707}
{"step": 1094545, "episode/length": 245.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.5, "episode/reward_rate": 0.06504065040650407}
{"step": 1094773, "episode/length": 227.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.06140350877192982}
{"step": 1095169, "episode/length": 395.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.03787878787878788}
{"step": 1095233, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.414599948459202, "train/action_min": 0.0, "train/action_std": 3.323421928617689, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03657571958481438, "train/actor_opt_grad_steps": 546705.0, "train/actor_opt_loss": -12.936937799056372, "train/adv_mag": 0.37045381404459476, "train/adv_max": 0.3159544300287962, "train/adv_mean": 0.0011513112101258433, "train/adv_min": -0.3318848204281595, "train/adv_std": 0.0414655278954241, "train/cont_avg": 0.9949815538194444, "train/cont_loss_mean": 8.685825969756422e-05, "train/cont_loss_std": 0.002762156903107401, "train/cont_neg_acc": 0.9965277777777778, "train/cont_neg_loss": 0.021531221094400643, "train/cont_pos_acc": 0.999999980131785, "train/cont_pos_loss": 2.294550858748955e-06, "train/cont_pred": 0.9949945873684354, "train/cont_rate": 0.9949815538194444, "train/dyn_loss_mean": 5.602480603588952, "train/dyn_loss_std": 8.895360754595863, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9307385434707006, "train/extr_critic_critic_opt_grad_steps": 546705.0, "train/extr_critic_critic_opt_loss": 15302.564208984375, "train/extr_critic_mag": 12.521851023038229, "train/extr_critic_max": 12.521851023038229, "train/extr_critic_mean": 3.8611041042539807, "train/extr_critic_min": -0.3707544108231862, "train/extr_critic_std": 3.0412403411335416, "train/extr_return_normed_mag": 1.3510490937365427, "train/extr_return_normed_max": 1.3510490937365427, "train/extr_return_normed_mean": 0.3994160095850627, "train/extr_return_normed_min": -0.07367288098774022, "train/extr_return_normed_std": 0.3160187134312259, "train/extr_return_rate": 0.856241005162398, "train/extr_return_raw_mag": 13.090672188334995, "train/extr_return_raw_max": 13.090672188334995, "train/extr_return_raw_mean": 3.872259179751078, "train/extr_return_raw_min": -0.7118615946835942, "train/extr_return_raw_std": 3.0618368718359203, "train/extr_reward_mag": 1.0797304775979784, "train/extr_reward_max": 1.0797304775979784, "train/extr_reward_mean": 0.06256927011741532, "train/extr_reward_min": -0.6044240941603979, "train/extr_reward_std": 0.2406588051882055, "train/image_loss_mean": 3.2719466818703546, "train/image_loss_std": 8.33553546667099, "train/model_loss_mean": 6.695081644588047, "train/model_loss_std": 12.444650305642021, "train/model_opt_grad_norm": 19.401196055942112, "train/model_opt_grad_steps": 546257.0, "train/model_opt_loss": 15910.671664767795, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2378.472222222222, "train/policy_entropy_mag": 2.6778238117694855, "train/policy_entropy_max": 2.6778238117694855, "train/policy_entropy_mean": 0.4255670689874225, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6366263619727559, "train/policy_logprob_mag": 7.438384314378102, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.426916215982702, "train/policy_logprob_min": -7.438384314378102, "train/policy_logprob_std": 1.0508212794860203, "train/policy_randomness_mag": 0.9451542943716049, "train/policy_randomness_max": 0.9451542943716049, "train/policy_randomness_mean": 0.15020649797386593, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22470116687731612, "train/post_ent_mag": 55.50409486558702, "train/post_ent_max": 55.50409486558702, "train/post_ent_mean": 40.32689693239, "train/post_ent_min": 19.738832871119182, "train/post_ent_std": 5.827871594164106, "train/prior_ent_mag": 76.76934878031413, "train/prior_ent_max": 76.76934878031413, "train/prior_ent_mean": 45.946044921875, "train/prior_ent_min": 28.14160508579678, "train/prior_ent_std": 7.8747031754917565, "train/rep_loss_mean": 5.602480603588952, "train/rep_loss_std": 8.895360754595863, "train/reward_avg": 0.04708658802943925, "train/reward_loss_mean": 0.061559680176691875, "train/reward_loss_std": 0.2208251046637694, "train/reward_max_data": 1.0291666736205418, "train/reward_max_pred": 1.0255123012595706, "train/reward_neg_acc": 0.9929583999845717, "train/reward_neg_loss": 0.025513247625591855, "train/reward_pos_acc": 0.9909501820802689, "train/reward_pos_loss": 0.7255643076366849, "train/reward_pred": 0.046647239993843764, "train/reward_rate": 0.051554361979166664, "stats/sum_log_reward": 14.100000381469727, "stats/max_log_achievement_collect_coal": 1.6666666666666667, "stats/max_log_achievement_collect_drink": 2.8333333333333335, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.6666666666666665, "stats/max_log_achievement_collect_stone": 15.5, "stats/max_log_achievement_collect_wood": 14.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.6666666666666667, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.5, "stats/max_log_achievement_make_wood_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_wood_sword": 1.8333333333333333, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 2.6666666666666665, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 3.8333333333333335, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.6044280628363291, "replay/size": 1000000.0, "replay/inserts": 1438.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.256950325362374e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3148875826754723e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1591546535492, "timer/env.step_count": 1438.0, "timer/env.step_total": 17.35598611831665, "timer/env.step_frac": 0.057822611268842826, "timer/env.step_avg": 0.01206953137574176, "timer/env.step_min": 0.002734661102294922, "timer/env.step_max": 1.5667057037353516, "timer/replay.add_count": 1438.0, "timer/replay.add_total": 0.3225123882293701, "timer/replay.add_frac": 0.001074471270421925, "timer/replay.add_avg": 0.0002242784340955286, "timer/replay.add_min": 8.225440979003906e-05, "timer/replay.add_max": 0.0045206546783447266, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02901768684387207, "timer/logger.write_frac": 9.667433557828669e-05, "timer/logger.write_avg": 0.02901768684387207, "timer/logger.write_min": 0.02901768684387207, "timer/logger.write_max": 0.02901768684387207, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004603862762451172, "timer/checkpoint.save_frac": 1.5338072122987751e-06, "timer/checkpoint.save_avg": 0.0004603862762451172, "timer/checkpoint.save_min": 0.0004603862762451172, "timer/checkpoint.save_max": 0.0004603862762451172, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2397758960723877, "timer/agent.save_frac": 0.004130395081580525, "timer/agent.save_avg": 1.2397758960723877, "timer/agent.save_min": 1.2397758960723877, "timer/agent.save_max": 1.2397758960723877, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.151199340820312e-05, "timer/replay.save_frac": 2.0493125881568305e-07, "timer/replay.save_avg": 6.151199340820312e-05, "timer/replay.save_min": 6.151199340820312e-05, "timer/replay.save_max": 6.151199340820312e-05, "timer/agent.policy_count": 1438.0, "timer/agent.policy_total": 14.901633262634277, "timer/agent.policy_frac": 0.04964577302276219, "timer/agent.policy_avg": 0.010362749139523142, "timer/agent.policy_min": 0.0057680606842041016, "timer/agent.policy_max": 2.965599298477173, "timer/dataset_count": 719.0, "timer/dataset_total": 0.060073137283325195, "timer/dataset_frac": 0.00020013761483524643, "timer/dataset_avg": 8.355095588779582e-05, "timer/dataset_min": 6.246566772460938e-05, "timer/dataset_max": 0.0001842975616455078, "timer/agent.train_count": 719.0, "timer/agent.train_total": 266.8363070487976, "timer/agent.train_frac": 0.8889827376972274, "timer/agent.train_avg": 0.37112142844060864, "timer/agent.train_min": 0.36382246017456055, "timer/agent.train_max": 0.3894484043121338, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21763014793395996, "timer/agent.report_frac": 0.0007250491766115008, "timer/agent.report_avg": 0.21763014793395996, "timer/agent.report_min": 0.21763014793395996, "timer/agent.report_max": 0.21763014793395996, "fps": 4.790690405590049}
{"step": 1095416, "episode/length": 246.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.06072874493927125}
{"step": 1095640, "episode/length": 223.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.0625}
{"step": 1095868, "episode/length": 227.0, "episode/score": 8.099999971687794, "episode/sum_abs_reward": 10.100000031292439, "episode/reward_rate": 0.043859649122807015}
{"step": 1096032, "episode/length": 163.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.06707317073170732}
{"step": 1096199, "episode/length": 166.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.900000013411045, "episode/reward_rate": 0.05389221556886228}
{"step": 1096242, "episode/length": 42.0, "episode/score": 4.100000001490116, "episode/sum_abs_reward": 5.700000025331974, "episode/reward_rate": 0.11627906976744186}
{"step": 1096669, "episode/length": 426.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.700000025331974, "episode/reward_rate": 0.03747072599531616}
{"step": 1096687, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.456839783550942, "train/action_min": 0.0, "train/action_std": 3.2741243382022804, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03808083119865966, "train/actor_opt_grad_steps": 547430.0, "train/actor_opt_loss": -10.264624706686359, "train/adv_mag": 0.40704847770194486, "train/adv_max": 0.32518039745827243, "train/adv_mean": 0.0021022106653393554, "train/adv_min": -0.3659048084526846, "train/adv_std": 0.042337207710498, "train/cont_avg": 0.994943279109589, "train/cont_loss_mean": 6.888484823059804e-05, "train/cont_loss_std": 0.00214862621436863, "train/cont_neg_acc": 0.9977168955215036, "train/cont_neg_loss": 0.010435931226540749, "train/cont_pos_acc": 0.9999999820369564, "train/cont_pos_loss": 7.800490860780453e-06, "train/cont_pred": 0.9949501769183433, "train/cont_rate": 0.994943279109589, "train/dyn_loss_mean": 5.6893669807747616, "train/dyn_loss_std": 8.955132314603622, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9016566692966305, "train/extr_critic_critic_opt_grad_steps": 547430.0, "train/extr_critic_critic_opt_loss": 15510.830599850171, "train/extr_critic_mag": 12.268590835675802, "train/extr_critic_max": 12.268590835675802, "train/extr_critic_mean": 3.718677710180413, "train/extr_critic_min": -0.3497401279945896, "train/extr_critic_std": 2.9007689397628993, "train/extr_return_normed_mag": 1.3664425970756844, "train/extr_return_normed_max": 1.3664425970756844, "train/extr_return_normed_mean": 0.39488966987557605, "train/extr_return_normed_min": -0.07476151012496589, "train/extr_return_normed_std": 0.30848510093884923, "train/extr_return_rate": 0.8584323745884307, "train/extr_return_raw_mag": 12.937657264813986, "train/extr_return_raw_max": 12.937657264813986, "train/extr_return_raw_mean": 3.7385702361799265, "train/extr_return_raw_min": -0.7079530893123314, "train/extr_return_raw_std": 2.9210575312784273, "train/extr_reward_mag": 1.0737637526368442, "train/extr_reward_max": 1.0737637526368442, "train/extr_reward_mean": 0.06354611234305656, "train/extr_reward_min": -0.6222769070978034, "train/extr_reward_std": 0.2421966552326124, "train/image_loss_mean": 3.3901543617248535, "train/image_loss_std": 8.685719117726364, "train/model_loss_mean": 6.866984948720018, "train/model_loss_std": 12.827561417671099, "train/model_opt_grad_norm": 21.106496131583437, "train/model_opt_grad_steps": 546981.506849315, "train/model_opt_loss": 17647.47529163099, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2568.4931506849316, "train/policy_entropy_mag": 2.6713761172882498, "train/policy_entropy_max": 2.6713761172882498, "train/policy_entropy_mean": 0.4056260498010949, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6070176485466631, "train/policy_logprob_mag": 7.43838429124388, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4047371571602887, "train/policy_logprob_min": -7.43838429124388, "train/policy_logprob_std": 1.0272962655106637, "train/policy_randomness_mag": 0.9428785369820791, "train/policy_randomness_max": 0.9428785369820791, "train/policy_randomness_mean": 0.1431681946532367, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21425058825375282, "train/post_ent_mag": 55.5148776328727, "train/post_ent_max": 55.5148776328727, "train/post_ent_mean": 40.244908006223916, "train/post_ent_min": 19.609841438188944, "train/post_ent_std": 5.829096526315768, "train/prior_ent_mag": 76.79725709680008, "train/prior_ent_max": 76.79725709680008, "train/prior_ent_mean": 45.93688316867776, "train/prior_ent_min": 27.969099854769773, "train/prior_ent_std": 7.905426410779561, "train/rep_loss_mean": 5.6893669807747616, "train/rep_loss_std": 8.955132314603622, "train/reward_avg": 0.04728301535424304, "train/reward_loss_mean": 0.06314151157459168, "train/reward_loss_std": 0.22787517594964538, "train/reward_max_data": 1.038356173528384, "train/reward_max_pred": 1.036221589127632, "train/reward_neg_acc": 0.9925880228003411, "train/reward_neg_loss": 0.0268005441032248, "train/reward_pos_acc": 0.9882857709714811, "train/reward_pos_loss": 0.7264264805676186, "train/reward_pred": 0.046989006028599935, "train/reward_rate": 0.05185145547945205, "stats/sum_log_reward": 10.385714667184013, "stats/max_log_achievement_collect_coal": 0.14285714285714285, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.142857142857143, "stats/max_log_achievement_collect_stone": 9.285714285714286, "stats/max_log_achievement_collect_wood": 14.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.2857142857142858, "stats/max_log_achievement_eat_cow": 0.42857142857142855, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.7142857142857143, "stats/max_log_achievement_make_stone_sword": 0.7142857142857143, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.4285714285714286, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 1.4285714285714286, "stats/max_log_achievement_place_table": 3.142857142857143, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3372123283999307, "replay/size": 1000000.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.2448867000280746e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.305399111573273e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0973958969116, "timer/env.step_count": 1454.0, "timer/env.step_total": 18.355308532714844, "timer/env.step_frac": 0.061164504536454535, "timer/env.step_avg": 0.012624008619473758, "timer/env.step_min": 0.0027997493743896484, "timer/env.step_max": 1.5485432147979736, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.2927396297454834, "timer/replay.add_frac": 0.0009754820726469891, "timer/replay.add_avg": 0.00020133399569840675, "timer/replay.add_min": 7.891654968261719e-05, "timer/replay.add_max": 0.00425267219543457, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027739524841308594, "timer/logger.write_frac": 9.243507348140261e-05, "timer/logger.write_avg": 0.027739524841308594, "timer/logger.write_min": 0.027739524841308594, "timer/logger.write_max": 0.027739524841308594, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 10.720514059066772, "timer/agent.policy_frac": 0.035723449138990344, "timer/agent.policy_avg": 0.0073731183349840254, "timer/agent.policy_min": 0.005914211273193359, "timer/agent.policy_max": 0.01591324806213379, "timer/dataset_count": 727.0, "timer/dataset_total": 0.05932736396789551, "timer/dataset_frac": 0.0001976936980428695, "timer/dataset_avg": 8.160572760370771e-05, "timer/dataset_min": 5.8650970458984375e-05, "timer/dataset_max": 0.00015354156494140625, "timer/agent.train_count": 727.0, "timer/agent.train_total": 269.9828817844391, "timer/agent.train_frac": 0.8996508649384704, "timer/agent.train_avg": 0.37136572460032885, "timer/agent.train_min": 0.36226391792297363, "timer/agent.train_max": 0.38452601432800293, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21969366073608398, "timer/agent.report_frac": 0.0007320745322680253, "timer/agent.report_avg": 0.21969366073608398, "timer/agent.report_min": 0.21969366073608398, "timer/agent.report_max": 0.21969366073608398, "fps": 4.845010145227425}
{"step": 1096851, "episode/length": 181.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.04945054945054945}
{"step": 1097097, "episode/length": 245.0, "episode/score": 15.100000008940697, "episode/sum_abs_reward": 18.100000008940697, "episode/reward_rate": 0.06910569105691057}
{"step": 1097278, "episode/length": 180.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.055248618784530384}
{"step": 1097465, "episode/length": 186.0, "episode/score": 12.100000016391277, "episode/sum_abs_reward": 13.700000040233135, "episode/reward_rate": 0.06951871657754011}
{"step": 1097577, "episode/length": 111.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.08928571428571429}
{"step": 1097737, "episode/length": 159.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.075}
{"step": 1097918, "episode/length": 180.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.06629834254143646}
{"step": 1098143, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.394652484214469, "train/action_min": 0.0, "train/action_std": 3.2415177038271135, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03748185958151948, "train/actor_opt_grad_steps": 548160.0, "train/actor_opt_loss": -9.516043156538515, "train/adv_mag": 0.38538304665317274, "train/adv_max": 0.3307702371927157, "train/adv_mean": 0.002687366398638242, "train/adv_min": -0.33530299467583224, "train/adv_std": 0.042408549060968505, "train/cont_avg": 0.9951439426369864, "train/cont_loss_mean": 5.38957997068496e-05, "train/cont_loss_std": 0.0016442166331072034, "train/cont_neg_acc": 0.996086107541437, "train/cont_neg_loss": 0.0059601835380543216, "train/cont_pos_acc": 0.9999999771379444, "train/cont_pos_loss": 1.4131999135188007e-05, "train/cont_pred": 0.9951519982455528, "train/cont_rate": 0.9951439426369864, "train/dyn_loss_mean": 5.834303411718917, "train/dyn_loss_std": 8.96511037382361, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8588103749980666, "train/extr_critic_critic_opt_grad_steps": 548160.0, "train/extr_critic_critic_opt_loss": 15275.156932255994, "train/extr_critic_mag": 12.272936729535665, "train/extr_critic_max": 12.272936729535665, "train/extr_critic_mean": 3.8587497129832227, "train/extr_critic_min": -0.3441937557638508, "train/extr_critic_std": 2.954575780319841, "train/extr_return_normed_mag": 1.3729455585349095, "train/extr_return_normed_max": 1.3729455585349095, "train/extr_return_normed_mean": 0.407522588151775, "train/extr_return_normed_min": -0.07386380280942133, "train/extr_return_normed_std": 0.31564048912427195, "train/extr_return_rate": 0.8530108871525282, "train/extr_return_raw_mag": 13.021000012959519, "train/extr_return_raw_max": 13.021000012959519, "train/extr_return_raw_mean": 3.884176819291833, "train/extr_return_raw_min": -0.6713096152429712, "train/extr_return_raw_std": 2.987431875646931, "train/extr_reward_mag": 1.078485368049308, "train/extr_reward_max": 1.078485368049308, "train/extr_reward_mean": 0.06496979622808222, "train/extr_reward_min": -0.619957398061883, "train/extr_reward_std": 0.2448101805089271, "train/image_loss_mean": 3.4158590836067724, "train/image_loss_std": 8.855818284700995, "train/model_loss_mean": 6.978913666450814, "train/model_loss_std": 12.987412230609214, "train/model_opt_grad_norm": 22.189917773416596, "train/model_opt_grad_steps": 547711.0, "train/model_opt_loss": 19763.16653735017, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2808.219178082192, "train/policy_entropy_mag": 2.6892786123981214, "train/policy_entropy_max": 2.6892786123981214, "train/policy_entropy_mean": 0.4142435409434854, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6222072594786343, "train/policy_logprob_mag": 7.438384323903959, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4138860233026008, "train/policy_logprob_min": -7.438384323903959, "train/policy_logprob_std": 1.0409383871783948, "train/policy_randomness_mag": 0.949197334785984, "train/policy_randomness_max": 0.949197334785984, "train/policy_randomness_mean": 0.14620979150680646, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21961185785189066, "train/post_ent_mag": 55.71605264324032, "train/post_ent_max": 55.71605264324032, "train/post_ent_mean": 40.208897577573175, "train/post_ent_min": 19.606498626813497, "train/post_ent_std": 5.825991251697279, "train/prior_ent_mag": 76.74589758049952, "train/prior_ent_max": 76.74589758049952, "train/prior_ent_mean": 46.00627705822252, "train/prior_ent_min": 28.077612315138726, "train/prior_ent_std": 7.885441512277682, "train/rep_loss_mean": 5.834303411718917, "train/rep_loss_std": 8.96511037382361, "train/reward_avg": 0.04797196015715599, "train/reward_loss_mean": 0.06241867670865908, "train/reward_loss_std": 0.22531065589761082, "train/reward_max_data": 1.026027403465689, "train/reward_max_pred": 1.0264161188308507, "train/reward_neg_acc": 0.9929707589214796, "train/reward_neg_loss": 0.026063867423632373, "train/reward_pos_acc": 0.9903912038019259, "train/reward_pos_loss": 0.720558327354797, "train/reward_pred": 0.04769512020970044, "train/reward_rate": 0.052292915239726026, "stats/sum_log_reward": 10.81428609575544, "stats/max_log_achievement_collect_coal": 0.14285714285714285, "stats/max_log_achievement_collect_drink": 2.4285714285714284, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 6.0, "stats/max_log_achievement_collect_wood": 11.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.7142857142857142, "stats/max_log_achievement_eat_cow": 0.42857142857142855, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.42857142857142855, "stats/max_log_achievement_make_stone_sword": 0.42857142857142855, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.2857142857142857, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 2.7142857142857144, "stats/max_log_achievement_place_table": 2.5714285714285716, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.314568002309118, "replay/size": 1000000.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.224054535666665e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.319735259800167e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3311674594879, "timer/env.step_count": 1456.0, "timer/env.step_total": 18.37177324295044, "timer/env.step_frac": 0.06117171720257317, "timer/env.step_avg": 0.012617976128400028, "timer/env.step_min": 0.002562999725341797, "timer/env.step_max": 1.558786153793335, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.29367804527282715, "timer/replay.add_frac": 0.0009778473801339376, "timer/replay.add_avg": 0.00020170195417089777, "timer/replay.add_min": 7.581710815429688e-05, "timer/replay.add_max": 0.003203153610229492, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029773950576782227, "timer/logger.write_frac": 9.913706535569099e-05, "timer/logger.write_avg": 0.029773950576782227, "timer/logger.write_min": 0.029773950576782227, "timer/logger.write_max": 0.029773950576782227, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 10.700592517852783, "timer/agent.policy_frac": 0.03562931083167118, "timer/agent.policy_avg": 0.007349308047975812, "timer/agent.policy_min": 0.005593299865722656, "timer/agent.policy_max": 0.01801156997680664, "timer/dataset_count": 728.0, "timer/dataset_total": 0.05911827087402344, "timer/dataset_frac": 0.00019684360892046937, "timer/dataset_avg": 8.120641603574648e-05, "timer/dataset_min": 6.151199340820312e-05, "timer/dataset_max": 0.0001919269561767578, "timer/agent.train_count": 728.0, "timer/agent.train_total": 270.22468304634094, "timer/agent.train_frac": 0.8997557107781426, "timer/agent.train_avg": 0.3711877514372815, "timer/agent.train_min": 0.36464810371398926, "timer/agent.train_max": 0.3870515823364258, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21955513954162598, "timer/agent.report_frac": 0.0007310434724402757, "timer/agent.report_avg": 0.21955513954162598, "timer/agent.report_min": 0.21955513954162598, "timer/agent.report_max": 0.21955513954162598, "fps": 4.847881972713466}
{"step": 1098164, "episode/length": 245.0, "episode/score": 14.100000016391277, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.06504065040650407}
{"step": 1098379, "episode/length": 214.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.06511627906976744}
{"step": 1098650, "episode/length": 270.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.04059040590405904}
{"step": 1098869, "episode/length": 218.0, "episode/score": 11.099999979138374, "episode/sum_abs_reward": 13.30000002682209, "episode/reward_rate": 0.0547945205479452}
{"step": 1099366, "episode/length": 496.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 16.10000006109476, "episode/reward_rate": 0.026156941649899398}
{"step": 1099589, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.381707933213976, "train/action_min": 0.0, "train/action_std": 3.2568220065699682, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.037011118709213205, "train/actor_opt_grad_steps": 548885.0, "train/actor_opt_loss": -11.25648845380379, "train/adv_mag": 0.3882598773472839, "train/adv_max": 0.3083200624419583, "train/adv_mean": 0.0016287915589398632, "train/adv_min": -0.3644442827337318, "train/adv_std": 0.04182441170430846, "train/cont_avg": 0.9954291449652778, "train/cont_loss_mean": 7.023462339124838e-06, "train/cont_loss_std": 0.00018424432353075163, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0002847254506670168, "train/cont_pos_acc": 0.9999999759925736, "train/cont_pos_loss": 5.445909194120209e-06, "train/cont_pred": 0.9954254850745201, "train/cont_rate": 0.9954291449652778, "train/dyn_loss_mean": 5.761180977026622, "train/dyn_loss_std": 8.841620783011118, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8839760820070902, "train/extr_critic_critic_opt_grad_steps": 548885.0, "train/extr_critic_critic_opt_loss": 15190.03857421875, "train/extr_critic_mag": 12.449622207217747, "train/extr_critic_max": 12.449622207217747, "train/extr_critic_mean": 3.8875780734750958, "train/extr_critic_min": -0.3039858705467648, "train/extr_critic_std": 2.9445119400819144, "train/extr_return_normed_mag": 1.376967610584365, "train/extr_return_normed_max": 1.376967610584365, "train/extr_return_normed_mean": 0.4066022021902932, "train/extr_return_normed_min": -0.06764623802155256, "train/extr_return_normed_std": 0.312911218446162, "train/extr_return_rate": 0.8654460103975402, "train/extr_return_raw_mag": 13.11722199122111, "train/extr_return_raw_max": 13.11722199122111, "train/extr_return_raw_mean": 3.90305452214347, "train/extr_return_raw_min": -0.6003506928682327, "train/extr_return_raw_std": 2.9717577745517096, "train/extr_reward_mag": 1.0746348566479154, "train/extr_reward_max": 1.0746348566479154, "train/extr_reward_mean": 0.06488318167005976, "train/extr_reward_min": -0.5814819253153272, "train/extr_reward_std": 0.24381598457694054, "train/image_loss_mean": 3.327805240948995, "train/image_loss_std": 8.742700490686628, "train/model_loss_mean": 6.846313469939762, "train/model_loss_std": 12.858240445454916, "train/model_opt_grad_norm": 21.122925784852768, "train/model_opt_grad_steps": 548435.0138888889, "train/model_opt_loss": 17371.568277994793, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2534.722222222222, "train/policy_entropy_mag": 2.679819020960066, "train/policy_entropy_max": 2.679819020960066, "train/policy_entropy_mean": 0.400870045233104, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6057342485421233, "train/policy_logprob_mag": 7.438384268018934, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4002678632322285, "train/policy_logprob_min": -7.438384268018934, "train/policy_logprob_std": 1.0253879063659244, "train/policy_randomness_mag": 0.9458585133155187, "train/policy_randomness_max": 0.9458585133155187, "train/policy_randomness_mean": 0.14148953381097978, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21379760901133218, "train/post_ent_mag": 55.90266752243042, "train/post_ent_max": 55.90266752243042, "train/post_ent_mean": 40.16789807213677, "train/post_ent_min": 19.63881466123793, "train/post_ent_std": 5.841633624500698, "train/prior_ent_mag": 76.78988975948758, "train/prior_ent_max": 76.78988975948758, "train/prior_ent_mean": 45.93529325061374, "train/prior_ent_min": 27.556086990568375, "train/prior_ent_std": 7.84995389646954, "train/rep_loss_mean": 5.761180977026622, "train/rep_loss_std": 8.841620783011118, "train/reward_avg": 0.048739962900678314, "train/reward_loss_mean": 0.06179265703798996, "train/reward_loss_std": 0.22566532364322078, "train/reward_max_data": 1.0250000059604645, "train/reward_max_pred": 1.0240117145909204, "train/reward_neg_acc": 0.9934854267372025, "train/reward_neg_loss": 0.024817516868804686, "train/reward_pos_acc": 0.9911182067460484, "train/reward_pos_loss": 0.7274849853581853, "train/reward_pred": 0.04823394011085232, "train/reward_rate": 0.052775065104166664, "stats/sum_log_reward": 12.100000381469727, "stats/max_log_achievement_collect_coal": 0.4, "stats/max_log_achievement_collect_drink": 4.2, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.2, "stats/max_log_achievement_collect_stone": 18.4, "stats/max_log_achievement_collect_wood": 12.4, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.4, "stats/max_log_achievement_eat_cow": 0.4, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.4, "stats/max_log_achievement_make_stone_sword": 0.8, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.8, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 4.0, "stats/max_log_achievement_place_table": 3.6, "stats/max_log_achievement_wake_up": 1.4, "stats/mean_log_entropy": 0.39777180552482605, "replay/size": 1000000.0, "replay/inserts": 1446.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.3159308743509845e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3226583950417335e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3154208660126, "timer/env.step_count": 1446.0, "timer/env.step_total": 16.54468607902527, "timer/env.step_frac": 0.05509103072801171, "timer/env.step_avg": 0.011441691617583172, "timer/env.step_min": 0.0029752254486083984, "timer/env.step_max": 1.6645338535308838, "timer/replay.add_count": 1446.0, "timer/replay.add_total": 0.301358699798584, "timer/replay.add_frac": 0.0010034739439272313, "timer/replay.add_avg": 0.00020840850608477455, "timer/replay.add_min": 8.034706115722656e-05, "timer/replay.add_max": 0.002145528793334961, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022756099700927734, "timer/logger.write_frac": 7.577399667092187e-05, "timer/logger.write_avg": 0.022756099700927734, "timer/logger.write_min": 0.022756099700927734, "timer/logger.write_max": 0.022756099700927734, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00024890899658203125, "timer/checkpoint.save_frac": 8.288252260382041e-07, "timer/checkpoint.save_avg": 0.00024890899658203125, "timer/checkpoint.save_min": 0.00024890899658203125, "timer/checkpoint.save_max": 0.00024890899658203125, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4416553974151611, "timer/agent.save_frac": 0.0048004707625665475, "timer/agent.save_avg": 1.4416553974151611, "timer/agent.save_min": 1.4416553974151611, "timer/agent.save_max": 1.4416553974151611, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.937980651855469e-05, "timer/replay.save_frac": 2.3102312334972928e-07, "timer/replay.save_avg": 6.937980651855469e-05, "timer/replay.save_min": 6.937980651855469e-05, "timer/replay.save_max": 6.937980651855469e-05, "timer/agent.policy_count": 1446.0, "timer/agent.policy_total": 12.061380863189697, "timer/agent.policy_frac": 0.04016237603919431, "timer/agent.policy_avg": 0.008341203916452072, "timer/agent.policy_min": 0.0058135986328125, "timer/agent.policy_max": 1.4403409957885742, "timer/dataset_count": 723.0, "timer/dataset_total": 0.0592808723449707, "timer/dataset_frac": 0.0001973953657591869, "timer/dataset_avg": 8.199290780770498e-05, "timer/dataset_min": 5.888938903808594e-05, "timer/dataset_max": 0.00017070770263671875, "timer/agent.train_count": 723.0, "timer/agent.train_total": 270.676876783371, "timer/agent.train_frac": 0.9013086174623547, "timer/agent.train_avg": 0.3743801891886182, "timer/agent.train_min": 0.3624908924102783, "timer/agent.train_max": 2.5829427242279053, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2168595790863037, "timer/agent.report_frac": 0.0007221060392468386, "timer/agent.report_avg": 0.2168595790863037, "timer/agent.report_min": 0.2168595790863037, "timer/agent.report_max": 0.2168595790863037, "fps": 4.814865824031032}
{"step": 1099686, "episode/length": 319.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.700000040233135, "episode/reward_rate": 0.040625}
{"step": 1099896, "episode/length": 209.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.06190476190476191}
{"step": 1100091, "episode/length": 194.0, "episode/score": 12.100000023841858, "episode/sum_abs_reward": 14.300000056624413, "episode/reward_rate": 0.06666666666666667}
{"step": 1100256, "episode/length": 164.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.07272727272727272}
{"step": 1100522, "episode/length": 265.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.05263157894736842}
{"step": 1100560, "episode/length": 37.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.700000040233135, "episode/reward_rate": 0.15789473684210525}
{"step": 1100783, "episode/length": 222.0, "episode/score": 12.100000075995922, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.06726457399103139}
{"step": 1100985, "episode/length": 201.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.054455445544554455}
{"step": 1101035, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.474551730685764, "train/action_min": 0.0, "train/action_std": 3.353898058334986, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0377565948292613, "train/actor_opt_grad_steps": 549605.0, "train/actor_opt_loss": -10.335565671945611, "train/adv_mag": 0.3931061596506172, "train/adv_max": 0.3142030129416121, "train/adv_mean": 0.002006578507158944, "train/adv_min": -0.36296198620564407, "train/adv_std": 0.04214880667212936, "train/cont_avg": 0.9950222439236112, "train/cont_loss_mean": 0.000245665186060309, "train/cont_loss_std": 0.0077485995075379475, "train/cont_neg_acc": 0.9944885381393962, "train/cont_neg_loss": 0.03261350246161096, "train/cont_pos_acc": 0.9999999817874696, "train/cont_pos_loss": 1.7781617717618462e-05, "train/cont_pred": 0.9950455807977252, "train/cont_rate": 0.9950222439236112, "train/dyn_loss_mean": 5.770617994997236, "train/dyn_loss_std": 9.003880944516924, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8772087593873342, "train/extr_critic_critic_opt_grad_steps": 549605.0, "train/extr_critic_critic_opt_loss": 15324.718939887152, "train/extr_critic_mag": 12.381009181340536, "train/extr_critic_max": 12.381009181340536, "train/extr_critic_mean": 3.8543340828683643, "train/extr_critic_min": -0.314270943403244, "train/extr_critic_std": 2.965705633163452, "train/extr_return_normed_mag": 1.372310436434216, "train/extr_return_normed_max": 1.372310436434216, "train/extr_return_normed_mean": 0.40409359004762435, "train/extr_return_normed_min": -0.07143367402669457, "train/extr_return_normed_std": 0.31526193188296425, "train/extr_return_rate": 0.8562039269341363, "train/extr_return_raw_mag": 13.064121511247423, "train/extr_return_raw_max": 13.064121511247423, "train/extr_return_raw_mean": 3.87339276737637, "train/extr_return_raw_min": -0.6412432048883703, "train/extr_return_raw_std": 2.992967860566245, "train/extr_reward_mag": 1.0783689883020189, "train/extr_reward_max": 1.0783689883020189, "train/extr_reward_mean": 0.06424088915809989, "train/extr_reward_min": -0.5531664590040842, "train/extr_reward_std": 0.24297315503160158, "train/image_loss_mean": 3.4731637471252017, "train/image_loss_std": 8.719628585709465, "train/model_loss_mean": 6.998175157441033, "train/model_loss_std": 12.89260603321923, "train/model_opt_grad_norm": 22.868695934613545, "train/model_opt_grad_steps": 549154.4444444445, "train/model_opt_loss": 18252.54206000434, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2604.1666666666665, "train/policy_entropy_mag": 2.6640845702754126, "train/policy_entropy_max": 2.6640845702754126, "train/policy_entropy_mean": 0.40368470590975547, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5965524431731966, "train/policy_logprob_mag": 7.438384268018934, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4031166575021214, "train/policy_logprob_min": -7.438384268018934, "train/policy_logprob_std": 1.025773685839441, "train/policy_randomness_mag": 0.9403049432569079, "train/policy_randomness_max": 0.9403049432569079, "train/policy_randomness_mean": 0.14248298739807475, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21055683410829967, "train/post_ent_mag": 55.796192222171356, "train/post_ent_max": 55.796192222171356, "train/post_ent_mean": 40.11805624432034, "train/post_ent_min": 19.495063066482544, "train/post_ent_std": 5.822372224595812, "train/prior_ent_mag": 76.8084945678711, "train/prior_ent_max": 76.8084945678711, "train/prior_ent_mean": 45.83612855275472, "train/prior_ent_min": 27.55057093832228, "train/prior_ent_std": 7.977988229857551, "train/rep_loss_mean": 5.770617994997236, "train/rep_loss_std": 9.003880944516924, "train/reward_avg": 0.04651150159123871, "train/reward_loss_mean": 0.06239493149850103, "train/reward_loss_std": 0.22710563842621115, "train/reward_max_data": 1.027777784400516, "train/reward_max_pred": 1.0279668403996363, "train/reward_neg_acc": 0.993281849556499, "train/reward_neg_loss": 0.026803258198520377, "train/reward_pos_acc": 0.9891421124339104, "train/reward_pos_loss": 0.7249947877393829, "train/reward_pred": 0.04608895003588663, "train/reward_rate": 0.05091688368055555, "stats/sum_log_reward": 10.850000202655792, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 1.875, "stats/max_log_achievement_collect_iron": 0.125, "stats/max_log_achievement_collect_sapling": 1.375, "stats/max_log_achievement_collect_stone": 12.25, "stats/max_log_achievement_collect_wood": 12.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.375, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.75, "stats/max_log_achievement_make_wood_pickaxe": 0.875, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.375, "stats/max_log_achievement_place_plant": 1.125, "stats/max_log_achievement_place_stone": 1.875, "stats/max_log_achievement_place_table": 3.25, "stats/max_log_achievement_wake_up": 1.125, "stats/mean_log_entropy": 0.3776446981355548, "replay/size": 1000000.0, "replay/inserts": 1446.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.3306053235487984e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3154242213501145e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1510856151581, "timer/env.step_count": 1446.0, "timer/env.step_total": 20.23259973526001, "timer/env.step_frac": 0.067408051161279, "timer/env.step_avg": 0.01399211599948825, "timer/env.step_min": 0.0027828216552734375, "timer/env.step_max": 1.6224019527435303, "timer/replay.add_count": 1446.0, "timer/replay.add_total": 0.2776370048522949, "timer/replay.add_frac": 0.0009249908401406556, "timer/replay.add_avg": 0.00019200346117032843, "timer/replay.add_min": 7.677078247070312e-05, "timer/replay.add_max": 0.004712820053100586, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024164676666259766, "timer/logger.write_frac": 8.050837669547117e-05, "timer/logger.write_avg": 0.024164676666259766, "timer/logger.write_min": 0.024164676666259766, "timer/logger.write_max": 0.024164676666259766, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1446.0, "timer/agent.policy_total": 10.53976559638977, "timer/agent.policy_frac": 0.03511486748344946, "timer/agent.policy_avg": 0.0072889112008228014, "timer/agent.policy_min": 0.005825042724609375, "timer/agent.policy_max": 0.018510818481445312, "timer/dataset_count": 723.0, "timer/dataset_total": 0.05856657028198242, "timer/dataset_frac": 0.00019512363302618262, "timer/dataset_avg": 8.100493814935329e-05, "timer/dataset_min": 6.031990051269531e-05, "timer/dataset_max": 0.0001456737518310547, "timer/agent.train_count": 723.0, "timer/agent.train_total": 268.3567838668823, "timer/agent.train_frac": 0.8940723413239918, "timer/agent.train_avg": 0.37117120866788705, "timer/agent.train_min": 0.36257100105285645, "timer/agent.train_max": 0.3833012580871582, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21721243858337402, "timer/agent.report_frac": 0.0007236770046598308, "timer/agent.report_avg": 0.21721243858337402, "timer/agent.report_min": 0.21721243858337402, "timer/agent.report_max": 0.21721243858337402, "fps": 4.81747707998441}
{"step": 1101209, "episode/length": 223.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 17.1000000461936, "episode/reward_rate": 0.06696428571428571}
{"step": 1101405, "episode/length": 195.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.07142857142857142}
{"step": 1101641, "episode/length": 235.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.059322033898305086}
{"step": 1101812, "episode/length": 170.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.05847953216374269}
{"step": 1101840, "episode/length": 27.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.100000016391277, "episode/reward_rate": 0.10714285714285714}
{"step": 1102027, "episode/length": 186.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.06417112299465241}
{"step": 1102238, "episode/length": 210.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.06635071090047394}
{"step": 1102409, "episode/length": 170.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.08771929824561403}
{"step": 1102483, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.384947894370719, "train/action_min": 0.0, "train/action_std": 3.254333878216678, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03889977115474335, "train/actor_opt_grad_steps": 550330.0, "train/actor_opt_loss": -11.133394078849113, "train/adv_mag": 0.4126399285989265, "train/adv_max": 0.3504730020075628, "train/adv_mean": 0.0020198343342213176, "train/adv_min": -0.37710681843431026, "train/adv_std": 0.04274008065870363, "train/cont_avg": 0.995023544520548, "train/cont_loss_mean": 1.208416018807714e-05, "train/cont_loss_std": 0.00029240887356816726, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0003443226496002088, "train/cont_pos_acc": 0.9999999804039524, "train/cont_pos_loss": 9.976205088350232e-06, "train/cont_pred": 0.9950159690151476, "train/cont_rate": 0.995023544520548, "train/dyn_loss_mean": 5.944359792421942, "train/dyn_loss_std": 9.070695223873608, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8772688973439883, "train/extr_critic_critic_opt_grad_steps": 550330.0, "train/extr_critic_critic_opt_loss": 15435.733492080479, "train/extr_critic_mag": 12.355632181036961, "train/extr_critic_max": 12.355632181036961, "train/extr_critic_mean": 3.7971130201261336, "train/extr_critic_min": -0.3343023633303708, "train/extr_critic_std": 2.919415452708937, "train/extr_return_normed_mag": 1.3651669956233403, "train/extr_return_normed_max": 1.3651669956233403, "train/extr_return_normed_mean": 0.39713325851584136, "train/extr_return_normed_min": -0.0732269481028596, "train/extr_return_normed_std": 0.3100098428660876, "train/extr_return_rate": 0.8653521415305464, "train/extr_return_raw_mag": 13.017950123303557, "train/extr_return_raw_max": 13.017950123303557, "train/extr_return_raw_mean": 3.816325416303661, "train/extr_return_raw_min": -0.654683282114055, "train/extr_return_raw_std": 2.9471685331161708, "train/extr_reward_mag": 1.0856711145949691, "train/extr_reward_max": 1.0856711145949691, "train/extr_reward_mean": 0.06487037705844395, "train/extr_reward_min": -0.586109607187036, "train/extr_reward_std": 0.24431063173568413, "train/image_loss_mean": 3.4069642138807743, "train/image_loss_std": 8.791848091230001, "train/model_loss_mean": 7.03638690791718, "train/model_loss_std": 13.0077766000408, "train/model_opt_grad_norm": 22.594731827304788, "train/model_opt_grad_steps": 549878.9863013698, "train/model_opt_loss": 20378.04811911387, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2910.958904109589, "train/policy_entropy_mag": 2.665514733693371, "train/policy_entropy_max": 2.665514733693371, "train/policy_entropy_mean": 0.3850696321627865, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5766184562689638, "train/policy_logprob_mag": 7.4383843369679905, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.3860258260001875, "train/policy_logprob_min": -7.4383843369679905, "train/policy_logprob_std": 1.0162201662586159, "train/policy_randomness_mag": 0.9408097275315899, "train/policy_randomness_max": 0.9408097275315899, "train/policy_randomness_mean": 0.13591268291212108, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20352101040213075, "train/post_ent_mag": 55.51931031109535, "train/post_ent_max": 55.51931031109535, "train/post_ent_mean": 40.08859639625027, "train/post_ent_min": 19.780044425023746, "train/post_ent_std": 5.766315316500729, "train/prior_ent_mag": 76.64790563714014, "train/prior_ent_max": 76.64790563714014, "train/prior_ent_mean": 45.98375142763739, "train/prior_ent_min": 27.77936167259739, "train/prior_ent_std": 7.88208467666417, "train/rep_loss_mean": 5.944359792421942, "train/rep_loss_std": 9.070695223873608, "train/reward_avg": 0.046805436148831286, "train/reward_loss_mean": 0.06279481309529854, "train/reward_loss_std": 0.2292951510785377, "train/reward_max_data": 1.028767130146288, "train/reward_max_pred": 1.0300543275597978, "train/reward_neg_acc": 0.9924106548910272, "train/reward_neg_loss": 0.026720926701410175, "train/reward_pos_acc": 0.9876498808599499, "train/reward_pos_loss": 0.7309140595671249, "train/reward_pred": 0.046432865196711394, "train/reward_rate": 0.051262842465753425, "stats/sum_log_reward": 11.225000083446503, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 3.375, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.375, "stats/max_log_achievement_collect_stone": 8.375, "stats/max_log_achievement_collect_wood": 11.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.875, "stats/max_log_achievement_eat_cow": 0.625, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "stats/max_log_achievement_make_stone_sword": 0.5, "stats/max_log_achievement_make_wood_pickaxe": 0.875, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.25, "stats/max_log_achievement_place_stone": 2.5, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 1.125, "stats/mean_log_entropy": 0.300320933572948, "replay/size": 1000000.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.2454893733915045e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3283850079741925e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2653720378876, "timer/env.step_count": 1448.0, "timer/env.step_total": 20.072837114334106, "timer/env.step_frac": 0.06685032302626395, "timer/env.step_avg": 0.013862456570672725, "timer/env.step_min": 0.002714872360229492, "timer/env.step_max": 1.5857422351837158, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.272885799407959, "timer/replay.add_frac": 0.0009088154173619666, "timer/replay.add_avg": 0.00018845704379002692, "timer/replay.add_min": 7.510185241699219e-05, "timer/replay.add_max": 0.0037746429443359375, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022022247314453125, "timer/logger.write_frac": 7.334261411826853e-05, "timer/logger.write_avg": 0.022022247314453125, "timer/logger.write_min": 0.022022247314453125, "timer/logger.write_max": 0.022022247314453125, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 10.628591537475586, "timer/agent.policy_frac": 0.035397326922314794, "timer/agent.policy_avg": 0.00734018752588093, "timer/agent.policy_min": 0.005830526351928711, "timer/agent.policy_max": 0.01459360122680664, "timer/dataset_count": 724.0, "timer/dataset_total": 0.058644771575927734, "timer/dataset_frac": 0.0001953098060489237, "timer/dataset_avg": 8.100106571260737e-05, "timer/dataset_min": 6.151199340820312e-05, "timer/dataset_max": 0.00013494491577148438, "timer/agent.train_count": 724.0, "timer/agent.train_total": 268.55462741851807, "timer/agent.train_frac": 0.8943909369097405, "timer/agent.train_avg": 0.3709318058266824, "timer/agent.train_min": 0.36186695098876953, "timer/agent.train_max": 0.38441014289855957, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21950745582580566, "timer/agent.report_frac": 0.0007310448565414601, "timer/agent.report_avg": 0.21950745582580566, "timer/agent.report_min": 0.21950745582580566, "timer/agent.report_max": 0.21950745582580566, "fps": 4.822302228431874}
{"step": 1102639, "episode/length": 229.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.06521739130434782}
{"step": 1102853, "episode/length": 213.0, "episode/score": 12.099999971687794, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.06542056074766354}
{"step": 1103277, "episode/length": 423.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.900000028312206, "episode/reward_rate": 0.03773584905660377}
{"step": 1103429, "episode/length": 151.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.500000044703484, "episode/reward_rate": 0.05921052631578947}
{"step": 1103643, "episode/length": 213.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.700000040233135, "episode/reward_rate": 0.06542056074766354}
{"step": 1103848, "episode/length": 204.0, "episode/score": 15.100000023841858, "episode/sum_abs_reward": 17.90000006556511, "episode/reward_rate": 0.07804878048780488}
{"step": 1103925, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.449532402886285, "train/action_min": 0.0, "train/action_std": 3.3048393958144717, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03755640109173126, "train/actor_opt_grad_steps": 551055.0, "train/actor_opt_loss": -10.52942283782694, "train/adv_mag": 0.399834256619215, "train/adv_max": 0.33806968480348587, "train/adv_mean": 0.0019796800728626193, "train/adv_min": -0.34769954967002076, "train/adv_std": 0.042495414769897856, "train/cont_avg": 0.9950493706597222, "train/cont_loss_mean": 0.00013059882647483947, "train/cont_loss_std": 0.004031056355892638, "train/cont_neg_acc": 0.9987373741136657, "train/cont_neg_loss": 0.011628088510734479, "train/cont_pos_acc": 0.999999980131785, "train/cont_pos_loss": 1.6883694547529e-05, "train/cont_pred": 0.9950523724158605, "train/cont_rate": 0.9950493706597222, "train/dyn_loss_mean": 5.720721655421787, "train/dyn_loss_std": 8.926336341434055, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8984103732638888, "train/extr_critic_critic_opt_grad_steps": 551055.0, "train/extr_critic_critic_opt_loss": 15327.96959092882, "train/extr_critic_mag": 12.38333076900906, "train/extr_critic_max": 12.38333076900906, "train/extr_critic_mean": 3.806501991218991, "train/extr_critic_min": -0.36130471527576447, "train/extr_critic_std": 2.9549325936370425, "train/extr_return_normed_mag": 1.390692659550243, "train/extr_return_normed_max": 1.390692659550243, "train/extr_return_normed_mean": 0.39947291442917454, "train/extr_return_normed_min": -0.07956592335055272, "train/extr_return_normed_std": 0.3136740233749151, "train/extr_return_rate": 0.8606708000103632, "train/extr_return_raw_mag": 13.268143773078918, "train/extr_return_raw_max": 13.268143773078918, "train/extr_return_raw_mean": 3.8253570993741355, "train/extr_return_raw_min": -0.7394015871816211, "train/extr_return_raw_std": 2.98936798175176, "train/extr_reward_mag": 1.0831070476108127, "train/extr_reward_max": 1.0831070476108127, "train/extr_reward_mean": 0.06286409067817861, "train/extr_reward_min": -0.6577121714750925, "train/extr_reward_std": 0.24103888869285583, "train/image_loss_mean": 3.3182303690248065, "train/image_loss_std": 8.30632648203108, "train/model_loss_mean": 6.81098790301217, "train/model_loss_std": 12.499939031071133, "train/model_opt_grad_norm": 20.510443210601807, "train/model_opt_grad_steps": 550603.0, "train/model_opt_loss": 17027.469767252605, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7035006417168512, "train/policy_entropy_max": 2.7035006417168512, "train/policy_entropy_mean": 0.41376034915447235, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6166686742670007, "train/policy_logprob_mag": 7.438384281264411, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4147377436359723, "train/policy_logprob_min": -7.438384281264411, "train/policy_logprob_std": 1.040346547961235, "train/policy_randomness_mag": 0.9542170912027359, "train/policy_randomness_max": 0.9542170912027359, "train/policy_randomness_mean": 0.14603924720237652, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21765698244174322, "train/post_ent_mag": 55.71390204959445, "train/post_ent_max": 55.71390204959445, "train/post_ent_mean": 40.19950193829007, "train/post_ent_min": 19.553116096390617, "train/post_ent_std": 5.818597224023607, "train/prior_ent_mag": 76.8627053366767, "train/prior_ent_max": 76.8627053366767, "train/prior_ent_mean": 45.9107232093811, "train/prior_ent_min": 27.50013762050205, "train/prior_ent_std": 7.948483016755846, "train/rep_loss_mean": 5.720721655421787, "train/rep_loss_std": 8.926336341434055, "train/reward_avg": 0.04476318314361075, "train/reward_loss_mean": 0.06019394901684589, "train/reward_loss_std": 0.22008000459108087, "train/reward_max_data": 1.0291666736205418, "train/reward_max_pred": 1.0278125802675884, "train/reward_neg_acc": 0.9928663522005081, "train/reward_neg_loss": 0.02566005069658988, "train/reward_pos_acc": 0.9893220985929171, "train/reward_pos_loss": 0.7275626957416534, "train/reward_pred": 0.04441945604048669, "train/reward_rate": 0.04916720920138889, "stats/sum_log_reward": 12.93333355585734, "stats/max_log_achievement_collect_coal": 1.6666666666666667, "stats/max_log_achievement_collect_drink": 3.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 12.5, "stats/max_log_achievement_collect_wood": 12.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.8333333333333333, "stats/max_log_achievement_eat_cow": 0.6666666666666666, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_stone_sword": 1.1666666666666667, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 3.5, "stats/max_log_achievement_place_table": 2.8333333333333335, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.46901119748751324, "replay/size": 1000000.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.308099119739294e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3110955115330202e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3097221851349, "timer/env.step_count": 1442.0, "timer/env.step_total": 18.782848119735718, "timer/env.step_frac": 0.0625449218995197, "timer/env.step_avg": 0.01302555348109273, "timer/env.step_min": 0.0028488636016845703, "timer/env.step_max": 1.7753875255584717, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.2843961715698242, "timer/replay.add_frac": 0.0009470095390201843, "timer/replay.add_avg": 0.0001972234199513344, "timer/replay.add_min": 8.296966552734375e-05, "timer/replay.add_max": 0.00481867790222168, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02570176124572754, "timer/logger.write_frac": 8.55841797552026e-05, "timer/logger.write_avg": 0.02570176124572754, "timer/logger.write_min": 0.02570176124572754, "timer/logger.write_max": 0.02570176124572754, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00020503997802734375, "timer/checkpoint.save_frac": 6.827617052668736e-07, "timer/checkpoint.save_avg": 0.00020503997802734375, "timer/checkpoint.save_min": 0.00020503997802734375, "timer/checkpoint.save_max": 0.00020503997802734375, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1875510215759277, "timer/agent.save_frac": 0.003954420832382598, "timer/agent.save_avg": 1.1875510215759277, "timer/agent.save_min": 1.1875510215759277, "timer/agent.save_max": 1.1875510215759277, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.05718994140625e-05, "timer/replay.save_frac": 2.3499705204534252e-07, "timer/replay.save_avg": 7.05718994140625e-05, "timer/replay.save_min": 7.05718994140625e-05, "timer/replay.save_max": 7.05718994140625e-05, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 12.33859395980835, "timer/agent.policy_frac": 0.04108622881080705, "timer/agent.policy_avg": 0.008556583883362239, "timer/agent.policy_min": 0.005744218826293945, "timer/agent.policy_max": 1.1793265342712402, "timer/dataset_count": 721.0, "timer/dataset_total": 0.05886125564575195, "timer/dataset_frac": 0.0001960018317670887, "timer/dataset_avg": 8.163835734500964e-05, "timer/dataset_min": 5.984306335449219e-05, "timer/dataset_max": 0.0001423358917236328, "timer/agent.train_count": 721.0, "timer/agent.train_total": 268.1612067222595, "timer/agent.train_frac": 0.8929488022267342, "timer/agent.train_avg": 0.37192955162588004, "timer/agent.train_min": 0.3649132251739502, "timer/agent.train_max": 0.8079986572265625, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21802902221679688, "timer/agent.report_frac": 0.0007260138653865704, "timer/agent.report_avg": 0.21802902221679688, "timer/agent.report_min": 0.21802902221679688, "timer/agent.report_max": 0.21802902221679688, "fps": 4.801640806021746}
{"step": 1104029, "episode/length": 180.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.0718232044198895}
{"step": 1104259, "episode/length": 229.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.06521739130434782}
{"step": 1104413, "episode/length": 153.0, "episode/score": 13.100000023841858, "episode/sum_abs_reward": 14.899999976158142, "episode/reward_rate": 0.09740259740259741}
{"step": 1104591, "episode/length": 177.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.06741573033707865}
{"step": 1104819, "episode/length": 227.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.06140350877192982}
{"step": 1105001, "episode/length": 181.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.07142857142857142}
{"step": 1105289, "episode/length": 287.0, "episode/score": 12.099999979138374, "episode/sum_abs_reward": 15.100000038743019, "episode/reward_rate": 0.04513888888888889}
{"step": 1105381, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.418931934931507, "train/action_min": 0.0, "train/action_std": 3.269725988989007, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03670162335038185, "train/actor_opt_grad_steps": 551780.0, "train/actor_opt_loss": -12.979449125185404, "train/adv_mag": 0.40811736698019996, "train/adv_max": 0.33350839026986734, "train/adv_mean": 0.0009769078897079453, "train/adv_min": -0.38079244694481157, "train/adv_std": 0.041606200016932944, "train/cont_avg": 0.9947827482876712, "train/cont_loss_mean": 0.00011193605018265833, "train/cont_loss_std": 0.0033452722283284744, "train/cont_neg_acc": 0.9954337910430072, "train/cont_neg_loss": 0.0163065082160771, "train/cont_pos_acc": 0.9999999820369564, "train/cont_pos_loss": 1.644911658518576e-05, "train/cont_pred": 0.9947934763072288, "train/cont_rate": 0.9947827482876712, "train/dyn_loss_mean": 5.7303456280329454, "train/dyn_loss_std": 8.886259274939968, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8954597335972198, "train/extr_critic_critic_opt_grad_steps": 551780.0, "train/extr_critic_critic_opt_loss": 15060.86124785959, "train/extr_critic_mag": 12.40227343938122, "train/extr_critic_max": 12.40227343938122, "train/extr_critic_mean": 3.9037299090868807, "train/extr_critic_min": -0.3534469441191791, "train/extr_critic_std": 2.9879838015935194, "train/extr_return_normed_mag": 1.3753517082292739, "train/extr_return_normed_max": 1.3753517082292739, "train/extr_return_normed_mean": 0.4065408710747549, "train/extr_return_normed_min": -0.07349152235339766, "train/extr_return_normed_std": 0.31516668894519545, "train/extr_return_rate": 0.8686751290543439, "train/extr_return_raw_mag": 13.168186226936236, "train/extr_return_raw_max": 13.168186226936236, "train/extr_return_raw_mean": 3.9130707211690408, "train/extr_return_raw_min": -0.6725218520589071, "train/extr_return_raw_std": 3.0105928394892443, "train/extr_reward_mag": 1.0889368285871532, "train/extr_reward_max": 1.0889368285871532, "train/extr_reward_mean": 0.0640813757295478, "train/extr_reward_min": -0.6279275482648039, "train/extr_reward_std": 0.24300389461321373, "train/image_loss_mean": 3.3794486702304996, "train/image_loss_std": 8.769273366013618, "train/model_loss_mean": 6.88075318401807, "train/model_loss_std": 12.856038655320258, "train/model_opt_grad_norm": 22.484084821727176, "train/model_opt_grad_steps": 551327.3972602739, "train/model_opt_loss": 17598.152892230308, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2568.4931506849316, "train/policy_entropy_mag": 2.6903945648506897, "train/policy_entropy_max": 2.6903945648506897, "train/policy_entropy_mean": 0.4081207044320564, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6206515758004907, "train/policy_logprob_mag": 7.4383842651158165, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4071725941684148, "train/policy_logprob_min": -7.4383842651158165, "train/policy_logprob_std": 1.0348613866387981, "train/policy_randomness_mag": 0.9495912194252014, "train/policy_randomness_max": 0.9495912194252014, "train/policy_randomness_mean": 0.14404869824647903, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2190627698620705, "train/post_ent_mag": 55.398084771143246, "train/post_ent_max": 55.398084771143246, "train/post_ent_mean": 40.126980298186, "train/post_ent_min": 19.529575844333596, "train/post_ent_std": 5.8073542281372905, "train/prior_ent_mag": 76.75187777166497, "train/prior_ent_max": 76.75187777166497, "train/prior_ent_mean": 45.880876776290265, "train/prior_ent_min": 28.017620870511827, "train/prior_ent_std": 7.915871162937112, "train/rep_loss_mean": 5.7303456280329454, "train/rep_loss_std": 8.886259274939968, "train/reward_avg": 0.0484736190521962, "train/reward_loss_mean": 0.06298517170425964, "train/reward_loss_std": 0.2221197879885974, "train/reward_max_data": 1.0342465835074857, "train/reward_max_pred": 1.0357656054300806, "train/reward_neg_acc": 0.9923877169008124, "train/reward_neg_loss": 0.026497293263673782, "train/reward_pos_acc": 0.9902392838099231, "train/reward_pos_loss": 0.7182520358529809, "train/reward_pred": 0.04816549873515351, "train/reward_rate": 0.05289490582191781, "stats/sum_log_reward": 12.528571673801967, "stats/max_log_achievement_collect_coal": 1.1428571428571428, "stats/max_log_achievement_collect_drink": 3.4285714285714284, "stats/max_log_achievement_collect_iron": 0.14285714285714285, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 15.142857142857142, "stats/max_log_achievement_collect_wood": 10.857142857142858, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_stone_sword": 1.1428571428571428, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 2.7142857142857144, "stats/max_log_achievement_place_table": 2.857142857142857, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.40580895968845915, "replay/size": 1000000.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.274325486067887e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.320287912756532e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2256233692169, "timer/env.step_count": 1456.0, "timer/env.step_total": 18.51794695854187, "timer/env.step_frac": 0.06168010162066857, "timer/env.step_avg": 0.012718370163833701, "timer/env.step_min": 0.002731800079345703, "timer/env.step_max": 1.6072258949279785, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.2815663814544678, "timer/replay.add_frac": 0.0009378492691418213, "timer/replay.add_avg": 0.0001933835037462004, "timer/replay.add_min": 7.700920104980469e-05, "timer/replay.add_max": 0.004118442535400391, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024863719940185547, "timer/logger.write_frac": 8.281678179616332e-05, "timer/logger.write_avg": 0.024863719940185547, "timer/logger.write_min": 0.024863719940185547, "timer/logger.write_max": 0.024863719940185547, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 10.6259126663208, "timer/agent.policy_frac": 0.03539309052663061, "timer/agent.policy_avg": 0.007298016941154396, "timer/agent.policy_min": 0.005880594253540039, "timer/agent.policy_max": 0.019516944885253906, "timer/dataset_count": 728.0, "timer/dataset_total": 0.05891251564025879, "timer/dataset_frac": 0.00019622747378829917, "timer/dataset_avg": 8.09237852201357e-05, "timer/dataset_min": 6.151199340820312e-05, "timer/dataset_max": 0.00012969970703125, "timer/agent.train_count": 728.0, "timer/agent.train_total": 270.06112480163574, "timer/agent.train_frac": 0.8995272347874022, "timer/agent.train_avg": 0.3709630835187304, "timer/agent.train_min": 0.36438703536987305, "timer/agent.train_max": 0.3849058151245117, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22073650360107422, "timer/agent.report_frac": 0.0007352353910499267, "timer/agent.report_avg": 0.22073650360107422, "timer/agent.report_min": 0.22073650360107422, "timer/agent.report_max": 0.22073650360107422, "fps": 4.8495781002657905}
{"step": 1105717, "episode/length": 427.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 12.100000031292439, "episode/reward_rate": 0.02336448598130841}
{"step": 1105778, "episode/length": 60.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 3.900000013411045, "episode/reward_rate": 0.04918032786885246}
{"step": 1106031, "episode/length": 252.0, "episode/score": 16.099999986588955, "episode/sum_abs_reward": 18.900000028312206, "episode/reward_rate": 0.06719367588932806}
{"step": 1106311, "episode/length": 279.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.05}
{"step": 1106532, "episode/length": 220.0, "episode/score": 13.100000031292439, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.06787330316742081}
{"step": 1106623, "episode/length": 90.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.12087912087912088}
{"step": 1106792, "episode/length": 168.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.07100591715976332}
{"step": 1106837, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.489383273654514, "train/action_min": 0.0, "train/action_std": 3.305555221107271, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0388557479923798, "train/actor_opt_grad_steps": 552505.0, "train/actor_opt_loss": -12.650155037020644, "train/adv_mag": 0.4102619184801976, "train/adv_max": 0.3324185175200303, "train/adv_mean": 0.0022744513882773593, "train/adv_min": -0.3805497640536891, "train/adv_std": 0.043482168577611446, "train/cont_avg": 0.9949544270833334, "train/cont_loss_mean": 0.00015865903866895003, "train/cont_loss_std": 0.004919846729099693, "train/cont_neg_acc": 0.9930555563833978, "train/cont_neg_loss": 0.03952133404745115, "train/cont_pos_acc": 0.9999999875823656, "train/cont_pos_loss": 1.7764014794844723e-05, "train/cont_pred": 0.9949664647380511, "train/cont_rate": 0.9949544270833334, "train/dyn_loss_mean": 5.89036500453949, "train/dyn_loss_std": 8.860333442687988, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9158976525068283, "train/extr_critic_critic_opt_grad_steps": 552505.0, "train/extr_critic_critic_opt_loss": 15466.152031792535, "train/extr_critic_mag": 12.340225921736824, "train/extr_critic_max": 12.340225921736824, "train/extr_critic_mean": 3.7771314713690014, "train/extr_critic_min": -0.3130844682455063, "train/extr_critic_std": 2.945321715540356, "train/extr_return_normed_mag": 1.3863222118881013, "train/extr_return_normed_max": 1.3863222118881013, "train/extr_return_normed_mean": 0.40006855958037907, "train/extr_return_normed_min": -0.07426177671489616, "train/extr_return_normed_std": 0.31488578021526337, "train/extr_return_rate": 0.8500036572416624, "train/extr_return_raw_mag": 13.109427875942654, "train/extr_return_raw_max": 13.109427875942654, "train/extr_return_raw_mean": 3.7985969020260706, "train/extr_return_raw_min": -0.6802845034334395, "train/extr_return_raw_std": 2.973269358277321, "train/extr_reward_mag": 1.0869102080663045, "train/extr_reward_max": 1.0869102080663045, "train/extr_reward_mean": 0.06603541545983818, "train/extr_reward_min": -0.6230764521492852, "train/extr_reward_std": 0.24614373449650076, "train/image_loss_mean": 3.507034477260378, "train/image_loss_std": 8.714492943551805, "train/model_loss_mean": 7.1045566068755255, "train/model_loss_std": 12.817848496966892, "train/model_opt_grad_norm": 21.121512681665553, "train/model_opt_grad_steps": 552051.8472222222, "train/model_opt_loss": 19224.367133246527, "train/model_opt_model_opt_grad_overflow": 0.013888888888888888, "train/model_opt_model_opt_grad_scale": 2673.6111111111113, "train/policy_entropy_mag": 2.681202510992686, "train/policy_entropy_max": 2.681202510992686, "train/policy_entropy_mean": 0.41261869048078853, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6139721684157848, "train/policy_logprob_mag": 7.438384281264411, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41181571160753566, "train/policy_logprob_min": -7.438384281264411, "train/policy_logprob_std": 1.0344312687714894, "train/policy_randomness_mag": 0.9463468235399988, "train/policy_randomness_max": 0.9463468235399988, "train/policy_randomness_mean": 0.14563629176053736, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2167052331690987, "train/post_ent_mag": 55.86317014694214, "train/post_ent_max": 55.86317014694214, "train/post_ent_mean": 40.253460778130425, "train/post_ent_min": 19.767162402470905, "train/post_ent_std": 5.8663179477055865, "train/prior_ent_mag": 76.68756527370877, "train/prior_ent_max": 76.68756527370877, "train/prior_ent_mean": 46.132663779788544, "train/prior_ent_min": 28.12482844458686, "train/prior_ent_std": 7.838994012938605, "train/rep_loss_mean": 5.89036500453949, "train/rep_loss_std": 8.860333442687988, "train/reward_avg": 0.04813910580964552, "train/reward_loss_mean": 0.06314445680214299, "train/reward_loss_std": 0.2289190331680907, "train/reward_max_data": 1.0305555628405676, "train/reward_max_pred": 1.0316015250153012, "train/reward_neg_acc": 0.9932707357737753, "train/reward_neg_loss": 0.026257679836514097, "train/reward_pos_acc": 0.9884812343451712, "train/reward_pos_loss": 0.7274493094947603, "train/reward_pred": 0.047679421621271305, "train/reward_rate": 0.0526123046875, "stats/sum_log_reward": 10.671428748539515, "stats/max_log_achievement_collect_coal": 0.14285714285714285, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_iron": 0.5714285714285714, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 11.571428571428571, "stats/max_log_achievement_collect_wood": 10.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.5714285714285714, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.5714285714285714, "stats/max_log_achievement_make_stone_sword": 0.8571428571428571, "stats/max_log_achievement_make_wood_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.2857142857142858, "stats/max_log_achievement_place_plant": 0.8571428571428571, "stats/max_log_achievement_place_stone": 3.142857142857143, "stats/max_log_achievement_place_table": 2.5714285714285716, "stats/max_log_achievement_wake_up": 1.8571428571428572, "stats/mean_log_entropy": 0.4275821489947183, "replay/size": 1000000.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.170181106735062e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3694740258730376e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1478006839752, "timer/env.step_count": 1456.0, "timer/env.step_total": 18.577637195587158, "timer/env.step_frac": 0.06189496359211208, "timer/env.step_avg": 0.012759366205760412, "timer/env.step_min": 0.002788066864013672, "timer/env.step_max": 1.6264123916625977, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.28676533699035645, "timer/replay.add_frac": 0.0009554137539468125, "timer/replay.add_avg": 0.00019695421496590415, "timer/replay.add_min": 6.842613220214844e-05, "timer/replay.add_max": 0.004364013671875, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03193354606628418, "timer/logger.write_frac": 0.00010639273715654149, "timer/logger.write_avg": 0.03193354606628418, "timer/logger.write_min": 0.03193354606628418, "timer/logger.write_max": 0.03193354606628418, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 10.675637006759644, "timer/agent.policy_frac": 0.035567933472882556, "timer/agent.policy_avg": 0.0073321682738733815, "timer/agent.policy_min": 0.0057373046875, "timer/agent.policy_max": 0.0158231258392334, "timer/dataset_count": 728.0, "timer/dataset_total": 0.06011557579040527, "timer/dataset_frac": 0.00020028657765745482, "timer/dataset_avg": 8.257634037143582e-05, "timer/dataset_min": 6.0558319091796875e-05, "timer/dataset_max": 0.0001506805419921875, "timer/agent.train_count": 728.0, "timer/agent.train_total": 269.8627142906189, "timer/agent.train_frac": 0.8990994226033213, "timer/agent.train_avg": 0.370690541607993, "timer/agent.train_min": 0.36356544494628906, "timer/agent.train_max": 0.38301825523376465, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22114205360412598, "timer/agent.report_frac": 0.0007367771914376472, "timer/agent.report_avg": 0.22114205360412598, "timer/agent.report_min": 0.22114205360412598, "timer/agent.report_max": 0.22114205360412598, "fps": 4.850843707032203}
{"step": 1107043, "episode/length": 250.0, "episode/score": 16.100000001490116, "episode/sum_abs_reward": 18.500000037252903, "episode/reward_rate": 0.06772908366533864}
{"step": 1107202, "episode/length": 158.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.07547169811320754}
{"step": 1107563, "episode/length": 360.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.30000003427267, "episode/reward_rate": 0.04155124653739612}
{"step": 1107750, "episode/length": 186.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.0748663101604278}
{"step": 1108030, "episode/length": 279.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.500000052154064, "episode/reward_rate": 0.05}
{"step": 1108257, "episode/length": 226.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.30000003427267, "episode/reward_rate": 0.06607929515418502}
{"step": 1108277, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.406311882866754, "train/action_min": 0.0, "train/action_std": 3.236332873503367, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.037467039526543684, "train/actor_opt_grad_steps": 553225.0, "train/actor_opt_loss": -11.070580609970623, "train/adv_mag": 0.36549173874987495, "train/adv_max": 0.31125864076117676, "train/adv_mean": 0.002138575303534809, "train/adv_min": -0.33358834745983285, "train/adv_std": 0.04257594747468829, "train/cont_avg": 0.9951714409722222, "train/cont_loss_mean": 7.865028388959811e-05, "train/cont_loss_std": 0.002400154342252689, "train/cont_neg_acc": 0.9972222223877907, "train/cont_neg_loss": 0.00975367179910839, "train/cont_pos_acc": 0.9999863546755579, "train/cont_pos_loss": 2.8756749066537344e-05, "train/cont_pred": 0.995173761414157, "train/cont_rate": 0.9951714409722222, "train/dyn_loss_mean": 5.8878692454761925, "train/dyn_loss_std": 8.988036380873787, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9045382605658637, "train/extr_critic_critic_opt_grad_steps": 553225.0, "train/extr_critic_critic_opt_loss": 15371.342800564236, "train/extr_critic_mag": 12.260105596648323, "train/extr_critic_max": 12.260105596648323, "train/extr_critic_mean": 3.7595742444197335, "train/extr_critic_min": -0.3133066131008996, "train/extr_critic_std": 2.8869596421718597, "train/extr_return_normed_mag": 1.364662367436621, "train/extr_return_normed_max": 1.364662367436621, "train/extr_return_normed_mean": 0.39564670746525127, "train/extr_return_normed_min": -0.06937901934401856, "train/extr_return_normed_std": 0.30856921151280403, "train/extr_return_rate": 0.8663710306088129, "train/extr_return_raw_mag": 12.937743994924757, "train/extr_return_raw_max": 12.937743994924757, "train/extr_return_raw_mean": 3.779790553781721, "train/extr_return_raw_min": -0.6155021054049333, "train/extr_return_raw_std": 2.9164618717299566, "train/extr_reward_mag": 1.0881970160537295, "train/extr_reward_max": 1.0881970160537295, "train/extr_reward_mean": 0.06446232144824332, "train/extr_reward_min": -0.5675467252731323, "train/extr_reward_std": 0.24362870388560826, "train/image_loss_mean": 3.459232280651728, "train/image_loss_std": 8.737616141637167, "train/model_loss_mean": 7.055149270428552, "train/model_loss_std": 12.90104709731208, "train/model_opt_grad_norm": 20.386027640766567, "train/model_opt_grad_steps": 552771.0, "train/model_opt_loss": 17637.873141818578, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.697966867023044, "train/policy_entropy_max": 2.697966867023044, "train/policy_entropy_mean": 0.3950854399138027, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6070201281044219, "train/policy_logprob_mag": 7.438384268018934, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39457828882667756, "train/policy_logprob_min": -7.438384268018934, "train/policy_logprob_std": 1.0252324044704437, "train/policy_randomness_mag": 0.9522639057702489, "train/policy_randomness_max": 0.9522639057702489, "train/policy_randomness_mean": 0.1394478233738078, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21425146899289554, "train/post_ent_mag": 55.67393101586236, "train/post_ent_max": 55.67393101586236, "train/post_ent_mean": 40.29870006773207, "train/post_ent_min": 19.573692295286392, "train/post_ent_std": 5.849632766511705, "train/prior_ent_mag": 76.81147045559354, "train/prior_ent_max": 76.81147045559354, "train/prior_ent_mean": 46.16538869010078, "train/prior_ent_min": 27.654780679278904, "train/prior_ent_std": 7.910882665051354, "train/rep_loss_mean": 5.8878692454761925, "train/rep_loss_std": 8.988036380873787, "train/reward_avg": 0.04880913597945538, "train/reward_loss_mean": 0.06311687118270332, "train/reward_loss_std": 0.22663156170811918, "train/reward_max_data": 1.0250000059604645, "train/reward_max_pred": 1.0264055464002821, "train/reward_neg_acc": 0.9927538683017095, "train/reward_neg_loss": 0.025913246493372653, "train/reward_pos_acc": 0.9908047144611677, "train/reward_pos_loss": 0.7232905998826027, "train/reward_pred": 0.048404571005246706, "train/reward_rate": 0.05320909288194445, "stats/sum_log_reward": 13.600000063578287, "stats/max_log_achievement_collect_coal": 1.5, "stats/max_log_achievement_collect_drink": 2.3333333333333335, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.6666666666666665, "stats/max_log_achievement_collect_stone": 15.333333333333334, "stats/max_log_achievement_collect_wood": 13.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 2.5, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_stone_sword": 1.3333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 2.5, "stats/max_log_achievement_place_stone": 2.6666666666666665, "stats/max_log_achievement_place_table": 3.8333333333333335, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.48595617959896725, "replay/size": 1000000.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.245969613393148e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3118816746605768e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2654459476471, "timer/env.step_count": 1440.0, "timer/env.step_total": 19.24911093711853, "timer/env.step_frac": 0.06410697999687488, "timer/env.step_avg": 0.013367438150776758, "timer/env.step_min": 0.0029439926147460938, "timer/env.step_max": 1.81312894821167, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.2613368034362793, "timer/replay.add_frac": 0.0008703525729092543, "timer/replay.add_avg": 0.00018148389127519394, "timer/replay.add_min": 6.961822509765625e-05, "timer/replay.add_max": 0.002123594284057617, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026773691177368164, "timer/logger.write_frac": 8.916674075789694e-05, "timer/logger.write_avg": 0.026773691177368164, "timer/logger.write_min": 0.026773691177368164, "timer/logger.write_max": 0.026773691177368164, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003254413604736328, "timer/checkpoint.save_frac": 1.0838455269021374e-06, "timer/checkpoint.save_avg": 0.0003254413604736328, "timer/checkpoint.save_min": 0.0003254413604736328, "timer/checkpoint.save_max": 0.0003254413604736328, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1651639938354492, "timer/agent.save_frac": 0.003880446483471168, "timer/agent.save_avg": 1.1651639938354492, "timer/agent.save_min": 1.1651639938354492, "timer/agent.save_max": 1.1651639938354492, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.821487426757812e-05, "timer/replay.save_frac": 2.937896300027772e-07, "timer/replay.save_avg": 8.821487426757812e-05, "timer/replay.save_min": 8.821487426757812e-05, "timer/replay.save_max": 8.821487426757812e-05, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 12.374565601348877, "timer/agent.policy_frac": 0.04121208673310498, "timer/agent.policy_avg": 0.008593448334270053, "timer/agent.policy_min": 0.005861043930053711, "timer/agent.policy_max": 1.164452075958252, "timer/dataset_count": 720.0, "timer/dataset_total": 0.059296607971191406, "timer/dataset_frac": 0.0001974806251317046, "timer/dataset_avg": 8.235639995998807e-05, "timer/dataset_min": 6.270408630371094e-05, "timer/dataset_max": 0.00020503997802734375, "timer/agent.train_count": 720.0, "timer/agent.train_total": 267.635244846344, "timer/agent.train_frac": 0.8913288174124693, "timer/agent.train_avg": 0.37171561784214446, "timer/agent.train_min": 0.36515140533447266, "timer/agent.train_max": 0.8209409713745117, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21921920776367188, "timer/agent.report_frac": 0.000730084699129496, "timer/agent.report_avg": 0.21921920776367188, "timer/agent.report_min": 0.21921920776367188, "timer/agent.report_max": 0.21921920776367188, "fps": 4.79565790405653}
{"step": 1108471, "episode/length": 213.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.07009345794392523}
{"step": 1108735, "episode/length": 263.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.500000044703484, "episode/reward_rate": 0.056818181818181816}
{"step": 1109058, "episode/length": 322.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.043343653250773995}
{"step": 1109285, "episode/length": 226.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.05286343612334802}
{"step": 1109583, "episode/length": 297.0, "episode/score": 16.099999986588955, "episode/sum_abs_reward": 18.500000022351742, "episode/reward_rate": 0.05704697986577181}
{"step": 1109743, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.445124445734797, "train/action_min": 0.0, "train/action_std": 3.2560465948001758, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.036659268561649964, "train/actor_opt_grad_steps": 553955.0, "train/actor_opt_loss": -10.859954573616788, "train/adv_mag": 0.3939818534496668, "train/adv_max": 0.3416940461139421, "train/adv_mean": 0.0018637098447298569, "train/adv_min": -0.3403959197772516, "train/adv_std": 0.04162650454688717, "train/cont_avg": 0.9948796452702703, "train/cont_loss_mean": 3.730377140045307e-05, "train/cont_loss_std": 0.0011202503251189916, "train/cont_neg_acc": 0.9984779300755018, "train/cont_neg_loss": 0.0033232850434467896, "train/cont_pos_acc": 0.9999999774468912, "train/cont_pos_loss": 1.0902600650226575e-05, "train/cont_pred": 0.9948833012903059, "train/cont_rate": 0.9948796452702703, "train/dyn_loss_mean": 5.779522786269316, "train/dyn_loss_std": 9.020776800207189, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.883013022107047, "train/extr_critic_critic_opt_grad_steps": 553955.0, "train/extr_critic_critic_opt_loss": 15203.270850929053, "train/extr_critic_mag": 12.360621478106525, "train/extr_critic_max": 12.360621478106525, "train/extr_critic_mean": 3.8241965480752893, "train/extr_critic_min": -0.33190719662485896, "train/extr_critic_std": 2.9968035398302852, "train/extr_return_normed_mag": 1.3713285729691789, "train/extr_return_normed_max": 1.3713285729691789, "train/extr_return_normed_mean": 0.4020743523095105, "train/extr_return_normed_min": -0.07832818065543433, "train/extr_return_normed_std": 0.3190633644526069, "train/extr_return_rate": 0.8619853693085748, "train/extr_return_raw_mag": 13.03437359268601, "train/extr_return_raw_max": 13.03437359268601, "train/extr_return_raw_mean": 3.8418586769619503, "train/extr_return_raw_min": -0.7147967231434744, "train/extr_return_raw_std": 3.0265501399297974, "train/extr_reward_mag": 1.0883411781207935, "train/extr_reward_max": 1.0883411781207935, "train/extr_reward_mean": 0.06392085501873815, "train/extr_reward_min": -0.6053216795663576, "train/extr_reward_std": 0.24265586584806442, "train/image_loss_mean": 3.5448689364098214, "train/image_loss_std": 8.753456714990977, "train/model_loss_mean": 7.073530976836746, "train/model_loss_std": 12.918806604436925, "train/model_opt_grad_norm": 21.428670457891517, "train/model_opt_grad_steps": 553500.2702702703, "train/model_opt_loss": 18131.248192039697, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2567.5675675675675, "train/policy_entropy_mag": 2.674589595279178, "train/policy_entropy_max": 2.674589595279178, "train/policy_entropy_mean": 0.4133777264002207, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6173874018965541, "train/policy_logprob_mag": 7.438384230072434, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41348829261354497, "train/policy_logprob_min": -7.438384230072434, "train/policy_logprob_std": 1.0380377817798305, "train/policy_randomness_mag": 0.9440127546722824, "train/policy_randomness_max": 0.9440127546722824, "train/policy_randomness_mean": 0.14590419778549993, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21791065766199216, "train/post_ent_mag": 55.7042905962145, "train/post_ent_max": 55.7042905962145, "train/post_ent_mean": 40.20013690639187, "train/post_ent_min": 19.895057317372913, "train/post_ent_std": 5.880413899550566, "train/prior_ent_mag": 76.87886944332638, "train/prior_ent_max": 76.87886944332638, "train/prior_ent_mean": 45.93227798874314, "train/prior_ent_min": 27.841888401959395, "train/prior_ent_std": 7.9833864392461, "train/rep_loss_mean": 5.779522786269316, "train/rep_loss_std": 9.020776800207189, "train/reward_avg": 0.046290382163951524, "train/reward_loss_mean": 0.06091107297185305, "train/reward_loss_std": 0.22450672392104123, "train/reward_max_data": 1.0337837918384656, "train/reward_max_pred": 1.0320250246975873, "train/reward_neg_acc": 0.9929025213460665, "train/reward_neg_loss": 0.025177324278833898, "train/reward_pos_acc": 0.9894044673120653, "train/reward_pos_loss": 0.7280471131608293, "train/reward_pred": 0.04597662862490963, "train/reward_rate": 0.05076805320945946, "stats/sum_log_reward": 13.700000381469726, "stats/max_log_achievement_collect_coal": 1.4, "stats/max_log_achievement_collect_drink": 3.2, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.4, "stats/max_log_achievement_collect_stone": 24.0, "stats/max_log_achievement_collect_wood": 15.2, "stats/max_log_achievement_defeat_skeleton": 0.4, "stats/max_log_achievement_defeat_zombie": 1.8, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.2, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2, "stats/max_log_achievement_place_furnace": 3.0, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 3.4, "stats/max_log_achievement_place_table": 3.4, "stats/max_log_achievement_wake_up": 1.2, "stats/mean_log_entropy": 0.570918881893158, "replay/size": 1000000.0, "replay/inserts": 1466.0, "replay/samples": 11728.0, "replay/insert_wait_avg": 3.2869562770952795e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.29467305837842e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0849380493164, "timer/env.step_count": 1466.0, "timer/env.step_total": 16.237632513046265, "timer/env.step_frac": 0.05411012168287416, "timer/env.step_avg": 0.01107614768966321, "timer/env.step_min": 0.0027565956115722656, "timer/env.step_max": 1.6492326259613037, "timer/replay.add_count": 1466.0, "timer/replay.add_total": 0.27712273597717285, "timer/replay.add_frac": 0.0009234809910107188, "timer/replay.add_avg": 0.00018903324418633892, "timer/replay.add_min": 7.939338684082031e-05, "timer/replay.add_max": 0.0006418228149414062, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022258996963500977, "timer/logger.write_frac": 7.417565542674088e-05, "timer/logger.write_avg": 0.022258996963500977, "timer/logger.write_min": 0.022258996963500977, "timer/logger.write_max": 0.022258996963500977, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1466.0, "timer/agent.policy_total": 10.804927587509155, "timer/agent.policy_frac": 0.03600623096162679, "timer/agent.policy_avg": 0.007370346239774322, "timer/agent.policy_min": 0.005770683288574219, "timer/agent.policy_max": 0.014991044998168945, "timer/dataset_count": 733.0, "timer/dataset_total": 0.05942392349243164, "timer/dataset_frac": 0.00019802367915801834, "timer/dataset_avg": 8.106947270454522e-05, "timer/dataset_min": 6.079673767089844e-05, "timer/dataset_max": 0.00014710426330566406, "timer/agent.train_count": 733.0, "timer/agent.train_total": 272.0310266017914, "timer/agent.train_frac": 0.9065134303977809, "timer/agent.train_avg": 0.3711200908619255, "timer/agent.train_min": 0.36399030685424805, "timer/agent.train_max": 0.3862926959991455, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2183218002319336, "timer/agent.report_frac": 0.000727533349894603, "timer/agent.report_avg": 0.2183218002319336, "timer/agent.report_min": 0.2183218002319336, "timer/agent.report_max": 0.2183218002319336, "fps": 4.88518321525971}
{"step": 1109831, "episode/length": 247.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.056451612903225805}
{"step": 1110048, "episode/length": 216.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 15.900000013411045, "episode/reward_rate": 0.06912442396313365}
{"step": 1110225, "episode/length": 176.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 13.899999991059303, "episode/reward_rate": 0.07909604519774012}
{"step": 1110427, "episode/length": 201.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.06930693069306931}
{"step": 1110651, "episode/length": 223.0, "episode/score": 13.100000031292439, "episode/sum_abs_reward": 16.300000078976154, "episode/reward_rate": 0.0625}
{"step": 1110901, "episode/length": 249.0, "episode/score": 15.099999994039536, "episode/sum_abs_reward": 17.700000047683716, "episode/reward_rate": 0.064}
{"step": 1111135, "episode/length": 233.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.05982905982905983}
{"step": 1111195, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.486519707573785, "train/action_min": 0.0, "train/action_std": 3.3125100433826447, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03653022900430693, "train/actor_opt_grad_steps": 554685.0, "train/actor_opt_loss": -12.11865451435248, "train/adv_mag": 0.38750182692375446, "train/adv_max": 0.3340735834919744, "train/adv_mean": 0.00129890958238674, "train/adv_min": -0.33744401836560833, "train/adv_std": 0.04109848978825741, "train/cont_avg": 0.9949815538194444, "train/cont_loss_mean": 3.770959360988652e-05, "train/cont_loss_std": 0.0011166255691440103, "train/cont_neg_acc": 0.9980158739619784, "train/cont_neg_loss": 0.004297122457493665, "train/cont_pos_acc": 0.9999999809596274, "train/cont_pos_loss": 8.406900396569958e-06, "train/cont_pred": 0.9949866649177339, "train/cont_rate": 0.9949815538194444, "train/dyn_loss_mean": 5.7696433663368225, "train/dyn_loss_std": 9.00201987557941, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8935762014653947, "train/extr_critic_critic_opt_grad_steps": 554685.0, "train/extr_critic_critic_opt_loss": 15179.021484375, "train/extr_critic_mag": 12.363030870755514, "train/extr_critic_max": 12.363030870755514, "train/extr_critic_mean": 3.721077326271269, "train/extr_critic_min": -0.32821958098146653, "train/extr_critic_std": 2.942926052543852, "train/extr_return_normed_mag": 1.3865319656001196, "train/extr_return_normed_max": 1.3865319656001196, "train/extr_return_normed_mean": 0.3913140319701698, "train/extr_return_normed_min": -0.0714419623836875, "train/extr_return_normed_std": 0.3136955476883385, "train/extr_return_rate": 0.8618743204408221, "train/extr_return_raw_mag": 13.150817857848274, "train/extr_return_raw_max": 13.150817857848274, "train/extr_return_raw_mean": 3.7333469225300684, "train/extr_return_raw_min": -0.6452984035842948, "train/extr_return_raw_std": 2.968416232201788, "train/extr_reward_mag": 1.0852969917986128, "train/extr_reward_max": 1.0852969917986128, "train/extr_reward_mean": 0.0628813323047426, "train/extr_reward_min": -0.5886518524752723, "train/extr_reward_std": 0.24098219349980354, "train/image_loss_mean": 3.5050910777515836, "train/image_loss_std": 8.84529271390703, "train/model_loss_mean": 7.029068715042538, "train/model_loss_std": 13.02738826804691, "train/model_opt_grad_norm": 20.407494995329117, "train/model_opt_grad_steps": 554229.6666666666, "train/model_opt_loss": 18046.21826171875, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2569.4444444444443, "train/policy_entropy_mag": 2.6916924582587347, "train/policy_entropy_max": 2.6916924582587347, "train/policy_entropy_mean": 0.4213068607366747, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.629079514907466, "train/policy_logprob_mag": 7.438384234905243, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.42133945578502285, "train/policy_logprob_min": -7.438384234905243, "train/policy_logprob_std": 1.0440068907207913, "train/policy_randomness_mag": 0.9500493200288879, "train/policy_randomness_max": 0.9500493200288879, "train/policy_randomness_mean": 0.14870282997273737, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22203746241413885, "train/post_ent_mag": 55.28888432184855, "train/post_ent_max": 55.28888432184855, "train/post_ent_mean": 40.113142543368866, "train/post_ent_min": 20.03284670246972, "train/post_ent_std": 5.833461397224003, "train/prior_ent_mag": 76.8060572942098, "train/prior_ent_max": 76.8060572942098, "train/prior_ent_mean": 45.85037390391032, "train/prior_ent_min": 27.601679695977104, "train/prior_ent_std": 7.965880705250634, "train/rep_loss_mean": 5.7696433663368225, "train/rep_loss_std": 9.00201987557941, "train/reward_avg": 0.04670681431889534, "train/reward_loss_mean": 0.06215390216352211, "train/reward_loss_std": 0.2239321433007717, "train/reward_max_data": 1.0347222305006452, "train/reward_max_pred": 1.029541078541014, "train/reward_neg_acc": 0.9926377344462607, "train/reward_neg_loss": 0.026738007384766307, "train/reward_pos_acc": 0.990621363123258, "train/reward_pos_loss": 0.7182006488243738, "train/reward_pred": 0.04652446911980709, "train/reward_rate": 0.051228841145833336, "stats/sum_log_reward": 13.385714394705635, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 2.142857142857143, "stats/max_log_achievement_collect_iron": 0.14285714285714285, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 20.857142857142858, "stats/max_log_achievement_collect_wood": 12.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.8571428571428571, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_stone_sword": 1.2857142857142858, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.2857142857142856, "stats/max_log_achievement_place_plant": 1.8571428571428572, "stats/max_log_achievement_place_stone": 3.857142857142857, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.3578854224511555, "replay/size": 1000000.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.287943269924027e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3122258107524273e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.16911721229553, "timer/env.step_count": 1452.0, "timer/env.step_total": 18.847513914108276, "timer/env.step_frac": 0.06278965034493643, "timer/env.step_avg": 0.012980381483545645, "timer/env.step_min": 0.0027680397033691406, "timer/env.step_max": 1.6186749935150146, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.2915680408477783, "timer/replay.add_frac": 0.0009713458984575216, "timer/replay.add_avg": 0.00020080443584557736, "timer/replay.add_min": 7.43865966796875e-05, "timer/replay.add_max": 0.003908634185791016, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026457548141479492, "timer/logger.write_frac": 8.814213929532034e-05, "timer/logger.write_avg": 0.026457548141479492, "timer/logger.write_min": 0.026457548141479492, "timer/logger.write_max": 0.026457548141479492, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 10.73800802230835, "timer/agent.policy_frac": 0.03577319386495667, "timer/agent.policy_avg": 0.007395322329413464, "timer/agent.policy_min": 0.0057353973388671875, "timer/agent.policy_max": 0.01851940155029297, "timer/dataset_count": 726.0, "timer/dataset_total": 0.05929708480834961, "timer/dataset_frac": 0.0001975455881639268, "timer/dataset_avg": 8.167642535585345e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.0001881122589111328, "timer/agent.train_count": 726.0, "timer/agent.train_total": 269.53995180130005, "timer/agent.train_frac": 0.8979603041930097, "timer/agent.train_avg": 0.37126715124146015, "timer/agent.train_min": 0.36365509033203125, "timer/agent.train_max": 0.38515734672546387, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.220123291015625, "timer/agent.report_frac": 0.000733330907123074, "timer/agent.report_avg": 0.220123291015625, "timer/agent.report_min": 0.220123291015625, "timer/agent.report_max": 0.220123291015625, "fps": 4.837167294580519}
{"step": 1111195, "episode/length": 59.0, "episode/score": 8.099999971687794, "episode/sum_abs_reward": 10.100000031292439, "episode/reward_rate": 0.16666666666666666}
{"step": 1111260, "episode/length": 64.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.12307692307692308}
{"step": 1111596, "episode/length": 335.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.044642857142857144}
{"step": 1112147, "episode/length": 550.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 18.300000049173832, "episode/reward_rate": 0.02722323049001815}
{"step": 1112324, "episode/length": 176.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.100000016391277, "episode/reward_rate": 0.0903954802259887}
{"step": 1112378, "episode/length": 53.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.07407407407407407}
{"step": 1112605, "episode/length": 226.0, "episode/score": 13.099999979138374, "episode/sum_abs_reward": 16.10000003874302, "episode/reward_rate": 0.06167400881057269}
{"step": 1112627, "stats/sum_log_reward": 10.528571469443184, "stats/max_log_achievement_collect_coal": 0.42857142857142855, "stats/max_log_achievement_collect_drink": 4.142857142857143, "stats/max_log_achievement_collect_iron": 0.42857142857142855, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 11.285714285714286, "stats/max_log_achievement_collect_wood": 10.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.5714285714285714, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_wood_sword": 1.4285714285714286, "stats/max_log_achievement_place_furnace": 1.7142857142857142, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 2.2857142857142856, "stats/max_log_achievement_place_table": 2.4285714285714284, "stats/max_log_achievement_wake_up": 0.8571428571428571, "stats/mean_log_entropy": 0.5318277563367572, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.455999586317274, "train/action_min": 0.0, "train/action_std": 3.299568792184194, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03649624685446421, "train/actor_opt_grad_steps": 555405.0, "train/actor_opt_loss": -12.288506728907427, "train/adv_mag": 0.376299658169349, "train/adv_max": 0.31954796467390323, "train/adv_mean": 0.0016613242879783582, "train/adv_min": -0.3384530415965451, "train/adv_std": 0.0413760467328959, "train/cont_avg": 0.9948052300347222, "train/cont_loss_mean": 6.417735319964714e-06, "train/cont_loss_std": 0.00017667333510355357, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 4.346647907368631e-05, "train/cont_pos_acc": 0.9999999817874696, "train/cont_pos_loss": 6.181614568667726e-06, "train/cont_pred": 0.9947998209132088, "train/cont_rate": 0.9948052300347222, "train/dyn_loss_mean": 5.831666092077891, "train/dyn_loss_std": 8.988787061638302, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9058401576346822, "train/extr_critic_critic_opt_grad_steps": 555405.0, "train/extr_critic_critic_opt_loss": 15262.760999891492, "train/extr_critic_mag": 12.34786123699612, "train/extr_critic_max": 12.34786123699612, "train/extr_critic_mean": 3.691701332728068, "train/extr_critic_min": -0.3537805825471878, "train/extr_critic_std": 2.946672519048055, "train/extr_return_normed_mag": 1.3714112275176578, "train/extr_return_normed_max": 1.3714112275176578, "train/extr_return_normed_mean": 0.3912254838893811, "train/extr_return_normed_min": -0.0707514232231511, "train/extr_return_normed_std": 0.3146685918586122, "train/extr_return_rate": 0.8479772946900792, "train/extr_return_raw_mag": 12.965166012446085, "train/extr_return_raw_max": 12.965166012446085, "train/extr_return_raw_mean": 3.7073879738648734, "train/extr_return_raw_min": -0.6556318414707979, "train/extr_return_raw_std": 2.9720000293519764, "train/extr_reward_mag": 1.08860292368465, "train/extr_reward_max": 1.08860292368465, "train/extr_reward_mean": 0.06487640246955885, "train/extr_reward_min": -0.5906837069325976, "train/extr_reward_std": 0.24449983280566004, "train/image_loss_mean": 3.486578502588802, "train/image_loss_std": 8.854391627841526, "train/model_loss_mean": 7.047430223888821, "train/model_loss_std": 13.00715380244785, "train/model_opt_grad_norm": 23.172419640753006, "train/model_opt_grad_steps": 554948.2222222222, "train/model_opt_loss": 10799.460157606336, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1527.7777777777778, "train/policy_entropy_mag": 2.7032246126068964, "train/policy_entropy_max": 2.7032246126068964, "train/policy_entropy_mean": 0.4100839164521959, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6169403456151485, "train/policy_logprob_mag": 7.438384340869056, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41089692028860253, "train/policy_logprob_min": -7.438384340869056, "train/policy_logprob_std": 1.0370840223299131, "train/policy_randomness_mag": 0.9541196624437968, "train/policy_randomness_max": 0.9541196624437968, "train/policy_randomness_mean": 0.1447416271807419, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21775286655045217, "train/post_ent_mag": 55.5162017610338, "train/post_ent_max": 55.5162017610338, "train/post_ent_mean": 40.24803818596734, "train/post_ent_min": 19.64235602484809, "train/post_ent_std": 5.8585378130276995, "train/prior_ent_mag": 76.82121170891656, "train/prior_ent_max": 76.82121170891656, "train/prior_ent_mean": 46.07622141308255, "train/prior_ent_min": 27.502457009421455, "train/prior_ent_std": 7.92558538251453, "train/rep_loss_mean": 5.831666092077891, "train/rep_loss_std": 8.988787061638302, "train/reward_avg": 0.04786919445420305, "train/reward_loss_mean": 0.06184563377044267, "train/reward_loss_std": 0.22092708510657152, "train/reward_max_data": 1.0236111167404387, "train/reward_max_pred": 1.0217260320981343, "train/reward_neg_acc": 0.9932150799367163, "train/reward_neg_loss": 0.025628327624872327, "train/reward_pos_acc": 0.9901987546020083, "train/reward_pos_loss": 0.7185532607965999, "train/reward_pred": 0.047620342035467424, "train/reward_rate": 0.052435980902777776, "replay/size": 1000000.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.3323658245235847e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.302769397224128e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1891739368439, "timer/env.step_count": 1432.0, "timer/env.step_total": 20.521989345550537, "timer/env.step_frac": 0.06836352249621139, "timer/env.step_avg": 0.014330998146334173, "timer/env.step_min": 0.002912759780883789, "timer/env.step_max": 1.7979321479797363, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.27822065353393555, "timer/replay.add_frac": 0.0009268177459073516, "timer/replay.add_avg": 0.0001942881658756533, "timer/replay.add_min": 7.700920104980469e-05, "timer/replay.add_max": 0.0029249191284179688, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03840947151184082, "timer/logger.write_frac": 0.00012795088846182608, "timer/logger.write_avg": 0.03840947151184082, "timer/logger.write_min": 0.03840947151184082, "timer/logger.write_max": 0.03840947151184082, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00033664703369140625, "timer/checkpoint.save_frac": 1.1214496155088947e-06, "timer/checkpoint.save_avg": 0.00033664703369140625, "timer/checkpoint.save_min": 0.00033664703369140625, "timer/checkpoint.save_max": 0.00033664703369140625, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4083836078643799, "timer/agent.save_frac": 0.004691653564297714, "timer/agent.save_avg": 1.4083836078643799, "timer/agent.save_min": 1.4083836078643799, "timer/agent.save_max": 1.4083836078643799, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.00010204315185546875, "timer/replay.save_frac": 3.399294868539709e-07, "timer/replay.save_avg": 0.00010204315185546875, "timer/replay.save_min": 0.00010204315185546875, "timer/replay.save_max": 0.00010204315185546875, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 12.484575271606445, "timer/agent.policy_frac": 0.04158902570628029, "timer/agent.policy_avg": 0.008718278820954222, "timer/agent.policy_min": 0.0054738521575927734, "timer/agent.policy_max": 1.4056792259216309, "timer/dataset_count": 716.0, "timer/dataset_total": 0.057840824127197266, "timer/dataset_frac": 0.00019268124619099776, "timer/dataset_avg": 8.078327392066657e-05, "timer/dataset_min": 6.175041198730469e-05, "timer/dataset_max": 0.00020313262939453125, "timer/agent.train_count": 716.0, "timer/agent.train_total": 266.1434473991394, "timer/agent.train_frac": 0.8865857616008921, "timer/agent.train_avg": 0.3717087254177925, "timer/agent.train_min": 0.3644144535064697, "timer/agent.train_max": 0.8144180774688721, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21774721145629883, "timer/agent.report_frac": 0.0007253666366466307, "timer/agent.report_avg": 0.21774721145629883, "timer/agent.report_min": 0.21774721145629883, "timer/agent.report_max": 0.21774721145629883, "fps": 4.770219737615727}
{"step": 1112870, "episode/length": 264.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.30000001937151, "episode/reward_rate": 0.06037735849056604}
{"step": 1112937, "episode/length": 66.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.11940298507462686}
{"step": 1113105, "episode/length": 167.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.07738095238095238}
{"step": 1113335, "episode/length": 229.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.05217391304347826}
{"step": 1113553, "episode/length": 217.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.100000016391277, "episode/reward_rate": 0.07339449541284404}
{"step": 1113842, "episode/length": 288.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.05190311418685121}
{"step": 1114066, "episode/length": 223.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.05803571428571429}
{"step": 1114081, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.375039296607449, "train/action_min": 0.0, "train/action_std": 3.2070099001061427, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.037961725375219565, "train/actor_opt_grad_steps": 556130.0, "train/actor_opt_loss": -9.986284990016728, "train/adv_mag": 0.37398418049289756, "train/adv_max": 0.3206453752027799, "train/adv_mean": 0.002471480337477908, "train/adv_min": -0.32825785793670237, "train/adv_std": 0.042436841467063724, "train/cont_avg": 0.995210830479452, "train/cont_loss_mean": 9.76391239942443e-06, "train/cont_loss_std": 0.00021149369641777524, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 9.48098117055887e-05, "train/cont_pos_acc": 0.9999999820369564, "train/cont_pos_loss": 9.489631438959991e-06, "train/cont_pred": 0.9952019485708785, "train/cont_rate": 0.995210830479452, "train/dyn_loss_mean": 5.843095394030009, "train/dyn_loss_std": 9.00218866949212, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9288909819028149, "train/extr_critic_critic_opt_grad_steps": 556130.0, "train/extr_critic_critic_opt_loss": 15484.847937178938, "train/extr_critic_mag": 12.387212792487993, "train/extr_critic_max": 12.387212792487993, "train/extr_critic_mean": 3.7091228570023627, "train/extr_critic_min": -0.3709021953687276, "train/extr_critic_std": 2.9664679259470064, "train/extr_return_normed_mag": 1.3835020849149522, "train/extr_return_normed_max": 1.3835020849149522, "train/extr_return_normed_mean": 0.3916694709699448, "train/extr_return_normed_min": -0.0748663411973274, "train/extr_return_normed_std": 0.3153110330235468, "train/extr_return_rate": 0.8497387309596963, "train/extr_return_raw_mag": 13.159517549488642, "train/extr_return_raw_max": 13.159517549488642, "train/extr_return_raw_mean": 3.732620066159392, "train/extr_return_raw_min": -0.7022864132711332, "train/extr_return_raw_std": 2.997129348859395, "train/extr_reward_mag": 1.0797892270022875, "train/extr_reward_max": 1.0797892270022875, "train/extr_reward_mean": 0.06485084398356203, "train/extr_reward_min": -0.6110613068489179, "train/extr_reward_std": 0.24451420629677706, "train/image_loss_mean": 3.4966924027220845, "train/image_loss_std": 8.835018295131318, "train/model_loss_mean": 7.064377053143227, "train/model_loss_std": 13.014981622565282, "train/model_opt_grad_norm": 20.459431713574553, "train/model_opt_grad_steps": 555673.0, "train/model_opt_loss": 12319.943713880564, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1746.5753424657535, "train/policy_entropy_mag": 2.705534383042218, "train/policy_entropy_max": 2.705534383042218, "train/policy_entropy_mean": 0.4040924378045618, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6139745932735808, "train/policy_logprob_mag": 7.438384330435975, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4051007269179984, "train/policy_logprob_min": -7.438384330435975, "train/policy_logprob_std": 1.0352116806866372, "train/policy_randomness_mag": 0.9549349056531306, "train/policy_randomness_max": 0.9549349056531306, "train/policy_randomness_mean": 0.14262689813359142, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21670608855273626, "train/post_ent_mag": 55.61444812931427, "train/post_ent_max": 55.61444812931427, "train/post_ent_mean": 40.187050336027795, "train/post_ent_min": 19.332826000370392, "train/post_ent_std": 5.871049756873144, "train/prior_ent_mag": 76.84097331843964, "train/prior_ent_max": 76.84097331843964, "train/prior_ent_mean": 45.98816294212864, "train/prior_ent_min": 27.66214846258294, "train/prior_ent_std": 7.955763287740211, "train/rep_loss_mean": 5.843095394030009, "train/rep_loss_std": 9.00218866949212, "train/reward_avg": 0.04535129444341954, "train/reward_loss_mean": 0.061817625716124494, "train/reward_loss_std": 0.23853480121860765, "train/reward_max_data": 1.028767130146288, "train/reward_max_pred": 1.027102973363171, "train/reward_neg_acc": 0.9930554171131082, "train/reward_neg_loss": 0.025958132655806328, "train/reward_pos_acc": 0.9833302506028789, "train/reward_pos_loss": 0.7493242009045327, "train/reward_pred": 0.04472113367527315, "train/reward_rate": 0.04964415667808219, "stats/sum_log_reward": 12.242857524326869, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 2.857142857142857, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8571428571428572, "stats/max_log_achievement_collect_stone": 16.428571428571427, "stats/max_log_achievement_collect_wood": 13.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.5714285714285714, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_stone_sword": 0.8571428571428571, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.7142857142857142, "stats/max_log_achievement_place_plant": 1.8571428571428572, "stats/max_log_achievement_place_stone": 2.7142857142857144, "stats/max_log_achievement_place_table": 3.7142857142857144, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3809336679322379, "replay/size": 1000000.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.310148456893564e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3100518812995502e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3399586677551, "timer/env.step_count": 1454.0, "timer/env.step_total": 19.005252599716187, "timer/env.step_frac": 0.06327913436500254, "timer/env.step_avg": 0.013071012792101917, "timer/env.step_min": 0.002690553665161133, "timer/env.step_max": 1.6734910011291504, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.2743854522705078, "timer/replay.add_frac": 0.0009135829061428387, "timer/replay.add_avg": 0.00018871076497283893, "timer/replay.add_min": 7.271766662597656e-05, "timer/replay.add_max": 0.0023467540740966797, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02238154411315918, "timer/logger.write_frac": 7.452070051697084e-05, "timer/logger.write_avg": 0.02238154411315918, "timer/logger.write_min": 0.02238154411315918, "timer/logger.write_max": 0.02238154411315918, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 10.690603971481323, "timer/agent.policy_frac": 0.03559501046381771, "timer/agent.policy_avg": 0.00735254743568179, "timer/agent.policy_min": 0.005864858627319336, "timer/agent.policy_max": 0.014215469360351562, "timer/dataset_count": 727.0, "timer/dataset_total": 0.05789303779602051, "timer/dataset_frac": 0.00019275835973615315, "timer/dataset_avg": 7.963278926550277e-05, "timer/dataset_min": 6.127357482910156e-05, "timer/dataset_max": 0.0001323223114013672, "timer/agent.train_count": 727.0, "timer/agent.train_total": 269.63508009910583, "timer/agent.train_frac": 0.897766255596326, "timer/agent.train_avg": 0.3708873178804757, "timer/agent.train_min": 0.36488938331604004, "timer/agent.train_max": 0.38466596603393555, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21972370147705078, "timer/agent.report_frac": 0.0007315833112973009, "timer/agent.report_avg": 0.21972370147705078, "timer/agent.report_min": 0.21972370147705078, "timer/agent.report_max": 0.21972370147705078, "fps": 4.841074918641088}
{"step": 1114248, "episode/length": 181.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.08241758241758242}
{"step": 1114308, "episode/length": 59.0, "episode/score": 5.099999979138374, "episode/sum_abs_reward": 7.100000023841858, "episode/reward_rate": 0.1}
{"step": 1114498, "episode/length": 189.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.07368421052631578}
{"step": 1114658, "episode/length": 159.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06875}
{"step": 1114886, "episode/length": 227.0, "episode/score": 13.100000016391277, "episode/sum_abs_reward": 15.300000049173832, "episode/reward_rate": 0.06140350877192982}
{"step": 1115107, "episode/length": 220.0, "episode/score": 15.100000023841858, "episode/sum_abs_reward": 17.10000005364418, "episode/reward_rate": 0.07239819004524888}
{"step": 1115325, "episode/length": 217.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.06880733944954129}
{"step": 1115537, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.371372646755642, "train/action_min": 0.0, "train/action_std": 3.2483055823379092, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03693266008566651, "train/actor_opt_grad_steps": 556855.0, "train/actor_opt_loss": -10.648971984111187, "train/adv_mag": 0.41455484098858303, "train/adv_max": 0.3336395677179098, "train/adv_mean": 0.0017510108765337565, "train/adv_min": -0.37014522693223423, "train/adv_std": 0.04240967374708918, "train/cont_avg": 0.9951714409722222, "train/cont_loss_mean": 1.0688170625093739e-05, "train/cont_loss_std": 0.0002772417048259652, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0005808635727358026, "train/cont_pos_acc": 0.999999980131785, "train/cont_pos_loss": 8.107229280993363e-06, "train/cont_pred": 0.9951661518878407, "train/cont_rate": 0.9951714409722222, "train/dyn_loss_mean": 5.743873841232723, "train/dyn_loss_std": 8.890304724375406, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9093730772535006, "train/extr_critic_critic_opt_grad_steps": 556855.0, "train/extr_critic_critic_opt_loss": 15303.659505208334, "train/extr_critic_mag": 12.436239414744907, "train/extr_critic_max": 12.436239414744907, "train/extr_critic_mean": 3.790092709991667, "train/extr_critic_min": -0.35249507427215576, "train/extr_critic_std": 3.008467995458179, "train/extr_return_normed_mag": 1.3769454111655552, "train/extr_return_normed_max": 1.3769454111655552, "train/extr_return_normed_mean": 0.39766259036130375, "train/extr_return_normed_min": -0.07673217470033301, "train/extr_return_normed_std": 0.3182451333850622, "train/extr_return_rate": 0.8571099647217326, "train/extr_return_raw_mag": 13.139809846878052, "train/extr_return_raw_max": 13.139809846878052, "train/extr_return_raw_mean": 3.8067836927043066, "train/extr_return_raw_min": -0.7140687828262647, "train/extr_return_raw_std": 3.0331357883082495, "train/extr_reward_mag": 1.0851387414667342, "train/extr_reward_max": 1.0851387414667342, "train/extr_reward_mean": 0.062159862679739795, "train/extr_reward_min": -0.6324052611986796, "train/extr_reward_std": 0.24015478334493107, "train/image_loss_mean": 3.4115189015865326, "train/image_loss_std": 8.284422364499834, "train/model_loss_mean": 6.918802784548865, "train/model_loss_std": 12.380016167958578, "train/model_opt_grad_norm": 21.22368946340349, "train/model_opt_grad_steps": 556398.0, "train/model_opt_loss": 17552.390855577258, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2534.722222222222, "train/policy_entropy_mag": 2.71916507018937, "train/policy_entropy_max": 2.71916507018937, "train/policy_entropy_mean": 0.4226403890384568, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6369303440054258, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4229763839393854, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 1.0484941461020045, "train/policy_randomness_mag": 0.9597459394070837, "train/policy_randomness_max": 0.9597459394070837, "train/policy_randomness_mean": 0.14917350829475456, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2248084596875641, "train/post_ent_mag": 55.056388749016655, "train/post_ent_max": 55.056388749016655, "train/post_ent_mean": 40.11497428682115, "train/post_ent_min": 19.80868731604682, "train/post_ent_std": 5.818812522623274, "train/prior_ent_mag": 76.81989171769884, "train/prior_ent_max": 76.81989171769884, "train/prior_ent_mean": 45.81973388459947, "train/prior_ent_min": 27.409365786446465, "train/prior_ent_std": 7.9077809188101025, "train/rep_loss_mean": 5.743873841232723, "train/rep_loss_std": 8.890304724375406, "train/reward_avg": 0.046636284380737275, "train/reward_loss_mean": 0.06094887676752276, "train/reward_loss_std": 0.22375800005263752, "train/reward_max_data": 1.0319444520605936, "train/reward_max_pred": 1.0332894855075412, "train/reward_neg_acc": 0.9932550779647298, "train/reward_neg_loss": 0.025297426191779476, "train/reward_pos_acc": 0.9867772807677587, "train/reward_pos_loss": 0.7281400602724817, "train/reward_pred": 0.046281340376784406, "train/reward_rate": 0.05093044704861111, "stats/sum_log_reward": 12.100000245230538, "stats/max_log_achievement_collect_coal": 1.5714285714285714, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.1428571428571428, "stats/max_log_achievement_collect_stone": 12.428571428571429, "stats/max_log_achievement_collect_wood": 11.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5714285714285714, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.7142857142857143, "stats/max_log_achievement_make_stone_sword": 0.7142857142857143, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 2.4285714285714284, "stats/max_log_achievement_place_table": 3.4285714285714284, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.2846430689096451, "replay/size": 1000000.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.2594243248740395e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3667926356032654e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1975722312927, "timer/env.step_count": 1456.0, "timer/env.step_total": 18.534019231796265, "timer/env.step_frac": 0.06173940413320994, "timer/env.step_avg": 0.012729408813046884, "timer/env.step_min": 0.0028352737426757812, "timer/env.step_max": 1.6013877391815186, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.29245591163635254, "timer/replay.add_frac": 0.0009742114483558331, "timer/replay.add_avg": 0.00020086257667331904, "timer/replay.add_min": 7.534027099609375e-05, "timer/replay.add_max": 0.004145622253417969, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.033307790756225586, "timer/logger.write_frac": 0.00011095289848168055, "timer/logger.write_avg": 0.033307790756225586, "timer/logger.write_min": 0.033307790756225586, "timer/logger.write_max": 0.033307790756225586, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 10.681912660598755, "timer/agent.policy_frac": 0.03558294153148141, "timer/agent.policy_avg": 0.007336478475685958, "timer/agent.policy_min": 0.0057294368743896484, "timer/agent.policy_max": 0.015984058380126953, "timer/dataset_count": 728.0, "timer/dataset_total": 0.05906987190246582, "timer/dataset_frac": 0.00019676998539133538, "timer/dataset_avg": 8.113993393195854e-05, "timer/dataset_min": 5.91278076171875e-05, "timer/dataset_max": 0.00016999244689941406, "timer/agent.train_count": 728.0, "timer/agent.train_total": 269.94281339645386, "timer/agent.train_frac": 0.8992171768413619, "timer/agent.train_avg": 0.3708005678522718, "timer/agent.train_min": 0.36419057846069336, "timer/agent.train_max": 0.38472819328308105, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21959280967712402, "timer/agent.report_frac": 0.0007314942890608546, "timer/agent.report_avg": 0.21959280967712402, "timer/agent.report_min": 0.21959280967712402, "timer/agent.report_max": 0.21959280967712402, "fps": 4.850055685717075}
{"step": 1115580, "episode/length": 254.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.058823529411764705}
{"step": 1115741, "episode/length": 160.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.06832298136645963}
{"step": 1115925, "episode/length": 183.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06521739130434782}
{"step": 1116216, "episode/length": 290.0, "episode/score": 16.100000008940697, "episode/sum_abs_reward": 19.100000008940697, "episode/reward_rate": 0.061855670103092786}
{"step": 1116426, "episode/length": 209.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.099999994039536, "episode/reward_rate": 0.06666666666666667}
{"step": 1116620, "episode/length": 193.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.07216494845360824}
{"step": 1116979, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.382682068707192, "train/action_min": 0.0, "train/action_std": 3.259187747354377, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.037122788571127475, "train/actor_opt_grad_steps": 557580.0, "train/actor_opt_loss": -12.596856000488751, "train/adv_mag": 0.3815234121802735, "train/adv_max": 0.30796133226727784, "train/adv_mean": 0.001561009275949439, "train/adv_min": -0.35129076977298684, "train/adv_std": 0.04188784768115984, "train/cont_avg": 0.9949299015410958, "train/cont_loss_mean": 0.00010258733339246381, "train/cont_loss_std": 0.0032726058632230456, "train/cont_neg_acc": 0.9957382042114049, "train/cont_neg_loss": 0.013272811491688843, "train/cont_pos_acc": 0.9999865277172768, "train/cont_pos_loss": 2.703928846310311e-05, "train/cont_pred": 0.9949426904116592, "train/cont_rate": 0.9949299015410958, "train/dyn_loss_mean": 5.744861929383997, "train/dyn_loss_std": 8.94289305438734, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8671710295219944, "train/extr_critic_critic_opt_grad_steps": 557580.0, "train/extr_critic_critic_opt_loss": 15307.965526005994, "train/extr_critic_mag": 12.439646459605596, "train/extr_critic_max": 12.439646459605596, "train/extr_critic_mean": 3.8337503263395125, "train/extr_critic_min": -0.33644573982447795, "train/extr_critic_std": 2.9567455069659507, "train/extr_return_normed_mag": 1.3797501162306902, "train/extr_return_normed_max": 1.3797501162306902, "train/extr_return_normed_mean": 0.4035564314012658, "train/extr_return_normed_min": -0.0722510526849799, "train/extr_return_normed_std": 0.31371733750382513, "train/extr_return_rate": 0.8684468212193006, "train/extr_return_raw_mag": 13.133361019500315, "train/extr_return_raw_max": 13.133361019500315, "train/extr_return_raw_mean": 3.8485938163652813, "train/extr_return_raw_min": -0.6756423634209044, "train/extr_return_raw_std": 2.9833422393014986, "train/extr_reward_mag": 1.0856949760489267, "train/extr_reward_max": 1.0856949760489267, "train/extr_reward_mean": 0.06460099697929539, "train/extr_reward_min": -0.5797537450921045, "train/extr_reward_std": 0.24419040283928178, "train/image_loss_mean": 3.3444095278439456, "train/image_loss_std": 8.471224595422614, "train/model_loss_mean": 6.8541776970641255, "train/model_loss_std": 12.62592873507983, "train/model_opt_grad_norm": 20.40973502642488, "train/model_opt_grad_steps": 557122.3835616439, "train/model_opt_loss": 23751.163393621577, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3458.904109589041, "train/policy_entropy_mag": 2.708191607096424, "train/policy_entropy_max": 2.708191607096424, "train/policy_entropy_mean": 0.39670896040250175, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6117365527642916, "train/policy_logprob_mag": 7.438384278179848, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39774640496462993, "train/policy_logprob_min": -7.438384278179848, "train/policy_logprob_std": 1.0294030578169104, "train/policy_randomness_mag": 0.9558727929036911, "train/policy_randomness_max": 0.9558727929036911, "train/policy_randomness_mean": 0.1400208542608235, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21591615942243028, "train/post_ent_mag": 55.98372916652732, "train/post_ent_max": 55.98372916652732, "train/post_ent_mean": 40.14386101291604, "train/post_ent_min": 19.58654957601469, "train/post_ent_std": 5.960024173945596, "train/prior_ent_mag": 76.83304763166872, "train/prior_ent_max": 76.83304763166872, "train/prior_ent_mean": 45.86023555389822, "train/prior_ent_min": 27.8187818657862, "train/prior_ent_std": 7.962833247772635, "train/rep_loss_mean": 5.744861929383997, "train/rep_loss_std": 8.94289305438734, "train/reward_avg": 0.047800727749932305, "train/reward_loss_mean": 0.0627484896207509, "train/reward_loss_std": 0.22984680594646767, "train/reward_max_data": 1.028767130146288, "train/reward_max_pred": 1.0307245466807118, "train/reward_neg_acc": 0.9926920557675296, "train/reward_neg_loss": 0.026258865422377847, "train/reward_pos_acc": 0.9887503352883744, "train/reward_pos_loss": 0.7244616583602069, "train/reward_pred": 0.047568774182502535, "train/reward_rate": 0.052266160102739725, "stats/sum_log_reward": 12.766667048136393, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 2.5, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 18.166666666666668, "stats/max_log_achievement_collect_wood": 12.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 1.8333333333333333, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_stone": 3.3333333333333335, "stats/max_log_achievement_place_table": 3.3333333333333335, "stats/max_log_achievement_wake_up": 0.8333333333333334, "stats/mean_log_entropy": 0.38739950706561405, "replay/size": 1000000.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.241136897453488e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3269680382970632e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.07688331604004, "timer/env.step_count": 1442.0, "timer/env.step_total": 18.843608140945435, "timer/env.step_frac": 0.06279593393770158, "timer/env.step_avg": 0.01306768941813137, "timer/env.step_min": 0.0028526782989501953, "timer/env.step_max": 1.7751374244689941, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.26565098762512207, "timer/replay.add_frac": 0.0008852764154622976, "timer/replay.add_avg": 0.00018422398587040367, "timer/replay.add_min": 7.176399230957031e-05, "timer/replay.add_max": 0.0007226467132568359, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028041839599609375, "timer/logger.write_frac": 9.34488498071869e-05, "timer/logger.write_avg": 0.028041839599609375, "timer/logger.write_min": 0.028041839599609375, "timer/logger.write_max": 0.028041839599609375, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00022792816162109375, "timer/checkpoint.save_frac": 7.595658789252371e-07, "timer/checkpoint.save_avg": 0.00022792816162109375, "timer/checkpoint.save_min": 0.00022792816162109375, "timer/checkpoint.save_max": 0.00022792816162109375, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.15482759475708, "timer/agent.save_frac": 0.00384843904667198, "timer/agent.save_avg": 1.15482759475708, "timer/agent.save_min": 1.15482759475708, "timer/agent.save_max": 1.15482759475708, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.152557373046875e-05, "timer/replay.save_frac": 2.3835749338658066e-07, "timer/replay.save_avg": 7.152557373046875e-05, "timer/replay.save_min": 7.152557373046875e-05, "timer/replay.save_max": 7.152557373046875e-05, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 12.263107538223267, "timer/agent.policy_frac": 0.04086655194064982, "timer/agent.policy_avg": 0.008504235463400324, "timer/agent.policy_min": 0.005843400955200195, "timer/agent.policy_max": 1.1468589305877686, "timer/dataset_count": 721.0, "timer/dataset_total": 0.058182477951049805, "timer/dataset_frac": 0.00019389190299531404, "timer/dataset_avg": 8.069691810131734e-05, "timer/dataset_min": 6.008148193359375e-05, "timer/dataset_max": 0.00019025802612304688, "timer/agent.train_count": 721.0, "timer/agent.train_total": 267.9703667163849, "timer/agent.train_frac": 0.8930056982568675, "timer/agent.train_avg": 0.37166486368430635, "timer/agent.train_min": 0.362884521484375, "timer/agent.train_max": 0.8063223361968994, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21712470054626465, "timer/agent.report_frac": 0.00072356356859915, "timer/agent.report_avg": 0.21712470054626465, "timer/agent.report_min": 0.21712470054626465, "timer/agent.report_max": 0.21712470054626465, "fps": 4.805336026475924}
{"step": 1117024, "episode/length": 403.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.034653465346534656}
{"step": 1117261, "episode/length": 236.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.05063291139240506}
{"step": 1117668, "episode/length": 406.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.036855036855036855}
{"step": 1117732, "episode/length": 63.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.500000022351742, "episode/reward_rate": 0.140625}
{"step": 1117936, "episode/length": 203.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.700000047683716, "episode/reward_rate": 0.06862745098039216}
{"step": 1117996, "episode/length": 59.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.900000013411045, "episode/reward_rate": 0.1}
{"step": 1118437, "episode/length": 440.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.034013605442176874}
{"step": 1118438, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.430523342556423, "train/action_min": 0.0, "train/action_std": 3.296524769730038, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03610109418837561, "train/actor_opt_grad_steps": 558305.0, "train/actor_opt_loss": -10.97279247144858, "train/adv_mag": 0.3678600444561905, "train/adv_max": 0.3154305407984389, "train/adv_mean": 0.001883169358128119, "train/adv_min": -0.3151528711120288, "train/adv_std": 0.0407511405646801, "train/cont_avg": 0.9951985677083334, "train/cont_loss_mean": 0.0001132653826388324, "train/cont_loss_std": 0.0035649962747296765, "train/cont_neg_acc": 0.9965277777777778, "train/cont_neg_loss": 0.02037064195545102, "train/cont_pos_acc": 0.9999863612982962, "train/cont_pos_loss": 3.1778030036831874e-05, "train/cont_pred": 0.9951962704459826, "train/cont_rate": 0.9951985677083334, "train/dyn_loss_mean": 5.8243617216746015, "train/dyn_loss_std": 8.98689634932412, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.862432573404577, "train/extr_critic_critic_opt_grad_steps": 558305.0, "train/extr_critic_critic_opt_loss": 15267.438666449652, "train/extr_critic_mag": 12.48870046933492, "train/extr_critic_max": 12.48870046933492, "train/extr_critic_mean": 3.7263475159804025, "train/extr_critic_min": -0.35393422842025757, "train/extr_critic_std": 2.9549414879745908, "train/extr_return_normed_mag": 1.37454577949312, "train/extr_return_normed_max": 1.37454577949312, "train/extr_return_normed_mean": 0.3888472898138894, "train/extr_return_normed_min": -0.07531619754930337, "train/extr_return_normed_std": 0.3123167593859964, "train/extr_return_rate": 0.8548349373870425, "train/extr_return_raw_mag": 13.150895158449808, "train/extr_return_raw_max": 13.150895158449808, "train/extr_return_raw_mean": 3.744302087359958, "train/extr_return_raw_min": -0.684206666631831, "train/extr_return_raw_std": 2.980142033762402, "train/extr_reward_mag": 1.0819950434896681, "train/extr_reward_max": 1.0819950434896681, "train/extr_reward_mean": 0.06398905937870343, "train/extr_reward_min": -0.6049500289890501, "train/extr_reward_std": 0.24293862014181083, "train/image_loss_mean": 3.5832786361376443, "train/image_loss_std": 8.967206021149954, "train/model_loss_mean": 7.1400180326567755, "train/model_loss_std": 13.094727476437887, "train/model_opt_grad_norm": 20.686059329244827, "train/model_opt_grad_steps": 557846.8055555555, "train/model_opt_loss": 18662.834879557293, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2604.1666666666665, "train/policy_entropy_mag": 2.729442301723692, "train/policy_entropy_max": 2.729442301723692, "train/policy_entropy_mean": 0.41746408057709533, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6270244589282407, "train/policy_logprob_mag": 7.438384261396196, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41800636384222245, "train/policy_logprob_min": -7.438384261396196, "train/policy_logprob_std": 1.0455999482009146, "train/policy_randomness_mag": 0.963373354739613, "train/policy_randomness_max": 0.963373354739613, "train/policy_randomness_mean": 0.1473465028943287, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22131211993594965, "train/post_ent_mag": 56.214756435818146, "train/post_ent_max": 56.214756435818146, "train/post_ent_mean": 40.237113899654815, "train/post_ent_min": 20.010676675372654, "train/post_ent_std": 5.867341544893053, "train/prior_ent_mag": 76.81897311740451, "train/prior_ent_max": 76.81897311740451, "train/prior_ent_mean": 46.04038265016344, "train/prior_ent_min": 28.008440838919746, "train/prior_ent_std": 7.980207721392314, "train/rep_loss_mean": 5.8243617216746015, "train/rep_loss_std": 8.98689634932412, "train/reward_avg": 0.046531846151790686, "train/reward_loss_mean": 0.06200909293774101, "train/reward_loss_std": 0.2241592506567637, "train/reward_max_data": 1.0444444550408258, "train/reward_max_pred": 1.0417136516835954, "train/reward_neg_acc": 0.992610568801562, "train/reward_neg_loss": 0.02644192334264517, "train/reward_pos_acc": 0.989297485185994, "train/reward_pos_loss": 0.7277668350272708, "train/reward_pred": 0.04611626363152431, "train/reward_rate": 0.05087619357638889, "stats/sum_log_reward": 11.242857388087682, "stats/max_log_achievement_collect_coal": 0.14285714285714285, "stats/max_log_achievement_collect_drink": 4.0, "stats/max_log_achievement_collect_iron": 0.14285714285714285, "stats/max_log_achievement_collect_sapling": 2.4285714285714284, "stats/max_log_achievement_collect_stone": 12.857142857142858, "stats/max_log_achievement_collect_wood": 15.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.8571428571428571, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_stone_sword": 1.1428571428571428, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.7142857142857142, "stats/max_log_achievement_place_plant": 2.142857142857143, "stats/max_log_achievement_place_stone": 1.7142857142857142, "stats/max_log_achievement_place_table": 3.857142857142857, "stats/max_log_achievement_wake_up": 1.7142857142857142, "stats/mean_log_entropy": 0.5634339515651975, "replay/size": 1000000.0, "replay/inserts": 1459.0, "replay/samples": 11664.0, "replay/insert_wait_avg": 3.2229812444277703e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.34979174133845e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3580596446991, "timer/env.step_count": 1459.0, "timer/env.step_total": 18.293628692626953, "timer/env.step_frac": 0.060906068957386844, "timer/env.step_avg": 0.012538470659785438, "timer/env.step_min": 0.0027878284454345703, "timer/env.step_max": 1.609165906906128, "timer/replay.add_count": 1459.0, "timer/replay.add_total": 0.27335572242736816, "timer/replay.add_frac": 0.0009100995084024958, "timer/replay.add_avg": 0.0001873582744533024, "timer/replay.add_min": 7.343292236328125e-05, "timer/replay.add_max": 0.0031342506408691406, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022597789764404297, "timer/logger.write_frac": 7.523616909476568e-05, "timer/logger.write_avg": 0.022597789764404297, "timer/logger.write_min": 0.022597789764404297, "timer/logger.write_max": 0.022597789764404297, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1459.0, "timer/agent.policy_total": 10.673274517059326, "timer/agent.policy_frac": 0.03553516935648407, "timer/agent.policy_avg": 0.007315472595654096, "timer/agent.policy_min": 0.005505084991455078, "timer/agent.policy_max": 0.014873504638671875, "timer/dataset_count": 729.0, "timer/dataset_total": 0.05887413024902344, "timer/dataset_frac": 0.0001960131528305486, "timer/dataset_avg": 8.076012379838606e-05, "timer/dataset_min": 6.0558319091796875e-05, "timer/dataset_max": 0.00021719932556152344, "timer/agent.train_count": 729.0, "timer/agent.train_total": 270.3789486885071, "timer/agent.train_frac": 0.9001887580720989, "timer/agent.train_avg": 0.3708901902448657, "timer/agent.train_min": 0.36408162117004395, "timer/agent.train_max": 0.3836073875427246, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.218125581741333, "timer/agent.report_frac": 0.0007262185073354086, "timer/agent.report_avg": 0.218125581741333, "timer/agent.report_min": 0.218125581741333, "timer/agent.report_max": 0.218125581741333, "fps": 4.857441647381081}
{"step": 1118654, "episode/length": 216.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.06912442396313365}
{"step": 1118813, "episode/length": 158.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.06918238993710692}
{"step": 1119008, "episode/length": 194.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.07692307692307693}
{"step": 1119580, "episode/length": 571.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 17.300000049173832, "episode/reward_rate": 0.024475524475524476}
{"step": 1119746, "episode/length": 165.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.06626506024096386}
{"step": 1119909, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.482227222339527, "train/action_min": 0.0, "train/action_std": 3.3602808552819328, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03653254027704935, "train/actor_opt_grad_steps": 559035.0, "train/actor_opt_loss": -12.507482236301577, "train/adv_mag": 0.39613313711172826, "train/adv_max": 0.350226743599853, "train/adv_mean": 0.0018709223685790847, "train/adv_min": -0.35131897495405096, "train/adv_std": 0.041869818711200275, "train/cont_avg": 0.9953151393581081, "train/cont_loss_mean": 1.019741103013493e-05, "train/cont_loss_std": 0.0002517092644156209, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0002556831612988727, "train/cont_pos_acc": 0.9999999855015729, "train/cont_pos_loss": 8.749215964285582e-06, "train/cont_pred": 0.9953082171646325, "train/cont_rate": 0.9953151393581081, "train/dyn_loss_mean": 5.689579693046776, "train/dyn_loss_std": 8.899949602178625, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8992904626034401, "train/extr_critic_critic_opt_grad_steps": 559035.0, "train/extr_critic_critic_opt_loss": 15235.520045924832, "train/extr_critic_mag": 12.491190124202419, "train/extr_critic_max": 12.491190124202419, "train/extr_critic_mean": 3.7860739263328345, "train/extr_critic_min": -0.33473250672623917, "train/extr_critic_std": 2.972017359089207, "train/extr_return_normed_mag": 1.3816399123217609, "train/extr_return_normed_max": 1.3816399123217609, "train/extr_return_normed_mean": 0.396600949200424, "train/extr_return_normed_min": -0.06748230689884843, "train/extr_return_normed_std": 0.31416883762623815, "train/extr_return_rate": 0.8609956116289705, "train/extr_return_raw_mag": 13.21458253344974, "train/extr_return_raw_max": 13.21458253344974, "train/extr_return_raw_mean": 3.803957330214011, "train/extr_return_raw_min": -0.6301837197026691, "train/extr_return_raw_std": 3.0017444765245593, "train/extr_reward_mag": 1.0793344620111827, "train/extr_reward_max": 1.0793344620111827, "train/extr_reward_mean": 0.06446265630625389, "train/extr_reward_min": -0.5692591538300386, "train/extr_reward_std": 0.24345887915508166, "train/image_loss_mean": 3.359647539821831, "train/image_loss_std": 8.639320695722425, "train/model_loss_mean": 6.835529224292652, "train/model_loss_std": 12.735025032146558, "train/model_opt_grad_norm": 22.966575957633353, "train/model_opt_grad_steps": 558576.0, "train/model_opt_loss": 17088.823057432433, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7220293057931437, "train/policy_entropy_max": 2.7220293057931437, "train/policy_entropy_mean": 0.4370584967168602, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6561363987826012, "train/policy_logprob_mag": 7.438384320284869, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4378835226635675, "train/policy_logprob_min": -7.438384320284869, "train/policy_logprob_std": 1.0611972696072347, "train/policy_randomness_mag": 0.9607568914825851, "train/policy_randomness_max": 0.9607568914825851, "train/policy_randomness_mean": 0.15426247123930906, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23158735157670202, "train/post_ent_mag": 55.42132867349161, "train/post_ent_max": 55.42132867349161, "train/post_ent_mean": 40.175445350440775, "train/post_ent_min": 19.51161389737516, "train/post_ent_std": 5.822565813322325, "train/prior_ent_mag": 76.83430295377164, "train/prior_ent_max": 76.83430295377164, "train/prior_ent_mean": 45.865456091391074, "train/prior_ent_min": 27.71808387137748, "train/prior_ent_std": 7.901561762835528, "train/rep_loss_mean": 5.689579693046776, "train/rep_loss_std": 8.899949602178625, "train/reward_avg": 0.04806535006374926, "train/reward_loss_mean": 0.06212363497832337, "train/reward_loss_std": 0.221282240506765, "train/reward_max_data": 1.032432440164927, "train/reward_max_pred": 1.02959964404235, "train/reward_neg_acc": 0.992801121763281, "train/reward_neg_loss": 0.025639372147821093, "train/reward_pos_acc": 0.9882723334673289, "train/reward_pos_loss": 0.7239392963615624, "train/reward_pred": 0.047545417211949825, "train/reward_rate": 0.05227248733108108, "stats/sum_log_reward": 12.300000381469726, "stats/max_log_achievement_collect_coal": 0.8, "stats/max_log_achievement_collect_drink": 4.2, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.6, "stats/max_log_achievement_collect_stone": 12.2, "stats/max_log_achievement_collect_wood": 15.2, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.2, "stats/max_log_achievement_eat_cow": 1.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.2, "stats/max_log_achievement_make_stone_sword": 0.8, "stats/max_log_achievement_make_wood_pickaxe": 1.2, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.6, "stats/max_log_achievement_place_plant": 1.4, "stats/max_log_achievement_place_stone": 3.4, "stats/max_log_achievement_place_table": 3.2, "stats/max_log_achievement_wake_up": 1.4, "stats/mean_log_entropy": 0.3746590971946716, "replay/size": 1000000.0, "replay/inserts": 1471.0, "replay/samples": 11776.0, "replay/insert_wait_avg": 3.2508235493134188e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3363466638585795e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0961136817932, "timer/env.step_count": 1471.0, "timer/env.step_total": 15.237740516662598, "timer/env.step_frac": 0.05077620076353248, "timer/env.step_avg": 0.010358763097663221, "timer/env.step_min": 0.002685070037841797, "timer/env.step_max": 1.5763156414031982, "timer/replay.add_count": 1471.0, "timer/replay.add_total": 0.28096866607666016, "timer/replay.add_frac": 0.0009362622615452633, "timer/replay.add_avg": 0.0001910052114729165, "timer/replay.add_min": 7.796287536621094e-05, "timer/replay.add_max": 0.004314422607421875, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03968524932861328, "timer/logger.write_frac": 0.00013224179694207408, "timer/logger.write_avg": 0.03968524932861328, "timer/logger.write_min": 0.03968524932861328, "timer/logger.write_max": 0.03968524932861328, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1471.0, "timer/agent.policy_total": 10.726064443588257, "timer/agent.policy_frac": 0.035742097130126896, "timer/agent.policy_avg": 0.007291682150637836, "timer/agent.policy_min": 0.005440711975097656, "timer/agent.policy_max": 0.015966176986694336, "timer/dataset_count": 736.0, "timer/dataset_total": 0.05958366394042969, "timer/dataset_frac": 0.000198548602344145, "timer/dataset_avg": 8.095606513645338e-05, "timer/dataset_min": 6.127357482910156e-05, "timer/dataset_max": 0.0001518726348876953, "timer/agent.train_count": 736.0, "timer/agent.train_total": 273.1001937389374, "timer/agent.train_frac": 0.9100424207043183, "timer/agent.train_avg": 0.37106004584094754, "timer/agent.train_min": 0.36517786979675293, "timer/agent.train_max": 0.3844766616821289, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21875834465026855, "timer/agent.report_frac": 0.000728960938435307, "timer/agent.report_avg": 0.21875834465026855, "timer/agent.report_min": 0.21875834465026855, "timer/agent.report_max": 0.21875834465026855, "fps": 4.901676774703053}
{"step": 1119992, "episode/length": 245.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.052845528455284556}
{"step": 1120153, "episode/length": 160.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.07453416149068323}
{"step": 1120510, "episode/length": 356.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.025210084033613446}
{"step": 1120693, "episode/length": 182.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.07103825136612021}
{"step": 1120931, "episode/length": 237.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.0546218487394958}
{"step": 1121121, "episode/length": 189.0, "episode/score": 13.100000023841858, "episode/sum_abs_reward": 15.10000005364418, "episode/reward_rate": 0.07368421052631578}
{"step": 1121256, "episode/length": 134.0, "episode/score": 13.100000023841858, "episode/sum_abs_reward": 14.5, "episode/reward_rate": 0.1111111111111111}
{"step": 1121343, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.426239861382379, "train/action_min": 0.0, "train/action_std": 3.2889017959435782, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.036403866303670734, "train/actor_opt_grad_steps": 559765.0, "train/actor_opt_loss": -11.83620415793525, "train/adv_mag": 0.3778885193169117, "train/adv_max": 0.3108166406551997, "train/adv_mean": 0.0015309924433495326, "train/adv_min": -0.3432196645687024, "train/adv_std": 0.04112633881676528, "train/cont_avg": 0.9949137369791666, "train/cont_loss_mean": 4.711328394840169e-05, "train/cont_loss_std": 0.0014749407748346026, "train/cont_neg_acc": 0.9984567902154393, "train/cont_neg_loss": 0.004843364919167907, "train/cont_pos_acc": 0.9999999793039428, "train/cont_pos_loss": 4.672820044435453e-06, "train/cont_pred": 0.9949225460489591, "train/cont_rate": 0.9949137369791666, "train/dyn_loss_mean": 5.864820414119297, "train/dyn_loss_std": 8.965610636605156, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8821932549277941, "train/extr_critic_critic_opt_grad_steps": 559765.0, "train/extr_critic_critic_opt_loss": 15364.299655490451, "train/extr_critic_mag": 12.596449812253317, "train/extr_critic_max": 12.596449812253317, "train/extr_critic_mean": 3.8145127263334064, "train/extr_critic_min": -0.36230147381623584, "train/extr_critic_std": 3.0343270798524222, "train/extr_return_normed_mag": 1.3757122423913744, "train/extr_return_normed_max": 1.3757122423913744, "train/extr_return_normed_mean": 0.39850592737396556, "train/extr_return_normed_min": -0.0693877232261002, "train/extr_return_normed_std": 0.31762557559543186, "train/extr_return_rate": 0.8571678333812289, "train/extr_return_raw_mag": 13.250472598605686, "train/extr_return_raw_max": 13.250472598605686, "train/extr_return_raw_mean": 3.8292736411094666, "train/extr_return_raw_min": -0.6820595972239971, "train/extr_return_raw_std": 3.0623446007569632, "train/extr_reward_mag": 1.0786852008766599, "train/extr_reward_max": 1.0786852008766599, "train/extr_reward_mean": 0.06530737851022018, "train/extr_reward_min": -0.6276412920819389, "train/extr_reward_std": 0.24523314212759337, "train/image_loss_mean": 3.4577695892916784, "train/image_loss_std": 8.429356687598759, "train/model_loss_mean": 7.039564079708523, "train/model_loss_std": 12.569904843966166, "train/model_opt_grad_norm": 21.18521303600735, "train/model_opt_grad_steps": 559305.2222222222, "train/model_opt_loss": 18643.225884331598, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2638.8888888888887, "train/policy_entropy_mag": 2.700101670291689, "train/policy_entropy_max": 2.700101670291689, "train/policy_entropy_mean": 0.42337330741186935, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6317678540945053, "train/policy_logprob_mag": 7.43838428788715, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4233936719182465, "train/policy_logprob_min": -7.43838428788715, "train/policy_logprob_std": 1.0446638622217708, "train/policy_randomness_mag": 0.9530173987150192, "train/policy_randomness_max": 0.9530173987150192, "train/policy_randomness_mean": 0.1494321981444955, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22298633058865866, "train/post_ent_mag": 56.103892750210235, "train/post_ent_max": 56.103892750210235, "train/post_ent_mean": 40.28788137435913, "train/post_ent_min": 19.552051888571846, "train/post_ent_std": 5.906687107351091, "train/prior_ent_mag": 76.87018299102783, "train/prior_ent_max": 76.87018299102783, "train/prior_ent_mean": 46.1220875316196, "train/prior_ent_min": 28.016787608464558, "train/prior_ent_std": 7.960159831576878, "train/rep_loss_mean": 5.864820414119297, "train/rep_loss_std": 8.965610636605156, "train/reward_avg": 0.04834933770406577, "train/reward_loss_mean": 0.06285517455803023, "train/reward_loss_std": 0.22677345180677044, "train/reward_max_data": 1.0263888951804903, "train/reward_max_pred": 1.0270313802692626, "train/reward_neg_acc": 0.9921534624364641, "train/reward_neg_loss": 0.02596771680853433, "train/reward_pos_acc": 0.9904140383005142, "train/reward_pos_loss": 0.7251934955517451, "train/reward_pred": 0.047896201722323895, "train/reward_rate": 0.052802191840277776, "stats/sum_log_reward": 11.671428952898298, "stats/max_log_achievement_collect_coal": 0.14285714285714285, "stats/max_log_achievement_collect_drink": 2.857142857142857, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 14.571428571428571, "stats/max_log_achievement_collect_wood": 11.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.42857142857142855, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.5714285714285714, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.7142857142857142, "stats/max_log_achievement_place_plant": 1.7142857142857142, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.4172257993902479, "replay/size": 1000000.0, "replay/inserts": 1434.0, "replay/samples": 11472.0, "replay/insert_wait_avg": 3.1624545279573362e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3573357583422375e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1436469554901, "timer/env.step_count": 1434.0, "timer/env.step_total": 20.840172290802002, "timer/env.step_frac": 0.06943399436301412, "timer/env.step_avg": 0.014532895600280336, "timer/env.step_min": 0.002763986587524414, "timer/env.step_max": 2.4483397006988525, "timer/replay.add_count": 1434.0, "timer/replay.add_total": 0.26572299003601074, "timer/replay.add_frac": 0.0008853193886706395, "timer/replay.add_avg": 0.00018530194563180666, "timer/replay.add_min": 7.43865966796875e-05, "timer/replay.add_max": 0.004335165023803711, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03072977066040039, "timer/logger.write_frac": 0.00010238354525277515, "timer/logger.write_avg": 0.03072977066040039, "timer/logger.write_min": 0.03072977066040039, "timer/logger.write_max": 0.03072977066040039, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004317760467529297, "timer/checkpoint.save_frac": 1.4385646710588547e-06, "timer/checkpoint.save_avg": 0.0004317760467529297, "timer/checkpoint.save_min": 0.0004317760467529297, "timer/checkpoint.save_max": 0.0004317760467529297, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.5458471775054932, "timer/agent.save_frac": 0.005150357814285954, "timer/agent.save_avg": 1.5458471775054932, "timer/agent.save_min": 1.5458471775054932, "timer/agent.save_max": 1.5458471775054932, "timer/replay.save_count": 1.0, "timer/replay.save_total": 5.7220458984375e-05, "timer/replay.save_frac": 1.9064357871569583e-07, "timer/replay.save_avg": 5.7220458984375e-05, "timer/replay.save_min": 5.7220458984375e-05, "timer/replay.save_max": 5.7220458984375e-05, "timer/agent.policy_count": 1434.0, "timer/agent.policy_total": 12.024782419204712, "timer/agent.policy_frac": 0.040063424767367906, "timer/agent.policy_avg": 0.008385482858580692, "timer/agent.policy_min": 0.005861759185791016, "timer/agent.policy_max": 1.5426957607269287, "timer/dataset_count": 717.0, "timer/dataset_total": 0.057440996170043945, "timer/dataset_frac": 0.00019137835084199591, "timer/dataset_avg": 8.011296536965682e-05, "timer/dataset_min": 6.127357482910156e-05, "timer/dataset_max": 0.0001735687255859375, "timer/agent.train_count": 717.0, "timer/agent.train_total": 266.28080105781555, "timer/agent.train_frac": 0.8871778688599187, "timer/agent.train_avg": 0.3713818703735224, "timer/agent.train_min": 0.3639259338378906, "timer/agent.train_max": 0.8647298812866211, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21865415573120117, "timer/agent.report_frac": 0.000728498363863842, "timer/agent.report_avg": 0.21865415573120117, "timer/agent.report_min": 0.21865415573120117, "timer/agent.report_max": 0.21865415573120117, "fps": 4.777622012473502}
{"step": 1121498, "episode/length": 241.0, "episode/score": 13.099999979138374, "episode/sum_abs_reward": 15.30000002682209, "episode/reward_rate": 0.05785123966942149}
{"step": 1121723, "episode/length": 224.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.30000002682209, "episode/reward_rate": 0.044444444444444446}
{"step": 1121894, "episode/length": 170.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.900000043213367, "episode/reward_rate": 0.08187134502923976}
{"step": 1121932, "episode/length": 37.0, "episode/score": 6.100000023841858, "episode/sum_abs_reward": 7.899999976158142, "episode/reward_rate": 0.21052631578947367}
{"step": 1122188, "episode/length": 255.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.05859375}
{"step": 1122370, "episode/length": 181.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.07692307692307693}
{"step": 1122548, "episode/length": 177.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06179775280898876}
{"step": 1122785, "episode/length": 236.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.100000038743019, "episode/reward_rate": 0.05907172995780591}
{"step": 1122790, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.350071377224392, "train/action_min": 0.0, "train/action_std": 3.2432237962881723, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03574769969822632, "train/actor_opt_grad_steps": 560485.0, "train/actor_opt_loss": -12.480319456921684, "train/adv_mag": 0.369724309278859, "train/adv_max": 0.31642825301322675, "train/adv_mean": 0.0017297192243353897, "train/adv_min": -0.3301931100173129, "train/adv_std": 0.04128672291214267, "train/cont_avg": 0.9949408637152778, "train/cont_loss_mean": 0.0001184555035277985, "train/cont_loss_std": 0.003737784107091555, "train/cont_neg_acc": 0.9924882641980346, "train/cont_neg_loss": 0.019185456776844148, "train/cont_pos_acc": 0.9999999817874696, "train/cont_pos_loss": 4.729746665679515e-06, "train/cont_pred": 0.9949742547339864, "train/cont_rate": 0.9949408637152778, "train/dyn_loss_mean": 5.694135798348321, "train/dyn_loss_std": 8.937454210387337, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8879426403178109, "train/extr_critic_critic_opt_grad_steps": 560485.0, "train/extr_critic_critic_opt_loss": 15246.03870985243, "train/extr_critic_mag": 12.282453894615173, "train/extr_critic_max": 12.282453894615173, "train/extr_critic_mean": 3.7115262779924603, "train/extr_critic_min": -0.37681112355656093, "train/extr_critic_std": 2.9395857950051627, "train/extr_return_normed_mag": 1.3673988199896283, "train/extr_return_normed_max": 1.3673988199896283, "train/extr_return_normed_mean": 0.393398516294029, "train/extr_return_normed_min": -0.07355450823282202, "train/extr_return_normed_std": 0.31089347249103916, "train/extr_return_rate": 0.8550872115625275, "train/extr_return_raw_mag": 13.015014145109388, "train/extr_return_raw_max": 13.015014145109388, "train/extr_return_raw_mean": 3.728029406732983, "train/extr_return_raw_min": -0.7241636585030291, "train/extr_return_raw_std": 2.9647400461965137, "train/extr_reward_mag": 1.0811229348182678, "train/extr_reward_max": 1.0811229348182678, "train/extr_reward_mean": 0.06307658672125803, "train/extr_reward_min": -0.5962062146928575, "train/extr_reward_std": 0.24170522164139482, "train/image_loss_mean": 3.351713596118821, "train/image_loss_std": 8.626030484835306, "train/model_loss_mean": 6.829691403441959, "train/model_loss_std": 12.748443749215868, "train/model_opt_grad_norm": 21.235446320639717, "train/model_opt_grad_steps": 560024.6388888889, "train/model_opt_loss": 17518.458129882812, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2569.4444444444443, "train/policy_entropy_mag": 2.6927075915866427, "train/policy_entropy_max": 2.6927075915866427, "train/policy_entropy_mean": 0.40757661685347557, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6180723884867297, "train/policy_logprob_mag": 7.438384307755364, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40602223947644234, "train/policy_logprob_min": -7.438384307755364, "train/policy_logprob_std": 1.029649265938335, "train/policy_randomness_mag": 0.9504076109992133, "train/policy_randomness_max": 0.9504076109992133, "train/policy_randomness_mean": 0.14385666222208077, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21815243052939573, "train/post_ent_mag": 55.77610847685072, "train/post_ent_max": 55.77610847685072, "train/post_ent_mean": 40.17912499109904, "train/post_ent_min": 19.552215298016865, "train/post_ent_std": 5.87908042801751, "train/prior_ent_mag": 76.87590302361383, "train/prior_ent_max": 76.87590302361383, "train/prior_ent_mean": 45.87809573279487, "train/prior_ent_min": 27.81396370463901, "train/prior_ent_std": 7.94313618209627, "train/rep_loss_mean": 5.694135798348321, "train/rep_loss_std": 8.937454210387337, "train/reward_avg": 0.046615939354524016, "train/reward_loss_mean": 0.06137793086883095, "train/reward_loss_std": 0.2257161167346769, "train/reward_max_data": 1.0263888951804903, "train/reward_max_pred": 1.027874423397912, "train/reward_neg_acc": 0.9926961412032446, "train/reward_neg_loss": 0.025769318466902606, "train/reward_pos_acc": 0.9896668195724487, "train/reward_pos_loss": 0.7234943856795629, "train/reward_pred": 0.046428462128258415, "train/reward_rate": 0.05117458767361111, "stats/sum_log_reward": 11.350000321865082, "stats/max_log_achievement_collect_coal": 0.375, "stats/max_log_achievement_collect_drink": 3.875, "stats/max_log_achievement_collect_iron": 0.125, "stats/max_log_achievement_collect_sapling": 1.125, "stats/max_log_achievement_collect_stone": 10.5, "stats/max_log_achievement_collect_wood": 13.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.375, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.75, "stats/max_log_achievement_make_stone_sword": 0.625, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.25, "stats/max_log_achievement_place_plant": 1.125, "stats/max_log_achievement_place_stone": 2.375, "stats/max_log_achievement_place_table": 3.25, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.41400910541415215, "replay/size": 1000000.0, "replay/inserts": 1447.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.300457883886246e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.327584228410101e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 299.99771451950073, "timer/env.step_count": 1447.0, "timer/env.step_total": 20.07957696914673, "timer/env.step_frac": 0.06693243313972479, "timer/env.step_avg": 0.013876694519106239, "timer/env.step_min": 0.002684354782104492, "timer/env.step_max": 1.6028716564178467, "timer/replay.add_count": 1447.0, "timer/replay.add_total": 0.2788727283477783, "timer/replay.add_frac": 0.0009295828429707946, "timer/replay.add_avg": 0.00019272476043384818, "timer/replay.add_min": 7.62939453125e-05, "timer/replay.add_max": 0.0026810169219970703, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02476024627685547, "timer/logger.write_frac": 8.253478302830864e-05, "timer/logger.write_avg": 0.02476024627685547, "timer/logger.write_min": 0.02476024627685547, "timer/logger.write_max": 0.02476024627685547, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1447.0, "timer/agent.policy_total": 10.681000709533691, "timer/agent.policy_frac": 0.03560360693627682, "timer/agent.policy_avg": 0.007381479412255488, "timer/agent.policy_min": 0.005728483200073242, "timer/agent.policy_max": 0.019369840621948242, "timer/dataset_count": 723.0, "timer/dataset_total": 0.05966925621032715, "timer/dataset_frac": 0.00019889903596731725, "timer/dataset_avg": 8.253009157721597e-05, "timer/dataset_min": 6.175041198730469e-05, "timer/dataset_max": 0.00020194053649902344, "timer/agent.train_count": 723.0, "timer/agent.train_total": 268.2180435657501, "timer/agent.train_frac": 0.8940669564611472, "timer/agent.train_avg": 0.370979313368949, "timer/agent.train_min": 0.36340904235839844, "timer/agent.train_max": 0.3863956928253174, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2183239459991455, "timer/agent.report_frac": 0.0007277520308740679, "timer/agent.report_avg": 0.2183239459991455, "timer/agent.report_min": 0.2183239459991455, "timer/agent.report_max": 0.2183239459991455, "fps": 4.82327519526888}
{"step": 1122951, "episode/length": 165.0, "episode/score": 14.100000016391277, "episode/sum_abs_reward": 15.700000040233135, "episode/reward_rate": 0.09036144578313253}
{"step": 1123257, "episode/length": 305.0, "episode/score": 17.099999986588955, "episode/sum_abs_reward": 19.30000001937151, "episode/reward_rate": 0.058823529411764705}
{"step": 1123452, "episode/length": 194.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.07692307692307693}
{"step": 1123695, "episode/length": 242.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.04938271604938271}
{"step": 1123759, "episode/length": 63.0, "episode/score": 7.100000023841858, "episode/sum_abs_reward": 8.899999976158142, "episode/reward_rate": 0.140625}
{"step": 1124007, "episode/length": 247.0, "episode/score": 14.100000031292439, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.06451612903225806}
{"step": 1124249, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.381814198951199, "train/action_min": 0.0, "train/action_std": 3.25035696813505, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.036179826301458766, "train/actor_opt_grad_steps": 561210.0, "train/actor_opt_loss": -11.511996742797225, "train/adv_mag": 0.3792090436367139, "train/adv_max": 0.31756693818797804, "train/adv_mean": 0.0014702168376821297, "train/adv_min": -0.3342203810198666, "train/adv_std": 0.04099667398896936, "train/cont_avg": 0.9950502996575342, "train/cont_loss_mean": 1.2592198729845372e-05, "train/cont_loss_std": 0.0002963753951503692, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0007201670489807387, "train/cont_pos_acc": 0.9999999820369564, "train/cont_pos_loss": 7.2489080893107825e-06, "train/cont_pred": 0.9950479522143325, "train/cont_rate": 0.9950502996575342, "train/dyn_loss_mean": 5.699686350887769, "train/dyn_loss_std": 8.887646662045832, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.896687872605781, "train/extr_critic_critic_opt_grad_steps": 561210.0, "train/extr_critic_critic_opt_loss": 15237.050032106165, "train/extr_critic_mag": 12.228961356698651, "train/extr_critic_max": 12.228961356698651, "train/extr_critic_mean": 3.766688885754102, "train/extr_critic_min": -0.3761754084939826, "train/extr_critic_std": 2.9462149927060897, "train/extr_return_normed_mag": 1.3651359995750532, "train/extr_return_normed_max": 1.3651359995750532, "train/extr_return_normed_mean": 0.4003845845183281, "train/extr_return_normed_min": -0.0774111091988544, "train/extr_return_normed_std": 0.31253389769221007, "train/extr_return_rate": 0.8612800093546306, "train/extr_return_raw_mag": 12.944845918106706, "train/extr_return_raw_max": 12.944845918106706, "train/extr_return_raw_mean": 3.780678337567473, "train/extr_return_raw_min": -0.7577180846096718, "train/extr_return_raw_std": 2.96880420919967, "train/extr_reward_mag": 1.0828488297658423, "train/extr_reward_max": 1.0828488297658423, "train/extr_reward_mean": 0.06318171480542993, "train/extr_reward_min": -0.6332007548580431, "train/extr_reward_std": 0.24160669233701002, "train/image_loss_mean": 3.33227238099869, "train/image_loss_std": 8.438181864072199, "train/model_loss_mean": 6.814807552180878, "train/model_loss_std": 12.528320626036761, "train/model_opt_grad_norm": 21.793296539620176, "train/model_opt_grad_steps": 560749.0, "train/model_opt_loss": 17037.01879548373, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7056050823159414, "train/policy_entropy_max": 2.7056050823159414, "train/policy_entropy_mean": 0.41232223625052467, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.626621960777126, "train/policy_logprob_mag": 7.43838429124388, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4121634062022379, "train/policy_logprob_min": -7.43838429124388, "train/policy_logprob_std": 1.0384283735327524, "train/policy_randomness_mag": 0.9549598644857538, "train/policy_randomness_max": 0.9549598644857538, "train/policy_randomness_mean": 0.14553165650122787, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22117005533551518, "train/post_ent_mag": 56.09274835455908, "train/post_ent_max": 56.09274835455908, "train/post_ent_mean": 40.03512296284715, "train/post_ent_min": 19.58037371178196, "train/post_ent_std": 5.884555947290708, "train/prior_ent_mag": 76.75122571971319, "train/prior_ent_max": 76.75122571971319, "train/prior_ent_mean": 45.72508955655033, "train/prior_ent_min": 27.4317697760177, "train/prior_ent_std": 7.98217852474892, "train/rep_loss_mean": 5.699686350887769, "train/rep_loss_std": 8.887646662045832, "train/reward_avg": 0.04870906461999841, "train/reward_loss_mean": 0.06271076304455327, "train/reward_loss_std": 0.2231134041531445, "train/reward_max_data": 1.035616446847785, "train/reward_max_pred": 1.0353102357420203, "train/reward_neg_acc": 0.9933728763501938, "train/reward_neg_loss": 0.02563700239390951, "train/reward_pos_acc": 0.9908601608994889, "train/reward_pos_loss": 0.7236744883942278, "train/reward_pred": 0.04813808876357666, "train/reward_rate": 0.053189212328767124, "stats/sum_log_reward": 12.9333336353302, "stats/max_log_achievement_collect_coal": 1.1666666666666667, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.3333333333333333, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 12.166666666666666, "stats/max_log_achievement_collect_wood": 11.5, "stats/max_log_achievement_defeat_skeleton": 0.3333333333333333, "stats/max_log_achievement_defeat_zombie": 1.1666666666666667, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 1.5, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 1.3333333333333333, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.4293037950992584, "replay/size": 1000000.0, "replay/inserts": 1459.0, "replay/samples": 11680.0, "replay/insert_wait_avg": 3.3654767899908703e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3249785932776046e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1546642780304, "timer/env.step_count": 1459.0, "timer/env.step_total": 17.34648585319519, "timer/env.step_frac": 0.05779182507431337, "timer/env.step_avg": 0.011889298048797252, "timer/env.step_min": 0.002839326858520508, "timer/env.step_max": 1.7027101516723633, "timer/replay.add_count": 1459.0, "timer/replay.add_total": 0.3167264461517334, "timer/replay.add_frac": 0.0010552108091125738, "timer/replay.add_avg": 0.00021708461011085223, "timer/replay.add_min": 7.891654968261719e-05, "timer/replay.add_max": 0.004271745681762695, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03301048278808594, "timer/logger.write_frac": 0.00010997824360813079, "timer/logger.write_avg": 0.03301048278808594, "timer/logger.write_min": 0.03301048278808594, "timer/logger.write_max": 0.03301048278808594, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1459.0, "timer/agent.policy_total": 10.821637630462646, "timer/agent.policy_frac": 0.036053538120062886, "timer/agent.policy_avg": 0.00741716081594424, "timer/agent.policy_min": 0.005776166915893555, "timer/agent.policy_max": 0.013178110122680664, "timer/dataset_count": 730.0, "timer/dataset_total": 0.06022071838378906, "timer/dataset_frac": 0.00020063229245042543, "timer/dataset_avg": 8.249413477231378e-05, "timer/dataset_min": 6.198883056640625e-05, "timer/dataset_max": 0.00015687942504882812, "timer/agent.train_count": 730.0, "timer/agent.train_total": 270.92139291763306, "timer/agent.train_frac": 0.9026059733880436, "timer/agent.train_avg": 0.3711251957775795, "timer/agent.train_min": 0.3649861812591553, "timer/agent.train_max": 0.3852858543395996, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.218583345413208, "timer/agent.report_frac": 0.0007282357112089931, "timer/agent.report_avg": 0.218583345413208, "timer/agent.report_min": 0.218583345413208, "timer/agent.report_max": 0.218583345413208, "fps": 4.8607263927694015}
{"step": 1124329, "episode/length": 321.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000052154064, "episode/reward_rate": 0.043478260869565216}
{"step": 1124486, "episode/length": 156.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.08917197452229299}
{"step": 1124794, "episode/length": 307.0, "episode/score": 13.099999994039536, "episode/sum_abs_reward": 14.700000032782555, "episode/reward_rate": 0.045454545454545456}
{"step": 1125112, "episode/length": 317.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.500000022351742, "episode/reward_rate": 0.050314465408805034}
{"step": 1125316, "episode/length": 203.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.500000044703484, "episode/reward_rate": 0.06862745098039216}
{"step": 1125616, "episode/length": 299.0, "episode/score": 13.099999964237213, "episode/sum_abs_reward": 15.099999994039536, "episode/reward_rate": 0.04666666666666667}
{"step": 1125689, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.479600694444445, "train/action_min": 0.0, "train/action_std": 3.3352155552970038, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.037374603329226375, "train/actor_opt_grad_steps": 561935.0, "train/actor_opt_loss": -9.653099537309673, "train/adv_mag": 0.40399297037058407, "train/adv_max": 0.32742795575824046, "train/adv_mean": 0.00217490757369079, "train/adv_min": -0.37076017157071167, "train/adv_std": 0.04185021358231703, "train/cont_avg": 0.9952528211805556, "train/cont_loss_mean": 4.608583031788053e-05, "train/cont_loss_std": 0.001453878735245853, "train/cont_neg_acc": 0.9972222223877907, "train/cont_neg_loss": 0.006544644400812736, "train/cont_pos_acc": 0.9999863497085042, "train/cont_pos_loss": 1.3437549103755151e-05, "train/cont_pred": 0.9952603785528077, "train/cont_rate": 0.9952528211805556, "train/dyn_loss_mean": 5.744665814770593, "train/dyn_loss_std": 8.914888064066568, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8994464882546, "train/extr_critic_critic_opt_grad_steps": 561935.0, "train/extr_critic_critic_opt_loss": 15254.670952690973, "train/extr_critic_mag": 12.201383749643961, "train/extr_critic_max": 12.201383749643961, "train/extr_critic_mean": 3.6919238335556455, "train/extr_critic_min": -0.3477835605541865, "train/extr_critic_std": 2.8748767938878803, "train/extr_return_normed_mag": 1.3809138983488083, "train/extr_return_normed_max": 1.3809138983488083, "train/extr_return_normed_mean": 0.39646198807491195, "train/extr_return_normed_min": -0.07384801048061086, "train/extr_return_normed_std": 0.3091407242334551, "train/extr_return_rate": 0.8637876601682769, "train/extr_return_raw_mag": 12.949196206198799, "train/extr_return_raw_max": 12.949196206198799, "train/extr_return_raw_mean": 3.7123284571700625, "train/extr_return_raw_min": -0.699688675502936, "train/extr_return_raw_std": 2.9004836314254336, "train/extr_reward_mag": 1.0829055673546262, "train/extr_reward_max": 1.0829055673546262, "train/extr_reward_mean": 0.06401330103269881, "train/extr_reward_min": -0.633541981379191, "train/extr_reward_std": 0.24227566665245426, "train/image_loss_mean": 3.43235229783588, "train/image_loss_std": 8.626198814974892, "train/model_loss_mean": 6.9411952826711865, "train/model_loss_std": 12.746490266588, "train/model_opt_grad_norm": 21.584530976083542, "train/model_opt_grad_steps": 561473.0277777778, "train/model_opt_loss": 17578.16852484809, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2534.722222222222, "train/policy_entropy_mag": 2.7048212620947094, "train/policy_entropy_max": 2.7048212620947094, "train/policy_entropy_mean": 0.42840595005287063, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6408516032000383, "train/policy_logprob_mag": 7.438384261396196, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4274244217409028, "train/policy_logprob_min": -7.438384261396196, "train/policy_logprob_std": 1.047251797384686, "train/policy_randomness_mag": 0.9546832111146715, "train/policy_randomness_max": 0.9546832111146715, "train/policy_randomness_mean": 0.15120850099871555, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22619249112904072, "train/post_ent_mag": 55.37457195917765, "train/post_ent_max": 55.37457195917765, "train/post_ent_mean": 40.06645419862535, "train/post_ent_min": 19.797561354107327, "train/post_ent_std": 5.844720277521345, "train/prior_ent_mag": 76.81305715772841, "train/prior_ent_max": 76.81305715772841, "train/prior_ent_mean": 45.8241860071818, "train/prior_ent_min": 27.77403344048394, "train/prior_ent_std": 7.955674926439921, "train/rep_loss_mean": 5.744665814770593, "train/rep_loss_std": 8.914888064066568, "train/reward_avg": 0.048502603726875454, "train/reward_loss_mean": 0.06199742387980223, "train/reward_loss_std": 0.2218652313782109, "train/reward_max_data": 1.027777784400516, "train/reward_max_pred": 1.0275116562843323, "train/reward_neg_acc": 0.9932370657722155, "train/reward_neg_loss": 0.024981298031181924, "train/reward_pos_acc": 0.9883886269397206, "train/reward_pos_loss": 0.725769430398941, "train/reward_pred": 0.04808783621734215, "train/reward_rate": 0.05274793836805555, "stats/sum_log_reward": 13.43333371480306, "stats/max_log_achievement_collect_coal": 1.3333333333333333, "stats/max_log_achievement_collect_drink": 4.333333333333333, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 16.0, "stats/max_log_achievement_collect_wood": 13.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.8333333333333333, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.3333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 2.0, "stats/max_log_achievement_place_table": 3.6666666666666665, "stats/max_log_achievement_wake_up": 1.8333333333333333, "stats/mean_log_entropy": 0.6558779353896776, "replay/size": 1000000.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.2511022355821397e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3330330451329548e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1586797237396, "timer/env.step_count": 1440.0, "timer/env.step_total": 19.03766131401062, "timer/env.step_frac": 0.06342532333741781, "timer/env.step_avg": 0.013220598134729597, "timer/env.step_min": 0.002913951873779297, "timer/env.step_max": 1.802480697631836, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.2923126220703125, "timer/replay.add_frac": 0.0009738603006228289, "timer/replay.add_avg": 0.000202994876437717, "timer/replay.add_min": 6.985664367675781e-05, "timer/replay.add_max": 0.0039784908294677734, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030534029006958008, "timer/logger.write_frac": 0.00010172629035768998, "timer/logger.write_avg": 0.030534029006958008, "timer/logger.write_min": 0.030534029006958008, "timer/logger.write_max": 0.030534029006958008, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00047588348388671875, "timer/checkpoint.save_frac": 1.585439689182778e-06, "timer/checkpoint.save_avg": 0.00047588348388671875, "timer/checkpoint.save_min": 0.00047588348388671875, "timer/checkpoint.save_max": 0.00047588348388671875, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4543635845184326, "timer/agent.save_frac": 0.004845315770501794, "timer/agent.save_avg": 1.4543635845184326, "timer/agent.save_min": 1.4543635845184326, "timer/agent.save_max": 1.4543635845184326, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.034706115722656e-05, "timer/replay.save_frac": 2.676819515303588e-07, "timer/replay.save_avg": 8.034706115722656e-05, "timer/replay.save_min": 8.034706115722656e-05, "timer/replay.save_max": 8.034706115722656e-05, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 12.724002361297607, "timer/agent.policy_frac": 0.042390919273127596, "timer/agent.policy_avg": 0.008836112750901116, "timer/agent.policy_min": 0.005785226821899414, "timer/agent.policy_max": 1.4519174098968506, "timer/dataset_count": 720.0, "timer/dataset_total": 0.058640480041503906, "timer/dataset_frac": 0.00019536493196024016, "timer/dataset_avg": 8.144511116875543e-05, "timer/dataset_min": 6.0558319091796875e-05, "timer/dataset_max": 0.00013017654418945312, "timer/agent.train_count": 720.0, "timer/agent.train_total": 267.368691444397, "timer/agent.train_frac": 0.890757820798246, "timer/agent.train_avg": 0.37134540478388467, "timer/agent.train_min": 0.3641531467437744, "timer/agent.train_max": 0.8240354061126709, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21985840797424316, "timer/agent.report_frac": 0.0007324739307109049, "timer/agent.report_avg": 0.21985840797424316, "timer/agent.report_min": 0.21985840797424316, "timer/agent.report_max": 0.21985840797424316, "fps": 4.797361897640594}
{"step": 1125933, "episode/length": 316.0, "episode/score": 9.099999979138374, "episode/sum_abs_reward": 12.100000038743019, "episode/reward_rate": 0.031545741324921134}
{"step": 1126179, "episode/length": 245.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.700000002980232, "episode/reward_rate": 0.06504065040650407}
{"step": 1126382, "episode/length": 202.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.04433497536945813}
{"step": 1126620, "episode/length": 237.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.5, "episode/reward_rate": 0.06302521008403361}
{"step": 1126825, "episode/length": 204.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.04878048780487805}
{"step": 1127061, "episode/length": 235.0, "episode/score": 14.099999979138374, "episode/sum_abs_reward": 16.30000002682209, "episode/reward_rate": 0.0635593220338983}
{"step": 1127153, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.444229753050085, "train/action_min": 0.0, "train/action_std": 3.2592372665666556, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.037619481296980214, "train/actor_opt_grad_steps": 562660.0, "train/actor_opt_loss": -10.872400617762787, "train/adv_mag": 0.41458960836880826, "train/adv_max": 0.3323132585581035, "train/adv_mean": 0.0021697442369832186, "train/adv_min": -0.3702128970459716, "train/adv_std": 0.04195435942239957, "train/cont_avg": 0.9951171875, "train/cont_loss_mean": 9.730575456452689e-06, "train/cont_loss_std": 0.00025956923505259823, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 7.063323566871317e-05, "train/cont_pos_acc": 0.9999999804039524, "train/cont_pos_loss": 9.451888863064325e-06, "train/cont_pred": 0.995109060855761, "train/cont_rate": 0.9951171875, "train/dyn_loss_mean": 5.804150927556704, "train/dyn_loss_std": 8.872131974729774, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8898074047206199, "train/extr_critic_critic_opt_grad_steps": 562660.0, "train/extr_critic_critic_opt_loss": 15235.708021190068, "train/extr_critic_mag": 12.609047902773504, "train/extr_critic_max": 12.609047902773504, "train/extr_critic_mean": 3.7970229468933523, "train/extr_critic_min": -0.38143931676263676, "train/extr_critic_std": 2.9931861766397136, "train/extr_return_normed_mag": 1.399635187567097, "train/extr_return_normed_max": 1.399635187567097, "train/extr_return_normed_mean": 0.40005457074674844, "train/extr_return_normed_min": -0.07518360166721148, "train/extr_return_normed_std": 0.3174559480115159, "train/extr_return_rate": 0.8534122182898325, "train/extr_return_raw_mag": 13.345843824621749, "train/extr_return_raw_max": 13.345843824621749, "train/extr_return_raw_mean": 3.81770092820468, "train/extr_return_raw_min": -0.7129365022051825, "train/extr_return_raw_std": 3.0264277621491313, "train/extr_reward_mag": 1.084969739391379, "train/extr_reward_max": 1.084969739391379, "train/extr_reward_mean": 0.06426192666978052, "train/extr_reward_min": -0.6104270350443174, "train/extr_reward_std": 0.2434520909231003, "train/image_loss_mean": 3.450005671749376, "train/image_loss_std": 8.513174266031344, "train/model_loss_mean": 6.994733451163932, "train/model_loss_std": 12.58534027778939, "train/model_opt_grad_norm": 20.56571147866445, "train/model_opt_grad_steps": 562197.493150685, "train/model_opt_loss": 19023.665908604453, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2705.4794520547944, "train/policy_entropy_mag": 2.7056589159246993, "train/policy_entropy_max": 2.7056589159246993, "train/policy_entropy_mean": 0.43203731350702784, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6453458564738704, "train/policy_logprob_mag": 7.438384245519769, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.433844655343931, "train/policy_logprob_min": -7.438384245519769, "train/policy_logprob_std": 1.0594416072923842, "train/policy_randomness_mag": 0.9549788628538994, "train/policy_randomness_max": 0.9549788628538994, "train/policy_randomness_mean": 0.15249021310512334, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22777876625322316, "train/post_ent_mag": 56.1213784413795, "train/post_ent_max": 56.1213784413795, "train/post_ent_mean": 40.213947661935464, "train/post_ent_min": 19.499538212606353, "train/post_ent_std": 5.887504283696005, "train/prior_ent_mag": 76.76571143163393, "train/prior_ent_max": 76.76571143163393, "train/prior_ent_mean": 46.02925235277986, "train/prior_ent_min": 27.49312949507204, "train/prior_ent_std": 7.94389262264722, "train/rep_loss_mean": 5.804150927556704, "train/rep_loss_std": 8.872131974729774, "train/reward_avg": 0.0485592355364806, "train/reward_loss_mean": 0.06222749419816553, "train/reward_loss_std": 0.22049504273558315, "train/reward_max_data": 1.0410959002089828, "train/reward_max_pred": 1.0391864972571805, "train/reward_neg_acc": 0.9929813677317476, "train/reward_neg_loss": 0.02576743921086396, "train/reward_pos_acc": 0.991762156355871, "train/reward_pos_loss": 0.7148440357756941, "train/reward_pred": 0.048424444735458455, "train/reward_rate": 0.05298854880136986, "stats/sum_log_reward": 11.266666889190674, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 3.6666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 9.833333333333334, "stats/max_log_achievement_collect_wood": 11.0, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.16666666666666666, "stats/max_log_achievement_make_stone_sword": 0.3333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 2.1666666666666665, "stats/max_log_achievement_place_table": 3.1666666666666665, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.45273150503635406, "replay/size": 1000000.0, "replay/inserts": 1464.0, "replay/samples": 11712.0, "replay/insert_wait_avg": 3.2179994009883027e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3678125996407263e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0564708709717, "timer/env.step_count": 1464.0, "timer/env.step_total": 16.91060733795166, "timer/env.step_frac": 0.056358082493156596, "timer/env.step_avg": 0.011550961296415068, "timer/env.step_min": 0.002830028533935547, "timer/env.step_max": 1.6399660110473633, "timer/replay.add_count": 1464.0, "timer/replay.add_total": 0.2808361053466797, "timer/replay.add_frac": 0.0009359441725469169, "timer/replay.add_avg": 0.00019182794081057356, "timer/replay.add_min": 7.390975952148438e-05, "timer/replay.add_max": 0.0030519962310791016, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026801347732543945, "timer/logger.write_frac": 8.93210123239398e-05, "timer/logger.write_avg": 0.026801347732543945, "timer/logger.write_min": 0.026801347732543945, "timer/logger.write_max": 0.026801347732543945, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1464.0, "timer/agent.policy_total": 10.811083555221558, "timer/agent.policy_frac": 0.03603016300178532, "timer/agent.policy_avg": 0.0073846199147688234, "timer/agent.policy_min": 0.005880594253540039, "timer/agent.policy_max": 0.015590429306030273, "timer/dataset_count": 732.0, "timer/dataset_total": 0.05929970741271973, "timer/dataset_frac": 0.00019762849053243513, "timer/dataset_avg": 8.101052925234936e-05, "timer/dataset_min": 6.008148193359375e-05, "timer/dataset_max": 0.00014495849609375, "timer/agent.train_count": 732.0, "timer/agent.train_total": 271.3038296699524, "timer/agent.train_frac": 0.9041759002311824, "timer/agent.train_avg": 0.3706336470900989, "timer/agent.train_min": 0.3627305030822754, "timer/agent.train_max": 0.38590550422668457, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22326445579528809, "timer/agent.report_frac": 0.0007440747908126095, "timer/agent.report_avg": 0.22326445579528809, "timer/agent.report_min": 0.22326445579528809, "timer/agent.report_max": 0.22326445579528809, "fps": 4.878992779316631}
{"step": 1127311, "episode/length": 249.0, "episode/score": 15.100000008940697, "episode/sum_abs_reward": 18.100000008940697, "episode/reward_rate": 0.068}
{"step": 1127523, "episode/length": 211.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.0660377358490566}
{"step": 1127781, "episode/length": 257.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.050387596899224806}
{"step": 1127994, "episode/length": 212.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 15.900000013411045, "episode/reward_rate": 0.07042253521126761}
{"step": 1128227, "episode/length": 232.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.900000028312206, "episode/reward_rate": 0.06866952789699571}
{"step": 1128372, "episode/length": 144.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.07586206896551724}
{"step": 1128433, "episode/length": 60.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 6.700000040233135, "episode/reward_rate": 0.11475409836065574}
{"step": 1128603, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.425235277985873, "train/action_min": 0.0, "train/action_std": 3.224834726281362, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03691198745716925, "train/actor_opt_grad_steps": 563390.0, "train/actor_opt_loss": -11.41335687245408, "train/adv_mag": 0.3851421834671334, "train/adv_max": 0.33148711634008854, "train/adv_mean": 0.0016270116742418072, "train/adv_min": -0.33748591334035954, "train/adv_std": 0.041381509285675334, "train/cont_avg": 0.9952242080479452, "train/cont_loss_mean": 1.430439719531392e-05, "train/cont_loss_std": 0.00043043319871610773, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0006039878153366276, "train/cont_pos_acc": 0.9999999836699603, "train/cont_pos_loss": 1.131182751033818e-05, "train/cont_pred": 0.9952178687265475, "train/cont_rate": 0.9952242080479452, "train/dyn_loss_mean": 5.682004321111392, "train/dyn_loss_std": 8.905352004586835, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8921711338709478, "train/extr_critic_critic_opt_grad_steps": 563390.0, "train/extr_critic_critic_opt_loss": 15295.723873608733, "train/extr_critic_mag": 12.34106369541116, "train/extr_critic_max": 12.34106369541116, "train/extr_critic_mean": 3.713941939889568, "train/extr_critic_min": -0.34941770442544595, "train/extr_critic_std": 2.944531548513125, "train/extr_return_normed_mag": 1.386066240807102, "train/extr_return_normed_max": 1.386066240807102, "train/extr_return_normed_mean": 0.39251014222837477, "train/extr_return_normed_min": -0.07257855305932973, "train/extr_return_normed_std": 0.3126258954201659, "train/extr_return_rate": 0.8464656929447226, "train/extr_return_raw_mag": 13.155259694138618, "train/extr_return_raw_max": 13.155259694138618, "train/extr_return_raw_mean": 3.72936457150603, "train/extr_return_raw_min": -0.6827288041376087, "train/extr_return_raw_std": 2.9659547250564784, "train/extr_reward_mag": 1.0798630191855234, "train/extr_reward_max": 1.0798630191855234, "train/extr_reward_mean": 0.06333350288133098, "train/extr_reward_min": -0.5855636890620401, "train/extr_reward_std": 0.24138878734960947, "train/image_loss_mean": 3.3946588072058272, "train/image_loss_std": 8.758050121673167, "train/model_loss_mean": 6.865588952417243, "train/model_loss_std": 12.874019152497592, "train/model_opt_grad_norm": 21.231550647787852, "train/model_opt_grad_steps": 562926.8630136986, "train/model_opt_loss": 17163.972321810787, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.698336179942301, "train/policy_entropy_max": 2.698336179942301, "train/policy_entropy_mean": 0.420307140031906, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6291814250488804, "train/policy_logprob_mag": 7.438384271647832, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4209710480007407, "train/policy_logprob_min": -7.438384271647832, "train/policy_logprob_std": 1.0445749727013993, "train/policy_randomness_mag": 0.9523942576695795, "train/policy_randomness_max": 0.9523942576695795, "train/policy_randomness_mean": 0.1483499761925985, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22207343108849983, "train/post_ent_mag": 55.80047090086219, "train/post_ent_max": 55.80047090086219, "train/post_ent_mean": 40.152778730000534, "train/post_ent_min": 19.61877417890993, "train/post_ent_std": 5.863048448954543, "train/prior_ent_mag": 76.8037122961593, "train/prior_ent_max": 76.8037122961593, "train/prior_ent_mean": 45.85158084190055, "train/prior_ent_min": 27.504378436362906, "train/prior_ent_std": 8.000987549350686, "train/rep_loss_mean": 5.682004321111392, "train/rep_loss_std": 8.905352004586835, "train/reward_avg": 0.04718937219618118, "train/reward_loss_mean": 0.06171320781928219, "train/reward_loss_std": 0.21861687506714914, "train/reward_max_data": 1.0328767201671862, "train/reward_max_pred": 1.0323547010552394, "train/reward_neg_acc": 0.9925447383972064, "train/reward_neg_loss": 0.02608737796034715, "train/reward_pos_acc": 0.9924241034951928, "train/reward_pos_loss": 0.7159310399669491, "train/reward_pred": 0.047000475840209284, "train/reward_rate": 0.0516507919520548, "stats/sum_log_reward": 12.100000381469727, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 2.5714285714285716, "stats/max_log_achievement_collect_iron": 0.14285714285714285, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 12.571428571428571, "stats/max_log_achievement_collect_wood": 14.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.7142857142857142, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.7142857142857143, "stats/max_log_achievement_make_stone_sword": 0.8571428571428571, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.7142857142857142, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 2.142857142857143, "stats/max_log_achievement_place_table": 3.5714285714285716, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.32832243399960653, "replay/size": 1000000.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.3276656578327047e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.2890840398854223e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.04428720474243, "timer/env.step_count": 1450.0, "timer/env.step_total": 19.10739278793335, "timer/env.step_frac": 0.06368190831407151, "timer/env.step_avg": 0.01317751226754024, "timer/env.step_min": 0.002767324447631836, "timer/env.step_max": 1.6507322788238525, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.2980179786682129, "timer/replay.add_frac": 0.0009932466351704045, "timer/replay.add_avg": 0.00020552964046083647, "timer/replay.add_min": 7.390975952148438e-05, "timer/replay.add_max": 0.003840923309326172, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.031145811080932617, "timer/logger.write_frac": 0.00010380404629960351, "timer/logger.write_avg": 0.031145811080932617, "timer/logger.write_min": 0.031145811080932617, "timer/logger.write_max": 0.031145811080932617, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 10.75323486328125, "timer/agent.policy_frac": 0.0358388255395895, "timer/agent.policy_avg": 0.007416024043642241, "timer/agent.policy_min": 0.005774497985839844, "timer/agent.policy_max": 0.017970800399780273, "timer/dataset_count": 725.0, "timer/dataset_total": 0.059392690658569336, "timer/dataset_frac": 0.0001979464138840321, "timer/dataset_avg": 8.192095263250943e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.00014281272888183594, "timer/agent.train_count": 725.0, "timer/agent.train_total": 269.12598037719727, "timer/agent.train_frac": 0.8969541892779072, "timer/agent.train_avg": 0.3712082487961342, "timer/agent.train_min": 0.3650362491607666, "timer/agent.train_max": 0.3837106227874756, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22341656684875488, "timer/agent.report_frac": 0.0007446119668870789, "timer/agent.report_avg": 0.22341656684875488, "timer/agent.report_min": 0.22341656684875488, "timer/agent.report_max": 0.22341656684875488, "fps": 4.832520110101895}
{"step": 1128659, "episode/length": 225.0, "episode/score": 15.100000023841858, "episode/sum_abs_reward": 17.10000005364418, "episode/reward_rate": 0.07079646017699115}
{"step": 1128854, "episode/length": 194.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.05641025641025641}
{"step": 1129132, "episode/length": 277.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.03597122302158273}
{"step": 1129407, "episode/length": 274.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 18.1000000461936, "episode/reward_rate": 0.05818181818181818}
{"step": 1129730, "episode/length": 322.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.04643962848297214}
{"step": 1129915, "episode/length": 184.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.07567567567567568}
{"step": 1130041, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.437443203396267, "train/action_min": 0.0, "train/action_std": 3.2612880865732827, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.037600232262371316, "train/actor_opt_grad_steps": 564115.0, "train/actor_opt_loss": -10.502140035231909, "train/adv_mag": 0.4224681392725971, "train/adv_max": 0.3420113863216506, "train/adv_mean": 0.0019718331588794375, "train/adv_min": -0.3769760026286046, "train/adv_std": 0.04210869181487295, "train/cont_avg": 0.994873046875, "train/cont_loss_mean": 5.6225116504727955e-05, "train/cont_loss_std": 0.0017628672918801572, "train/cont_neg_acc": 0.9929577464788732, "train/cont_neg_loss": 0.014706321023237318, "train/cont_pos_acc": 0.999986377855142, "train/cont_pos_loss": 2.3401257852310547e-05, "train/cont_pred": 0.9948768127295706, "train/cont_rate": 0.994873046875, "train/dyn_loss_mean": 5.793596963087718, "train/dyn_loss_std": 8.957845833566454, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8628952999909719, "train/extr_critic_critic_opt_grad_steps": 564115.0, "train/extr_critic_critic_opt_loss": 15304.669528537326, "train/extr_critic_mag": 12.226562407281664, "train/extr_critic_max": 12.226562407281664, "train/extr_critic_mean": 3.754283686478933, "train/extr_critic_min": -0.3766307416889403, "train/extr_critic_std": 2.9620085093710156, "train/extr_return_normed_mag": 1.3697507588399782, "train/extr_return_normed_max": 1.3697507588399782, "train/extr_return_normed_mean": 0.39910978596243596, "train/extr_return_normed_min": -0.0788201271659798, "train/extr_return_normed_std": 0.31651276018884444, "train/extr_return_rate": 0.8481219684084257, "train/extr_return_raw_mag": 12.937469323476156, "train/extr_return_raw_max": 12.937469323476156, "train/extr_return_raw_mean": 3.772910942633947, "train/extr_return_raw_min": -0.7404323787324958, "train/extr_return_raw_std": 2.9886942820416555, "train/extr_reward_mag": 1.0819405184851751, "train/extr_reward_max": 1.0819405184851751, "train/extr_reward_mean": 0.06341477949172258, "train/extr_reward_min": -0.6207682225439284, "train/extr_reward_std": 0.24189193484683832, "train/image_loss_mean": 3.5285503996743097, "train/image_loss_std": 8.895255075560677, "train/model_loss_mean": 7.067930658658345, "train/model_loss_std": 13.024915430280897, "train/model_opt_grad_norm": 21.02308204438951, "train/model_opt_grad_steps": 563651.0, "train/model_opt_loss": 17669.826605902777, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7084908253616757, "train/policy_entropy_max": 2.7084908253616757, "train/policy_entropy_mean": 0.4285569464166959, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6359008927312162, "train/policy_logprob_mag": 7.438384274641673, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.427929633607467, "train/policy_logprob_min": -7.438384274641673, "train/policy_logprob_std": 1.0483259293768141, "train/policy_randomness_mag": 0.9559784034887949, "train/policy_randomness_max": 0.9559784034887949, "train/policy_randomness_mean": 0.15126179655392966, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22444510977301332, "train/post_ent_mag": 55.540094746483696, "train/post_ent_max": 55.540094746483696, "train/post_ent_mean": 40.19183667500814, "train/post_ent_min": 19.592582835091484, "train/post_ent_std": 5.838374846511417, "train/prior_ent_mag": 76.82518884870741, "train/prior_ent_max": 76.82518884870741, "train/prior_ent_mean": 45.929896884494354, "train/prior_ent_min": 27.462208721372818, "train/prior_ent_std": 7.940905213356018, "train/rep_loss_mean": 5.793596963087718, "train/rep_loss_std": 8.957845833566454, "train/reward_avg": 0.04861246747896075, "train/reward_loss_mean": 0.06316584716033605, "train/reward_loss_std": 0.2236180290993717, "train/reward_max_data": 1.0347222305006452, "train/reward_max_pred": 1.035622388124466, "train/reward_neg_acc": 0.9925648669401804, "train/reward_neg_loss": 0.026420238764128752, "train/reward_pos_acc": 0.9890710264444351, "train/reward_pos_loss": 0.7178245559334755, "train/reward_pred": 0.04830047726217243, "train/reward_rate": 0.053141276041666664, "stats/sum_log_reward": 12.600000222524008, "stats/max_log_achievement_collect_coal": 1.5, "stats/max_log_achievement_collect_drink": 4.333333333333333, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 1.1666666666666667, "stats/max_log_achievement_collect_stone": 14.5, "stats/max_log_achievement_collect_wood": 14.166666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.1666666666666665, "stats/max_log_achievement_eat_cow": 0.8333333333333334, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.8333333333333333, "stats/max_log_achievement_place_plant": 0.8333333333333334, "stats/max_log_achievement_place_stone": 3.5, "stats/max_log_achievement_place_table": 3.1666666666666665, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.4685739775498708, "replay/size": 1000000.0, "replay/inserts": 1438.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.3299017682029077e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3000278711650567e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0159721374512, "timer/env.step_count": 1438.0, "timer/env.step_total": 19.782459497451782, "timer/env.step_frac": 0.06593802108771904, "timer/env.step_avg": 0.013756925937031837, "timer/env.step_min": 0.0027379989624023438, "timer/env.step_max": 2.395827531814575, "timer/replay.add_count": 1438.0, "timer/replay.add_total": 0.2751152515411377, "timer/replay.add_frac": 0.0009170020168629379, "timer/replay.add_avg": 0.0001913179774277731, "timer/replay.add_min": 8.249282836914062e-05, "timer/replay.add_max": 0.004314422607421875, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02537059783935547, "timer/logger.write_frac": 8.456415723004249e-05, "timer/logger.write_avg": 0.02537059783935547, "timer/logger.write_min": 0.02537059783935547, "timer/logger.write_max": 0.02537059783935547, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00024056434631347656, "timer/checkpoint.save_frac": 8.018384641310461e-07, "timer/checkpoint.save_avg": 0.00024056434631347656, "timer/checkpoint.save_min": 0.00024056434631347656, "timer/checkpoint.save_max": 0.00024056434631347656, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.223639726638794, "timer/agent.save_frac": 0.004078581943224636, "timer/agent.save_avg": 1.223639726638794, "timer/agent.save_min": 1.223639726638794, "timer/agent.save_max": 1.223639726638794, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.222724914550781e-05, "timer/replay.save_frac": 2.0741312104876416e-07, "timer/replay.save_avg": 6.222724914550781e-05, "timer/replay.save_min": 6.222724914550781e-05, "timer/replay.save_max": 6.222724914550781e-05, "timer/agent.policy_count": 1438.0, "timer/agent.policy_total": 11.7586510181427, "timer/agent.policy_frac": 0.03919341671834565, "timer/agent.policy_avg": 0.008177086938903129, "timer/agent.policy_min": 0.005822181701660156, "timer/agent.policy_max": 1.2090539932250977, "timer/dataset_count": 719.0, "timer/dataset_total": 0.05837750434875488, "timer/dataset_frac": 0.00019458132156380478, "timer/dataset_avg": 8.119263469924184e-05, "timer/dataset_min": 5.984306335449219e-05, "timer/dataset_max": 0.0001430511474609375, "timer/agent.train_count": 719.0, "timer/agent.train_total": 267.45745277404785, "timer/agent.train_frac": 0.8914773799160041, "timer/agent.train_avg": 0.3719853307010401, "timer/agent.train_min": 0.36478757858276367, "timer/agent.train_max": 0.780343770980835, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21845793724060059, "timer/agent.report_frac": 0.0007281543568637569, "timer/agent.report_avg": 0.21845793724060059, "timer/agent.report_min": 0.21845793724060059, "timer/agent.report_max": 0.21845793724060059, "fps": 4.7929984686467035}
{"step": 1130062, "episode/length": 146.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.08163265306122448}
{"step": 1130340, "episode/length": 277.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.050359712230215826}
{"step": 1130496, "episode/length": 155.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.07692307692307693}
{"step": 1130688, "episode/length": 191.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.0625}
{"step": 1131026, "episode/length": 337.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 14.900000013411045, "episode/reward_rate": 0.04142011834319527}
{"step": 1131509, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.401292774775257, "train/action_min": 0.0, "train/action_std": 3.246662009252261, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03802178238760935, "train/actor_opt_grad_steps": 564840.0, "train/actor_opt_loss": -11.16363560707286, "train/adv_mag": 0.40862131445375205, "train/adv_max": 0.3548110948033529, "train/adv_mean": 0.0021176515381829916, "train/adv_min": -0.36418463493863196, "train/adv_std": 0.04223730976450933, "train/cont_avg": 0.9952242080479452, "train/cont_loss_mean": 1.9355123608623537e-05, "train/cont_loss_std": 0.0005926633379846161, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.002712232415902836, "train/cont_pos_acc": 0.9999999836699603, "train/cont_pos_loss": 3.968025362109224e-06, "train/cont_pred": 0.9952323885813151, "train/cont_rate": 0.9952242080479452, "train/dyn_loss_mean": 5.668256367722603, "train/dyn_loss_std": 8.84684196890217, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9164971072379857, "train/extr_critic_critic_opt_grad_steps": 564840.0, "train/extr_critic_critic_opt_loss": 15353.20844927226, "train/extr_critic_mag": 12.381509467347028, "train/extr_critic_max": 12.381509467347028, "train/extr_critic_mean": 3.7667336823189097, "train/extr_critic_min": -0.34098668294410184, "train/extr_critic_std": 2.9483965096408373, "train/extr_return_normed_mag": 1.3739076297577113, "train/extr_return_normed_max": 1.3739076297577113, "train/extr_return_normed_mean": 0.3990313276036145, "train/extr_return_normed_min": -0.07068106154464696, "train/extr_return_normed_std": 0.31259774284003533, "train/extr_return_rate": 0.8528557068681064, "train/extr_return_raw_mag": 13.070150375366211, "train/extr_return_raw_max": 13.070150375366211, "train/extr_return_raw_mean": 3.786904321957941, "train/extr_return_raw_min": -0.6857704218119791, "train/extr_return_raw_std": 2.976672744097775, "train/extr_reward_mag": 1.084289606303385, "train/extr_reward_max": 1.084289606303385, "train/extr_reward_mean": 0.06388246160868095, "train/extr_reward_min": -0.5648513379162305, "train/extr_reward_std": 0.24287230368346385, "train/image_loss_mean": 3.4415067287340557, "train/image_loss_std": 8.1777424028475, "train/model_loss_mean": 6.9032409419752145, "train/model_loss_std": 12.269757937078607, "train/model_opt_grad_norm": 21.000299035686336, "train/model_opt_grad_steps": 564375.2876712328, "train/model_opt_loss": 17890.133039918663, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2602.7397260273974, "train/policy_entropy_mag": 2.6969073112696815, "train/policy_entropy_max": 2.6969073112696815, "train/policy_entropy_mean": 0.41917532070042335, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6328974243712752, "train/policy_logprob_mag": 7.438384297775896, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4201631595010627, "train/policy_logprob_min": -7.438384297775896, "train/policy_logprob_std": 1.0464417068925622, "train/policy_randomness_mag": 0.9518899288896012, "train/policy_randomness_max": 0.9518899288896012, "train/policy_randomness_mean": 0.14795049453434878, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2233850168038721, "train/post_ent_mag": 55.771979919851645, "train/post_ent_max": 55.771979919851645, "train/post_ent_mean": 40.20842910139528, "train/post_ent_min": 19.59888079395033, "train/post_ent_std": 5.870731020626956, "train/prior_ent_mag": 76.83400182854639, "train/prior_ent_max": 76.83400182854639, "train/prior_ent_mean": 45.85558742366425, "train/prior_ent_min": 27.89869023675788, "train/prior_ent_std": 7.906771561870836, "train/rep_loss_mean": 5.668256367722603, "train/rep_loss_std": 8.84684196890217, "train/reward_avg": 0.04660878639208944, "train/reward_loss_mean": 0.06076106444409449, "train/reward_loss_std": 0.21586328969426352, "train/reward_max_data": 1.04794521691048, "train/reward_max_pred": 1.043558901303435, "train/reward_neg_acc": 0.9932313871710268, "train/reward_neg_loss": 0.02531960912763256, "train/reward_pos_acc": 0.990035110957002, "train/reward_pos_loss": 0.7211251307840216, "train/reward_pred": 0.04619900420410176, "train/reward_rate": 0.05095515839041096, "stats/sum_log_reward": 11.900000381469727, "stats/max_log_achievement_collect_coal": 0.4, "stats/max_log_achievement_collect_drink": 3.6, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.4, "stats/max_log_achievement_collect_stone": 12.8, "stats/max_log_achievement_collect_wood": 11.8, "stats/max_log_achievement_defeat_skeleton": 0.2, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8, "stats/max_log_achievement_make_stone_sword": 0.6, "stats/max_log_achievement_make_wood_pickaxe": 1.4, "stats/max_log_achievement_make_wood_sword": 1.2, "stats/max_log_achievement_place_furnace": 1.4, "stats/max_log_achievement_place_plant": 2.2, "stats/max_log_achievement_place_stone": 2.6, "stats/max_log_achievement_place_table": 2.6, "stats/max_log_achievement_wake_up": 1.6, "stats/mean_log_entropy": 0.5053608596324921, "replay/size": 1000000.0, "replay/inserts": 1468.0, "replay/samples": 11744.0, "replay/insert_wait_avg": 3.340133854089056e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3224882066087438e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.06265926361084, "timer/env.step_count": 1468.0, "timer/env.step_total": 15.620542287826538, "timer/env.step_frac": 0.05205760132287433, "timer/env.step_avg": 0.010640696381353228, "timer/env.step_min": 0.002992868423461914, "timer/env.step_max": 1.5734727382659912, "timer/replay.add_count": 1468.0, "timer/replay.add_total": 0.2969536781311035, "timer/replay.add_frac": 0.0009896388936226283, "timer/replay.add_avg": 0.0002022845218876727, "timer/replay.add_min": 7.510185241699219e-05, "timer/replay.add_max": 0.0039288997650146484, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.031184673309326172, "timer/logger.write_frac": 0.00010392720435744001, "timer/logger.write_avg": 0.031184673309326172, "timer/logger.write_min": 0.031184673309326172, "timer/logger.write_max": 0.031184673309326172, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1468.0, "timer/agent.policy_total": 10.828637838363647, "timer/agent.policy_frac": 0.03608792198582257, "timer/agent.policy_avg": 0.007376456293163248, "timer/agent.policy_min": 0.005758523941040039, "timer/agent.policy_max": 0.02283191680908203, "timer/dataset_count": 734.0, "timer/dataset_total": 0.05985617637634277, "timer/dataset_frac": 0.0001994789239128817, "timer/dataset_avg": 8.154792421845064e-05, "timer/dataset_min": 6.079673767089844e-05, "timer/dataset_max": 0.00017142295837402344, "timer/agent.train_count": 734.0, "timer/agent.train_total": 272.5671417713165, "timer/agent.train_frac": 0.9083674137936004, "timer/agent.train_avg": 0.37134487979743397, "timer/agent.train_min": 0.36514973640441895, "timer/agent.train_max": 0.38277125358581543, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22104716300964355, "timer/agent.report_frac": 0.0007366700126970792, "timer/agent.report_avg": 0.22104716300964355, "timer/agent.report_min": 0.22104716300964355, "timer/agent.report_max": 0.22104716300964355, "fps": 4.892229663796629}
{"step": 1131578, "episode/length": 551.0, "episode/score": 14.099999994039536, "episode/sum_abs_reward": 18.300000086426735, "episode/reward_rate": 0.028985507246376812}
{"step": 1131836, "episode/length": 257.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.30000003427267, "episode/reward_rate": 0.05813953488372093}
{"step": 1132027, "episode/length": 190.0, "episode/score": 14.100000016391277, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.07853403141361257}
{"step": 1132239, "episode/length": 211.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.07075471698113207}
{"step": 1132451, "episode/length": 211.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.0660377358490566}
{"step": 1132625, "episode/length": 173.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06896551724137931}
{"step": 1132858, "episode/length": 232.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.055793991416309016}
{"step": 1132963, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.402503444723887, "train/action_min": 0.0, "train/action_std": 3.234654001993676, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03653689129405642, "train/actor_opt_grad_steps": 565570.0, "train/actor_opt_loss": -11.962471203853006, "train/adv_mag": 0.43353503064749993, "train/adv_max": 0.31780287072266616, "train/adv_mean": 0.0017011846795294207, "train/adv_min": -0.40485935872548245, "train/adv_std": 0.04113770005841778, "train/cont_avg": 0.9947292380136986, "train/cont_loss_mean": 6.447051392178172e-06, "train/cont_loss_std": 0.00017607951121850383, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 8.425785569582173e-05, "train/cont_pos_acc": 0.9999999787709485, "train/cont_pos_loss": 5.964692843628595e-06, "train/cont_pred": 0.9947240515931012, "train/cont_rate": 0.9947292380136986, "train/dyn_loss_mean": 5.751654304870187, "train/dyn_loss_std": 8.919260926442604, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8858410258815713, "train/extr_critic_critic_opt_grad_steps": 565570.0, "train/extr_critic_critic_opt_loss": 15266.449084974314, "train/extr_critic_mag": 12.608430104712918, "train/extr_critic_max": 12.608430104712918, "train/extr_critic_mean": 3.828895549251609, "train/extr_critic_min": -0.35275672886469595, "train/extr_critic_std": 3.095365191159183, "train/extr_return_normed_mag": 1.380352844930675, "train/extr_return_normed_max": 1.380352844930675, "train/extr_return_normed_mean": 0.39886360911473834, "train/extr_return_normed_min": -0.07028917304865301, "train/extr_return_normed_std": 0.32247833029864587, "train/extr_return_rate": 0.8482368768078007, "train/extr_return_raw_mag": 13.356936637669394, "train/extr_return_raw_max": 13.356936637669394, "train/extr_return_raw_mean": 3.8453514804578806, "train/extr_return_raw_min": -0.7008885275827695, "train/extr_return_raw_std": 3.1250575437937695, "train/extr_reward_mag": 1.087265873608524, "train/extr_reward_max": 1.087265873608524, "train/extr_reward_mean": 0.06365099824862937, "train/extr_reward_min": -0.6005656114996296, "train/extr_reward_std": 0.24249496076205004, "train/image_loss_mean": 3.4073158518908775, "train/image_loss_std": 8.56665141615149, "train/model_loss_mean": 6.921915335197971, "train/model_loss_std": 12.643843650817871, "train/model_opt_grad_norm": 19.577507541604238, "train/model_opt_grad_steps": 565104.698630137, "train/model_opt_loss": 17976.121816138697, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2602.7397260273974, "train/policy_entropy_mag": 2.7086917864133233, "train/policy_entropy_max": 2.7086917864133233, "train/policy_entropy_mean": 0.40763985539135866, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6169819872673243, "train/policy_logprob_mag": 7.438384284711864, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40693635258772604, "train/policy_logprob_min": -7.438384284711864, "train/policy_logprob_std": 1.0321852515821588, "train/policy_randomness_mag": 0.956049333696496, "train/policy_randomness_max": 0.956049333696496, "train/policy_randomness_mean": 0.14387897983805775, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2177675670548661, "train/post_ent_mag": 55.93200782880391, "train/post_ent_max": 55.93200782880391, "train/post_ent_mean": 40.35637779758401, "train/post_ent_min": 19.68873767330222, "train/post_ent_std": 5.866342544555664, "train/prior_ent_mag": 76.76120778959091, "train/prior_ent_max": 76.76120778959091, "train/prior_ent_mean": 46.108200543547326, "train/prior_ent_min": 27.65087791338359, "train/prior_ent_std": 7.943440914154053, "train/rep_loss_mean": 5.751654304870187, "train/rep_loss_std": 8.919260926442604, "train/reward_avg": 0.04829837300189554, "train/reward_loss_mean": 0.06360052189190094, "train/reward_loss_std": 0.22919086948649525, "train/reward_max_data": 1.035616446847785, "train/reward_max_pred": 1.0350228499059808, "train/reward_neg_acc": 0.993257418070754, "train/reward_neg_loss": 0.026426560181665094, "train/reward_pos_acc": 0.9876186178155142, "train/reward_pos_loss": 0.731170555500135, "train/reward_pred": 0.04780202358961105, "train/reward_rate": 0.05292166095890411, "stats/sum_log_reward": 13.242857251848493, "stats/max_log_achievement_collect_coal": 0.8571428571428571, "stats/max_log_achievement_collect_drink": 4.571428571428571, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 17.857142857142858, "stats/max_log_achievement_collect_wood": 13.857142857142858, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.8571428571428571, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.7142857142857143, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.2857142857142856, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 3.857142857142857, "stats/max_log_achievement_wake_up": 1.8571428571428572, "stats/mean_log_entropy": 0.46970002140317646, "replay/size": 1000000.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.4577252940265807e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3438920699254683e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0199043750763, "timer/env.step_count": 1454.0, "timer/env.step_total": 18.30527400970459, "timer/env.step_frac": 0.0610135319116023, "timer/env.step_avg": 0.012589596980539608, "timer/env.step_min": 0.0026748180389404297, "timer/env.step_max": 1.634955644607544, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.30687761306762695, "timer/replay.add_frac": 0.0010228575124268335, "timer/replay.add_avg": 0.00021105750554857426, "timer/replay.add_min": 7.796287536621094e-05, "timer/replay.add_max": 0.004393815994262695, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023492097854614258, "timer/logger.write_frac": 7.830179768754645e-05, "timer/logger.write_avg": 0.023492097854614258, "timer/logger.write_min": 0.023492097854614258, "timer/logger.write_max": 0.023492097854614258, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 10.946045398712158, "timer/agent.policy_frac": 0.0364843973319441, "timer/agent.policy_avg": 0.007528229297601209, "timer/agent.policy_min": 0.005795001983642578, "timer/agent.policy_max": 0.032030582427978516, "timer/dataset_count": 727.0, "timer/dataset_total": 0.06289792060852051, "timer/dataset_frac": 0.00020964582579790215, "timer/dataset_avg": 8.651708474349451e-05, "timer/dataset_min": 6.389617919921875e-05, "timer/dataset_max": 0.00018215179443359375, "timer/agent.train_count": 727.0, "timer/agent.train_total": 269.6969916820526, "timer/agent.train_frac": 0.8989303301186482, "timer/agent.train_avg": 0.3709724782421632, "timer/agent.train_min": 0.3604269027709961, "timer/agent.train_max": 0.38584041595458984, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2192823886871338, "timer/agent.report_frac": 0.000730892802408847, "timer/agent.report_avg": 0.2192823886871338, "timer/agent.report_min": 0.2192823886871338, "timer/agent.report_max": 0.2192823886871338, "fps": 4.846256116615131}
{"step": 1133021, "episode/length": 162.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.09202453987730061}
{"step": 1133083, "episode/length": 61.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.0967741935483871}
{"step": 1133229, "episode/length": 145.0, "episode/score": 12.099999964237213, "episode/sum_abs_reward": 14.099999994039536, "episode/reward_rate": 0.08904109589041095}
{"step": 1133446, "episode/length": 216.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.06912442396313365}
{"step": 1133505, "episode/length": 58.0, "episode/score": 5.0999999940395355, "episode/sum_abs_reward": 6.900000035762787, "episode/reward_rate": 0.1016949152542373}
{"step": 1133787, "episode/length": 281.0, "episode/score": 14.099999994039536, "episode/sum_abs_reward": 16.700000047683716, "episode/reward_rate": 0.05319148936170213}
{"step": 1134009, "episode/length": 221.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.700000047683716, "episode/reward_rate": 0.06756756756756757}
{"step": 1134240, "episode/length": 230.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.700000040233135, "episode/reward_rate": 0.06060606060606061}
{"step": 1134407, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.437778896755642, "train/action_min": 0.0, "train/action_std": 3.2799028820461698, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0361748649738729, "train/actor_opt_grad_steps": 566295.0, "train/actor_opt_loss": -11.274049924479591, "train/adv_mag": 0.40912355358401936, "train/adv_max": 0.3349957896603478, "train/adv_mean": 0.001575674106485773, "train/adv_min": -0.37639110535383224, "train/adv_std": 0.041273292878435716, "train/cont_avg": 0.9949815538194444, "train/cont_loss_mean": 9.163145216679109e-05, "train/cont_loss_std": 0.0028813374916367707, "train/cont_neg_acc": 0.9965277777777778, "train/cont_neg_loss": 0.00656636220115519, "train/cont_pos_acc": 0.9999727225965924, "train/cont_pos_loss": 6.447463331227254e-05, "train/cont_pred": 0.9949703183439043, "train/cont_rate": 0.9949815538194444, "train/dyn_loss_mean": 5.723139226436615, "train/dyn_loss_std": 8.941545804341635, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9903830256727006, "train/extr_critic_critic_opt_grad_steps": 566295.0, "train/extr_critic_critic_opt_loss": 15195.818834092883, "train/extr_critic_mag": 12.594907177819145, "train/extr_critic_max": 12.594907177819145, "train/extr_critic_mean": 3.774635073211458, "train/extr_critic_min": -0.36365070773495567, "train/extr_critic_std": 3.099996331665251, "train/extr_return_normed_mag": 1.3633745378918118, "train/extr_return_normed_max": 1.3633745378918118, "train/extr_return_normed_mean": 0.39215650657812756, "train/extr_return_normed_min": -0.07342537911608815, "train/extr_return_normed_std": 0.322581560868356, "train/extr_return_rate": 0.8408312085602019, "train/extr_return_raw_mag": 13.201239519649082, "train/extr_return_raw_max": 13.201239519649082, "train/extr_return_raw_mean": 3.7899080548021526, "train/extr_return_raw_min": -0.7216396840910116, "train/extr_return_raw_std": 3.1259491211838193, "train/extr_reward_mag": 1.0881323648823633, "train/extr_reward_max": 1.0881323648823633, "train/extr_reward_mean": 0.06359226323871149, "train/extr_reward_min": -0.6194745865133073, "train/extr_reward_std": 0.24246010618905225, "train/image_loss_mean": 3.491965022352007, "train/image_loss_std": 8.44765348566903, "train/model_loss_mean": 6.9896825949351, "train/model_loss_std": 12.571896500057644, "train/model_opt_grad_norm": 20.530824886427986, "train/model_opt_grad_steps": 565829.0, "train/model_opt_loss": 17474.206583658855, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7236317793528237, "train/policy_entropy_max": 2.7236317793528237, "train/policy_entropy_mean": 0.4356315423631006, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6549965768224664, "train/policy_logprob_mag": 7.438384261396196, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4366678078141477, "train/policy_logprob_min": -7.438384261396196, "train/policy_logprob_std": 1.0618574644128482, "train/policy_randomness_mag": 0.9613224955068694, "train/policy_randomness_max": 0.9613224955068694, "train/policy_randomness_mean": 0.15375881962892082, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23118504736986425, "train/post_ent_mag": 55.46077553431193, "train/post_ent_max": 55.46077553431193, "train/post_ent_mean": 40.198344495561386, "train/post_ent_min": 19.549480968051487, "train/post_ent_std": 5.831336153878106, "train/prior_ent_mag": 76.85150316026476, "train/prior_ent_max": 76.85150316026476, "train/prior_ent_mean": 45.90237172444662, "train/prior_ent_min": 27.70671108033922, "train/prior_ent_std": 7.92766449186537, "train/rep_loss_mean": 5.723139226436615, "train/rep_loss_std": 8.941545804341635, "train/reward_avg": 0.0485921221681767, "train/reward_loss_mean": 0.06374244371222125, "train/reward_loss_std": 0.22639212095075184, "train/reward_max_data": 1.0333333412806194, "train/reward_max_pred": 1.0329502324263256, "train/reward_neg_acc": 0.9930942124790616, "train/reward_neg_loss": 0.026879031961369846, "train/reward_pos_acc": 0.9909631179438697, "train/reward_pos_loss": 0.7223212545116743, "train/reward_pred": 0.04827126539829704, "train/reward_rate": 0.05300564236111111, "stats/sum_log_reward": 11.475000202655792, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 3.625, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 9.375, "stats/max_log_achievement_collect_wood": 10.375, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.875, "stats/max_log_achievement_make_stone_sword": 0.625, "stats/max_log_achievement_make_wood_pickaxe": 0.875, "stats/max_log_achievement_make_wood_sword": 0.75, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.875, "stats/max_log_achievement_place_stone": 1.625, "stats/max_log_achievement_place_table": 2.875, "stats/max_log_achievement_wake_up": 0.875, "stats/mean_log_entropy": 0.33973472099751234, "replay/size": 1000000.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.143856069718041e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3772222804230665e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0125799179077, "timer/env.step_count": 1444.0, "timer/env.step_total": 19.157739639282227, "timer/env.step_frac": 0.06385645443442521, "timer/env.step_avg": 0.013267132714184367, "timer/env.step_min": 0.0023734569549560547, "timer/env.step_max": 1.3800764083862305, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.29128193855285645, "timer/replay.add_frac": 0.0009708990824070103, "timer/replay.add_avg": 0.00020171879401167345, "timer/replay.add_min": 7.128715515136719e-05, "timer/replay.add_max": 0.0008893013000488281, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02713918685913086, "timer/logger.write_frac": 9.046016292569112e-05, "timer/logger.write_avg": 0.02713918685913086, "timer/logger.write_min": 0.02713918685913086, "timer/logger.write_max": 0.02713918685913086, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00023484230041503906, "timer/checkpoint.save_frac": 7.82774843905875e-07, "timer/checkpoint.save_avg": 0.00023484230041503906, "timer/checkpoint.save_min": 0.00023484230041503906, "timer/checkpoint.save_max": 0.00023484230041503906, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.326059341430664, "timer/agent.save_frac": 0.004420012460122549, "timer/agent.save_avg": 1.326059341430664, "timer/agent.save_min": 1.326059341430664, "timer/agent.save_max": 1.326059341430664, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.890296936035156e-05, "timer/replay.save_frac": 2.2966693389725672e-07, "timer/replay.save_avg": 6.890296936035156e-05, "timer/replay.save_min": 6.890296936035156e-05, "timer/replay.save_max": 6.890296936035156e-05, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 14.304938077926636, "timer/agent.policy_frac": 0.04768112751085601, "timer/agent.policy_avg": 0.009906466812968584, "timer/agent.policy_min": 0.005836963653564453, "timer/agent.policy_max": 2.2723336219787598, "timer/dataset_count": 722.0, "timer/dataset_total": 0.0562138557434082, "timer/dataset_frac": 0.00018737166207760344, "timer/dataset_avg": 7.785852596039917e-05, "timer/dataset_min": 5.650520324707031e-05, "timer/dataset_max": 0.00015687942504882812, "timer/agent.train_count": 722.0, "timer/agent.train_total": 265.5529067516327, "timer/agent.train_frac": 0.8851392392422204, "timer/agent.train_avg": 0.3678018099053084, "timer/agent.train_min": 0.3606858253479004, "timer/agent.train_max": 0.45405149459838867, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21996331214904785, "timer/agent.report_frac": 0.0007331802960037086, "timer/agent.report_avg": 0.21996331214904785, "timer/agent.report_min": 0.21996331214904785, "timer/agent.report_max": 0.21996331214904785, "fps": 4.813046021202572}
{"step": 1134560, "episode/length": 319.0, "episode/score": 13.099999994039536, "episode/sum_abs_reward": 14.500000029802322, "episode/reward_rate": 0.04375}
{"step": 1134712, "episode/length": 151.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.05921052631578947}
{"step": 1134937, "episode/length": 224.0, "episode/score": 14.099999964237213, "episode/sum_abs_reward": 16.099999994039536, "episode/reward_rate": 0.06666666666666667}
{"step": 1135126, "episode/length": 188.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.07407407407407407}
{"step": 1135409, "episode/length": 282.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.04946996466431095}
{"step": 1135799, "episode/length": 389.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.100000016391277, "episode/reward_rate": 0.041025641025641026}
{"step": 1135879, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4492657635663, "train/action_min": 0.0, "train/action_std": 3.317765570975639, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03677312571656059, "train/actor_opt_grad_steps": 567025.0, "train/actor_opt_loss": -11.424638932218423, "train/adv_mag": 0.3951457195185326, "train/adv_max": 0.33300405982378367, "train/adv_mean": 0.001837331033646085, "train/adv_min": -0.3591104997573672, "train/adv_std": 0.04147010820137488, "train/cont_avg": 0.995288745777027, "train/cont_loss_mean": 0.00012282860009497345, "train/cont_loss_std": 0.0033229467320030084, "train/cont_neg_acc": 0.9912162165384035, "train/cont_neg_loss": 0.025229760898768022, "train/cont_pos_acc": 0.9999999774468912, "train/cont_pos_loss": 1.1539928462181362e-05, "train/cont_pred": 0.9953184248627843, "train/cont_rate": 0.995288745777027, "train/dyn_loss_mean": 5.696051455832817, "train/dyn_loss_std": 8.94433659476203, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8961597036670994, "train/extr_critic_critic_opt_grad_steps": 567025.0, "train/extr_critic_critic_opt_loss": 15331.168654983108, "train/extr_critic_mag": 12.572259812741667, "train/extr_critic_max": 12.572259812741667, "train/extr_critic_mean": 3.756270054224375, "train/extr_critic_min": -0.3768271884402713, "train/extr_critic_std": 3.022331659858291, "train/extr_return_normed_mag": 1.3826722486599072, "train/extr_return_normed_max": 1.3826722486599072, "train/extr_return_normed_mean": 0.3945648621868443, "train/extr_return_normed_min": -0.06991372992460793, "train/extr_return_normed_std": 0.3173476679099573, "train/extr_return_rate": 0.8472947019177515, "train/extr_return_raw_mag": 13.263438095917573, "train/extr_return_raw_max": 13.263438095917573, "train/extr_return_raw_mean": 3.773919189298475, "train/extr_return_raw_min": -0.6866654467743796, "train/extr_return_raw_std": 3.047697389448011, "train/extr_reward_mag": 1.0828967223296295, "train/extr_reward_max": 1.0828967223296295, "train/extr_reward_mean": 0.0647309807607451, "train/extr_reward_min": -0.5882199116655298, "train/extr_reward_std": 0.2440600493872488, "train/image_loss_mean": 3.477542701605204, "train/image_loss_std": 8.759248166470915, "train/model_loss_mean": 6.957571139206758, "train/model_loss_std": 12.895892439661798, "train/model_opt_grad_norm": 21.812975648331317, "train/model_opt_grad_steps": 566557.7432432432, "train/model_opt_loss": 15191.114528346707, "train/model_opt_model_opt_grad_overflow": 0.013513513513513514, "train/model_opt_model_opt_grad_scale": 2179.054054054054, "train/policy_entropy_mag": 2.70248378934087, "train/policy_entropy_max": 2.70248378934087, "train/policy_entropy_mean": 0.41934080019190506, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6392272738991557, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41920865749990616, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 1.0465893793750454, "train/policy_randomness_mag": 0.953858182236955, "train/policy_randomness_max": 0.953858182236955, "train/policy_randomness_mean": 0.14800889971288475, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22561917635234627, "train/post_ent_mag": 55.66684831155313, "train/post_ent_max": 55.66684831155313, "train/post_ent_mean": 40.18163304715543, "train/post_ent_min": 19.853251934051514, "train/post_ent_std": 5.829543674314344, "train/prior_ent_mag": 76.8253505809887, "train/prior_ent_max": 76.8253505809887, "train/prior_ent_mean": 45.856969524074245, "train/prior_ent_min": 27.825247326412715, "train/prior_ent_std": 7.920521439732732, "train/rep_loss_mean": 5.696051455832817, "train/rep_loss_std": 8.94433659476203, "train/reward_avg": 0.047897751216550134, "train/reward_loss_mean": 0.06227479547866293, "train/reward_loss_std": 0.22708699570314303, "train/reward_max_data": 1.0364864951855428, "train/reward_max_pred": 1.031386449530318, "train/reward_neg_acc": 0.9922970275621157, "train/reward_neg_loss": 0.0256018176851039, "train/reward_pos_acc": 0.9882362911830077, "train/reward_pos_loss": 0.7287910427596118, "train/reward_pred": 0.047431200188962186, "train/reward_rate": 0.05216691300675676, "stats/sum_log_reward": 12.766667048136393, "stats/max_log_achievement_collect_coal": 1.1666666666666667, "stats/max_log_achievement_collect_drink": 4.666666666666667, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 2.3333333333333335, "stats/max_log_achievement_collect_stone": 10.5, "stats/max_log_achievement_collect_wood": 14.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_stone_sword": 1.5, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 0.6666666666666666, "stats/max_log_achievement_place_plant": 2.3333333333333335, "stats/max_log_achievement_place_stone": 2.5, "stats/max_log_achievement_place_table": 4.166666666666667, "stats/max_log_achievement_wake_up": 1.6666666666666667, "stats/mean_log_entropy": 0.6012031907836596, "replay/size": 1000000.0, "replay/inserts": 1472.0, "replay/samples": 11776.0, "replay/insert_wait_avg": 3.1308635421421216e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4860466446565546e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1417660713196, "timer/env.step_count": 1472.0, "timer/env.step_total": 16.839892387390137, "timer/env.step_frac": 0.056106461315979086, "timer/env.step_avg": 0.011440144284911778, "timer/env.step_min": 0.002365589141845703, "timer/env.step_max": 1.4658823013305664, "timer/replay.add_count": 1472.0, "timer/replay.add_total": 0.29581141471862793, "timer/replay.add_frac": 0.0009855723133458784, "timer/replay.add_avg": 0.00020095884152080703, "timer/replay.add_min": 7.534027099609375e-05, "timer/replay.add_max": 0.0007781982421875, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02549004554748535, "timer/logger.write_frac": 8.492668608283066e-05, "timer/logger.write_avg": 0.02549004554748535, "timer/logger.write_min": 0.02549004554748535, "timer/logger.write_max": 0.02549004554748535, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1472.0, "timer/agent.policy_total": 11.004336833953857, "timer/agent.policy_frac": 0.036663797171563955, "timer/agent.policy_avg": 0.007475772305675175, "timer/agent.policy_min": 0.005959987640380859, "timer/agent.policy_max": 0.01822352409362793, "timer/dataset_count": 736.0, "timer/dataset_total": 0.0600743293762207, "timer/dataset_frac": 0.0002001531814867307, "timer/dataset_avg": 8.162273013073465e-05, "timer/dataset_min": 5.9604644775390625e-05, "timer/dataset_max": 0.00015020370483398438, "timer/agent.train_count": 736.0, "timer/agent.train_total": 271.27369117736816, "timer/agent.train_frac": 0.9038185345817823, "timer/agent.train_avg": 0.36857838475185895, "timer/agent.train_min": 0.3594787120819092, "timer/agent.train_max": 0.38567590713500977, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22030043601989746, "timer/agent.report_frac": 0.000733987938111718, "timer/agent.report_avg": 0.22030043601989746, "timer/agent.report_min": 0.22030043601989746, "timer/agent.report_max": 0.22030043601989746, "fps": 4.904283327321471}
{"step": 1136001, "episode/length": 201.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.07425742574257425}
{"step": 1136225, "episode/length": 223.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.05357142857142857}
{"step": 1136417, "episode/length": 191.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06770833333333333}
{"step": 1136600, "episode/length": 182.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.08196721311475409}
{"step": 1136703, "episode/length": 102.0, "episode/score": 8.100000016391277, "episode/sum_abs_reward": 9.900000043213367, "episode/reward_rate": 0.08737864077669903}
{"step": 1136917, "episode/length": 213.0, "episode/score": 14.099999964237213, "episode/sum_abs_reward": 15.699999988079071, "episode/reward_rate": 0.07009345794392523}
{"step": 1137125, "episode/length": 207.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.0625}
{"step": 1137337, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.489660474989149, "train/action_min": 0.0, "train/action_std": 3.3171224693457284, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.036612323459444776, "train/actor_opt_grad_steps": 567755.0, "train/actor_opt_loss": -10.520217808998293, "train/adv_mag": 0.4071949267139037, "train/adv_max": 0.32442557087375057, "train/adv_mean": 0.002251302734470705, "train/adv_min": -0.36654316323498887, "train/adv_std": 0.04186208132240507, "train/cont_avg": 0.9951443142361112, "train/cont_loss_mean": 7.05058435044808e-05, "train/cont_loss_std": 0.0022391423501677307, "train/cont_neg_acc": 0.9903549386395348, "train/cont_neg_loss": 0.017715607644245884, "train/cont_pos_acc": 0.9999999784761004, "train/cont_pos_loss": 4.5863495580099484e-06, "train/cont_pred": 0.9951716686288515, "train/cont_rate": 0.9951443142361112, "train/dyn_loss_mean": 5.694147282176548, "train/dyn_loss_std": 8.918432897991604, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9107423805528216, "train/extr_critic_critic_opt_grad_steps": 567755.0, "train/extr_critic_critic_opt_loss": 15090.801106770834, "train/extr_critic_mag": 12.387923743989733, "train/extr_critic_max": 12.387923743989733, "train/extr_critic_mean": 3.8072409431139627, "train/extr_critic_min": -0.3575564722220103, "train/extr_critic_std": 2.995833867126041, "train/extr_return_normed_mag": 1.3813040720091925, "train/extr_return_normed_max": 1.3813040720091925, "train/extr_return_normed_mean": 0.4049912869102425, "train/extr_return_normed_min": -0.06633912091557351, "train/extr_return_normed_std": 0.31683079712092876, "train/extr_return_rate": 0.8495081464449564, "train/extr_return_raw_mag": 13.157103617986044, "train/extr_return_raw_max": 13.157103617986044, "train/extr_return_raw_mean": 3.8287457790639667, "train/extr_return_raw_min": -0.6740617555462651, "train/extr_return_raw_std": 3.026939998070399, "train/extr_reward_mag": 1.0831935571299658, "train/extr_reward_max": 1.0831935571299658, "train/extr_reward_mean": 0.0655762726544506, "train/extr_reward_min": -0.5840939117802514, "train/extr_reward_std": 0.24511346883243984, "train/image_loss_mean": 3.456269658274121, "train/image_loss_std": 8.747748037179312, "train/model_loss_mean": 6.937336577309503, "train/model_loss_std": 12.86613380908966, "train/model_opt_grad_norm": 20.171875874201458, "train/model_opt_grad_steps": 567287.0, "train/model_opt_loss": 8910.785766601562, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1284.7222222222222, "train/policy_entropy_mag": 2.720411433113946, "train/policy_entropy_max": 2.720411433113946, "train/policy_entropy_mean": 0.4384491762353314, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6558459086550606, "train/policy_logprob_mag": 7.438384261396196, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.43841829068130916, "train/policy_logprob_min": -7.438384261396196, "train/policy_logprob_std": 1.0582978162500594, "train/policy_randomness_mag": 0.9601858564549022, "train/policy_randomness_max": 0.9601858564549022, "train/policy_randomness_mean": 0.15475332043651077, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23148482561939293, "train/post_ent_mag": 55.78197934892442, "train/post_ent_max": 55.78197934892442, "train/post_ent_mean": 40.20952007505629, "train/post_ent_min": 19.542472706900703, "train/post_ent_std": 5.862916350364685, "train/prior_ent_mag": 76.82173898484972, "train/prior_ent_max": 76.82173898484972, "train/prior_ent_mean": 45.880537297990585, "train/prior_ent_min": 28.147501786549885, "train/prior_ent_std": 7.875923209720188, "train/rep_loss_mean": 5.694147282176548, "train/rep_loss_std": 8.918432897991604, "train/reward_avg": 0.05003662034869194, "train/reward_loss_mean": 0.0645080712209973, "train/reward_loss_std": 0.2310324865910742, "train/reward_max_data": 1.0375000089406967, "train/reward_max_pred": 1.0379935536119673, "train/reward_neg_acc": 0.9928670393096076, "train/reward_neg_loss": 0.026014768389157124, "train/reward_pos_acc": 0.9868898921542697, "train/reward_pos_loss": 0.7364157090584437, "train/reward_pred": 0.049387503027295075, "train/reward_rate": 0.054375542534722224, "stats/sum_log_reward": 12.242857251848493, "stats/max_log_achievement_collect_coal": 0.8571428571428571, "stats/max_log_achievement_collect_drink": 1.1428571428571428, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.1428571428571428, "stats/max_log_achievement_collect_stone": 17.714285714285715, "stats/max_log_achievement_collect_wood": 13.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.4285714285714286, "stats/max_log_achievement_eat_cow": 0.5714285714285714, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_stone_sword": 1.4285714285714286, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 2.5714285714285716, "stats/max_log_achievement_place_plant": 0.8571428571428571, "stats/max_log_achievement_place_stone": 2.7142857142857144, "stats/max_log_achievement_place_table": 3.857142857142857, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.2797700762748718, "replay/size": 1000000.0, "replay/inserts": 1458.0, "replay/samples": 11664.0, "replay/insert_wait_avg": 3.102548491971156e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.5118239838400004e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2730004787445, "timer/env.step_count": 1458.0, "timer/env.step_total": 19.295466899871826, "timer/env.step_frac": 0.06425974652768589, "timer/env.step_avg": 0.013234202263286575, "timer/env.step_min": 0.002884387969970703, "timer/env.step_max": 1.5458533763885498, "timer/replay.add_count": 1458.0, "timer/replay.add_total": 0.2859771251678467, "timer/replay.add_frac": 0.0009523904071025201, "timer/replay.add_avg": 0.00019614343289975768, "timer/replay.add_min": 6.985664367675781e-05, "timer/replay.add_max": 0.001209259033203125, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022458553314208984, "timer/logger.write_frac": 7.479378191979256e-05, "timer/logger.write_avg": 0.022458553314208984, "timer/logger.write_min": 0.022458553314208984, "timer/logger.write_max": 0.022458553314208984, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1458.0, "timer/agent.policy_total": 11.005421161651611, "timer/agent.policy_frac": 0.036651384387224165, "timer/agent.policy_avg": 0.007548299836523739, "timer/agent.policy_min": 0.006157398223876953, "timer/agent.policy_max": 0.04183626174926758, "timer/dataset_count": 729.0, "timer/dataset_total": 0.0590212345123291, "timer/dataset_frac": 0.0001965585797531838, "timer/dataset_avg": 8.09619129112882e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.00017523765563964844, "timer/agent.train_count": 729.0, "timer/agent.train_total": 268.96818566322327, "timer/agent.train_frac": 0.8957454890529286, "timer/agent.train_avg": 0.36895498719235015, "timer/agent.train_min": 0.3614675998687744, "timer/agent.train_max": 0.38425254821777344, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22053813934326172, "timer/agent.report_frac": 0.0007344587724891803, "timer/agent.report_avg": 0.22053813934326172, "timer/agent.report_min": 0.22053813934326172, "timer/agent.report_max": 0.22053813934326172, "fps": 4.855469471483637}
{"step": 1137351, "episode/length": 225.0, "episode/score": 14.100000038743019, "episode/sum_abs_reward": 16.500000074505806, "episode/reward_rate": 0.07079646017699115}
{"step": 1137544, "episode/length": 192.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.06735751295336788}
{"step": 1137865, "episode/length": 320.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.500000037252903, "episode/reward_rate": 0.04672897196261682}
{"step": 1138054, "episode/length": 188.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.30000001937151, "episode/reward_rate": 0.042328042328042326}
{"step": 1138136, "episode/length": 81.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.10975609756097561}
{"step": 1138331, "episode/length": 194.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.07692307692307693}
{"step": 1138672, "episode/length": 340.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 12.700000017881393, "episode/reward_rate": 0.03225806451612903}
{"step": 1138777, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.471870422363281, "train/action_min": 0.0, "train/action_std": 3.3121914532449512, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03733159813822971, "train/actor_opt_grad_steps": 568475.0, "train/actor_opt_loss": -10.907885743512047, "train/adv_mag": 0.3977704909112718, "train/adv_max": 0.33131098705861306, "train/adv_mean": 0.0014657896416186607, "train/adv_min": -0.34769882158272797, "train/adv_std": 0.04108579482676254, "train/cont_avg": 0.995361328125, "train/cont_loss_mean": 4.592122894417658e-05, "train/cont_loss_std": 0.0014553869401032512, "train/cont_neg_acc": 0.9953051645990828, "train/cont_neg_loss": 0.004294711973164616, "train/cont_pos_acc": 0.9999863248732355, "train/cont_pos_loss": 3.366446753615292e-05, "train/cont_pred": 0.9953527061475648, "train/cont_rate": 0.995361328125, "train/dyn_loss_mean": 5.859420590930515, "train/dyn_loss_std": 8.98844399717119, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9139257470766703, "train/extr_critic_critic_opt_grad_steps": 568475.0, "train/extr_critic_critic_opt_loss": 15245.86760796441, "train/extr_critic_mag": 12.282108611530727, "train/extr_critic_max": 12.282108611530727, "train/extr_critic_mean": 3.6604723980029426, "train/extr_critic_min": -0.3584802895784378, "train/extr_critic_std": 2.9359260201454163, "train/extr_return_normed_mag": 1.352193597290251, "train/extr_return_normed_max": 1.352193597290251, "train/extr_return_normed_mean": 0.3861571107473638, "train/extr_return_normed_min": -0.06628499387039079, "train/extr_return_normed_std": 0.30807022419240737, "train/extr_return_rate": 0.846396711965402, "train/extr_return_raw_mag": 12.954362259970772, "train/extr_return_raw_max": 12.954362259970772, "train/extr_return_raw_mean": 3.674548505081071, "train/extr_return_raw_min": -0.6719905444317393, "train/extr_return_raw_std": 2.9595880028274326, "train/extr_reward_mag": 1.078114542696211, "train/extr_reward_max": 1.078114542696211, "train/extr_reward_mean": 0.06158780332447754, "train/extr_reward_min": -0.583598170015547, "train/extr_reward_std": 0.2383020901017719, "train/image_loss_mean": 3.542567001448737, "train/image_loss_std": 8.952289912435743, "train/model_loss_mean": 7.120145810974969, "train/model_loss_std": 13.069359633657667, "train/model_opt_grad_norm": 20.80621208084954, "train/model_opt_grad_steps": 568007.0, "train/model_opt_loss": 17800.36461046007, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7080697980191974, "train/policy_entropy_max": 2.7080697980191974, "train/policy_entropy_mean": 0.4361850368893809, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6498528487152524, "train/policy_logprob_mag": 7.438384281264411, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.43727202630705303, "train/policy_logprob_min": -7.438384281264411, "train/policy_logprob_std": 1.0610979820291202, "train/policy_randomness_mag": 0.9558297933803664, "train/policy_randomness_max": 0.9558297933803664, "train/policy_randomness_mean": 0.15395417612873846, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2293695385257403, "train/post_ent_mag": 56.04164033465915, "train/post_ent_max": 56.04164033465915, "train/post_ent_mean": 40.32329924901327, "train/post_ent_min": 19.822128931681316, "train/post_ent_std": 5.9130553470717535, "train/prior_ent_mag": 76.85291481018066, "train/prior_ent_max": 76.85291481018066, "train/prior_ent_mean": 46.15481445524428, "train/prior_ent_min": 27.78913089964125, "train/prior_ent_std": 7.929746641053094, "train/rep_loss_mean": 5.859420590930515, "train/rep_loss_std": 8.98844399717119, "train/reward_avg": 0.046974012033186026, "train/reward_loss_mean": 0.06188045716327098, "train/reward_loss_std": 0.23324397868580288, "train/reward_max_data": 1.027777784400516, "train/reward_max_pred": 1.0291878183682759, "train/reward_neg_acc": 0.9930499758985307, "train/reward_neg_loss": 0.025564994818220537, "train/reward_pos_acc": 0.9875446731845537, "train/reward_pos_loss": 0.7354878195457988, "train/reward_pred": 0.04664137770628764, "train/reward_rate": 0.05140516493055555, "stats/sum_log_reward": 11.242856979370117, "stats/max_log_achievement_collect_coal": 2.2857142857142856, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.2857142857142857, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 12.285714285714286, "stats/max_log_achievement_collect_wood": 12.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.142857142857143, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.5714285714285714, "stats/max_log_achievement_make_stone_sword": 0.5714285714285714, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 2.7142857142857144, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.40541485803467886, "replay/size": 1000000.0, "replay/inserts": 1440.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.2052397727966308e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4738490184148152e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1995167732239, "timer/env.step_count": 1440.0, "timer/env.step_total": 20.839032411575317, "timer/env.step_frac": 0.06941727500286916, "timer/env.step_avg": 0.014471550285816193, "timer/env.step_min": 0.002522706985473633, "timer/env.step_max": 2.3635261058807373, "timer/replay.add_count": 1440.0, "timer/replay.add_total": 0.30757808685302734, "timer/replay.add_frac": 0.0010245788872650897, "timer/replay.add_avg": 0.00021359589364793564, "timer/replay.add_min": 7.796287536621094e-05, "timer/replay.add_max": 0.0008108615875244141, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025459766387939453, "timer/logger.write_frac": 8.480948491057105e-05, "timer/logger.write_avg": 0.025459766387939453, "timer/logger.write_min": 0.025459766387939453, "timer/logger.write_max": 0.025459766387939453, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00038170814514160156, "timer/checkpoint.save_frac": 1.2715148553351962e-06, "timer/checkpoint.save_avg": 0.00038170814514160156, "timer/checkpoint.save_min": 0.00038170814514160156, "timer/checkpoint.save_max": 0.00038170814514160156, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.469588279724121, "timer/agent.save_frac": 0.004895371903060971, "timer/agent.save_avg": 1.469588279724121, "timer/agent.save_min": 1.469588279724121, "timer/agent.save_max": 1.469588279724121, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.00010275840759277344, "timer/replay.save_frac": 3.4230037642065554e-07, "timer/replay.save_avg": 0.00010275840759277344, "timer/replay.save_min": 0.00010275840759277344, "timer/replay.save_max": 0.00010275840759277344, "timer/agent.policy_count": 1440.0, "timer/agent.policy_total": 12.266586542129517, "timer/agent.policy_frac": 0.0408614466604752, "timer/agent.policy_avg": 0.008518462876478831, "timer/agent.policy_min": 0.005936145782470703, "timer/agent.policy_max": 1.4760353565216064, "timer/dataset_count": 720.0, "timer/dataset_total": 0.06054496765136719, "timer/dataset_frac": 0.00020168242874655907, "timer/dataset_avg": 8.409023284912109e-05, "timer/dataset_min": 6.031990051269531e-05, "timer/dataset_max": 0.00016641616821289062, "timer/agent.train_count": 720.0, "timer/agent.train_total": 266.05752062797546, "timer/agent.train_frac": 0.8862689836671527, "timer/agent.train_avg": 0.3695243342055215, "timer/agent.train_min": 0.3622019290924072, "timer/agent.train_max": 0.80246901512146, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22166681289672852, "timer/agent.report_frac": 0.0007383983001684164, "timer/agent.report_avg": 0.22166681289672852, "timer/agent.report_min": 0.22166681289672852, "timer/agent.report_max": 0.22166681289672852, "fps": 4.796723540058003}
{"step": 1138889, "episode/length": 216.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.06912442396313365}
{"step": 1139098, "episode/length": 208.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.05741626794258373}
{"step": 1139294, "episode/length": 195.0, "episode/score": 10.099999979138374, "episode/sum_abs_reward": 12.500000029802322, "episode/reward_rate": 0.05612244897959184}
{"step": 1139466, "episode/length": 171.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.0755813953488372}
{"step": 1139661, "episode/length": 194.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.06666666666666667}
{"step": 1139952, "episode/length": 290.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.500000022351742, "episode/reward_rate": 0.054982817869415807}
{"step": 1140159, "episode/length": 206.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.06763285024154589}
{"step": 1140236, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.472225659514127, "train/action_min": 0.0, "train/action_std": 3.349440519123861, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03679352733370376, "train/actor_opt_grad_steps": 569200.0, "train/actor_opt_loss": -11.75230737949071, "train/adv_mag": 0.4252862820070084, "train/adv_max": 0.37679133084538863, "train/adv_mean": 0.0017573277436895296, "train/adv_min": -0.36806576709224753, "train/adv_std": 0.04206960699329638, "train/cont_avg": 0.9947292380136986, "train/cont_loss_mean": 6.466973692772782e-05, "train/cont_loss_std": 0.0019523173126416412, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0020682586471684563, "train/cont_pos_acc": 0.9999865244512689, "train/cont_pos_loss": 5.936590231358454e-05, "train/cont_pred": 0.9947090361216296, "train/cont_rate": 0.9947292380136986, "train/dyn_loss_mean": 5.821382450730833, "train/dyn_loss_std": 8.923255430508966, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8641620531474075, "train/extr_critic_critic_opt_grad_steps": 569200.0, "train/extr_critic_critic_opt_loss": 15199.356659353596, "train/extr_critic_mag": 12.31717390556858, "train/extr_critic_max": 12.31717390556858, "train/extr_critic_mean": 3.7950633845917165, "train/extr_critic_min": -0.3714638409549243, "train/extr_critic_std": 3.052782029321749, "train/extr_return_normed_mag": 1.3706632738244044, "train/extr_return_normed_max": 1.3706632738244044, "train/extr_return_normed_mean": 0.40239371134810253, "train/extr_return_normed_min": -0.0700939349472931, "train/extr_return_normed_std": 0.3214337219522424, "train/extr_return_rate": 0.8450521271522731, "train/extr_return_raw_mag": 13.083777937170577, "train/extr_return_raw_max": 13.083777937170577, "train/extr_return_raw_mean": 3.81188915853631, "train/extr_return_raw_min": -0.7125895652052474, "train/extr_return_raw_std": 3.0780316346312224, "train/extr_reward_mag": 1.0749078254177147, "train/extr_reward_max": 1.0749078254177147, "train/extr_reward_mean": 0.063871557224695, "train/extr_reward_min": -0.6188008621947406, "train/extr_reward_std": 0.24354338911298204, "train/image_loss_mean": 3.3624965932271254, "train/image_loss_std": 8.398556630905361, "train/model_loss_mean": 6.918971349115241, "train/model_loss_std": 12.559021401078734, "train/model_opt_grad_norm": 22.35161666347556, "train/model_opt_grad_steps": 568731.3561643836, "train/model_opt_loss": 17297.428376498287, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.711333901914832, "train/policy_entropy_max": 2.711333901914832, "train/policy_entropy_mean": 0.4598627964111224, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6811963621884176, "train/policy_logprob_mag": 7.438384258583801, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.46069431182456344, "train/policy_logprob_min": -7.438384258583801, "train/policy_logprob_std": 1.0799683748859248, "train/policy_randomness_mag": 0.9569818834735923, "train/policy_randomness_max": 0.9569818834735923, "train/policy_randomness_mean": 0.1623113868783598, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24043242388392147, "train/post_ent_mag": 55.998435503815955, "train/post_ent_max": 55.998435503815955, "train/post_ent_mean": 40.1727145469352, "train/post_ent_min": 19.59108505510304, "train/post_ent_std": 5.937967091390531, "train/prior_ent_mag": 76.8017440168825, "train/prior_ent_max": 76.8017440168825, "train/prior_ent_mean": 46.00708467666417, "train/prior_ent_min": 27.7439538354743, "train/prior_ent_std": 7.991102460312517, "train/rep_loss_mean": 5.821382450730833, "train/rep_loss_std": 8.923255430508966, "train/reward_avg": 0.049010059783515865, "train/reward_loss_mean": 0.06358066502295129, "train/reward_loss_std": 0.22458301076333817, "train/reward_max_data": 1.0246575401253897, "train/reward_max_pred": 1.0271393991496465, "train/reward_neg_acc": 0.9927976792805815, "train/reward_neg_loss": 0.026625116432264243, "train/reward_pos_acc": 0.9910567476324839, "train/reward_pos_loss": 0.7151492368685056, "train/reward_pred": 0.04873662209776167, "train/reward_rate": 0.0537376926369863, "stats/sum_log_reward": 12.528571810041155, "stats/max_log_achievement_collect_coal": 0.14285714285714285, "stats/max_log_achievement_collect_drink": 2.857142857142857, "stats/max_log_achievement_collect_iron": 0.14285714285714285, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 14.285714285714286, "stats/max_log_achievement_collect_wood": 15.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.42857142857142855, "stats/max_log_achievement_defeat_zombie": 1.4285714285714286, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.8571428571428571, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 2.4285714285714284, "stats/max_log_achievement_place_table": 4.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3832368424960545, "replay/size": 1000000.0, "replay/inserts": 1459.0, "replay/samples": 11664.0, "replay/insert_wait_avg": 3.313184846664962e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4296325309449918e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.01405453681946, "timer/env.step_count": 1459.0, "timer/env.step_total": 18.511611938476562, "timer/env.step_frac": 0.06170248246221648, "timer/env.step_avg": 0.012687876585659057, "timer/env.step_min": 0.0024297237396240234, "timer/env.step_max": 1.6482625007629395, "timer/replay.add_count": 1459.0, "timer/replay.add_total": 0.3247497081756592, "timer/replay.add_frac": 0.0010824483162198124, "timer/replay.add_avg": 0.00022258376160086304, "timer/replay.add_min": 7.843971252441406e-05, "timer/replay.add_max": 0.0043408870697021484, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02176499366760254, "timer/logger.write_frac": 7.254658019673346e-05, "timer/logger.write_avg": 0.02176499366760254, "timer/logger.write_min": 0.02176499366760254, "timer/logger.write_max": 0.02176499366760254, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1459.0, "timer/agent.policy_total": 11.173425674438477, "timer/agent.policy_frac": 0.03724300747072904, "timer/agent.policy_avg": 0.007658276678847482, "timer/agent.policy_min": 0.005658149719238281, "timer/agent.policy_max": 0.036884307861328125, "timer/dataset_count": 729.0, "timer/dataset_total": 0.06624054908752441, "timer/dataset_frac": 0.00022079148655149085, "timer/dataset_avg": 9.086495073734488e-05, "timer/dataset_min": 5.6743621826171875e-05, "timer/dataset_max": 0.0003237724304199219, "timer/agent.train_count": 729.0, "timer/agent.train_total": 269.2505531311035, "timer/agent.train_frac": 0.8974597991643739, "timer/agent.train_avg": 0.36934232253923666, "timer/agent.train_min": 0.3607461452484131, "timer/agent.train_max": 0.39029669761657715, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2226276397705078, "timer/agent.report_frac": 0.0007420573683263417, "timer/agent.report_avg": 0.2226276397705078, "timer/agent.report_min": 0.2226276397705078, "timer/agent.report_max": 0.2226276397705078, "fps": 4.8630098054593125}
{"step": 1140448, "episode/length": 288.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 12.500000052154064, "episode/reward_rate": 0.03460207612456748}
{"step": 1140676, "episode/length": 227.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.05701754385964912}
{"step": 1140979, "episode/length": 302.0, "episode/score": 13.099999964237213, "episode/sum_abs_reward": 14.699999988079071, "episode/reward_rate": 0.0462046204620462}
{"step": 1141141, "episode/length": 161.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.08024691358024691}
{"step": 1141328, "episode/length": 186.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.053475935828877004}
{"step": 1141533, "episode/length": 204.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.07317073170731707}
{"step": 1141705, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.513286693676098, "train/action_min": 0.0, "train/action_std": 3.3358065856469645, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03841361506665881, "train/actor_opt_grad_steps": 569935.0, "train/actor_opt_loss": -9.838350774871337, "train/adv_mag": 0.44469087248718414, "train/adv_max": 0.34372203454778, "train/adv_mean": 0.0027824152889602497, "train/adv_min": -0.40821502257037806, "train/adv_std": 0.043283496303735555, "train/cont_avg": 0.995143581081081, "train/cont_loss_mean": 2.4831391629505037e-05, "train/cont_loss_std": 0.0007742694768395679, "train/cont_neg_acc": 0.9966216216216216, "train/cont_neg_loss": 0.0038757642283219055, "train/cont_pos_acc": 0.9999999830851684, "train/cont_pos_loss": 9.689267001274356e-06, "train/cont_pred": 0.9951452105431944, "train/cont_rate": 0.995143581081081, "train/dyn_loss_mean": 5.837654184650731, "train/dyn_loss_std": 8.929741737004873, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8742961786888741, "train/extr_critic_critic_opt_grad_steps": 569935.0, "train/extr_critic_critic_opt_loss": 15426.52123363598, "train/extr_critic_mag": 12.356926131892848, "train/extr_critic_max": 12.356926131892848, "train/extr_critic_mean": 3.7178542613983154, "train/extr_critic_min": -0.343263249139528, "train/extr_critic_std": 2.925759737556045, "train/extr_return_normed_mag": 1.372732321958284, "train/extr_return_normed_max": 1.372732321958284, "train/extr_return_normed_mean": 0.39336987403598994, "train/extr_return_normed_min": -0.06805983774766729, "train/extr_return_normed_std": 0.30975253940434067, "train/extr_return_rate": 0.8589316356826473, "train/extr_return_raw_mag": 13.082592603322622, "train/extr_return_raw_max": 13.082592603322622, "train/extr_return_raw_mean": 3.744387211026372, "train/extr_return_raw_min": -0.6557151767853144, "train/extr_return_raw_std": 2.954039715431832, "train/extr_reward_mag": 1.0865871648530703, "train/extr_reward_max": 1.0865871648530703, "train/extr_reward_mean": 0.06533203565993824, "train/extr_reward_min": -0.6245156768206004, "train/extr_reward_std": 0.24521638030135953, "train/image_loss_mean": 3.515265493779569, "train/image_loss_std": 9.067614316940308, "train/model_loss_mean": 7.080404036753887, "train/model_loss_std": 13.156933874697298, "train/model_opt_grad_norm": 21.783622496836895, "train/model_opt_grad_steps": 569465.8108108108, "train/model_opt_loss": 19420.21194045608, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2736.4864864864867, "train/policy_entropy_mag": 2.7147424639882267, "train/policy_entropy_max": 2.7147424639882267, "train/policy_entropy_mean": 0.422310872657879, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6319086740951281, "train/policy_logprob_mag": 7.438384281622397, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4223293726508682, "train/policy_logprob_min": -7.438384281622397, "train/policy_logprob_std": 1.0458173429643787, "train/policy_randomness_mag": 0.9581849575042725, "train/policy_randomness_max": 0.9581849575042725, "train/policy_randomness_mean": 0.1490572036520855, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22303603307620898, "train/post_ent_mag": 55.91660143878009, "train/post_ent_max": 55.91660143878009, "train/post_ent_mean": 40.26248514330065, "train/post_ent_min": 19.636659338667585, "train/post_ent_std": 5.901180479977582, "train/prior_ent_mag": 76.85330777554898, "train/prior_ent_max": 76.85330777554898, "train/prior_ent_mean": 46.083410159961595, "train/prior_ent_min": 27.668533402520257, "train/prior_ent_std": 7.939135158384168, "train/rep_loss_mean": 5.837654184650731, "train/rep_loss_std": 8.929741737004873, "train/reward_avg": 0.04813397358599547, "train/reward_loss_mean": 0.0625212398433202, "train/reward_loss_std": 0.22092432669691137, "train/reward_max_data": 1.024324330123695, "train/reward_max_pred": 1.0252257424431879, "train/reward_neg_acc": 0.9931548455277005, "train/reward_neg_loss": 0.02596205277871844, "train/reward_pos_acc": 0.9901135805490855, "train/reward_pos_loss": 0.7215773511577297, "train/reward_pred": 0.04778668646876876, "train/reward_rate": 0.05260240709459459, "stats/sum_log_reward": 11.600000381469727, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 3.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.1666666666666667, "stats/max_log_achievement_collect_stone": 19.666666666666668, "stats/max_log_achievement_collect_wood": 12.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.6666666666666666, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.8333333333333335, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.4632207875450452, "replay/size": 1000000.0, "replay/inserts": 1469.0, "replay/samples": 11760.0, "replay/insert_wait_avg": 3.2281453630565542e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.368514534567489e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0679976940155, "timer/env.step_count": 1469.0, "timer/env.step_total": 17.07983374595642, "timer/env.step_frac": 0.05691987775175219, "timer/env.step_avg": 0.011626843938704166, "timer/env.step_min": 0.002476215362548828, "timer/env.step_max": 1.5307648181915283, "timer/replay.add_count": 1469.0, "timer/replay.add_total": 0.3049898147583008, "timer/replay.add_frac": 0.0010164023391434902, "timer/replay.add_avg": 0.00020761730072042258, "timer/replay.add_min": 7.486343383789062e-05, "timer/replay.add_max": 0.0006165504455566406, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03644418716430664, "timer/logger.write_frac": 0.00012145309544628417, "timer/logger.write_avg": 0.03644418716430664, "timer/logger.write_min": 0.03644418716430664, "timer/logger.write_max": 0.03644418716430664, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1469.0, "timer/agent.policy_total": 11.12751317024231, "timer/agent.policy_frac": 0.03708330530331737, "timer/agent.policy_avg": 0.007574889836788502, "timer/agent.policy_min": 0.0055692195892333984, "timer/agent.policy_max": 0.016849756240844727, "timer/dataset_count": 735.0, "timer/dataset_total": 0.06595373153686523, "timer/dataset_frac": 0.00021979595306301003, "timer/dataset_avg": 8.973296807736766e-05, "timer/dataset_min": 6.365776062011719e-05, "timer/dataset_max": 0.00016379356384277344, "timer/agent.train_count": 735.0, "timer/agent.train_total": 270.8041105270386, "timer/agent.train_frac": 0.9024758141758995, "timer/agent.train_avg": 0.36844096670345383, "timer/agent.train_min": 0.3605329990386963, "timer/agent.train_max": 0.38692522048950195, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22191619873046875, "timer/agent.report_frac": 0.0007395530360980397, "timer/agent.report_avg": 0.22191619873046875, "timer/agent.report_min": 0.22191619873046875, "timer/agent.report_max": 0.22191619873046875, "fps": 4.895440140829152}
{"step": 1141781, "episode/length": 247.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.06048387096774194}
{"step": 1142071, "episode/length": 289.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 17.30000003427267, "episode/reward_rate": 0.05517241379310345}
{"step": 1142277, "episode/length": 205.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.30000003427267, "episode/reward_rate": 0.07281553398058252}
{"step": 1142577, "episode/length": 299.0, "episode/score": 12.100000031292439, "episode/sum_abs_reward": 15.700000040233135, "episode/reward_rate": 0.04666666666666667}
{"step": 1142745, "episode/length": 167.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06547619047619048}
{"step": 1142996, "episode/length": 250.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 16.100000008940697, "episode/reward_rate": 0.05976095617529881}
{"step": 1143149, "episode/length": 152.0, "episode/score": 10.100000016391277, "episode/sum_abs_reward": 11.30000003427267, "episode/reward_rate": 0.0718954248366013}
{"step": 1143150, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.471631368001302, "train/action_min": 0.0, "train/action_std": 3.367387894127104, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03799717017035517, "train/actor_opt_grad_steps": 570665.0, "train/actor_opt_loss": -9.356492286134097, "train/adv_mag": 0.38436276879575515, "train/adv_max": 0.3217616420653131, "train/adv_mean": 0.0025368464150435305, "train/adv_min": -0.3512843820369906, "train/adv_std": 0.042420135552270546, "train/cont_avg": 0.9952528211805556, "train/cont_loss_mean": 6.93992069420446e-05, "train/cont_loss_std": 0.0021797269661125223, "train/cont_neg_acc": 0.9965277777777778, "train/cont_neg_loss": 0.016283678941970026, "train/cont_pos_acc": 0.9999999817874696, "train/cont_pos_loss": 3.816769134869071e-06, "train/cont_pred": 0.9952667935027016, "train/cont_rate": 0.9952528211805556, "train/dyn_loss_mean": 5.853749526871575, "train/dyn_loss_std": 8.938224805725945, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8733827827705277, "train/extr_critic_critic_opt_grad_steps": 570665.0, "train/extr_critic_critic_opt_loss": 15365.890625, "train/extr_critic_mag": 12.308940966924032, "train/extr_critic_max": 12.308940966924032, "train/extr_critic_mean": 3.7295663124985166, "train/extr_critic_min": -0.3891681995656755, "train/extr_critic_std": 2.925446480512619, "train/extr_return_normed_mag": 1.3592908398972616, "train/extr_return_normed_max": 1.3592908398972616, "train/extr_return_normed_mean": 0.395676848375135, "train/extr_return_normed_min": -0.06946302614071304, "train/extr_return_normed_std": 0.3091595214274194, "train/extr_return_rate": 0.852377250790596, "train/extr_return_raw_mag": 12.968889951705933, "train/extr_return_raw_max": 12.968889951705933, "train/extr_return_raw_mean": 3.753839820623398, "train/extr_return_raw_min": -0.6952528326461712, "train/extr_return_raw_std": 2.9573871758249073, "train/extr_reward_mag": 1.0861438744597964, "train/extr_reward_max": 1.0861438744597964, "train/extr_reward_mean": 0.06373719255336457, "train/extr_reward_min": -0.5788589715957642, "train/extr_reward_std": 0.24229261154929796, "train/image_loss_mean": 3.3920010957452984, "train/image_loss_std": 8.774265958203209, "train/model_loss_mean": 6.966496924559276, "train/model_loss_std": 12.9081801838345, "train/model_opt_grad_norm": 19.212073140674168, "train/model_opt_grad_steps": 570195.0, "train/model_opt_loss": 17416.242309570312, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7043137881490917, "train/policy_entropy_max": 2.7043137881490917, "train/policy_entropy_mean": 0.43882525774339837, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6557909362018108, "train/policy_logprob_mag": 7.43838428788715, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4385043260537916, "train/policy_logprob_min": -7.43838428788715, "train/policy_logprob_std": 1.0596825720535383, "train/policy_randomness_mag": 0.9545040917065408, "train/policy_randomness_max": 0.9545040917065408, "train/policy_randomness_mean": 0.1548860596699847, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23146542410055795, "train/post_ent_mag": 55.41498067643907, "train/post_ent_max": 55.41498067643907, "train/post_ent_mean": 40.01521025763618, "train/post_ent_min": 19.657970163557266, "train/post_ent_std": 5.8181816471947565, "train/prior_ent_mag": 76.7957747777303, "train/prior_ent_max": 76.7957747777303, "train/prior_ent_mean": 45.88777293099297, "train/prior_ent_min": 27.870826933119034, "train/prior_ent_std": 7.910433961285485, "train/rep_loss_mean": 5.853749526871575, "train/rep_loss_std": 8.938224805725945, "train/reward_avg": 0.04775933142647975, "train/reward_loss_mean": 0.06217664609559708, "train/reward_loss_std": 0.22008748600880304, "train/reward_max_data": 1.0388888981607225, "train/reward_max_pred": 1.0380151040024228, "train/reward_neg_acc": 0.9926689937710762, "train/reward_neg_loss": 0.025948941034989223, "train/reward_pos_acc": 0.9897124510672357, "train/reward_pos_loss": 0.7227933878699938, "train/reward_pred": 0.04737733493352102, "train/reward_rate": 0.05215115017361111, "stats/sum_log_reward": 12.671428952898298, "stats/max_log_achievement_collect_coal": 0.8571428571428571, "stats/max_log_achievement_collect_drink": 3.5714285714285716, "stats/max_log_achievement_collect_iron": 0.14285714285714285, "stats/max_log_achievement_collect_sapling": 2.4285714285714284, "stats/max_log_achievement_collect_stone": 14.0, "stats/max_log_achievement_collect_wood": 12.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.7142857142857142, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.7142857142857143, "stats/max_log_achievement_make_stone_sword": 0.7142857142857143, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.7142857142857142, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 4.571428571428571, "stats/max_log_achievement_place_table": 3.142857142857143, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.5294871287686485, "replay/size": 1000000.0, "replay/inserts": 1445.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.1822692976690907e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3751377689541212e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3632926940918, "timer/env.step_count": 1445.0, "timer/env.step_total": 19.899993181228638, "timer/env.step_frac": 0.06625307973799581, "timer/env.step_avg": 0.01377162157870494, "timer/env.step_min": 0.002597808837890625, "timer/env.step_max": 1.7653486728668213, "timer/replay.add_count": 1445.0, "timer/replay.add_total": 0.3025813102722168, "timer/replay.add_frac": 0.0010073844495385258, "timer/replay.add_avg": 0.0002093988306382123, "timer/replay.add_min": 7.486343383789062e-05, "timer/replay.add_max": 0.0036704540252685547, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0232088565826416, "timer/logger.write_frac": 7.726928405422333e-05, "timer/logger.write_avg": 0.0232088565826416, "timer/logger.write_min": 0.0232088565826416, "timer/logger.write_max": 0.0232088565826416, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0007658004760742188, "timer/checkpoint.save_frac": 2.5495807733542073e-06, "timer/checkpoint.save_avg": 0.0007658004760742188, "timer/checkpoint.save_min": 0.0007658004760742188, "timer/checkpoint.save_max": 0.0007658004760742188, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2396934032440186, "timer/agent.save_frac": 0.004127313268291401, "timer/agent.save_avg": 1.2396934032440186, "timer/agent.save_min": 1.2396934032440186, "timer/agent.save_max": 1.2396934032440186, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.608268737792969e-05, "timer/replay.save_frac": 3.198882477153629e-07, "timer/replay.save_avg": 9.608268737792969e-05, "timer/replay.save_min": 9.608268737792969e-05, "timer/replay.save_max": 9.608268737792969e-05, "timer/agent.policy_count": 1445.0, "timer/agent.policy_total": 12.813189268112183, "timer/agent.policy_frac": 0.04265897191759018, "timer/agent.policy_avg": 0.008867259009074174, "timer/agent.policy_min": 0.00565648078918457, "timer/agent.policy_max": 1.2459814548492432, "timer/dataset_count": 722.0, "timer/dataset_total": 0.06708741188049316, "timer/dataset_frac": 0.00022335422973545257, "timer/dataset_avg": 9.291885302007364e-05, "timer/dataset_min": 6.175041198730469e-05, "timer/dataset_max": 0.001001119613647461, "timer/agent.train_count": 722.0, "timer/agent.train_total": 266.6182336807251, "timer/agent.train_frac": 0.8876525200177017, "timer/agent.train_avg": 0.3692773319677633, "timer/agent.train_min": 0.36049866676330566, "timer/agent.train_max": 0.7920806407928467, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21950531005859375, "timer/agent.report_frac": 0.0007307993866019816, "timer/agent.report_avg": 0.21950531005859375, "timer/agent.report_min": 0.21950531005859375, "timer/agent.report_max": 0.21950531005859375, "fps": 4.810722952613704}
{"step": 1143330, "episode/length": 180.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.055248618784530384}
{"step": 1143563, "episode/length": 232.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.06437768240343347}
{"step": 1143820, "episode/length": 256.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.700000047683716, "episode/reward_rate": 0.058365758754863814}
{"step": 1144124, "episode/length": 303.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.700000002980232, "episode/reward_rate": 0.049342105263157895}
{"step": 1144350, "episode/length": 225.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.299999997019768, "episode/reward_rate": 0.06637168141592921}
{"step": 1144522, "episode/length": 171.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06395348837209303}
{"step": 1144615, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.484017986140839, "train/action_min": 0.0, "train/action_std": 3.3390768880713475, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03585464900282964, "train/actor_opt_grad_steps": 571390.0, "train/actor_opt_loss": -11.077598441137026, "train/adv_mag": 0.3729014233367084, "train/adv_max": 0.318116693872295, "train/adv_mean": 0.002009232889265635, "train/adv_min": -0.3270209827651716, "train/adv_std": 0.04114498973709263, "train/cont_avg": 0.9953981164383562, "train/cont_loss_mean": 2.4601792869414767e-05, "train/cont_loss_std": 0.0007365818435469258, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.001010849476639537, "train/cont_pos_acc": 0.9999999836699603, "train/cont_pos_loss": 1.7043233042939278e-05, "train/cont_pred": 0.9953894655998439, "train/cont_rate": 0.9953981164383562, "train/dyn_loss_mean": 5.88029923504346, "train/dyn_loss_std": 9.030902483691907, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8556034393506508, "train/extr_critic_critic_opt_grad_steps": 571390.0, "train/extr_critic_critic_opt_loss": 15145.020628210616, "train/extr_critic_mag": 12.426679167028976, "train/extr_critic_max": 12.426679167028976, "train/extr_critic_mean": 3.8293066775962097, "train/extr_critic_min": -0.3653006276039228, "train/extr_critic_std": 2.9828700235445207, "train/extr_return_normed_mag": 1.362386257681128, "train/extr_return_normed_max": 1.362386257681128, "train/extr_return_normed_mean": 0.40071994515314496, "train/extr_return_normed_min": -0.067177527545862, "train/extr_return_normed_std": 0.3123494031494611, "train/extr_return_rate": 0.8477740165305464, "train/extr_return_raw_mag": 13.108488997367964, "train/extr_return_raw_max": 13.108488997367964, "train/extr_return_raw_mean": 3.8486504979329568, "train/extr_return_raw_min": -0.6573242238939625, "train/extr_return_raw_std": 3.0080616898732644, "train/extr_reward_mag": 1.0829184610549718, "train/extr_reward_max": 1.0829184610549718, "train/extr_reward_mean": 0.06410936679537982, "train/extr_reward_min": -0.6107262552601017, "train/extr_reward_std": 0.2426635888341355, "train/image_loss_mean": 3.5260958083688396, "train/image_loss_std": 8.963917719174738, "train/model_loss_mean": 7.116747411963058, "train/model_loss_std": 13.135748262274754, "train/model_opt_grad_norm": 22.175781355963814, "train/model_opt_grad_steps": 570919.1917808219, "train/model_opt_loss": 18038.743552011987, "train/model_opt_model_opt_grad_overflow": 0.0136986301369863, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7053362996610875, "train/policy_entropy_max": 2.7053362996610875, "train/policy_entropy_mean": 0.4377586539477518, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6564746119388162, "train/policy_logprob_mag": 7.438384278179848, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4366392587145714, "train/policy_logprob_min": -7.438384278179848, "train/policy_logprob_std": 1.0583002306010625, "train/policy_randomness_mag": 0.9548649934873189, "train/policy_randomness_max": 0.9548649934873189, "train/policy_randomness_mean": 0.15450959642456003, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23170673091934152, "train/post_ent_mag": 56.27909197872632, "train/post_ent_max": 56.27909197872632, "train/post_ent_mean": 40.167494107599126, "train/post_ent_min": 19.69259941414611, "train/post_ent_std": 5.903101045791417, "train/prior_ent_mag": 76.83080521675005, "train/prior_ent_max": 76.83080521675005, "train/prior_ent_mean": 46.0125726673701, "train/prior_ent_min": 27.4873843519655, "train/prior_ent_std": 8.01342329260421, "train/rep_loss_mean": 5.88029923504346, "train/rep_loss_std": 9.030902483691907, "train/reward_avg": 0.04905286788532179, "train/reward_loss_mean": 0.06244742441667269, "train/reward_loss_std": 0.2251810905051558, "train/reward_max_data": 1.0315068568268868, "train/reward_max_pred": 1.0293475993692058, "train/reward_neg_acc": 0.9928770334753272, "train/reward_neg_loss": 0.025484611650239932, "train/reward_pos_acc": 0.9912472375451702, "train/reward_pos_loss": 0.7203787214135471, "train/reward_pred": 0.04869271988329822, "train/reward_rate": 0.053175834760273974, "stats/sum_log_reward": 12.266666889190674, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 11.5, "stats/max_log_achievement_collect_wood": 14.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.1666666666666667, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.5, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 2.1666666666666665, "stats/max_log_achievement_place_table": 3.8333333333333335, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.48867934693892795, "replay/size": 1000000.0, "replay/inserts": 1465.0, "replay/samples": 11728.0, "replay/insert_wait_avg": 3.3567383020811112e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3573473830177546e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1749532222748, "timer/env.step_count": 1465.0, "timer/env.step_total": 16.58678960800171, "timer/env.step_frac": 0.055257074016163685, "timer/env.step_avg": 0.011322040688055774, "timer/env.step_min": 0.0022699832916259766, "timer/env.step_max": 1.5450398921966553, "timer/replay.add_count": 1465.0, "timer/replay.add_total": 0.32204556465148926, "timer/replay.add_frac": 0.0010728595480550293, "timer/replay.add_avg": 0.0002198263239941906, "timer/replay.add_min": 7.414817810058594e-05, "timer/replay.add_max": 0.003352642059326172, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025480031967163086, "timer/logger.write_frac": 8.488393749592934e-05, "timer/logger.write_avg": 0.025480031967163086, "timer/logger.write_min": 0.025480031967163086, "timer/logger.write_max": 0.025480031967163086, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1465.0, "timer/agent.policy_total": 11.235788345336914, "timer/agent.policy_frac": 0.03743079902145264, "timer/agent.policy_avg": 0.0076694800992060845, "timer/agent.policy_min": 0.005630970001220703, "timer/agent.policy_max": 0.022897958755493164, "timer/dataset_count": 733.0, "timer/dataset_total": 0.0691838264465332, "timer/dataset_frac": 0.0002304783450580025, "timer/dataset_avg": 9.438448355597981e-05, "timer/dataset_min": 6.794929504394531e-05, "timer/dataset_max": 0.00021505355834960938, "timer/agent.train_count": 733.0, "timer/agent.train_total": 271.2597212791443, "timer/agent.train_frac": 0.9036720697955128, "timer/agent.train_avg": 0.3700678325772773, "timer/agent.train_min": 0.3609929084777832, "timer/agent.train_max": 0.42904162406921387, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2182769775390625, "timer/agent.report_frac": 0.0007271658584300065, "timer/agent.report_avg": 0.2182769775390625, "timer/agent.report_min": 0.2182769775390625, "timer/agent.report_max": 0.2182769775390625, "fps": 4.880383893832065}
{"step": 1144726, "episode/length": 203.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.06862745098039216}
{"step": 1144979, "episode/length": 252.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.05928853754940711}
{"step": 1145105, "episode/length": 125.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 12.299999982118607, "episode/reward_rate": 0.09523809523809523}
{"step": 1145488, "episode/length": 382.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 10.30000003427267, "episode/reward_rate": 0.020887728459530026}
{"step": 1145665, "episode/length": 176.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.05649717514124294}
{"step": 1145870, "episode/length": 204.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.05853658536585366}
{"step": 1146061, "episode/length": 190.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.07853403141361257}
{"step": 1146087, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.416127797719595, "train/action_min": 0.0, "train/action_std": 3.2736072926907926, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03651415617079348, "train/actor_opt_grad_steps": 572125.0, "train/actor_opt_loss": -11.24004423255856, "train/adv_mag": 0.38111344181202556, "train/adv_max": 0.3181192363436158, "train/adv_mean": 0.0013856465225094202, "train/adv_min": -0.33713118309104767, "train/adv_std": 0.04176019857058654, "train/cont_avg": 0.9952623521959459, "train/cont_loss_mean": 6.692011977593426e-05, "train/cont_loss_std": 0.0018924041093424803, "train/cont_neg_acc": 0.9977477482847266, "train/cont_neg_loss": 0.0039058097562521287, "train/cont_pos_acc": 0.9999734598237116, "train/cont_pos_loss": 5.016135413863035e-05, "train/cont_pred": 0.9952460809333904, "train/cont_rate": 0.9952623521959459, "train/dyn_loss_mean": 5.909373547579791, "train/dyn_loss_std": 8.888546647252264, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9070194540797053, "train/extr_critic_critic_opt_grad_steps": 572125.0, "train/extr_critic_critic_opt_loss": 15315.708192567568, "train/extr_critic_mag": 12.484384188780913, "train/extr_critic_max": 12.484384188780913, "train/extr_critic_mean": 3.7945621271391174, "train/extr_critic_min": -0.3478130859297675, "train/extr_critic_std": 2.962974670771006, "train/extr_return_normed_mag": 1.375797076805218, "train/extr_return_normed_max": 1.375797076805218, "train/extr_return_normed_mean": 0.3973125775118132, "train/extr_return_normed_min": -0.07028866956966955, "train/extr_return_normed_std": 0.31116212884316574, "train/extr_return_rate": 0.8576313096123773, "train/extr_return_raw_mag": 13.203108993736473, "train/extr_return_raw_max": 13.203108993736473, "train/extr_return_raw_mean": 3.8078570462561943, "train/extr_return_raw_min": -0.6814861772833644, "train/extr_return_raw_std": 2.987730367763622, "train/extr_reward_mag": 1.0852831537659104, "train/extr_reward_max": 1.0852831537659104, "train/extr_reward_mean": 0.06354653145614508, "train/extr_reward_min": -0.5880432338327974, "train/extr_reward_std": 0.24188562099998062, "train/image_loss_mean": 3.517130618159835, "train/image_loss_std": 8.953992302353317, "train/model_loss_mean": 7.1257971492973535, "train/model_loss_std": 13.015401273160368, "train/model_opt_grad_norm": 20.821690391849828, "train/model_opt_grad_steps": 571653.9459459459, "train/model_opt_loss": 24697.378312394427, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3462.837837837838, "train/policy_entropy_mag": 2.705048825289752, "train/policy_entropy_max": 2.705048825289752, "train/policy_entropy_mean": 0.4187478201614844, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6304724538648451, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4182493338311041, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 1.0399118057779364, "train/policy_randomness_mag": 0.9547635252411301, "train/policy_randomness_max": 0.9547635252411301, "train/policy_randomness_mean": 0.14779960444650134, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22252910946672028, "train/post_ent_mag": 55.56704871718948, "train/post_ent_max": 55.56704871718948, "train/post_ent_mean": 40.055875675098314, "train/post_ent_min": 19.89300820634172, "train/post_ent_std": 5.850405441748129, "train/prior_ent_mag": 76.77825618434596, "train/prior_ent_max": 76.77825618434596, "train/prior_ent_mean": 45.90591497679014, "train/prior_ent_min": 27.577200374087774, "train/prior_ent_std": 7.984727517978565, "train/rep_loss_mean": 5.909373547579791, "train/rep_loss_std": 8.888546647252264, "train/reward_avg": 0.04864468938998274, "train/reward_loss_mean": 0.06297553683052191, "train/reward_loss_std": 0.22120488837764068, "train/reward_max_data": 1.025675681797234, "train/reward_max_pred": 1.0236779837994963, "train/reward_neg_acc": 0.9917298313733693, "train/reward_neg_loss": 0.026210851967334747, "train/reward_pos_acc": 0.9906397679367581, "train/reward_pos_loss": 0.718946239432773, "train/reward_pred": 0.04838949109654169, "train/reward_rate": 0.052998310810810814, "stats/sum_log_reward": 11.242857456207275, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 5.142857142857143, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 8.857142857142858, "stats/max_log_achievement_collect_wood": 13.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.7142857142857142, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.7142857142857143, "stats/max_log_achievement_make_stone_sword": 0.5714285714285714, "stats/max_log_achievement_make_wood_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.7142857142857143, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 2.142857142857143, "stats/max_log_achievement_place_table": 2.5714285714285716, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.3498753713709967, "replay/size": 1000000.0, "replay/inserts": 1472.0, "replay/samples": 11776.0, "replay/insert_wait_avg": 3.0576534893201743e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3536571160606716e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.19795513153076, "timer/env.step_count": 1472.0, "timer/env.step_total": 17.88926100730896, "timer/env.step_frac": 0.059591548514948536, "timer/env.step_avg": 0.0121530305756175, "timer/env.step_min": 0.0023233890533447266, "timer/env.step_max": 1.3054718971252441, "timer/replay.add_count": 1472.0, "timer/replay.add_total": 0.2939877510070801, "timer/replay.add_frac": 0.0009793129699310252, "timer/replay.add_avg": 0.00019971993954285332, "timer/replay.add_min": 7.152557373046875e-05, "timer/replay.add_max": 0.0010485649108886719, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0370180606842041, "timer/logger.write_frac": 0.00012331216802587732, "timer/logger.write_avg": 0.0370180606842041, "timer/logger.write_min": 0.0370180606842041, "timer/logger.write_max": 0.0370180606842041, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1472.0, "timer/agent.policy_total": 10.826547384262085, "timer/agent.policy_frac": 0.03606469397674101, "timer/agent.policy_avg": 0.007354991429525873, "timer/agent.policy_min": 0.0055577754974365234, "timer/agent.policy_max": 0.017479896545410156, "timer/dataset_count": 736.0, "timer/dataset_total": 0.06255960464477539, "timer/dataset_frac": 0.00020839450627625062, "timer/dataset_avg": 8.499946283257526e-05, "timer/dataset_min": 6.175041198730469e-05, "timer/dataset_max": 0.0001895427703857422, "timer/agent.train_count": 736.0, "timer/agent.train_total": 270.4585633277893, "timer/agent.train_frac": 0.9009340626896968, "timer/agent.train_avg": 0.36747087408667023, "timer/agent.train_min": 0.3577585220336914, "timer/agent.train_max": 0.38885927200317383, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21985507011413574, "timer/agent.report_frac": 0.0007323669810402505, "timer/agent.report_avg": 0.21985507011413574, "timer/agent.report_min": 0.21985507011413574, "timer/agent.report_max": 0.21985507011413574, "fps": 4.903311730526964}
{"step": 1146271, "episode/length": 209.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.05714285714285714}
{"step": 1146419, "episode/length": 147.0, "episode/score": 12.100000016391277, "episode/sum_abs_reward": 13.700000040233135, "episode/reward_rate": 0.08783783783783784}
{"step": 1146642, "episode/length": 222.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.06278026905829596}
{"step": 1146817, "episode/length": 174.0, "episode/score": 12.100000023841858, "episode/sum_abs_reward": 14.699999988079071, "episode/reward_rate": 0.08}
{"step": 1147069, "episode/length": 251.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.500000022351742, "episode/reward_rate": 0.06349206349206349}
{"step": 1147535, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.431868659125434, "train/action_min": 0.0, "train/action_std": 3.3174706266986, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.037500541295028396, "train/actor_opt_grad_steps": 572855.0, "train/actor_opt_loss": -9.557040050625801, "train/adv_mag": 0.4398582875728607, "train/adv_max": 0.3695671053396331, "train/adv_mean": 0.0023049978166859043, "train/adv_min": -0.37299653411739403, "train/adv_std": 0.04241512188067039, "train/cont_avg": 0.9952256944444444, "train/cont_loss_mean": 1.058359002195333e-05, "train/cont_loss_std": 0.00030997664965800215, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 3.5685417618700663e-06, "train/cont_pos_acc": 0.9999999842709966, "train/cont_pos_loss": 1.061392146795015e-05, "train/cont_pred": 0.9952162462804053, "train/cont_rate": 0.9952256944444444, "train/dyn_loss_mean": 5.850911087459988, "train/dyn_loss_std": 8.909069577852884, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9043323521812757, "train/extr_critic_critic_opt_grad_steps": 572855.0, "train/extr_critic_critic_opt_loss": 15416.51478407118, "train/extr_critic_mag": 12.582384718788994, "train/extr_critic_max": 12.582384718788994, "train/extr_critic_mean": 3.700488613711463, "train/extr_critic_min": -0.31912747356626725, "train/extr_critic_std": 2.980005148384306, "train/extr_return_normed_mag": 1.3843477931287553, "train/extr_return_normed_max": 1.3843477931287553, "train/extr_return_normed_mean": 0.3833405143684811, "train/extr_return_normed_min": -0.06621433918674786, "train/extr_return_normed_std": 0.3107395689520571, "train/extr_return_rate": 0.855109817451901, "train/extr_return_raw_mag": 13.42592912250095, "train/extr_return_raw_max": 13.42592912250095, "train/extr_return_raw_mean": 3.7228323453002505, "train/extr_return_raw_min": -0.6349143828782771, "train/extr_return_raw_std": 3.0122193131181927, "train/extr_reward_mag": 1.0903956757651434, "train/extr_reward_max": 1.0903956757651434, "train/extr_reward_mean": 0.0641910538284315, "train/extr_reward_min": -0.6149873187144598, "train/extr_reward_std": 0.24337833457522923, "train/image_loss_mean": 3.4385660820537143, "train/image_loss_std": 8.687358525064257, "train/model_loss_mean": 7.0100981328222485, "train/model_loss_std": 12.782116678025988, "train/model_opt_grad_norm": 19.562160280015732, "train/model_opt_grad_steps": 572382.0, "train/model_opt_loss": 8762.622653537326, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.6801365878846912, "train/policy_entropy_max": 2.6801365878846912, "train/policy_entropy_mean": 0.4176195835073789, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6183904376294878, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41665786587529713, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 1.036980425318082, "train/policy_randomness_mag": 0.9459706006778611, "train/policy_randomness_max": 0.9459706006778611, "train/policy_randomness_mean": 0.1474013879067368, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21826468449499872, "train/post_ent_mag": 54.9829887813992, "train/post_ent_max": 54.9829887813992, "train/post_ent_mean": 39.888933976491295, "train/post_ent_min": 19.806260493066574, "train/post_ent_std": 5.691605475213793, "train/prior_ent_mag": 76.79085699717204, "train/prior_ent_max": 76.79085699717204, "train/prior_ent_mean": 45.76187388102213, "train/prior_ent_min": 27.77020064989726, "train/prior_ent_std": 7.854659895102183, "train/rep_loss_mean": 5.850911087459988, "train/rep_loss_std": 8.909069577852884, "train/reward_avg": 0.04535183346726828, "train/reward_loss_mean": 0.060974798475702606, "train/reward_loss_std": 0.22023797324962086, "train/reward_max_data": 1.022222227520413, "train/reward_max_pred": 1.0226719876130421, "train/reward_neg_acc": 0.9923074096441269, "train/reward_neg_loss": 0.025983011362970702, "train/reward_pos_acc": 0.9866013212336434, "train/reward_pos_loss": 0.7309823524620798, "train/reward_pred": 0.04496358997291989, "train/reward_rate": 0.049723307291666664, "stats/sum_log_reward": 12.700000190734864, "stats/max_log_achievement_collect_coal": 1.8, "stats/max_log_achievement_collect_drink": 2.2, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8, "stats/max_log_achievement_collect_stone": 14.0, "stats/max_log_achievement_collect_wood": 11.4, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.2, "stats/max_log_achievement_eat_cow": 0.4, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.2, "stats/max_log_achievement_make_stone_sword": 0.8, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2, "stats/max_log_achievement_place_furnace": 1.4, "stats/max_log_achievement_place_plant": 1.6, "stats/max_log_achievement_place_stone": 3.2, "stats/max_log_achievement_place_table": 2.8, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.42635747492313386, "replay/size": 1000000.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.4038862470763824e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3521568880555379e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.32903718948364, "timer/env.step_count": 1448.0, "timer/env.step_total": 18.350768327713013, "timer/env.step_frac": 0.061102211425980574, "timer/env.step_avg": 0.012673182546763131, "timer/env.step_min": 0.0026259422302246094, "timer/env.step_max": 2.298081874847412, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.30988121032714844, "timer/replay.add_frac": 0.0010318056929395014, "timer/replay.add_avg": 0.00021400636072316882, "timer/replay.add_min": 7.224082946777344e-05, "timer/replay.add_max": 0.002561330795288086, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.033058881759643555, "timer/logger.write_frac": 0.00011007554270813328, "timer/logger.write_avg": 0.033058881759643555, "timer/logger.write_min": 0.033058881759643555, "timer/logger.write_max": 0.033058881759643555, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003113746643066406, "timer/checkpoint.save_frac": 1.0367784188319696e-06, "timer/checkpoint.save_avg": 0.0003113746643066406, "timer/checkpoint.save_min": 0.0003113746643066406, "timer/checkpoint.save_max": 0.0003113746643066406, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.16935133934021, "timer/agent.save_frac": 0.003893567369586187, "timer/agent.save_avg": 1.16935133934021, "timer/agent.save_min": 1.16935133934021, "timer/agent.save_max": 1.16935133934021, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.605552673339844e-05, "timer/replay.save_frac": 2.53240670449769e-07, "timer/replay.save_avg": 7.605552673339844e-05, "timer/replay.save_min": 7.605552673339844e-05, "timer/replay.save_max": 7.605552673339844e-05, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 13.010948896408081, "timer/agent.policy_frac": 0.043322314146398075, "timer/agent.policy_avg": 0.008985461945033205, "timer/agent.policy_min": 0.005732059478759766, "timer/agent.policy_max": 1.167964220046997, "timer/dataset_count": 724.0, "timer/dataset_total": 0.06923222541809082, "timer/dataset_frac": 0.00023052125117828954, "timer/dataset_avg": 9.562462074321936e-05, "timer/dataset_min": 6.413459777832031e-05, "timer/dataset_max": 0.0001976490020751953, "timer/agent.train_count": 724.0, "timer/agent.train_total": 267.8812770843506, "timer/agent.train_frac": 0.8919592976796942, "timer/agent.train_avg": 0.370001763928661, "timer/agent.train_min": 0.3608403205871582, "timer/agent.train_max": 0.46738171577453613, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2206268310546875, "timer/agent.report_frac": 0.0007346170490850326, "timer/agent.report_avg": 0.2206268310546875, "timer/agent.report_min": 0.2206268310546875, "timer/agent.report_max": 0.2206268310546875, "fps": 4.8212842282349335}
{"step": 1147559, "episode/length": 489.0, "episode/score": 16.099999986588955, "episode/sum_abs_reward": 18.100000016391277, "episode/reward_rate": 0.03469387755102041}
{"step": 1147754, "episode/length": 194.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.500000044703484, "episode/reward_rate": 0.06153846153846154}
{"step": 1147958, "episode/length": 203.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.06862745098039216}
{"step": 1148131, "episode/length": 172.0, "episode/score": 10.099999979138374, "episode/sum_abs_reward": 12.30000002682209, "episode/reward_rate": 0.06358381502890173}
{"step": 1148337, "episode/length": 205.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.07281553398058252}
{"step": 1148392, "episode/length": 54.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.099999994039536, "episode/reward_rate": 0.14545454545454545}
{"step": 1148587, "episode/length": 194.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.06153846153846154}
{"step": 1148788, "episode/length": 200.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.06965174129353234}
{"step": 1148985, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4642225291630995, "train/action_min": 0.0, "train/action_std": 3.332132185975166, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.036328509424443114, "train/actor_opt_grad_steps": 573580.0, "train/actor_opt_loss": -11.794138278046699, "train/adv_mag": 0.39259879066519543, "train/adv_max": 0.3283890277555544, "train/adv_mean": 0.001759815857863717, "train/adv_min": -0.34733344185842224, "train/adv_std": 0.04139474121062723, "train/cont_avg": 0.9951706977739726, "train/cont_loss_mean": 0.00014152290291978128, "train/cont_loss_std": 0.004458753407810142, "train/cont_neg_acc": 0.9933463816773401, "train/cont_neg_loss": 0.020183101378499376, "train/cont_pos_acc": 0.9999999820369564, "train/cont_pos_loss": 8.887572719247257e-06, "train/cont_pred": 0.9951957994944429, "train/cont_rate": 0.9951706977739726, "train/dyn_loss_mean": 5.923229184869218, "train/dyn_loss_std": 8.85580078543049, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8742450712478325, "train/extr_critic_critic_opt_grad_steps": 573580.0, "train/extr_critic_critic_opt_loss": 15244.680102204624, "train/extr_critic_mag": 12.634198410870278, "train/extr_critic_max": 12.634198410870278, "train/extr_critic_mean": 3.8256347048772525, "train/extr_critic_min": -0.333798787365221, "train/extr_critic_std": 3.0616977574074107, "train/extr_return_normed_mag": 1.3788223184951365, "train/extr_return_normed_max": 1.3788223184951365, "train/extr_return_normed_mean": 0.39498226487473265, "train/extr_return_normed_min": -0.06994630281545527, "train/extr_return_normed_std": 0.31735691264884114, "train/extr_return_rate": 0.8572328449928597, "train/extr_return_raw_mag": 13.42455534739037, "train/extr_return_raw_max": 13.42455534739037, "train/extr_return_raw_mean": 3.8427667846418405, "train/extr_return_raw_min": -0.6858518801323356, "train/extr_return_raw_std": 3.0912932337146914, "train/extr_reward_mag": 1.0835943875247485, "train/extr_reward_max": 1.0835943875247485, "train/extr_reward_mean": 0.0652125962588885, "train/extr_reward_min": -0.5984818445493097, "train/extr_reward_std": 0.24544124835974548, "train/image_loss_mean": 3.4218569193800836, "train/image_loss_std": 8.558758219627485, "train/model_loss_mean": 7.038285908633715, "train/model_loss_std": 12.66898372075329, "train/model_opt_grad_norm": 21.841242019444294, "train/model_opt_grad_steps": 573107.0, "train/model_opt_loss": 14151.893956014555, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2037.6712328767123, "train/policy_entropy_mag": 2.7048141433768076, "train/policy_entropy_max": 2.7048141433768076, "train/policy_entropy_mean": 0.44641730250561074, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.667869991635623, "train/policy_logprob_mag": 7.438384258583801, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.44798898145760574, "train/policy_logprob_min": -7.438384258583801, "train/policy_logprob_std": 1.0712168086065006, "train/policy_randomness_mag": 0.9546806951091714, "train/policy_randomness_max": 0.9546806951091714, "train/policy_randomness_mean": 0.15756571803190936, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2357288029504149, "train/post_ent_mag": 56.03574554234335, "train/post_ent_max": 56.03574554234335, "train/post_ent_mean": 40.40094051622365, "train/post_ent_min": 19.63635728130602, "train/post_ent_std": 5.849418424580195, "train/prior_ent_mag": 76.71189430968403, "train/prior_ent_max": 76.71189430968403, "train/prior_ent_mean": 46.31362768721907, "train/prior_ent_min": 28.00042181145655, "train/prior_ent_std": 7.898618038386514, "train/rep_loss_mean": 5.923229184869218, "train/rep_loss_std": 8.85580078543049, "train/reward_avg": 0.04928296245634556, "train/reward_loss_mean": 0.062349937396914995, "train/reward_loss_std": 0.21788309984011192, "train/reward_max_data": 1.038356173528384, "train/reward_max_pred": 1.033754007457054, "train/reward_neg_acc": 0.9932422099048144, "train/reward_neg_loss": 0.025380290674734605, "train/reward_pos_acc": 0.9935908464536275, "train/reward_pos_loss": 0.7140258534313881, "train/reward_pred": 0.04893577055469768, "train/reward_rate": 0.0537376926369863, "stats/sum_log_reward": 11.850000202655792, "stats/max_log_achievement_collect_coal": 0.875, "stats/max_log_achievement_collect_drink": 2.875, "stats/max_log_achievement_collect_iron": 0.125, "stats/max_log_achievement_collect_sapling": 0.875, "stats/max_log_achievement_collect_stone": 13.75, "stats/max_log_achievement_collect_wood": 14.0, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 1.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.125, "stats/max_log_achievement_make_stone_sword": 1.125, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 1.625, "stats/max_log_achievement_place_plant": 0.75, "stats/max_log_achievement_place_stone": 2.375, "stats/max_log_achievement_place_table": 4.125, "stats/max_log_achievement_wake_up": 1.375, "stats/mean_log_entropy": 0.41713292337954044, "replay/size": 1000000.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.4269793280239765e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3650491319853683e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2336995601654, "timer/env.step_count": 1450.0, "timer/env.step_total": 19.91443133354187, "timer/env.step_frac": 0.06632976698723693, "timer/env.step_avg": 0.013734090574856462, "timer/env.step_min": 0.0026693344116210938, "timer/env.step_max": 1.59452486038208, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.30955934524536133, "timer/replay.add_frac": 0.0010310612889187915, "timer/replay.add_avg": 0.00021348920361749057, "timer/replay.add_min": 7.367134094238281e-05, "timer/replay.add_max": 0.0018384456634521484, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026350021362304688, "timer/logger.write_frac": 8.776503570687364e-05, "timer/logger.write_avg": 0.026350021362304688, "timer/logger.write_min": 0.026350021362304688, "timer/logger.write_max": 0.026350021362304688, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 11.107890367507935, "timer/agent.policy_frac": 0.03699748024216038, "timer/agent.policy_avg": 0.007660614046557196, "timer/agent.policy_min": 0.00585174560546875, "timer/agent.policy_max": 0.017054080963134766, "timer/dataset_count": 725.0, "timer/dataset_total": 0.06938362121582031, "timer/dataset_frac": 0.00023109871182837077, "timer/dataset_avg": 9.570154650457975e-05, "timer/dataset_min": 7.176399230957031e-05, "timer/dataset_max": 0.0001556873321533203, "timer/agent.train_count": 725.0, "timer/agent.train_total": 268.1073474884033, "timer/agent.train_frac": 0.8929955160968727, "timer/agent.train_avg": 0.36980323791503905, "timer/agent.train_min": 0.36269211769104004, "timer/agent.train_max": 0.3891110420227051, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21831440925598145, "timer/agent.report_frac": 0.000727148250099194, "timer/agent.report_avg": 0.21831440925598145, "timer/agent.report_min": 0.21831440925598145, "timer/agent.report_max": 0.21831440925598145, "fps": 4.829454252317814}
{"step": 1149033, "episode/length": 244.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.05714285714285714}
{"step": 1149216, "episode/length": 182.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.07650273224043716}
{"step": 1149280, "episode/length": 63.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 8.100000016391277, "episode/reward_rate": 0.109375}
{"step": 1149531, "episode/length": 250.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.055776892430278883}
{"step": 1149763, "episode/length": 231.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.06465517241379311}
{"step": 1149962, "episode/length": 198.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.299999997019768, "episode/reward_rate": 0.07537688442211055}
{"step": 1150148, "episode/length": 185.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.06989247311827956}
{"step": 1150308, "episode/length": 159.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.06875}
{"step": 1150435, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.507428487141927, "train/action_min": 0.0, "train/action_std": 3.3937436044216156, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03595972718257043, "train/actor_opt_grad_steps": 574305.0, "train/actor_opt_loss": -11.028185407320658, "train/adv_mag": 0.3772493793318669, "train/adv_max": 0.3174240711248583, "train/adv_mean": 0.0018572555172290271, "train/adv_min": -0.34144856387542355, "train/adv_std": 0.04087375942617655, "train/cont_avg": 0.9950493706597222, "train/cont_loss_mean": 0.00013963122593373277, "train/cont_loss_std": 0.004308310217342953, "train/cont_neg_acc": 0.9949074081248708, "train/cont_neg_loss": 0.022941919301385068, "train/cont_pos_acc": 0.9999999751647314, "train/cont_pos_loss": 1.1084153741415372e-05, "train/cont_pred": 0.9950814288523462, "train/cont_rate": 0.9950493706597222, "train/dyn_loss_mean": 5.88036314646403, "train/dyn_loss_std": 8.94107919269138, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.889966199795405, "train/extr_critic_critic_opt_grad_steps": 574305.0, "train/extr_critic_critic_opt_loss": 15280.509847005209, "train/extr_critic_mag": 12.606178945965237, "train/extr_critic_max": 12.606178945965237, "train/extr_critic_mean": 3.7515259749359555, "train/extr_critic_min": -0.3580232544077767, "train/extr_critic_std": 3.0253298580646515, "train/extr_return_normed_mag": 1.3744475626283221, "train/extr_return_normed_max": 1.3744475626283221, "train/extr_return_normed_mean": 0.3901138955520259, "train/extr_return_normed_min": -0.07194899229539765, "train/extr_return_normed_std": 0.315704090313779, "train/extr_return_rate": 0.8553087487816811, "train/extr_return_raw_mag": 13.276825865109762, "train/extr_return_raw_max": 13.276825865109762, "train/extr_return_raw_mean": 3.7694782382912106, "train/extr_return_raw_min": -0.6937127829425864, "train/extr_return_raw_std": 3.049546461966303, "train/extr_reward_mag": 1.0783237549993727, "train/extr_reward_max": 1.0783237549993727, "train/extr_reward_mean": 0.06338042895206147, "train/extr_reward_min": -0.5946238421731525, "train/extr_reward_std": 0.24230053648352623, "train/image_loss_mean": 3.5247544662819967, "train/image_loss_std": 9.153806447982788, "train/model_loss_mean": 7.116240680217743, "train/model_loss_std": 13.259009891086155, "train/model_opt_grad_norm": 20.95586172739665, "train/model_opt_grad_steps": 573832.0, "train/model_opt_loss": 22120.97837999132, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3125.0, "train/policy_entropy_mag": 2.6847658124234943, "train/policy_entropy_max": 2.6847658124234943, "train/policy_entropy_mean": 0.4313761836124791, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6334256587757005, "train/policy_logprob_mag": 7.438384327623579, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.43091734105514157, "train/policy_logprob_min": -7.438384327623579, "train/policy_logprob_std": 1.0494611619247332, "train/policy_randomness_mag": 0.9476045130027665, "train/policy_randomness_max": 0.9476045130027665, "train/policy_randomness_mean": 0.15225686236388153, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22357146172887749, "train/post_ent_mag": 55.751218954722084, "train/post_ent_max": 55.751218954722084, "train/post_ent_mean": 40.283100605010986, "train/post_ent_min": 19.832019236352707, "train/post_ent_std": 5.8780160546302795, "train/prior_ent_mag": 76.80444675021701, "train/prior_ent_max": 76.80444675021701, "train/prior_ent_mean": 46.15522416432699, "train/prior_ent_min": 27.662134647369385, "train/prior_ent_std": 7.908397965961033, "train/rep_loss_mean": 5.88036314646403, "train/rep_loss_std": 8.94107919269138, "train/reward_avg": 0.04774305529685484, "train/reward_loss_mean": 0.06312876261977686, "train/reward_loss_std": 0.22887248049179712, "train/reward_max_data": 1.0250000059604645, "train/reward_max_pred": 1.0251363582081265, "train/reward_neg_acc": 0.9927567425701354, "train/reward_neg_loss": 0.026459683107936546, "train/reward_pos_acc": 0.9890280581182904, "train/reward_pos_loss": 0.7284667467077574, "train/reward_pred": 0.04717219918448892, "train/reward_rate": 0.05227322048611111, "stats/sum_log_reward": 11.850000381469727, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 2.25, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.75, "stats/max_log_achievement_collect_stone": 12.875, "stats/max_log_achievement_collect_wood": 12.875, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.625, "stats/max_log_achievement_eat_cow": 0.375, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.75, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.75, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 1.625, "stats/max_log_achievement_place_stone": 1.875, "stats/max_log_achievement_place_table": 3.5, "stats/max_log_achievement_wake_up": 0.875, "stats/mean_log_entropy": 0.32520863972604275, "replay/size": 1000000.0, "replay/inserts": 1450.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 3.3955738462250807e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3614317466472756e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0021080970764, "timer/env.step_count": 1450.0, "timer/env.step_total": 20.101886749267578, "timer/env.step_frac": 0.06700581831499296, "timer/env.step_avg": 0.013863370171908675, "timer/env.step_min": 0.0025391578674316406, "timer/env.step_max": 1.6087827682495117, "timer/replay.add_count": 1450.0, "timer/replay.add_total": 0.31301283836364746, "timer/replay.add_frac": 0.0010433687961364623, "timer/replay.add_avg": 0.00021587092300941204, "timer/replay.add_min": 7.748603820800781e-05, "timer/replay.add_max": 0.0010318756103515625, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03363513946533203, "timer/logger.write_frac": 0.00011211634371065213, "timer/logger.write_avg": 0.03363513946533203, "timer/logger.write_min": 0.03363513946533203, "timer/logger.write_max": 0.03363513946533203, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1450.0, "timer/agent.policy_total": 11.055127382278442, "timer/agent.policy_frac": 0.036850165661839816, "timer/agent.policy_avg": 0.007624225780881684, "timer/agent.policy_min": 0.005639791488647461, "timer/agent.policy_max": 0.044776201248168945, "timer/dataset_count": 725.0, "timer/dataset_total": 0.0714421272277832, "timer/dataset_frac": 0.0002381387506939303, "timer/dataset_avg": 9.854086514176994e-05, "timer/dataset_min": 7.748603820800781e-05, "timer/dataset_max": 0.0011208057403564453, "timer/agent.train_count": 725.0, "timer/agent.train_total": 267.7363772392273, "timer/agent.train_frac": 0.8924483195717798, "timer/agent.train_avg": 0.3692915548127273, "timer/agent.train_min": 0.36223411560058594, "timer/agent.train_max": 0.3847167491912842, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22137069702148438, "timer/agent.report_frac": 0.0007378971382089488, "timer/agent.report_avg": 0.22137069702148438, "timer/agent.report_min": 0.22137069702148438, "timer/agent.report_max": 0.22137069702148438, "fps": 4.833172373701477}
{"step": 1150484, "episode/length": 175.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.07386363636363637}
{"step": 1150632, "episode/length": 147.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.08783783783783784}
{"step": 1150929, "episode/length": 296.0, "episode/score": 15.100000008940697, "episode/sum_abs_reward": 17.299999997019768, "episode/reward_rate": 0.05723905723905724}
{"step": 1151081, "episode/length": 151.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.500000037252903, "episode/reward_rate": 0.07236842105263158}
{"step": 1151274, "episode/length": 192.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.07772020725388601}
{"step": 1151516, "episode/length": 241.0, "episode/score": 15.100000008940697, "episode/sum_abs_reward": 17.500000044703484, "episode/reward_rate": 0.06611570247933884}
{"step": 1151798, "episode/length": 281.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.03900709219858156}
{"step": 1151799, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.3915210668591484, "train/action_min": 0.0, "train/action_std": 3.269069046214007, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03649698227535987, "train/actor_opt_grad_steps": 575010.0, "train/actor_opt_loss": -10.02722470311151, "train/adv_mag": 0.3473956565494123, "train/adv_max": 0.31306880669317383, "train/adv_mean": 0.0018799179460325252, "train/adv_min": -0.3125345143287078, "train/adv_std": 0.04092906364172265, "train/cont_avg": 0.9954285552536232, "train/cont_loss_mean": 1.7565053131983095e-05, "train/cont_loss_std": 0.0005243405750053645, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0018230134589045396, "train/cont_pos_acc": 0.999999980131785, "train/cont_pos_loss": 8.375336907613804e-06, "train/cont_pred": 0.9954287919445314, "train/cont_rate": 0.9954285552536232, "train/dyn_loss_mean": 5.59617392913155, "train/dyn_loss_std": 8.869354303332342, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8703232960424562, "train/extr_critic_critic_opt_grad_steps": 575010.0, "train/extr_critic_critic_opt_loss": 15042.581153759058, "train/extr_critic_mag": 12.435523682746334, "train/extr_critic_max": 12.435523682746334, "train/extr_critic_mean": 3.8908170444377954, "train/extr_critic_min": -0.35957952340443927, "train/extr_critic_std": 2.972167453904083, "train/extr_return_normed_mag": 1.3703462697457576, "train/extr_return_normed_max": 1.3703462697457576, "train/extr_return_normed_mean": 0.40525474669276806, "train/extr_return_normed_min": -0.06508294752110606, "train/extr_return_normed_std": 0.31174636319063714, "train/extr_return_rate": 0.8654335072075111, "train/extr_return_raw_mag": 13.192505795022715, "train/extr_return_raw_max": 13.192505795022715, "train/extr_return_raw_mean": 3.908933757007986, "train/extr_return_raw_min": -0.6156052553999252, "train/extr_return_raw_std": 2.9989014259283095, "train/extr_reward_mag": 1.080836458482604, "train/extr_reward_max": 1.080836458482604, "train/extr_reward_mean": 0.0649196685332319, "train/extr_reward_min": -0.5303468013155288, "train/extr_reward_std": 0.24417650548444278, "train/image_loss_mean": 3.270383834838867, "train/image_loss_std": 8.592998290407484, "train/model_loss_mean": 6.689558830814085, "train/model_loss_std": 12.679998591326285, "train/model_opt_grad_norm": 20.971066378164984, "train/model_opt_grad_steps": 574536.231884058, "train/model_opt_loss": 20638.50785495924, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3079.710144927536, "train/policy_entropy_mag": 2.7025211928547295, "train/policy_entropy_max": 2.7025211928547295, "train/policy_entropy_mean": 0.4134371598129687, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6245494139367256, "train/policy_logprob_mag": 7.438384284143862, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4138263327919919, "train/policy_logprob_min": -7.438384284143862, "train/policy_logprob_std": 1.0412289171979048, "train/policy_randomness_mag": 0.9538713831832444, "train/policy_randomness_max": 0.9538713831832444, "train/policy_randomness_mean": 0.1459251755605573, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22043853544670602, "train/post_ent_mag": 55.53351360818614, "train/post_ent_max": 55.53351360818614, "train/post_ent_mean": 40.13150400355242, "train/post_ent_min": 20.091432377911996, "train/post_ent_std": 5.770370276077934, "train/prior_ent_mag": 76.7576806994452, "train/prior_ent_max": 76.7576806994452, "train/prior_ent_mean": 45.71127706334211, "train/prior_ent_min": 27.665826438129812, "train/prior_ent_std": 7.8301689659339795, "train/rep_loss_mean": 5.59617392913155, "train/rep_loss_std": 8.869354303332342, "train/reward_avg": 0.049777796303016555, "train/reward_loss_mean": 0.06145314623912176, "train/reward_loss_std": 0.2193835045116535, "train/reward_max_data": 1.0275362384492073, "train/reward_max_pred": 1.0248643246249876, "train/reward_neg_acc": 0.9933287846869316, "train/reward_neg_loss": 0.023834457013594067, "train/reward_pos_acc": 0.9905597412067911, "train/reward_pos_loss": 0.7214367692021356, "train/reward_pred": 0.04924559325951597, "train/reward_rate": 0.05393738677536232, "stats/sum_log_reward": 12.67142881665911, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 2.5714285714285716, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 14.857142857142858, "stats/max_log_achievement_collect_wood": 14.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.8571428571428572, "stats/max_log_achievement_eat_cow": 0.42857142857142855, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.8571428571428571, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.142857142857143, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 2.7142857142857144, "stats/max_log_achievement_place_table": 3.5714285714285716, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.45114236218588694, "replay/size": 1000000.0, "replay/inserts": 1364.0, "replay/samples": 10912.0, "replay/insert_wait_avg": 3.3560386501099707e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.479628498603172e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 301.0387454032898, "timer/env.step_count": 1364.0, "timer/env.step_total": 20.355160236358643, "timer/env.step_frac": 0.06761641332609739, "timer/env.step_avg": 0.014923138003195486, "timer/env.step_min": 0.0026102066040039062, "timer/env.step_max": 1.8683960437774658, "timer/replay.add_count": 1364.0, "timer/replay.add_total": 0.29913830757141113, "timer/replay.add_frac": 0.0009936870656654753, "timer/replay.add_avg": 0.00021930960965645978, "timer/replay.add_min": 7.796287536621094e-05, "timer/replay.add_max": 0.002842426300048828, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025743961334228516, "timer/logger.write_frac": 8.551710278934475e-05, "timer/logger.write_avg": 0.025743961334228516, "timer/logger.write_min": 0.025743961334228516, "timer/logger.write_max": 0.025743961334228516, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002613067626953125, "timer/checkpoint.save_frac": 8.680170465939528e-07, "timer/checkpoint.save_avg": 0.0002613067626953125, "timer/checkpoint.save_min": 0.0002613067626953125, "timer/checkpoint.save_max": 0.0002613067626953125, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4349017143249512, "timer/agent.save_frac": 0.004766501775054469, "timer/agent.save_avg": 1.4349017143249512, "timer/agent.save_min": 1.4349017143249512, "timer/agent.save_max": 1.4349017143249512, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.869171142578125e-05, "timer/replay.save_frac": 2.946189245738599e-07, "timer/replay.save_avg": 8.869171142578125e-05, "timer/replay.save_min": 8.869171142578125e-05, "timer/replay.save_max": 8.869171142578125e-05, "timer/agent.policy_count": 1364.0, "timer/agent.policy_total": 12.714341878890991, "timer/agent.policy_frac": 0.042234901895628375, "timer/agent.policy_avg": 0.0093213650138497, "timer/agent.policy_min": 0.005630970001220703, "timer/agent.policy_max": 1.4396376609802246, "timer/dataset_count": 682.0, "timer/dataset_total": 0.0636446475982666, "timer/dataset_frac": 0.00021141679790421782, "timer/dataset_avg": 9.332059765141731e-05, "timer/dataset_min": 6.246566772460938e-05, "timer/dataset_max": 0.00016570091247558594, "timer/agent.train_count": 682.0, "timer/agent.train_total": 266.89334058761597, "timer/agent.train_frac": 0.8865747172513273, "timer/agent.train_avg": 0.39133920907275066, "timer/agent.train_min": 0.35849952697753906, "timer/agent.train_max": 0.8805859088897705, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2598257064819336, "timer/agent.report_frac": 0.000863097227348112, "timer/agent.report_avg": 0.2598257064819336, "timer/agent.report_min": 0.2598257064819336, "timer/agent.report_max": 0.2598257064819336, "fps": 4.530873213353254}
{"step": 1151988, "episode/length": 189.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.06315789473684211}
{"step": 1152227, "episode/length": 238.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.5, "episode/reward_rate": 0.058577405857740586}
{"step": 1152407, "episode/length": 179.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.500000044703484, "episode/reward_rate": 0.06111111111111111}
{"step": 1152711, "episode/length": 303.0, "episode/score": 12.100000023841858, "episode/sum_abs_reward": 15.300000071525574, "episode/reward_rate": 0.04276315789473684}
{"step": 1152880, "episode/length": 168.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.07100591715976332}
{"step": 1153062, "episode/length": 181.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.500000022351742, "episode/reward_rate": 0.08791208791208792}
{"step": 1153079, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.477822303771973, "train/action_min": 0.0, "train/action_std": 3.370656281709671, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0376924509764649, "train/actor_opt_grad_steps": 575675.0, "train/actor_opt_loss": -11.945545677095652, "train/adv_mag": 0.41459150752052665, "train/adv_max": 0.3594072498381138, "train/adv_mean": 0.0017015555775969915, "train/adv_min": -0.3627492324449122, "train/adv_std": 0.042615102778654546, "train/cont_avg": 0.995208740234375, "train/cont_loss_mean": 3.131919251808668e-05, "train/cont_loss_std": 0.0009939189914369706, "train/cont_neg_acc": 0.9977678582072258, "train/cont_neg_loss": 0.004108261674846042, "train/cont_pos_acc": 0.9999999785795808, "train/cont_pos_loss": 3.2708452932794785e-06, "train/cont_pred": 0.9952185694128275, "train/cont_rate": 0.995208740234375, "train/dyn_loss_mean": 5.664477609097958, "train/dyn_loss_std": 8.96038007736206, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9208743292838335, "train/extr_critic_critic_opt_grad_steps": 575675.0, "train/extr_critic_critic_opt_loss": 15244.872375488281, "train/extr_critic_mag": 12.4282888174057, "train/extr_critic_max": 12.4282888174057, "train/extr_critic_mean": 3.8712416104972363, "train/extr_critic_min": -0.3419375605881214, "train/extr_critic_std": 2.9739281311631203, "train/extr_return_normed_mag": 1.378239344805479, "train/extr_return_normed_max": 1.378239344805479, "train/extr_return_normed_mean": 0.40569040458649397, "train/extr_return_normed_min": -0.07296996749937534, "train/extr_return_normed_std": 0.3140235615428537, "train/extr_return_rate": 0.8638316281139851, "train/extr_return_raw_mag": 13.18241885304451, "train/extr_return_raw_max": 13.18241885304451, "train/extr_return_raw_mean": 3.8874977119266987, "train/extr_return_raw_min": -0.6873561814427376, "train/extr_return_raw_std": 3.001341547816992, "train/extr_reward_mag": 1.081903450191021, "train/extr_reward_max": 1.081903450191021, "train/extr_reward_mean": 0.06302667944692075, "train/extr_reward_min": -0.6107571870088577, "train/extr_reward_std": 0.241449105553329, "train/image_loss_mean": 3.582351218909025, "train/image_loss_std": 8.843196451663971, "train/model_loss_mean": 7.044423542916775, "train/model_loss_std": 12.965452462434769, "train/model_opt_grad_norm": 20.348399952054024, "train/model_opt_grad_steps": 575200.875, "train/model_opt_loss": 20103.07926940918, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2851.5625, "train/policy_entropy_mag": 2.6925421692430973, "train/policy_entropy_max": 2.6925421692430973, "train/policy_entropy_mean": 0.433028481900692, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6442748601548374, "train/policy_logprob_mag": 7.43838432431221, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.432765640784055, "train/policy_logprob_min": -7.43838432431221, "train/policy_logprob_std": 1.055092285387218, "train/policy_randomness_mag": 0.9503492284566164, "train/policy_randomness_max": 0.9503492284566164, "train/policy_randomness_mean": 0.15284005214925855, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22740075387991965, "train/post_ent_mag": 55.833306074142456, "train/post_ent_max": 55.833306074142456, "train/post_ent_mean": 40.23457223176956, "train/post_ent_min": 19.768908500671387, "train/post_ent_std": 5.884037844836712, "train/prior_ent_mag": 76.82507336139679, "train/prior_ent_max": 76.82507336139679, "train/prior_ent_mean": 45.88324958086014, "train/prior_ent_min": 27.852575063705444, "train/prior_ent_std": 7.893234767019749, "train/rep_loss_mean": 5.664477609097958, "train/rep_loss_std": 8.96038007736206, "train/reward_avg": 0.0490585322258994, "train/reward_loss_mean": 0.0633544372394681, "train/reward_loss_std": 0.2273718046490103, "train/reward_max_data": 1.0234375055879354, "train/reward_max_pred": 1.0227677151560783, "train/reward_neg_acc": 0.9929656386375427, "train/reward_neg_loss": 0.026166761585045606, "train/reward_pos_acc": 0.9909730805084109, "train/reward_pos_loss": 0.721977211534977, "train/reward_pred": 0.0486901372205466, "train/reward_rate": 0.05340576171875, "stats/sum_log_reward": 11.93333371480306, "stats/max_log_achievement_collect_coal": 0.0, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 1.1666666666666667, "stats/max_log_achievement_collect_stone": 13.833333333333334, "stats/max_log_achievement_collect_wood": 13.5, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.1666666666666667, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 0.5, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 0.8333333333333334, "stats/max_log_achievement_place_stone": 2.3333333333333335, "stats/max_log_achievement_place_table": 3.3333333333333335, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.4039576177795728, "replay/size": 1000000.0, "replay/inserts": 1280.0, "replay/samples": 10240.0, "replay/insert_wait_avg": 3.2598152756690977e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4987075701355933e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.294527053833, "timer/env.step_count": 1280.0, "timer/env.step_total": 16.6192045211792, "timer/env.step_frac": 0.05534301502005036, "timer/env.step_avg": 0.012983753532171249, "timer/env.step_min": 0.0029990673065185547, "timer/env.step_max": 1.6381008625030518, "timer/replay.add_count": 1280.0, "timer/replay.add_total": 0.2755773067474365, "timer/replay.add_frac": 0.0009176900739787193, "timer/replay.add_avg": 0.00021529477089643478, "timer/replay.add_min": 7.557868957519531e-05, "timer/replay.add_max": 0.0007104873657226562, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030144214630126953, "timer/logger.write_frac": 0.00010038216455647584, "timer/logger.write_avg": 0.030144214630126953, "timer/logger.write_min": 0.030144214630126953, "timer/logger.write_max": 0.030144214630126953, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1280.0, "timer/agent.policy_total": 10.287777185440063, "timer/agent.policy_frac": 0.03425895665289898, "timer/agent.policy_avg": 0.00803732592612505, "timer/agent.policy_min": 0.005896091461181641, "timer/agent.policy_max": 0.019412517547607422, "timer/dataset_count": 640.0, "timer/dataset_total": 0.060257911682128906, "timer/dataset_frac": 0.0002006627036240545, "timer/dataset_avg": 9.415298700332642e-05, "timer/dataset_min": 6.556510925292969e-05, "timer/dataset_max": 0.00034165382385253906, "timer/agent.train_count": 640.0, "timer/agent.train_total": 272.3745422363281, "timer/agent.train_frac": 0.9070246631151565, "timer/agent.train_avg": 0.4255852222442627, "timer/agent.train_min": 0.3758230209350586, "timer/agent.train_max": 0.4579653739929199, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2606837749481201, "timer/agent.report_frac": 0.0008680936596003563, "timer/agent.report_avg": 0.2606837749481201, "timer/agent.report_min": 0.2606837749481201, "timer/agent.report_max": 0.2606837749481201, "fps": 4.262410838340181}
{"step": 1153353, "episode/length": 290.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.05154639175257732}
{"step": 1153657, "episode/length": 303.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.049342105263157895}
{"step": 1153890, "episode/length": 232.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.30000001937151, "episode/reward_rate": 0.06866952789699571}
{"step": 1154085, "episode/length": 194.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.07179487179487179}
{"step": 1154269, "episode/length": 183.0, "episode/score": 14.100000016391277, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.08152173913043478}
{"step": 1154345, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.466159396701389, "train/action_min": 0.0, "train/action_std": 3.325609816445245, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03699884034456715, "train/actor_opt_grad_steps": 576310.0, "train/actor_opt_loss": -10.690893343516759, "train/adv_mag": 0.3637445256823585, "train/adv_max": 0.3106686647922274, "train/adv_mean": 0.0021401293633971363, "train/adv_min": -0.3293297711818937, "train/adv_std": 0.04125897243382439, "train/cont_avg": 0.9953807043650794, "train/cont_loss_mean": 2.242264836580274e-05, "train/cont_loss_std": 0.0006886881903042537, "train/cont_neg_acc": 0.9968253970146179, "train/cont_neg_loss": 0.003431278654846066, "train/cont_pos_acc": 0.9999999791856796, "train/cont_pos_loss": 5.5724362782247304e-06, "train/cont_pred": 0.9953858473944286, "train/cont_rate": 0.9953807043650794, "train/dyn_loss_mean": 5.65149450302124, "train/dyn_loss_std": 8.844962331983778, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8976600983786205, "train/extr_critic_critic_opt_grad_steps": 576310.0, "train/extr_critic_critic_opt_loss": 15327.103205605159, "train/extr_critic_mag": 12.500981482248458, "train/extr_critic_max": 12.500981482248458, "train/extr_critic_mean": 3.7387151491074335, "train/extr_critic_min": -0.3906220008456518, "train/extr_critic_std": 2.972976571037656, "train/extr_return_normed_mag": 1.371561606725057, "train/extr_return_normed_max": 1.371561606725057, "train/extr_return_normed_mean": 0.38954776005139424, "train/extr_return_normed_min": -0.07186669081686035, "train/extr_return_normed_std": 0.30935845370330506, "train/extr_return_rate": 0.862338832446507, "train/extr_return_raw_mag": 13.286125273931594, "train/extr_return_raw_max": 13.286125273931594, "train/extr_return_raw_mean": 3.7594640633416554, "train/extr_return_raw_min": -0.7158999793113224, "train/extr_return_raw_std": 3.0008785346197704, "train/extr_reward_mag": 1.0847376074109758, "train/extr_reward_max": 1.0847376074109758, "train/extr_reward_mean": 0.06402656944498183, "train/extr_reward_min": -0.6014044587574308, "train/extr_reward_std": 0.24285989668634203, "train/image_loss_mean": 3.537543773651123, "train/image_loss_std": 8.808326335180373, "train/model_loss_mean": 6.990240218147399, "train/model_loss_std": 12.85500817071824, "train/model_opt_grad_norm": 21.744887124924432, "train/model_opt_grad_steps": 575835.0, "train/model_opt_loss": 17475.60060143849, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7020832659706238, "train/policy_entropy_max": 2.7020832659706238, "train/policy_entropy_mean": 0.42408816634662566, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6313691432513888, "train/policy_logprob_mag": 7.438384305863154, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4242373123055413, "train/policy_logprob_min": -7.438384305863154, "train/policy_logprob_std": 1.04825739917301, "train/policy_randomness_mag": 0.9537168154640804, "train/policy_randomness_max": 0.9537168154640804, "train/policy_randomness_mean": 0.14968451266250912, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2228455992918166, "train/post_ent_mag": 55.7921019660102, "train/post_ent_max": 55.7921019660102, "train/post_ent_mean": 40.28724131508479, "train/post_ent_min": 19.75717308407738, "train/post_ent_std": 5.853872639792306, "train/prior_ent_mag": 76.77102842785064, "train/prior_ent_max": 76.77102842785064, "train/prior_ent_mean": 45.98041613139804, "train/prior_ent_min": 28.382337721567307, "train/prior_ent_std": 7.899947507040841, "train/rep_loss_mean": 5.65149450302124, "train/rep_loss_std": 8.844962331983778, "train/reward_avg": 0.047719803357881216, "train/reward_loss_mean": 0.06177730799194366, "train/reward_loss_std": 0.2197169294906041, "train/reward_max_data": 1.0365079452121069, "train/reward_max_pred": 1.0358768644787015, "train/reward_neg_acc": 0.9930145428294227, "train/reward_neg_loss": 0.025582817752682972, "train/reward_pos_acc": 0.9910331869882251, "train/reward_pos_loss": 0.7201570783342633, "train/reward_pred": 0.04726673160043974, "train/reward_rate": 0.052036830357142856, "stats/sum_log_reward": 14.100000381469727, "stats/max_log_achievement_collect_coal": 1.4, "stats/max_log_achievement_collect_drink": 3.4, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.6, "stats/max_log_achievement_collect_stone": 19.4, "stats/max_log_achievement_collect_wood": 13.2, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.6, "stats/max_log_achievement_eat_cow": 0.4, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.2, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.6, "stats/max_log_achievement_place_plant": 1.6, "stats/max_log_achievement_place_stone": 4.6, "stats/max_log_achievement_place_table": 2.4, "stats/max_log_achievement_wake_up": 1.4, "stats/mean_log_entropy": 0.5513144731521606, "replay/size": 1000000.0, "replay/inserts": 1266.0, "replay/samples": 10128.0, "replay/insert_wait_avg": 3.3563158900063563e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3902806934398875e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1801197528839, "timer/env.step_count": 1266.0, "timer/env.step_total": 16.014395236968994, "timer/env.step_frac": 0.053349286588840264, "timer/env.step_avg": 0.012649601293024481, "timer/env.step_min": 0.003345489501953125, "timer/env.step_max": 1.6758460998535156, "timer/replay.add_count": 1266.0, "timer/replay.add_total": 0.2784276008605957, "timer/replay.add_frac": 0.0009275351115517062, "timer/replay.add_avg": 0.0002199270148977849, "timer/replay.add_min": 7.295608520507812e-05, "timer/replay.add_max": 0.001180410385131836, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022791624069213867, "timer/logger.write_frac": 7.592649402624173e-05, "timer/logger.write_avg": 0.022791624069213867, "timer/logger.write_min": 0.022791624069213867, "timer/logger.write_max": 0.022791624069213867, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1266.0, "timer/agent.policy_total": 10.191496133804321, "timer/agent.policy_frac": 0.03395126946512723, "timer/agent.policy_avg": 0.008050154924016052, "timer/agent.policy_min": 0.006083011627197266, "timer/agent.policy_max": 0.01706075668334961, "timer/dataset_count": 633.0, "timer/dataset_total": 0.06053566932678223, "timer/dataset_frac": 0.00020166448523178937, "timer/dataset_avg": 9.563296892066703e-05, "timer/dataset_min": 6.747245788574219e-05, "timer/dataset_max": 0.00019550323486328125, "timer/agent.train_count": 633.0, "timer/agent.train_total": 272.97614216804504, "timer/agent.train_frac": 0.9093744862010386, "timer/agent.train_avg": 0.43124193075520545, "timer/agent.train_min": 0.3679921627044678, "timer/agent.train_max": 0.4574100971221924, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22986626625061035, "timer/agent.report_frac": 0.0007657611251532655, "timer/agent.report_avg": 0.22986626625061035, "timer/agent.report_min": 0.22986626625061035, "timer/agent.report_max": 0.22986626625061035, "fps": 4.217381592021906}
{"step": 1154482, "episode/length": 212.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.06572769953051644}
{"step": 1154680, "episode/length": 197.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.900000050663948, "episode/reward_rate": 0.0707070707070707}
{"step": 1154845, "episode/length": 164.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.06666666666666667}
{"step": 1155033, "episode/length": 187.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.05851063829787234}
{"step": 1155250, "episode/length": 216.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.06451612903225806}
{"step": 1155457, "episode/length": 206.0, "episode/score": 13.100000016391277, "episode/sum_abs_reward": 14.700000040233135, "episode/reward_rate": 0.06763285024154589}
{"step": 1155593, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.465798654863911, "train/action_min": 0.0, "train/action_std": 3.286674168802077, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03758706035272729, "train/actor_opt_grad_steps": 576935.0, "train/actor_opt_loss": -11.7525686371711, "train/adv_mag": 0.4099607844987223, "train/adv_max": 0.3578049836139525, "train/adv_mean": 0.0018546765751389397, "train/adv_min": -0.3604545590858306, "train/adv_std": 0.04150521082262839, "train/cont_avg": 0.9954794606854839, "train/cont_loss_mean": 1.1433918352107383e-05, "train/cont_loss_std": 0.0003178317724956835, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 8.712753924057202e-05, "train/cont_pos_acc": 0.9999999865408866, "train/cont_pos_loss": 1.1214408969336425e-05, "train/cont_pred": 0.9954692058024868, "train/cont_rate": 0.9954794606854839, "train/dyn_loss_mean": 5.864374691440213, "train/dyn_loss_std": 9.035746682074763, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8656768000894978, "train/extr_critic_critic_opt_grad_steps": 576935.0, "train/extr_critic_critic_opt_loss": 15091.063665574597, "train/extr_critic_mag": 12.476862630536479, "train/extr_critic_max": 12.476862630536479, "train/extr_critic_mean": 3.805213466767342, "train/extr_critic_min": -0.3828745830443598, "train/extr_critic_std": 2.9326515428481565, "train/extr_return_normed_mag": 1.366725831262527, "train/extr_return_normed_max": 1.366725831262527, "train/extr_return_normed_mean": 0.3982596928554197, "train/extr_return_normed_min": -0.07442407580392976, "train/extr_return_normed_std": 0.3073143728317753, "train/extr_return_rate": 0.854867103599733, "train/extr_return_raw_mag": 13.146217653828282, "train/extr_return_raw_max": 13.146217653828282, "train/extr_return_raw_mean": 3.823070814532618, "train/extr_return_raw_min": -0.7275454166435427, "train/extr_return_raw_std": 2.9586043050212245, "train/extr_reward_mag": 1.0899910080817439, "train/extr_reward_max": 1.0899910080817439, "train/extr_reward_mean": 0.06474927920968301, "train/extr_reward_min": -0.5925633830408896, "train/extr_reward_std": 0.24362547479329572, "train/image_loss_mean": 3.5431927211823, "train/image_loss_std": 8.96169783992152, "train/model_loss_mean": 7.124209180954964, "train/model_loss_std": 13.165601053545553, "train/model_opt_grad_norm": 20.188906810322745, "train/model_opt_grad_steps": 576459.6290322581, "train/model_opt_loss": 20876.425009450606, "train/model_opt_model_opt_grad_overflow": 0.016129032258064516, "train/model_opt_model_opt_grad_scale": 2903.2258064516127, "train/policy_entropy_mag": 2.6979840109425206, "train/policy_entropy_max": 2.6979840109425206, "train/policy_entropy_mean": 0.4145572123027617, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6149075262008175, "train/policy_logprob_mag": 7.438384302200809, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4147018434539918, "train/policy_logprob_min": -7.438384302200809, "train/policy_logprob_std": 1.040230231900369, "train/policy_randomness_mag": 0.9522699569502184, "train/policy_randomness_max": 0.9522699569502184, "train/policy_randomness_mean": 0.14632050344540226, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21703537193036848, "train/post_ent_mag": 55.28357973406392, "train/post_ent_max": 55.28357973406392, "train/post_ent_mean": 40.087076986989665, "train/post_ent_min": 19.55335029478996, "train/post_ent_std": 5.807376869263187, "train/prior_ent_mag": 76.7729962256647, "train/prior_ent_max": 76.7729962256647, "train/prior_ent_mean": 45.969048592352095, "train/prior_ent_min": 27.535523445375503, "train/prior_ent_std": 7.861613027511105, "train/rep_loss_mean": 5.864374691440213, "train/rep_loss_std": 9.035746682074763, "train/reward_avg": 0.04895413264391884, "train/reward_loss_mean": 0.06238013295637023, "train/reward_loss_std": 0.22013471203465615, "train/reward_max_data": 1.038709686648461, "train/reward_max_pred": 1.0415543163976362, "train/reward_neg_acc": 0.9927387304844395, "train/reward_neg_loss": 0.025213606790789673, "train/reward_pos_acc": 0.9898056368674001, "train/reward_pos_loss": 0.7238118014027995, "train/reward_pred": 0.048602060444893375, "train/reward_rate": 0.053238407258064516, "stats/sum_log_reward": 12.100000222524008, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 3.6666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 16.666666666666668, "stats/max_log_achievement_collect_wood": 10.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.6666666666666667, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 2.3333333333333335, "stats/max_log_achievement_place_plant": 0.8333333333333334, "stats/max_log_achievement_place_stone": 3.3333333333333335, "stats/max_log_achievement_place_table": 2.8333333333333335, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3258015314737956, "replay/size": 1000000.0, "replay/inserts": 1248.0, "replay/samples": 9984.0, "replay/insert_wait_avg": 3.3416809179844e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3695456660710847e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0270574092865, "timer/env.step_count": 1248.0, "timer/env.step_total": 19.58302092552185, "timer/env.step_frac": 0.06527084955143686, "timer/env.step_avg": 0.01569152317750148, "timer/env.step_min": 0.0030286312103271484, "timer/env.step_max": 2.5175015926361084, "timer/replay.add_count": 1248.0, "timer/replay.add_total": 0.2637906074523926, "timer/replay.add_frac": 0.0008792227265440883, "timer/replay.add_avg": 0.0002113706790483915, "timer/replay.add_min": 7.939338684082031e-05, "timer/replay.add_max": 0.0010402202606201172, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03345847129821777, "timer/logger.write_frac": 0.00011151817968395726, "timer/logger.write_avg": 0.03345847129821777, "timer/logger.write_min": 0.03345847129821777, "timer/logger.write_max": 0.03345847129821777, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00018477439880371094, "timer/checkpoint.save_frac": 6.158591175050193e-07, "timer/checkpoint.save_avg": 0.00018477439880371094, "timer/checkpoint.save_min": 0.00018477439880371094, "timer/checkpoint.save_max": 0.00018477439880371094, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2333958148956299, "timer/agent.save_frac": 0.004110948610921695, "timer/agent.save_avg": 1.2333958148956299, "timer/agent.save_min": 1.2333958148956299, "timer/agent.save_max": 1.2333958148956299, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.200241088867188e-05, "timer/replay.save_frac": 2.399863915955043e-07, "timer/replay.save_avg": 7.200241088867188e-05, "timer/replay.save_min": 7.200241088867188e-05, "timer/replay.save_max": 7.200241088867188e-05, "timer/agent.policy_count": 1248.0, "timer/agent.policy_total": 11.113196849822998, "timer/agent.policy_frac": 0.03704064875276486, "timer/agent.policy_avg": 0.008904805168127403, "timer/agent.policy_min": 0.006233692169189453, "timer/agent.policy_max": 1.2313125133514404, "timer/dataset_count": 624.0, "timer/dataset_total": 0.05857539176940918, "timer/dataset_frac": 0.0001952336975044976, "timer/dataset_avg": 9.387082014328394e-05, "timer/dataset_min": 6.842613220214844e-05, "timer/dataset_max": 0.00018787384033203125, "timer/agent.train_count": 624.0, "timer/agent.train_total": 268.3421514034271, "timer/agent.train_frac": 0.8943931714710786, "timer/agent.train_avg": 0.4300354990439537, "timer/agent.train_min": 0.37766051292419434, "timer/agent.train_max": 0.9124898910522461, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22977495193481445, "timer/agent.report_frac": 0.0007658474336245061, "timer/agent.report_avg": 0.22977495193481445, "timer/agent.report_min": 0.22977495193481445, "timer/agent.report_max": 0.22977495193481445, "fps": 4.159541610879092}
{"step": 1155688, "episode/length": 230.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.06493506493506493}
{"step": 1155892, "episode/length": 203.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.07352941176470588}
{"step": 1156095, "episode/length": 202.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 17.700000040233135, "episode/reward_rate": 0.07881773399014778}
{"step": 1156283, "episode/length": 187.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06914893617021277}
{"step": 1156445, "episode/length": 161.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.100000031292439, "episode/reward_rate": 0.06790123456790123}
{"step": 1156581, "episode/length": 135.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 12.899999976158142, "episode/reward_rate": 0.09558823529411764}
{"step": 1156644, "episode/length": 62.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.12698412698412698}
{"step": 1156845, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.430168030753968, "train/action_min": 0.0, "train/action_std": 3.2867290141090515, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03699372729493512, "train/actor_opt_grad_steps": 577560.0, "train/actor_opt_loss": -11.22965301738845, "train/adv_mag": 0.3958520248295769, "train/adv_max": 0.32651597332386745, "train/adv_mean": 0.0021622706327535626, "train/adv_min": -0.3462213346409419, "train/adv_std": 0.04146680354125916, "train/cont_avg": 0.9955357142857143, "train/cont_loss_mean": 5.8618427377470856e-05, "train/cont_loss_std": 0.001769824405954072, "train/cont_neg_acc": 0.9968253970146179, "train/cont_neg_loss": 0.009857301568629004, "train/cont_pos_acc": 0.9999999791856796, "train/cont_pos_loss": 1.0913989670024465e-05, "train/cont_pred": 0.9955406236270118, "train/cont_rate": 0.9955357142857143, "train/dyn_loss_mean": 5.850520043146043, "train/dyn_loss_std": 8.982841824728345, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9002493875367301, "train/extr_critic_critic_opt_grad_steps": 577560.0, "train/extr_critic_critic_opt_loss": 15116.398484002977, "train/extr_critic_mag": 12.570849781944638, "train/extr_critic_max": 12.570849781944638, "train/extr_critic_mean": 3.9129035321492998, "train/extr_critic_min": -0.37069256721980987, "train/extr_critic_std": 2.977903343382336, "train/extr_return_normed_mag": 1.3741699230103266, "train/extr_return_normed_max": 1.3741699230103266, "train/extr_return_normed_mean": 0.4075142282342154, "train/extr_return_normed_min": -0.0725674753683427, "train/extr_return_normed_std": 0.31053689311421107, "train/extr_return_rate": 0.8654483291837904, "train/extr_return_raw_mag": 13.30788467043922, "train/extr_return_raw_max": 13.30788467043922, "train/extr_return_raw_mean": 3.933851919476948, "train/extr_return_raw_min": -0.7215947934559414, "train/extr_return_raw_std": 3.0115092936016263, "train/extr_reward_mag": 1.0893877914973669, "train/extr_reward_max": 1.0893877914973669, "train/extr_reward_mean": 0.0630583849454683, "train/extr_reward_min": -0.6175592248401944, "train/extr_reward_std": 0.24085039562649196, "train/image_loss_mean": 3.350520826521374, "train/image_loss_std": 8.743968713851203, "train/model_loss_mean": 6.923015427967859, "train/model_loss_std": 12.884519501337929, "train/model_opt_grad_norm": 20.13859462738037, "train/model_opt_grad_steps": 577084.0, "train/model_opt_loss": 17307.538597470237, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6843829722631547, "train/policy_entropy_max": 2.6843829722631547, "train/policy_entropy_mean": 0.40754083461231655, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6173373063405355, "train/policy_logprob_mag": 7.438384313431997, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40885160650525776, "train/policy_logprob_min": -7.438384313431997, "train/policy_logprob_std": 1.0391497801220606, "train/policy_randomness_mag": 0.9474693877356393, "train/policy_randomness_max": 0.9474693877356393, "train/policy_randomness_mean": 0.143844031743587, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21789297887257167, "train/post_ent_mag": 55.500590612017916, "train/post_ent_max": 55.500590612017916, "train/post_ent_mean": 39.887789650568884, "train/post_ent_min": 19.79427955264137, "train/post_ent_std": 5.81001829722571, "train/prior_ent_mag": 76.85890270414806, "train/prior_ent_max": 76.85890270414806, "train/prior_ent_mean": 45.712843940371556, "train/prior_ent_min": 27.505713659619527, "train/prior_ent_std": 7.92884732049609, "train/rep_loss_mean": 5.850520043146043, "train/rep_loss_std": 8.982841824728345, "train/reward_avg": 0.048896329270468816, "train/reward_loss_mean": 0.06212394986124266, "train/reward_loss_std": 0.22335130685851687, "train/reward_max_data": 1.0428571530750819, "train/reward_max_pred": 1.0402836761777363, "train/reward_neg_acc": 0.9926383097966512, "train/reward_neg_loss": 0.024710307651687236, "train/reward_pos_acc": 0.9881488198325747, "train/reward_pos_loss": 0.7324978529460846, "train/reward_pred": 0.048379938192074264, "train/reward_rate": 0.05315290178571429, "stats/sum_log_reward": 11.814285959516253, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 2.2857142857142856, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.2857142857142856, "stats/max_log_achievement_collect_stone": 6.857142857142857, "stats/max_log_achievement_collect_wood": 11.857142857142858, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.2857142857142858, "stats/max_log_achievement_eat_cow": 0.42857142857142855, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.42857142857142855, "stats/max_log_achievement_make_stone_sword": 0.8571428571428571, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.5714285714285714, "stats/max_log_achievement_place_plant": 2.142857142857143, "stats/max_log_achievement_place_stone": 2.0, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.341054584298815, "replay/size": 1000000.0, "replay/inserts": 1252.0, "replay/samples": 10016.0, "replay/insert_wait_avg": 3.5094376950979994e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.442865632212581e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.05877113342285, "timer/env.step_count": 1252.0, "timer/env.step_total": 18.742852210998535, "timer/env.step_frac": 0.06246393711538737, "timer/env.step_avg": 0.01497032924201161, "timer/env.step_min": 0.0031728744506835938, "timer/env.step_max": 1.6624646186828613, "timer/replay.add_count": 1252.0, "timer/replay.add_total": 0.2726175785064697, "timer/replay.add_frac": 0.0009085472738447254, "timer/replay.add_avg": 0.00021774566973360203, "timer/replay.add_min": 7.319450378417969e-05, "timer/replay.add_max": 0.0007274150848388672, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027214765548706055, "timer/logger.write_frac": 9.069811705855735e-05, "timer/logger.write_avg": 0.027214765548706055, "timer/logger.write_min": 0.027214765548706055, "timer/logger.write_max": 0.027214765548706055, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1252.0, "timer/agent.policy_total": 9.929970026016235, "timer/agent.policy_frac": 0.03309341696130862, "timer/agent.policy_avg": 0.007931285963271754, "timer/agent.policy_min": 0.006054401397705078, "timer/agent.policy_max": 0.015604734420776367, "timer/dataset_count": 626.0, "timer/dataset_total": 0.060979604721069336, "timer/dataset_frac": 0.00020322553641984492, "timer/dataset_avg": 9.74115091390884e-05, "timer/dataset_min": 6.985664367675781e-05, "timer/dataset_max": 0.00026345252990722656, "timer/agent.train_count": 626.0, "timer/agent.train_total": 270.37770104408264, "timer/agent.train_frac": 0.9010824780184734, "timer/agent.train_avg": 0.4319132604538061, "timer/agent.train_min": 0.368410587310791, "timer/agent.train_max": 0.4577960968017578, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2335817813873291, "timer/agent.report_frac": 0.0007784534359885971, "timer/agent.report_avg": 0.2335817813873291, "timer/agent.report_min": 0.2335817813873291, "timer/agent.report_max": 0.2335817813873291, "fps": 4.172422602802352}
{"step": 1156854, "episode/length": 209.0, "episode/score": 6.099999971687794, "episode/sum_abs_reward": 8.500000037252903, "episode/reward_rate": 0.0380952380952381}
{"step": 1157044, "episode/length": 189.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 14.900000013411045, "episode/reward_rate": 0.07368421052631578}
{"step": 1157277, "episode/length": 232.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.05150214592274678}
{"step": 1157496, "episode/length": 218.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.045662100456621}
{"step": 1157706, "episode/length": 209.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.099999994039536, "episode/reward_rate": 0.06190476190476191}
{"step": 1158061, "episode/length": 354.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.900000028312206, "episode/reward_rate": 0.014084507042253521}
{"step": 1158115, "stats/sum_log_reward": 9.100000222524008, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 3.1666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.1666666666666667, "stats/max_log_achievement_collect_stone": 12.666666666666666, "stats/max_log_achievement_collect_wood": 10.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 1.8333333333333333, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 2.3333333333333335, "stats/max_log_achievement_place_table": 1.8333333333333333, "stats/max_log_achievement_wake_up": 2.1666666666666665, "stats/mean_log_entropy": 0.41790589690208435, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.43634033203125, "train/action_min": 0.0, "train/action_std": 3.299580937340146, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03731703551279174, "train/actor_opt_grad_steps": 578190.0, "train/actor_opt_loss": -12.279995028225203, "train/adv_mag": 0.39584272626846556, "train/adv_max": 0.31688387218921904, "train/adv_mean": 0.0015414859598321426, "train/adv_min": -0.3682469777644627, "train/adv_std": 0.04210017201682878, "train/cont_avg": 0.9947761656746031, "train/cont_loss_mean": 3.5621475347628775e-05, "train/cont_loss_std": 0.0010158637749407083, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0007523878905751637, "train/cont_pos_acc": 0.9999843873674907, "train/cont_pos_loss": 3.3326664991017464e-05, "train/cont_pred": 0.9947557297963945, "train/cont_rate": 0.9947761656746031, "train/dyn_loss_mean": 5.808855480617947, "train/dyn_loss_std": 8.991892602708605, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8950628354435876, "train/extr_critic_critic_opt_grad_steps": 578190.0, "train/extr_critic_critic_opt_loss": 15148.931966145834, "train/extr_critic_mag": 12.784065488785032, "train/extr_critic_max": 12.784065488785032, "train/extr_critic_mean": 4.012590128277975, "train/extr_critic_min": -0.36844719023931594, "train/extr_critic_std": 3.106706320293366, "train/extr_return_normed_mag": 1.38418281835223, "train/extr_return_normed_max": 1.38418281835223, "train/extr_return_normed_mean": 0.4091535636356899, "train/extr_return_normed_min": -0.06949522804528002, "train/extr_return_normed_std": 0.31947815843990873, "train/extr_return_rate": 0.86182006957039, "train/extr_return_raw_mag": 13.60654472169422, "train/extr_return_raw_max": 13.60654472169422, "train/extr_return_raw_mean": 4.027733276760768, "train/extr_return_raw_min": -0.6740516575555953, "train/extr_return_raw_std": 3.138822843158056, "train/extr_reward_mag": 1.0893411674196758, "train/extr_reward_max": 1.0893411674196758, "train/extr_reward_mean": 0.0668534596288015, "train/extr_reward_min": -0.5757036947068714, "train/extr_reward_std": 0.2482841776476966, "train/image_loss_mean": 3.400154636019752, "train/image_loss_std": 8.723015482463534, "train/model_loss_mean": 6.950536145104302, "train/model_loss_std": 12.866592604016502, "train/model_opt_grad_norm": 20.184642367892796, "train/model_opt_grad_steps": 577713.0158730159, "train/model_opt_loss": 8821.652320498511, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1269.8412698412699, "train/policy_entropy_mag": 2.699081772849673, "train/policy_entropy_max": 2.699081772849673, "train/policy_entropy_mean": 0.4149858809652783, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6279374413074009, "train/policy_logprob_mag": 7.438384343707372, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4151694651633974, "train/policy_logprob_min": -7.438384343707372, "train/policy_logprob_std": 1.0412464425677346, "train/policy_randomness_mag": 0.9526574195377411, "train/policy_randomness_max": 0.9526574195377411, "train/policy_randomness_mean": 0.14647180409658522, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2216343598233329, "train/post_ent_mag": 55.1891833108569, "train/post_ent_max": 55.1891833108569, "train/post_ent_mean": 40.04585029965355, "train/post_ent_min": 19.61759294782366, "train/post_ent_std": 5.82329611551194, "train/prior_ent_mag": 76.87722911531964, "train/prior_ent_max": 76.87722911531964, "train/prior_ent_mean": 45.84084247407459, "train/prior_ent_min": 27.739750968085396, "train/prior_ent_std": 7.8923966695391945, "train/rep_loss_mean": 5.808855480617947, "train/rep_loss_std": 8.991892602708605, "train/reward_avg": 0.05052238330245018, "train/reward_loss_mean": 0.06503258692839789, "train/reward_loss_std": 0.23195111467724755, "train/reward_max_data": 1.0317460393148756, "train/reward_max_pred": 1.0308324609483992, "train/reward_neg_acc": 0.9926531277005635, "train/reward_neg_loss": 0.026848584901364075, "train/reward_pos_acc": 0.9902482590978108, "train/reward_pos_loss": 0.7215245441784934, "train/reward_pred": 0.05025041605981569, "train/reward_rate": 0.05495101686507937, "replay/size": 1000000.0, "replay/inserts": 1270.0, "replay/samples": 10160.0, "replay/insert_wait_avg": 3.5038144569697343e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.443652656134658e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1379919052124, "timer/env.step_count": 1270.0, "timer/env.step_total": 16.891608476638794, "timer/env.step_frac": 0.05627947454907138, "timer/env.step_avg": 0.013300479115463617, "timer/env.step_min": 0.002816438674926758, "timer/env.step_max": 1.6652390956878662, "timer/replay.add_count": 1270.0, "timer/replay.add_total": 0.26793909072875977, "timer/replay.add_frac": 0.0008927196754664052, "timer/replay.add_avg": 0.00021097566199114942, "timer/replay.add_min": 7.43865966796875e-05, "timer/replay.add_max": 0.0009281635284423828, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028600454330444336, "timer/logger.write_frac": 9.529101647177256e-05, "timer/logger.write_avg": 0.028600454330444336, "timer/logger.write_min": 0.028600454330444336, "timer/logger.write_max": 0.028600454330444336, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1270.0, "timer/agent.policy_total": 10.329241514205933, "timer/agent.policy_frac": 0.034414975087419274, "timer/agent.policy_avg": 0.00813326103480782, "timer/agent.policy_min": 0.0058841705322265625, "timer/agent.policy_max": 0.016149520874023438, "timer/dataset_count": 635.0, "timer/dataset_total": 0.06411409378051758, "timer/dataset_frac": 0.0002136153886201973, "timer/dataset_avg": 0.00010096707681971272, "timer/dataset_min": 7.128715515136719e-05, "timer/dataset_max": 0.00022077560424804688, "timer/agent.train_count": 635.0, "timer/agent.train_total": 271.8674101829529, "timer/agent.train_frac": 0.9058080533463829, "timer/agent.train_avg": 0.4281376538314219, "timer/agent.train_min": 0.37046146392822266, "timer/agent.train_max": 0.4601123332977295, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2605631351470947, "timer/agent.report_frac": 0.0008681444607964994, "timer/agent.report_avg": 0.2605631351470947, "timer/agent.report_min": 0.2605631351470947, "timer/agent.report_max": 0.2605631351470947, "fps": 4.231316175513945}
{"step": 1158299, "episode/length": 237.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.50000000745058, "episode/reward_rate": 0.06722689075630252}
{"step": 1158507, "episode/length": 207.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.100000016391277, "episode/reward_rate": 0.07692307692307693}
{"step": 1158724, "episode/length": 216.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 16.500000037252903, "episode/reward_rate": 0.06451612903225806}
{"step": 1158990, "episode/length": 265.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.06015037593984962}
{"step": 1159182, "episode/length": 191.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.06770833333333333}
{"step": 1159357, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.464007962134577, "train/action_min": 0.0, "train/action_std": 3.3514411949342295, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0363305572480444, "train/actor_opt_grad_steps": 578815.0, "train/actor_opt_loss": -9.712313051665983, "train/adv_mag": 0.4063900480827978, "train/adv_max": 0.3133824078306075, "train/adv_mean": 0.0021492866797475033, "train/adv_min": -0.3784795614980882, "train/adv_std": 0.041460067814876954, "train/cont_avg": 0.9951959425403226, "train/cont_loss_mean": 1.5542334876367784e-05, "train/cont_loss_std": 0.00044128864205243836, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0009224617630889019, "train/cont_pos_acc": 0.9999999855795214, "train/cont_pos_loss": 1.1019456164354602e-05, "train/cont_pred": 0.9951906261905548, "train/cont_rate": 0.9951959425403226, "train/dyn_loss_mean": 5.872879043702157, "train/dyn_loss_std": 8.982127128108855, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9038463734811352, "train/extr_critic_critic_opt_grad_steps": 578815.0, "train/extr_critic_critic_opt_loss": 15325.16415700605, "train/extr_critic_mag": 12.68048374114498, "train/extr_critic_max": 12.68048374114498, "train/extr_critic_mean": 3.8084432886492823, "train/extr_critic_min": -0.37224152588075204, "train/extr_critic_std": 3.0363733922281573, "train/extr_return_normed_mag": 1.3711427450180054, "train/extr_return_normed_max": 1.3711427450180054, "train/extr_return_normed_mean": 0.392715054654306, "train/extr_return_normed_min": -0.07637958366784357, "train/extr_return_normed_std": 0.3133147750650683, "train/extr_return_rate": 0.8528352264435061, "train/extr_return_raw_mag": 13.382997005216536, "train/extr_return_raw_max": 13.382997005216536, "train/extr_return_raw_mean": 3.8294178785816317, "train/extr_return_raw_min": -0.7505159752984201, "train/extr_return_raw_std": 3.059127934517399, "train/extr_reward_mag": 1.0800680921923729, "train/extr_reward_max": 1.0800680921923729, "train/extr_reward_mean": 0.06448539124140816, "train/extr_reward_min": -0.610668824565026, "train/extr_reward_std": 0.2433356601865061, "train/image_loss_mean": 3.5937824172358357, "train/image_loss_std": 8.834402084350586, "train/model_loss_mean": 7.180831378506076, "train/model_loss_std": 12.981578242394232, "train/model_opt_grad_norm": 20.134099022034675, "train/model_opt_grad_steps": 578338.0, "train/model_opt_loss": 12493.399327431956, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1733.8709677419354, "train/policy_entropy_mag": 2.7296734317656486, "train/policy_entropy_max": 2.7296734317656486, "train/policy_entropy_mean": 0.4336195318929611, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6546744891712742, "train/policy_logprob_mag": 7.438384286818966, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4350496679544449, "train/policy_logprob_min": -7.438384286818966, "train/policy_logprob_std": 1.060662523392708, "train/policy_randomness_mag": 0.9634549377426025, "train/policy_randomness_max": 0.9634549377426025, "train/policy_randomness_mean": 0.15304866697519057, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23107136425472075, "train/post_ent_mag": 55.873025278891284, "train/post_ent_max": 55.873025278891284, "train/post_ent_mean": 40.09589152182302, "train/post_ent_min": 19.59031818759057, "train/post_ent_std": 5.9152846797820064, "train/prior_ent_mag": 76.78366433420489, "train/prior_ent_max": 76.78366433420489, "train/prior_ent_mean": 45.94055803360477, "train/prior_ent_min": 27.808199144178822, "train/prior_ent_std": 7.976856331671438, "train/rep_loss_mean": 5.872879043702157, "train/rep_loss_std": 8.982127128108855, "train/reward_avg": 0.047013608618609364, "train/reward_loss_mean": 0.0633060410618782, "train/reward_loss_std": 0.23245632984945852, "train/reward_max_data": 1.0338709758174034, "train/reward_max_pred": 1.030861243124931, "train/reward_neg_acc": 0.9923607899296668, "train/reward_neg_loss": 0.02684672427694163, "train/reward_pos_acc": 0.9857500358935325, "train/reward_pos_loss": 0.7367836131203559, "train/reward_pred": 0.04645743215036008, "train/reward_rate": 0.05144279233870968, "stats/sum_log_reward": 13.900000381469727, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 2.6, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 14.2, "stats/max_log_achievement_collect_wood": 14.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.4, "stats/max_log_achievement_eat_cow": 0.6, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8, "stats/max_log_achievement_make_stone_sword": 1.2, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.4, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 5.6, "stats/max_log_achievement_place_table": 3.8, "stats/max_log_achievement_wake_up": 1.4, "stats/mean_log_entropy": 0.5056517779827118, "replay/size": 1000000.0, "replay/inserts": 1242.0, "replay/samples": 9936.0, "replay/insert_wait_avg": 3.7217869658784974e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.451531470109875e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.27224922180176, "timer/env.step_count": 1242.0, "timer/env.step_total": 18.896958112716675, "timer/env.step_frac": 0.06293274906918914, "timer/env.step_avg": 0.015214942119739673, "timer/env.step_min": 0.003121614456176758, "timer/env.step_max": 2.6068615913391113, "timer/replay.add_count": 1242.0, "timer/replay.add_total": 0.3027365207672119, "timer/replay.add_frac": 0.0010082067908432986, "timer/replay.add_avg": 0.00024374921156780348, "timer/replay.add_min": 7.939338684082031e-05, "timer/replay.add_max": 0.01093149185180664, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03337264060974121, "timer/logger.write_frac": 0.00011114127494708937, "timer/logger.write_avg": 0.03337264060974121, "timer/logger.write_min": 0.03337264060974121, "timer/logger.write_max": 0.03337264060974121, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002593994140625, "timer/checkpoint.save_frac": 8.638807440073816e-07, "timer/checkpoint.save_avg": 0.0002593994140625, "timer/checkpoint.save_min": 0.0002593994140625, "timer/checkpoint.save_max": 0.0002593994140625, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2043726444244385, "timer/agent.save_frac": 0.004010935567791368, "timer/agent.save_avg": 1.2043726444244385, "timer/agent.save_min": 1.2043726444244385, "timer/agent.save_max": 1.2043726444244385, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.106231689453125e-05, "timer/replay.save_frac": 2.699627325023067e-07, "timer/replay.save_avg": 8.106231689453125e-05, "timer/replay.save_min": 8.106231689453125e-05, "timer/replay.save_max": 8.106231689453125e-05, "timer/agent.policy_count": 1242.0, "timer/agent.policy_total": 11.438186407089233, "timer/agent.policy_frac": 0.03809271897996875, "timer/agent.policy_avg": 0.00920948986078038, "timer/agent.policy_min": 0.00600886344909668, "timer/agent.policy_max": 1.2029409408569336, "timer/dataset_count": 621.0, "timer/dataset_total": 0.06416749954223633, "timer/dataset_frac": 0.00021369773500060538, "timer/dataset_avg": 0.00010332930683129843, "timer/dataset_min": 7.176399230957031e-05, "timer/dataset_max": 0.00028395652770996094, "timer/agent.train_count": 621.0, "timer/agent.train_total": 268.8772473335266, "timer/agent.train_frac": 0.8954448772084674, "timer/agent.train_avg": 0.43297463338732145, "timer/agent.train_min": 0.37852001190185547, "timer/agent.train_max": 0.9114856719970703, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.23236727714538574, "timer/agent.report_frac": 0.0007738553187901932, "timer/agent.report_avg": 0.23236727714538574, "timer/agent.report_min": 0.23236727714538574, "timer/agent.report_max": 0.23236727714538574, "fps": 4.136167892373865}
{"step": 1159376, "episode/length": 193.0, "episode/score": 14.1000000461936, "episode/sum_abs_reward": 16.100000075995922, "episode/reward_rate": 0.07731958762886598}
{"step": 1159580, "episode/length": 203.0, "episode/score": 14.100000031292439, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.0784313725490196}
{"step": 1159791, "episode/length": 210.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.061611374407582936}
{"step": 1159997, "episode/length": 205.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.700000040233135, "episode/reward_rate": 0.06310679611650485}
{"step": 1160156, "episode/length": 158.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.08176100628930817}
{"step": 1160409, "episode/length": 252.0, "episode/score": 9.099999994039536, "episode/sum_abs_reward": 11.300000011920929, "episode/reward_rate": 0.043478260869565216}
{"step": 1160607, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.506131611173115, "train/action_min": 0.0, "train/action_std": 3.3547782330285933, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03770659713163262, "train/actor_opt_grad_steps": 579440.0, "train/actor_opt_loss": -13.093169789465646, "train/adv_mag": 0.3976136911956091, "train/adv_max": 0.3323758951728306, "train/adv_mean": 0.001204625165089041, "train/adv_min": -0.36312354911887457, "train/adv_std": 0.04152782344155841, "train/cont_avg": 0.9949311755952381, "train/cont_loss_mean": 0.00016627932268239954, "train/cont_loss_std": 0.005249008837513285, "train/cont_neg_acc": 0.998015873015873, "train/cont_neg_loss": 0.009621242170696494, "train/cont_pos_acc": 0.9999843892597017, "train/cont_pos_loss": 9.244478072137749e-05, "train/cont_pred": 0.9949268717614431, "train/cont_rate": 0.9949311755952381, "train/dyn_loss_mean": 5.75008133479527, "train/dyn_loss_std": 8.917934629652235, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9020146774867225, "train/extr_critic_critic_opt_grad_steps": 579440.0, "train/extr_critic_critic_opt_loss": 15139.513702876984, "train/extr_critic_mag": 12.720799885098897, "train/extr_critic_max": 12.720799885098897, "train/extr_critic_mean": 3.899029217069111, "train/extr_critic_min": -0.3611090202180166, "train/extr_critic_std": 3.0195986392006042, "train/extr_return_normed_mag": 1.3889004730042958, "train/extr_return_normed_max": 1.3889004730042958, "train/extr_return_normed_mean": 0.4029618208370512, "train/extr_return_normed_min": -0.06827090302157024, "train/extr_return_normed_std": 0.3138002029487065, "train/extr_return_rate": 0.8696904371655176, "train/extr_return_raw_mag": 13.464707995217944, "train/extr_return_raw_max": 13.464707995217944, "train/extr_return_raw_mean": 3.910701036453247, "train/extr_return_raw_min": -0.6555248375922914, "train/extr_return_raw_std": 3.041081436096676, "train/extr_reward_mag": 1.0870997035314167, "train/extr_reward_max": 1.0870997035314167, "train/extr_reward_mean": 0.0640137189082683, "train/extr_reward_min": -0.5674438590095157, "train/extr_reward_std": 0.2426422562391039, "train/image_loss_mean": 3.4037272248949324, "train/image_loss_std": 8.823651767912365, "train/model_loss_mean": 6.919670226081969, "train/model_loss_std": 12.972326536027213, "train/model_opt_grad_norm": 21.545921234857467, "train/model_opt_grad_steps": 578963.0, "train/model_opt_loss": 17299.17540922619, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7089142345246815, "train/policy_entropy_max": 2.7089142345246815, "train/policy_entropy_mean": 0.4334369377484397, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6462645724652305, "train/policy_logprob_mag": 7.4383842755877785, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4328849883306594, "train/policy_logprob_min": -7.4383842755877785, "train/policy_logprob_std": 1.0527098878981576, "train/policy_randomness_mag": 0.9561278441595653, "train/policy_randomness_max": 0.9561278441595653, "train/policy_randomness_mean": 0.1529842187014837, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22810303549917918, "train/post_ent_mag": 55.48248291015625, "train/post_ent_max": 55.48248291015625, "train/post_ent_mean": 40.00534917437841, "train/post_ent_min": 19.697754299829878, "train/post_ent_std": 5.786412110404362, "train/prior_ent_mag": 76.75259132990762, "train/prior_ent_max": 76.75259132990762, "train/prior_ent_mean": 45.775562770782955, "train/prior_ent_min": 27.7286990332225, "train/prior_ent_std": 7.914133881765698, "train/rep_loss_mean": 5.75008133479527, "train/rep_loss_std": 8.917934629652235, "train/reward_avg": 0.04955977171895996, "train/reward_loss_mean": 0.0657279881101752, "train/reward_loss_std": 0.2406079000423825, "train/reward_max_data": 1.0365079452121069, "train/reward_max_pred": 1.0330054419381278, "train/reward_neg_acc": 0.9927556363363115, "train/reward_neg_loss": 0.027393304728089818, "train/reward_pos_acc": 0.986999183420151, "train/reward_pos_loss": 0.737519677669283, "train/reward_pred": 0.049049866696198784, "train/reward_rate": 0.054191468253968256, "stats/sum_log_reward": 12.266666889190674, "stats/max_log_achievement_collect_coal": 1.1666666666666667, "stats/max_log_achievement_collect_drink": 2.8333333333333335, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.3333333333333335, "stats/max_log_achievement_collect_stone": 11.833333333333334, "stats/max_log_achievement_collect_wood": 13.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.8333333333333333, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 0.5, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 1.6666666666666667, "stats/max_log_achievement_place_table": 3.1666666666666665, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.30924686789512634, "replay/size": 1000000.0, "replay/inserts": 1250.0, "replay/samples": 10000.0, "replay/insert_wait_avg": 3.7324905395507814e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4258861541748047e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2009131908417, "timer/env.step_count": 1250.0, "timer/env.step_total": 17.736811876296997, "timer/env.step_frac": 0.05908313764862358, "timer/env.step_avg": 0.014189449501037598, "timer/env.step_min": 0.0028142929077148438, "timer/env.step_max": 1.703716516494751, "timer/replay.add_count": 1250.0, "timer/replay.add_total": 0.3017556667327881, "timer/replay.add_frac": 0.001005179043346074, "timer/replay.add_avg": 0.00024140453338623047, "timer/replay.add_min": 8.0108642578125e-05, "timer/replay.add_max": 0.0012187957763671875, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024537324905395508, "timer/logger.write_frac": 8.173634331950486e-05, "timer/logger.write_avg": 0.024537324905395508, "timer/logger.write_min": 0.024537324905395508, "timer/logger.write_max": 0.024537324905395508, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1250.0, "timer/agent.policy_total": 10.361237049102783, "timer/agent.policy_frac": 0.034514342208266394, "timer/agent.policy_avg": 0.008288989639282226, "timer/agent.policy_min": 0.0061016082763671875, "timer/agent.policy_max": 0.016526460647583008, "timer/dataset_count": 625.0, "timer/dataset_total": 0.06534194946289062, "timer/dataset_frac": 0.00021766072850468607, "timer/dataset_avg": 0.000104547119140625, "timer/dataset_min": 7.534027099609375e-05, "timer/dataset_max": 0.0010769367218017578, "timer/agent.train_count": 625.0, "timer/agent.train_total": 271.00047516822815, "timer/agent.train_frac": 0.9027303491110621, "timer/agent.train_avg": 0.43360076026916505, "timer/agent.train_min": 0.3724954128265381, "timer/agent.train_max": 0.5296928882598877, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.26783013343811035, "timer/agent.report_frac": 0.0008921696159793066, "timer/agent.report_avg": 0.26783013343811035, "timer/agent.report_min": 0.26783013343811035, "timer/agent.report_max": 0.26783013343811035, "fps": 4.163789736865052}
{"step": 1160643, "episode/length": 233.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.0641025641025641}
{"step": 1160873, "episode/length": 229.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.06086956521739131}
{"step": 1161161, "episode/length": 287.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.04861111111111111}
{"step": 1161408, "episode/length": 246.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.048582995951417005}
{"step": 1161463, "episode/length": 54.0, "episode/score": 7.100000023841858, "episode/sum_abs_reward": 8.899999976158142, "episode/reward_rate": 0.16363636363636364}
{"step": 1161698, "episode/length": 234.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 15.900000013411045, "episode/reward_rate": 0.06382978723404255}
{"step": 1161853, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.542482437626008, "train/action_min": 0.0, "train/action_std": 3.3962196380861345, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03664020950635595, "train/actor_opt_grad_steps": 580065.0, "train/actor_opt_loss": -11.265601506156306, "train/adv_mag": 0.401322683980388, "train/adv_max": 0.33626405846688057, "train/adv_mean": 0.001973807007432022, "train/adv_min": -0.35400364355694863, "train/adv_std": 0.04165647911929315, "train/cont_avg": 0.9948651713709677, "train/cont_loss_mean": 2.229963705797071e-05, "train/cont_loss_std": 0.0006592146529070056, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0005535861890651705, "train/cont_pos_acc": 0.9999841240144545, "train/cont_pos_loss": 2.078439147780845e-05, "train/cont_pred": 0.9948517170644575, "train/cont_rate": 0.9948651713709677, "train/dyn_loss_mean": 5.769585309490081, "train/dyn_loss_std": 8.966450045185704, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.86044204619623, "train/extr_critic_critic_opt_grad_steps": 580065.0, "train/extr_critic_critic_opt_loss": 15077.386372227822, "train/extr_critic_mag": 12.480228301017515, "train/extr_critic_max": 12.480228301017515, "train/extr_critic_mean": 3.8996678821502195, "train/extr_critic_min": -0.33998986790257113, "train/extr_critic_std": 2.9846392831494732, "train/extr_return_normed_mag": 1.3769813622197797, "train/extr_return_normed_max": 1.3769813622197797, "train/extr_return_normed_mean": 0.40772726506956164, "train/extr_return_normed_min": -0.07230861503030023, "train/extr_return_normed_std": 0.31387367772479213, "train/extr_return_rate": 0.8612515157268893, "train/extr_return_raw_mag": 13.221873652550482, "train/extr_return_raw_max": 13.221873652550482, "train/extr_return_raw_mean": 3.9185854927186043, "train/extr_return_raw_min": -0.6898592229812376, "train/extr_return_raw_std": 3.0132686938008955, "train/extr_reward_mag": 1.087179107050742, "train/extr_reward_max": 1.087179107050742, "train/extr_reward_mean": 0.06426983897484118, "train/extr_reward_min": -0.6177014285518277, "train/extr_reward_std": 0.24290323714094778, "train/image_loss_mean": 3.375187314325763, "train/image_loss_std": 8.819312649388467, "train/model_loss_mean": 6.9010882762170604, "train/model_loss_std": 12.98754132178522, "train/model_opt_grad_norm": 20.891541543554087, "train/model_opt_grad_steps": 579587.2741935484, "train/model_opt_loss": 18669.590851814515, "train/model_opt_model_opt_grad_overflow": 0.016129032258064516, "train/model_opt_model_opt_grad_scale": 2661.2903225806454, "train/policy_entropy_mag": 2.697609786064394, "train/policy_entropy_max": 2.697609786064394, "train/policy_entropy_mean": 0.42645707678410316, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6388454716051778, "train/policy_logprob_mag": 7.438384309891732, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4254696099988876, "train/policy_logprob_min": -7.438384309891732, "train/policy_logprob_std": 1.0453916615055454, "train/policy_randomness_mag": 0.952137872096031, "train/policy_randomness_max": 0.952137872096031, "train/policy_randomness_mean": 0.1505206323439075, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22548441733083419, "train/post_ent_mag": 55.68981318319997, "train/post_ent_max": 55.68981318319997, "train/post_ent_mean": 40.01315682934177, "train/post_ent_min": 20.032401084899902, "train/post_ent_std": 5.788720992303664, "train/prior_ent_mag": 76.7978023405998, "train/prior_ent_max": 76.7978023405998, "train/prior_ent_mean": 45.736714701498705, "train/prior_ent_min": 27.46365494881907, "train/prior_ent_std": 7.953622694938414, "train/rep_loss_mean": 5.769585309490081, "train/rep_loss_std": 8.966450045185704, "train/reward_avg": 0.05035754773885973, "train/reward_loss_mean": 0.06412758503950411, "train/reward_loss_std": 0.2256481195649793, "train/reward_max_data": 1.035483879427756, "train/reward_max_pred": 1.0339316437321324, "train/reward_neg_acc": 0.9931773351084802, "train/reward_neg_loss": 0.026079948405705152, "train/reward_pos_acc": 0.9915348810534323, "train/reward_pos_loss": 0.7190764575235306, "train/reward_pred": 0.0499653251421067, "train/reward_rate": 0.05486076108870968, "stats/sum_log_reward": 12.100000301996866, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 2.3333333333333335, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 16.333333333333332, "stats/max_log_achievement_collect_wood": 12.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.3333333333333333, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.3333333333333335, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 2.6666666666666665, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 0.8333333333333334, "stats/mean_log_entropy": 0.4318566769361496, "replay/size": 1000000.0, "replay/inserts": 1246.0, "replay/samples": 9968.0, "replay/insert_wait_avg": 3.7048639876119205e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3862385221698694e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2620589733124, "timer/env.step_count": 1246.0, "timer/env.step_total": 18.000259399414062, "timer/env.step_frac": 0.059948497858711966, "timer/env.step_avg": 0.014446436115099569, "timer/env.step_min": 0.0031347274780273438, "timer/env.step_max": 1.767019510269165, "timer/replay.add_count": 1246.0, "timer/replay.add_total": 0.2881901264190674, "timer/replay.add_frac": 0.0009597953447880741, "timer/replay.add_avg": 0.00023129223629138635, "timer/replay.add_min": 7.653236389160156e-05, "timer/replay.add_max": 0.004883289337158203, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03171825408935547, "timer/logger.write_frac": 0.0001056352380910524, "timer/logger.write_avg": 0.03171825408935547, "timer/logger.write_min": 0.03171825408935547, "timer/logger.write_max": 0.03171825408935547, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1246.0, "timer/agent.policy_total": 10.134387969970703, "timer/agent.policy_frac": 0.03375181001763349, "timer/agent.policy_avg": 0.0081335376966057, "timer/agent.policy_min": 0.006013154983520508, "timer/agent.policy_max": 0.0498957633972168, "timer/dataset_count": 623.0, "timer/dataset_total": 0.06219053268432617, "timer/dataset_frac": 0.0002071208493573067, "timer/dataset_avg": 9.982429002299546e-05, "timer/dataset_min": 7.390975952148438e-05, "timer/dataset_max": 0.00021219253540039062, "timer/agent.train_count": 623.0, "timer/agent.train_total": 271.0802707672119, "timer/agent.train_frac": 0.9028122690363148, "timer/agent.train_avg": 0.43512081985106243, "timer/agent.train_min": 0.3797488212585449, "timer/agent.train_max": 0.5154664516448975, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22934579849243164, "timer/agent.report_frac": 0.0007638187764269482, "timer/agent.report_avg": 0.22934579849243164, "timer/agent.report_min": 0.22934579849243164, "timer/agent.report_max": 0.22934579849243164, "fps": 4.149634908667677}
{"step": 1162019, "episode/length": 320.0, "episode/score": 15.100000008940697, "episode/sum_abs_reward": 17.900000050663948, "episode/reward_rate": 0.04984423676012461}
{"step": 1162239, "episode/length": 219.0, "episode/score": 11.099999971687794, "episode/sum_abs_reward": 13.500000037252903, "episode/reward_rate": 0.05909090909090909}
{"step": 1162537, "episode/length": 297.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.04697986577181208}
{"step": 1162732, "episode/length": 194.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.500000037252903, "episode/reward_rate": 0.07179487179487179}
{"step": 1162928, "episode/length": 195.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.900000043213367, "episode/reward_rate": 0.07653061224489796}
{"step": 1163093, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.363171977381552, "train/action_min": 0.0, "train/action_std": 3.2110838044074272, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03721400861057543, "train/actor_opt_grad_steps": 580685.0, "train/actor_opt_loss": -10.471554331241116, "train/adv_mag": 0.42055941589416995, "train/adv_max": 0.33983579470265296, "train/adv_mean": 0.0015119074069961272, "train/adv_min": -0.37841422687615117, "train/adv_std": 0.04077316748519098, "train/cont_avg": 0.9954164566532258, "train/cont_loss_mean": 2.1126858467915377e-05, "train/cont_loss_std": 0.0005319091737457102, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0024082538907151496, "train/cont_pos_acc": 0.999999983656791, "train/cont_pos_loss": 1.1791793037749511e-05, "train/cont_pred": 0.9954140551628605, "train/cont_rate": 0.9954164566532258, "train/dyn_loss_mean": 5.830063489175612, "train/dyn_loss_std": 8.95543106909721, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8620578800478289, "train/extr_critic_critic_opt_grad_steps": 580685.0, "train/extr_critic_critic_opt_loss": 15021.004567792339, "train/extr_critic_mag": 12.398633541599397, "train/extr_critic_max": 12.398633541599397, "train/extr_critic_mean": 3.8534800160315728, "train/extr_critic_min": -0.36842345806860155, "train/extr_critic_std": 2.976331910779399, "train/extr_return_normed_mag": 1.3539547574135564, "train/extr_return_normed_max": 1.3539547574135564, "train/extr_return_normed_mean": 0.4029730635304605, "train/extr_return_normed_min": -0.06609726781325956, "train/extr_return_normed_std": 0.30964652520994984, "train/extr_return_rate": 0.8495789670175121, "train/extr_return_raw_mag": 13.09375472222605, "train/extr_return_raw_max": 13.09375472222605, "train/extr_return_raw_mean": 3.8681660582942348, "train/extr_return_raw_min": -0.683332001009295, "train/extr_return_raw_std": 3.0043795224158996, "train/extr_reward_mag": 1.0839697507119948, "train/extr_reward_max": 1.0839697507119948, "train/extr_reward_mean": 0.06222219470768205, "train/extr_reward_min": -0.5882147742855933, "train/extr_reward_std": 0.2393060651037001, "train/image_loss_mean": 3.448207284173658, "train/image_loss_std": 8.777026114925262, "train/model_loss_mean": 7.009824414407054, "train/model_loss_std": 12.928072052617226, "train/model_opt_grad_norm": 20.19834707629296, "train/model_opt_grad_steps": 580206.9193548387, "train/model_opt_loss": 17760.671733240928, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2540.3225806451615, "train/policy_entropy_mag": 2.6815199736625916, "train/policy_entropy_max": 2.6815199736625916, "train/policy_entropy_mean": 0.4269417332064721, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6268702932903844, "train/policy_logprob_mag": 7.438384271437122, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4265585580179768, "train/policy_logprob_min": -7.438384271437122, "train/policy_logprob_std": 1.0467271266445037, "train/policy_randomness_mag": 0.9464588761329651, "train/policy_randomness_max": 0.9464588761329651, "train/policy_randomness_mean": 0.15069169635253568, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22125770440024714, "train/post_ent_mag": 55.81678384350192, "train/post_ent_max": 55.81678384350192, "train/post_ent_mean": 40.16094355429372, "train/post_ent_min": 19.867644740689187, "train/post_ent_std": 5.897459053224133, "train/prior_ent_mag": 76.72223749468404, "train/prior_ent_max": 76.72223749468404, "train/prior_ent_mean": 46.005769237395256, "train/prior_ent_min": 27.951348335512222, "train/prior_ent_std": 7.935266810078775, "train/rep_loss_mean": 5.830063489175612, "train/rep_loss_std": 8.95543106909721, "train/reward_avg": 0.049401461236899896, "train/reward_loss_mean": 0.06355790998185834, "train/reward_loss_std": 0.2278771172127416, "train/reward_max_data": 1.0338709758174034, "train/reward_max_pred": 1.0334024660048946, "train/reward_neg_acc": 0.99304624815141, "train/reward_neg_loss": 0.026335298294021238, "train/reward_pos_acc": 0.9904284054233182, "train/reward_pos_loss": 0.7231787375865444, "train/reward_pred": 0.048998432624484264, "train/reward_rate": 0.05358492943548387, "stats/sum_log_reward": 13.300000190734863, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8, "stats/max_log_achievement_collect_stone": 14.4, "stats/max_log_achievement_collect_wood": 14.6, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.2, "stats/max_log_achievement_make_stone_sword": 1.4, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.4, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.6, "stats/max_log_achievement_place_stone": 2.4, "stats/max_log_achievement_place_table": 4.4, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.5312416166067123, "replay/size": 1000000.0, "replay/inserts": 1240.0, "replay/samples": 9920.0, "replay/insert_wait_avg": 3.705486174552671e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3844620796941941e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.41435170173645, "timer/env.step_count": 1240.0, "timer/env.step_total": 18.717923164367676, "timer/env.step_frac": 0.06230702048133702, "timer/env.step_avg": 0.015095099326102965, "timer/env.step_min": 0.0032758712768554688, "timer/env.step_max": 2.568169355392456, "timer/replay.add_count": 1240.0, "timer/replay.add_total": 0.2719540596008301, "timer/replay.add_frac": 0.0009052632075009422, "timer/replay.add_avg": 0.00021931779000066942, "timer/replay.add_min": 8.416175842285156e-05, "timer/replay.add_max": 0.000850677490234375, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03601837158203125, "timer/logger.write_frac": 0.00011989564206237307, "timer/logger.write_avg": 0.03601837158203125, "timer/logger.write_min": 0.03601837158203125, "timer/logger.write_max": 0.03601837158203125, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00017642974853515625, "timer/checkpoint.save_frac": 5.872880158213042e-07, "timer/checkpoint.save_avg": 0.00017642974853515625, "timer/checkpoint.save_min": 0.00017642974853515625, "timer/checkpoint.save_max": 0.00017642974853515625, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4493637084960938, "timer/agent.save_frac": 0.0048245488282633074, "timer/agent.save_avg": 1.4493637084960938, "timer/agent.save_min": 1.4493637084960938, "timer/agent.save_max": 1.4493637084960938, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.82012939453125e-05, "timer/replay.save_frac": 2.60311444850524e-07, "timer/replay.save_avg": 7.82012939453125e-05, "timer/replay.save_min": 7.82012939453125e-05, "timer/replay.save_max": 7.82012939453125e-05, "timer/agent.policy_count": 1240.0, "timer/agent.policy_total": 11.394328355789185, "timer/agent.policy_frac": 0.037928708436346395, "timer/agent.policy_avg": 0.009188974480475148, "timer/agent.policy_min": 0.005949735641479492, "timer/agent.policy_max": 1.4366328716278076, "timer/dataset_count": 620.0, "timer/dataset_total": 0.05989360809326172, "timer/dataset_frac": 0.00019936999598716416, "timer/dataset_avg": 9.660259369880923e-05, "timer/dataset_min": 7.43865966796875e-05, "timer/dataset_max": 0.00020551681518554688, "timer/agent.train_count": 620.0, "timer/agent.train_total": 269.25544476509094, "timer/agent.train_frac": 0.8962802317527715, "timer/agent.train_avg": 0.43428297542756605, "timer/agent.train_min": 0.37018918991088867, "timer/agent.train_max": 0.8641800880432129, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2616894245147705, "timer/agent.report_frac": 0.0008710949494669495, "timer/agent.report_avg": 0.2616894245147705, "timer/agent.report_min": 0.2616894245147705, "timer/agent.report_max": 0.2616894245147705, "fps": 4.127553487930325}
{"step": 1163249, "episode/length": 320.0, "episode/score": 14.100000023841858, "episode/sum_abs_reward": 16.10000005364418, "episode/reward_rate": 0.04672897196261682}
{"step": 1163421, "episode/length": 171.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.06976744186046512}
{"step": 1163647, "episode/length": 225.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.061946902654867256}
{"step": 1163885, "episode/length": 237.0, "episode/score": 15.100000008940697, "episode/sum_abs_reward": 17.500000044703484, "episode/reward_rate": 0.06722689075630252}
{"step": 1164133, "episode/length": 247.0, "episode/score": 14.100000016391277, "episode/sum_abs_reward": 16.90000005811453, "episode/reward_rate": 0.06048387096774194}
{"step": 1164298, "episode/length": 164.0, "episode/score": 9.099999979138374, "episode/sum_abs_reward": 10.900000020861626, "episode/reward_rate": 0.06060606060606061}
{"step": 1164353, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.346231127542163, "train/action_min": 0.0, "train/action_std": 3.2021536864931623, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03747839941864922, "train/actor_opt_grad_steps": 581310.0, "train/actor_opt_loss": -11.331930932544527, "train/adv_mag": 0.37842924065060085, "train/adv_max": 0.31802143937065486, "train/adv_mean": 0.0017038827422694008, "train/adv_min": -0.3509896158699005, "train/adv_std": 0.04192253089849911, "train/cont_avg": 0.9950086805555556, "train/cont_loss_mean": 3.148583210761426e-05, "train/cont_loss_std": 0.0009803157410849797, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00041080660140004456, "train/cont_pos_acc": 0.9999844337266589, "train/cont_pos_loss": 2.943522170663899e-05, "train/cont_pred": 0.9949937557417249, "train/cont_rate": 0.9950086805555556, "train/dyn_loss_mean": 5.92294951090737, "train/dyn_loss_std": 9.051773722209628, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.857675880666763, "train/extr_critic_critic_opt_grad_steps": 581310.0, "train/extr_critic_critic_opt_loss": 15345.158172123016, "train/extr_critic_mag": 12.58251388489254, "train/extr_critic_max": 12.58251388489254, "train/extr_critic_mean": 3.885676902437967, "train/extr_critic_min": -0.3517120641375345, "train/extr_critic_std": 2.9703009507012745, "train/extr_return_normed_mag": 1.3704111443625555, "train/extr_return_normed_max": 1.3704111443625555, "train/extr_return_normed_mean": 0.40274543847356525, "train/extr_return_normed_min": -0.07227897466648192, "train/extr_return_normed_std": 0.30818229842753636, "train/extr_return_rate": 0.8611896927394564, "train/extr_return_raw_mag": 13.305272874378023, "train/extr_return_raw_max": 13.305272874378023, "train/extr_return_raw_mean": 3.9022143341246105, "train/extr_return_raw_min": -0.7135317330322568, "train/extr_return_raw_std": 2.9945948918660483, "train/extr_reward_mag": 1.0810817196255638, "train/extr_reward_max": 1.0810817196255638, "train/extr_reward_mean": 0.06387539361677473, "train/extr_reward_min": -0.6179917956155444, "train/extr_reward_std": 0.24250182414811755, "train/image_loss_mean": 3.487461487452189, "train/image_loss_std": 8.991051257602752, "train/model_loss_mean": 7.10473688821944, "train/model_loss_std": 13.14118164304703, "train/model_opt_grad_norm": 21.369415767609127, "train/model_opt_grad_steps": 580830.253968254, "train/model_opt_loss": 11211.711883060516, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1567.4603174603174, "train/policy_entropy_mag": 2.685816382604932, "train/policy_entropy_max": 2.685816382604932, "train/policy_entropy_mean": 0.38708241118325126, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5880487925476499, "train/policy_logprob_mag": 7.438384298294309, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.38709044669355663, "train/policy_logprob_min": -7.438384298294309, "train/policy_logprob_std": 1.0152345687624007, "train/policy_randomness_mag": 0.9479753204754421, "train/policy_randomness_max": 0.9479753204754421, "train/policy_randomness_mean": 0.13662310583250864, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20755541844973488, "train/post_ent_mag": 55.76714912293449, "train/post_ent_max": 55.76714912293449, "train/post_ent_mean": 39.98680096580868, "train/post_ent_min": 19.694412019517685, "train/post_ent_std": 5.84126451280382, "train/prior_ent_mag": 76.80269404820034, "train/prior_ent_max": 76.80269404820034, "train/prior_ent_mean": 45.852830372159445, "train/prior_ent_min": 27.47425681825668, "train/prior_ent_std": 7.926996109977601, "train/rep_loss_mean": 5.92294951090737, "train/rep_loss_std": 9.051773722209628, "train/reward_avg": 0.04898468490749124, "train/reward_loss_mean": 0.06347426062538511, "train/reward_loss_std": 0.23039595617188346, "train/reward_max_data": 1.0301587373491317, "train/reward_max_pred": 1.0289663927895683, "train/reward_neg_acc": 0.9927919204272921, "train/reward_neg_loss": 0.025716575409566598, "train/reward_pos_acc": 0.9868008352461315, "train/reward_pos_loss": 0.7337017485073635, "train/reward_pred": 0.04841438503492446, "train/reward_rate": 0.053369915674603176, "stats/sum_log_reward": 12.766666889190674, "stats/max_log_achievement_collect_coal": 1.1666666666666667, "stats/max_log_achievement_collect_drink": 2.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.1666666666666665, "stats/max_log_achievement_collect_stone": 10.5, "stats/max_log_achievement_collect_wood": 15.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.3333333333333333, "stats/max_log_achievement_defeat_zombie": 2.3333333333333335, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.1666666666666667, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 2.6666666666666665, "stats/max_log_achievement_place_table": 4.166666666666667, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.443742739657561, "replay/size": 1000000.0, "replay/inserts": 1260.0, "replay/samples": 10080.0, "replay/insert_wait_avg": 3.5615194411504837e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.39735047779386e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.02292251586914, "timer/env.step_count": 1260.0, "timer/env.step_total": 16.576576948165894, "timer/env.step_frac": 0.05525103485147575, "timer/env.step_avg": 0.013156013450925312, "timer/env.step_min": 0.0027887821197509766, "timer/env.step_max": 1.6376795768737793, "timer/replay.add_count": 1260.0, "timer/replay.add_total": 0.29484033584594727, "timer/replay.add_frac": 0.0009827260309763573, "timer/replay.add_avg": 0.0002340002665444026, "timer/replay.add_min": 7.62939453125e-05, "timer/replay.add_max": 0.0012118816375732422, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024849653244018555, "timer/logger.write_frac": 8.282584889060995e-05, "timer/logger.write_avg": 0.024849653244018555, "timer/logger.write_min": 0.024849653244018555, "timer/logger.write_max": 0.024849653244018555, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1260.0, "timer/agent.policy_total": 10.228230237960815, "timer/agent.policy_frac": 0.03409149591701552, "timer/agent.policy_avg": 0.008117643046000647, "timer/agent.policy_min": 0.0057790279388427734, "timer/agent.policy_max": 0.016278505325317383, "timer/dataset_count": 630.0, "timer/dataset_total": 0.06088399887084961, "timer/dataset_frac": 0.00020293115726058986, "timer/dataset_avg": 9.664126804896764e-05, "timer/dataset_min": 7.176399230957031e-05, "timer/dataset_max": 0.00021958351135253906, "timer/agent.train_count": 630.0, "timer/agent.train_total": 272.19215154647827, "timer/agent.train_frac": 0.9072378512414537, "timer/agent.train_avg": 0.4320510342007592, "timer/agent.train_min": 0.3761768341064453, "timer/agent.train_max": 0.4563136100769043, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.23092174530029297, "timer/agent.report_frac": 0.0007696803409682098, "timer/agent.report_avg": 0.23092174530029297, "timer/agent.report_min": 0.23092174530029297, "timer/agent.report_max": 0.23092174530029297, "fps": 4.199593564744366}
{"step": 1164515, "episode/length": 216.0, "episode/score": 14.100000031292439, "episode/sum_abs_reward": 16.300000049173832, "episode/reward_rate": 0.07373271889400922}
{"step": 1164765, "episode/length": 249.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.700000025331974, "episode/reward_rate": 0.064}
{"step": 1164966, "episode/length": 200.0, "episode/score": 15.100000016391277, "episode/sum_abs_reward": 16.500000037252903, "episode/reward_rate": 0.07960199004975124}
{"step": 1165153, "episode/length": 186.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.06417112299465241}
{"step": 1165332, "episode/length": 178.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.055865921787709494}
{"step": 1165503, "episode/length": 170.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.07602339181286549}
{"step": 1165617, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.398650638640873, "train/action_min": 0.0, "train/action_std": 3.259002685546875, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03653492329139558, "train/actor_opt_grad_steps": 581940.0, "train/actor_opt_loss": -11.662259976778712, "train/adv_mag": 0.3535173164000587, "train/adv_max": 0.32167963754563106, "train/adv_mean": 0.0017539138169966116, "train/adv_min": -0.3078160529571866, "train/adv_std": 0.04117101490024536, "train/cont_avg": 0.9952411954365079, "train/cont_loss_mean": 1.672581677041988e-05, "train/cont_loss_std": 0.0005211591891774033, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 2.653373799929009e-05, "train/cont_pos_acc": 0.9999843419544281, "train/cont_pos_loss": 1.6730653378768272e-05, "train/cont_pred": 0.9952295157644484, "train/cont_rate": 0.9952411954365079, "train/dyn_loss_mean": 5.8255026075575085, "train/dyn_loss_std": 8.911192333887493, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8557110703180707, "train/extr_critic_critic_opt_grad_steps": 581940.0, "train/extr_critic_critic_opt_loss": 15292.175145709325, "train/extr_critic_mag": 12.499427038525779, "train/extr_critic_max": 12.499427038525779, "train/extr_critic_mean": 3.739738524906219, "train/extr_critic_min": -0.3456718240465437, "train/extr_critic_std": 2.963395799909319, "train/extr_return_normed_mag": 1.3795437528973533, "train/extr_return_normed_max": 1.3795437528973533, "train/extr_return_normed_mean": 0.39048191053526743, "train/extr_return_normed_min": -0.06948907383614117, "train/extr_return_normed_std": 0.3097435160288735, "train/extr_return_rate": 0.8496218229097033, "train/extr_return_raw_mag": 13.307491469004798, "train/extr_return_raw_max": 13.307491469004798, "train/extr_return_raw_mean": 3.756678808303106, "train/extr_return_raw_min": -0.6856354281069741, "train/extr_return_raw_std": 2.9912753483605763, "train/extr_reward_mag": 1.078792969385783, "train/extr_reward_max": 1.078792969385783, "train/extr_reward_mean": 0.0625875327913534, "train/extr_reward_min": -0.5877278362001691, "train/extr_reward_std": 0.24007381356897808, "train/image_loss_mean": 3.4834045834011502, "train/image_loss_std": 8.394203973194909, "train/model_loss_mean": 7.041738373892648, "train/model_loss_std": 12.504134041922432, "train/model_opt_grad_norm": 20.31057740771581, "train/model_opt_grad_steps": 581460.0, "train/model_opt_loss": 10185.853996155754, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1448.4126984126983, "train/policy_entropy_mag": 2.7027397723425004, "train/policy_entropy_max": 2.7027397723425004, "train/policy_entropy_mean": 0.40881218465547714, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6110789208185106, "train/policy_logprob_mag": 7.438384321000841, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40876346613679615, "train/policy_logprob_min": -7.438384321000841, "train/policy_logprob_std": 1.0335744780207436, "train/policy_randomness_mag": 0.9539485308859084, "train/policy_randomness_max": 0.9539485308859084, "train/policy_randomness_mean": 0.144292760462988, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21568404280004047, "train/post_ent_mag": 55.57676630171518, "train/post_ent_max": 55.57676630171518, "train/post_ent_mean": 40.01261260017516, "train/post_ent_min": 19.36801734803215, "train/post_ent_std": 5.840000531030079, "train/prior_ent_mag": 76.73846762520927, "train/prior_ent_max": 76.73846762520927, "train/prior_ent_mean": 45.81828326270694, "train/prior_ent_min": 27.620453032236252, "train/prior_ent_std": 7.921159146324037, "train/rep_loss_mean": 5.8255026075575085, "train/rep_loss_std": 8.911192333887493, "train/reward_avg": 0.048914930058850184, "train/reward_loss_mean": 0.06301561092573499, "train/reward_loss_std": 0.2252171921824652, "train/reward_max_data": 1.0301587373491317, "train/reward_max_pred": 1.0322445914858864, "train/reward_neg_acc": 0.9931090341673957, "train/reward_neg_loss": 0.025815007010740892, "train/reward_pos_acc": 0.9891036105534387, "train/reward_pos_loss": 0.7235801333472842, "train/reward_pred": 0.04848379032715919, "train/reward_rate": 0.053230406746031744, "stats/sum_log_reward": 12.766666889190674, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 2.3333333333333335, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 12.666666666666666, "stats/max_log_achievement_collect_wood": 9.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.6666666666666667, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 1.3333333333333333, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_stone": 2.8333333333333335, "stats/max_log_achievement_place_table": 2.3333333333333335, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3199009299278259, "replay/size": 1000000.0, "replay/inserts": 1264.0, "replay/samples": 10112.0, "replay/insert_wait_avg": 3.5717517514772055e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.400591263288184e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2172577381134, "timer/env.step_count": 1264.0, "timer/env.step_total": 16.49334955215454, "timer/env.step_frac": 0.054938046121725884, "timer/env.step_avg": 0.013048536038096947, "timer/env.step_min": 0.0025370121002197266, "timer/env.step_max": 1.6277203559875488, "timer/replay.add_count": 1264.0, "timer/replay.add_total": 0.27739596366882324, "timer/replay.add_frac": 0.0009239840699324563, "timer/replay.add_avg": 0.0002194588320164741, "timer/replay.add_min": 7.605552673339844e-05, "timer/replay.add_max": 0.0009491443634033203, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03144335746765137, "timer/logger.write_frac": 0.00010473534301309271, "timer/logger.write_avg": 0.03144335746765137, "timer/logger.write_min": 0.03144335746765137, "timer/logger.write_max": 0.03144335746765137, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1264.0, "timer/agent.policy_total": 9.966626644134521, "timer/agent.policy_frac": 0.03319804703841724, "timer/agent.policy_avg": 0.007884989433650728, "timer/agent.policy_min": 0.005980253219604492, "timer/agent.policy_max": 0.01911330223083496, "timer/dataset_count": 632.0, "timer/dataset_total": 0.05984091758728027, "timer/dataset_frac": 0.00019932537535693873, "timer/dataset_avg": 9.468499618240549e-05, "timer/dataset_min": 7.271766662597656e-05, "timer/dataset_max": 0.00020503997802734375, "timer/agent.train_count": 632.0, "timer/agent.train_total": 272.70604038238525, "timer/agent.train_frac": 0.9083623054750343, "timer/agent.train_avg": 0.4314968993392172, "timer/agent.train_min": 0.36383652687072754, "timer/agent.train_max": 0.4606144428253174, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2672419548034668, "timer/agent.report_frac": 0.0008901618674985975, "timer/agent.report_avg": 0.2672419548034668, "timer/agent.report_min": 0.2672419548034668, "timer/agent.report_max": 0.2672419548034668, "fps": 4.21021181235031}
{"step": 1165716, "episode/length": 212.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.06103286384976526}
{"step": 1166186, "episode/length": 469.0, "episode/score": 15.100000023841858, "episode/sum_abs_reward": 18.300000071525574, "episode/reward_rate": 0.03404255319148936}
{"step": 1166367, "episode/length": 180.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.0718232044198895}
{"step": 1166571, "episode/length": 203.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.07352941176470588}
{"step": 1166749, "episode/length": 177.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.08426966292134831}
{"step": 1166857, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.395440870715726, "train/action_min": 0.0, "train/action_std": 3.2643791552512877, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03524284698669949, "train/actor_opt_grad_steps": 582565.0, "train/actor_opt_loss": -11.714912092974108, "train/adv_mag": 0.3647227320940264, "train/adv_max": 0.31915494126658284, "train/adv_mean": 0.0015145675985672091, "train/adv_min": -0.32227622573414155, "train/adv_std": 0.04084954332680472, "train/cont_avg": 0.9951644405241935, "train/cont_loss_mean": 0.00013636853146058842, "train/cont_loss_std": 0.004319827236749522, "train/cont_neg_acc": 0.9913978509364589, "train/cont_neg_loss": 0.02180853117128308, "train/cont_pos_acc": 0.9999999894249824, "train/cont_pos_loss": 1.5423705525609334e-05, "train/cont_pred": 0.9951935631613578, "train/cont_rate": 0.9951644405241935, "train/dyn_loss_mean": 5.680835969986454, "train/dyn_loss_std": 8.924564569227156, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8753918534325015, "train/extr_critic_critic_opt_grad_steps": 582565.0, "train/extr_critic_critic_opt_loss": 15026.260364163307, "train/extr_critic_mag": 12.47537789806243, "train/extr_critic_max": 12.47537789806243, "train/extr_critic_mean": 3.819334780016253, "train/extr_critic_min": -0.3109910718856319, "train/extr_critic_std": 2.964344793750394, "train/extr_return_normed_mag": 1.3761544727510022, "train/extr_return_normed_max": 1.3761544727510022, "train/extr_return_normed_mean": 0.3988798364035545, "train/extr_return_normed_min": -0.07589238167049424, "train/extr_return_normed_std": 0.31116051731571076, "train/extr_return_rate": 0.8568496300328162, "train/extr_return_raw_mag": 13.218993125423308, "train/extr_return_raw_max": 13.218993125423308, "train/extr_return_raw_mean": 3.83387965156186, "train/extr_return_raw_min": -0.7258190488623034, "train/extr_return_raw_std": 2.9883589167748728, "train/extr_reward_mag": 1.086641707727986, "train/extr_reward_max": 1.086641707727986, "train/extr_reward_mean": 0.06201470096505458, "train/extr_reward_min": -0.6174875382454165, "train/extr_reward_std": 0.2390601735922598, "train/image_loss_mean": 3.311588029707632, "train/image_loss_std": 8.57436014759925, "train/model_loss_mean": 6.782111644744873, "train/model_loss_std": 12.704152076475081, "train/model_opt_grad_norm": 20.524146772200062, "train/model_opt_grad_steps": 582085.0, "train/model_opt_loss": 16955.279092111894, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.695467548985635, "train/policy_entropy_max": 2.695467548985635, "train/policy_entropy_mean": 0.42652643207580815, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6299617651008791, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4259954150165281, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 1.0472882534227064, "train/policy_randomness_mag": 0.951381758336098, "train/policy_randomness_max": 0.951381758336098, "train/policy_randomness_mean": 0.1505451147114077, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22234885719033978, "train/post_ent_mag": 55.93613489212528, "train/post_ent_max": 55.93613489212528, "train/post_ent_mean": 39.98958206176758, "train/post_ent_min": 19.6622119257527, "train/post_ent_std": 5.801661752885388, "train/prior_ent_mag": 76.7541623269358, "train/prior_ent_max": 76.7541623269358, "train/prior_ent_mean": 45.66224528897193, "train/prior_ent_min": 27.55817327191753, "train/prior_ent_std": 7.952379488175915, "train/rep_loss_mean": 5.680835969986454, "train/rep_loss_std": 8.924564569227156, "train/reward_avg": 0.047615297198776274, "train/reward_loss_mean": 0.06188562272056457, "train/reward_loss_std": 0.22639858338140673, "train/reward_max_data": 1.035483879427756, "train/reward_max_pred": 1.0356709572576708, "train/reward_neg_acc": 0.9926690853411152, "train/reward_neg_loss": 0.025607899988010045, "train/reward_pos_acc": 0.9876942336559296, "train/reward_pos_loss": 0.7264946545324018, "train/reward_pred": 0.04733414848845813, "train/reward_rate": 0.05171055947580645, "stats/sum_log_reward": 13.500000190734863, "stats/max_log_achievement_collect_coal": 1.2, "stats/max_log_achievement_collect_drink": 4.2, "stats/max_log_achievement_collect_iron": 0.2, "stats/max_log_achievement_collect_sapling": 1.8, "stats/max_log_achievement_collect_stone": 13.6, "stats/max_log_achievement_collect_wood": 13.4, "stats/max_log_achievement_defeat_skeleton": 0.4, "stats/max_log_achievement_defeat_zombie": 2.2, "stats/max_log_achievement_eat_cow": 0.4, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8, "stats/max_log_achievement_make_stone_sword": 1.4, "stats/max_log_achievement_make_wood_pickaxe": 1.2, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.6, "stats/max_log_achievement_place_plant": 1.6, "stats/max_log_achievement_place_stone": 3.2, "stats/max_log_achievement_place_table": 3.2, "stats/max_log_achievement_wake_up": 1.2, "stats/mean_log_entropy": 0.45794463753700254, "replay/size": 1000000.0, "replay/inserts": 1240.0, "replay/samples": 9920.0, "replay/insert_wait_avg": 3.649534717682869e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3876345849806263e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0536935329437, "timer/env.step_count": 1240.0, "timer/env.step_total": 16.241801023483276, "timer/env.step_frac": 0.054129648704691065, "timer/env.step_avg": 0.013098226631841351, "timer/env.step_min": 0.003196239471435547, "timer/env.step_max": 1.7377593517303467, "timer/replay.add_count": 1240.0, "timer/replay.add_total": 0.2559316158294678, "timer/replay.add_frac": 0.0008529527259472589, "timer/replay.add_avg": 0.00020639646437860306, "timer/replay.add_min": 9.036064147949219e-05, "timer/replay.add_max": 0.0010867118835449219, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03713369369506836, "timer/logger.write_frac": 0.00012375682917894608, "timer/logger.write_avg": 0.03713369369506836, "timer/logger.write_min": 0.03713369369506836, "timer/logger.write_max": 0.03713369369506836, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00029587745666503906, "timer/checkpoint.save_frac": 9.860817015157118e-07, "timer/checkpoint.save_avg": 0.00029587745666503906, "timer/checkpoint.save_min": 0.00029587745666503906, "timer/checkpoint.save_max": 0.00029587745666503906, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.5373141765594482, "timer/agent.save_frac": 0.005123463598993032, "timer/agent.save_avg": 1.5373141765594482, "timer/agent.save_min": 1.5373141765594482, "timer/agent.save_max": 1.5373141765594482, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.05718994140625e-05, "timer/replay.save_frac": 2.3519756941873543e-07, "timer/replay.save_avg": 7.05718994140625e-05, "timer/replay.save_min": 7.05718994140625e-05, "timer/replay.save_max": 7.05718994140625e-05, "timer/agent.policy_count": 1240.0, "timer/agent.policy_total": 14.45495867729187, "timer/agent.policy_frac": 0.04817457338082999, "timer/agent.policy_avg": 0.011657224739751507, "timer/agent.policy_min": 0.00584721565246582, "timer/agent.policy_max": 3.080325126647949, "timer/dataset_count": 620.0, "timer/dataset_total": 0.059583425521850586, "timer/dataset_frac": 0.00019857587760474863, "timer/dataset_avg": 9.610229922879126e-05, "timer/dataset_min": 7.414817810058594e-05, "timer/dataset_max": 0.0001964569091796875, "timer/agent.train_count": 620.0, "timer/agent.train_total": 268.3279356956482, "timer/agent.train_frac": 0.8942663979111716, "timer/agent.train_avg": 0.43278699305749707, "timer/agent.train_min": 0.3807103633880615, "timer/agent.train_max": 0.5105545520782471, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2617645263671875, "timer/agent.report_frac": 0.0008723922818115473, "timer/agent.report_avg": 0.2617645263671875, "timer/agent.report_min": 0.2617645263671875, "timer/agent.report_max": 0.2617645263671875, "fps": 4.132516644069448}
{"step": 1166942, "episode/length": 192.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.07772020725388601}
{"step": 1167197, "episode/length": 254.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.30000001937151, "episode/reward_rate": 0.06274509803921569}
{"step": 1167439, "episode/length": 241.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 15.100000008940697, "episode/reward_rate": 0.05785123966942149}
{"step": 1167598, "episode/length": 158.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.050314465408805034}
{"step": 1167949, "episode/length": 350.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.30000003427267, "episode/reward_rate": 0.042735042735042736}
{"step": 1167988, "episode/length": 38.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 7.700000025331974, "episode/reward_rate": 0.1794871794871795}
{"step": 1168119, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.466115951538086, "train/action_min": 0.0, "train/action_std": 3.287844978272915, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.036692069115815684, "train/actor_opt_grad_steps": 583195.0, "train/actor_opt_loss": -11.231865194626153, "train/adv_mag": 0.3995716548524797, "train/adv_max": 0.31975572905503213, "train/adv_mean": 0.0018169134062873127, "train/adv_min": -0.3586451711598784, "train/adv_std": 0.04110230371588841, "train/cont_avg": 0.995208740234375, "train/cont_loss_mean": 2.176983384560849e-05, "train/cont_loss_std": 0.0006361847979690083, "train/cont_neg_acc": 0.9947916669771075, "train/cont_neg_loss": 0.004190737014142118, "train/cont_pos_acc": 0.9999999841675162, "train/cont_pos_loss": 8.276491711312062e-06, "train/cont_pred": 0.9952112967148423, "train/cont_rate": 0.995208740234375, "train/dyn_loss_mean": 5.913948215544224, "train/dyn_loss_std": 8.969238810241222, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8760249959304929, "train/extr_critic_critic_opt_grad_steps": 583195.0, "train/extr_critic_critic_opt_loss": 15400.038558959961, "train/extr_critic_mag": 12.4748525172472, "train/extr_critic_max": 12.4748525172472, "train/extr_critic_mean": 3.719779673963785, "train/extr_critic_min": -0.34623635560274124, "train/extr_critic_std": 2.9555284939706326, "train/extr_return_normed_mag": 1.3739938326179981, "train/extr_return_normed_max": 1.3739938326179981, "train/extr_return_normed_mean": 0.3883739816956222, "train/extr_return_normed_min": -0.07469024002784863, "train/extr_return_normed_std": 0.31071558385156095, "train/extr_return_rate": 0.8533020466566086, "train/extr_return_raw_mag": 13.192690178751945, "train/extr_return_raw_max": 13.192690178751945, "train/extr_return_raw_mean": 3.737212184816599, "train/extr_return_raw_min": -0.7047876077704132, "train/extr_return_raw_std": 2.980808675289154, "train/extr_reward_mag": 1.0838965736329556, "train/extr_reward_max": 1.0838965736329556, "train/extr_reward_mean": 0.06356200255686417, "train/extr_reward_min": -0.5995106063783169, "train/extr_reward_std": 0.24144940450787544, "train/image_loss_mean": 3.5525734275579453, "train/image_loss_std": 8.793465211987495, "train/model_loss_mean": 7.165125548839569, "train/model_loss_std": 12.940593183040619, "train/model_opt_grad_norm": 22.19899721443653, "train/model_opt_grad_steps": 582714.015625, "train/model_opt_loss": 10225.430923461914, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1406.25, "train/policy_entropy_mag": 2.6895742043852806, "train/policy_entropy_max": 2.6895742043852806, "train/policy_entropy_mean": 0.3983301112893969, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5947948037646711, "train/policy_logprob_mag": 7.438384287059307, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.39704415132291615, "train/policy_logprob_min": -7.438384287059307, "train/policy_logprob_std": 1.0207321336492896, "train/policy_randomness_mag": 0.9493016637861729, "train/policy_randomness_max": 0.9493016637861729, "train/policy_randomness_mean": 0.14059305074624717, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20993646327406168, "train/post_ent_mag": 56.11696529388428, "train/post_ent_max": 56.11696529388428, "train/post_ent_mean": 40.250883638858795, "train/post_ent_min": 19.305329620838165, "train/post_ent_std": 5.995522357523441, "train/prior_ent_mag": 76.79025399684906, "train/prior_ent_max": 76.79025399684906, "train/prior_ent_mean": 46.127483665943146, "train/prior_ent_min": 27.431876629590988, "train/prior_ent_std": 8.056350752711296, "train/rep_loss_mean": 5.913948215544224, "train/rep_loss_std": 8.969238810241222, "train/reward_avg": 0.04784698411822319, "train/reward_loss_mean": 0.06416146183619276, "train/reward_loss_std": 0.22937604901380837, "train/reward_max_data": 1.0453125108033419, "train/reward_max_pred": 1.0458361469209194, "train/reward_neg_acc": 0.9921307489275932, "train/reward_neg_loss": 0.027572816383326426, "train/reward_pos_acc": 0.9882179638370872, "train/reward_pos_loss": 0.7301315274089575, "train/reward_pred": 0.04743625351693481, "train/reward_rate": 0.0521392822265625, "stats/sum_log_reward": 11.4333336353302, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 3.3333333333333335, "stats/max_log_achievement_collect_iron": 0.3333333333333333, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 18.166666666666668, "stats/max_log_achievement_collect_wood": 9.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.1666666666666667, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 2.3333333333333335, "stats/max_log_achievement_place_plant": 1.1666666666666667, "stats/max_log_achievement_place_stone": 2.8333333333333335, "stats/max_log_achievement_place_table": 2.3333333333333335, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.4627586404482524, "replay/size": 1000000.0, "replay/inserts": 1262.0, "replay/samples": 10096.0, "replay/insert_wait_avg": 3.583268771647651e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4365805687881688e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0316753387451, "timer/env.step_count": 1262.0, "timer/env.step_total": 17.438401699066162, "timer/env.step_frac": 0.05812186889726781, "timer/env.step_avg": 0.013818067907342442, "timer/env.step_min": 0.0033164024353027344, "timer/env.step_max": 1.7479727268218994, "timer/replay.add_count": 1262.0, "timer/replay.add_total": 0.2727396488189697, "timer/replay.add_frac": 0.0009090361826331775, "timer/replay.add_avg": 0.00021611699589458775, "timer/replay.add_min": 7.43865966796875e-05, "timer/replay.add_max": 0.0010921955108642578, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022504568099975586, "timer/logger.write_frac": 7.50073073936851e-05, "timer/logger.write_avg": 0.022504568099975586, "timer/logger.write_min": 0.022504568099975586, "timer/logger.write_max": 0.022504568099975586, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1262.0, "timer/agent.policy_total": 10.17252230644226, "timer/agent.policy_frac": 0.03390482786511513, "timer/agent.policy_avg": 0.008060635742030317, "timer/agent.policy_min": 0.005984067916870117, "timer/agent.policy_max": 0.014396190643310547, "timer/dataset_count": 631.0, "timer/dataset_total": 0.060799598693847656, "timer/dataset_frac": 0.00020264393292875833, "timer/dataset_avg": 9.635435609167616e-05, "timer/dataset_min": 7.224082946777344e-05, "timer/dataset_max": 0.00024080276489257812, "timer/agent.train_count": 631.0, "timer/agent.train_total": 271.4114570617676, "timer/agent.train_frac": 0.9046093441811954, "timer/agent.train_avg": 0.4301290920154795, "timer/agent.train_min": 0.37030482292175293, "timer/agent.train_max": 0.4604027271270752, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2281649112701416, "timer/agent.report_frac": 0.0007604694104798645, "timer/agent.report_avg": 0.2281649112701416, "timer/agent.report_min": 0.2281649112701416, "timer/agent.report_max": 0.2281649112701416, "fps": 4.206136491872236}
{"step": 1168195, "episode/length": 206.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.06280193236714976}
{"step": 1168480, "episode/length": 284.0, "episode/score": 16.100000001490116, "episode/sum_abs_reward": 18.900000043213367, "episode/reward_rate": 0.05964912280701754}
{"step": 1168611, "episode/length": 130.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.0916030534351145}
{"step": 1168918, "episode/length": 306.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.30000003427267, "episode/reward_rate": 0.048859934853420196}
{"step": 1169125, "episode/length": 206.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06280193236714976}
{"step": 1169375, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.417821084299395, "train/action_min": 0.0, "train/action_std": 3.2947199767635715, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03728880862435026, "train/actor_opt_grad_steps": 583825.0, "train/actor_opt_loss": -11.216109412331734, "train/adv_mag": 0.39122035690853674, "train/adv_max": 0.3280783711421874, "train/adv_mean": 0.001982434126060276, "train/adv_min": -0.35124065847166125, "train/adv_std": 0.04197910788559144, "train/cont_avg": 0.9949439264112904, "train/cont_loss_mean": 0.00017055263320100362, "train/cont_loss_std": 0.005378765502923083, "train/cont_neg_acc": 0.9923195098676989, "train/cont_neg_loss": 0.03368220067437366, "train/cont_pos_acc": 0.9999841230530893, "train/cont_pos_loss": 3.678040597776544e-05, "train/cont_pred": 0.9949567173757861, "train/cont_rate": 0.9949439264112904, "train/dyn_loss_mean": 5.6549812439949285, "train/dyn_loss_std": 8.819530340933031, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9116787458619764, "train/extr_critic_critic_opt_grad_steps": 583825.0, "train/extr_critic_critic_opt_loss": 15270.556420110886, "train/extr_critic_mag": 12.51176954084827, "train/extr_critic_max": 12.51176954084827, "train/extr_critic_mean": 3.8621021316897486, "train/extr_critic_min": -0.34661718337766584, "train/extr_critic_std": 3.0277913424276535, "train/extr_return_normed_mag": 1.3792506667875475, "train/extr_return_normed_max": 1.3792506667875475, "train/extr_return_normed_mean": 0.4017412119334744, "train/extr_return_normed_min": -0.06843959194638076, "train/extr_return_normed_std": 0.31710002643446766, "train/extr_return_rate": 0.8516885570941433, "train/extr_return_raw_mag": 13.302502755195864, "train/extr_return_raw_max": 13.302502755195864, "train/extr_return_raw_mean": 3.881221313630381, "train/extr_return_raw_min": -0.651507797020097, "train/extr_return_raw_std": 3.056738342008283, "train/extr_reward_mag": 1.084167484314211, "train/extr_reward_max": 1.084167484314211, "train/extr_reward_mean": 0.06442669021987146, "train/extr_reward_min": -0.5936137168638168, "train/extr_reward_std": 0.24353111222867044, "train/image_loss_mean": 3.333814705571821, "train/image_loss_std": 8.423385058679889, "train/model_loss_mean": 6.7894439697265625, "train/model_loss_std": 12.48280857455346, "train/model_opt_grad_norm": 21.415506639788227, "train/model_opt_grad_steps": 583343.0, "train/model_opt_loss": 4243.402473695816, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 625.0, "train/policy_entropy_mag": 2.681165164516818, "train/policy_entropy_max": 2.681165164516818, "train/policy_entropy_mean": 0.4019917441952613, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6088435625837695, "train/policy_logprob_mag": 7.438384317582654, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4023854501785771, "train/policy_logprob_min": -7.438384317582654, "train/policy_logprob_std": 1.0296560179802678, "train/policy_randomness_mag": 0.946333642928831, "train/policy_randomness_max": 0.946333642928831, "train/policy_randomness_mean": 0.1418854439210507, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21489505710140352, "train/post_ent_mag": 56.81913369701755, "train/post_ent_max": 56.81913369701755, "train/post_ent_mean": 40.3185055640436, "train/post_ent_min": 19.79531401972617, "train/post_ent_std": 5.994234692665838, "train/prior_ent_mag": 76.81307466568485, "train/prior_ent_max": 76.81307466568485, "train/prior_ent_mean": 45.98066957535282, "train/prior_ent_min": 27.583682275587513, "train/prior_ent_std": 8.012936030664752, "train/rep_loss_mean": 5.6549812439949285, "train/rep_loss_std": 8.819530340933031, "train/reward_avg": 0.049102192263930075, "train/reward_loss_mean": 0.06247004301797959, "train/reward_loss_std": 0.2179644473137394, "train/reward_max_data": 1.0338709758174034, "train/reward_max_pred": 1.0308510680352487, "train/reward_neg_acc": 0.993342513038266, "train/reward_neg_loss": 0.02553875014306076, "train/reward_pos_acc": 0.9915852585146504, "train/reward_pos_loss": 0.7157533620634386, "train/reward_pred": 0.04879858831484472, "train/reward_rate": 0.05360068044354839, "stats/sum_log_reward": 13.100000190734864, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 1.2, "stats/max_log_achievement_collect_iron": 0.4, "stats/max_log_achievement_collect_sapling": 1.6, "stats/max_log_achievement_collect_stone": 16.0, "stats/max_log_achievement_collect_wood": 12.2, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.2, "stats/max_log_achievement_eat_cow": 0.6, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8, "stats/max_log_achievement_make_stone_sword": 0.8, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.2, "stats/max_log_achievement_place_plant": 1.4, "stats/max_log_achievement_place_stone": 3.4, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.4, "stats/mean_log_entropy": 0.39322527647018435, "replay/size": 1000000.0, "replay/inserts": 1256.0, "replay/samples": 10048.0, "replay/insert_wait_avg": 3.7120026387986104e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4185051249850328e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.32603454589844, "timer/env.step_count": 1256.0, "timer/env.step_total": 16.068732738494873, "timer/env.step_frac": 0.05350429496660607, "timer/env.step_avg": 0.012793577021094644, "timer/env.step_min": 0.0030274391174316406, "timer/env.step_max": 1.761091947555542, "timer/replay.add_count": 1256.0, "timer/replay.add_total": 0.28206515312194824, "timer/replay.add_frac": 0.0009391964754185858, "timer/replay.add_avg": 0.00022457416649836643, "timer/replay.add_min": 8.058547973632812e-05, "timer/replay.add_max": 0.000701904296875, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02362513542175293, "timer/logger.write_frac": 7.8664959757734e-05, "timer/logger.write_avg": 0.02362513542175293, "timer/logger.write_min": 0.02362513542175293, "timer/logger.write_max": 0.02362513542175293, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1256.0, "timer/agent.policy_total": 9.936442136764526, "timer/agent.policy_frac": 0.03308551705079019, "timer/agent.policy_avg": 0.007911180045194687, "timer/agent.policy_min": 0.0059719085693359375, "timer/agent.policy_max": 0.01491236686706543, "timer/dataset_count": 628.0, "timer/dataset_total": 0.05928468704223633, "timer/dataset_frac": 0.00019740109155663601, "timer/dataset_avg": 9.44023679016502e-05, "timer/dataset_min": 6.818771362304688e-05, "timer/dataset_max": 0.00024962425231933594, "timer/agent.train_count": 628.0, "timer/agent.train_total": 273.2819323539734, "timer/agent.train_frac": 0.9099508564656524, "timer/agent.train_avg": 0.4351623126655627, "timer/agent.train_min": 0.3691098690032959, "timer/agent.train_max": 0.4572625160217285, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.26053595542907715, "timer/agent.report_frac": 0.0008675103902431069, "timer/agent.report_avg": 0.26053595542907715, "timer/agent.report_min": 0.26053595542907715, "timer/agent.report_max": 0.26053595542907715, "fps": 4.182052152134145}
{"step": 1169446, "episode/length": 320.0, "episode/score": 14.099999979138374, "episode/sum_abs_reward": 16.100000023841858, "episode/reward_rate": 0.04672897196261682}
{"step": 1169629, "episode/length": 182.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.700000025331974, "episode/reward_rate": 0.08743169398907104}
{"step": 1169863, "episode/length": 233.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.500000037252903, "episode/reward_rate": 0.0641025641025641}
{"step": 1169994, "episode/length": 130.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.100000031292439, "episode/reward_rate": 0.08396946564885496}
{"step": 1170168, "episode/length": 173.0, "episode/score": 8.100000016391277, "episode/sum_abs_reward": 9.700000040233135, "episode/reward_rate": 0.05172413793103448}
{"step": 1170531, "episode/length": 362.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 18.10000003129244, "episode/reward_rate": 0.0440771349862259}
{"step": 1170617, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.358776461693548, "train/action_min": 0.0, "train/action_std": 3.264305033991414, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.036387500293072195, "train/actor_opt_grad_steps": 584445.0, "train/actor_opt_loss": -8.868039104727007, "train/adv_mag": 0.40117501539568745, "train/adv_max": 0.3167743430502953, "train/adv_mean": 0.001941957563347739, "train/adv_min": -0.3688016591533538, "train/adv_std": 0.04071213845764437, "train/cont_avg": 0.9947076612903226, "train/cont_loss_mean": 3.0340961158099014e-05, "train/cont_loss_std": 0.0009174563284590836, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0029614244123027413, "train/cont_pos_acc": 0.999984166314525, "train/cont_pos_loss": 1.5860539314822348e-05, "train/cont_pred": 0.9947075103559802, "train/cont_rate": 0.9947076612903226, "train/dyn_loss_mean": 6.033795495187083, "train/dyn_loss_std": 8.899009243134529, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8676423209328805, "train/extr_critic_critic_opt_grad_steps": 584445.0, "train/extr_critic_critic_opt_loss": 15095.200825352822, "train/extr_critic_mag": 12.525153252386279, "train/extr_critic_max": 12.525153252386279, "train/extr_critic_mean": 3.7974652244198706, "train/extr_critic_min": -0.36056761587819747, "train/extr_critic_std": 3.014703039200075, "train/extr_return_normed_mag": 1.3821681026489503, "train/extr_return_normed_max": 1.3821681026489503, "train/extr_return_normed_mean": 0.3944850818764779, "train/extr_return_normed_min": -0.07305121223532385, "train/extr_return_normed_std": 0.3155149019533588, "train/extr_return_rate": 0.8545573382608352, "train/extr_return_raw_mag": 13.33852658733245, "train/extr_return_raw_max": 13.33852658733245, "train/extr_return_raw_mean": 3.816185382104689, "train/extr_return_raw_min": -0.6916744978197159, "train/extr_return_raw_std": 3.0422143205519645, "train/extr_reward_mag": 1.0797571059196227, "train/extr_reward_max": 1.0797571059196227, "train/extr_reward_mean": 0.06151883123863128, "train/extr_reward_min": -0.5877422152027008, "train/extr_reward_std": 0.23844609914287443, "train/image_loss_mean": 3.482022541184579, "train/image_loss_std": 8.436789304979387, "train/model_loss_mean": 7.165531866012081, "train/model_loss_std": 12.513927152079921, "train/model_opt_grad_norm": 22.36015821272327, "train/model_opt_grad_steps": 583963.0, "train/model_opt_loss": 7138.872991746472, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1008.0645161290323, "train/policy_entropy_mag": 2.7015564633953955, "train/policy_entropy_max": 2.7015564633953955, "train/policy_entropy_mean": 0.4310275268170141, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6367135494947433, "train/policy_logprob_mag": 7.438384325273575, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.43134852330530843, "train/policy_logprob_min": -7.438384325273575, "train/policy_logprob_std": 1.051055654402702, "train/policy_randomness_mag": 0.953530877828598, "train/policy_randomness_max": 0.953530877828598, "train/policy_randomness_mean": 0.15213380129106582, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2247319396945738, "train/post_ent_mag": 55.381048387096776, "train/post_ent_max": 55.381048387096776, "train/post_ent_mean": 40.19354986375378, "train/post_ent_min": 19.440209034950502, "train/post_ent_std": 5.968942903703259, "train/prior_ent_mag": 76.6475086827432, "train/prior_ent_max": 76.6475086827432, "train/prior_ent_mean": 46.14834422449912, "train/prior_ent_min": 27.824023400583574, "train/prior_ent_std": 7.866040875834804, "train/rep_loss_mean": 6.033795495187083, "train/rep_loss_std": 8.899009243134529, "train/reward_avg": 0.04877929632822352, "train/reward_loss_mean": 0.06320179295876334, "train/reward_loss_std": 0.222197734059826, "train/reward_max_data": 1.0370967830381086, "train/reward_max_pred": 1.0360190137740104, "train/reward_neg_acc": 0.9930179686315598, "train/reward_neg_loss": 0.026187579853520278, "train/reward_pos_acc": 0.9895540745027603, "train/reward_pos_loss": 0.7220544517040253, "train/reward_pred": 0.048364366344626875, "train/reward_rate": 0.053317162298387094, "stats/sum_log_reward": 12.766666889190674, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 12.333333333333334, "stats/max_log_achievement_collect_wood": 14.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.1666666666666667, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_stone_sword": 1.3333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.5, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 3.3333333333333335, "stats/max_log_achievement_place_table": 3.3333333333333335, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.5499882151683172, "replay/size": 1000000.0, "replay/inserts": 1242.0, "replay/samples": 9936.0, "replay/insert_wait_avg": 3.5225289263395106e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4542189581190714e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.12970876693726, "timer/env.step_count": 1242.0, "timer/env.step_total": 18.89170789718628, "timer/env.step_frac": 0.06294514453368043, "timer/env.step_avg": 0.015210714893064636, "timer/env.step_min": 0.0026962757110595703, "timer/env.step_max": 1.8465876579284668, "timer/replay.add_count": 1242.0, "timer/replay.add_total": 0.2587575912475586, "timer/replay.add_frac": 0.0008621525416815509, "timer/replay.add_avg": 0.00020833944544891995, "timer/replay.add_min": 7.43865966796875e-05, "timer/replay.add_max": 0.0005517005920410156, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03646039962768555, "timer/logger.write_frac": 0.00012148214109653006, "timer/logger.write_avg": 0.03646039962768555, "timer/logger.write_min": 0.03646039962768555, "timer/logger.write_max": 0.03646039962768555, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002434253692626953, "timer/checkpoint.save_frac": 8.110672224445627e-07, "timer/checkpoint.save_avg": 0.0002434253692626953, "timer/checkpoint.save_min": 0.0002434253692626953, "timer/checkpoint.save_max": 0.0002434253692626953, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1921319961547852, "timer/agent.save_frac": 0.003972055952250043, "timer/agent.save_avg": 1.1921319961547852, "timer/agent.save_min": 1.1921319961547852, "timer/agent.save_max": 1.1921319961547852, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.940696716308594e-05, "timer/replay.save_frac": 2.9789442548159746e-07, "timer/replay.save_avg": 8.940696716308594e-05, "timer/replay.save_min": 8.940696716308594e-05, "timer/replay.save_max": 8.940696716308594e-05, "timer/agent.policy_count": 1242.0, "timer/agent.policy_total": 11.873240232467651, "timer/agent.policy_frac": 0.039560363021868314, "timer/agent.policy_avg": 0.009559774744337883, "timer/agent.policy_min": 0.00600433349609375, "timer/agent.policy_max": 1.1865415573120117, "timer/dataset_count": 621.0, "timer/dataset_total": 0.05620765686035156, "timer/dataset_frac": 0.00018727788425636685, "timer/dataset_avg": 9.051152473486564e-05, "timer/dataset_min": 6.508827209472656e-05, "timer/dataset_max": 0.00016689300537109375, "timer/agent.train_count": 621.0, "timer/agent.train_total": 268.33605456352234, "timer/agent.train_frac": 0.8940669541378059, "timer/agent.train_avg": 0.43210314744528555, "timer/agent.train_min": 0.37770843505859375, "timer/agent.train_max": 0.9114789962768555, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2647271156311035, "timer/agent.report_frac": 0.0008820423566821061, "timer/agent.report_avg": 0.2647271156311035, "timer/agent.report_min": 0.2647271156311035, "timer/agent.report_max": 0.2647271156311035, "fps": 4.138127184260785}
{"step": 1170750, "episode/length": 218.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.0730593607305936}
{"step": 1171097, "episode/length": 346.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 15.900000013411045, "episode/reward_rate": 0.043227665706051875}
{"step": 1171283, "episode/length": 185.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.05913978494623656}
{"step": 1171423, "episode/length": 139.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.08571428571428572}
{"step": 1171640, "episode/length": 216.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.055299539170506916}
{"step": 1171849, "episode/length": 208.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.30000004172325, "episode/reward_rate": 0.07177033492822966}
{"step": 1171875, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.392249697730655, "train/action_min": 0.0, "train/action_std": 3.269007614680699, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.036356404867200626, "train/actor_opt_grad_steps": 585070.0, "train/actor_opt_loss": -11.098796727165343, "train/adv_mag": 0.38558976872572825, "train/adv_max": 0.31794371775218416, "train/adv_mean": 0.0016230544303638568, "train/adv_min": -0.34389006074458833, "train/adv_std": 0.04085888252371833, "train/cont_avg": 0.9953652033730159, "train/cont_loss_mean": 4.092742083045438e-06, "train/cont_loss_std": 0.0001132570625607456, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 4.608222220601833e-05, "train/cont_pos_acc": 0.999999980131785, "train/cont_pos_loss": 3.885253333477421e-06, "train/cont_pred": 0.9953616989983453, "train/cont_rate": 0.9953652033730159, "train/dyn_loss_mean": 5.9017836101471435, "train/dyn_loss_std": 8.917173279656303, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8736783540438092, "train/extr_critic_critic_opt_grad_steps": 585070.0, "train/extr_critic_critic_opt_loss": 15086.62763516865, "train/extr_critic_mag": 12.569200561160134, "train/extr_critic_max": 12.569200561160134, "train/extr_critic_mean": 3.822412574102008, "train/extr_critic_min": -0.3011069449167403, "train/extr_critic_std": 2.9536093681577653, "train/extr_return_normed_mag": 1.3819560436975389, "train/extr_return_normed_max": 1.3819560436975389, "train/extr_return_normed_mean": 0.3982810519990467, "train/extr_return_normed_min": -0.06705713975760672, "train/extr_return_normed_std": 0.31109747385221814, "train/extr_return_rate": 0.8671679080478729, "train/extr_return_raw_mag": 13.260670495411706, "train/extr_return_raw_max": 13.260670495411706, "train/extr_return_raw_mean": 3.837962404129997, "train/extr_return_raw_min": -0.6199751335477072, "train/extr_return_raw_std": 2.9802374915471153, "train/extr_reward_mag": 1.0893392146579803, "train/extr_reward_max": 1.0893392146579803, "train/extr_reward_mean": 0.06221663602997386, "train/extr_reward_min": -0.5956445932388306, "train/extr_reward_std": 0.2391498140872471, "train/image_loss_mean": 3.4435125967812916, "train/image_loss_std": 8.596996837192112, "train/model_loss_mean": 7.046803822593083, "train/model_loss_std": 12.69757316226051, "train/model_opt_grad_norm": 19.6037415095738, "train/model_opt_grad_steps": 584588.0, "train/model_opt_loss": 8808.504813058036, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.702155154848856, "train/policy_entropy_max": 2.702155154848856, "train/policy_entropy_mean": 0.416863585275317, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6239494634053063, "train/policy_logprob_mag": 7.438384298294309, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41815407597829424, "train/policy_logprob_min": -7.438384298294309, "train/policy_logprob_std": 1.043484836343735, "train/policy_randomness_mag": 0.9537421890667507, "train/policy_randomness_max": 0.9537421890667507, "train/policy_randomness_mean": 0.14713455334542289, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22022677816095806, "train/post_ent_mag": 56.040409330337766, "train/post_ent_max": 56.040409330337766, "train/post_ent_mean": 40.22902546231709, "train/post_ent_min": 19.60749265882704, "train/post_ent_std": 5.91847776988196, "train/prior_ent_mag": 76.71964917864118, "train/prior_ent_max": 76.71964917864118, "train/prior_ent_mean": 46.11346586923751, "train/prior_ent_min": 28.093402438693577, "train/prior_ent_std": 7.849654356638591, "train/rep_loss_mean": 5.9017836101471435, "train/rep_loss_std": 8.917173279656303, "train/reward_avg": 0.048550656774923914, "train/reward_loss_mean": 0.06221700229105495, "train/reward_loss_std": 0.22099417779180738, "train/reward_max_data": 1.0412698511093381, "train/reward_max_pred": 1.0394768071553064, "train/reward_neg_acc": 0.9932335388092768, "train/reward_neg_loss": 0.025446552798033706, "train/reward_pos_acc": 0.9909891419940524, "train/reward_pos_loss": 0.7174198050347586, "train/reward_pred": 0.04828938850689502, "train/reward_rate": 0.053059895833333336, "stats/sum_log_reward": 12.600000381469727, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 16.333333333333332, "stats/max_log_achievement_collect_wood": 13.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 1.1666666666666667, "stats/max_log_achievement_make_wood_pickaxe": 1.6666666666666667, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 4.5, "stats/max_log_achievement_place_table": 2.6666666666666665, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.40395908802747726, "replay/size": 1000000.0, "replay/inserts": 1258.0, "replay/samples": 10064.0, "replay/insert_wait_avg": 3.5823433880586124e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4056367222190092e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.00350427627563, "timer/env.step_count": 1258.0, "timer/env.step_total": 17.11679244041443, "timer/env.step_frac": 0.05705530834283668, "timer/env.step_avg": 0.013606353291267432, "timer/env.step_min": 0.002582073211669922, "timer/env.step_max": 1.6100614070892334, "timer/replay.add_count": 1258.0, "timer/replay.add_total": 0.2829141616821289, "timer/replay.add_frac": 0.0009430361900759365, "timer/replay.add_avg": 0.00022489202041504682, "timer/replay.add_min": 8.416175842285156e-05, "timer/replay.add_max": 0.0012543201446533203, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02362823486328125, "timer/logger.write_frac": 7.875986288987417e-05, "timer/logger.write_avg": 0.02362823486328125, "timer/logger.write_min": 0.02362823486328125, "timer/logger.write_max": 0.02362823486328125, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1258.0, "timer/agent.policy_total": 9.904001235961914, "timer/agent.policy_frac": 0.03301295183152674, "timer/agent.policy_avg": 0.007872814972942697, "timer/agent.policy_min": 0.0058765411376953125, "timer/agent.policy_max": 0.015350103378295898, "timer/dataset_count": 629.0, "timer/dataset_total": 0.059229135513305664, "timer/dataset_frac": 0.00019742814556846335, "timer/dataset_avg": 9.416396742973874e-05, "timer/dataset_min": 6.794929504394531e-05, "timer/dataset_max": 0.0001895427703857422, "timer/agent.train_count": 629.0, "timer/agent.train_total": 271.937509059906, "timer/agent.train_frac": 0.9064477753882387, "timer/agent.train_avg": 0.4323330827661463, "timer/agent.train_min": 0.3676948547363281, "timer/agent.train_max": 0.456554651260376, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.26210784912109375, "timer/agent.report_frac": 0.0008736826249859952, "timer/agent.report_avg": 0.26210784912109375, "timer/agent.report_min": 0.26210784912109375, "timer/agent.report_max": 0.26210784912109375, "fps": 4.1932158271604525}
{"step": 1172038, "episode/length": 188.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 17.700000040233135, "episode/reward_rate": 0.08465608465608465}
{"step": 1172233, "episode/length": 194.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.06153846153846154}
{"step": 1172651, "episode/length": 417.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.700000025331974, "episode/reward_rate": 0.03827751196172249}
{"step": 1172844, "episode/length": 192.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.08290155440414508}
{"step": 1173053, "episode/length": 208.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.30000001937151, "episode/reward_rate": 0.07655502392344497}
{"step": 1173133, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4423944382440474, "train/action_min": 0.0, "train/action_std": 3.3218504020145962, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.035329495334909075, "train/actor_opt_grad_steps": 585700.0, "train/actor_opt_loss": -10.822194415425498, "train/adv_mag": 0.38550033290234825, "train/adv_max": 0.30638729840043993, "train/adv_mean": 0.00193428739051645, "train/adv_min": -0.3427044070429272, "train/adv_std": 0.04005320157323565, "train/cont_avg": 0.9954427083333334, "train/cont_loss_mean": 3.918276898312501e-06, "train/cont_loss_std": 7.460106573127798e-05, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 4.362911376049843e-06, "train/cont_pos_acc": 0.9999999839162069, "train/cont_pos_loss": 3.9146417920154e-06, "train/cont_pred": 0.9954389314802866, "train/cont_rate": 0.9954427083333334, "train/dyn_loss_mean": 5.896237827482677, "train/dyn_loss_std": 9.006435000707233, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9014676478173997, "train/extr_critic_critic_opt_grad_steps": 585700.0, "train/extr_critic_critic_opt_loss": 15153.156560019841, "train/extr_critic_mag": 12.413238328600686, "train/extr_critic_max": 12.413238328600686, "train/extr_critic_mean": 3.695427970280723, "train/extr_critic_min": -0.3453198160443987, "train/extr_critic_std": 2.9579272724333263, "train/extr_return_normed_mag": 1.3661662434774733, "train/extr_return_normed_max": 1.3661662434774733, "train/extr_return_normed_mean": 0.3873839307399023, "train/extr_return_normed_min": -0.06938505941440189, "train/extr_return_normed_std": 0.3121600148696748, "train/extr_return_rate": 0.8528398218609038, "train/extr_return_raw_mag": 13.068921255686927, "train/extr_return_raw_max": 13.068921255686927, "train/extr_return_raw_mean": 3.7139051830957808, "train/extr_return_raw_min": -0.6525489763608054, "train/extr_return_raw_std": 2.983940321301657, "train/extr_reward_mag": 1.0818385850815546, "train/extr_reward_max": 1.0818385850815546, "train/extr_reward_mean": 0.0635945594145192, "train/extr_reward_min": -0.5799942489654298, "train/extr_reward_std": 0.24152549557269565, "train/image_loss_mean": 3.6116305192311606, "train/image_loss_std": 8.57236155252608, "train/model_loss_mean": 7.212307967836895, "train/model_loss_std": 12.747460819426037, "train/model_opt_grad_norm": 19.959076260763503, "train/model_opt_grad_steps": 585218.0, "train/model_opt_loss": 18030.76998077877, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6977877957480296, "train/policy_entropy_max": 2.6977877957480296, "train/policy_entropy_mean": 0.4323662486341264, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6390009938724457, "train/policy_logprob_mag": 7.438384290725466, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4316045282379029, "train/policy_logprob_min": -7.438384290725466, "train/policy_logprob_std": 1.0517583461034865, "train/policy_randomness_mag": 0.9522007003663078, "train/policy_randomness_max": 0.9522007003663078, "train/policy_randomness_mean": 0.1526063129542366, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22553931034746624, "train/post_ent_mag": 55.88954846821134, "train/post_ent_max": 55.88954846821134, "train/post_ent_mean": 40.30429143754263, "train/post_ent_min": 19.82797380477663, "train/post_ent_std": 5.879402887253534, "train/prior_ent_mag": 76.77874077690973, "train/prior_ent_max": 76.77874077690973, "train/prior_ent_mean": 46.18518381270151, "train/prior_ent_min": 28.270650530618333, "train/prior_ent_std": 7.934450179811508, "train/rep_loss_mean": 5.896237827482677, "train/rep_loss_std": 9.006435000707233, "train/reward_avg": 0.04878162160988838, "train/reward_loss_mean": 0.06293093643727757, "train/reward_loss_std": 0.22335186411464025, "train/reward_max_data": 1.0301587373491317, "train/reward_max_pred": 1.0285165120684912, "train/reward_neg_acc": 0.9921704937541296, "train/reward_neg_loss": 0.02600081633066847, "train/reward_pos_acc": 0.9904876729798695, "train/reward_pos_loss": 0.7203259297779628, "train/reward_pred": 0.04854460051726727, "train/reward_rate": 0.053168402777777776, "stats/sum_log_reward": 14.300000190734863, "stats/max_log_achievement_collect_coal": 1.2, "stats/max_log_achievement_collect_drink": 3.2, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.4, "stats/max_log_achievement_collect_stone": 21.8, "stats/max_log_achievement_collect_wood": 14.4, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.6, "stats/max_log_achievement_eat_cow": 0.8, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.4, "stats/max_log_achievement_make_stone_sword": 1.4, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2, "stats/max_log_achievement_place_furnace": 3.2, "stats/max_log_achievement_place_plant": 1.4, "stats/max_log_achievement_place_stone": 3.4, "stats/max_log_achievement_place_table": 4.4, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.4226825416088104, "replay/size": 1000000.0, "replay/inserts": 1258.0, "replay/samples": 10064.0, "replay/insert_wait_avg": 3.5516408365367897e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4136677137050416e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.11334252357483, "timer/env.step_count": 1258.0, "timer/env.step_total": 15.98958134651184, "timer/env.step_frac": 0.05327847543218046, "timer/env.step_avg": 0.01271031903538302, "timer/env.step_min": 0.0029709339141845703, "timer/env.step_max": 2.0079116821289062, "timer/replay.add_count": 1258.0, "timer/replay.add_total": 0.29407596588134766, "timer/replay.add_frac": 0.0009798830115600311, "timer/replay.add_avg": 0.00023376467876100768, "timer/replay.add_min": 7.963180541992188e-05, "timer/replay.add_max": 0.0008351802825927734, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.031662940979003906, "timer/logger.write_frac": 0.00010550327657130634, "timer/logger.write_avg": 0.031662940979003906, "timer/logger.write_min": 0.031662940979003906, "timer/logger.write_max": 0.031662940979003906, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1258.0, "timer/agent.policy_total": 9.963841438293457, "timer/agent.policy_frac": 0.033200261456255535, "timer/agent.policy_avg": 0.00792038270134615, "timer/agent.policy_min": 0.00614476203918457, "timer/agent.policy_max": 0.04721331596374512, "timer/dataset_count": 629.0, "timer/dataset_total": 0.06646990776062012, "timer/dataset_frac": 0.00022148268118202277, "timer/dataset_avg": 0.00010567552903119256, "timer/dataset_min": 7.510185241699219e-05, "timer/dataset_max": 0.0001971721649169922, "timer/agent.train_count": 629.0, "timer/agent.train_total": 273.09307193756104, "timer/agent.train_frac": 0.9099664468137025, "timer/agent.train_avg": 0.4341702256558999, "timer/agent.train_min": 0.37958621978759766, "timer/agent.train_max": 0.4588322639465332, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2603332996368408, "timer/agent.report_frac": 0.0008674499355735603, "timer/agent.report_avg": 0.2603332996368408, "timer/agent.report_min": 0.2603332996368408, "timer/agent.report_max": 0.2603332996368408, "fps": 4.191661380743728}
{"step": 1173313, "episode/length": 259.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 14.900000013411045, "episode/reward_rate": 0.05384615384615385}
{"step": 1173553, "episode/length": 239.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 18.300000049173832, "episode/reward_rate": 0.06666666666666667}
{"step": 1173790, "episode/length": 236.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.05907172995780591}
{"step": 1173924, "episode/length": 133.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.08208955223880597}
{"step": 1174115, "episode/length": 190.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.07329842931937172}
{"step": 1174336, "episode/length": 220.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.058823529411764705}
{"step": 1174365, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.364571848223286, "train/action_min": 0.0, "train/action_std": 3.251919969435661, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03699183082508464, "train/actor_opt_grad_steps": 586325.0, "train/actor_opt_loss": -11.091854476159618, "train/adv_mag": 0.3794900366375523, "train/adv_max": 0.32098240213048074, "train/adv_mean": 0.0022243081128826524, "train/adv_min": -0.3515999701715285, "train/adv_std": 0.04160432914091695, "train/cont_avg": 0.9951644405241935, "train/cont_loss_mean": 0.0001434454199687982, "train/cont_loss_std": 0.004543024150555011, "train/cont_neg_acc": 0.9967741937406601, "train/cont_neg_loss": 0.021716737203475594, "train/cont_pos_acc": 0.9999841345894721, "train/cont_pos_loss": 3.761625936066036e-05, "train/cont_pred": 0.9951561958559098, "train/cont_rate": 0.9951644405241935, "train/dyn_loss_mean": 5.821123876879292, "train/dyn_loss_std": 8.915352075330672, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8837232733926466, "train/extr_critic_critic_opt_grad_steps": 586325.0, "train/extr_critic_critic_opt_loss": 15181.0335969002, "train/extr_critic_mag": 12.420195564146965, "train/extr_critic_max": 12.420195564146965, "train/extr_critic_mean": 3.8706856312290316, "train/extr_critic_min": -0.341466897918332, "train/extr_critic_std": 3.04409533931363, "train/extr_return_normed_mag": 1.3707133127797035, "train/extr_return_normed_max": 1.3707133127797035, "train/extr_return_normed_mean": 0.40350034063862217, "train/extr_return_normed_min": -0.07390890889350445, "train/extr_return_normed_std": 0.31926481377693916, "train/extr_return_rate": 0.8583102793462815, "train/extr_return_raw_mag": 13.197562356148996, "train/extr_return_raw_max": 13.197562356148996, "train/extr_return_raw_mean": 3.892067059393852, "train/extr_return_raw_min": -0.7006128415946038, "train/extr_return_raw_std": 3.07144856837488, "train/extr_reward_mag": 1.0894145004210933, "train/extr_reward_max": 1.0894145004210933, "train/extr_reward_mean": 0.06597854160974102, "train/extr_reward_min": -0.6418722694919955, "train/extr_reward_std": 0.24669341334412176, "train/image_loss_mean": 3.4990094284857474, "train/image_loss_std": 8.509868906390283, "train/model_loss_mean": 7.0571343206590225, "train/model_loss_std": 12.638017254491006, "train/model_opt_grad_norm": 20.244883629583544, "train/model_opt_grad_steps": 585842.5967741936, "train/model_opt_loss": 17642.835716985886, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6663969255262807, "train/policy_entropy_max": 2.6663969255262807, "train/policy_entropy_mean": 0.4010170176625252, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.5923819729397374, "train/policy_logprob_mag": 7.438384348346341, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4020679578665764, "train/policy_logprob_min": -7.438384348346341, "train/policy_logprob_std": 1.0292947032759268, "train/policy_randomness_mag": 0.9411211042634903, "train/policy_randomness_max": 0.9411211042634903, "train/policy_randomness_mean": 0.14154140915601485, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.20908484151286463, "train/post_ent_mag": 55.44111651758994, "train/post_ent_max": 55.44111651758994, "train/post_ent_mean": 40.182255221951394, "train/post_ent_min": 19.785899223819857, "train/post_ent_std": 5.820421449599728, "train/prior_ent_mag": 76.72946019326487, "train/prior_ent_max": 76.72946019326487, "train/prior_ent_mean": 46.023040217738, "train/prior_ent_min": 28.0442083420292, "train/prior_ent_std": 7.9086674182645735, "train/rep_loss_mean": 5.821123876879292, "train/rep_loss_std": 8.915352075330672, "train/reward_avg": 0.05109784472733736, "train/reward_loss_mean": 0.06530710465965732, "train/reward_loss_std": 0.22717828183404862, "train/reward_max_data": 1.0419354938691663, "train/reward_max_pred": 1.041018324513589, "train/reward_neg_acc": 0.9927362934235604, "train/reward_neg_loss": 0.026802655159225388, "train/reward_pos_acc": 0.9909815634450605, "train/reward_pos_loss": 0.7168037833706025, "train/reward_pred": 0.05072336869254228, "train/reward_rate": 0.05577431955645161, "stats/sum_log_reward": 12.766666730244955, "stats/max_log_achievement_collect_coal": 1.8333333333333333, "stats/max_log_achievement_collect_drink": 1.6666666666666667, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 15.0, "stats/max_log_achievement_collect_wood": 13.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.1666666666666667, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_stone": 2.8333333333333335, "stats/max_log_achievement_place_table": 2.8333333333333335, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.3826114435990651, "replay/size": 1000000.0, "replay/inserts": 1232.0, "replay/samples": 9856.0, "replay/insert_wait_avg": 3.5259630772974585e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4280440745415625e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2975573539734, "timer/env.step_count": 1232.0, "timer/env.step_total": 17.843874216079712, "timer/env.step_frac": 0.059420643888376305, "timer/env.step_avg": 0.014483664136428338, "timer/env.step_min": 0.002801656723022461, "timer/env.step_max": 1.585218906402588, "timer/replay.add_count": 1232.0, "timer/replay.add_total": 0.2752673625946045, "timer/replay.add_frac": 0.0009166486901194978, "timer/replay.add_avg": 0.00022343130080730884, "timer/replay.add_min": 7.605552673339844e-05, "timer/replay.add_max": 0.001272439956665039, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03069472312927246, "timer/logger.write_frac": 0.00010221436164760839, "timer/logger.write_avg": 0.03069472312927246, "timer/logger.write_min": 0.03069472312927246, "timer/logger.write_max": 0.03069472312927246, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004596710205078125, "timer/checkpoint.save_frac": 1.53071847989086e-06, "timer/checkpoint.save_avg": 0.0004596710205078125, "timer/checkpoint.save_min": 0.0004596710205078125, "timer/checkpoint.save_max": 0.0004596710205078125, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4401428699493408, "timer/agent.save_frac": 0.004795719561087817, "timer/agent.save_avg": 1.4401428699493408, "timer/agent.save_min": 1.4401428699493408, "timer/agent.save_max": 1.4401428699493408, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.700920104980469e-05, "timer/replay.save_frac": 2.564429818489356e-07, "timer/replay.save_avg": 7.700920104980469e-05, "timer/replay.save_min": 7.700920104980469e-05, "timer/replay.save_max": 7.700920104980469e-05, "timer/agent.policy_count": 1232.0, "timer/agent.policy_total": 14.320560693740845, "timer/agent.policy_frac": 0.04768790269199758, "timer/agent.policy_avg": 0.011623831731932504, "timer/agent.policy_min": 0.006012439727783203, "timer/agent.policy_max": 2.5687742233276367, "timer/dataset_count": 616.0, "timer/dataset_total": 0.06529617309570312, "timer/dataset_frac": 0.00021743824249204855, "timer/dataset_avg": 0.00010600028099951806, "timer/dataset_min": 6.794929504394531e-05, "timer/dataset_max": 0.002080202102661133, "timer/agent.train_count": 616.0, "timer/agent.train_total": 267.08207726478577, "timer/agent.train_frac": 0.8893914410031809, "timer/agent.train_avg": 0.43357480075452237, "timer/agent.train_min": 0.3712441921234131, "timer/agent.train_max": 0.5584654808044434, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2650728225708008, "timer/agent.report_frac": 0.0008827005617576445, "timer/agent.report_avg": 0.2650728225708008, "timer/agent.report_min": 0.2650728225708008, "timer/agent.report_max": 0.2650728225708008, "fps": 4.102517601157292}
{"step": 1174510, "episode/length": 173.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.07471264367816093}
{"step": 1174709, "episode/length": 198.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.05025125628140704}
{"step": 1174988, "episode/length": 278.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.700000002980232, "episode/reward_rate": 0.05734767025089606}
{"step": 1175042, "episode/length": 53.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.09259259259259259}
{"step": 1175393, "episode/length": 350.0, "episode/score": 13.100000023841858, "episode/sum_abs_reward": 15.699999988079071, "episode/reward_rate": 0.042735042735042736}
{"step": 1175603, "episode/length": 209.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.07142857142857142}
{"step": 1175623, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.381452287946429, "train/action_min": 0.0, "train/action_std": 3.26596562824552, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03677187933926544, "train/actor_opt_grad_steps": 586950.0, "train/actor_opt_loss": -11.329545618995787, "train/adv_mag": 0.39223499146718827, "train/adv_max": 0.30640850795639885, "train/adv_mean": 0.001991706371117043, "train/adv_min": -0.37320976787143284, "train/adv_std": 0.041499497753287116, "train/cont_avg": 0.9954582093253969, "train/cont_loss_mean": 7.123576867364872e-05, "train/cont_loss_std": 0.0021513438890408344, "train/cont_neg_acc": 0.9973544979852343, "train/cont_neg_loss": 0.010921552795098814, "train/cont_pos_acc": 0.999999982023996, "train/cont_pos_loss": 7.331388187161619e-06, "train/cont_pred": 0.9954663571857271, "train/cont_rate": 0.9954582093253969, "train/dyn_loss_mean": 5.827769234066918, "train/dyn_loss_std": 8.982335060361832, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8784250579183064, "train/extr_critic_critic_opt_grad_steps": 586950.0, "train/extr_critic_critic_opt_loss": 15148.20283048115, "train/extr_critic_mag": 12.498184249514626, "train/extr_critic_max": 12.498184249514626, "train/extr_critic_mean": 3.820085396842351, "train/extr_critic_min": -0.30864497404249885, "train/extr_critic_std": 2.9277544078372775, "train/extr_return_normed_mag": 1.3714648182429965, "train/extr_return_normed_max": 1.3714648182429965, "train/extr_return_normed_mean": 0.3969802846984258, "train/extr_return_normed_min": -0.06721509029231375, "train/extr_return_normed_std": 0.30690087969340973, "train/extr_return_rate": 0.8634466396437751, "train/extr_return_raw_mag": 13.224967895992219, "train/extr_return_raw_max": 13.224967895992219, "train/extr_return_raw_mean": 3.839249504937066, "train/extr_return_raw_min": -0.6316436240597377, "train/extr_return_raw_std": 2.956272076046656, "train/extr_reward_mag": 1.0859066607460144, "train/extr_reward_max": 1.0859066607460144, "train/extr_reward_mean": 0.06450604274868965, "train/extr_reward_min": -0.5545675962690323, "train/extr_reward_std": 0.24326199127568138, "train/image_loss_mean": 3.4193525390019492, "train/image_loss_std": 8.746467393542092, "train/model_loss_mean": 6.978050716339596, "train/model_loss_std": 12.890046104552253, "train/model_opt_grad_norm": 21.001040549505326, "train/model_opt_grad_steps": 586467.0, "train/model_opt_loss": 17445.126844618055, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.700282305005997, "train/policy_entropy_max": 2.700282305005997, "train/policy_entropy_mean": 0.40946866500945317, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6166596185593378, "train/policy_logprob_mag": 7.438384245312403, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4100546377991873, "train/policy_logprob_min": -7.438384245312403, "train/policy_logprob_std": 1.0383608104690674, "train/policy_randomness_mag": 0.9530811546340822, "train/policy_randomness_max": 0.9530811546340822, "train/policy_randomness_mean": 0.14452447020818318, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21765378578787759, "train/post_ent_mag": 55.93702195182679, "train/post_ent_max": 55.93702195182679, "train/post_ent_mean": 40.11788789052812, "train/post_ent_min": 20.023975493415954, "train/post_ent_std": 5.881717772710891, "train/prior_ent_mag": 76.75812433636378, "train/prior_ent_max": 76.75812433636378, "train/prior_ent_mean": 45.9751229664636, "train/prior_ent_min": 27.811864974006774, "train/prior_ent_std": 7.924304886469765, "train/rep_loss_mean": 5.827769234066918, "train/rep_loss_std": 8.982335060361832, "train/reward_avg": 0.04866536428767537, "train/reward_loss_mean": 0.06196535910878863, "train/reward_loss_std": 0.22101391851902008, "train/reward_max_data": 1.0269841334176442, "train/reward_max_pred": 1.027945915857951, "train/reward_neg_acc": 0.9928356115780179, "train/reward_neg_loss": 0.02516777810478021, "train/reward_pos_acc": 0.9914703388062734, "train/reward_pos_loss": 0.7249439358711243, "train/reward_pred": 0.04814248679885789, "train/reward_rate": 0.052734375, "stats/sum_log_reward": 11.100000143051147, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 4.166666666666667, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.1666666666666667, "stats/max_log_achievement_collect_stone": 11.166666666666666, "stats/max_log_achievement_collect_wood": 11.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 1.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.3333333333333333, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 1.1666666666666667, "stats/max_log_achievement_place_stone": 2.1666666666666665, "stats/max_log_achievement_place_table": 3.3333333333333335, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.34743456542491913, "replay/size": 1000000.0, "replay/inserts": 1258.0, "replay/samples": 10064.0, "replay/insert_wait_avg": 3.3983176008506494e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4090244265921733e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.11610317230225, "timer/env.step_count": 1258.0, "timer/env.step_total": 17.20750880241394, "timer/env.step_frac": 0.05733617296948171, "timer/env.step_avg": 0.013678464866783736, "timer/env.step_min": 0.0030035972595214844, "timer/env.step_max": 1.7137272357940674, "timer/replay.add_count": 1258.0, "timer/replay.add_total": 0.2854483127593994, "timer/replay.add_frac": 0.0009511262799367957, "timer/replay.add_avg": 0.00022690644893433976, "timer/replay.add_min": 7.343292236328125e-05, "timer/replay.add_max": 0.0006537437438964844, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025495290756225586, "timer/logger.write_frac": 8.495142542080878e-05, "timer/logger.write_avg": 0.025495290756225586, "timer/logger.write_min": 0.025495290756225586, "timer/logger.write_max": 0.025495290756225586, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1258.0, "timer/agent.policy_total": 10.080760717391968, "timer/agent.policy_frac": 0.03358953621893596, "timer/agent.policy_avg": 0.00801332330476309, "timer/agent.policy_min": 0.00577545166015625, "timer/agent.policy_max": 0.015187263488769531, "timer/dataset_count": 629.0, "timer/dataset_total": 0.05615353584289551, "timer/dataset_frac": 0.0001871060407933416, "timer/dataset_avg": 8.927430181700399e-05, "timer/dataset_min": 6.508827209472656e-05, "timer/dataset_max": 0.00016641616821289062, "timer/agent.train_count": 629.0, "timer/agent.train_total": 271.7963557243347, "timer/agent.train_frac": 0.9056373611791546, "timer/agent.train_avg": 0.432108673647591, "timer/agent.train_min": 0.3777272701263428, "timer/agent.train_max": 0.45554256439208984, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2601125240325928, "timer/agent.report_frac": 0.0008667063222637452, "timer/agent.report_avg": 0.2601125240325928, "timer/agent.report_min": 0.2601125240325928, "timer/agent.report_max": 0.2601125240325928, "fps": 4.191631132105454}
{"step": 1175825, "episode/length": 221.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.06756756756756757}
{"step": 1176015, "episode/length": 189.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.07368421052631578}
{"step": 1176244, "episode/length": 228.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.0611353711790393}
{"step": 1176508, "episode/length": 263.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 16.500000037252903, "episode/reward_rate": 0.05303030303030303}
{"step": 1176752, "episode/length": 243.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.05327868852459016}
{"step": 1176891, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.365740094866071, "train/action_min": 0.0, "train/action_std": 3.243745871952602, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03613759665971711, "train/actor_opt_grad_steps": 587580.0, "train/actor_opt_loss": -13.393339000050984, "train/adv_mag": 0.3836545887447539, "train/adv_max": 0.31200687776482294, "train/adv_mean": 0.0013872259091912715, "train/adv_min": -0.35467211594657294, "train/adv_std": 0.04037208056875637, "train/cont_avg": 0.9950086805555556, "train/cont_loss_mean": 5.615814446205799e-05, "train/cont_loss_std": 0.0017280826913798188, "train/cont_neg_acc": 0.9968253970146179, "train/cont_neg_loss": 0.008453496024833087, "train/cont_pos_acc": 0.9999999839162069, "train/cont_pos_loss": 1.4968099914121633e-05, "train/cont_pred": 0.9950148217261784, "train/cont_rate": 0.9950086805555556, "train/dyn_loss_mean": 5.649094778393942, "train/dyn_loss_std": 8.99638881380596, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8557903653099423, "train/extr_critic_critic_opt_grad_steps": 587580.0, "train/extr_critic_critic_opt_loss": 14975.713774181548, "train/extr_critic_mag": 12.64278190854996, "train/extr_critic_max": 12.64278190854996, "train/extr_critic_mean": 3.822136966008989, "train/extr_critic_min": -0.32793104080926805, "train/extr_critic_std": 3.0003172859312994, "train/extr_return_normed_mag": 1.3804591345408606, "train/extr_return_normed_max": 1.3804591345408606, "train/extr_return_normed_mean": 0.39590967458391946, "train/extr_return_normed_min": -0.07466760715321889, "train/extr_return_normed_std": 0.31377316136208794, "train/extr_return_rate": 0.8669033646583557, "train/extr_return_raw_mag": 13.334804686288985, "train/extr_return_raw_max": 13.334804686288985, "train/extr_return_raw_mean": 3.8355344666375055, "train/extr_return_raw_min": -0.7051845788955688, "train/extr_return_raw_std": 3.0276316498953197, "train/extr_reward_mag": 1.0808008436172727, "train/extr_reward_max": 1.0808008436172727, "train/extr_reward_mean": 0.06124596084867205, "train/extr_reward_min": -0.6134977567763555, "train/extr_reward_std": 0.23816638522677952, "train/image_loss_mean": 3.4896699473971413, "train/image_loss_std": 9.025775182814826, "train/model_loss_mean": 6.942722328125485, "train/model_loss_std": 13.145662504529197, "train/model_opt_grad_norm": 20.265638866121808, "train/model_opt_grad_steps": 587097.0, "train/model_opt_loss": 31362.11027405754, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 4523.809523809524, "train/policy_entropy_mag": 2.7137088472881015, "train/policy_entropy_max": 2.7137088472881015, "train/policy_entropy_mean": 0.4454222572228265, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6596472452557276, "train/policy_logprob_mag": 7.438384298294309, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.44667871036226786, "train/policy_logprob_min": -7.438384298294309, "train/policy_logprob_std": 1.069471087720659, "train/policy_randomness_mag": 0.9578201363957117, "train/policy_randomness_max": 0.9578201363957117, "train/policy_randomness_mean": 0.15721450970759468, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23282652998727466, "train/post_ent_mag": 55.32905130537729, "train/post_ent_max": 55.32905130537729, "train/post_ent_mean": 39.99579620361328, "train/post_ent_min": 19.92933630564856, "train/post_ent_std": 5.8142449212452725, "train/prior_ent_mag": 76.8255099341983, "train/prior_ent_max": 76.8255099341983, "train/prior_ent_mean": 45.605303991408576, "train/prior_ent_min": 27.458296336824933, "train/prior_ent_std": 8.045740929860917, "train/rep_loss_mean": 5.649094778393942, "train/rep_loss_std": 8.99638881380596, "train/reward_avg": 0.04751519030994839, "train/reward_loss_mean": 0.06353928716409774, "train/reward_loss_std": 0.23389250678675516, "train/reward_max_data": 1.0317460393148756, "train/reward_max_pred": 1.031580993107387, "train/reward_neg_acc": 0.9927249806267875, "train/reward_neg_loss": 0.026945188878074525, "train/reward_pos_acc": 0.989660350103227, "train/reward_pos_loss": 0.7281714687271724, "train/reward_pred": 0.04717119673769626, "train/reward_rate": 0.051990327380952384, "stats/sum_log_reward": 13.100000190734864, "stats/max_log_achievement_collect_coal": 0.6, "stats/max_log_achievement_collect_drink": 2.6, "stats/max_log_achievement_collect_iron": 0.4, "stats/max_log_achievement_collect_sapling": 0.8, "stats/max_log_achievement_collect_stone": 18.0, "stats/max_log_achievement_collect_wood": 14.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.4, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.2, "stats/max_log_achievement_make_stone_sword": 1.2, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.2, "stats/max_log_achievement_place_plant": 0.6, "stats/max_log_achievement_place_stone": 4.0, "stats/max_log_achievement_place_table": 3.6, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.5280154824256897, "replay/size": 1000000.0, "replay/inserts": 1268.0, "replay/samples": 10144.0, "replay/insert_wait_avg": 3.3722690979388987e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.389215985307182e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.04696559906006, "timer/env.step_count": 1268.0, "timer/env.step_total": 15.847570419311523, "timer/env.step_frac": 0.052816966129522386, "timer/env.step_avg": 0.012498083926901833, "timer/env.step_min": 0.0027878284454345703, "timer/env.step_max": 1.6260979175567627, "timer/replay.add_count": 1268.0, "timer/replay.add_total": 0.2863740921020508, "timer/replay.add_frac": 0.0009544308889453001, "timer/replay.add_avg": 0.00022584707579026086, "timer/replay.add_min": 7.05718994140625e-05, "timer/replay.add_max": 0.0014188289642333984, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02463388442993164, "timer/logger.write_frac": 8.210009516593095e-05, "timer/logger.write_avg": 0.02463388442993164, "timer/logger.write_min": 0.02463388442993164, "timer/logger.write_max": 0.02463388442993164, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1268.0, "timer/agent.policy_total": 10.019893407821655, "timer/agent.policy_frac": 0.03339441673011555, "timer/agent.policy_avg": 0.00790212413866061, "timer/agent.policy_min": 0.005964994430541992, "timer/agent.policy_max": 0.014434337615966797, "timer/dataset_count": 634.0, "timer/dataset_total": 0.05582785606384277, "timer/dataset_frac": 0.00018606372489846524, "timer/dataset_avg": 8.80565553057457e-05, "timer/dataset_min": 6.246566772460938e-05, "timer/dataset_max": 0.00018024444580078125, "timer/agent.train_count": 634.0, "timer/agent.train_total": 273.1797242164612, "timer/agent.train_frac": 0.9104565469310547, "timer/agent.train_avg": 0.4308828457672889, "timer/agent.train_min": 0.36830902099609375, "timer/agent.train_max": 0.45540666580200195, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.23707914352416992, "timer/agent.report_frac": 0.0007901401137346233, "timer/agent.report_avg": 0.23707914352416992, "timer/agent.report_min": 0.23707914352416992, "timer/agent.report_max": 0.23707914352416992, "fps": 4.225927360978264}
{"step": 1176947, "episode/length": 194.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.700000047683716, "episode/reward_rate": 0.07692307692307693}
{"step": 1177025, "episode/length": 77.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.14102564102564102}
{"step": 1177246, "episode/length": 220.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.500000022351742, "episode/reward_rate": 0.07239819004524888}
{"step": 1177510, "episode/length": 263.0, "episode/score": 12.099999979138374, "episode/sum_abs_reward": 13.900000020861626, "episode/reward_rate": 0.04924242424242424}
{"step": 1177674, "episode/length": 163.0, "episode/score": 12.100000023841858, "episode/sum_abs_reward": 14.500000059604645, "episode/reward_rate": 0.07926829268292683}
{"step": 1177875, "episode/length": 200.0, "episode/score": 12.100000023841858, "episode/sum_abs_reward": 13.899999976158142, "episode/reward_rate": 0.06965174129353234}
{"step": 1178071, "episode/length": 195.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.07142857142857142}
{"step": 1178123, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.451959425403226, "train/action_min": 0.0, "train/action_std": 3.36155596856148, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03539154988022581, "train/actor_opt_grad_steps": 588205.0, "train/actor_opt_loss": -11.613799206552006, "train/adv_mag": 0.3766179613528713, "train/adv_max": 0.3138809843409446, "train/adv_mean": 0.001671617678326701, "train/adv_min": -0.34108298776611207, "train/adv_std": 0.03984430092837541, "train/cont_avg": 0.9953061995967742, "train/cont_loss_mean": 1.2481603763766252e-05, "train/cont_loss_std": 0.0003924507700682236, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00015204037745593233, "train/cont_pos_acc": 0.9999999817340605, "train/cont_pos_loss": 1.2120291111825378e-05, "train/cont_pred": 0.9952955197903418, "train/cont_rate": 0.9953061995967742, "train/dyn_loss_mean": 5.863645776625602, "train/dyn_loss_std": 8.947311878204346, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8721268436601085, "train/extr_critic_critic_opt_grad_steps": 588205.0, "train/extr_critic_critic_opt_loss": 15023.457503780242, "train/extr_critic_mag": 12.500715209591773, "train/extr_critic_max": 12.500715209591773, "train/extr_critic_mean": 3.6800397711415447, "train/extr_critic_min": -0.3267144195495113, "train/extr_critic_std": 2.9886322021484375, "train/extr_return_normed_mag": 1.3838867602809783, "train/extr_return_normed_max": 1.3838867602809783, "train/extr_return_normed_mean": 0.38471504541174056, "train/extr_return_normed_min": -0.06670720670973102, "train/extr_return_normed_std": 0.3133683276753272, "train/extr_return_rate": 0.842960391313799, "train/extr_return_raw_mag": 13.310811181222238, "train/extr_return_raw_max": 13.310811181222238, "train/extr_return_raw_mean": 3.6961284491323654, "train/extr_return_raw_min": -0.6476138464866146, "train/extr_return_raw_std": 3.0152847574603174, "train/extr_reward_mag": 1.0925222289177678, "train/extr_reward_max": 1.0925222289177678, "train/extr_reward_mean": 0.0623603398280759, "train/extr_reward_min": -0.5446808434301807, "train/extr_reward_std": 0.23949288769114402, "train/image_loss_mean": 3.4561619104877597, "train/image_loss_std": 8.572927359611757, "train/model_loss_mean": 7.038714593456637, "train/model_loss_std": 12.721001655824724, "train/model_opt_grad_norm": 21.125484174297704, "train/model_opt_grad_steps": 587721.0483870967, "train/model_opt_loss": 18491.978137600807, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2620.967741935484, "train/policy_entropy_mag": 2.7173054218292236, "train/policy_entropy_max": 2.7173054218292236, "train/policy_entropy_mean": 0.4586162168172098, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6686475829732034, "train/policy_logprob_mag": 7.438384302200809, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4590265520157353, "train/policy_logprob_min": -7.438384302200809, "train/policy_logprob_std": 1.0744428394302246, "train/policy_randomness_mag": 0.9590895685457415, "train/policy_randomness_max": 0.9590895685457415, "train/policy_randomness_mean": 0.16187139768754283, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23600325445013662, "train/post_ent_mag": 55.896580357705396, "train/post_ent_max": 55.896580357705396, "train/post_ent_mean": 40.05276243148312, "train/post_ent_min": 19.653000400912376, "train/post_ent_std": 5.8127659828432146, "train/prior_ent_mag": 76.72864680136404, "train/prior_ent_max": 76.72864680136404, "train/prior_ent_mean": 45.91714212971349, "train/prior_ent_min": 27.653353075827322, "train/prior_ent_std": 7.965239201822588, "train/rep_loss_mean": 5.863645776625602, "train/rep_loss_std": 8.947311878204346, "train/reward_avg": 0.05076864890513882, "train/reward_loss_mean": 0.0643527748123292, "train/reward_loss_std": 0.2222621911956418, "train/reward_max_data": 1.0370967830381086, "train/reward_max_pred": 1.0353682002713602, "train/reward_neg_acc": 0.99245695433309, "train/reward_neg_loss": 0.025922118806310238, "train/reward_pos_acc": 0.9893271634655614, "train/reward_pos_loss": 0.7229056291041835, "train/reward_pred": 0.05030130733165049, "train/reward_rate": 0.05504977318548387, "stats/sum_log_reward": 12.528571673801967, "stats/max_log_achievement_collect_coal": 1.5714285714285714, "stats/max_log_achievement_collect_drink": 1.1428571428571428, "stats/max_log_achievement_collect_iron": 0.14285714285714285, "stats/max_log_achievement_collect_sapling": 1.8571428571428572, "stats/max_log_achievement_collect_stone": 17.428571428571427, "stats/max_log_achievement_collect_wood": 12.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.7142857142857142, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.7142857142857143, "stats/max_log_achievement_make_stone_sword": 0.8571428571428571, "stats/max_log_achievement_make_wood_pickaxe": 1.2857142857142858, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 2.142857142857143, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 3.2857142857142856, "stats/max_log_achievement_place_table": 3.142857142857143, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3790161524500166, "replay/size": 1000000.0, "replay/inserts": 1232.0, "replay/samples": 9856.0, "replay/insert_wait_avg": 3.3659207356440557e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3702536945219163e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.10955572128296, "timer/env.step_count": 1232.0, "timer/env.step_total": 19.23999810218811, "timer/env.step_frac": 0.06410991498070337, "timer/env.step_avg": 0.015616881576451387, "timer/env.step_min": 0.003088235855102539, "timer/env.step_max": 1.93635892868042, "timer/replay.add_count": 1232.0, "timer/replay.add_total": 0.2559821605682373, "timer/replay.add_frac": 0.0008529623788653116, "timer/replay.add_avg": 0.00020777772773395884, "timer/replay.add_min": 7.152557373046875e-05, "timer/replay.add_max": 0.0011289119720458984, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023449420928955078, "timer/logger.write_frac": 7.813620220321465e-05, "timer/logger.write_avg": 0.023449420928955078, "timer/logger.write_min": 0.023449420928955078, "timer/logger.write_max": 0.023449420928955078, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002803802490234375, "timer/checkpoint.save_frac": 9.342596517780713e-07, "timer/checkpoint.save_avg": 0.0002803802490234375, "timer/checkpoint.save_min": 0.0002803802490234375, "timer/checkpoint.save_max": 0.0002803802490234375, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4801521301269531, "timer/agent.save_frac": 0.004932039323338296, "timer/agent.save_avg": 1.4801521301269531, "timer/agent.save_min": 1.4801521301269531, "timer/agent.save_max": 1.4801521301269531, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.771087646484375e-05, "timer/replay.save_frac": 2.2562052815048661e-07, "timer/replay.save_avg": 6.771087646484375e-05, "timer/replay.save_min": 6.771087646484375e-05, "timer/replay.save_max": 6.771087646484375e-05, "timer/agent.policy_count": 1232.0, "timer/agent.policy_total": 14.218284368515015, "timer/agent.policy_frac": 0.04737697983105805, "timer/agent.policy_avg": 0.011540815234184265, "timer/agent.policy_min": 0.006137847900390625, "timer/agent.policy_max": 3.0604004859924316, "timer/dataset_count": 616.0, "timer/dataset_total": 0.05447888374328613, "timer/dataset_frac": 0.00018152998698209275, "timer/dataset_avg": 8.843974633650346e-05, "timer/dataset_min": 6.4849853515625e-05, "timer/dataset_max": 0.0001544952392578125, "timer/agent.train_count": 616.0, "timer/agent.train_total": 265.6950867176056, "timer/agent.train_frac": 0.8853269802723687, "timer/agent.train_avg": 0.4313231927233857, "timer/agent.train_min": 0.36779117584228516, "timer/agent.train_max": 0.5221757888793945, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2325127124786377, "timer/agent.report_frac": 0.0007747594438298271, "timer/agent.report_avg": 0.2325127124786377, "timer/agent.report_min": 0.2325127124786377, "timer/agent.report_max": 0.2325127124786377, "fps": 4.105086795853032}
{"step": 1178273, "episode/length": 201.0, "episode/score": 14.100000016391277, "episode/sum_abs_reward": 15.700000040233135, "episode/reward_rate": 0.07425742574257425}
{"step": 1178509, "episode/length": 235.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.500000022351742, "episode/reward_rate": 0.06779661016949153}
{"step": 1178816, "episode/length": 306.0, "episode/score": 12.099999994039536, "episode/sum_abs_reward": 14.300000041723251, "episode/reward_rate": 0.04234527687296417}
{"step": 1178881, "episode/length": 64.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.09230769230769231}
{"step": 1179231, "episode/length": 349.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.03428571428571429}
{"step": 1179389, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.3996465773809526, "train/action_min": 0.0, "train/action_std": 3.2861220760950967, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03718638559064222, "train/actor_opt_grad_steps": 588830.0, "train/actor_opt_loss": -11.643585431197334, "train/adv_mag": 0.4015896627827296, "train/adv_max": 0.3434148227411603, "train/adv_mean": 0.0017425764820054321, "train/adv_min": -0.35088566489635953, "train/adv_std": 0.0408005735703877, "train/cont_avg": 0.9953652033730159, "train/cont_loss_mean": 4.820236841377815e-05, "train/cont_loss_std": 0.0014284787564348797, "train/cont_neg_acc": 0.996031746031746, "train/cont_neg_loss": 0.0080289037302227, "train/cont_pos_acc": 0.9999999867545234, "train/cont_pos_loss": 1.686739121054874e-05, "train/cont_pred": 0.9953626772714039, "train/cont_rate": 0.9953652033730159, "train/dyn_loss_mean": 5.844572385152181, "train/dyn_loss_std": 9.030093738010951, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8758398824267917, "train/extr_critic_critic_opt_grad_steps": 588830.0, "train/extr_critic_critic_opt_loss": 15031.32828000992, "train/extr_critic_mag": 12.471769681052557, "train/extr_critic_max": 12.471769681052557, "train/extr_critic_mean": 3.795988817063589, "train/extr_critic_min": -0.35397044249943327, "train/extr_critic_std": 2.9802063495393782, "train/extr_return_normed_mag": 1.3671921453778706, "train/extr_return_normed_max": 1.3671921453778706, "train/extr_return_normed_mean": 0.3957233362727695, "train/extr_return_normed_min": -0.072115311428668, "train/extr_return_normed_std": 0.31292596908788833, "train/extr_return_rate": 0.8594608212274218, "train/extr_return_raw_mag": 13.15672393072219, "train/extr_return_raw_max": 13.15672393072219, "train/extr_return_raw_mean": 3.812739746911185, "train/extr_return_raw_min": -0.6867105000548892, "train/extr_return_raw_std": 3.0097969865042065, "train/extr_reward_mag": 1.0798077621157207, "train/extr_reward_max": 1.0798077621157207, "train/extr_reward_mean": 0.06385974887581099, "train/extr_reward_min": -0.5888713409030248, "train/extr_reward_std": 0.24242151564075834, "train/image_loss_mean": 3.5334352500854975, "train/image_loss_std": 8.603825220986018, "train/model_loss_mean": 7.104488085186671, "train/model_loss_std": 12.79521339658707, "train/model_opt_grad_norm": 20.55819396367149, "train/model_opt_grad_steps": 588345.8571428572, "train/model_opt_loss": 21208.27802579365, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3015.873015873016, "train/policy_entropy_mag": 2.7254887232704768, "train/policy_entropy_max": 2.7254887232704768, "train/policy_entropy_mean": 0.4347848215746501, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6542326547796764, "train/policy_logprob_mag": 7.438384260450091, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.43393799709895303, "train/policy_logprob_min": -7.438384260450091, "train/policy_logprob_std": 1.057862813510592, "train/policy_randomness_mag": 0.9619779132661366, "train/policy_randomness_max": 0.9619779132661366, "train/policy_randomness_mean": 0.15345996322612915, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23091541467204926, "train/post_ent_mag": 55.670857262989834, "train/post_ent_max": 55.670857262989834, "train/post_ent_mean": 40.13968525235615, "train/post_ent_min": 19.644245359632706, "train/post_ent_std": 5.854876033843509, "train/prior_ent_mag": 76.8856930202908, "train/prior_ent_max": 76.8856930202908, "train/prior_ent_mean": 45.91104483225989, "train/prior_ent_min": 27.717886637127588, "train/prior_ent_std": 7.903761893983871, "train/rep_loss_mean": 5.844572385152181, "train/rep_loss_std": 9.030093738010951, "train/reward_avg": 0.050480530552920844, "train/reward_loss_mean": 0.06426122790527722, "train/reward_loss_std": 0.23411446904379224, "train/reward_max_data": 1.0380952471778506, "train/reward_max_pred": 1.0384657912784152, "train/reward_neg_acc": 0.9930994302507431, "train/reward_neg_loss": 0.02541934386900966, "train/reward_pos_acc": 0.9874780367291163, "train/reward_pos_loss": 0.7330588452399723, "train/reward_pred": 0.049999056177006826, "train/reward_rate": 0.05479600694444445, "stats/sum_log_reward": 11.500000381469727, "stats/max_log_achievement_collect_coal": 1.2, "stats/max_log_achievement_collect_drink": 3.4, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8, "stats/max_log_achievement_collect_stone": 8.6, "stats/max_log_achievement_collect_wood": 11.2, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.8, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.6, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.8, "stats/max_log_achievement_place_stone": 2.2, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.8, "stats/mean_log_entropy": 0.48509210497140887, "replay/size": 1000000.0, "replay/inserts": 1266.0, "replay/samples": 10128.0, "replay/insert_wait_avg": 3.3501011877075004e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3755678565581264e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.03000664711, "timer/env.step_count": 1266.0, "timer/env.step_total": 15.386143684387207, "timer/env.step_frac": 0.051282016276739006, "timer/env.step_avg": 0.0121533520413801, "timer/env.step_min": 0.0030083656311035156, "timer/env.step_max": 1.6260485649108887, "timer/replay.add_count": 1266.0, "timer/replay.add_total": 0.2704930305480957, "timer/replay.add_frac": 0.0009015532598585876, "timer/replay.add_avg": 0.00021365958179154479, "timer/replay.add_min": 7.510185241699219e-05, "timer/replay.add_max": 0.0011258125305175781, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021977663040161133, "timer/logger.write_frac": 7.325155002249782e-05, "timer/logger.write_avg": 0.021977663040161133, "timer/logger.write_min": 0.021977663040161133, "timer/logger.write_max": 0.021977663040161133, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1266.0, "timer/agent.policy_total": 9.949558734893799, "timer/agent.policy_frac": 0.03316187886032444, "timer/agent.policy_avg": 0.007859051133407425, "timer/agent.policy_min": 0.006143093109130859, "timer/agent.policy_max": 0.015267372131347656, "timer/dataset_count": 633.0, "timer/dataset_total": 0.05595803260803223, "timer/dataset_frac": 0.00018650812041559923, "timer/dataset_avg": 8.84013153365438e-05, "timer/dataset_min": 6.413459777832031e-05, "timer/dataset_max": 0.00017118453979492188, "timer/agent.train_count": 633.0, "timer/agent.train_total": 273.6941878795624, "timer/agent.train_frac": 0.9122227171146807, "timer/agent.train_avg": 0.43237628416992474, "timer/agent.train_min": 0.37745165824890137, "timer/agent.train_max": 0.4554014205932617, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.25930261611938477, "timer/agent.report_frac": 0.0008642556090210402, "timer/agent.report_avg": 0.25930261611938477, "timer/agent.report_min": 0.25930261611938477, "timer/agent.report_max": 0.25930261611938477, "fps": 4.219493616984595}
{"step": 1179496, "episode/length": 264.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.04905660377358491}
{"step": 1179879, "episode/length": 382.0, "episode/score": 14.099999979138374, "episode/sum_abs_reward": 16.30000001192093, "episode/reward_rate": 0.0391644908616188}
{"step": 1180024, "episode/length": 144.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.0896551724137931}
{"step": 1180339, "episode/length": 314.0, "episode/score": 15.099999994039536, "episode/sum_abs_reward": 16.900000035762787, "episode/reward_rate": 0.050793650793650794}
{"step": 1180539, "episode/length": 199.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.07}
{"step": 1180659, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.498149871826172, "train/action_min": 0.0, "train/action_std": 3.407952807843685, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.036159534589387476, "train/actor_opt_grad_steps": 589465.0, "train/actor_opt_loss": -11.795267384499311, "train/adv_mag": 0.37883621361106634, "train/adv_max": 0.32089716847985983, "train/adv_mean": 0.0015066390440381383, "train/adv_min": -0.3323319414630532, "train/adv_std": 0.040623215900268406, "train/cont_avg": 0.995147705078125, "train/cont_loss_mean": 2.637692498463906e-05, "train/cont_loss_std": 0.0007747987044073312, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.005271726408076202, "train/cont_pos_acc": 0.9999999813735485, "train/cont_pos_loss": 5.737994310139882e-06, "train/cont_pred": 0.9951572297140956, "train/cont_rate": 0.995147705078125, "train/dyn_loss_mean": 5.730260498821735, "train/dyn_loss_std": 8.995024368166924, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.888212313875556, "train/extr_critic_critic_opt_grad_steps": 589465.0, "train/extr_critic_critic_opt_loss": 15030.163009643555, "train/extr_critic_mag": 12.631547078490257, "train/extr_critic_max": 12.631547078490257, "train/extr_critic_mean": 3.7012202367186546, "train/extr_critic_min": -0.3696247339248657, "train/extr_critic_std": 3.023976609110832, "train/extr_return_normed_mag": 1.3822047356516123, "train/extr_return_normed_max": 1.3822047356516123, "train/extr_return_normed_mean": 0.38661171100102365, "train/extr_return_normed_min": -0.07104253760189749, "train/extr_return_normed_std": 0.3163724192418158, "train/extr_return_rate": 0.8536499487236142, "train/extr_return_raw_mag": 13.304830700159073, "train/extr_return_raw_max": 13.304830700159073, "train/extr_return_raw_mean": 3.715730607509613, "train/extr_return_raw_min": -0.6931936056353152, "train/extr_return_raw_std": 3.047968525439501, "train/extr_reward_mag": 1.0868867188692093, "train/extr_reward_max": 1.0868867188692093, "train/extr_reward_mean": 0.06356418819632381, "train/extr_reward_min": -0.6235196776688099, "train/extr_reward_std": 0.24226826056838036, "train/image_loss_mean": 3.520106427371502, "train/image_loss_std": 8.73222067207098, "train/model_loss_mean": 7.022611647844315, "train/model_loss_std": 12.880572035908699, "train/model_opt_grad_norm": 20.872014746069908, "train/model_opt_grad_steps": 588980.0, "train/model_opt_loss": 17556.52912902832, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7239047065377235, "train/policy_entropy_max": 2.7239047065377235, "train/policy_entropy_mean": 0.47224145429208875, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6876553692854941, "train/policy_logprob_mag": 7.438384264707565, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4717403999529779, "train/policy_logprob_min": -7.438384264707565, "train/policy_logprob_std": 1.0812522945925593, "train/policy_randomness_mag": 0.9614188242703676, "train/policy_randomness_max": 0.9614188242703676, "train/policy_randomness_mean": 0.16668051073793322, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24271217198111117, "train/post_ent_mag": 55.646912932395935, "train/post_ent_max": 55.646912932395935, "train/post_ent_mean": 40.05352699756622, "train/post_ent_min": 19.732870548963547, "train/post_ent_std": 5.800948962569237, "train/prior_ent_mag": 76.83468532562256, "train/prior_ent_max": 76.83468532562256, "train/prior_ent_mean": 45.761982560157776, "train/prior_ent_min": 27.849258571863174, "train/prior_ent_std": 7.996187269687653, "train/rep_loss_mean": 5.730260498821735, "train/rep_loss_std": 8.995024368166924, "train/reward_avg": 0.048736572003690526, "train/reward_loss_mean": 0.06432257231790572, "train/reward_loss_std": 0.2332678723614663, "train/reward_max_data": 1.0375000089406967, "train/reward_max_pred": 1.0384718775749207, "train/reward_neg_acc": 0.9924791483208537, "train/reward_neg_loss": 0.027093818091088906, "train/reward_pos_acc": 0.9888478647917509, "train/reward_pos_loss": 0.7269919849932194, "train/reward_pred": 0.04843318380881101, "train/reward_rate": 0.0530853271484375, "stats/sum_log_reward": 13.300000190734863, "stats/max_log_achievement_collect_coal": 1.4, "stats/max_log_achievement_collect_drink": 2.8, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.2, "stats/max_log_achievement_collect_stone": 18.2, "stats/max_log_achievement_collect_wood": 12.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.8, "stats/max_log_achievement_eat_cow": 0.6, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.8, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.6, "stats/max_log_achievement_place_furnace": 2.4, "stats/max_log_achievement_place_plant": 1.8, "stats/max_log_achievement_place_stone": 4.2, "stats/max_log_achievement_place_table": 3.4, "stats/max_log_achievement_wake_up": 1.4, "stats/mean_log_entropy": 0.6004883646965027, "replay/size": 1000000.0, "replay/inserts": 1270.0, "replay/samples": 10160.0, "replay/insert_wait_avg": 3.395493574968473e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3775478197833685e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.43018198013306, "timer/env.step_count": 1270.0, "timer/env.step_total": 16.131577491760254, "timer/env.step_frac": 0.05369492966864098, "timer/env.step_avg": 0.012702029521071067, "timer/env.step_min": 0.003064870834350586, "timer/env.step_max": 1.7117993831634521, "timer/replay.add_count": 1270.0, "timer/replay.add_total": 0.26769232749938965, "timer/replay.add_frac": 0.0008910300747249545, "timer/replay.add_avg": 0.0002107813602357399, "timer/replay.add_min": 7.390975952148438e-05, "timer/replay.add_max": 0.0008184909820556641, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027224302291870117, "timer/logger.write_frac": 9.06177339188591e-05, "timer/logger.write_avg": 0.027224302291870117, "timer/logger.write_min": 0.027224302291870117, "timer/logger.write_max": 0.027224302291870117, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1270.0, "timer/agent.policy_total": 9.954594135284424, "timer/agent.policy_frac": 0.033134467614651, "timer/agent.policy_avg": 0.007838263098649153, "timer/agent.policy_min": 0.006028413772583008, "timer/agent.policy_max": 0.01666736602783203, "timer/dataset_count": 635.0, "timer/dataset_total": 0.05630826950073242, "timer/dataset_frac": 0.00018742547479619071, "timer/dataset_avg": 8.867444015863374e-05, "timer/dataset_min": 6.437301635742188e-05, "timer/dataset_max": 0.0001552104949951172, "timer/agent.train_count": 635.0, "timer/agent.train_total": 273.3389902114868, "timer/agent.train_frac": 0.909825332494597, "timer/agent.train_avg": 0.43045510269525483, "timer/agent.train_min": 0.3673703670501709, "timer/agent.train_max": 0.4546208381652832, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2602677345275879, "timer/agent.report_frac": 0.0008663168687385709, "timer/agent.report_avg": 0.2602677345275879, "timer/agent.report_min": 0.2602677345275879, "timer/agent.report_max": 0.2602677345275879, "fps": 4.2271899736014795}
{"step": 1180740, "episode/length": 200.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.07462686567164178}
{"step": 1180948, "episode/length": 207.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.07211538461538461}
{"step": 1181246, "episode/length": 297.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.050335570469798654}
{"step": 1181418, "episode/length": 171.0, "episode/score": 12.100000038743019, "episode/sum_abs_reward": 14.500000074505806, "episode/reward_rate": 0.0755813953488372}
{"step": 1181663, "episode/length": 244.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.053061224489795916}
{"step": 1181889, "episode/length": 225.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.30000002682209, "episode/reward_rate": 0.061946902654867256}
{"step": 1181902, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.394275296118952, "train/action_min": 0.0, "train/action_std": 3.291005188418973, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03690820247415574, "train/actor_opt_grad_steps": 590095.0, "train/actor_opt_loss": -11.26459873876264, "train/adv_mag": 0.41305948553546784, "train/adv_max": 0.33277106813846097, "train/adv_mean": 0.0022440108955526093, "train/adv_min": -0.38038198361473696, "train/adv_std": 0.04236829851663882, "train/cont_avg": 0.9950384324596774, "train/cont_loss_mean": 0.00010316479773679028, "train/cont_loss_std": 0.0032276691637225813, "train/cont_neg_acc": 0.9976958536332653, "train/cont_neg_loss": 0.0029947448302177376, "train/cont_pos_acc": 0.9999683095562842, "train/cont_pos_loss": 8.524241166234729e-05, "train/cont_pred": 0.9950179178868571, "train/cont_rate": 0.9950384324596774, "train/dyn_loss_mean": 5.76167235835906, "train/dyn_loss_std": 9.038265705108643, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8771293567072961, "train/extr_critic_critic_opt_grad_steps": 590095.0, "train/extr_critic_critic_opt_loss": 15076.53816469254, "train/extr_critic_mag": 12.720799876797583, "train/extr_critic_max": 12.720799876797583, "train/extr_critic_mean": 3.8570399361272014, "train/extr_critic_min": -0.35422784090042114, "train/extr_critic_std": 3.017837066804209, "train/extr_return_normed_mag": 1.4022997329311986, "train/extr_return_normed_max": 1.4022997329311986, "train/extr_return_normed_mean": 0.40219904242023347, "train/extr_return_normed_min": -0.07110077980905771, "train/extr_return_normed_std": 0.316900322033513, "train/extr_return_rate": 0.8654139810992826, "train/extr_return_raw_mag": 13.493682138381466, "train/extr_return_raw_max": 13.493682138381466, "train/extr_return_raw_mean": 3.8786161945712183, "train/extr_return_raw_min": -0.6712101082648, "train/extr_return_raw_std": 3.0465711086027083, "train/extr_reward_mag": 1.0862852296521586, "train/extr_reward_max": 1.0862852296521586, "train/extr_reward_mean": 0.06531269097280118, "train/extr_reward_min": -0.5814528465270996, "train/extr_reward_std": 0.24469037233821808, "train/image_loss_mean": 3.28403353306555, "train/image_loss_std": 8.63581322854565, "train/model_loss_mean": 6.803558595718876, "train/model_loss_std": 12.83804598162251, "train/model_opt_grad_norm": 20.230152646049124, "train/model_opt_grad_steps": 589609.5967741936, "train/model_opt_loss": 19978.90316280242, "train/model_opt_model_opt_grad_overflow": 0.016129032258064516, "train/model_opt_model_opt_grad_scale": 2903.2258064516127, "train/policy_entropy_mag": 2.724861891038956, "train/policy_entropy_max": 2.724861891038956, "train/policy_entropy_mean": 0.43324277117367715, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6497427018419388, "train/policy_logprob_mag": 7.438384325273575, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.43312004448906066, "train/policy_logprob_min": -7.438384325273575, "train/policy_logprob_std": 1.0572975441332786, "train/policy_randomness_mag": 0.9617566716286444, "train/policy_randomness_max": 0.9617566716286444, "train/policy_randomness_mean": 0.15291568745047815, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22933066011436523, "train/post_ent_mag": 55.201136066067605, "train/post_ent_max": 55.201136066067605, "train/post_ent_mean": 39.83620212924096, "train/post_ent_min": 19.48046810396256, "train/post_ent_std": 5.760294375881072, "train/prior_ent_mag": 76.74700497042748, "train/prior_ent_max": 76.74700497042748, "train/prior_ent_mean": 45.555572509765625, "train/prior_ent_min": 27.144818705897176, "train/prior_ent_std": 7.953964141107375, "train/rep_loss_mean": 5.76167235835906, "train/rep_loss_std": 9.038265705108643, "train/reward_avg": 0.04962512532309178, "train/reward_loss_mean": 0.06241850176405522, "train/reward_loss_std": 0.2273466875476222, "train/reward_max_data": 1.032258072207051, "train/reward_max_pred": 1.0322272662193543, "train/reward_neg_acc": 0.9932673092811338, "train/reward_neg_loss": 0.024420055710980968, "train/reward_pos_acc": 0.987650716497052, "train/reward_pos_loss": 0.7283169684871551, "train/reward_pred": 0.049142620646424835, "train/reward_rate": 0.053899949596774195, "stats/sum_log_reward": 13.100000222524008, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 2.1666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 17.0, "stats/max_log_achievement_collect_wood": 14.166666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.3333333333333333, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_stone_sword": 1.1666666666666667, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 3.8333333333333335, "stats/max_log_achievement_place_table": 3.8333333333333335, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.39633261660734814, "replay/size": 1000000.0, "replay/inserts": 1243.0, "replay/samples": 9936.0, "replay/insert_wait_avg": 3.4776888637895653e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3798571247217545e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 299.99710488319397, "timer/env.step_count": 1243.0, "timer/env.step_total": 17.5798556804657, "timer/env.step_frac": 0.058600084448516734, "timer/env.step_avg": 0.014143085824992517, "timer/env.step_min": 0.002775430679321289, "timer/env.step_max": 1.6801316738128662, "timer/replay.add_count": 1243.0, "timer/replay.add_total": 0.25456809997558594, "timer/replay.add_frac": 0.0008485685222685861, "timer/replay.add_avg": 0.00020480136763924853, "timer/replay.add_min": 7.486343383789062e-05, "timer/replay.add_max": 0.0008971691131591797, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022670269012451172, "timer/logger.write_frac": 7.556829263828397e-05, "timer/logger.write_avg": 0.022670269012451172, "timer/logger.write_min": 0.022670269012451172, "timer/logger.write_max": 0.022670269012451172, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00022554397583007812, "timer/checkpoint.save_frac": 7.518205081275544e-07, "timer/checkpoint.save_avg": 0.00022554397583007812, "timer/checkpoint.save_min": 0.00022554397583007812, "timer/checkpoint.save_max": 0.00022554397583007812, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2013704776763916, "timer/agent.save_frac": 0.004004606904937145, "timer/agent.save_avg": 1.2013704776763916, "timer/agent.save_min": 1.2013704776763916, "timer/agent.save_max": 1.2013704776763916, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.890296936035156e-05, "timer/replay.save_frac": 2.296787810241683e-07, "timer/replay.save_avg": 6.890296936035156e-05, "timer/replay.save_min": 6.890296936035156e-05, "timer/replay.save_max": 6.890296936035156e-05, "timer/agent.policy_count": 1243.0, "timer/agent.policy_total": 14.022046089172363, "timer/agent.policy_frac": 0.04674060469560847, "timer/agent.policy_avg": 0.011280809404000293, "timer/agent.policy_min": 0.005948066711425781, "timer/agent.policy_max": 2.882830858230591, "timer/dataset_count": 621.0, "timer/dataset_total": 0.055286407470703125, "timer/dataset_frac": 0.00018428980337070015, "timer/dataset_avg": 8.902803135378925e-05, "timer/dataset_min": 6.651878356933594e-05, "timer/dataset_max": 0.0001690387725830078, "timer/agent.train_count": 621.0, "timer/agent.train_total": 267.4105176925659, "timer/agent.train_frac": 0.8913769944436102, "timer/agent.train_avg": 0.4306127499075136, "timer/agent.train_min": 0.3786330223083496, "timer/agent.train_max": 0.47463226318359375, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2599952220916748, "timer/agent.report_frac": 0.000866659103903372, "timer/agent.report_avg": 0.2599952220916748, "timer/agent.report_min": 0.2599952220916748, "timer/agent.report_max": 0.2599952220916748, "fps": 4.143292703558072}
{"step": 1182100, "episode/length": 210.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.899999976158142, "episode/reward_rate": 0.05687203791469194}
{"step": 1182285, "episode/length": 184.0, "episode/score": 13.099999979138374, "episode/sum_abs_reward": 15.700000032782555, "episode/reward_rate": 0.07567567567567568}
{"step": 1182538, "episode/length": 252.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.700000025331974, "episode/reward_rate": 0.06324110671936758}
{"step": 1182724, "episode/length": 185.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.06451612903225806}
{"step": 1182953, "episode/length": 228.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.700000002980232, "episode/reward_rate": 0.06550218340611354}
{"step": 1182998, "episode/length": 44.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 4.899999991059303, "episode/reward_rate": 0.1111111111111111}
{"step": 1183165, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.315351213727679, "train/action_min": 0.0, "train/action_std": 3.167621147064936, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03666537018522384, "train/actor_opt_grad_steps": 590720.0, "train/actor_opt_loss": -9.83738774770782, "train/adv_mag": 0.37079810221043846, "train/adv_max": 0.3197279376169992, "train/adv_mean": 0.0022205384378875827, "train/adv_min": -0.33625438667479013, "train/adv_std": 0.041603755383264454, "train/cont_avg": 0.9949931795634921, "train/cont_loss_mean": 0.00015855833808744692, "train/cont_loss_std": 0.005002265283595969, "train/cont_neg_acc": 0.9968253970146179, "train/cont_neg_loss": 0.03062554942539929, "train/cont_pos_acc": 0.9999999886467343, "train/cont_pos_loss": 9.047952870629965e-06, "train/cont_pred": 0.99500011167829, "train/cont_rate": 0.9949931795634921, "train/dyn_loss_mean": 5.755578109196255, "train/dyn_loss_std": 9.006855631631518, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8861515966672746, "train/extr_critic_critic_opt_grad_steps": 590720.0, "train/extr_critic_critic_opt_loss": 15144.995039682539, "train/extr_critic_mag": 12.453714961097354, "train/extr_critic_max": 12.453714961097354, "train/extr_critic_mean": 3.8072448457990373, "train/extr_critic_min": -0.3501792483859592, "train/extr_critic_std": 2.9858026050385975, "train/extr_return_normed_mag": 1.3776422019988772, "train/extr_return_normed_max": 1.3776422019988772, "train/extr_return_normed_mean": 0.39812065779216704, "train/extr_return_normed_min": -0.0708800833967943, "train/extr_return_normed_std": 0.31415130883928327, "train/extr_return_rate": 0.8628172997444395, "train/extr_return_raw_mag": 13.229217892601376, "train/extr_return_raw_max": 13.229217892601376, "train/extr_return_raw_mean": 3.828546894921197, "train/extr_return_raw_min": -0.6717237598366208, "train/extr_return_raw_std": 3.01490633071415, "train/extr_reward_mag": 1.086132492337908, "train/extr_reward_max": 1.086132492337908, "train/extr_reward_mean": 0.06405188882398227, "train/extr_reward_min": -0.5943268461832925, "train/extr_reward_std": 0.2425561367519318, "train/image_loss_mean": 3.396051838284447, "train/image_loss_std": 8.887968752119276, "train/model_loss_mean": 6.912418410891578, "train/model_loss_std": 13.03124385409885, "train/model_opt_grad_norm": 19.871193689013285, "train/model_opt_grad_steps": 590234.0, "train/model_opt_loss": 17281.04591393849, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7170169542706204, "train/policy_entropy_max": 2.7170169542706204, "train/policy_entropy_mean": 0.42316006478809176, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6339055034849379, "train/policy_logprob_mag": 7.438384336138529, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.42372107978851076, "train/policy_logprob_min": -7.438384336138529, "train/policy_logprob_std": 1.0512847361110507, "train/policy_randomness_mag": 0.9589877507043263, "train/policy_randomness_max": 0.9589877507043263, "train/policy_randomness_mean": 0.14935693381324647, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22374082392170316, "train/post_ent_mag": 55.50437212747241, "train/post_ent_max": 55.50437212747241, "train/post_ent_mean": 40.017489357600134, "train/post_ent_min": 19.69422423650348, "train/post_ent_std": 5.893296847267757, "train/prior_ent_mag": 76.83141351124597, "train/prior_ent_max": 76.83141351124597, "train/prior_ent_mean": 45.74444356040349, "train/prior_ent_min": 27.15085598779103, "train/prior_ent_std": 7.988528357611762, "train/rep_loss_mean": 5.755578109196255, "train/rep_loss_std": 9.006855631631518, "train/reward_avg": 0.04972563216847087, "train/reward_loss_mean": 0.0628611979385217, "train/reward_loss_std": 0.21968236802116273, "train/reward_max_data": 1.0269841334176442, "train/reward_max_pred": 1.0306391261872792, "train/reward_neg_acc": 0.9929721260827685, "train/reward_neg_loss": 0.025534453979205517, "train/reward_pos_acc": 0.9921800153596061, "train/reward_pos_loss": 0.7135637118702843, "train/reward_pred": 0.04954139027921926, "train/reward_rate": 0.054299975198412696, "stats/sum_log_reward": 10.9333336353302, "stats/max_log_achievement_collect_coal": 1.1666666666666667, "stats/max_log_achievement_collect_drink": 2.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 14.333333333333334, "stats/max_log_achievement_collect_wood": 10.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.3333333333333333, "stats/max_log_achievement_defeat_zombie": 1.6666666666666667, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.3333333333333333, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 1.5, "stats/max_log_achievement_place_table": 2.3333333333333335, "stats/max_log_achievement_wake_up": 0.8333333333333334, "stats/mean_log_entropy": 0.31627122809489566, "replay/size": 1000000.0, "replay/inserts": 1263.0, "replay/samples": 10112.0, "replay/insert_wait_avg": 3.318416628682793e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3745142311989507e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0463082790375, "timer/env.step_count": 1263.0, "timer/env.step_total": 17.05450987815857, "timer/env.step_frac": 0.05683959244817034, "timer/env.step_avg": 0.013503174883736, "timer/env.step_min": 0.0031952857971191406, "timer/env.step_max": 1.6347386837005615, "timer/replay.add_count": 1263.0, "timer/replay.add_total": 0.25096726417541504, "timer/replay.add_frac": 0.0008364284353801153, "timer/replay.add_avg": 0.00019870725587918848, "timer/replay.add_min": 7.581710815429688e-05, "timer/replay.add_max": 0.001207590103149414, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026130199432373047, "timer/logger.write_frac": 8.70872219100008e-05, "timer/logger.write_avg": 0.026130199432373047, "timer/logger.write_min": 0.026130199432373047, "timer/logger.write_max": 0.026130199432373047, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1263.0, "timer/agent.policy_total": 9.908616542816162, "timer/agent.policy_frac": 0.03302362425203157, "timer/agent.policy_avg": 0.007845302092491024, "timer/agent.policy_min": 0.006148815155029297, "timer/agent.policy_max": 0.016234636306762695, "timer/dataset_count": 632.0, "timer/dataset_total": 0.05462050437927246, "timer/dataset_frac": 0.00018204024802890228, "timer/dataset_avg": 8.642484870138048e-05, "timer/dataset_min": 6.556510925292969e-05, "timer/dataset_max": 0.00017452239990234375, "timer/agent.train_count": 632.0, "timer/agent.train_total": 272.1461772918701, "timer/agent.train_frac": 0.9070139167944011, "timer/agent.train_avg": 0.4306110400187818, "timer/agent.train_min": 0.36760830879211426, "timer/agent.train_max": 0.45391082763671875, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21829462051391602, "timer/agent.report_frac": 0.0007275364318460672, "timer/agent.report_avg": 0.21829462051391602, "timer/agent.report_min": 0.21829462051391602, "timer/agent.report_max": 0.21829462051391602, "fps": 4.209268556278836}
{"step": 1183200, "episode/length": 201.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.30000003427267, "episode/reward_rate": 0.0594059405940594}
{"step": 1183274, "episode/length": 73.0, "episode/score": 7.1000000312924385, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.12162162162162163}
{"step": 1183460, "episode/length": 185.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.06989247311827956}
{"step": 1183627, "episode/length": 166.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.08383233532934131}
{"step": 1183840, "episode/length": 212.0, "episode/score": 13.100000023841858, "episode/sum_abs_reward": 16.099999994039536, "episode/reward_rate": 0.07042253521126761}
{"step": 1184074, "episode/length": 233.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.500000022351742, "episode/reward_rate": 0.06837606837606838}
{"step": 1184137, "episode/length": 62.0, "episode/score": 5.100000001490116, "episode/sum_abs_reward": 6.700000025331974, "episode/reward_rate": 0.09523809523809523}
{"step": 1184184, "episode/length": 46.0, "episode/score": 6.100000023841858, "episode/sum_abs_reward": 7.899999976158142, "episode/reward_rate": 0.1702127659574468}
{"step": 1184419, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.348484584263393, "train/action_min": 0.0, "train/action_std": 3.224863059937008, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.036260259056848196, "train/actor_opt_grad_steps": 591350.0, "train/actor_opt_loss": -11.691055087816148, "train/adv_mag": 0.3924112135455722, "train/adv_max": 0.3174501475360658, "train/adv_mean": 0.0014127368368997216, "train/adv_min": -0.34256064773552003, "train/adv_std": 0.04048893376002236, "train/cont_avg": 0.9948691716269841, "train/cont_loss_mean": 0.0001988834607031562, "train/cont_loss_std": 0.006290667661892438, "train/cont_neg_acc": 0.9945578243997362, "train/cont_neg_loss": 0.02915573199219722, "train/cont_pos_acc": 0.9999999810778906, "train/cont_pos_loss": 9.15119696546952e-06, "train/cont_pred": 0.9948922017263988, "train/cont_rate": 0.9948691716269841, "train/dyn_loss_mean": 6.009091384827145, "train/dyn_loss_std": 8.977336172073606, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8629043565856086, "train/extr_critic_critic_opt_grad_steps": 591350.0, "train/extr_critic_critic_opt_loss": 15133.682043650793, "train/extr_critic_mag": 12.405481323363288, "train/extr_critic_max": 12.405481323363288, "train/extr_critic_mean": 3.763192407668583, "train/extr_critic_min": -0.3436953718700106, "train/extr_critic_std": 3.0207176851847817, "train/extr_return_normed_mag": 1.359148210949368, "train/extr_return_normed_max": 1.359148210949368, "train/extr_return_normed_mean": 0.38769098051956724, "train/extr_return_normed_min": -0.07066626332345463, "train/extr_return_normed_std": 0.31383638982734985, "train/extr_return_rate": 0.855336520406935, "train/extr_return_raw_mag": 13.199632599240257, "train/extr_return_raw_max": 13.199632599240257, "train/extr_return_raw_mean": 3.7768908455258323, "train/extr_return_raw_min": -0.668856678501008, "train/extr_return_raw_std": 3.044222767390902, "train/extr_reward_mag": 1.0715335664295016, "train/extr_reward_max": 1.0715335664295016, "train/extr_reward_mean": 0.06184631195806321, "train/extr_reward_min": -0.615947615532648, "train/extr_reward_std": 0.23894086409182774, "train/image_loss_mean": 3.6593953238593206, "train/image_loss_std": 8.996973408593071, "train/model_loss_mean": 7.327511923653739, "train/model_loss_std": 13.079367304605151, "train/model_opt_grad_norm": 23.696693692888534, "train/model_opt_grad_steps": 590863.253968254, "train/model_opt_loss": 19132.365745907737, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2619.0476190476193, "train/policy_entropy_mag": 2.732452600721329, "train/policy_entropy_max": 2.732452600721329, "train/policy_entropy_mean": 0.44697457812135183, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6536120814936501, "train/policy_logprob_mag": 7.438384313431997, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4461622072590722, "train/policy_logprob_min": -7.438384313431997, "train/policy_logprob_std": 1.0612769760782756, "train/policy_randomness_mag": 0.964435857439798, "train/policy_randomness_max": 0.964435857439798, "train/policy_randomness_mean": 0.15776241286879494, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2306963839228191, "train/post_ent_mag": 55.396243564666264, "train/post_ent_max": 55.396243564666264, "train/post_ent_mean": 40.0395633152553, "train/post_ent_min": 19.679051777673145, "train/post_ent_std": 5.869863267928835, "train/prior_ent_mag": 76.73339637877449, "train/prior_ent_max": 76.73339637877449, "train/prior_ent_mean": 45.99044854300363, "train/prior_ent_min": 27.644689862690274, "train/prior_ent_std": 7.9387340469965855, "train/rep_loss_mean": 6.009091384827145, "train/rep_loss_std": 8.977336172073606, "train/reward_avg": 0.04777715727686882, "train/reward_loss_mean": 0.062462868375910655, "train/reward_loss_std": 0.2217695057865173, "train/reward_max_data": 1.0269841334176442, "train/reward_max_pred": 1.0256605678134494, "train/reward_neg_acc": 0.9930762998641484, "train/reward_neg_loss": 0.026309733840799522, "train/reward_pos_acc": 0.9914676187530397, "train/reward_pos_loss": 0.7200550446434627, "train/reward_pred": 0.047537224899445264, "train/reward_rate": 0.05226934523809524, "stats/sum_log_reward": 10.350000023841858, "stats/max_log_achievement_collect_coal": 0.125, "stats/max_log_achievement_collect_drink": 1.25, "stats/max_log_achievement_collect_iron": 0.125, "stats/max_log_achievement_collect_sapling": 1.125, "stats/max_log_achievement_collect_stone": 11.625, "stats/max_log_achievement_collect_wood": 9.625, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.75, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.875, "stats/max_log_achievement_make_stone_sword": 0.75, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.625, "stats/max_log_achievement_place_plant": 1.125, "stats/max_log_achievement_place_stone": 1.625, "stats/max_log_achievement_place_table": 2.625, "stats/max_log_achievement_wake_up": 0.625, "stats/mean_log_entropy": 0.243191696703434, "replay/size": 1000000.0, "replay/inserts": 1254.0, "replay/samples": 10032.0, "replay/insert_wait_avg": 3.2897581133926123e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3853326748812978e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3170084953308, "timer/env.step_count": 1254.0, "timer/env.step_total": 20.333210706710815, "timer/env.step_frac": 0.06770582461707941, "timer/env.step_avg": 0.016214681584298896, "timer/env.step_min": 0.0029947757720947266, "timer/env.step_max": 1.6581084728240967, "timer/replay.add_count": 1254.0, "timer/replay.add_total": 0.26045751571655273, "timer/replay.add_frac": 0.0008672752736234125, "timer/replay.add_avg": 0.00020770136819501812, "timer/replay.add_min": 6.914138793945312e-05, "timer/replay.add_max": 0.0009598731994628906, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022949695587158203, "timer/logger.write_frac": 7.641823452538491e-05, "timer/logger.write_avg": 0.022949695587158203, "timer/logger.write_min": 0.022949695587158203, "timer/logger.write_max": 0.022949695587158203, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1254.0, "timer/agent.policy_total": 9.833296060562134, "timer/agent.policy_frac": 0.03274305411414957, "timer/agent.policy_avg": 0.007841543907944285, "timer/agent.policy_min": 0.005864143371582031, "timer/agent.policy_max": 0.015990257263183594, "timer/dataset_count": 627.0, "timer/dataset_total": 0.054151058197021484, "timer/dataset_frac": 0.00018031299148966917, "timer/dataset_avg": 8.636532407818419e-05, "timer/dataset_min": 6.246566772460938e-05, "timer/dataset_max": 0.0001659393310546875, "timer/agent.train_count": 627.0, "timer/agent.train_total": 269.1910116672516, "timer/agent.train_frac": 0.8963561971264004, "timer/agent.train_avg": 0.4293317570450583, "timer/agent.train_min": 0.37677860260009766, "timer/agent.train_max": 0.4554111957550049, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22937393188476562, "timer/agent.report_frac": 0.0007637726981698135, "timer/agent.report_avg": 0.22937393188476562, "timer/agent.report_min": 0.22937393188476562, "timer/agent.report_max": 0.22937393188476562, "fps": 4.175505809580031}
{"step": 1184563, "episode/length": 378.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.03430079155672823}
{"step": 1184758, "episode/length": 194.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.07179487179487179}
{"step": 1184946, "episode/length": 187.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.900000050663948, "episode/reward_rate": 0.0797872340425532}
{"step": 1185185, "episode/length": 238.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.058577405857740586}
{"step": 1185472, "episode/length": 286.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.100000001490116, "episode/reward_rate": 0.05226480836236934}
{"step": 1185628, "episode/length": 155.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.100000016391277, "episode/reward_rate": 0.10897435897435898}
{"step": 1185663, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.375468592489919, "train/action_min": 0.0, "train/action_std": 3.302082973141824, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03665477614248953, "train/actor_opt_grad_steps": 591975.0, "train/actor_opt_loss": -11.378422133384213, "train/adv_mag": 0.4064710524774367, "train/adv_max": 0.31738921927828945, "train/adv_mean": 0.0015923919277889991, "train/adv_min": -0.3831523839504488, "train/adv_std": 0.04155442959839298, "train/cont_avg": 0.9952274445564516, "train/cont_loss_mean": 7.739126592072822e-05, "train/cont_loss_std": 0.002352406392487278, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00039753413008975587, "train/cont_pos_acc": 0.9999841711213512, "train/cont_pos_loss": 7.546882124272762e-05, "train/cont_pred": 0.9952041612517449, "train/cont_rate": 0.9952274445564516, "train/dyn_loss_mean": 5.882768400253788, "train/dyn_loss_std": 8.97588066131838, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9061441411895137, "train/extr_critic_critic_opt_grad_steps": 591975.0, "train/extr_critic_critic_opt_loss": 15122.261025705646, "train/extr_critic_mag": 12.388672490273752, "train/extr_critic_max": 12.388672490273752, "train/extr_critic_mean": 3.75620065581414, "train/extr_critic_min": -0.328251431065221, "train/extr_critic_std": 2.9395052579141434, "train/extr_return_normed_mag": 1.3810957843257534, "train/extr_return_normed_max": 1.3810957843257534, "train/extr_return_normed_mean": 0.3932697494183817, "train/extr_return_normed_min": -0.07007699474812515, "train/extr_return_normed_std": 0.30894110808449404, "train/extr_return_rate": 0.8549784133511205, "train/extr_return_raw_mag": 13.242306770816926, "train/extr_return_raw_max": 13.242306770816926, "train/extr_return_raw_mean": 3.771477472397589, "train/extr_return_raw_min": -0.6700713288399481, "train/extr_return_raw_std": 2.961975113038094, "train/extr_reward_mag": 1.0854934069418138, "train/extr_reward_max": 1.0854934069418138, "train/extr_reward_mean": 0.06286923953842732, "train/extr_reward_min": -0.5789982503460299, "train/extr_reward_std": 0.24084632266913691, "train/image_loss_mean": 3.445126143194014, "train/image_loss_std": 8.659870263068907, "train/model_loss_mean": 7.039213395887805, "train/model_loss_std": 12.797528589925458, "train/model_opt_grad_norm": 20.87583937183503, "train/model_opt_grad_steps": 591487.9032258064, "train/model_opt_loss": 18531.461142263106, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2620.967741935484, "train/policy_entropy_mag": 2.7302927663249354, "train/policy_entropy_max": 2.7302927663249354, "train/policy_entropy_mean": 0.4577630513137387, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6759882348199044, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.45775486528873444, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 1.0749511324590253, "train/policy_randomness_mag": 0.9636735300863942, "train/policy_randomness_max": 0.9636735300863942, "train/policy_randomness_mean": 0.1615702718977005, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23859418063394486, "train/post_ent_mag": 55.25725444670646, "train/post_ent_max": 55.25725444670646, "train/post_ent_mean": 40.04874567831716, "train/post_ent_min": 19.77040177006875, "train/post_ent_std": 5.747883988964942, "train/prior_ent_mag": 76.85141520346365, "train/prior_ent_max": 76.85141520346365, "train/prior_ent_mean": 45.90721296495007, "train/prior_ent_min": 27.94870650383734, "train/prior_ent_std": 7.862900810856973, "train/rep_loss_mean": 5.882768400253788, "train/rep_loss_std": 8.97588066131838, "train/reward_avg": 0.04885175115158481, "train/reward_loss_mean": 0.06434888753198809, "train/reward_loss_std": 0.2288538078146596, "train/reward_max_data": 1.0419354938691663, "train/reward_max_pred": 1.0376108307992258, "train/reward_neg_acc": 0.9930793296906256, "train/reward_neg_loss": 0.027364639009559346, "train/reward_pos_acc": 0.988830570251711, "train/reward_pos_loss": 0.72383516065536, "train/reward_pred": 0.04852159126030822, "train/reward_rate": 0.05322265625, "stats/sum_log_reward": 13.43333355585734, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.5, "stats/max_log_achievement_collect_sapling": 2.1666666666666665, "stats/max_log_achievement_collect_stone": 17.333333333333332, "stats/max_log_achievement_collect_wood": 11.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.5, "stats/max_log_achievement_defeat_zombie": 0.8333333333333334, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.8333333333333333, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 3.1666666666666665, "stats/max_log_achievement_place_table": 3.1666666666666665, "stats/max_log_achievement_wake_up": 0.8333333333333334, "stats/mean_log_entropy": 0.41193169603745144, "replay/size": 1000000.0, "replay/inserts": 1244.0, "replay/samples": 9952.0, "replay/insert_wait_avg": 3.325594199815364e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3687027995609393e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.03763914108276, "timer/env.step_count": 1244.0, "timer/env.step_total": 17.691206455230713, "timer/env.step_frac": 0.05896329042541229, "timer/env.step_avg": 0.01422122705404398, "timer/env.step_min": 0.00301361083984375, "timer/env.step_max": 1.6139514446258545, "timer/replay.add_count": 1244.0, "timer/replay.add_total": 0.25811338424682617, "timer/replay.add_frac": 0.0008602700147412401, "timer/replay.add_avg": 0.00020748664328523004, "timer/replay.add_min": 7.367134094238281e-05, "timer/replay.add_max": 0.0009565353393554688, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024755001068115234, "timer/logger.write_frac": 8.250631867048858e-05, "timer/logger.write_avg": 0.024755001068115234, "timer/logger.write_min": 0.024755001068115234, "timer/logger.write_max": 0.024755001068115234, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00021696090698242188, "timer/checkpoint.save_frac": 7.231122988552886e-07, "timer/checkpoint.save_avg": 0.00021696090698242188, "timer/checkpoint.save_min": 0.00021696090698242188, "timer/checkpoint.save_max": 0.00021696090698242188, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.441007137298584, "timer/agent.save_frac": 0.004802754552474658, "timer/agent.save_avg": 1.441007137298584, "timer/agent.save_min": 1.441007137298584, "timer/agent.save_max": 1.441007137298584, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.389617919921875e-05, "timer/replay.save_frac": 2.129605451573817e-07, "timer/replay.save_avg": 6.389617919921875e-05, "timer/replay.save_min": 6.389617919921875e-05, "timer/replay.save_max": 6.389617919921875e-05, "timer/agent.policy_count": 1244.0, "timer/agent.policy_total": 13.524815082550049, "timer/agent.policy_frac": 0.04507706140225445, "timer/agent.policy_avg": 0.010872037847709043, "timer/agent.policy_min": 0.005846977233886719, "timer/agent.policy_max": 2.3259103298187256, "timer/dataset_count": 622.0, "timer/dataset_total": 0.05281949043273926, "timer/dataset_frac": 0.00017604288109966977, "timer/dataset_avg": 8.491879490794093e-05, "timer/dataset_min": 6.270408630371094e-05, "timer/dataset_max": 0.00016307830810546875, "timer/agent.train_count": 622.0, "timer/agent.train_total": 267.86877608299255, "timer/agent.train_frac": 0.8927839082117165, "timer/agent.train_avg": 0.4306571962749076, "timer/agent.train_min": 0.3688023090362549, "timer/agent.train_max": 0.4851667881011963, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22938060760498047, "timer/agent.report_frac": 0.0007645061075058048, "timer/agent.report_avg": 0.22938060760498047, "timer/agent.report_min": 0.22938060760498047, "timer/agent.report_max": 0.22938060760498047, "fps": 4.146097642664825}
{"step": 1185839, "episode/length": 210.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.05687203791469194}
{"step": 1186058, "episode/length": 218.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.0684931506849315}
{"step": 1186237, "episode/length": 178.0, "episode/score": 12.100000023841858, "episode/sum_abs_reward": 13.700000047683716, "episode/reward_rate": 0.07262569832402235}
{"step": 1186454, "episode/length": 216.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.30000004172325, "episode/reward_rate": 0.06912442396313365}
{"step": 1186680, "episode/length": 225.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.061946902654867256}
{"step": 1186871, "episode/length": 190.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.06806282722513089}
{"step": 1186925, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.428930857824901, "train/action_min": 0.0, "train/action_std": 3.3018256444779652, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03598417726064485, "train/actor_opt_grad_steps": 592600.0, "train/actor_opt_loss": -10.636883495345948, "train/adv_mag": 0.3659774739117849, "train/adv_max": 0.3233108849279464, "train/adv_mean": 0.0018658825522126993, "train/adv_min": -0.32548556275784024, "train/adv_std": 0.040957789572458415, "train/cont_avg": 0.9949466765873016, "train/cont_loss_mean": 5.0483812032098285e-05, "train/cont_loss_std": 0.001590412652997689, "train/cont_neg_acc": 0.9968253970146179, "train/cont_neg_loss": 0.004905528792498869, "train/cont_pos_acc": 0.9999843930441236, "train/cont_pos_loss": 2.6703554781866004e-05, "train/cont_pred": 0.9949399459929693, "train/cont_rate": 0.9949466765873016, "train/dyn_loss_mean": 5.7730588307456365, "train/dyn_loss_std": 8.976714966789125, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8722673134198264, "train/extr_critic_critic_opt_grad_steps": 592600.0, "train/extr_critic_critic_opt_loss": 15101.599531870039, "train/extr_critic_mag": 12.596863428751627, "train/extr_critic_max": 12.596863428751627, "train/extr_critic_mean": 3.7254355407896496, "train/extr_critic_min": -0.3300955825381809, "train/extr_critic_std": 3.0415068278236994, "train/extr_return_normed_mag": 1.3979028917494274, "train/extr_return_normed_max": 1.3979028917494274, "train/extr_return_normed_mean": 0.3906059984176878, "train/extr_return_normed_min": -0.0665631140508349, "train/extr_return_normed_std": 0.32026192640501355, "train/extr_return_rate": 0.8377966275290837, "train/extr_return_raw_mag": 13.409220680357917, "train/extr_return_raw_max": 13.409220680357917, "train/extr_return_raw_mean": 3.7433284577869235, "train/extr_return_raw_min": -0.643559482835588, "train/extr_return_raw_std": 3.0732701392400834, "train/extr_reward_mag": 1.0845044340406145, "train/extr_reward_max": 1.0845044340406145, "train/extr_reward_mean": 0.06260025986130276, "train/extr_reward_min": -0.5921007413712759, "train/extr_reward_std": 0.2403795425854032, "train/image_loss_mean": 3.47451779199025, "train/image_loss_std": 8.715520124586801, "train/model_loss_mean": 7.003318998548719, "train/model_loss_std": 12.858639550587487, "train/model_opt_grad_norm": 20.349500111171178, "train/model_opt_grad_steps": 592112.0, "train/model_opt_loss": 17508.29747953869, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.721440073043581, "train/policy_entropy_max": 2.721440073043581, "train/policy_entropy_mean": 0.4551580340143234, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6719253933618939, "train/policy_logprob_mag": 7.438384313431997, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4555313114135984, "train/policy_logprob_min": -7.438384313431997, "train/policy_logprob_std": 1.074151376883189, "train/policy_randomness_mag": 0.960548912721967, "train/policy_randomness_max": 0.960548912721967, "train/policy_randomness_mean": 0.1606508144547069, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23716017745790027, "train/post_ent_mag": 55.51378026084294, "train/post_ent_max": 55.51378026084294, "train/post_ent_mean": 40.2786995418488, "train/post_ent_min": 19.728999697972856, "train/post_ent_std": 5.8603895505269366, "train/prior_ent_mag": 76.85291835239956, "train/prior_ent_max": 76.85291835239956, "train/prior_ent_mean": 46.05639048985073, "train/prior_ent_min": 27.6254275488475, "train/prior_ent_std": 7.896033589802091, "train/rep_loss_mean": 5.7730588307456365, "train/rep_loss_std": 8.976714966789125, "train/reward_avg": 0.04940476173919345, "train/reward_loss_mean": 0.06491548089044434, "train/reward_loss_std": 0.22772413610465944, "train/reward_max_data": 1.028571435383388, "train/reward_max_pred": 1.0288426762535459, "train/reward_neg_acc": 0.9922523697217306, "train/reward_neg_loss": 0.02754112792807439, "train/reward_pos_acc": 0.9898958045338827, "train/reward_pos_loss": 0.7209218731002202, "train/reward_pred": 0.049123679154685566, "train/reward_rate": 0.05395895337301587, "stats/sum_log_reward": 12.766666889190674, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 2.3333333333333335, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.1666666666666667, "stats/max_log_achievement_collect_stone": 12.166666666666666, "stats/max_log_achievement_collect_wood": 12.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 2.1666666666666665, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.1666666666666667, "stats/max_log_achievement_place_plant": 0.8333333333333334, "stats/max_log_achievement_place_stone": 2.3333333333333335, "stats/max_log_achievement_place_table": 3.1666666666666665, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3495349586009979, "replay/size": 1000000.0, "replay/inserts": 1262.0, "replay/samples": 10096.0, "replay/insert_wait_avg": 3.372243769384224e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3798805877637183e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.236661195755, "timer/env.step_count": 1262.0, "timer/env.step_total": 17.255098581314087, "timer/env.step_frac": 0.057471657567040826, "timer/env.step_avg": 0.013672819795019086, "timer/env.step_min": 0.003031492233276367, "timer/env.step_max": 1.639465093612671, "timer/replay.add_count": 1262.0, "timer/replay.add_total": 0.25908374786376953, "timer/replay.add_frac": 0.0008629317513454705, "timer/replay.add_avg": 0.0002052961552010852, "timer/replay.add_min": 7.748603820800781e-05, "timer/replay.add_max": 0.001468658447265625, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030454397201538086, "timer/logger.write_frac": 0.00010143463852897614, "timer/logger.write_avg": 0.030454397201538086, "timer/logger.write_min": 0.030454397201538086, "timer/logger.write_max": 0.030454397201538086, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1262.0, "timer/agent.policy_total": 9.994879961013794, "timer/agent.policy_frac": 0.033290005028723355, "timer/agent.policy_avg": 0.007919873186223291, "timer/agent.policy_min": 0.0059659481048583984, "timer/agent.policy_max": 0.016258955001831055, "timer/dataset_count": 631.0, "timer/dataset_total": 0.053626060485839844, "timer/dataset_frac": 0.00017861263268870262, "timer/dataset_avg": 8.49858327826305e-05, "timer/dataset_min": 6.270408630371094e-05, "timer/dataset_max": 0.00018596649169921875, "timer/agent.train_count": 631.0, "timer/agent.train_total": 271.9871380329132, "timer/agent.train_frac": 0.9059091483021021, "timer/agent.train_avg": 0.4310414231900368, "timer/agent.train_min": 0.3667769432067871, "timer/agent.train_max": 0.45428037643432617, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2641890048980713, "timer/agent.report_frac": 0.0008799358607502614, "timer/agent.report_avg": 0.2641890048980713, "timer/agent.report_min": 0.2641890048980713, "timer/agent.report_max": 0.2641890048980713, "fps": 4.20326645987269}
{"step": 1187150, "episode/length": 278.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.700000025331974, "episode/reward_rate": 0.05734767025089606}
{"step": 1187668, "episode/length": 517.0, "episode/score": 16.099999986588955, "episode/sum_abs_reward": 20.1000000461936, "episode/reward_rate": 0.032818532818532815}
{"step": 1187887, "episode/length": 218.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.0639269406392694}
{"step": 1188201, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.393150329589844, "train/action_min": 0.0, "train/action_std": 3.2685402035713196, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03695887696812861, "train/actor_opt_grad_steps": 593235.0, "train/actor_opt_loss": -12.063145556952804, "train/adv_mag": 0.3803431522101164, "train/adv_max": 0.3193029537796974, "train/adv_mean": 0.0015271829991547747, "train/adv_min": -0.3484618407674134, "train/adv_std": 0.0410613193816971, "train/cont_avg": 0.9950103759765625, "train/cont_loss_mean": 3.197491284256948e-05, "train/cont_loss_std": 0.0009383695718749863, "train/cont_neg_acc": 0.9968750001862645, "train/cont_neg_loss": 0.003328769892454564, "train/cont_pos_acc": 0.9999999832361937, "train/cont_pos_loss": 1.578805742452616e-05, "train/cont_pred": 0.9950064839795232, "train/cont_rate": 0.9950103759765625, "train/dyn_loss_mean": 5.677666276693344, "train/dyn_loss_std": 8.884365767240524, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8720942046493292, "train/extr_critic_critic_opt_grad_steps": 593235.0, "train/extr_critic_critic_opt_loss": 15113.544067382812, "train/extr_critic_mag": 12.526967450976372, "train/extr_critic_max": 12.526967450976372, "train/extr_critic_mean": 3.840277012437582, "train/extr_critic_min": -0.32100930623710155, "train/extr_critic_std": 3.0072005316615105, "train/extr_return_normed_mag": 1.377054836601019, "train/extr_return_normed_max": 1.377054836601019, "train/extr_return_normed_mean": 0.39810365810990334, "train/extr_return_normed_min": -0.06649043556535617, "train/extr_return_normed_std": 0.3134719138033688, "train/extr_return_rate": 0.8582286015152931, "train/extr_return_raw_mag": 13.322458267211914, "train/extr_return_raw_max": 13.322458267211914, "train/extr_return_raw_mean": 3.8550594337284565, "train/extr_return_raw_min": -0.638348734471947, "train/extr_return_raw_std": 3.0317649953067303, "train/extr_reward_mag": 1.078008845448494, "train/extr_reward_max": 1.078008845448494, "train/extr_reward_mean": 0.0641413705307059, "train/extr_reward_min": -0.5747354738414288, "train/extr_reward_std": 0.24285575631074607, "train/image_loss_mean": 3.335526682436466, "train/image_loss_std": 8.538529083132744, "train/model_loss_mean": 6.805299766361713, "train/model_loss_std": 12.636865645647049, "train/model_opt_grad_norm": 20.51690313220024, "train/model_opt_grad_steps": 592746.625, "train/model_opt_loss": 19340.652862548828, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2851.5625, "train/policy_entropy_mag": 2.713475689291954, "train/policy_entropy_max": 2.713475689291954, "train/policy_entropy_mean": 0.42810224229469895, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6436858242377639, "train/policy_logprob_mag": 7.438384346663952, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.42723676608875394, "train/policy_logprob_min": -7.438384346663952, "train/policy_logprob_std": 1.0506752850487828, "train/policy_randomness_mag": 0.9577378425747156, "train/policy_randomness_max": 0.9577378425747156, "train/policy_randomness_mean": 0.15110130503308028, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22719284845516086, "train/post_ent_mag": 56.07421278953552, "train/post_ent_max": 56.07421278953552, "train/post_ent_mean": 40.16862052679062, "train/post_ent_min": 19.98348969221115, "train/post_ent_std": 5.820601761341095, "train/prior_ent_mag": 76.79956316947937, "train/prior_ent_max": 76.79956316947937, "train/prior_ent_mean": 45.83612394332886, "train/prior_ent_min": 27.50856250524521, "train/prior_ent_std": 7.937638960778713, "train/rep_loss_mean": 5.677666276693344, "train/rep_loss_std": 8.884365767240524, "train/reward_avg": 0.048606872238451615, "train/reward_loss_mean": 0.06314136821310967, "train/reward_loss_std": 0.22086537745781243, "train/reward_max_data": 1.0359375085681677, "train/reward_max_pred": 1.0322965271770954, "train/reward_neg_acc": 0.9926590695977211, "train/reward_neg_loss": 0.02662088323268108, "train/reward_pos_acc": 0.9913332592695951, "train/reward_pos_loss": 0.7175927674397826, "train/reward_pred": 0.04833063457044773, "train/reward_rate": 0.052886962890625, "stats/sum_log_reward": 14.766667048136393, "stats/max_log_achievement_collect_coal": 0.3333333333333333, "stats/max_log_achievement_collect_drink": 5.666666666666667, "stats/max_log_achievement_collect_iron": 1.0, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 25.666666666666668, "stats/max_log_achievement_collect_wood": 14.0, "stats/max_log_achievement_defeat_skeleton": 0.3333333333333333, "stats/max_log_achievement_defeat_zombie": 2.6666666666666665, "stats/max_log_achievement_eat_cow": 1.6666666666666667, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.3333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.3333333333333333, "stats/max_log_achievement_place_furnace": 3.3333333333333335, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 6.333333333333333, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.6666666666666667, "stats/mean_log_entropy": 0.7028495570023855, "replay/size": 1000000.0, "replay/inserts": 1276.0, "replay/samples": 10208.0, "replay/insert_wait_avg": 3.4785569648383926e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3834256737209786e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1746084690094, "timer/env.step_count": 1276.0, "timer/env.step_total": 12.977535724639893, "timer/env.step_frac": 0.04323328942054644, "timer/env.step_avg": 0.010170482542821232, "timer/env.step_min": 0.0031235218048095703, "timer/env.step_max": 1.5943799018859863, "timer/replay.add_count": 1276.0, "timer/replay.add_total": 0.2742152214050293, "timer/replay.add_frac": 0.000913519044144401, "timer/replay.add_avg": 0.0002149022111324681, "timer/replay.add_min": 7.152557373046875e-05, "timer/replay.add_max": 0.0008480548858642578, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025951623916625977, "timer/logger.write_frac": 8.645509375022728e-05, "timer/logger.write_avg": 0.025951623916625977, "timer/logger.write_min": 0.025951623916625977, "timer/logger.write_max": 0.025951623916625977, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1276.0, "timer/agent.policy_total": 10.123167276382446, "timer/agent.policy_frac": 0.03372426244849281, "timer/agent.policy_avg": 0.007933516674280914, "timer/agent.policy_min": 0.006194353103637695, "timer/agent.policy_max": 0.014389514923095703, "timer/dataset_count": 638.0, "timer/dataset_total": 0.05521559715270996, "timer/dataset_frac": 0.00018394492936737027, "timer/dataset_avg": 8.654482312336984e-05, "timer/dataset_min": 6.270408630371094e-05, "timer/dataset_max": 0.0001499652862548828, "timer/agent.train_count": 638.0, "timer/agent.train_total": 276.1080825328827, "timer/agent.train_frac": 0.9198249110446949, "timer/agent.train_avg": 0.4327712892364933, "timer/agent.train_min": 0.3777804374694824, "timer/agent.train_max": 0.453765869140625, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21729207038879395, "timer/agent.report_frac": 0.0007238855794534253, "timer/agent.report_avg": 0.21729207038879395, "timer/agent.report_min": 0.21729207038879395, "timer/agent.report_max": 0.21729207038879395, "fps": 4.250777447263183}
{"step": 1188391, "episode/length": 503.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 12.900000043213367, "episode/reward_rate": 0.01984126984126984}
{"step": 1188560, "episode/length": 168.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.07100591715976332}
{"step": 1188623, "episode/length": 62.0, "episode/score": 7.099999979138374, "episode/sum_abs_reward": 9.30000002682209, "episode/reward_rate": 0.12698412698412698}
{"step": 1188834, "episode/length": 210.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.06635071090047394}
{"step": 1189031, "episode/length": 196.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.07106598984771574}
{"step": 1189237, "episode/length": 205.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.06796116504854369}
{"step": 1189445, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.403186428931452, "train/action_min": 0.0, "train/action_std": 3.256084288320234, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.037039528000018286, "train/actor_opt_grad_steps": 593865.0, "train/actor_opt_loss": -10.603351313260294, "train/adv_mag": 0.4151109904050827, "train/adv_max": 0.3230188693250379, "train/adv_mean": 0.002359486397014529, "train/adv_min": -0.38825629867853656, "train/adv_std": 0.0415895075927819, "train/cont_avg": 0.9949124243951613, "train/cont_loss_mean": 1.3214216302744277e-05, "train/cont_loss_std": 0.0003139096304659189, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 5.7062146950985624e-05, "train/cont_pos_acc": 0.9999999730817734, "train/cont_pos_loss": 1.2967889831781665e-05, "train/cont_pred": 0.9949002323612091, "train/cont_rate": 0.9949124243951613, "train/dyn_loss_mean": 5.956712692014633, "train/dyn_loss_std": 8.930629807133828, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8489251405962052, "train/extr_critic_critic_opt_grad_steps": 593865.0, "train/extr_critic_critic_opt_loss": 15058.668189264114, "train/extr_critic_mag": 12.533156010412402, "train/extr_critic_max": 12.533156010412402, "train/extr_critic_mean": 3.7887859036845546, "train/extr_critic_min": -0.3489198434737421, "train/extr_critic_std": 2.991837622657899, "train/extr_return_normed_mag": 1.378873973123489, "train/extr_return_normed_max": 1.378873973123489, "train/extr_return_normed_mean": 0.3980534913078431, "train/extr_return_normed_min": -0.06757357229869213, "train/extr_return_normed_std": 0.31463173296182384, "train/extr_return_rate": 0.8545835844932064, "train/extr_return_raw_mag": 13.229878856289771, "train/extr_return_raw_max": 13.229878856289771, "train/extr_return_raw_mean": 3.811455561268714, "train/extr_return_raw_min": -0.6595231722439489, "train/extr_return_raw_std": 3.0213734084560024, "train/extr_reward_mag": 1.094227094804087, "train/extr_reward_max": 1.094227094804087, "train/extr_reward_mean": 0.06613366918698434, "train/extr_reward_min": -0.5969781279563904, "train/extr_reward_std": 0.24631980950793914, "train/image_loss_mean": 3.4241345813197475, "train/image_loss_std": 8.422957205003307, "train/model_loss_mean": 7.063777769765546, "train/model_loss_std": 12.565312139449581, "train/model_opt_grad_norm": 21.8673707618088, "train/model_opt_grad_steps": 593375.3225806452, "train/model_opt_loss": 11821.02287046371, "train/model_opt_model_opt_grad_overflow": 0.016129032258064516, "train/model_opt_model_opt_grad_scale": 1653.225806451613, "train/policy_entropy_mag": 2.72690123896445, "train/policy_entropy_max": 2.72690123896445, "train/policy_entropy_mean": 0.44248476528352304, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6626921728734048, "train/policy_logprob_mag": 7.438384332964497, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.44210878014564514, "train/policy_logprob_min": -7.438384332964497, "train/policy_logprob_std": 1.0636205365580897, "train/policy_randomness_mag": 0.9624764678939697, "train/policy_randomness_max": 0.9624764678939697, "train/policy_randomness_mean": 0.1561777036516897, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2339012519486489, "train/post_ent_mag": 55.31746384405321, "train/post_ent_max": 55.31746384405321, "train/post_ent_mean": 40.14324772742487, "train/post_ent_min": 19.90821610727618, "train/post_ent_std": 5.898954391479492, "train/prior_ent_mag": 76.70261629166141, "train/prior_ent_max": 76.70261629166141, "train/prior_ent_mean": 46.08715420384561, "train/prior_ent_min": 27.350819741525957, "train/prior_ent_std": 7.919899302144205, "train/rep_loss_mean": 5.956712692014633, "train/rep_loss_std": 8.930629807133828, "train/reward_avg": 0.0504489034534462, "train/reward_loss_mean": 0.06560237645622223, "train/reward_loss_std": 0.23340607963262067, "train/reward_max_data": 1.0467742047002238, "train/reward_max_pred": 1.0453104049928728, "train/reward_neg_acc": 0.9922701043467368, "train/reward_neg_loss": 0.02677968525958638, "train/reward_pos_acc": 0.9862987004941509, "train/reward_pos_loss": 0.7352563565777194, "train/reward_pred": 0.05001974382227467, "train/reward_rate": 0.05500252016129032, "stats/sum_log_reward": 11.100000143051147, "stats/max_log_achievement_collect_coal": 0.16666666666666666, "stats/max_log_achievement_collect_drink": 4.666666666666667, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 8.166666666666666, "stats/max_log_achievement_collect_wood": 11.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.1666666666666665, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 0.3333333333333333, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 3.6666666666666665, "stats/max_log_achievement_place_table": 2.1666666666666665, "stats/max_log_achievement_wake_up": 1.6666666666666667, "stats/mean_log_entropy": 0.37011103828748065, "replay/size": 1000000.0, "replay/inserts": 1244.0, "replay/samples": 9952.0, "replay/insert_wait_avg": 3.269822651167008e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.373302514913381e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.23640036582947, "timer/env.step_count": 1244.0, "timer/env.step_total": 17.863782167434692, "timer/env.step_frac": 0.059499055230039344, "timer/env.step_avg": 0.014359953510799592, "timer/env.step_min": 0.0028913021087646484, "timer/env.step_max": 1.9306678771972656, "timer/replay.add_count": 1244.0, "timer/replay.add_total": 0.2755615711212158, "timer/replay.add_frac": 0.0009178153308041661, "timer/replay.add_avg": 0.0002215125169784693, "timer/replay.add_min": 6.914138793945312e-05, "timer/replay.add_max": 0.01148843765258789, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022512197494506836, "timer/logger.write_frac": 7.49815727442654e-05, "timer/logger.write_avg": 0.022512197494506836, "timer/logger.write_min": 0.022512197494506836, "timer/logger.write_max": 0.022512197494506836, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0005896091461181641, "timer/checkpoint.save_frac": 1.963816330730525e-06, "timer/checkpoint.save_avg": 0.0005896091461181641, "timer/checkpoint.save_min": 0.0005896091461181641, "timer/checkpoint.save_max": 0.0005896091461181641, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1887383460998535, "timer/agent.save_frac": 0.003959341187981903, "timer/agent.save_avg": 1.1887383460998535, "timer/agent.save_min": 1.1887383460998535, "timer/agent.save_max": 1.1887383460998535, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.891654968261719e-05, "timer/replay.save_frac": 2.6284804103186563e-07, "timer/replay.save_avg": 7.891654968261719e-05, "timer/replay.save_min": 7.891654968261719e-05, "timer/replay.save_max": 7.891654968261719e-05, "timer/agent.policy_count": 1244.0, "timer/agent.policy_total": 13.279946088790894, "timer/agent.policy_frac": 0.04423163238238155, "timer/agent.policy_avg": 0.010675197820571457, "timer/agent.policy_min": 0.006081819534301758, "timer/agent.policy_max": 2.3377509117126465, "timer/dataset_count": 622.0, "timer/dataset_total": 0.05417609214782715, "timer/dataset_frac": 0.00018044478311695427, "timer/dataset_avg": 8.709982660422371e-05, "timer/dataset_min": 6.079673767089844e-05, "timer/dataset_max": 0.00018787384033203125, "timer/agent.train_count": 622.0, "timer/agent.train_total": 268.0858316421509, "timer/agent.train_frac": 0.8929158200521188, "timer/agent.train_avg": 0.43100616019638405, "timer/agent.train_min": 0.36894893646240234, "timer/agent.train_max": 0.491152286529541, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.26505565643310547, "timer/agent.report_frac": 0.0008828231890275221, "timer/agent.report_avg": 0.26505565643310547, "timer/agent.report_min": 0.26505565643310547, "timer/agent.report_max": 0.26505565643310547, "fps": 4.143316882013713}
{"step": 1189483, "episode/length": 245.0, "episode/score": 8.099999994039536, "episode/sum_abs_reward": 10.700000017881393, "episode/reward_rate": 0.04065040650406504}
{"step": 1189657, "episode/length": 173.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.07471264367816093}
{"step": 1189813, "episode/length": 155.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.100000038743019, "episode/reward_rate": 0.08333333333333333}
{"step": 1189872, "episode/length": 58.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.0847457627118644}
{"step": 1190066, "episode/length": 193.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.061855670103092786}
{"step": 1190321, "episode/length": 254.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.058823529411764705}
{"step": 1190502, "episode/length": 180.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.0718232044198895}
{"step": 1190545, "episode/length": 42.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.11627906976744186}
{"step": 1190603, "episode/length": 57.0, "episode/score": 6.099999986588955, "episode/sum_abs_reward": 7.699999965727329, "episode/reward_rate": 0.13793103448275862}
{"step": 1190685, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.369342434790827, "train/action_min": 0.0, "train/action_std": 3.2732513604625577, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03650318960388822, "train/actor_opt_grad_steps": 594485.0, "train/actor_opt_loss": -10.748587000754572, "train/adv_mag": 0.41681864785571254, "train/adv_max": 0.3326962967553446, "train/adv_mean": 0.0024952177434663042, "train/adv_min": -0.38272970578362864, "train/adv_std": 0.04172096058966652, "train/cont_avg": 0.9948494203629032, "train/cont_loss_mean": 8.89588799997264e-05, "train/cont_loss_std": 0.002750850392832519, "train/cont_neg_acc": 0.9903033808354409, "train/cont_neg_loss": 0.017255353255197673, "train/cont_pos_acc": 0.9999999807726953, "train/cont_pos_loss": 9.41606464289363e-06, "train/cont_pred": 0.9948834536537048, "train/cont_rate": 0.9948494203629032, "train/dyn_loss_mean": 5.81930043620448, "train/dyn_loss_std": 9.018597102934315, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9004131113329241, "train/extr_critic_critic_opt_grad_steps": 594485.0, "train/extr_critic_critic_opt_loss": 15302.600396925403, "train/extr_critic_mag": 12.623428144762594, "train/extr_critic_max": 12.623428144762594, "train/extr_critic_mean": 3.8543413954396404, "train/extr_critic_min": -0.31677936546264157, "train/extr_critic_std": 3.020209070174925, "train/extr_return_normed_mag": 1.3736533061150582, "train/extr_return_normed_max": 1.3736533061150582, "train/extr_return_normed_mean": 0.400531931750236, "train/extr_return_normed_min": -0.0689126558361515, "train/extr_return_normed_std": 0.31569231565921535, "train/extr_return_rate": 0.8609375472991697, "train/extr_return_raw_mag": 13.275931404482934, "train/extr_return_raw_max": 13.275931404482934, "train/extr_return_raw_mean": 3.87843616162577, "train/extr_return_raw_min": -0.6555003725713299, "train/extr_return_raw_std": 3.049059371794424, "train/extr_reward_mag": 1.0869875723315823, "train/extr_reward_max": 1.0869875723315823, "train/extr_reward_mean": 0.06455786634356744, "train/extr_reward_min": -0.591774046421051, "train/extr_reward_std": 0.24342723503228156, "train/image_loss_mean": 3.4978593126420052, "train/image_loss_std": 8.84016227722168, "train/model_loss_mean": 7.0527253074030725, "train/model_loss_std": 12.991022694495417, "train/model_opt_grad_norm": 18.012227058410645, "train/model_opt_grad_steps": 593995.0, "train/model_opt_loss": 9220.607390372983, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1310.483870967742, "train/policy_entropy_mag": 2.720714065336412, "train/policy_entropy_max": 2.720714065336412, "train/policy_entropy_mean": 0.41704964565653957, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6331578805561988, "train/policy_logprob_mag": 7.438384248364356, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.41667869566909727, "train/policy_logprob_min": -7.438384248364356, "train/policy_logprob_std": 1.042278165778806, "train/policy_randomness_mag": 0.960292669073228, "train/policy_randomness_max": 0.960292669073228, "train/policy_randomness_mean": 0.14720022281812084, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22347694443118188, "train/post_ent_mag": 55.664271077802105, "train/post_ent_max": 55.664271077802105, "train/post_ent_mean": 40.120925041937056, "train/post_ent_min": 20.165964003532164, "train/post_ent_std": 5.812450870390861, "train/prior_ent_mag": 76.75984487225932, "train/prior_ent_max": 76.75984487225932, "train/prior_ent_mean": 45.91523115096554, "train/prior_ent_min": 27.48230771095522, "train/prior_ent_std": 7.978982240922989, "train/rep_loss_mean": 5.81930043620448, "train/rep_loss_std": 9.018597102934315, "train/reward_avg": 0.049415637588789384, "train/reward_loss_mean": 0.06319676513873762, "train/reward_loss_std": 0.2212819755077362, "train/reward_max_data": 1.038709686648461, "train/reward_max_pred": 1.0372870314505793, "train/reward_neg_acc": 0.9924118028533074, "train/reward_neg_loss": 0.026220312372090354, "train/reward_pos_acc": 0.9925473822701362, "train/reward_pos_loss": 0.7135760245784637, "train/reward_pred": 0.04926783588504599, "train/reward_rate": 0.05385269657258065, "stats/sum_log_reward": 9.322222550710043, "stats/max_log_achievement_collect_coal": 0.4444444444444444, "stats/max_log_achievement_collect_drink": 1.3333333333333333, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 7.555555555555555, "stats/max_log_achievement_collect_wood": 10.555555555555555, "stats/max_log_achievement_defeat_skeleton": 0.1111111111111111, "stats/max_log_achievement_defeat_zombie": 1.4444444444444444, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.5555555555555556, "stats/max_log_achievement_make_stone_sword": 0.5555555555555556, "stats/max_log_achievement_make_wood_pickaxe": 0.7777777777777778, "stats/max_log_achievement_make_wood_sword": 0.7777777777777778, "stats/max_log_achievement_place_furnace": 0.7777777777777778, "stats/max_log_achievement_place_plant": 1.1111111111111112, "stats/max_log_achievement_place_stone": 2.111111111111111, "stats/max_log_achievement_place_table": 2.7777777777777777, "stats/max_log_achievement_wake_up": 0.8888888888888888, "stats/mean_log_entropy": 0.3016965455479092, "replay/size": 1000000.0, "replay/inserts": 1240.0, "replay/samples": 9920.0, "replay/insert_wait_avg": 3.236916757399036e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3728776285725254e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.037428855896, "timer/env.step_count": 1240.0, "timer/env.step_total": 21.73396348953247, "timer/env.step_frac": 0.07243750745501491, "timer/env.step_avg": 0.017527389910913283, "timer/env.step_min": 0.0027968883514404297, "timer/env.step_max": 1.631800889968872, "timer/replay.add_count": 1240.0, "timer/replay.add_total": 0.25168561935424805, "timer/replay.add_frac": 0.0008388474075183778, "timer/replay.add_avg": 0.0002029722736727807, "timer/replay.add_min": 7.390975952148438e-05, "timer/replay.add_max": 0.0007390975952148438, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03103017807006836, "timer/logger.write_frac": 0.00010342102379824, "timer/logger.write_avg": 0.03103017807006836, "timer/logger.write_min": 0.03103017807006836, "timer/logger.write_max": 0.03103017807006836, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1240.0, "timer/agent.policy_total": 9.809146404266357, "timer/agent.policy_frac": 0.03269307579947821, "timer/agent.policy_avg": 0.007910601938924481, "timer/agent.policy_min": 0.006064891815185547, "timer/agent.policy_max": 0.015289306640625, "timer/dataset_count": 620.0, "timer/dataset_total": 0.05266547203063965, "timer/dataset_frac": 0.00017552967385257184, "timer/dataset_avg": 8.494430972683815e-05, "timer/dataset_min": 6.413459777832031e-05, "timer/dataset_max": 0.00016736984252929688, "timer/agent.train_count": 620.0, "timer/agent.train_total": 267.53513956069946, "timer/agent.train_frac": 0.8916725509242817, "timer/agent.train_avg": 0.43150828961403137, "timer/agent.train_min": 0.3777148723602295, "timer/agent.train_max": 0.4532811641693115, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.23482584953308105, "timer/agent.report_frac": 0.0007826551854830912, "timer/agent.report_avg": 0.23482584953308105, "timer/agent.report_min": 0.23482584953308105, "timer/agent.report_max": 0.23482584953308105, "fps": 4.132740609513254}
{"step": 1190789, "episode/length": 185.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.07526881720430108}
{"step": 1191005, "episode/length": 215.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.900000050663948, "episode/reward_rate": 0.06018518518518518}
{"step": 1191457, "episode/length": 451.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 14.900000013411045, "episode/reward_rate": 0.030973451327433628}
{"step": 1191730, "episode/length": 272.0, "episode/score": 14.100000023841858, "episode/sum_abs_reward": 16.700000062584877, "episode/reward_rate": 0.054945054945054944}
{"step": 1191959, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.3816423416137695, "train/action_min": 0.0, "train/action_std": 3.2783816754817963, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.035610839375294745, "train/actor_opt_grad_steps": 595115.0, "train/actor_opt_loss": -11.631300700828433, "train/adv_mag": 0.3563448286149651, "train/adv_max": 0.30419867346063256, "train/adv_mean": 0.0015738619242213758, "train/adv_min": -0.30791222443804145, "train/adv_std": 0.03974284784635529, "train/cont_avg": 0.9951934814453125, "train/cont_loss_mean": 1.1587079798758282e-05, "train/cont_loss_std": 0.0002909936469519536, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 9.569647335089249e-06, "train/cont_pos_acc": 0.9999999748542905, "train/cont_pos_loss": 1.1582331609805152e-05, "train/cont_pred": 0.9951823139563203, "train/cont_rate": 0.9951934814453125, "train/dyn_loss_mean": 5.708090603351593, "train/dyn_loss_std": 8.916562207043171, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8536256579682231, "train/extr_critic_critic_opt_grad_steps": 595115.0, "train/extr_critic_critic_opt_loss": 15015.534317016602, "train/extr_critic_mag": 12.48907570540905, "train/extr_critic_max": 12.48907570540905, "train/extr_critic_mean": 3.7386821024119854, "train/extr_critic_min": -0.3579462468624115, "train/extr_critic_std": 2.990009069442749, "train/extr_return_normed_mag": 1.3764616772532463, "train/extr_return_normed_max": 1.3764616772532463, "train/extr_return_normed_mean": 0.38846948044374585, "train/extr_return_normed_min": -0.07345446868566796, "train/extr_return_normed_std": 0.31371842604130507, "train/extr_return_rate": 0.8540181936696172, "train/extr_return_raw_mag": 13.25606980919838, "train/extr_return_raw_max": 13.25606980919838, "train/extr_return_raw_mean": 3.753850106149912, "train/extr_return_raw_min": -0.688241149764508, "train/extr_return_raw_std": 3.0171044506132603, "train/extr_reward_mag": 1.0863017588853836, "train/extr_reward_max": 1.0863017588853836, "train/extr_reward_mean": 0.06088522035861388, "train/extr_reward_min": -0.5786952171474695, "train/extr_reward_std": 0.23719733278267086, "train/image_loss_mean": 3.438787069171667, "train/image_loss_std": 8.556598082184792, "train/model_loss_mean": 6.926611050963402, "train/model_loss_std": 12.680613622069359, "train/model_opt_grad_norm": 21.081465855240822, "train/model_opt_grad_steps": 594625.0, "train/model_opt_loss": 17316.527618408203, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7257882729172707, "train/policy_entropy_max": 2.7257882729172707, "train/policy_entropy_mean": 0.4382778061553836, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6481301905587316, "train/policy_logprob_mag": 7.4383842796087265, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4393679266795516, "train/policy_logprob_min": -7.4383842796087265, "train/policy_logprob_std": 1.0621784506365657, "train/policy_randomness_mag": 0.9620836433023214, "train/policy_randomness_max": 0.9620836433023214, "train/policy_randomness_mean": 0.15469283203128725, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22876151441596448, "train/post_ent_mag": 55.70390206575394, "train/post_ent_max": 55.70390206575394, "train/post_ent_mean": 40.22341573238373, "train/post_ent_min": 19.773541748523712, "train/post_ent_std": 5.853505954146385, "train/prior_ent_mag": 76.82809126377106, "train/prior_ent_max": 76.82809126377106, "train/prior_ent_mean": 45.914108753204346, "train/prior_ent_min": 27.9199238717556, "train/prior_ent_std": 7.952087737619877, "train/rep_loss_mean": 5.708090603351593, "train/rep_loss_std": 8.916562207043171, "train/reward_avg": 0.047900390200084075, "train/reward_loss_mean": 0.06295809108996764, "train/reward_loss_std": 0.22804158134385943, "train/reward_max_data": 1.0343750081956387, "train/reward_max_pred": 1.0345345810055733, "train/reward_neg_acc": 0.9927730429917574, "train/reward_neg_loss": 0.026740661371150054, "train/reward_pos_acc": 0.9907722100615501, "train/reward_pos_loss": 0.7229882758110762, "train/reward_pred": 0.04759527771966532, "train/reward_rate": 0.0521392822265625, "stats/sum_log_reward": 13.100000381469727, "stats/max_log_achievement_collect_coal": 0.0, "stats/max_log_achievement_collect_drink": 5.75, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.25, "stats/max_log_achievement_collect_stone": 27.25, "stats/max_log_achievement_collect_wood": 14.25, "stats/max_log_achievement_defeat_skeleton": 0.25, "stats/max_log_achievement_defeat_zombie": 1.25, "stats/max_log_achievement_eat_cow": 0.75, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.75, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.25, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 2.25, "stats/max_log_achievement_place_stone": 5.75, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.5025257915258408, "replay/size": 1000000.0, "replay/inserts": 1274.0, "replay/samples": 10192.0, "replay/insert_wait_avg": 3.347591477997449e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3773398272096642e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1597590446472, "timer/env.step_count": 1274.0, "timer/env.step_total": 14.16084885597229, "timer/env.step_frac": 0.04717770596912672, "timer/env.step_avg": 0.011115265978000227, "timer/env.step_min": 0.0029840469360351562, "timer/env.step_max": 1.6166350841522217, "timer/replay.add_count": 1274.0, "timer/replay.add_total": 0.2555708885192871, "timer/replay.add_frac": 0.0008514495391811407, "timer/replay.add_avg": 0.00020060509302926774, "timer/replay.add_min": 7.367134094238281e-05, "timer/replay.add_max": 0.002660512924194336, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022057056427001953, "timer/logger.write_frac": 7.348438877085145e-05, "timer/logger.write_avg": 0.022057056427001953, "timer/logger.write_min": 0.022057056427001953, "timer/logger.write_max": 0.022057056427001953, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1274.0, "timer/agent.policy_total": 10.046361446380615, "timer/agent.policy_frac": 0.033470047678464024, "timer/agent.policy_avg": 0.007885684023846637, "timer/agent.policy_min": 0.006014108657836914, "timer/agent.policy_max": 0.014773368835449219, "timer/dataset_count": 637.0, "timer/dataset_total": 0.05447077751159668, "timer/dataset_frac": 0.00018147261873132845, "timer/dataset_avg": 8.551142466498693e-05, "timer/dataset_min": 6.318092346191406e-05, "timer/dataset_max": 0.00013899803161621094, "timer/agent.train_count": 637.0, "timer/agent.train_total": 275.0016746520996, "timer/agent.train_frac": 0.9161843530504518, "timer/agent.train_avg": 0.4317137749640496, "timer/agent.train_min": 0.36754727363586426, "timer/agent.train_max": 0.45380353927612305, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.23158836364746094, "timer/agent.report_frac": 0.0007715503383417008, "timer/agent.report_avg": 0.23158836364746094, "timer/agent.report_min": 0.23158836364746094, "timer/agent.report_max": 0.23158836364746094, "fps": 4.244352727735984}
{"step": 1192161, "episode/length": 430.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.03480278422273782}
{"step": 1192430, "episode/length": 268.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.05204460966542751}
{"step": 1192481, "episode/length": 50.0, "episode/score": 6.100000023841858, "episode/sum_abs_reward": 7.899999976158142, "episode/reward_rate": 0.1568627450980392}
{"step": 1192705, "episode/length": 223.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.05803571428571429}
{"step": 1192996, "episode/length": 290.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.048109965635738834}
{"step": 1193206, "episode/length": 209.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.06190476190476191}
{"step": 1193207, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.401558168472782, "train/action_min": 0.0, "train/action_std": 3.31633230563133, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03631619204797091, "train/actor_opt_grad_steps": 595745.0, "train/actor_opt_loss": -12.063320570415065, "train/adv_mag": 0.3733136622655776, "train/adv_max": 0.3004290831665839, "train/adv_mean": 0.0014457582149207742, "train/adv_min": -0.345034065025468, "train/adv_std": 0.04046609264708335, "train/cont_avg": 0.9948021673387096, "train/cont_loss_mean": 1.1533989071073201e-05, "train/cont_loss_std": 0.0003030143561901358, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 9.83443632981955e-05, "train/cont_pos_acc": 0.999999983656791, "train/cont_pos_loss": 1.1087382267462434e-05, "train/cont_pred": 0.994792103767395, "train/cont_rate": 0.9948021673387096, "train/dyn_loss_mean": 6.048818126801522, "train/dyn_loss_std": 9.10014832404352, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8690183672212786, "train/extr_critic_critic_opt_grad_steps": 595745.0, "train/extr_critic_critic_opt_loss": 15149.636608492943, "train/extr_critic_mag": 12.576377284142279, "train/extr_critic_max": 12.576377284142279, "train/extr_critic_mean": 3.709968634190098, "train/extr_critic_min": -0.3527509416303327, "train/extr_critic_std": 3.0914529369723414, "train/extr_return_normed_mag": 1.3861717562521658, "train/extr_return_normed_max": 1.3861717562521658, "train/extr_return_normed_mean": 0.38451171714452004, "train/extr_return_normed_min": -0.07297428856573758, "train/extr_return_normed_std": 0.321883937524211, "train/extr_return_rate": 0.8364657250142866, "train/extr_return_raw_mag": 13.42071456293906, "train/extr_return_raw_max": 13.42071456293906, "train/extr_return_raw_mean": 3.7239606745781435, "train/extr_return_raw_min": -0.7049775431233067, "train/extr_return_raw_std": 3.116052500663265, "train/extr_reward_mag": 1.0876119252174132, "train/extr_reward_max": 1.0876119252174132, "train/extr_reward_mean": 0.06203960753496616, "train/extr_reward_min": -0.6153833154709109, "train/extr_reward_std": 0.23968838924361813, "train/image_loss_mean": 3.7659267206345834, "train/image_loss_std": 9.023614222003568, "train/model_loss_mean": 7.461100409107823, "train/model_loss_std": 13.21154519050352, "train/model_opt_grad_norm": 20.250766446513513, "train/model_opt_grad_steps": 595254.1612903225, "train/model_opt_loss": 10765.136750252017, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1451.6129032258063, "train/policy_entropy_mag": 2.6993409510581725, "train/policy_entropy_max": 2.6993409510581725, "train/policy_entropy_mean": 0.4291232793081191, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6330642229126345, "train/policy_logprob_mag": 7.438384271437122, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4299978935910809, "train/policy_logprob_min": -7.438384271437122, "train/policy_logprob_std": 1.0499293054303815, "train/policy_randomness_mag": 0.9527489004596588, "train/policy_randomness_max": 0.9527489004596588, "train/policy_randomness_mean": 0.15146168778019567, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22344388884882774, "train/post_ent_mag": 55.39720270710607, "train/post_ent_max": 55.39720270710607, "train/post_ent_mean": 40.227316210346835, "train/post_ent_min": 19.743840971300678, "train/post_ent_std": 5.922587663896622, "train/prior_ent_mag": 76.7405774516444, "train/prior_ent_max": 76.7405774516444, "train/prior_ent_mean": 46.24702841235745, "train/prior_ent_min": 27.71161460876465, "train/prior_ent_std": 7.940555734019125, "train/rep_loss_mean": 6.048818126801522, "train/rep_loss_std": 9.10014832404352, "train/reward_avg": 0.04974798386495921, "train/reward_loss_mean": 0.06587136897348589, "train/reward_loss_std": 0.23274341730340833, "train/reward_max_data": 1.0258064577656407, "train/reward_max_pred": 1.0231304783974924, "train/reward_neg_acc": 0.9921221088978552, "train/reward_neg_loss": 0.027295842594016465, "train/reward_pos_acc": 0.9875210562059956, "train/reward_pos_loss": 0.7344899283301446, "train/reward_pred": 0.04925726483305616, "train/reward_rate": 0.05456149193548387, "stats/sum_log_reward": 11.766666968663534, "stats/max_log_achievement_collect_coal": 1.5, "stats/max_log_achievement_collect_drink": 2.6666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 14.5, "stats/max_log_achievement_collect_wood": 11.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.3333333333333335, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.3333333333333335, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 2.5, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.5773482720057169, "replay/size": 1000000.0, "replay/inserts": 1248.0, "replay/samples": 9984.0, "replay/insert_wait_avg": 3.3516150254469653e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.37291275537931e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 301.55227422714233, "timer/env.step_count": 1248.0, "timer/env.step_total": 17.13398766517639, "timer/env.step_frac": 0.05681929512582725, "timer/env.step_avg": 0.013729156782993903, "timer/env.step_min": 0.0031108856201171875, "timer/env.step_max": 1.5756504535675049, "timer/replay.add_count": 1248.0, "timer/replay.add_total": 0.2527451515197754, "timer/replay.add_frac": 0.0008381470581428834, "timer/replay.add_avg": 0.00020252015346135848, "timer/replay.add_min": 7.772445678710938e-05, "timer/replay.add_max": 0.0009484291076660156, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03347063064575195, "timer/logger.write_frac": 0.00011099445604094637, "timer/logger.write_avg": 0.03347063064575195, "timer/logger.write_min": 0.03347063064575195, "timer/logger.write_max": 0.03347063064575195, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00022268295288085938, "timer/checkpoint.save_frac": 7.384555578351396e-07, "timer/checkpoint.save_avg": 0.00022268295288085938, "timer/checkpoint.save_min": 0.00022268295288085938, "timer/checkpoint.save_max": 0.00022268295288085938, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.187772274017334, "timer/agent.save_frac": 0.0039388602757565415, "timer/agent.save_avg": 1.187772274017334, "timer/agent.save_min": 1.187772274017334, "timer/agent.save_max": 1.187772274017334, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.461143493652344e-05, "timer/replay.save_frac": 2.1426280104210152e-07, "timer/replay.save_avg": 6.461143493652344e-05, "timer/replay.save_min": 6.461143493652344e-05, "timer/replay.save_max": 6.461143493652344e-05, "timer/agent.policy_count": 1248.0, "timer/agent.policy_total": 13.849927425384521, "timer/agent.policy_frac": 0.04592877789060265, "timer/agent.policy_avg": 0.01109769825751965, "timer/agent.policy_min": 0.005942821502685547, "timer/agent.policy_max": 2.8658151626586914, "timer/dataset_count": 624.0, "timer/dataset_total": 0.05486941337585449, "timer/dataset_frac": 0.0001819565563432775, "timer/dataset_avg": 8.793175220489502e-05, "timer/dataset_min": 6.175041198730469e-05, "timer/dataset_max": 0.00019979476928710938, "timer/agent.train_count": 624.0, "timer/agent.train_total": 269.57619762420654, "timer/agent.train_frac": 0.8939617461520121, "timer/agent.train_avg": 0.4320131372182797, "timer/agent.train_min": 0.3759765625, "timer/agent.train_max": 0.4532451629638672, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2579374313354492, "timer/agent.report_frac": 0.0008553655647151893, "timer/agent.report_avg": 0.2579374313354492, "timer/agent.report_min": 0.2579374313354492, "timer/agent.report_max": 0.2579374313354492, "fps": 4.138524129486998}
{"step": 1193395, "episode/length": 188.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.0582010582010582}
{"step": 1193592, "episode/length": 196.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06598984771573604}
{"step": 1193655, "episode/length": 62.0, "episode/score": 3.0999999716877937, "episode/sum_abs_reward": 5.1000000312924385, "episode/reward_rate": 0.07936507936507936}
{"step": 1193836, "episode/length": 180.0, "episode/score": 9.100000016391277, "episode/sum_abs_reward": 11.1000000461936, "episode/reward_rate": 0.055248618784530384}
{"step": 1194040, "episode/length": 203.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06372549019607843}
{"step": 1194250, "episode/length": 209.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.100000016391277, "episode/reward_rate": 0.0761904761904762}
{"step": 1194471, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.515699598524305, "train/action_min": 0.0, "train/action_std": 3.3589602235763794, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0364912153768634, "train/actor_opt_grad_steps": 596370.0, "train/actor_opt_loss": -12.008325359177968, "train/adv_mag": 0.38573636824176427, "train/adv_max": 0.31083633809808703, "train/adv_mean": 0.0016045464223088135, "train/adv_min": -0.3537151153598513, "train/adv_std": 0.041251414765914284, "train/cont_avg": 0.9952411954365079, "train/cont_loss_mean": 2.304318982940653e-05, "train/cont_loss_std": 0.0006788633906846068, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0028544039308818505, "train/cont_pos_acc": 0.9999999829701015, "train/cont_pos_loss": 1.1665167630465274e-05, "train/cont_pred": 0.9952386390595209, "train/cont_rate": 0.9952411954365079, "train/dyn_loss_mean": 5.726122909122044, "train/dyn_loss_std": 8.888423056829543, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9111589392026266, "train/extr_critic_critic_opt_grad_steps": 596370.0, "train/extr_critic_critic_opt_loss": 15262.502185639882, "train/extr_critic_mag": 12.642235498579721, "train/extr_critic_max": 12.642235498579721, "train/extr_critic_mean": 3.7302924451373873, "train/extr_critic_min": -0.3595796653202602, "train/extr_critic_std": 3.060747165528555, "train/extr_return_normed_mag": 1.378080648089212, "train/extr_return_normed_max": 1.378080648089212, "train/extr_return_normed_mean": 0.3885424016487031, "train/extr_return_normed_min": -0.06702532350189155, "train/extr_return_normed_std": 0.31810713476604885, "train/extr_return_rate": 0.8339668521805416, "train/extr_return_raw_mag": 13.356465036906894, "train/extr_return_raw_max": 13.356465036906894, "train/extr_return_raw_mean": 3.7458995978037515, "train/extr_return_raw_min": -0.6785577010540735, "train/extr_return_raw_std": 3.089681833509415, "train/extr_reward_mag": 1.0969177768343972, "train/extr_reward_max": 1.0969177768343972, "train/extr_reward_mean": 0.06486734245268125, "train/extr_reward_min": -0.6062831216388278, "train/extr_reward_std": 0.24439491591756307, "train/image_loss_mean": 3.5940830366952077, "train/image_loss_std": 8.513814078436958, "train/model_loss_mean": 7.093526628282335, "train/model_loss_std": 12.576705478486561, "train/model_opt_grad_norm": 17.851451010931108, "train/model_opt_grad_steps": 595879.0, "train/model_opt_loss": 10919.253324962798, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1547.6190476190477, "train/policy_entropy_mag": 2.7039842870500355, "train/policy_entropy_max": 2.7039842870500355, "train/policy_entropy_mean": 0.4546954556116982, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6628073340370542, "train/policy_logprob_mag": 7.438384260450091, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4547534140329512, "train/policy_logprob_min": -7.438384260450091, "train/policy_logprob_std": 1.0704083054784745, "train/policy_randomness_mag": 0.9543877934652661, "train/policy_randomness_max": 0.9543877934652661, "train/policy_randomness_mean": 0.16048754266803228, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2339419046091655, "train/post_ent_mag": 55.751958695669025, "train/post_ent_max": 55.751958695669025, "train/post_ent_mean": 40.277406480577255, "train/post_ent_min": 19.728588376726425, "train/post_ent_std": 5.911918730962844, "train/prior_ent_mag": 76.80747259230841, "train/prior_ent_max": 76.80747259230841, "train/prior_ent_mean": 45.98603239513579, "train/prior_ent_min": 27.531708066425626, "train/prior_ent_std": 8.007537864503407, "train/rep_loss_mean": 5.726122909122044, "train/rep_loss_std": 8.888423056829543, "train/reward_avg": 0.049339657028516136, "train/reward_loss_mean": 0.06374686838142456, "train/reward_loss_std": 0.22204620402956765, "train/reward_max_data": 1.0349206432463631, "train/reward_max_pred": 1.0347688727908664, "train/reward_neg_acc": 0.9925340669495719, "train/reward_neg_loss": 0.026714650500151847, "train/reward_pos_acc": 0.9920298665288895, "train/reward_pos_loss": 0.7160696661661542, "train/reward_pred": 0.04901872223450078, "train/reward_rate": 0.053726438492063495, "stats/sum_log_reward": 10.266666968663534, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 1.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 7.833333333333333, "stats/max_log_achievement_collect_wood": 12.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.3333333333333333, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 0.5, "stats/max_log_achievement_make_wood_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.8333333333333334, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 1.3333333333333333, "stats/max_log_achievement_place_table": 2.8333333333333335, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.2491819312175115, "replay/size": 1000000.0, "replay/inserts": 1264.0, "replay/samples": 10112.0, "replay/insert_wait_avg": 3.3495546896246414e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3779565880570232e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2676613330841, "timer/env.step_count": 1264.0, "timer/env.step_total": 17.890406370162964, "timer/env.step_frac": 0.05958152899561603, "timer/env.step_avg": 0.01415380250804032, "timer/env.step_min": 0.003099203109741211, "timer/env.step_max": 1.8793604373931885, "timer/replay.add_count": 1264.0, "timer/replay.add_total": 0.2542850971221924, "timer/replay.add_frac": 0.0008468614168880355, "timer/replay.add_avg": 0.00020117491860932943, "timer/replay.add_min": 7.581710815429688e-05, "timer/replay.add_max": 0.0006947517395019531, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029172658920288086, "timer/logger.write_frac": 9.715551381980868e-05, "timer/logger.write_avg": 0.029172658920288086, "timer/logger.write_min": 0.029172658920288086, "timer/logger.write_max": 0.029172658920288086, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1264.0, "timer/agent.policy_total": 9.987766742706299, "timer/agent.policy_frac": 0.03326287852099718, "timer/agent.policy_avg": 0.007901714195179033, "timer/agent.policy_min": 0.00624394416809082, "timer/agent.policy_max": 0.014141559600830078, "timer/dataset_count": 632.0, "timer/dataset_total": 0.053957223892211914, "timer/dataset_frac": 0.00017969708643501795, "timer/dataset_avg": 8.537535425982898e-05, "timer/dataset_min": 6.318092346191406e-05, "timer/dataset_max": 0.0001544952392578125, "timer/agent.train_count": 632.0, "timer/agent.train_total": 271.4022755622864, "timer/agent.train_frac": 0.9038678169915286, "timer/agent.train_avg": 0.4294339803200734, "timer/agent.train_min": 0.3670008182525635, "timer/agent.train_max": 0.45448994636535645, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2636682987213135, "timer/agent.report_frac": 0.0008781108746466997, "timer/agent.report_avg": 0.2636682987213135, "timer/agent.report_min": 0.2636682987213135, "timer/agent.report_max": 0.2636682987213135, "fps": 4.209499881615365}
{"step": 1194511, "episode/length": 260.0, "episode/score": 16.100000001490116, "episode/sum_abs_reward": 17.700000025331974, "episode/reward_rate": 0.06513409961685823}
{"step": 1194737, "episode/length": 225.0, "episode/score": 15.099999979138374, "episode/sum_abs_reward": 17.30000002682209, "episode/reward_rate": 0.07079646017699115}
{"step": 1194989, "episode/length": 251.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.05952380952380952}
{"step": 1195184, "episode/length": 194.0, "episode/score": 15.100000008940697, "episode/sum_abs_reward": 17.30000004172325, "episode/reward_rate": 0.08205128205128205}
{"step": 1195392, "episode/length": 207.0, "episode/score": 14.100000016391277, "episode/sum_abs_reward": 15.700000040233135, "episode/reward_rate": 0.07211538461538461}
{"step": 1195627, "episode/length": 234.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.05531914893617021}
{"step": 1195735, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.389916798425099, "train/action_min": 0.0, "train/action_std": 3.2621048783499096, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.035810638692170854, "train/actor_opt_grad_steps": 597000.0, "train/actor_opt_loss": -11.286601528288825, "train/adv_mag": 0.37403494450781083, "train/adv_max": 0.3190147124585651, "train/adv_mean": 0.001725488539257582, "train/adv_min": -0.3279263027130611, "train/adv_std": 0.04027159689437775, "train/cont_avg": 0.9954117063492064, "train/cont_loss_mean": 2.3545870339674705e-05, "train/cont_loss_std": 0.000739418484251019, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.004126157589223529, "train/cont_pos_acc": 0.9999999839162069, "train/cont_pos_loss": 8.261394056556052e-06, "train/cont_pred": 0.9954162533321078, "train/cont_rate": 0.9954117063492064, "train/dyn_loss_mean": 5.789858696952699, "train/dyn_loss_std": 8.939673817346966, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.869303169704619, "train/extr_critic_critic_opt_grad_steps": 597000.0, "train/extr_critic_critic_opt_loss": 15065.477523561507, "train/extr_critic_mag": 12.605085887606181, "train/extr_critic_max": 12.605085887606181, "train/extr_critic_mean": 3.8366749135274736, "train/extr_critic_min": -0.33265201439933173, "train/extr_critic_std": 3.006535670113942, "train/extr_return_normed_mag": 1.3698205115303161, "train/extr_return_normed_max": 1.3698205115303161, "train/extr_return_normed_mean": 0.3973500643457685, "train/extr_return_normed_min": -0.065550943659175, "train/extr_return_normed_std": 0.310743290990118, "train/extr_return_rate": 0.859372980064816, "train/extr_return_raw_mag": 13.338989106435625, "train/extr_return_raw_max": 13.338989106435625, "train/extr_return_raw_mean": 3.8535103003184, "train/extr_return_raw_min": -0.6627012309100893, "train/extr_return_raw_std": 3.031511420295352, "train/extr_reward_mag": 1.0866671138339572, "train/extr_reward_max": 1.0866671138339572, "train/extr_reward_mean": 0.06738742151194149, "train/extr_reward_min": -0.6064388941204737, "train/extr_reward_std": 0.24790758367568727, "train/image_loss_mean": 3.383922440665109, "train/image_loss_std": 8.818571045285179, "train/model_loss_mean": 6.921940735408238, "train/model_loss_std": 12.944657537672255, "train/model_opt_grad_norm": 21.136236887129527, "train/model_opt_grad_steps": 596509.0, "train/model_opt_loss": 17304.85193452381, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7181681489187572, "train/policy_entropy_max": 2.7181681489187572, "train/policy_entropy_mean": 0.4233812353913746, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6350549828438532, "train/policy_logprob_mag": 7.438384290725466, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4232283958366939, "train/policy_logprob_min": -7.438384290725466, "train/policy_logprob_std": 1.0462106173000638, "train/policy_randomness_mag": 0.9593940755677601, "train/policy_randomness_max": 0.9593940755677601, "train/policy_randomness_mean": 0.14943499733058233, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22414654020279173, "train/post_ent_mag": 55.00674747285389, "train/post_ent_max": 55.00674747285389, "train/post_ent_mean": 40.01065572102865, "train/post_ent_min": 19.764496788146005, "train/post_ent_std": 5.805728829096234, "train/prior_ent_mag": 76.81602465917193, "train/prior_ent_max": 76.81602465917193, "train/prior_ent_mean": 45.7819578382704, "train/prior_ent_min": 27.75512913295201, "train/prior_ent_std": 7.830058786604139, "train/rep_loss_mean": 5.789858696952699, "train/rep_loss_std": 8.939673817346966, "train/reward_avg": 0.052821180650166104, "train/reward_loss_mean": 0.06407960344638143, "train/reward_loss_std": 0.22553644270177872, "train/reward_max_data": 1.0269841334176442, "train/reward_max_pred": 1.024494659333002, "train/reward_neg_acc": 0.992529623092167, "train/reward_neg_loss": 0.024419673008932954, "train/reward_pos_acc": 0.9918672158604577, "train/reward_pos_loss": 0.7216090910018437, "train/reward_pred": 0.05230612402397489, "train/reward_rate": 0.0568421378968254, "stats/sum_log_reward": 14.43333355585734, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 1.1666666666666667, "stats/max_log_achievement_collect_iron": 1.0, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 18.333333333333332, "stats/max_log_achievement_collect_wood": 15.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.8333333333333333, "stats/max_log_achievement_eat_cow": 0.6666666666666666, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.5, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 2.3333333333333335, "stats/max_log_achievement_place_table": 4.5, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.48577765623728436, "replay/size": 1000000.0, "replay/inserts": 1264.0, "replay/samples": 10112.0, "replay/insert_wait_avg": 3.3250337914575505e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.382247745236264e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1948049068451, "timer/env.step_count": 1264.0, "timer/env.step_total": 17.49469256401062, "timer/env.step_frac": 0.05827779920921511, "timer/env.step_avg": 0.013840737787983086, "timer/env.step_min": 0.0030295848846435547, "timer/env.step_max": 1.6575422286987305, "timer/replay.add_count": 1264.0, "timer/replay.add_total": 0.2543511390686035, "timer/replay.add_frac": 0.0008472869447142246, "timer/replay.add_avg": 0.00020122716698465468, "timer/replay.add_min": 7.152557373046875e-05, "timer/replay.add_max": 0.0033295154571533203, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03133559226989746, "timer/logger.write_frac": 0.00010438419239007603, "timer/logger.write_avg": 0.03133559226989746, "timer/logger.write_min": 0.03133559226989746, "timer/logger.write_max": 0.03133559226989746, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1264.0, "timer/agent.policy_total": 10.038549661636353, "timer/agent.policy_frac": 0.03344011787529589, "timer/agent.policy_avg": 0.00794189055509205, "timer/agent.policy_min": 0.005970954895019531, "timer/agent.policy_max": 0.014790773391723633, "timer/dataset_count": 632.0, "timer/dataset_total": 0.05339360237121582, "timer/dataset_frac": 0.00017786317917055442, "timer/dataset_avg": 8.448354805572123e-05, "timer/dataset_min": 6.29425048828125e-05, "timer/dataset_max": 0.00015926361083984375, "timer/agent.train_count": 632.0, "timer/agent.train_total": 271.67012310028076, "timer/agent.train_frac": 0.9049794288897972, "timer/agent.train_avg": 0.4298577897156341, "timer/agent.train_min": 0.37799811363220215, "timer/agent.train_max": 0.45441627502441406, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2579467296600342, "timer/agent.report_frac": 0.00085926446908393, "timer/agent.report_avg": 0.2579467296600342, "timer/agent.report_min": 0.2579467296600342, "timer/agent.report_max": 0.2579467296600342, "fps": 4.210516289843518}
{"step": 1195917, "episode/length": 289.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.05517241379310345}
{"step": 1196145, "episode/length": 227.0, "episode/score": 16.099999986588955, "episode/sum_abs_reward": 18.500000022351742, "episode/reward_rate": 0.07456140350877193}
{"step": 1196244, "episode/length": 98.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.08080808080808081}
{"step": 1196499, "episode/length": 254.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.047058823529411764}
{"step": 1196699, "episode/length": 199.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.07}
{"step": 1196901, "episode/length": 201.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.07425742574257425}
{"step": 1196981, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.377325148809524, "train/action_min": 0.0, "train/action_std": 3.2182773597656733, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03709704343170401, "train/actor_opt_grad_steps": 597630.0, "train/actor_opt_loss": -10.574942306866722, "train/adv_mag": 0.3979794515503777, "train/adv_max": 0.32428296217842706, "train/adv_mean": 0.0018542389113304486, "train/adv_min": -0.35751986574558986, "train/adv_std": 0.04134704823058749, "train/cont_avg": 0.9949156746031746, "train/cont_loss_mean": 5.406852776667663e-05, "train/cont_loss_std": 0.0015468333538101722, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.000819145523380621, "train/cont_pos_acc": 0.9999843760142251, "train/cont_pos_loss": 4.860363462951805e-05, "train/cont_pred": 0.9948836479868207, "train/cont_rate": 0.9949156746031746, "train/dyn_loss_mean": 5.877698777213929, "train/dyn_loss_std": 8.944135120936803, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8833567282510182, "train/extr_critic_critic_opt_grad_steps": 597630.0, "train/extr_critic_critic_opt_loss": 15365.116613963293, "train/extr_critic_mag": 12.69678386809334, "train/extr_critic_max": 12.69678386809334, "train/extr_critic_mean": 3.7500920901222834, "train/extr_critic_min": -0.3114989636436341, "train/extr_critic_std": 3.0352625771174355, "train/extr_return_normed_mag": 1.3715518485932123, "train/extr_return_normed_max": 1.3715518485932123, "train/extr_return_normed_mean": 0.3879209842000689, "train/extr_return_normed_min": -0.06805102527141571, "train/extr_return_normed_std": 0.3140289979794669, "train/extr_return_rate": 0.8495970150781056, "train/extr_return_raw_mag": 13.353993203904894, "train/extr_return_raw_max": 13.353993203904894, "train/extr_return_raw_mean": 3.7681471695975652, "train/extr_return_raw_min": -0.6749346592123546, "train/extr_return_raw_std": 3.060331321897961, "train/extr_reward_mag": 1.0881145341055733, "train/extr_reward_max": 1.0881145341055733, "train/extr_reward_mean": 0.06475985529167312, "train/extr_reward_min": -0.6306045149999951, "train/extr_reward_std": 0.2439749569646896, "train/image_loss_mean": 3.503698159777929, "train/image_loss_std": 8.938666684286934, "train/model_loss_mean": 7.094169874039907, "train/model_loss_std": 13.064163389660063, "train/model_opt_grad_norm": 21.247691411820668, "train/model_opt_grad_steps": 597138.6984126985, "train/model_opt_loss": 24030.050688244046, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3373.0158730158732, "train/policy_entropy_mag": 2.7225779881553045, "train/policy_entropy_max": 2.7225779881553045, "train/policy_entropy_mean": 0.43376222773203776, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6440938938231695, "train/policy_logprob_mag": 7.438384321000841, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4349225844655718, "train/policy_logprob_min": -7.438384321000841, "train/policy_logprob_std": 1.057066139720735, "train/policy_randomness_mag": 0.9609505505788893, "train/policy_randomness_max": 0.9609505505788893, "train/policy_randomness_mean": 0.1530990323850087, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22733687692218357, "train/post_ent_mag": 55.898762899731835, "train/post_ent_max": 55.898762899731835, "train/post_ent_mean": 40.15509844583178, "train/post_ent_min": 19.727305276053293, "train/post_ent_std": 5.8985525994073775, "train/prior_ent_mag": 76.76966482495504, "train/prior_ent_max": 76.76966482495504, "train/prior_ent_mean": 46.03638633849129, "train/prior_ent_min": 27.709067995586093, "train/prior_ent_std": 8.014796067797949, "train/rep_loss_mean": 5.877698777213929, "train/rep_loss_std": 8.944135120936803, "train/reward_avg": 0.050024801303469944, "train/reward_loss_mean": 0.06379842699047118, "train/reward_loss_std": 0.22381378118954007, "train/reward_max_data": 1.0333333412806194, "train/reward_max_pred": 1.0340507919826205, "train/reward_neg_acc": 0.9925025512301733, "train/reward_neg_loss": 0.025628635157195347, "train/reward_pos_acc": 0.9889491626194545, "train/reward_pos_loss": 0.7250880182735504, "train/reward_pred": 0.04955498241479435, "train/reward_rate": 0.05443948412698413, "stats/sum_log_reward": 12.600000381469727, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 1.8333333333333333, "stats/max_log_achievement_collect_iron": 0.3333333333333333, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 15.0, "stats/max_log_achievement_collect_wood": 11.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.6666666666666667, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 3.1666666666666665, "stats/max_log_achievement_place_table": 2.8333333333333335, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3961386779944102, "replay/size": 1000000.0, "replay/inserts": 1246.0, "replay/samples": 9968.0, "replay/insert_wait_avg": 3.3956469540419968e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3915962430485561e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2720103263855, "timer/env.step_count": 1246.0, "timer/env.step_total": 18.326662302017212, "timer/env.step_frac": 0.06103353516731963, "timer/env.step_avg": 0.014708396711089256, "timer/env.step_min": 0.002961874008178711, "timer/env.step_max": 1.9449141025543213, "timer/replay.add_count": 1246.0, "timer/replay.add_total": 0.26580166816711426, "timer/replay.add_frac": 0.0008852029460827762, "timer/replay.add_avg": 0.00021332397124166472, "timer/replay.add_min": 7.2479248046875e-05, "timer/replay.add_max": 0.0008652210235595703, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024968862533569336, "timer/logger.write_frac": 8.315414582407807e-05, "timer/logger.write_avg": 0.024968862533569336, "timer/logger.write_min": 0.024968862533569336, "timer/logger.write_max": 0.024968862533569336, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00046372413635253906, "timer/checkpoint.save_frac": 1.544346860196815e-06, "timer/checkpoint.save_avg": 0.00046372413635253906, "timer/checkpoint.save_min": 0.00046372413635253906, "timer/checkpoint.save_max": 0.00046372413635253906, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4193015098571777, "timer/agent.save_frac": 0.004726719311315248, "timer/agent.save_avg": 1.4193015098571777, "timer/agent.save_min": 1.4193015098571777, "timer/agent.save_max": 1.4193015098571777, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.916854858398438e-05, "timer/replay.save_frac": 2.9695924201213823e-07, "timer/replay.save_avg": 8.916854858398438e-05, "timer/replay.save_min": 8.916854858398438e-05, "timer/replay.save_max": 8.916854858398438e-05, "timer/agent.policy_count": 1246.0, "timer/agent.policy_total": 13.59782862663269, "timer/agent.policy_frac": 0.04528503543121556, "timer/agent.policy_avg": 0.01091318509360569, "timer/agent.policy_min": 0.006092071533203125, "timer/agent.policy_max": 2.3452389240264893, "timer/dataset_count": 623.0, "timer/dataset_total": 0.05350303649902344, "timer/dataset_frac": 0.00017818189727663078, "timer/dataset_avg": 8.587967335316764e-05, "timer/dataset_min": 6.29425048828125e-05, "timer/dataset_max": 0.00017309188842773438, "timer/agent.train_count": 623.0, "timer/agent.train_total": 267.34984707832336, "timer/agent.train_frac": 0.890358867573848, "timer/agent.train_avg": 0.42913298086408247, "timer/agent.train_min": 0.36965346336364746, "timer/agent.train_max": 0.45340442657470703, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.26190853118896484, "timer/agent.report_frac": 0.0008722375785351394, "timer/agent.report_avg": 0.26190853118896484, "timer/agent.report_min": 0.26190853118896484, "timer/agent.report_max": 0.26190853118896484, "fps": 4.149494636468801}
{"step": 1197157, "episode/length": 255.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 8.900000043213367, "episode/reward_rate": 0.02734375}
{"step": 1197346, "episode/length": 188.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.07936507936507936}
{"step": 1197525, "episode/length": 178.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.900000028312206, "episode/reward_rate": 0.055865921787709494}
{"step": 1197778, "episode/length": 252.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.30000003427267, "episode/reward_rate": 0.05928853754940711}
{"step": 1197957, "episode/length": 178.0, "episode/score": 15.100000016391277, "episode/sum_abs_reward": 16.30000003427267, "episode/reward_rate": 0.0893854748603352}
{"step": 1198128, "episode/length": 170.0, "episode/score": 13.100000016391277, "episode/sum_abs_reward": 14.30000003427267, "episode/reward_rate": 0.08187134502923976}
{"step": 1198184, "episode/length": 55.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.07142857142857142}
{"step": 1198241, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4113866412450395, "train/action_min": 0.0, "train/action_std": 3.2475246399167985, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03558049685070439, "train/actor_opt_grad_steps": 598260.0, "train/actor_opt_loss": -11.8053912496756, "train/adv_mag": 0.37498939297502004, "train/adv_max": 0.3169344382153617, "train/adv_mean": 0.001453425199066433, "train/adv_min": -0.3389368655662688, "train/adv_std": 0.04034192050023684, "train/cont_avg": 0.9952411954365079, "train/cont_loss_mean": 0.00014046707001813365, "train/cont_loss_std": 0.004357738880400128, "train/cont_neg_acc": 0.9947089959704687, "train/cont_neg_loss": 0.012874679529649604, "train/cont_pos_acc": 0.9999843911519126, "train/cont_pos_loss": 6.716867686835694e-05, "train/cont_pred": 0.9952380174682254, "train/cont_rate": 0.9952411954365079, "train/dyn_loss_mean": 5.6573032727317205, "train/dyn_loss_std": 8.889634677342006, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.845048671676999, "train/extr_critic_critic_opt_grad_steps": 598260.0, "train/extr_critic_critic_opt_loss": 15081.744373139882, "train/extr_critic_mag": 12.481896733480786, "train/extr_critic_max": 12.481896733480786, "train/extr_critic_mean": 3.7520232465532093, "train/extr_critic_min": -0.34755770743839326, "train/extr_critic_std": 2.9608089166974265, "train/extr_return_normed_mag": 1.367574691772461, "train/extr_return_normed_max": 1.367574691772461, "train/extr_return_normed_mean": 0.3898741359275485, "train/extr_return_normed_min": -0.07178663840842625, "train/extr_return_normed_std": 0.3091518169357663, "train/extr_return_rate": 0.8596168595647055, "train/extr_return_raw_mag": 13.19042576683892, "train/extr_return_raw_max": 13.19042576683892, "train/extr_return_raw_mean": 3.7660164606003534, "train/extr_return_raw_min": -0.6856304615262955, "train/extr_return_raw_std": 2.9807522031995983, "train/extr_reward_mag": 1.0880217779250372, "train/extr_reward_max": 1.0880217779250372, "train/extr_reward_mean": 0.062080463128430505, "train/extr_reward_min": -0.6335546629769462, "train/extr_reward_std": 0.23940974024553147, "train/image_loss_mean": 3.4837706808059936, "train/image_loss_std": 8.955802796378968, "train/model_loss_mean": 6.94015555911594, "train/model_loss_std": 13.009120335654607, "train/model_opt_grad_norm": 19.99388909718347, "train/model_opt_grad_steps": 597768.0, "train/model_opt_loss": 17350.388919890873, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7201683445582314, "train/policy_entropy_max": 2.7201683445582314, "train/policy_entropy_mean": 0.43377453301634106, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6436793127703289, "train/policy_logprob_mag": 7.438384305863154, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.43323529192379545, "train/policy_logprob_min": -7.438384305863154, "train/policy_logprob_std": 1.054300746274373, "train/policy_randomness_mag": 0.9601000547409058, "train/policy_randomness_max": 0.9601000547409058, "train/policy_randomness_mean": 0.15310337512739122, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22719055224978735, "train/post_ent_mag": 56.083769117082866, "train/post_ent_max": 56.083769117082866, "train/post_ent_mean": 40.112840682741194, "train/post_ent_min": 19.676876552521236, "train/post_ent_std": 5.858653280470106, "train/prior_ent_mag": 76.86300562298487, "train/prior_ent_max": 76.86300562298487, "train/prior_ent_mean": 45.759277585953, "train/prior_ent_min": 27.28415852501279, "train/prior_ent_std": 7.959787270379445, "train/rep_loss_mean": 5.6573032727317205, "train/rep_loss_std": 8.889634677342006, "train/reward_avg": 0.048263888776538866, "train/reward_loss_mean": 0.061862550380211025, "train/reward_loss_std": 0.21639562977684867, "train/reward_max_data": 1.0301587373491317, "train/reward_max_pred": 1.0293150742848713, "train/reward_neg_acc": 0.9925920963287354, "train/reward_neg_loss": 0.025718159559700225, "train/reward_pos_acc": 0.9919452667236328, "train/reward_pos_loss": 0.7143291745867048, "train/reward_pred": 0.04817294302795615, "train/reward_rate": 0.05257936507936508, "stats/sum_log_reward": 10.671428850718907, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 0.8571428571428571, "stats/max_log_achievement_collect_stone": 10.0, "stats/max_log_achievement_collect_wood": 10.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.1428571428571428, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.7142857142857143, "stats/max_log_achievement_make_stone_sword": 0.7142857142857143, "stats/max_log_achievement_make_wood_pickaxe": 0.7142857142857143, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 0.8571428571428571, "stats/max_log_achievement_place_stone": 1.8571428571428572, "stats/max_log_achievement_place_table": 3.142857142857143, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.2887903239045824, "replay/size": 1000000.0, "replay/inserts": 1260.0, "replay/samples": 10080.0, "replay/insert_wait_avg": 3.3611343020484562e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3836792537144253e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.03868770599365, "timer/env.step_count": 1260.0, "timer/env.step_total": 18.504810571670532, "timer/env.step_frac": 0.06167474839045856, "timer/env.step_avg": 0.014686357596563915, "timer/env.step_min": 0.002792835235595703, "timer/env.step_max": 1.5914931297302246, "timer/replay.add_count": 1260.0, "timer/replay.add_total": 0.26258182525634766, "timer/replay.add_frac": 0.000875159891092612, "timer/replay.add_avg": 0.00020839827401297433, "timer/replay.add_min": 7.486343383789062e-05, "timer/replay.add_max": 0.0008058547973632812, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023036956787109375, "timer/logger.write_frac": 7.677995448934629e-05, "timer/logger.write_avg": 0.023036956787109375, "timer/logger.write_min": 0.023036956787109375, "timer/logger.write_max": 0.023036956787109375, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1260.0, "timer/agent.policy_total": 9.998363494873047, "timer/agent.policy_frac": 0.03332358093990329, "timer/agent.policy_avg": 0.007935209122915116, "timer/agent.policy_min": 0.005982637405395508, "timer/agent.policy_max": 0.014899969100952148, "timer/dataset_count": 630.0, "timer/dataset_total": 0.053984642028808594, "timer/dataset_frac": 0.0001799256037331688, "timer/dataset_avg": 8.568990798223587e-05, "timer/dataset_min": 6.198883056640625e-05, "timer/dataset_max": 0.0001609325408935547, "timer/agent.train_count": 630.0, "timer/agent.train_total": 270.54542660713196, "timer/agent.train_frac": 0.9017018061092109, "timer/agent.train_avg": 0.4294371850906856, "timer/agent.train_min": 0.36917805671691895, "timer/agent.train_max": 0.4530019760131836, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2603297233581543, "timer/agent.report_frac": 0.0008676538527366512, "timer/agent.report_avg": 0.2603297233581543, "timer/agent.report_min": 0.2603297233581543, "timer/agent.report_max": 0.2603297233581543, "fps": 4.199377814923894}
{"step": 1198457, "episode/length": 272.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.500000022351742, "episode/reward_rate": 0.03296703296703297}
{"step": 1198688, "episode/length": 230.0, "episode/score": 13.099999994039536, "episode/sum_abs_reward": 15.300000011920929, "episode/reward_rate": 0.06493506493506493}
{"step": 1198935, "episode/length": 246.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.06072874493927125}
{"step": 1199111, "episode/length": 175.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.900000050663948, "episode/reward_rate": 0.07954545454545454}
{"step": 1199175, "episode/length": 63.0, "episode/score": 6.100000023841858, "episode/sum_abs_reward": 7.899999976158142, "episode/reward_rate": 0.125}
{"step": 1199447, "episode/length": 271.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.025735294117647058}
{"step": 1199503, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.478678385416667, "train/action_min": 0.0, "train/action_std": 3.3076328890664235, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.036204350343535814, "train/actor_opt_grad_steps": 598890.0, "train/actor_opt_loss": -11.689388143401297, "train/adv_mag": 0.39521718663828714, "train/adv_max": 0.33093479086482336, "train/adv_mean": 0.0018596578371967004, "train/adv_min": -0.3589133885171678, "train/adv_std": 0.04152034246732318, "train/cont_avg": 0.9954117063492064, "train/cont_loss_mean": 6.133550011028662e-06, "train/cont_loss_std": 0.0001740319940707318, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 5.1294027298404945e-05, "train/cont_pos_acc": 0.999999980131785, "train/cont_pos_loss": 5.916933498195841e-06, "train/cont_pred": 0.9954062160991487, "train/cont_rate": 0.9954117063492064, "train/dyn_loss_mean": 5.860544946458605, "train/dyn_loss_std": 9.077769506545295, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8626745504046244, "train/extr_critic_critic_opt_grad_steps": 598890.0, "train/extr_critic_critic_opt_loss": 15051.556470114087, "train/extr_critic_mag": 12.402990871005589, "train/extr_critic_max": 12.402990871005589, "train/extr_critic_mean": 3.754063447316488, "train/extr_critic_min": -0.3147299497846573, "train/extr_critic_std": 2.9471848011016846, "train/extr_return_normed_mag": 1.3768138355678983, "train/extr_return_normed_max": 1.3768138355678983, "train/extr_return_normed_mean": 0.39730118002210346, "train/extr_return_normed_min": -0.06680551798097671, "train/extr_return_normed_std": 0.3132750961988691, "train/extr_return_rate": 0.8486111542535206, "train/extr_return_raw_mag": 13.075154365055145, "train/extr_return_raw_max": 13.075154365055145, "train/extr_return_raw_mean": 3.771702005749657, "train/extr_return_raw_min": -0.6369856080365559, "train/extr_return_raw_std": 2.9758574357108465, "train/extr_reward_mag": 1.0848669892265683, "train/extr_reward_max": 1.0848669892265683, "train/extr_reward_mean": 0.0643381065437718, "train/extr_reward_min": -0.5762030207921588, "train/extr_reward_std": 0.2431314675107835, "train/image_loss_mean": 3.5237856516762385, "train/image_loss_std": 9.21514644320049, "train/model_loss_mean": 7.104655977279421, "train/model_loss_std": 13.404850944640144, "train/model_opt_grad_norm": 22.23403721763974, "train/model_opt_grad_steps": 598397.4126984127, "train/model_opt_loss": 19894.09376550099, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2817.4603174603176, "train/policy_entropy_mag": 2.729256891068958, "train/policy_entropy_max": 2.729256891068958, "train/policy_entropy_mean": 0.43778928735899547, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6532295809851753, "train/policy_logprob_mag": 7.438384283156622, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.43719617714957587, "train/policy_logprob_min": -7.438384283156622, "train/policy_logprob_std": 1.0585754551584758, "train/policy_randomness_mag": 0.9633079114414397, "train/policy_randomness_max": 0.9633079114414397, "train/policy_randomness_mean": 0.15452040826517438, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23056137467187549, "train/post_ent_mag": 56.3127805316259, "train/post_ent_max": 56.3127805316259, "train/post_ent_mean": 40.03479342990451, "train/post_ent_min": 19.23493721371605, "train/post_ent_std": 5.853398996686178, "train/prior_ent_mag": 76.79760027688647, "train/prior_ent_max": 76.79760027688647, "train/prior_ent_mean": 45.826544019911026, "train/prior_ent_min": 27.879630558074467, "train/prior_ent_std": 7.93731024908641, "train/rep_loss_mean": 5.860544946458605, "train/rep_loss_std": 9.077769506545295, "train/reward_avg": 0.05003255209515965, "train/reward_loss_mean": 0.0645372700241823, "train/reward_loss_std": 0.23034839947072286, "train/reward_max_data": 1.022222227520413, "train/reward_max_pred": 1.0243127081129286, "train/reward_neg_acc": 0.9916291520709083, "train/reward_neg_loss": 0.026696871951340684, "train/reward_pos_acc": 0.9894603680050562, "train/reward_pos_loss": 0.7231603510796077, "train/reward_pred": 0.04978279518111357, "train/reward_rate": 0.054346478174603176, "stats/sum_log_reward": 9.933333396911621, "stats/max_log_achievement_collect_coal": 0.16666666666666666, "stats/max_log_achievement_collect_drink": 3.1666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 7.0, "stats/max_log_achievement_collect_wood": 14.166666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.8333333333333334, "stats/max_log_achievement_place_plant": 1.1666666666666667, "stats/max_log_achievement_place_stone": 1.3333333333333333, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.45310040314992267, "replay/size": 1000000.0, "replay/inserts": 1262.0, "replay/samples": 10096.0, "replay/insert_wait_avg": 3.3042321303378195e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.366939484222944e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.23554706573486, "timer/env.step_count": 1262.0, "timer/env.step_total": 17.196914196014404, "timer/env.step_frac": 0.057278075045022026, "timer/env.step_avg": 0.013626714893830749, "timer/env.step_min": 0.0029714107513427734, "timer/env.step_max": 1.7399826049804688, "timer/replay.add_count": 1262.0, "timer/replay.add_total": 0.2618544101715088, "timer/replay.add_frac": 0.0008721632489246094, "timer/replay.add_avg": 0.00020749160869374707, "timer/replay.add_min": 7.271766662597656e-05, "timer/replay.add_max": 0.0007088184356689453, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03220248222351074, "timer/logger.write_frac": 0.00010725739353062079, "timer/logger.write_avg": 0.03220248222351074, "timer/logger.write_min": 0.03220248222351074, "timer/logger.write_max": 0.03220248222351074, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1262.0, "timer/agent.policy_total": 9.96937370300293, "timer/agent.policy_frac": 0.03320517440534845, "timer/agent.policy_avg": 0.007899662205232116, "timer/agent.policy_min": 0.005899190902709961, "timer/agent.policy_max": 0.01612687110900879, "timer/dataset_count": 631.0, "timer/dataset_total": 0.05370521545410156, "timer/dataset_frac": 0.0001788769383871228, "timer/dataset_avg": 8.511127647242719e-05, "timer/dataset_min": 6.270408630371094e-05, "timer/dataset_max": 0.0001685619354248047, "timer/agent.train_count": 631.0, "timer/agent.train_total": 272.1009316444397, "timer/agent.train_frac": 0.9062915244505166, "timer/agent.train_avg": 0.43122176171860493, "timer/agent.train_min": 0.37777018547058105, "timer/agent.train_max": 0.45783281326293945, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2287278175354004, "timer/agent.report_frac": 0.0007618279040267065, "timer/agent.report_avg": 0.2287278175354004, "timer/agent.report_min": 0.2287278175354004, "timer/agent.report_max": 0.2287278175354004, "fps": 4.203316720403508}
{"step": 1199682, "episode/length": 234.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.059574468085106386}
{"step": 1199853, "episode/length": 170.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 12.100000031292439, "episode/reward_rate": 0.05847953216374269}
{"step": 1200039, "episode/length": 185.0, "episode/score": 12.099999964237213, "episode/sum_abs_reward": 14.099999994039536, "episode/reward_rate": 0.06989247311827956}
{"step": 1200259, "episode/length": 219.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 17.100000008940697, "episode/reward_rate": 0.07272727272727272}
{"step": 1200759, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.3751220703125, "train/action_min": 0.0, "train/action_std": 3.2045870016491604, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.038026927719040524, "train/actor_opt_grad_steps": 599520.0, "train/actor_opt_loss": -11.439377941782512, "train/adv_mag": 0.4224238573085694, "train/adv_max": 0.3496435454913548, "train/adv_mean": 0.0023868081657888573, "train/adv_min": -0.38339745714550927, "train/adv_std": 0.04277688980339065, "train/cont_avg": 0.9952101934523809, "train/cont_loss_mean": 0.00024849062112181514, "train/cont_loss_std": 0.007905957968096759, "train/cont_neg_acc": 0.9854497360804725, "train/cont_neg_loss": 0.06488525292638853, "train/cont_pos_acc": 0.9999843608765375, "train/cont_pos_loss": 2.6709047082998417e-05, "train/cont_pred": 0.99523459351252, "train/cont_rate": 0.9952101934523809, "train/dyn_loss_mean": 6.018126131996276, "train/dyn_loss_std": 9.056840836055695, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8964103138636029, "train/extr_critic_critic_opt_grad_steps": 599520.0, "train/extr_critic_critic_opt_loss": 15338.66728670635, "train/extr_critic_mag": 12.580199786594935, "train/extr_critic_max": 12.580199786594935, "train/extr_critic_mean": 3.790616130071973, "train/extr_critic_min": -0.33627879051935106, "train/extr_critic_std": 3.0053379914117238, "train/extr_return_normed_mag": 1.3945578488092574, "train/extr_return_normed_max": 1.3945578488092574, "train/extr_return_normed_mean": 0.39592852407977697, "train/extr_return_normed_min": -0.07287683142792611, "train/extr_return_normed_std": 0.3159023442911723, "train/extr_return_rate": 0.8600333191099621, "train/extr_return_raw_mag": 13.408906618754068, "train/extr_return_raw_max": 13.408906618754068, "train/extr_return_raw_mean": 3.8135258281041704, "train/extr_return_raw_min": -0.6909474389893668, "train/extr_return_raw_std": 3.03576998483567, "train/extr_reward_mag": 1.0929120305984739, "train/extr_reward_max": 1.0929120305984739, "train/extr_reward_mean": 0.06348834849066204, "train/extr_reward_min": -0.5972534134274438, "train/extr_reward_std": 0.24197300062293098, "train/image_loss_mean": 3.5860682517763167, "train/image_loss_std": 9.069954470982628, "train/model_loss_mean": 7.262525505489773, "train/model_loss_std": 13.24740671733069, "train/model_opt_grad_norm": 21.44470991407122, "train/model_opt_grad_steps": 599025.8571428572, "train/model_opt_loss": 8637.186558314732, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1200.3968253968253, "train/policy_entropy_mag": 2.7231360427916997, "train/policy_entropy_max": 2.7231360427916997, "train/policy_entropy_mean": 0.409951540449309, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6187940282481057, "train/policy_logprob_mag": 7.438384252881247, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.40855312536633204, "train/policy_logprob_min": -7.438384252881247, "train/policy_logprob_std": 1.031921582562583, "train/policy_randomness_mag": 0.9611475240616572, "train/policy_randomness_max": 0.9611475240616572, "train/policy_randomness_mean": 0.14469490531418058, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21840713705335343, "train/post_ent_mag": 55.26426581730918, "train/post_ent_max": 55.26426581730918, "train/post_ent_mean": 40.00796551174588, "train/post_ent_min": 19.73158203609406, "train/post_ent_std": 5.794395378657749, "train/prior_ent_mag": 76.78835211859808, "train/prior_ent_max": 76.78835211859808, "train/prior_ent_mean": 45.94926422361343, "train/prior_ent_min": 27.991592255849685, "train/prior_ent_std": 7.8463151190016, "train/rep_loss_mean": 6.018126131996276, "train/rep_loss_std": 9.056840836055695, "train/reward_avg": 0.05017361086275843, "train/reward_loss_mean": 0.06533314423665168, "train/reward_loss_std": 0.23557892039654746, "train/reward_max_data": 1.0333333412806194, "train/reward_max_pred": 1.033442499145629, "train/reward_neg_acc": 0.9921007761879573, "train/reward_neg_loss": 0.026910909096754733, "train/reward_pos_acc": 0.9887143856003171, "train/reward_pos_loss": 0.7323808007770114, "train/reward_pred": 0.04976130844581695, "train/reward_rate": 0.05453249007936508, "stats/sum_log_reward": 12.100000143051147, "stats/max_log_achievement_collect_coal": 0.75, "stats/max_log_achievement_collect_drink": 2.25, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.25, "stats/max_log_achievement_collect_stone": 13.75, "stats/max_log_achievement_collect_wood": 12.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.25, "stats/max_log_achievement_make_stone_sword": 0.5, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.25, "stats/max_log_achievement_place_stone": 1.5, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.37891721725463867, "replay/size": 1000000.0, "replay/inserts": 1256.0, "replay/samples": 10048.0, "replay/insert_wait_avg": 3.3287485693670383e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3779303070845878e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.36589670181274, "timer/env.step_count": 1256.0, "timer/env.step_total": 14.679052591323853, "timer/env.step_frac": 0.04887057003643937, "timer/env.step_avg": 0.011687143782901156, "timer/env.step_min": 0.0030193328857421875, "timer/env.step_max": 1.6011412143707275, "timer/replay.add_count": 1256.0, "timer/replay.add_total": 0.26163578033447266, "timer/replay.add_frac": 0.0008710568783186818, "timer/replay.add_avg": 0.00020830874230451645, "timer/replay.add_min": 7.033348083496094e-05, "timer/replay.add_max": 0.003804445266723633, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02539992332458496, "timer/logger.write_frac": 8.456327300632486e-05, "timer/logger.write_avg": 0.02539992332458496, "timer/logger.write_min": 0.02539992332458496, "timer/logger.write_max": 0.02539992332458496, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00020694732666015625, "timer/checkpoint.save_frac": 6.889840988359691e-07, "timer/checkpoint.save_avg": 0.00020694732666015625, "timer/checkpoint.save_min": 0.00020694732666015625, "timer/checkpoint.save_max": 0.00020694732666015625, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4411022663116455, "timer/agent.save_frac": 0.004797822529573972, "timer/agent.save_avg": 1.4411022663116455, "timer/agent.save_min": 1.4411022663116455, "timer/agent.save_max": 1.4411022663116455, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.343292236328125e-05, "timer/replay.save_frac": 2.4447822861921487e-07, "timer/replay.save_avg": 7.343292236328125e-05, "timer/replay.save_min": 7.343292236328125e-05, "timer/replay.save_max": 7.343292236328125e-05, "timer/agent.policy_count": 1256.0, "timer/agent.policy_total": 13.733627796173096, "timer/agent.policy_frac": 0.045722993012775714, "timer/agent.policy_avg": 0.010934417035169662, "timer/agent.policy_min": 0.00609898567199707, "timer/agent.policy_max": 2.3271484375, "timer/dataset_count": 628.0, "timer/dataset_total": 0.05321979522705078, "timer/dataset_frac": 0.00017718321491032839, "timer/dataset_avg": 8.474489685836112e-05, "timer/dataset_min": 6.127357482910156e-05, "timer/dataset_max": 0.000164031982421875, "timer/agent.train_count": 628.0, "timer/agent.train_total": 270.96973943710327, "timer/agent.train_frac": 0.9021321741665885, "timer/agent.train_avg": 0.431480476810674, "timer/agent.train_min": 0.3657093048095703, "timer/agent.train_max": 0.4795567989349365, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.25774598121643066, "timer/agent.report_frac": 0.0008581066760462062, "timer/agent.report_avg": 0.25774598121643066, "timer/agent.report_min": 0.25774598121643066, "timer/agent.report_max": 0.25774598121643066, "fps": 4.181482731655627}
{"step": 1200787, "episode/length": 527.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 18.500000037252903, "episode/reward_rate": 0.030303030303030304}
{"step": 1200949, "episode/length": 161.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.07407407407407407}
{"step": 1201177, "episode/length": 227.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.05263157894736842}
{"step": 1201477, "episode/length": 299.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.05}
{"step": 1201749, "episode/length": 271.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.700000025331974, "episode/reward_rate": 0.058823529411764705}
{"step": 1202027, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.3823959108382935, "train/action_min": 0.0, "train/action_std": 3.262511200375027, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03661192888541827, "train/actor_opt_grad_steps": 600150.0, "train/actor_opt_loss": -11.778733504670006, "train/adv_mag": 0.3976964832298339, "train/adv_max": 0.3301160510570284, "train/adv_mean": 0.0014013345099801737, "train/adv_min": -0.36479112032860045, "train/adv_std": 0.04074884821025152, "train/cont_avg": 0.9950241815476191, "train/cont_loss_mean": 6.962212512349645e-05, "train/cont_loss_std": 0.002121429839803568, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0014163584105809275, "train/cont_pos_acc": 0.9999844195350768, "train/cont_pos_loss": 6.299409960368913e-05, "train/cont_pred": 0.9949963509090363, "train/cont_rate": 0.9950241815476191, "train/dyn_loss_mean": 5.802529297177753, "train/dyn_loss_std": 8.964676493690128, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9007966934688507, "train/extr_critic_critic_opt_grad_steps": 600150.0, "train/extr_critic_critic_opt_loss": 15260.139663938493, "train/extr_critic_mag": 12.72929939391121, "train/extr_critic_max": 12.72929939391121, "train/extr_critic_mean": 3.7181511682177346, "train/extr_critic_min": -0.3199275940183609, "train/extr_critic_std": 3.052110963397556, "train/extr_return_normed_mag": 1.3836766784153287, "train/extr_return_normed_max": 1.3836766784153287, "train/extr_return_normed_mean": 0.3848082158300612, "train/extr_return_normed_min": -0.07217272977152514, "train/extr_return_normed_std": 0.31905714032195864, "train/extr_return_rate": 0.8456184286919851, "train/extr_return_raw_mag": 13.369251296633767, "train/extr_return_raw_max": 13.369251296633767, "train/extr_return_raw_mean": 3.731666118379623, "train/extr_return_raw_min": -0.6777459023490785, "train/extr_return_raw_std": 3.078538523779975, "train/extr_reward_mag": 1.0882328767625113, "train/extr_reward_max": 1.0882328767625113, "train/extr_reward_mean": 0.061644176996889566, "train/extr_reward_min": -0.585580379243881, "train/extr_reward_std": 0.2385799858778242, "train/image_loss_mean": 3.574808677037557, "train/image_loss_std": 8.97984765067933, "train/model_loss_mean": 7.119500864119757, "train/model_loss_std": 13.068713203309075, "train/model_opt_grad_norm": 18.547480795118545, "train/model_opt_grad_steps": 599655.0, "train/model_opt_loss": 4449.688030908978, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 625.0, "train/policy_entropy_mag": 2.700420697530111, "train/policy_entropy_max": 2.700420697530111, "train/policy_entropy_mean": 0.436640028915708, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6449865362946949, "train/policy_logprob_mag": 7.438384283156622, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.43842532994255184, "train/policy_logprob_min": -7.438384283156622, "train/policy_logprob_std": 1.0603606265688699, "train/policy_randomness_mag": 0.9531300020596337, "train/policy_randomness_max": 0.9531300020596337, "train/policy_randomness_mean": 0.15411476956473458, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22765194092478072, "train/post_ent_mag": 55.56168946765718, "train/post_ent_max": 55.56168946765718, "train/post_ent_mean": 40.1416132487948, "train/post_ent_min": 19.556619553338912, "train/post_ent_std": 5.859177097441658, "train/prior_ent_mag": 76.87914663647848, "train/prior_ent_max": 76.87914663647848, "train/prior_ent_mean": 45.94673326280382, "train/prior_ent_min": 27.503923476688446, "train/prior_ent_std": 7.915735774570042, "train/rep_loss_mean": 5.802529297177753, "train/rep_loss_std": 8.964676493690128, "train/reward_avg": 0.04834914408505909, "train/reward_loss_mean": 0.06310508092717519, "train/reward_loss_std": 0.2219338244388974, "train/reward_max_data": 1.0349206432463631, "train/reward_max_pred": 1.0327771050589425, "train/reward_neg_acc": 0.992818189991845, "train/reward_neg_loss": 0.02659764520764824, "train/reward_pos_acc": 0.9913929786000933, "train/reward_pos_loss": 0.7191744285916525, "train/reward_pred": 0.047859664237688455, "train/reward_rate": 0.05267237103174603, "stats/sum_log_reward": 13.099999809265137, "stats/max_log_achievement_collect_coal": 0.6, "stats/max_log_achievement_collect_drink": 5.0, "stats/max_log_achievement_collect_iron": 0.4, "stats/max_log_achievement_collect_sapling": 2.2, "stats/max_log_achievement_collect_stone": 18.8, "stats/max_log_achievement_collect_wood": 14.6, "stats/max_log_achievement_defeat_skeleton": 0.2, "stats/max_log_achievement_defeat_zombie": 2.4, "stats/max_log_achievement_eat_cow": 0.8, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8, "stats/max_log_achievement_make_stone_sword": 0.6, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 2.2, "stats/max_log_achievement_place_stone": 6.0, "stats/max_log_achievement_place_table": 3.4, "stats/max_log_achievement_wake_up": 1.6, "stats/mean_log_entropy": 0.5186434388160706, "replay/size": 1000000.0, "replay/inserts": 1268.0, "replay/samples": 10144.0, "replay/insert_wait_avg": 3.3602353526214697e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3774407774868071e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.440691947937, "timer/env.step_count": 1268.0, "timer/env.step_total": 16.413074493408203, "timer/env.step_frac": 0.05462999831012373, "timer/env.step_avg": 0.012944065057892905, "timer/env.step_min": 0.0031299591064453125, "timer/env.step_max": 1.8365719318389893, "timer/replay.add_count": 1268.0, "timer/replay.add_total": 0.2477400302886963, "timer/replay.add_frac": 0.0008245888021441079, "timer/replay.add_avg": 0.0001953785727828835, "timer/replay.add_min": 7.152557373046875e-05, "timer/replay.add_max": 0.0006134510040283203, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02271556854248047, "timer/logger.write_frac": 7.560749642534049e-05, "timer/logger.write_avg": 0.02271556854248047, "timer/logger.write_min": 0.02271556854248047, "timer/logger.write_max": 0.02271556854248047, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1268.0, "timer/agent.policy_total": 10.11676812171936, "timer/agent.policy_frac": 0.03367309553218737, "timer/agent.policy_avg": 0.00797852375529918, "timer/agent.policy_min": 0.005893230438232422, "timer/agent.policy_max": 0.014871358871459961, "timer/dataset_count": 634.0, "timer/dataset_total": 0.05396270751953125, "timer/dataset_frac": 0.00017961184674971517, "timer/dataset_avg": 8.511468063017547e-05, "timer/dataset_min": 6.270408630371094e-05, "timer/dataset_max": 0.0001690387725830078, "timer/agent.train_count": 634.0, "timer/agent.train_total": 272.92931294441223, "timer/agent.train_frac": 0.9084299173152877, "timer/agent.train_avg": 0.4304878753066439, "timer/agent.train_min": 0.3772592544555664, "timer/agent.train_max": 0.4529836177825928, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.26050519943237305, "timer/agent.report_frac": 0.0008670769520046095, "timer/agent.report_avg": 0.26050519943237305, "timer/agent.report_min": 0.26050519943237305, "timer/agent.report_max": 0.26050519943237305, "fps": 4.2203851749131305}
{"step": 1202034, "episode/length": 284.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 15.900000013411045, "episode/reward_rate": 0.05263157894736842}
{"step": 1202239, "episode/length": 204.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 15.900000013411045, "episode/reward_rate": 0.07317073170731707}
{"step": 1202464, "episode/length": 224.0, "episode/score": 15.100000038743019, "episode/sum_abs_reward": 17.500000074505806, "episode/reward_rate": 0.07111111111111111}
{"step": 1202664, "episode/length": 199.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 14.900000013411045, "episode/reward_rate": 0.07}
{"step": 1202883, "episode/length": 218.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.0684931506849315}
{"step": 1202943, "episode/length": 59.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.06666666666666667}
{"step": 1203259, "episode/length": 315.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.04430379746835443}
{"step": 1203281, "stats/sum_log_reward": 12.385714599064418, "stats/max_log_achievement_collect_coal": 1.1428571428571428, "stats/max_log_achievement_collect_drink": 2.5714285714285716, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.4285714285714284, "stats/max_log_achievement_collect_stone": 14.0, "stats/max_log_achievement_collect_wood": 12.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.2857142857142856, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.4285714285714286, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.4285714285714286, "stats/max_log_achievement_place_plant": 2.2857142857142856, "stats/max_log_achievement_place_stone": 3.4285714285714284, "stats/max_log_achievement_place_table": 3.2857142857142856, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.4214364630835397, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.348564995659722, "train/action_min": 0.0, "train/action_std": 3.18830562773205, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03682599136871951, "train/actor_opt_grad_steps": 600780.0, "train/actor_opt_loss": -11.16616073676518, "train/adv_mag": 0.3727878715310778, "train/adv_max": 0.32772710777464364, "train/adv_mean": 0.0020089009484518246, "train/adv_min": -0.3294837796498859, "train/adv_std": 0.04076275123017175, "train/cont_avg": 0.9954427083333334, "train/cont_loss_mean": 0.00015511098410258224, "train/cont_loss_std": 0.004848891493233554, "train/cont_neg_acc": 0.9894179900487264, "train/cont_neg_loss": 0.03963493990995053, "train/cont_pos_acc": 0.999999982023996, "train/cont_pos_loss": 2.2995503896377087e-05, "train/cont_pred": 0.9954675492786226, "train/cont_rate": 0.9954427083333334, "train/dyn_loss_mean": 5.774652806539384, "train/dyn_loss_std": 8.941710396418495, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8793160101724049, "train/extr_critic_critic_opt_grad_steps": 600780.0, "train/extr_critic_critic_opt_loss": 15166.732220362102, "train/extr_critic_mag": 12.617588270278205, "train/extr_critic_max": 12.617588270278205, "train/extr_critic_mean": 3.765047167974805, "train/extr_critic_min": -0.31077202161153156, "train/extr_critic_std": 2.9842331712208097, "train/extr_return_normed_mag": 1.3778564456909421, "train/extr_return_normed_max": 1.3778564456909421, "train/extr_return_normed_mean": 0.3898805862381345, "train/extr_return_normed_min": -0.07054620369204453, "train/extr_return_normed_std": 0.31175459424654645, "train/extr_return_rate": 0.8684627612431844, "train/extr_return_raw_mag": 13.339693765791635, "train/extr_return_raw_max": 13.339693765791635, "train/extr_return_raw_mean": 3.784414325441633, "train/extr_return_raw_min": -0.6671334325321137, "train/extr_return_raw_std": 3.0149639333997453, "train/extr_reward_mag": 1.0903568343510703, "train/extr_reward_max": 1.0903568343510703, "train/extr_reward_mean": 0.06416961497494153, "train/extr_reward_min": -0.6016790337032742, "train/extr_reward_std": 0.24321772725809188, "train/image_loss_mean": 3.5590430668422153, "train/image_loss_std": 8.87850138497731, "train/model_loss_mean": 7.086047081720261, "train/model_loss_std": 12.917536780947732, "train/model_opt_grad_norm": 21.04299104781378, "train/model_opt_grad_steps": 600285.0, "train/model_opt_loss": 7236.772604321676, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1011.9047619047619, "train/policy_entropy_mag": 2.698239515698145, "train/policy_entropy_max": 2.698239515698145, "train/policy_entropy_mean": 0.4120359127483671, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6157128626392001, "train/policy_logprob_mag": 7.438384237743559, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4116262027195522, "train/policy_logprob_min": -7.438384237743559, "train/policy_logprob_std": 1.0347248628025962, "train/policy_randomness_mag": 0.9523601380605546, "train/policy_randomness_max": 0.9523601380605546, "train/policy_randomness_mean": 0.14543059551053578, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.21731961979752495, "train/post_ent_mag": 55.695055522615945, "train/post_ent_max": 55.695055522615945, "train/post_ent_mean": 40.16884497990684, "train/post_ent_min": 19.968290328979492, "train/post_ent_std": 5.842773800804501, "train/prior_ent_mag": 76.85816059415302, "train/prior_ent_max": 76.85816059415302, "train/prior_ent_mean": 45.87558177160838, "train/prior_ent_min": 27.678233222355917, "train/prior_ent_std": 7.946742988768078, "train/rep_loss_mean": 5.774652806539384, "train/rep_loss_std": 8.941710396418495, "train/reward_avg": 0.04935825888126615, "train/reward_loss_mean": 0.062057283780877555, "train/reward_loss_std": 0.21141667900577424, "train/reward_max_data": 1.0190476235889254, "train/reward_max_pred": 1.0214928331829252, "train/reward_neg_acc": 0.9923242292706929, "train/reward_neg_loss": 0.02565938869993838, "train/reward_pos_acc": 0.9925260969570705, "train/reward_pos_loss": 0.707104155941615, "train/reward_pred": 0.04924300055773485, "train/reward_rate": 0.05349392361111111, "replay/size": 1000000.0, "replay/inserts": 1254.0, "replay/samples": 10032.0, "replay/insert_wait_avg": 3.343373774721672e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3757075229139799e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0818099975586, "timer/env.step_count": 1254.0, "timer/env.step_total": 18.85007095336914, "timer/env.step_frac": 0.06281643980194102, "timer/env.step_avg": 0.015031954508268853, "timer/env.step_min": 0.0029060840606689453, "timer/env.step_max": 1.655684232711792, "timer/replay.add_count": 1254.0, "timer/replay.add_total": 0.26615023612976074, "timer/replay.add_frac": 0.0008869255891649217, "timer/replay.add_avg": 0.00021224101764733713, "timer/replay.add_min": 7.581710815429688e-05, "timer/replay.add_max": 0.0007319450378417969, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026664257049560547, "timer/logger.write_frac": 8.885662563078209e-05, "timer/logger.write_avg": 0.026664257049560547, "timer/logger.write_min": 0.026664257049560547, "timer/logger.write_max": 0.026664257049560547, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1254.0, "timer/agent.policy_total": 9.917351007461548, "timer/agent.policy_frac": 0.03304882427742699, "timer/agent.policy_avg": 0.007908573371181457, "timer/agent.policy_min": 0.00597834587097168, "timer/agent.policy_max": 0.015012502670288086, "timer/dataset_count": 627.0, "timer/dataset_total": 0.05389142036437988, "timer/dataset_frac": 0.0001795890939368112, "timer/dataset_avg": 8.595122865132357e-05, "timer/dataset_min": 6.29425048828125e-05, "timer/dataset_max": 0.00019311904907226562, "timer/agent.train_count": 627.0, "timer/agent.train_total": 270.3124625682831, "timer/agent.train_frac": 0.900795894861079, "timer/agent.train_avg": 0.4311203549733382, "timer/agent.train_min": 0.36694765090942383, "timer/agent.train_max": 0.4529123306274414, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2565751075744629, "timer/agent.report_frac": 0.0008550171953993158, "timer/agent.report_avg": 0.2565751075744629, "timer/agent.report_min": 0.2565751075744629, "timer/agent.report_max": 0.2565751075744629, "fps": 4.178784965687842}
{"step": 1203622, "episode/length": 362.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.04132231404958678}
{"step": 1203931, "episode/length": 308.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.900000043213367, "episode/reward_rate": 0.04854368932038835}
{"step": 1204154, "episode/length": 222.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.06726457399103139}
{"step": 1204454, "episode/length": 299.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 15.900000013411045, "episode/reward_rate": 0.05}
{"step": 1204533, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.521676340410786, "train/action_min": 0.0, "train/action_std": 3.3585834887719925, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.035297915880237854, "train/actor_opt_grad_steps": 601405.0, "train/actor_opt_loss": -11.823870131565679, "train/adv_mag": 0.37744729244901287, "train/adv_max": 0.30149068923727157, "train/adv_mean": 0.0013644853713025617, "train/adv_min": -0.3526518008401317, "train/adv_std": 0.04003088002003009, "train/cont_avg": 0.9949754284274194, "train/cont_loss_mean": 4.362483746826874e-05, "train/cont_loss_std": 0.0012843940963720006, "train/cont_neg_acc": 0.9979508196721312, "train/cont_neg_loss": 0.003747861763479723, "train/cont_pos_acc": 0.9999999865408866, "train/cont_pos_loss": 1.5314808683843152e-05, "train/cont_pred": 0.9949750650313592, "train/cont_rate": 0.9949754284274194, "train/dyn_loss_mean": 5.778174169601932, "train/dyn_loss_std": 8.9001965830403, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8533502076902697, "train/extr_critic_critic_opt_grad_steps": 601405.0, "train/extr_critic_critic_opt_loss": 14937.8974609375, "train/extr_critic_mag": 12.671598280629803, "train/extr_critic_max": 12.671598280629803, "train/extr_critic_mean": 3.792585369079344, "train/extr_critic_min": -0.35689988636201425, "train/extr_critic_std": 3.069102748747795, "train/extr_return_normed_mag": 1.3767107052187766, "train/extr_return_normed_max": 1.3767107052187766, "train/extr_return_normed_mean": 0.3927950748512822, "train/extr_return_normed_min": -0.06531805887577995, "train/extr_return_normed_std": 0.3177590627343424, "train/extr_return_rate": 0.8392767579324784, "train/extr_return_raw_mag": 13.38071895414783, "train/extr_return_raw_max": 13.38071895414783, "train/extr_return_raw_mean": 3.8058532784062047, "train/extr_return_raw_min": -0.6525412146602908, "train/extr_return_raw_std": 3.092364976483007, "train/extr_reward_mag": 1.0904239377667826, "train/extr_reward_max": 1.0904239377667826, "train/extr_reward_mean": 0.0642504773793682, "train/extr_reward_min": -0.5878638702054177, "train/extr_reward_std": 0.24304850687903742, "train/image_loss_mean": 3.5692139248694144, "train/image_loss_std": 8.683215933461343, "train/model_loss_mean": 7.10116744810535, "train/model_loss_std": 12.742102515312933, "train/model_opt_grad_norm": 20.536057918302475, "train/model_opt_grad_steps": 600910.0, "train/model_opt_loss": 9030.2583952873, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1270.1612903225807, "train/policy_entropy_mag": 2.729448672263853, "train/policy_entropy_max": 2.729448672263853, "train/policy_entropy_mean": 0.45413285878396803, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6731066064488503, "train/policy_logprob_mag": 7.438384286818966, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4546524550645582, "train/policy_logprob_min": -7.438384286818966, "train/policy_logprob_std": 1.0725532154883108, "train/policy_randomness_mag": 0.9633756020376759, "train/policy_randomness_max": 0.9633756020376759, "train/policy_randomness_mean": 0.16028897211916984, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23757708793686283, "train/post_ent_mag": 55.98429802925356, "train/post_ent_max": 55.98429802925356, "train/post_ent_mean": 40.21055055433704, "train/post_ent_min": 19.72630008574455, "train/post_ent_std": 5.93840826711347, "train/prior_ent_mag": 76.75299736761278, "train/prior_ent_max": 76.75299736761278, "train/prior_ent_mean": 46.01431680494739, "train/prior_ent_min": 27.86372338571856, "train/prior_ent_std": 8.014626318408597, "train/rep_loss_mean": 5.778174169601932, "train/rep_loss_std": 8.9001965830403, "train/reward_avg": 0.05055600969541457, "train/reward_loss_mean": 0.06500542782727749, "train/reward_loss_std": 0.22584051710944023, "train/reward_max_data": 1.032258072207051, "train/reward_max_pred": 1.0308753482757076, "train/reward_neg_acc": 0.9919212431676926, "train/reward_neg_loss": 0.02703891948406254, "train/reward_pos_acc": 0.9908829965899068, "train/reward_pos_loss": 0.7212704343180503, "train/reward_pred": 0.0501161172325092, "train/reward_rate": 0.05473475302419355, "stats/sum_log_reward": 14.100000381469727, "stats/max_log_achievement_collect_coal": 1.25, "stats/max_log_achievement_collect_drink": 3.5, "stats/max_log_achievement_collect_iron": 0.25, "stats/max_log_achievement_collect_sapling": 2.25, "stats/max_log_achievement_collect_stone": 20.75, "stats/max_log_achievement_collect_wood": 12.25, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.25, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.5, "stats/max_log_achievement_make_stone_sword": 1.25, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.5, "stats/max_log_achievement_place_plant": 2.25, "stats/max_log_achievement_place_stone": 4.5, "stats/max_log_achievement_place_table": 3.5, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.7852023765444756, "replay/size": 1000000.0, "replay/inserts": 1252.0, "replay/samples": 10016.0, "replay/insert_wait_avg": 3.4296474517724767e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3727159164964961e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0558376312256, "timer/env.step_count": 1252.0, "timer/env.step_total": 15.542469501495361, "timer/env.step_frac": 0.051798590636311356, "timer/env.step_avg": 0.012414113020363706, "timer/env.step_min": 0.002920389175415039, "timer/env.step_max": 1.9556849002838135, "timer/replay.add_count": 1252.0, "timer/replay.add_total": 0.24770140647888184, "timer/replay.add_frac": 0.0008255177050856502, "timer/replay.add_avg": 0.0001978445738649216, "timer/replay.add_min": 7.081031799316406e-05, "timer/replay.add_max": 0.0007596015930175781, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.035898685455322266, "timer/logger.write_frac": 0.00011964001680061443, "timer/logger.write_avg": 0.035898685455322266, "timer/logger.write_min": 0.035898685455322266, "timer/logger.write_max": 0.035898685455322266, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004284381866455078, "timer/checkpoint.save_frac": 1.4278615274669864e-06, "timer/checkpoint.save_avg": 0.0004284381866455078, "timer/checkpoint.save_min": 0.0004284381866455078, "timer/checkpoint.save_max": 0.0004284381866455078, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.311859369277954, "timer/agent.save_frac": 0.004372050814389602, "timer/agent.save_avg": 1.311859369277954, "timer/agent.save_min": 1.311859369277954, "timer/agent.save_max": 1.311859369277954, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.890296936035156e-05, "timer/replay.save_frac": 2.2963382383859713e-07, "timer/replay.save_avg": 6.890296936035156e-05, "timer/replay.save_min": 6.890296936035156e-05, "timer/replay.save_max": 6.890296936035156e-05, "timer/agent.policy_count": 1252.0, "timer/agent.policy_total": 13.618167638778687, "timer/agent.policy_frac": 0.04538544474350696, "timer/agent.policy_avg": 0.01087713070189991, "timer/agent.policy_min": 0.005989789962768555, "timer/agent.policy_max": 2.415668487548828, "timer/dataset_count": 626.0, "timer/dataset_total": 0.05273747444152832, "timer/dataset_frac": 0.00017575886827552307, "timer/dataset_avg": 8.424516683950211e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.00014734268188476562, "timer/agent.train_count": 626.0, "timer/agent.train_total": 269.9077818393707, "timer/agent.train_frac": 0.8995251816133389, "timer/agent.train_avg": 0.4311625907977168, "timer/agent.train_min": 0.3792247772216797, "timer/agent.train_max": 0.5065200328826904, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.26357316970825195, "timer/agent.report_frac": 0.0008784137372197652, "timer/agent.report_avg": 0.26357316970825195, "timer/agent.report_min": 0.26357316970825195, "timer/agent.report_max": 0.26357316970825195, "fps": 4.172472537242617}
{"step": 1204634, "episode/length": 179.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.07222222222222222}
{"step": 1204817, "episode/length": 182.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.08196721311475409}
{"step": 1205087, "episode/length": 269.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.500000022351742, "episode/reward_rate": 0.02962962962962963}
{"step": 1205263, "episode/length": 175.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.0625}
{"step": 1205373, "episode/length": 109.0, "episode/score": 7.100000023841858, "episode/sum_abs_reward": 9.299999982118607, "episode/reward_rate": 0.08181818181818182}
{"step": 1205589, "episode/length": 215.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.06481481481481481}
{"step": 1205799, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.394413948059082, "train/action_min": 0.0, "train/action_std": 3.3315302282571793, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03591522230999544, "train/actor_opt_grad_steps": 602035.0, "train/actor_opt_loss": -11.178181362571195, "train/adv_mag": 0.3693268452771008, "train/adv_max": 0.3234116688836366, "train/adv_mean": 0.0019843343772798505, "train/adv_min": -0.31564974738284945, "train/adv_std": 0.04040471249027178, "train/cont_avg": 0.9950408935546875, "train/cont_loss_mean": 0.0001838024218154266, "train/cont_loss_std": 0.005855263426421509, "train/cont_neg_acc": 0.9977324273851182, "train/cont_neg_loss": 0.026359362762575504, "train/cont_pos_acc": 0.9999999823048711, "train/cont_pos_loss": 6.736536237783586e-06, "train/cont_pred": 0.9950502831488848, "train/cont_rate": 0.9950408935546875, "train/dyn_loss_mean": 5.688444346189499, "train/dyn_loss_std": 8.928266763687134, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8783237058669329, "train/extr_critic_critic_opt_grad_steps": 602035.0, "train/extr_critic_critic_opt_loss": 15040.338562011719, "train/extr_critic_mag": 12.66926994919777, "train/extr_critic_max": 12.66926994919777, "train/extr_critic_mean": 3.800180822610855, "train/extr_critic_min": -0.34104871191084385, "train/extr_critic_std": 3.070708330720663, "train/extr_return_normed_mag": 1.3775800801813602, "train/extr_return_normed_max": 1.3775800801813602, "train/extr_return_normed_mean": 0.395255112554878, "train/extr_return_normed_min": -0.06622840039199218, "train/extr_return_normed_std": 0.3191878234501928, "train/extr_return_rate": 0.8438232848420739, "train/extr_return_raw_mag": 13.35470099747181, "train/extr_return_raw_max": 13.35470099747181, "train/extr_return_raw_mean": 3.819451529532671, "train/extr_return_raw_min": -0.6607122872956097, "train/extr_return_raw_std": 3.0988294035196304, "train/extr_reward_mag": 1.0892015360295773, "train/extr_reward_max": 1.0892015360295773, "train/extr_reward_mean": 0.06430858880048618, "train/extr_reward_min": -0.5928258784115314, "train/extr_reward_std": 0.24327192013151944, "train/image_loss_mean": 3.454002622514963, "train/image_loss_std": 8.477233976125717, "train/model_loss_mean": 6.9321025013923645, "train/model_loss_std": 12.591016262769699, "train/model_opt_grad_norm": 20.00349558889866, "train/model_opt_grad_steps": 601540.0, "train/model_opt_loss": 17330.25633239746, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7094783037900925, "train/policy_entropy_max": 2.7094783037900925, "train/policy_entropy_mean": 0.43482348951511085, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6486258660443127, "train/policy_logprob_mag": 7.438384339213371, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.43541826750151813, "train/policy_logprob_min": -7.438384339213371, "train/policy_logprob_std": 1.057661272585392, "train/policy_randomness_mag": 0.9563269382342696, "train/policy_randomness_max": 0.9563269382342696, "train/policy_randomness_mean": 0.15347360773012042, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22893646685406566, "train/post_ent_mag": 55.64791941642761, "train/post_ent_max": 55.64791941642761, "train/post_ent_mean": 40.117775440216064, "train/post_ent_min": 19.947704315185547, "train/post_ent_std": 5.83111197501421, "train/prior_ent_mag": 76.76406383514404, "train/prior_ent_max": 76.76406383514404, "train/prior_ent_mean": 45.808109760284424, "train/prior_ent_min": 27.455341041088104, "train/prior_ent_std": 7.974966041743755, "train/rep_loss_mean": 5.688444346189499, "train/rep_loss_std": 8.928266763687134, "train/reward_avg": 0.05065154973999597, "train/reward_loss_mean": 0.06484950322192162, "train/reward_loss_std": 0.22787420800887048, "train/reward_max_data": 1.0375000089406967, "train/reward_max_pred": 1.0366393066942692, "train/reward_neg_acc": 0.99172009434551, "train/reward_neg_loss": 0.026815177654498257, "train/reward_pos_acc": 0.9914176072925329, "train/reward_pos_loss": 0.7182303555309772, "train/reward_pred": 0.05038046068511903, "train/reward_rate": 0.054962158203125, "stats/sum_log_reward": 10.600000143051147, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 3.1666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 8.166666666666666, "stats/max_log_achievement_collect_wood": 9.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.3333333333333333, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "stats/max_log_achievement_make_stone_sword": 0.3333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 2.3333333333333335, "stats/max_log_achievement_place_table": 2.3333333333333335, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.3434275562564532, "replay/size": 1000000.0, "replay/inserts": 1266.0, "replay/samples": 10128.0, "replay/insert_wait_avg": 3.432398912089319e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.37250758648672e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2980556488037, "timer/env.step_count": 1266.0, "timer/env.step_total": 17.03644895553589, "timer/env.step_frac": 0.05673179907451644, "timer/env.step_avg": 0.01345691070737432, "timer/env.step_min": 0.0029959678649902344, "timer/env.step_max": 1.6283504962921143, "timer/replay.add_count": 1266.0, "timer/replay.add_total": 0.25718069076538086, "timer/replay.add_frac": 0.0008564181017080967, "timer/replay.add_avg": 0.00020314430550188062, "timer/replay.add_min": 8.130073547363281e-05, "timer/replay.add_max": 0.0006334781646728516, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024320602416992188, "timer/logger.write_frac": 8.098821141031611e-05, "timer/logger.write_avg": 0.024320602416992188, "timer/logger.write_min": 0.024320602416992188, "timer/logger.write_max": 0.024320602416992188, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1266.0, "timer/agent.policy_total": 10.011946678161621, "timer/agent.policy_frac": 0.033340031644662114, "timer/agent.policy_avg": 0.007908330709448358, "timer/agent.policy_min": 0.006124019622802734, "timer/agent.policy_max": 0.014547586441040039, "timer/dataset_count": 633.0, "timer/dataset_total": 0.05420565605163574, "timer/dataset_frac": 0.0001805061838796214, "timer/dataset_avg": 8.563294794887163e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.0001621246337890625, "timer/agent.train_count": 633.0, "timer/agent.train_total": 272.2766902446747, "timer/agent.train_frac": 0.9066881557271893, "timer/agent.train_avg": 0.43013695141338815, "timer/agent.train_min": 0.36799144744873047, "timer/agent.train_max": 0.5040915012359619, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.23677325248718262, "timer/agent.report_frac": 0.0007884608242821496, "timer/agent.report_avg": 0.23677325248718262, "timer/agent.report_min": 0.23677325248718262, "timer/agent.report_max": 0.23677325248718262, "fps": 4.215728344767948}
{"step": 1205824, "episode/length": 234.0, "episode/score": 10.100000016391277, "episode/sum_abs_reward": 11.700000040233135, "episode/reward_rate": 0.04680851063829787}
{"step": 1206007, "episode/length": 182.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.07650273224043716}
{"step": 1206273, "episode/length": 265.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.05639097744360902}
{"step": 1206657, "episode/length": 383.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.700000047683716, "episode/reward_rate": 0.033854166666666664}
{"step": 1206752, "episode/length": 94.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.11578947368421053}
{"step": 1206982, "episode/length": 229.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.700000002980232, "episode/reward_rate": 0.06086956521739131}
{"step": 1207061, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.506528824094742, "train/action_min": 0.0, "train/action_std": 3.3518493326883467, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.037011352737271595, "train/actor_opt_grad_steps": 602670.0, "train/actor_opt_loss": -11.822731262161618, "train/adv_mag": 0.39893171427741886, "train/adv_max": 0.3240645511282815, "train/adv_mean": 0.0019107152997065216, "train/adv_min": -0.36067289066693137, "train/adv_std": 0.041813722560330044, "train/cont_avg": 0.9948536706349206, "train/cont_loss_mean": 0.00019298032860942405, "train/cont_loss_std": 0.006058844317128624, "train/cont_neg_acc": 0.9936507940292358, "train/cont_neg_loss": 0.037080132408258935, "train/cont_pos_acc": 0.9999999839162069, "train/cont_pos_loss": 1.1065135944526056e-05, "train/cont_pred": 0.9948743108719115, "train/cont_rate": 0.9948536706349206, "train/dyn_loss_mean": 5.864288246820843, "train/dyn_loss_std": 8.997072340950133, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8464251652596488, "train/extr_critic_critic_opt_grad_steps": 602670.0, "train/extr_critic_critic_opt_loss": 15138.061476934523, "train/extr_critic_mag": 12.635265380617172, "train/extr_critic_max": 12.635265380617172, "train/extr_critic_mean": 3.891900062561035, "train/extr_critic_min": -0.34530795945061576, "train/extr_critic_std": 3.0567856591845315, "train/extr_return_normed_mag": 1.3736818763944838, "train/extr_return_normed_max": 1.3736818763944838, "train/extr_return_normed_mean": 0.40615443152094644, "train/extr_return_normed_min": -0.05999617455970673, "train/extr_return_normed_std": 0.31598235619446585, "train/extr_return_rate": 0.8546224387865218, "train/extr_return_raw_mag": 13.347615817236521, "train/extr_return_raw_max": 13.347615817236521, "train/extr_return_raw_mean": 3.910511580724565, "train/extr_return_raw_min": -0.6369117796421051, "train/extr_return_raw_std": 3.082742978656103, "train/extr_reward_mag": 1.0809193717108831, "train/extr_reward_max": 1.0809193717108831, "train/extr_reward_mean": 0.06901484390809423, "train/extr_reward_min": -0.5666782628922236, "train/extr_reward_std": 0.2512571047695856, "train/image_loss_mean": 3.4963998908088323, "train/image_loss_std": 8.826926761203342, "train/model_loss_mean": 7.08141407134041, "train/model_loss_std": 12.985792704990931, "train/model_opt_grad_norm": 19.622732404678587, "train/model_opt_grad_steps": 602174.6031746032, "train/model_opt_loss": 18625.291434151786, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2619.0476190476193, "train/policy_entropy_mag": 2.7132816428229924, "train/policy_entropy_max": 2.7132816428229924, "train/policy_entropy_mean": 0.4278801523503803, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.642465869585673, "train/policy_logprob_mag": 7.438384260450091, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.428090909170726, "train/policy_logprob_min": -7.438384260450091, "train/policy_logprob_std": 1.0507882852402946, "train/policy_randomness_mag": 0.9576693527282231, "train/policy_randomness_max": 0.9576693527282231, "train/policy_randomness_mean": 0.1510229188771475, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22676225668854183, "train/post_ent_mag": 55.58923981681703, "train/post_ent_max": 55.58923981681703, "train/post_ent_mean": 40.037725781637526, "train/post_ent_min": 19.330753220452202, "train/post_ent_std": 5.885218567318386, "train/prior_ent_mag": 76.7663093445793, "train/prior_ent_max": 76.7663093445793, "train/prior_ent_mean": 45.861456674242774, "train/prior_ent_min": 27.501274320814346, "train/prior_ent_std": 8.03608372854808, "train/rep_loss_mean": 5.864288246820843, "train/rep_loss_std": 8.997072340950133, "train/reward_avg": 0.05351717498094317, "train/reward_loss_mean": 0.06624833139635268, "train/reward_loss_std": 0.23426409893565708, "train/reward_max_data": 1.0396825491435944, "train/reward_max_pred": 1.0384874078962538, "train/reward_neg_acc": 0.9924753223146711, "train/reward_neg_loss": 0.02584541772329618, "train/reward_pos_acc": 0.9878829112128605, "train/reward_pos_loss": 0.7230725373540606, "train/reward_pred": 0.05308529172861387, "train/reward_rate": 0.057849702380952384, "stats/sum_log_reward": 11.766666889190674, "stats/max_log_achievement_collect_coal": 1.3333333333333333, "stats/max_log_achievement_collect_drink": 3.1666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.1666666666666667, "stats/max_log_achievement_collect_stone": 11.333333333333334, "stats/max_log_achievement_collect_wood": 12.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.5, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 1.1666666666666667, "stats/max_log_achievement_place_stone": 3.3333333333333335, "stats/max_log_achievement_place_table": 3.5, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.5120685398578644, "replay/size": 1000000.0, "replay/inserts": 1262.0, "replay/samples": 10096.0, "replay/insert_wait_avg": 3.2955417542374455e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3857607607229387e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3616247177124, "timer/env.step_count": 1262.0, "timer/env.step_total": 17.61699414253235, "timer/env.step_frac": 0.05865261302634534, "timer/env.step_avg": 0.013959583314209469, "timer/env.step_min": 0.0029315948486328125, "timer/env.step_max": 1.672480583190918, "timer/replay.add_count": 1262.0, "timer/replay.add_total": 0.26314687728881836, "timer/replay.add_frac": 0.0008761001926798424, "timer/replay.add_avg": 0.00020851575062505416, "timer/replay.add_min": 7.534027099609375e-05, "timer/replay.add_max": 0.0008423328399658203, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03441452980041504, "timer/logger.write_frac": 0.00011457698643346567, "timer/logger.write_avg": 0.03441452980041504, "timer/logger.write_min": 0.03441452980041504, "timer/logger.write_max": 0.03441452980041504, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1262.0, "timer/agent.policy_total": 10.026344299316406, "timer/agent.policy_frac": 0.03338090979078776, "timer/agent.policy_avg": 0.007944805308491605, "timer/agent.policy_min": 0.006232500076293945, "timer/agent.policy_max": 0.016294240951538086, "timer/dataset_count": 631.0, "timer/dataset_total": 0.0543363094329834, "timer/dataset_frac": 0.0001809029681606299, "timer/dataset_avg": 8.611142540884849e-05, "timer/dataset_min": 5.984306335449219e-05, "timer/dataset_max": 0.0001533031463623047, "timer/agent.train_count": 631.0, "timer/agent.train_total": 271.70907282829285, "timer/agent.train_frac": 0.904606482548002, "timer/agent.train_avg": 0.4306007493316844, "timer/agent.train_min": 0.3688187599182129, "timer/agent.train_max": 0.45382070541381836, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2620406150817871, "timer/agent.report_frac": 0.0008724170916576298, "timer/agent.report_avg": 0.2620406150817871, "timer/agent.report_min": 0.2620406150817871, "timer/agent.report_max": 0.2620406150817871, "fps": 4.2015414014301}
{"step": 1207182, "episode/length": 199.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.30000001937151, "episode/reward_rate": 0.08}
{"step": 1207379, "episode/length": 196.0, "episode/score": 13.1000000461936, "episode/sum_abs_reward": 15.700000084936619, "episode/reward_rate": 0.07106598984771574}
{"step": 1207596, "episode/length": 216.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 17.1000000461936, "episode/reward_rate": 0.06912442396313365}
{"step": 1207829, "episode/length": 232.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.03862660944206009}
{"step": 1208029, "episode/length": 199.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.500000037252903, "episode/reward_rate": 0.08}
{"step": 1208073, "episode/length": 43.0, "episode/score": 8.099999971687794, "episode/sum_abs_reward": 10.100000031292439, "episode/reward_rate": 0.22727272727272727}
{"step": 1208275, "episode/length": 201.0, "episode/score": 15.100000008940697, "episode/sum_abs_reward": 17.900000050663948, "episode/reward_rate": 0.07920792079207921}
{"step": 1208308, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.464027650894657, "train/action_min": 0.0, "train/action_std": 3.3381958584631644, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03678980469703674, "train/actor_opt_grad_steps": 603295.0, "train/actor_opt_loss": -12.857961327798906, "train/adv_mag": 0.3949220639563376, "train/adv_max": 0.3265534521591279, "train/adv_mean": 0.0010034556547203288, "train/adv_min": -0.3557286281739512, "train/adv_std": 0.04039505346407814, "train/cont_avg": 0.9953377016129032, "train/cont_loss_mean": 3.771465068276088e-05, "train/cont_loss_std": 0.001097746224009062, "train/cont_neg_acc": 0.9946236562344336, "train/cont_neg_loss": 0.00597879643486687, "train/cont_pos_acc": 0.9999841903486559, "train/cont_pos_loss": 2.0117987336820328e-05, "train/cont_pred": 0.9953320910853725, "train/cont_rate": 0.9953377016129032, "train/dyn_loss_mean": 5.971746221665414, "train/dyn_loss_std": 8.999470356971987, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9239374293435004, "train/extr_critic_critic_opt_grad_steps": 603295.0, "train/extr_critic_critic_opt_loss": 15055.19148500504, "train/extr_critic_mag": 12.587758602634553, "train/extr_critic_max": 12.587758602634553, "train/extr_critic_mean": 3.705028253216897, "train/extr_critic_min": -0.36700235066875336, "train/extr_critic_std": 3.035731646322435, "train/extr_return_normed_mag": 1.374037548418968, "train/extr_return_normed_max": 1.374037548418968, "train/extr_return_normed_mean": 0.38603995932686713, "train/extr_return_normed_min": -0.06725157037257187, "train/extr_return_normed_std": 0.31448431673549837, "train/extr_return_rate": 0.8387118212638363, "train/extr_return_raw_mag": 13.323394283171623, "train/extr_return_raw_max": 13.323394283171623, "train/extr_return_raw_mean": 3.7147710823243663, "train/extr_return_raw_min": -0.693013648832998, "train/extr_return_raw_std": 3.0586807266358407, "train/extr_reward_mag": 1.0808388225493892, "train/extr_reward_max": 1.0808388225493892, "train/extr_reward_mean": 0.06096972513102716, "train/extr_reward_min": -0.617281929139168, "train/extr_reward_std": 0.23763491189287556, "train/image_loss_mean": 3.6097917441398866, "train/image_loss_std": 9.298250598292197, "train/model_loss_mean": 7.255539240375642, "train/model_loss_std": 13.435898596240628, "train/model_opt_grad_norm": 19.608081694572203, "train/model_opt_grad_steps": 602799.0, "train/model_opt_loss": 18138.84806577621, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.714935729580541, "train/policy_entropy_max": 2.714935729580541, "train/policy_entropy_mean": 0.44962694712223544, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6562282774717577, "train/policy_logprob_mag": 7.438384302200809, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4493203475590675, "train/policy_logprob_min": -7.438384302200809, "train/policy_logprob_std": 1.065227033630494, "train/policy_randomness_mag": 0.9582531730974874, "train/policy_randomness_max": 0.9582531730974874, "train/policy_randomness_mean": 0.15869858356252795, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2316197832265208, "train/post_ent_mag": 55.87084179539834, "train/post_ent_max": 55.87084179539834, "train/post_ent_mean": 40.26123348359139, "train/post_ent_min": 19.96446495671426, "train/post_ent_std": 5.906282209580945, "train/prior_ent_mag": 76.75805774811775, "train/prior_ent_max": 76.75805774811775, "train/prior_ent_mean": 46.233189182896766, "train/prior_ent_min": 28.063917129270493, "train/prior_ent_std": 7.930129320390763, "train/rep_loss_mean": 5.971746221665414, "train/rep_loss_std": 8.999470356971987, "train/reward_avg": 0.04901556147923393, "train/reward_loss_mean": 0.06266212926035927, "train/reward_loss_std": 0.22638669201443273, "train/reward_max_data": 1.0338709758174034, "train/reward_max_pred": 1.0293642282485962, "train/reward_neg_acc": 0.9927822860979265, "train/reward_neg_loss": 0.025493781307652112, "train/reward_pos_acc": 0.9889267077369075, "train/reward_pos_loss": 0.7269588122444768, "train/reward_pred": 0.04865592363620958, "train/reward_rate": 0.05309664818548387, "stats/sum_log_reward": 12.52857153756278, "stats/max_log_achievement_collect_coal": 1.1428571428571428, "stats/max_log_achievement_collect_drink": 2.2857142857142856, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.4285714285714284, "stats/max_log_achievement_collect_stone": 10.857142857142858, "stats/max_log_achievement_collect_wood": 11.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.7142857142857142, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.7142857142857143, "stats/max_log_achievement_make_stone_sword": 1.1428571428571428, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.2857142857142858, "stats/max_log_achievement_place_plant": 2.142857142857143, "stats/max_log_achievement_place_stone": 1.8571428571428572, "stats/max_log_achievement_place_table": 2.5714285714285716, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.37884396740368437, "replay/size": 1000000.0, "replay/inserts": 1247.0, "replay/samples": 9968.0, "replay/insert_wait_avg": 3.400380456552758e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3689694396948164e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 302.64847803115845, "timer/env.step_count": 1247.0, "timer/env.step_total": 20.487335920333862, "timer/env.step_frac": 0.06769350387489687, "timer/env.step_avg": 0.016429299053996683, "timer/env.step_min": 0.002846956253051758, "timer/env.step_max": 1.9588639736175537, "timer/replay.add_count": 1247.0, "timer/replay.add_total": 0.2707827091217041, "timer/replay.add_frac": 0.0008947102952020341, "timer/replay.add_avg": 0.00021714732086744516, "timer/replay.add_min": 7.271766662597656e-05, "timer/replay.add_max": 0.0008230209350585938, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023418188095092773, "timer/logger.write_frac": 7.737751812742244e-05, "timer/logger.write_avg": 0.023418188095092773, "timer/logger.write_min": 0.023418188095092773, "timer/logger.write_max": 0.023418188095092773, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00044345855712890625, "timer/checkpoint.save_frac": 1.4652594984576498e-06, "timer/checkpoint.save_avg": 0.00044345855712890625, "timer/checkpoint.save_min": 0.00044345855712890625, "timer/checkpoint.save_max": 0.00044345855712890625, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4837749004364014, "timer/agent.save_frac": 0.004902634601333243, "timer/agent.save_avg": 1.4837749004364014, "timer/agent.save_min": 1.4837749004364014, "timer/agent.save_max": 1.4837749004364014, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.152557373046875e-05, "timer/replay.save_frac": 2.3633217717058866e-07, "timer/replay.save_avg": 7.152557373046875e-05, "timer/replay.save_min": 7.152557373046875e-05, "timer/replay.save_max": 7.152557373046875e-05, "timer/agent.policy_count": 1247.0, "timer/agent.policy_total": 13.810935974121094, "timer/agent.policy_frac": 0.04563358806218488, "timer/agent.policy_avg": 0.011075329570265512, "timer/agent.policy_min": 0.006063699722290039, "timer/agent.policy_max": 2.3832991123199463, "timer/dataset_count": 623.0, "timer/dataset_total": 0.05359387397766113, "timer/dataset_frac": 0.00017708291257999818, "timer/dataset_avg": 8.602547989993761e-05, "timer/dataset_min": 6.175041198730469e-05, "timer/dataset_max": 0.00015687942504882812, "timer/agent.train_count": 623.0, "timer/agent.train_total": 267.38726449012756, "timer/agent.train_frac": 0.8834911915948883, "timer/agent.train_avg": 0.42919304091513255, "timer/agent.train_min": 0.3790764808654785, "timer/agent.train_max": 0.508716344833374, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22193384170532227, "timer/agent.report_frac": 0.0007333056592555327, "timer/agent.report_avg": 0.22193384170532227, "timer/agent.report_min": 0.22193384170532227, "timer/agent.report_max": 0.22193384170532227, "fps": 4.1202027158510575}
{"step": 1208341, "episode/length": 65.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 6.0999999940395355, "episode/reward_rate": 0.09090909090909091}
{"step": 1208521, "episode/length": 179.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.06666666666666667}
{"step": 1208722, "episode/length": 200.0, "episode/score": 11.100000016391277, "episode/sum_abs_reward": 13.1000000461936, "episode/reward_rate": 0.05970149253731343}
{"step": 1208983, "episode/length": 260.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.05747126436781609}
{"step": 1209244, "episode/length": 260.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.30000001937151, "episode/reward_rate": 0.06130268199233716}
{"step": 1209405, "episode/length": 160.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.500000022351742, "episode/reward_rate": 0.055900621118012424}
{"step": 1209573, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.403962634858631, "train/action_min": 0.0, "train/action_std": 3.260214347687979, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03675606089925009, "train/actor_opt_grad_steps": 603920.0, "train/actor_opt_loss": -11.114819813224058, "train/adv_mag": 0.3964976474406227, "train/adv_max": 0.30210408568382263, "train/adv_mean": 0.002143994159442151, "train/adv_min": -0.37122852106889087, "train/adv_std": 0.04195005748243559, "train/cont_avg": 0.9951016865079365, "train/cont_loss_mean": 0.00022095462061171264, "train/cont_loss_std": 0.006879991933673741, "train/cont_neg_acc": 0.996031746031746, "train/cont_neg_loss": 0.021103512184301402, "train/cont_pos_acc": 0.9999687804116143, "train/cont_pos_loss": 0.0001392293553525604, "train/cont_pred": 0.9950733260502891, "train/cont_rate": 0.9951016865079365, "train/dyn_loss_mean": 5.72249698638916, "train/dyn_loss_std": 8.938597754826622, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8958505458301969, "train/extr_critic_critic_opt_grad_steps": 603920.0, "train/extr_critic_critic_opt_loss": 15359.619326636905, "train/extr_critic_mag": 12.513480867658343, "train/extr_critic_max": 12.513480867658343, "train/extr_critic_mean": 3.73363262887985, "train/extr_critic_min": -0.36130985381111264, "train/extr_critic_std": 3.034346728097825, "train/extr_return_normed_mag": 1.3749900242638966, "train/extr_return_normed_max": 1.3749900242638966, "train/extr_return_normed_mean": 0.3930379336788541, "train/extr_return_normed_min": -0.0625761193888528, "train/extr_return_normed_std": 0.3163155951197185, "train/extr_return_rate": 0.8405444413896591, "train/extr_return_raw_mag": 13.268017859685989, "train/extr_return_raw_max": 13.268017859685989, "train/extr_return_raw_mean": 3.754421169795687, "train/extr_return_raw_min": -0.6610674077556247, "train/extr_return_raw_std": 3.065217233839489, "train/extr_reward_mag": 1.081032189111861, "train/extr_reward_max": 1.081032189111861, "train/extr_reward_mean": 0.06590693520884665, "train/extr_reward_min": -0.6051525804731581, "train/extr_reward_std": 0.24643434158393315, "train/image_loss_mean": 3.5192587640550403, "train/image_loss_std": 8.652224578554668, "train/model_loss_mean": 7.0169709372142, "train/model_loss_std": 12.74499909839933, "train/model_opt_grad_norm": 19.86976673489525, "train/model_opt_grad_steps": 603423.2857142857, "train/model_opt_loss": 18954.655366443454, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2698.4126984126983, "train/policy_entropy_mag": 2.7282719877031116, "train/policy_entropy_max": 2.7282719877031116, "train/policy_entropy_mean": 0.43215264072493903, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.641579598661453, "train/policy_logprob_mag": 7.438384268018934, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.431712292253025, "train/policy_logprob_min": -7.438384268018934, "train/policy_logprob_std": 1.0523338421942696, "train/policy_randomness_mag": 0.9629602867459494, "train/policy_randomness_max": 0.9629602867459494, "train/policy_randomness_mean": 0.15253091792738627, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22644944489002228, "train/post_ent_mag": 55.98626491001674, "train/post_ent_max": 55.98626491001674, "train/post_ent_mean": 40.263524918329146, "train/post_ent_min": 19.709902415199885, "train/post_ent_std": 5.929274044339619, "train/prior_ent_mag": 76.73955971854073, "train/prior_ent_max": 76.73955971854073, "train/prior_ent_mean": 45.96780740647089, "train/prior_ent_min": 27.532728467668807, "train/prior_ent_std": 7.995345304882716, "train/rep_loss_mean": 5.72249698638916, "train/rep_loss_std": 8.938597754826622, "train/reward_avg": 0.05055183503362867, "train/reward_loss_mean": 0.06399302296931782, "train/reward_loss_std": 0.22615034357895927, "train/reward_max_data": 1.0349206432463631, "train/reward_max_pred": 1.0340345473516555, "train/reward_neg_acc": 0.9920594398937528, "train/reward_neg_loss": 0.02569158153519744, "train/reward_pos_acc": 0.9878831713918655, "train/reward_pos_loss": 0.7272682767065745, "train/reward_pred": 0.050144595463597584, "train/reward_rate": 0.054718501984126984, "stats/sum_log_reward": 10.600000301996866, "stats/max_log_achievement_collect_coal": 1.6666666666666667, "stats/max_log_achievement_collect_drink": 1.8333333333333333, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 13.333333333333334, "stats/max_log_achievement_collect_wood": 11.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.3333333333333333, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 1.3333333333333333, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 3.8333333333333335, "stats/max_log_achievement_place_table": 3.1666666666666665, "stats/max_log_achievement_wake_up": 0.8333333333333334, "stats/mean_log_entropy": 0.42077116668224335, "replay/size": 1000000.0, "replay/inserts": 1265.0, "replay/samples": 10128.0, "replay/insert_wait_avg": 3.259078316066576e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3752382890119748e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0952980518341, "timer/env.step_count": 1265.0, "timer/env.step_total": 17.284416675567627, "timer/env.step_frac": 0.05759642616120619, "timer/env.step_avg": 0.013663570494519862, "timer/env.step_min": 0.003037691116333008, "timer/env.step_max": 1.5884490013122559, "timer/replay.add_count": 1265.0, "timer/replay.add_total": 0.2490394115447998, "timer/replay.add_frac": 0.0008298677558812813, "timer/replay.add_avg": 0.00019686910003541486, "timer/replay.add_min": 7.009506225585938e-05, "timer/replay.add_max": 0.0007040500640869141, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03557848930358887, "timer/logger.write_frac": 0.00011855730341181005, "timer/logger.write_avg": 0.03557848930358887, "timer/logger.write_min": 0.03557848930358887, "timer/logger.write_max": 0.03557848930358887, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1265.0, "timer/agent.policy_total": 10.006510019302368, "timer/agent.policy_frac": 0.033344441196722745, "timer/agent.policy_avg": 0.007910284600239027, "timer/agent.policy_min": 0.005967617034912109, "timer/agent.policy_max": 0.015264749526977539, "timer/dataset_count": 633.0, "timer/dataset_total": 0.053263187408447266, "timer/dataset_frac": 0.00017748757729368808, "timer/dataset_avg": 8.414405593751543e-05, "timer/dataset_min": 5.936622619628906e-05, "timer/dataset_max": 0.0001461505889892578, "timer/agent.train_count": 633.0, "timer/agent.train_total": 271.8149857521057, "timer/agent.train_frac": 0.9057622279211996, "timer/agent.train_avg": 0.42940756042986683, "timer/agent.train_min": 0.3678913116455078, "timer/agent.train_max": 0.4529416561126709, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.26029491424560547, "timer/agent.report_frac": 0.0008673741839188893, "timer/agent.report_avg": 0.26029491424560547, "timer/agent.report_min": 0.26029491424560547, "timer/agent.report_max": 0.26029491424560547, "fps": 4.215247468711031}
{"step": 1209888, "episode/length": 482.0, "episode/score": 15.099999964237213, "episode/sum_abs_reward": 18.30000001192093, "episode/reward_rate": 0.033126293995859216}
{"step": 1210104, "episode/length": 215.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.06944444444444445}
{"step": 1210165, "episode/length": 60.0, "episode/score": 4.100000001490116, "episode/sum_abs_reward": 6.100000001490116, "episode/reward_rate": 0.09836065573770492}
{"step": 1210383, "episode/length": 217.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.06880733944954129}
{"step": 1210644, "episode/length": 260.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.05747126436781609}
{"step": 1210811, "episode/length": 166.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.08982035928143713}
{"step": 1210833, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.446811252170139, "train/action_min": 0.0, "train/action_std": 3.336588496253604, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.035871876758478936, "train/actor_opt_grad_steps": 604550.0, "train/actor_opt_loss": -11.06978780693478, "train/adv_mag": 0.41114086338451933, "train/adv_max": 0.31546469907911995, "train/adv_mean": 0.0015879499680724824, "train/adv_min": -0.37437671635832104, "train/adv_std": 0.041089378179065765, "train/cont_avg": 0.9951171875, "train/cont_loss_mean": 1.4403627537556003e-05, "train/cont_loss_std": 0.0004252477190883989, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0002963879387448916, "train/cont_pos_acc": 0.9999999867545234, "train/cont_pos_loss": 1.3326667174155882e-05, "train/cont_pred": 0.9951058843779186, "train/cont_rate": 0.9951171875, "train/dyn_loss_mean": 5.990272847432939, "train/dyn_loss_std": 9.036615371704102, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9341368173796033, "train/extr_critic_critic_opt_grad_steps": 604550.0, "train/extr_critic_critic_opt_loss": 15343.691576760913, "train/extr_critic_mag": 12.661521396939717, "train/extr_critic_max": 12.661521396939717, "train/extr_critic_mean": 3.7085401444208053, "train/extr_critic_min": -0.34967083401150173, "train/extr_critic_std": 3.0112918937017046, "train/extr_return_normed_mag": 1.3833691373703971, "train/extr_return_normed_max": 1.3833691373703971, "train/extr_return_normed_mean": 0.38687610366041697, "train/extr_return_normed_min": -0.06397976004888141, "train/extr_return_normed_std": 0.3115952658274817, "train/extr_return_rate": 0.8413277533319261, "train/extr_return_raw_mag": 13.428899431985522, "train/extr_return_raw_max": 13.428899431985522, "train/extr_return_raw_mean": 3.7240060019114662, "train/extr_return_raw_min": -0.6665051338218507, "train/extr_return_raw_std": 3.0346886165558344, "train/extr_reward_mag": 1.083444144990709, "train/extr_reward_max": 1.083444144990709, "train/extr_reward_mean": 0.06367465989693763, "train/extr_reward_min": -0.5889400546512906, "train/extr_reward_std": 0.2420979267548001, "train/image_loss_mean": 3.5050256365821477, "train/image_loss_std": 8.885464236849831, "train/model_loss_mean": 7.163121352120052, "train/model_loss_std": 13.060485945807564, "train/model_opt_grad_norm": 21.485677507188583, "train/model_opt_grad_steps": 604052.9523809524, "train/model_opt_loss": 19264.391260540673, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2698.4126984126983, "train/policy_entropy_mag": 2.7025860718318393, "train/policy_entropy_max": 2.7025860718318393, "train/policy_entropy_mean": 0.45061997619886246, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6641756551606315, "train/policy_logprob_mag": 7.438384283156622, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4520157206626165, "train/policy_logprob_min": -7.438384283156622, "train/policy_logprob_std": 1.0709338859906272, "train/policy_randomness_mag": 0.9538942859286353, "train/policy_randomness_max": 0.9538942859286353, "train/policy_randomness_mean": 0.1590490783490832, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23442485881230188, "train/post_ent_mag": 55.44162441435314, "train/post_ent_max": 55.44162441435314, "train/post_ent_mean": 40.03649617755224, "train/post_ent_min": 19.91029091486855, "train/post_ent_std": 5.813436818501306, "train/prior_ent_mag": 76.83467852880084, "train/prior_ent_max": 76.83467852880084, "train/prior_ent_mean": 46.00191188993908, "train/prior_ent_min": 27.517085605197483, "train/prior_ent_std": 7.924280938648042, "train/rep_loss_mean": 5.990272847432939, "train/rep_loss_std": 9.036615371704102, "train/reward_avg": 0.04997984849153057, "train/reward_loss_mean": 0.06391764538628715, "train/reward_loss_std": 0.22513948688431393, "train/reward_max_data": 1.0349206432463631, "train/reward_max_pred": 1.0350577414981903, "train/reward_neg_acc": 0.9925792756534758, "train/reward_neg_loss": 0.026245071981397885, "train/reward_pos_acc": 0.9906306456005762, "train/reward_pos_loss": 0.7221395581487625, "train/reward_pred": 0.049632078864508204, "train/reward_rate": 0.05431547619047619, "stats/sum_log_reward": 12.600000143051147, "stats/max_log_achievement_collect_coal": 1.5, "stats/max_log_achievement_collect_drink": 3.6666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 14.5, "stats/max_log_achievement_collect_wood": 10.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 1.1666666666666667, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.8333333333333333, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_stone": 3.1666666666666665, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.5281144306063652, "replay/size": 1000000.0, "replay/inserts": 1260.0, "replay/samples": 10080.0, "replay/insert_wait_avg": 3.378921084933811e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3750223886399042e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.16226172447205, "timer/env.step_count": 1260.0, "timer/env.step_total": 17.584232568740845, "timer/env.step_frac": 0.05858242294589964, "timer/env.step_avg": 0.013955740133921306, "timer/env.step_min": 0.002895832061767578, "timer/env.step_max": 1.652224063873291, "timer/replay.add_count": 1260.0, "timer/replay.add_total": 0.2619283199310303, "timer/replay.add_frac": 0.0008726224223732101, "timer/replay.add_avg": 0.00020787961899288118, "timer/replay.add_min": 7.605552673339844e-05, "timer/replay.add_max": 0.004641294479370117, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021971464157104492, "timer/logger.write_frac": 7.319862274116511e-05, "timer/logger.write_avg": 0.021971464157104492, "timer/logger.write_min": 0.021971464157104492, "timer/logger.write_max": 0.021971464157104492, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1260.0, "timer/agent.policy_total": 9.986784934997559, "timer/agent.policy_frac": 0.03327128759498997, "timer/agent.policy_avg": 0.007926019789680602, "timer/agent.policy_min": 0.0058557987213134766, "timer/agent.policy_max": 0.014643192291259766, "timer/dataset_count": 630.0, "timer/dataset_total": 0.05379462242126465, "timer/dataset_frac": 0.00017921847374219332, "timer/dataset_avg": 8.538828955756293e-05, "timer/dataset_min": 6.270408630371094e-05, "timer/dataset_max": 0.00017213821411132812, "timer/agent.train_count": 630.0, "timer/agent.train_total": 271.6013777256012, "timer/agent.train_frac": 0.9048485181488679, "timer/agent.train_avg": 0.43111329797714476, "timer/agent.train_min": 0.3763875961303711, "timer/agent.train_max": 0.4539058208465576, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2556915283203125, "timer/agent.report_frac": 0.0008518443552874725, "timer/agent.report_avg": 0.2556915283203125, "timer/agent.report_min": 0.2556915283203125, "timer/agent.report_max": 0.2556915283203125, "fps": 4.197668081161377}
{"step": 1211052, "episode/length": 240.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.058091286307053944}
{"step": 1211273, "episode/length": 220.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.06334841628959276}
{"step": 1211493, "episode/length": 219.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.06363636363636363}
{"step": 1211708, "episode/length": 214.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.04186046511627907}
{"step": 1211877, "episode/length": 168.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.0650887573964497}
{"step": 1212097, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.538650754898313, "train/action_min": 0.0, "train/action_std": 3.4050518104008267, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03672685616073154, "train/actor_opt_grad_steps": 605180.0, "train/actor_opt_loss": -10.633550852064102, "train/adv_mag": 0.36960484205730376, "train/adv_max": 0.32642913716179983, "train/adv_mean": 0.0021634867544413454, "train/adv_min": -0.32510337541027673, "train/adv_std": 0.04121643387609058, "train/cont_avg": 0.9951016865079365, "train/cont_loss_mean": 0.00015632830010747602, "train/cont_loss_std": 0.004969390447158838, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.000586597005186324, "train/cont_pos_acc": 0.9999687946031964, "train/cont_pos_loss": 0.00015526364728882995, "train/cont_pred": 0.9950676475252423, "train/cont_rate": 0.9951016865079365, "train/dyn_loss_mean": 5.882877894810268, "train/dyn_loss_std": 8.931422415233794, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8479991649824475, "train/extr_critic_critic_opt_grad_steps": 605180.0, "train/extr_critic_critic_opt_loss": 15118.078125, "train/extr_critic_mag": 12.573825518290201, "train/extr_critic_max": 12.573825518290201, "train/extr_critic_mean": 3.762961058389573, "train/extr_critic_min": -0.36907819339207243, "train/extr_critic_std": 3.044160036813645, "train/extr_return_normed_mag": 1.3927575974237352, "train/extr_return_normed_max": 1.3927575974237352, "train/extr_return_normed_mean": 0.39580617301047794, "train/extr_return_normed_min": -0.06680122650568447, "train/extr_return_normed_std": 0.31774328412517666, "train/extr_return_rate": 0.8276889532331436, "train/extr_return_raw_mag": 13.413411155579583, "train/extr_return_raw_max": 13.413411155579583, "train/extr_return_raw_mean": 3.783863726116362, "train/extr_return_raw_min": -0.6843177520093464, "train/extr_return_raw_std": 3.0693641200898187, "train/extr_reward_mag": 1.0847734231797477, "train/extr_reward_max": 1.0847734231797477, "train/extr_reward_mean": 0.06378917124063249, "train/extr_reward_min": -0.5834096953982398, "train/extr_reward_std": 0.2421288218290087, "train/image_loss_mean": 3.637688810863192, "train/image_loss_std": 8.72730895451137, "train/model_loss_mean": 7.231614075009785, "train/model_loss_std": 12.816127625722734, "train/model_opt_grad_norm": 19.96017899588933, "train/model_opt_grad_steps": 604682.0, "train/model_opt_loss": 18079.035311259922, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7332013599456304, "train/policy_entropy_max": 2.7332013599456304, "train/policy_entropy_mean": 0.47800601001769777, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6920349441823506, "train/policy_logprob_mag": 7.438384252881247, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4780325662522089, "train/policy_logprob_min": -7.438384252881247, "train/policy_logprob_std": 1.0866858590216864, "train/policy_randomness_mag": 0.9647001397042048, "train/policy_randomness_max": 0.9647001397042048, "train/policy_randomness_mean": 0.16871514502498838, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2442579669138742, "train/post_ent_mag": 55.70688665480841, "train/post_ent_max": 55.70688665480841, "train/post_ent_mean": 40.12334012228345, "train/post_ent_min": 20.021074385870072, "train/post_ent_std": 5.904106102292499, "train/prior_ent_mag": 76.83758871895927, "train/prior_ent_max": 76.83758871895927, "train/prior_ent_mean": 45.98016787332202, "train/prior_ent_min": 27.66213650173611, "train/prior_ent_std": 8.007813552069285, "train/rep_loss_mean": 5.882877894810268, "train/rep_loss_std": 8.931422415233794, "train/reward_avg": 0.050189111263505996, "train/reward_loss_mean": 0.06404227408624831, "train/reward_loss_std": 0.22238729444761124, "train/reward_max_data": 1.0301587373491317, "train/reward_max_pred": 1.0293028922308058, "train/reward_neg_acc": 0.9928471266277252, "train/reward_neg_loss": 0.026821407726004956, "train/reward_pos_acc": 0.9927435347012111, "train/reward_pos_loss": 0.7094342386911786, "train/reward_pred": 0.050003437236661, "train/reward_rate": 0.05454799107142857, "stats/sum_log_reward": 11.500000381469727, "stats/max_log_achievement_collect_coal": 0.2, "stats/max_log_achievement_collect_drink": 1.4, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.4, "stats/max_log_achievement_collect_stone": 12.8, "stats/max_log_achievement_collect_wood": 13.0, "stats/max_log_achievement_defeat_skeleton": 0.2, "stats/max_log_achievement_defeat_zombie": 1.4, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.2, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8, "stats/max_log_achievement_place_furnace": 1.6, "stats/max_log_achievement_place_plant": 1.2, "stats/max_log_achievement_place_stone": 3.2, "stats/max_log_achievement_place_table": 3.6, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3562430441379547, "replay/size": 1000000.0, "replay/inserts": 1264.0, "replay/samples": 10112.0, "replay/insert_wait_avg": 3.4561262855046912e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.371425541141365e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.4287919998169, "timer/env.step_count": 1264.0, "timer/env.step_total": 16.729658603668213, "timer/env.step_frac": 0.055685936398793656, "timer/env.step_avg": 0.013235489401636245, "timer/env.step_min": 0.0029726028442382812, "timer/env.step_max": 1.9406564235687256, "timer/replay.add_count": 1264.0, "timer/replay.add_total": 0.25377535820007324, "timer/replay.add_frac": 0.000844710510303646, "timer/replay.add_avg": 0.00020077164414562758, "timer/replay.add_min": 7.605552673339844e-05, "timer/replay.add_max": 0.0005953311920166016, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02203226089477539, "timer/logger.write_frac": 7.333604994420382e-05, "timer/logger.write_avg": 0.02203226089477539, "timer/logger.write_min": 0.02203226089477539, "timer/logger.write_max": 0.02203226089477539, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1264.0, "timer/agent.policy_total": 10.047724723815918, "timer/agent.policy_frac": 0.033444613137551885, "timer/agent.policy_avg": 0.00794914930681639, "timer/agent.policy_min": 0.006120920181274414, "timer/agent.policy_max": 0.01451873779296875, "timer/dataset_count": 632.0, "timer/dataset_total": 0.054731130599975586, "timer/dataset_frac": 0.00018217671560590286, "timer/dataset_avg": 8.659989018983478e-05, "timer/dataset_min": 6.365776062011719e-05, "timer/dataset_max": 0.0001666545867919922, "timer/agent.train_count": 632.0, "timer/agent.train_total": 272.6650140285492, "timer/agent.train_frac": 0.907586161145019, "timer/agent.train_avg": 0.431431984222388, "timer/agent.train_min": 0.3683052062988281, "timer/agent.train_max": 0.4544355869293213, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2600579261779785, "timer/agent.report_frac": 0.0008656225138971934, "timer/agent.report_avg": 0.2600579261779785, "timer/agent.report_min": 0.2600579261779785, "timer/agent.report_max": 0.2600579261779785, "fps": 4.207234068497456}
{"step": 1212130, "episode/length": 252.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.05533596837944664}
{"step": 1212312, "episode/length": 181.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.07692307692307693}
{"step": 1212508, "episode/length": 195.0, "episode/score": 8.099999971687794, "episode/sum_abs_reward": 10.100000031292439, "episode/reward_rate": 0.05102040816326531}
{"step": 1212804, "episode/length": 295.0, "episode/score": 16.099999986588955, "episode/sum_abs_reward": 18.900000028312206, "episode/reward_rate": 0.057432432432432436}
{"step": 1213004, "episode/length": 199.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.300000064074993, "episode/reward_rate": 0.07}
{"step": 1213245, "episode/length": 240.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.06224066390041494}
{"step": 1213343, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.533753410218254, "train/action_min": 0.0, "train/action_std": 3.4081901179419622, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03621122518938685, "train/actor_opt_grad_steps": 605810.0, "train/actor_opt_loss": -10.732197642799408, "train/adv_mag": 0.39638711228257134, "train/adv_max": 0.3089457338764554, "train/adv_mean": 0.0015383848697219657, "train/adv_min": -0.3652291420906309, "train/adv_std": 0.040559151342936924, "train/cont_avg": 0.995148189484127, "train/cont_loss_mean": 7.855893082635357e-05, "train/cont_loss_std": 0.0024551864499942314, "train/cont_neg_acc": 0.9950076822311648, "train/cont_neg_loss": 0.011636260128967615, "train/cont_pos_acc": 0.9999999848623125, "train/cont_pos_loss": 9.35266267685646e-06, "train/cont_pred": 0.9951649894790043, "train/cont_rate": 0.995148189484127, "train/dyn_loss_mean": 5.86912339074271, "train/dyn_loss_std": 9.031950549473839, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8954478492812504, "train/extr_critic_critic_opt_grad_steps": 605810.0, "train/extr_critic_critic_opt_loss": 15164.582139756945, "train/extr_critic_mag": 12.465998225741917, "train/extr_critic_max": 12.465998225741917, "train/extr_critic_mean": 3.6554219609215144, "train/extr_critic_min": -0.34053971464671784, "train/extr_critic_std": 3.0427898792993453, "train/extr_return_normed_mag": 1.3617542906413003, "train/extr_return_normed_max": 1.3617542906413003, "train/extr_return_normed_mean": 0.3843111343800075, "train/extr_return_normed_min": -0.06698137982970193, "train/extr_return_normed_std": 0.3186285164621141, "train/extr_return_rate": 0.8350374537800985, "train/extr_return_raw_mag": 13.070325578962054, "train/extr_return_raw_max": 13.070325578962054, "train/extr_return_raw_mean": 3.6702153947618275, "train/extr_return_raw_min": -0.6700240780436804, "train/extr_return_raw_std": 3.064515533901396, "train/extr_reward_mag": 1.0870826320042686, "train/extr_reward_max": 1.0870826320042686, "train/extr_reward_mean": 0.060476452703513796, "train/extr_reward_min": -0.5801283291407994, "train/extr_reward_std": 0.23695663398220426, "train/image_loss_mean": 3.5634019904666476, "train/image_loss_std": 8.71309841246832, "train/model_loss_mean": 7.148901046268524, "train/model_loss_std": 12.836365154811315, "train/model_opt_grad_norm": 20.968226493351043, "train/model_opt_grad_steps": 605311.5555555555, "train/model_opt_loss": 18131.824947296627, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2539.6825396825398, "train/policy_entropy_mag": 2.7290825541057284, "train/policy_entropy_max": 2.7290825541057284, "train/policy_entropy_mean": 0.4719048918239654, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6882911206237854, "train/policy_logprob_mag": 7.438384245312403, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4713970001727816, "train/policy_logprob_min": -7.438384245312403, "train/policy_logprob_std": 1.0849904512602186, "train/policy_randomness_mag": 0.9632463795798165, "train/policy_randomness_max": 0.9632463795798165, "train/policy_randomness_mean": 0.1665617170787993, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24293655890320975, "train/post_ent_mag": 55.803483145577566, "train/post_ent_max": 55.803483145577566, "train/post_ent_mean": 40.302384270562065, "train/post_ent_min": 19.46380058167473, "train/post_ent_std": 5.86451446442377, "train/prior_ent_mag": 76.88312494187127, "train/prior_ent_max": 76.88312494187127, "train/prior_ent_mean": 46.089398278130425, "train/prior_ent_min": 27.580127776615203, "train/prior_ent_std": 7.989487905350942, "train/rep_loss_mean": 5.86912339074271, "train/rep_loss_std": 9.031950549473839, "train/reward_avg": 0.04818483359283871, "train/reward_loss_mean": 0.06394646139371962, "train/reward_loss_std": 0.22855504661325424, "train/reward_max_data": 1.0428571530750819, "train/reward_max_pred": 1.042499644415719, "train/reward_neg_acc": 0.9919181106582521, "train/reward_neg_loss": 0.027268975219201474, "train/reward_pos_acc": 0.9891974235337878, "train/reward_pos_loss": 0.7242973872593471, "train/reward_pred": 0.0478049237576742, "train/reward_rate": 0.05259486607142857, "stats/sum_log_reward": 12.766666889190674, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 3.3333333333333335, "stats/max_log_achievement_collect_iron": 0.3333333333333333, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 16.5, "stats/max_log_achievement_collect_wood": 12.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.3333333333333333, "stats/max_log_achievement_eat_cow": 0.6666666666666666, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.1666666666666665, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 3.3333333333333335, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.44692395627498627, "replay/size": 1000000.0, "replay/inserts": 1246.0, "replay/samples": 9968.0, "replay/insert_wait_avg": 3.3372860658991585e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3791825951198132e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.19237542152405, "timer/env.step_count": 1246.0, "timer/env.step_total": 17.156013011932373, "timer/env.step_frac": 0.05715006248190763, "timer/env.step_avg": 0.013768870796093397, "timer/env.step_min": 0.002903461456298828, "timer/env.step_max": 1.734135627746582, "timer/replay.add_count": 1246.0, "timer/replay.add_total": 0.2445971965789795, "timer/replay.add_frac": 0.0008148014959924318, "timer/replay.add_avg": 0.0001963059362592131, "timer/replay.add_min": 6.937980651855469e-05, "timer/replay.add_max": 0.0005590915679931641, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.034485816955566406, "timer/logger.write_frac": 0.00011487905682861572, "timer/logger.write_avg": 0.034485816955566406, "timer/logger.write_min": 0.034485816955566406, "timer/logger.write_max": 0.034485816955566406, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003345012664794922, "timer/checkpoint.save_frac": 1.1142896817742032e-06, "timer/checkpoint.save_avg": 0.0003345012664794922, "timer/checkpoint.save_min": 0.0003345012664794922, "timer/checkpoint.save_max": 0.0003345012664794922, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2496836185455322, "timer/agent.save_frac": 0.004162942569046772, "timer/agent.save_avg": 1.2496836185455322, "timer/agent.save_min": 1.2496836185455322, "timer/agent.save_max": 1.2496836185455322, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.176399230957031e-05, "timer/replay.save_frac": 2.3906001013117264e-07, "timer/replay.save_avg": 7.176399230957031e-05, "timer/replay.save_min": 7.176399230957031e-05, "timer/replay.save_max": 7.176399230957031e-05, "timer/agent.policy_count": 1246.0, "timer/agent.policy_total": 13.929583072662354, "timer/agent.policy_frac": 0.046402188107218634, "timer/agent.policy_avg": 0.011179440668268342, "timer/agent.policy_min": 0.005915164947509766, "timer/agent.policy_max": 2.967716932296753, "timer/dataset_count": 623.0, "timer/dataset_total": 0.0534052848815918, "timer/dataset_frac": 0.00017790353537994153, "timer/dataset_avg": 8.572276867029181e-05, "timer/dataset_min": 6.127357482910156e-05, "timer/dataset_max": 0.00018930435180664062, "timer/agent.train_count": 623.0, "timer/agent.train_total": 268.11489701271057, "timer/agent.train_frac": 0.893143593791245, "timer/agent.train_avg": 0.4303609903895836, "timer/agent.train_min": 0.37679481506347656, "timer/agent.train_max": 0.45316505432128906, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.26366209983825684, "timer/agent.report_frac": 0.000878310448318442, "timer/agent.report_avg": 0.26366209983825684, "timer/agent.report_min": 0.26366209983825684, "timer/agent.report_max": 0.26366209983825684, "fps": 4.150589973079006}
{"step": 1213449, "episode/length": 203.0, "episode/score": 16.100000001490116, "episode/sum_abs_reward": 18.30000003427267, "episode/reward_rate": 0.08333333333333333}
{"step": 1213601, "episode/length": 151.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.07894736842105263}
{"step": 1213870, "episode/length": 268.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.100000016391277, "episode/reward_rate": 0.05947955390334572}
{"step": 1214030, "episode/length": 159.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.075}
{"step": 1214222, "episode/length": 191.0, "episode/score": 14.100000016391277, "episode/sum_abs_reward": 15.500000037252903, "episode/reward_rate": 0.078125}
{"step": 1214483, "episode/length": 260.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.05747126436781609}
{"step": 1214601, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.480822366381449, "train/action_min": 0.0, "train/action_std": 3.354527855676318, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03723990225366184, "train/actor_opt_grad_steps": 606440.0, "train/actor_opt_loss": -10.930225023201533, "train/adv_mag": 0.4253004015911193, "train/adv_max": 0.359300973632979, "train/adv_mean": 0.002139671414393917, "train/adv_min": -0.37447330686781144, "train/adv_std": 0.04189779627181235, "train/cont_avg": 0.9950396825396826, "train/cont_loss_mean": 5.9482052004944036e-05, "train/cont_loss_std": 0.0018827369725162469, "train/cont_neg_acc": 0.996031746031746, "train/cont_neg_loss": 0.01339191560755095, "train/cont_pos_acc": 0.9999999839162069, "train/cont_pos_loss": 6.849235906958119e-06, "train/cont_pred": 0.9950491691392566, "train/cont_rate": 0.9950396825396826, "train/dyn_loss_mean": 5.898829566107856, "train/dyn_loss_std": 8.974136246575249, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8907548539222233, "train/extr_critic_critic_opt_grad_steps": 606440.0, "train/extr_critic_critic_opt_loss": 15293.839409722223, "train/extr_critic_mag": 12.520696851942274, "train/extr_critic_max": 12.520696851942274, "train/extr_critic_mean": 3.7208691059596957, "train/extr_critic_min": -0.33729221518077546, "train/extr_critic_std": 3.0585620478978233, "train/extr_return_normed_mag": 1.3759422188713437, "train/extr_return_normed_max": 1.3759422188713437, "train/extr_return_normed_mean": 0.38990185043168446, "train/extr_return_normed_min": -0.06733781448195851, "train/extr_return_normed_std": 0.31961340989385334, "train/extr_return_rate": 0.8278026192907303, "train/extr_return_raw_mag": 13.267726671128045, "train/extr_return_raw_max": 13.267726671128045, "train/extr_return_raw_mean": 3.7415371470981174, "train/extr_return_raw_min": -0.6755451314033024, "train/extr_return_raw_std": 3.0876614290570457, "train/extr_reward_mag": 1.0865650441911485, "train/extr_reward_max": 1.0865650441911485, "train/extr_reward_mean": 0.06458673910016105, "train/extr_reward_min": -0.6152474161178346, "train/extr_reward_std": 0.24339150459993453, "train/image_loss_mean": 3.6087603417653886, "train/image_loss_std": 9.225756236485072, "train/model_loss_mean": 7.215180919283912, "train/model_loss_std": 13.363928764585465, "train/model_opt_grad_norm": 20.741672454341764, "train/model_opt_grad_steps": 605940.6507936508, "train/model_opt_loss": 15078.711208767361, "train/model_opt_model_opt_grad_overflow": 0.015873015873015872, "train/model_opt_model_opt_grad_scale": 2063.4920634920636, "train/policy_entropy_mag": 2.7325985431671143, "train/policy_entropy_max": 2.7325985431671143, "train/policy_entropy_mean": 0.4448823039493864, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6605999739397139, "train/policy_logprob_mag": 7.438384199899341, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4456805492204333, "train/policy_logprob_min": -7.438384199899341, "train/policy_logprob_std": 1.067335371933286, "train/policy_randomness_mag": 0.964487370044466, "train/policy_randomness_max": 0.964487370044466, "train/policy_randomness_mean": 0.1570239311882428, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2331628023631989, "train/post_ent_mag": 55.842475346156526, "train/post_ent_max": 55.842475346156526, "train/post_ent_mean": 40.15663752480159, "train/post_ent_min": 19.77459604777987, "train/post_ent_std": 5.868671659439329, "train/prior_ent_mag": 76.86058080764045, "train/prior_ent_max": 76.86058080764045, "train/prior_ent_mean": 46.02237434992715, "train/prior_ent_min": 27.232488389999148, "train/prior_ent_std": 7.9862655079554, "train/rep_loss_mean": 5.898829566107856, "train/rep_loss_std": 8.974136246575249, "train/reward_avg": 0.05013020803767537, "train/reward_loss_mean": 0.0670633680881962, "train/reward_loss_std": 0.24451452375404417, "train/reward_max_data": 1.0365079452121069, "train/reward_max_pred": 1.035614528353252, "train/reward_neg_acc": 0.9924784491932581, "train/reward_neg_loss": 0.02808045850150169, "train/reward_pos_acc": 0.985560659378294, "train/reward_pos_loss": 0.7393367422951592, "train/reward_pred": 0.04944048544007634, "train/reward_rate": 0.054671999007936505, "stats/sum_log_reward": 13.599999904632568, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 1.8333333333333333, "stats/max_log_achievement_collect_iron": 0.3333333333333333, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 15.166666666666666, "stats/max_log_achievement_collect_wood": 14.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.6666666666666667, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_stone_sword": 1.1666666666666667, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 2.8333333333333335, "stats/max_log_achievement_place_table": 3.8333333333333335, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.4184667368729909, "replay/size": 1000000.0, "replay/inserts": 1258.0, "replay/samples": 10064.0, "replay/insert_wait_avg": 3.389031026624913e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3889114125165347e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0179135799408, "timer/env.step_count": 1258.0, "timer/env.step_total": 17.24546241760254, "timer/env.step_frac": 0.05748144239729681, "timer/env.step_avg": 0.013708634672180078, "timer/env.step_min": 0.002960205078125, "timer/env.step_max": 1.6094257831573486, "timer/replay.add_count": 1258.0, "timer/replay.add_total": 0.25052642822265625, "timer/replay.add_frac": 0.000835038232328426, "timer/replay.add_avg": 0.00019914660431053757, "timer/replay.add_min": 7.152557373046875e-05, "timer/replay.add_max": 0.0006144046783447266, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03365063667297363, "timer/logger.write_frac": 0.00011216209149460439, "timer/logger.write_avg": 0.03365063667297363, "timer/logger.write_min": 0.03365063667297363, "timer/logger.write_max": 0.03365063667297363, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1258.0, "timer/agent.policy_total": 9.945675611495972, "timer/agent.policy_frac": 0.03315027257146068, "timer/agent.policy_avg": 0.007905942457468975, "timer/agent.policy_min": 0.006140470504760742, "timer/agent.policy_max": 0.015472412109375, "timer/dataset_count": 629.0, "timer/dataset_total": 0.054419755935668945, "timer/dataset_frac": 0.00018138835540288035, "timer/dataset_avg": 8.6517894969267e-05, "timer/dataset_min": 6.198883056640625e-05, "timer/dataset_max": 0.00016260147094726562, "timer/agent.train_count": 629.0, "timer/agent.train_total": 271.82600378990173, "timer/agent.train_frac": 0.9060325783429354, "timer/agent.train_avg": 0.4321558088869662, "timer/agent.train_min": 0.36907458305358887, "timer/agent.train_max": 0.45391058921813965, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2616567611694336, "timer/agent.report_frac": 0.0008721371269043048, "timer/agent.report_avg": 0.2616567611694336, "timer/agent.report_min": 0.2616567611694336, "timer/agent.report_max": 0.2616567611694336, "fps": 4.193002585989895}
{"step": 1214740, "episode/length": 256.0, "episode/score": 12.099999979138374, "episode/sum_abs_reward": 14.700000032782555, "episode/reward_rate": 0.05058365758754864}
{"step": 1214988, "episode/length": 247.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.06048387096774194}
{"step": 1215045, "episode/length": 56.0, "episode/score": 1.1000000089406967, "episode/sum_abs_reward": 2.8999999910593033, "episode/reward_rate": 0.05263157894736842}
{"step": 1215247, "episode/length": 201.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 17.100000008940697, "episode/reward_rate": 0.07920792079207921}
{"step": 1215535, "episode/length": 287.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.04513888888888889}
{"step": 1215596, "episode/length": 60.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.08196721311475409}
{"step": 1215786, "episode/length": 189.0, "episode/score": 12.099999971687794, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.07368421052631578}
{"step": 1215855, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.429633355909778, "train/action_min": 0.0, "train/action_std": 3.257728957360791, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03632224522410862, "train/actor_opt_grad_steps": 607065.0, "train/actor_opt_loss": -10.79910670773637, "train/adv_mag": 0.35974346197420554, "train/adv_max": 0.3186045841824624, "train/adv_mean": 0.0019637809713341056, "train/adv_min": -0.32268192210505087, "train/adv_std": 0.04071884061540327, "train/cont_avg": 0.9948809223790323, "train/cont_loss_mean": 0.0004382918170647592, "train/cont_loss_std": 0.013874249006243365, "train/cont_neg_acc": 0.9849270370698744, "train/cont_neg_loss": 0.08178330415150653, "train/cont_pos_acc": 0.999999983656791, "train/cont_pos_loss": 1.2458460861261478e-05, "train/cont_pred": 0.9949330658681931, "train/cont_rate": 0.9948809223790323, "train/dyn_loss_mean": 5.758372299132809, "train/dyn_loss_std": 8.908215238202002, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.86771789673836, "train/extr_critic_critic_opt_grad_steps": 607065.0, "train/extr_critic_critic_opt_loss": 15004.996424521169, "train/extr_critic_mag": 12.664880029616818, "train/extr_critic_max": 12.664880029616818, "train/extr_critic_mean": 3.922752691853431, "train/extr_critic_min": -0.3173483610153198, "train/extr_critic_std": 3.0324305103671167, "train/extr_return_normed_mag": 1.3708988601161587, "train/extr_return_normed_max": 1.3708988601161587, "train/extr_return_normed_mean": 0.40636105114413845, "train/extr_return_normed_min": -0.0635305750634401, "train/extr_return_normed_std": 0.31508424205164753, "train/extr_return_rate": 0.8735226046654486, "train/extr_return_raw_mag": 13.305137234349404, "train/extr_return_raw_max": 13.305137234349404, "train/extr_return_raw_mean": 3.9418009558031635, "train/extr_return_raw_min": -0.620976532659223, "train/extr_return_raw_std": 3.0593050064579135, "train/extr_reward_mag": 1.0858551955992175, "train/extr_reward_max": 1.0858551955992175, "train/extr_reward_mean": 0.06670058266289773, "train/extr_reward_min": -0.5737256177010075, "train/extr_reward_std": 0.24703463479395835, "train/image_loss_mean": 3.4665283464616343, "train/image_loss_std": 8.562202545904345, "train/model_loss_mean": 6.989017794209142, "train/model_loss_std": 12.651456879031274, "train/model_opt_grad_norm": 19.673878131374234, "train/model_opt_grad_steps": 606565.0, "train/model_opt_loss": 8736.272319178428, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.719676690716897, "train/policy_entropy_max": 2.719676690716897, "train/policy_entropy_mean": 0.42232048751846435, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6408834308385849, "train/policy_logprob_mag": 7.438384240673434, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4222983044962729, "train/policy_logprob_min": -7.438384240673434, "train/policy_logprob_std": 1.0489659126727813, "train/policy_randomness_mag": 0.9599265235085641, "train/policy_randomness_max": 0.9599265235085641, "train/policy_randomness_mean": 0.14906059890504805, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22620372810671407, "train/post_ent_mag": 55.65669798081921, "train/post_ent_max": 55.65669798081921, "train/post_ent_mean": 39.975432426698745, "train/post_ent_min": 19.371365839435207, "train/post_ent_std": 5.8108462210624445, "train/prior_ent_mag": 76.76578657088741, "train/prior_ent_max": 76.76578657088741, "train/prior_ent_mean": 45.71156095689343, "train/prior_ent_min": 27.741855436755763, "train/prior_ent_std": 7.973835745165425, "train/rep_loss_mean": 5.758372299132809, "train/rep_loss_std": 8.908215238202002, "train/reward_avg": 0.05333448826305328, "train/reward_loss_mean": 0.06702771885020117, "train/reward_loss_std": 0.23801792725439994, "train/reward_max_data": 1.0241935541552882, "train/reward_max_pred": 1.0265198715271489, "train/reward_neg_acc": 0.9930965563943309, "train/reward_neg_loss": 0.026635464190715743, "train/reward_pos_acc": 0.9888938117411828, "train/reward_pos_loss": 0.7231000690690933, "train/reward_pred": 0.052848644013847076, "train/reward_rate": 0.05790070564516129, "stats/sum_log_reward": 9.957143034253802, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 3.142857142857143, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 11.857142857142858, "stats/max_log_achievement_collect_wood": 11.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.7142857142857143, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_stone_sword": 0.8571428571428571, "stats/max_log_achievement_make_wood_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_wood_sword": 0.7142857142857143, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 2.5714285714285716, "stats/max_log_achievement_place_table": 3.142857142857143, "stats/max_log_achievement_wake_up": 0.7142857142857143, "stats/mean_log_entropy": 0.4094581997820309, "replay/size": 1000000.0, "replay/inserts": 1254.0, "replay/samples": 10032.0, "replay/insert_wait_avg": 3.3931869068784576e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.384073087092982e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.10236144065857, "timer/env.step_count": 1254.0, "timer/env.step_total": 19.169198989868164, "timer/env.step_frac": 0.0638755353268309, "timer/env.step_avg": 0.015286442575652443, "timer/env.step_min": 0.0026960372924804688, "timer/env.step_max": 1.6383788585662842, "timer/replay.add_count": 1254.0, "timer/replay.add_total": 0.255615234375, "timer/replay.add_frac": 0.0008517601565942515, "timer/replay.add_avg": 0.00020383989982057416, "timer/replay.add_min": 7.462501525878906e-05, "timer/replay.add_max": 0.0006966590881347656, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022400617599487305, "timer/logger.write_frac": 7.464325669398887e-05, "timer/logger.write_avg": 0.022400617599487305, "timer/logger.write_min": 0.022400617599487305, "timer/logger.write_max": 0.022400617599487305, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "timer/agent.policy_count": 1254.0, "timer/agent.policy_total": 9.929255247116089, "timer/agent.policy_frac": 0.03308622831040093, "timer/agent.policy_avg": 0.007918066385260039, "timer/agent.policy_min": 0.0059926509857177734, "timer/agent.policy_max": 0.01598811149597168, "timer/dataset_count": 627.0, "timer/dataset_total": 0.05453062057495117, "timer/dataset_frac": 0.00018170673603890955, "timer/dataset_avg": 8.697068672241017e-05, "timer/dataset_min": 6.031990051269531e-05, "timer/dataset_max": 0.00016260147094726562, "timer/agent.train_count": 627.0, "timer/agent.train_total": 270.0411355495453, "timer/agent.train_frac": 0.899830092149883, "timer/agent.train_avg": 0.4306876165064518, "timer/agent.train_min": 0.37070465087890625, "timer/agent.train_max": 0.4540832042694092, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.23095250129699707, "timer/agent.report_frac": 0.0007695790869098676, "timer/agent.report_avg": 0.23095250129699707, "timer/agent.report_min": 0.23095250129699707, "timer/agent.report_max": 0.23095250129699707, "fps": 4.1784860544779345}
{"step": 1215901, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.68731689453125, "train/action_min": 0.0, "train/action_std": 3.4236505031585693, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03107343055307865, "train/actor_opt_grad_steps": 607401.0, "train/actor_opt_loss": -18.758039474487305, "train/adv_mag": 0.3883853554725647, "train/adv_max": 0.3883853554725647, "train/adv_mean": 8.113247895380482e-05, "train/adv_min": -0.24707669019699097, "train/adv_std": 0.03669021278619766, "train/cont_avg": 0.99609375, "train/cont_loss_mean": 4.650122718885541e-06, "train/cont_loss_std": 5.7803859817795455e-05, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00028802009182982147, "train/cont_pos_acc": 0.9999999403953552, "train/cont_pos_loss": 3.53886753146071e-06, "train/cont_pred": 0.996091365814209, "train/cont_rate": 0.99609375, "train/dyn_loss_mean": 6.849440574645996, "train/dyn_loss_std": 11.69933032989502, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8513932824134827, "train/extr_critic_critic_opt_grad_steps": 607401.0, "train/extr_critic_critic_opt_loss": 14537.5546875, "train/extr_critic_mag": 12.484579086303711, "train/extr_critic_max": 12.484579086303711, "train/extr_critic_mean": 3.185102939605713, "train/extr_critic_min": -0.3723379373550415, "train/extr_critic_std": 2.807521104812622, "train/extr_return_normed_mag": 1.366735577583313, "train/extr_return_normed_max": 1.366735577583313, "train/extr_return_normed_mean": 0.32507771253585815, "train/extr_return_normed_min": -0.07338713854551315, "train/extr_return_normed_std": 0.2898217737674713, "train/extr_return_rate": 0.7277995347976685, "train/extr_return_raw_mag": 13.41198444366455, "train/extr_return_raw_max": 13.41198444366455, "train/extr_return_raw_mean": 3.1859068870544434, "train/extr_return_raw_min": -0.7258697152137756, "train/extr_return_raw_std": 2.845214366912842, "train/extr_reward_mag": 1.0927340984344482, "train/extr_reward_max": 1.0927340984344482, "train/extr_reward_mean": 0.05130041763186455, "train/extr_reward_min": -0.41244959831237793, "train/extr_reward_std": 0.2187647968530655, "train/image_loss_mean": 5.658391952514648, "train/image_loss_std": 21.879947662353516, "train/model_loss_mean": 9.82104778289795, "train/model_loss_std": 27.543432235717773, "train/model_opt_grad_norm": 16.753517150878906, "train/model_opt_grad_steps": 606901.0, "train/model_opt_loss": 12276.3095703125, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.7775380611419678, "train/policy_entropy_max": 2.7775380611419678, "train/policy_entropy_mean": 0.6392571926116943, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.8701852560043335, "train/policy_logprob_mag": 7.438384056091309, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.6407496929168701, "train/policy_logprob_min": -7.438384056091309, "train/policy_logprob_std": 1.2004868984222412, "train/policy_randomness_mag": 0.980349063873291, "train/policy_randomness_max": 0.980349063873291, "train/policy_randomness_mean": 0.22562971711158752, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.3071371912956238, "train/post_ent_mag": 55.567298889160156, "train/post_ent_max": 55.567298889160156, "train/post_ent_mean": 40.448814392089844, "train/post_ent_min": 15.5747709274292, "train/post_ent_std": 6.226873874664307, "train/prior_ent_mag": 76.5652084350586, "train/prior_ent_max": 76.5652084350586, "train/prior_ent_mean": 46.6375732421875, "train/prior_ent_min": 27.166961669921875, "train/prior_ent_std": 8.160240173339844, "train/rep_loss_mean": 6.849440574645996, "train/rep_loss_std": 11.69933032989502, "train/reward_avg": 0.04140625149011612, "train/reward_loss_mean": 0.05298639088869095, "train/reward_loss_std": 0.17413581907749176, "train/reward_max_data": 1.0, "train/reward_max_pred": 1.0006444454193115, "train/reward_neg_acc": 0.997957170009613, "train/reward_neg_loss": 0.024396590888500214, "train/reward_pos_acc": 1.0, "train/reward_pos_loss": 0.6749733090400696, "train/reward_pred": 0.041733771562576294, "train/reward_rate": 0.0439453125, "train/params_agent/wm/model_opt": 181569923.0, "train/params_agent/task_behavior/critic/critic_opt": 9708799.0, "train/params_agent/task_behavior/ac/actor_opt": 9464849.0, "replay/size": 1000000.0, "replay/inserts": 0.0, "replay/samples": 112.0, "replay/insert_wait_avg": NaN, "replay/insert_wait_frac": NaN, "replay/sample_wait_avg": 1.2112515313284739e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 198.89960145950317, "timer/logger.write_count": 1.0, "timer/logger.write_total": 1.9073486328125e-06, "timer/logger.write_frac": 9.58950454810662e-09, "timer/logger.write_avg": 1.9073486328125e-06, "timer/logger.write_min": 1.9073486328125e-06, "timer/logger.write_max": 1.9073486328125e-06, "timer/replay.add_count": 1073419.0, "timer/replay.add_total": 43.52536725997925, "timer/replay.add_frac": 0.21883084199563468, "timer/replay.add_avg": 4.054834809145287e-05, "timer/replay.add_min": 4.76837158203125e-06, "timer/replay.add_max": 0.13878774642944336, "timer/checkpoint.load_count": 1.0, "timer/checkpoint.load_total": 97.78647589683533, "timer/checkpoint.load_frac": 0.49163736467689745, "timer/checkpoint.load_avg": 97.78647589683533, "timer/checkpoint.load_min": 97.78647589683533, "timer/checkpoint.load_max": 97.78647589683533, "timer/env.step_count": 1.0, "timer/env.step_total": 1.6054353713989258, "timer/env.step_frac": 0.008071586667939099, "timer/env.step_avg": 1.6054353713989258, "timer/env.step_min": 1.6054353713989258, "timer/env.step_max": 1.6054353713989258, "timer/agent.policy_count": 1.0, "timer/agent.policy_total": 10.512576341629028, "timer/agent.policy_frac": 0.05285368228236211, "timer/agent.policy_avg": 10.512576341629028, "timer/agent.policy_min": 10.512576341629028, "timer/agent.policy_max": 10.512576341629028, "timer/dataset_count": 1.0, "timer/dataset_total": 5.4836273193359375e-05, "timer/dataset_frac": 2.7569825575806535e-07, "timer/dataset_avg": 5.4836273193359375e-05, "timer/dataset_min": 5.4836273193359375e-05, "timer/dataset_max": 5.4836273193359375e-05, "timer/agent.train_count": 1.0, "timer/agent.train_total": 74.75839185714722, "timer/agent.train_frac": 0.37585993792133543, "timer/agent.train_avg": 74.75839185714722, "timer/agent.train_min": 74.75839185714722, "timer/agent.train_max": 74.75839185714722, "timer/agent.report_count": 1.0, "timer/agent.report_total": 14.217430830001831, "timer/agent.report_frac": 0.0714804390037783, "timer/agent.report_avg": 14.217430830001831, "timer/agent.report_min": 14.217430830001831, "timer/agent.report_max": 14.217430830001831}
{"step": 1216167, "episode/length": 266.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.04868913857677903}
{"step": 1216217, "episode/length": 49.0, "episode/score": 4.099999964237213, "episode/sum_abs_reward": 5.699999988079071, "episode/reward_rate": 0.1}
{"step": 1216463, "episode/length": 245.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.700000025331974, "episode/reward_rate": 0.06504065040650407}
{"step": 1216644, "episode/length": 180.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.07734806629834254}
{"step": 1216902, "episode/length": 257.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.05813953488372093}
{"step": 1217170, "episode/length": 267.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.055970149253731345}
{"step": 1217291, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.41832080785779, "train/action_min": 0.0, "train/action_std": 3.241554616154104, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03541856477765933, "train/actor_opt_grad_steps": 607750.0, "train/actor_opt_loss": -11.744039216767186, "train/adv_mag": 0.4020986848551294, "train/adv_max": 0.3202395547127378, "train/adv_mean": 0.001478643751147172, "train/adv_min": -0.359636629405229, "train/adv_std": 0.04067652958674707, "train/cont_avg": 0.9951879528985508, "train/cont_loss_mean": 6.052293820426956e-05, "train/cont_loss_std": 0.001820115159790538, "train/cont_neg_acc": 0.9963768115942029, "train/cont_neg_loss": 0.012620104775523033, "train/cont_pos_acc": 0.999999980131785, "train/cont_pos_loss": 1.039610322981145e-05, "train/cont_pred": 0.9951946718105371, "train/cont_rate": 0.9951879528985508, "train/dyn_loss_mean": 6.1810572665670644, "train/dyn_loss_std": 9.129605044489322, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8469270061755526, "train/extr_critic_critic_opt_grad_steps": 607750.0, "train/extr_critic_critic_opt_loss": 15103.866876132246, "train/extr_critic_mag": 12.54314488949983, "train/extr_critic_max": 12.54314488949983, "train/extr_critic_mean": 3.82135241964589, "train/extr_critic_min": -0.28108205138773157, "train/extr_critic_std": 3.0147670179173565, "train/extr_return_normed_mag": 1.3714702250300974, "train/extr_return_normed_max": 1.3714702250300974, "train/extr_return_normed_mean": 0.39658194823541504, "train/extr_return_normed_min": -0.07112668219791807, "train/extr_return_normed_std": 0.3139551791591921, "train/extr_return_rate": 0.8581654291222061, "train/extr_return_raw_mag": 13.270699072575223, "train/extr_return_raw_max": 13.270699072575223, "train/extr_return_raw_mean": 3.835658640101336, "train/extr_return_raw_min": -0.692249883344208, "train/extr_return_raw_std": 3.0391946944637573, "train/extr_reward_mag": 1.0880134554876797, "train/extr_reward_max": 1.0880134554876797, "train/extr_reward_mean": 0.06473376736908719, "train/extr_reward_min": -0.6244952384976373, "train/extr_reward_std": 0.24286715405574744, "train/image_loss_mean": 3.789416841838671, "train/image_loss_std": 11.80712832575259, "train/model_loss_mean": 7.5627333599588145, "train/model_loss_std": 15.944307769554248, "train/model_opt_grad_norm": 23.855155834253285, "train/model_opt_grad_steps": 607249.7971014492, "train/model_opt_loss": 15315.33493970788, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1992.7536231884058, "train/policy_entropy_mag": 2.7189564048380093, "train/policy_entropy_max": 2.7189564048380093, "train/policy_entropy_mean": 0.44621484348739404, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.666199120922365, "train/policy_logprob_mag": 7.438384277233179, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4465931848339412, "train/policy_logprob_min": -7.438384277233179, "train/policy_logprob_std": 1.0696124399917712, "train/policy_randomness_mag": 0.9596722903458969, "train/policy_randomness_max": 0.9596722903458969, "train/policy_randomness_mean": 0.15749425851348517, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23513905639233795, "train/post_ent_mag": 54.80644917142564, "train/post_ent_max": 54.80644917142564, "train/post_ent_mean": 39.94067968838457, "train/post_ent_min": 19.753234725067582, "train/post_ent_std": 5.804174326468205, "train/prior_ent_mag": 76.77703249281731, "train/prior_ent_max": 76.77703249281731, "train/prior_ent_mean": 46.14153649150462, "train/prior_ent_min": 27.746638671211574, "train/prior_ent_std": 7.815201531285825, "train/rep_loss_mean": 6.1810572665670644, "train/rep_loss_std": 9.129605044489322, "train/reward_avg": 0.05126811520776887, "train/reward_loss_mean": 0.06462171970718149, "train/reward_loss_std": 0.22729427183883777, "train/reward_max_data": 1.0420289955277373, "train/reward_max_pred": 1.0394526737323706, "train/reward_neg_acc": 0.992287902728371, "train/reward_neg_loss": 0.02577212625655575, "train/reward_pos_acc": 0.990850587685903, "train/reward_pos_loss": 0.7258377299792524, "train/reward_pred": 0.050699083512459976, "train/reward_rate": 0.055423460144927536, "stats/sum_log_reward": 12.100000301996866, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 2.5, "stats/max_log_achievement_collect_stone": 16.0, "stats/max_log_achievement_collect_wood": 13.333333333333334, "stats/max_log_achievement_defeat_zombie": 1.8333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_stone": 3.1666666666666665, "stats/max_log_achievement_place_table": 3.5, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.4560420749088128, "stats/max_log_achievement_collect_sapling": 1.8, "stats/max_log_achievement_place_plant": 1.8, "stats/max_log_achievement_collect_iron": 0.25, "stats/max_log_achievement_eat_cow": 0.25, "replay/size": 1000000.0, "replay/inserts": 1328.0, "replay/samples": 11120.0, "replay/insert_wait_avg": 3.6717897438141235e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3998944124729514e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 285.8197855949402, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02840900421142578, "timer/logger.write_frac": 9.939481324671703e-05, "timer/logger.write_avg": 0.02840900421142578, "timer/logger.write_min": 0.02840900421142578, "timer/logger.write_max": 0.02840900421142578, "timer/replay.add_count": 1390.0, "timer/replay.add_total": 0.3136303424835205, "timer/replay.add_frac": 0.0010973010207487631, "timer/replay.add_avg": 0.0002256333399162018, "timer/replay.add_min": 7.796287536621094e-05, "timer/replay.add_max": 0.016393661499023438, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1390.0, "timer/env.step_total": 17.72330379486084, "timer/env.step_frac": 0.06200866660776962, "timer/env.step_avg": 0.012750578269684057, "timer/env.step_min": 0.0030760765075683594, "timer/env.step_max": 1.6317949295043945, "timer/agent.policy_count": 1390.0, "timer/agent.policy_total": 10.075583457946777, "timer/agent.policy_frac": 0.035251525491750785, "timer/agent.policy_avg": 0.007248621192767465, "timer/agent.policy_min": 0.005714893341064453, "timer/agent.policy_max": 0.018172502517700195, "timer/dataset_count": 695.0, "timer/dataset_total": 0.05718231201171875, "timer/dataset_frac": 0.00020006421841193571, "timer/dataset_avg": 8.227670793053057e-05, "timer/dataset_min": 5.9604644775390625e-05, "timer/dataset_max": 0.0001838207244873047, "timer/agent.train_count": 695.0, "timer/agent.train_total": 256.92675280570984, "timer/agent.train_frac": 0.8989117120457953, "timer/agent.train_avg": 0.36967878101540985, "timer/agent.train_min": 0.3633732795715332, "timer/agent.train_max": 0.38674211502075195, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22336673736572266, "timer/agent.report_frac": 0.0007814950140725208, "timer/agent.report_avg": 0.22336673736572266, "timer/agent.report_min": 0.22336673736572266, "timer/agent.report_max": 0.22336673736572266, "fps": 4.863102544835116}
{"step": 1217378, "episode/length": 207.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 16.50000001490116, "episode/reward_rate": 0.07211538461538461}
{"step": 1217586, "episode/length": 207.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.0673076923076923}
{"step": 1217844, "episode/length": 257.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.500000022351742, "episode/reward_rate": 0.06201550387596899}
{"step": 1218068, "episode/length": 223.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.700000002980232, "episode/reward_rate": 0.07142857142857142}
{"step": 1218338, "episode/length": 269.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.700000040233135, "episode/reward_rate": 0.05555555555555555}
{"step": 1218563, "episode/length": 224.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.06666666666666667}
{"step": 1218726, "episode/length": 162.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.07975460122699386}
{"step": 1218745, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.44471218161387, "train/action_min": 0.0, "train/action_std": 3.2806683435831983, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03657349696612521, "train/actor_opt_grad_steps": 608460.0, "train/actor_opt_loss": -10.612684209869332, "train/adv_mag": 0.415325402396999, "train/adv_max": 0.3408583204631936, "train/adv_mean": 0.0018169599399748034, "train/adv_min": -0.3646344015859578, "train/adv_std": 0.04187561643041977, "train/cont_avg": 0.995036922089041, "train/cont_loss_mean": 8.828030904553949e-05, "train/cont_loss_std": 0.0028015601757393187, "train/cont_neg_acc": 0.9884540128381285, "train/cont_neg_loss": 0.029341982173539352, "train/cont_pos_acc": 0.9999999771379444, "train/cont_pos_loss": 7.601180423524069e-06, "train/cont_pred": 0.995063453504484, "train/cont_rate": 0.995036922089041, "train/dyn_loss_mean": 6.2137793514826525, "train/dyn_loss_std": 9.32857940621572, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8576753523251782, "train/extr_critic_critic_opt_grad_steps": 608460.0, "train/extr_critic_critic_opt_loss": 15179.434088720034, "train/extr_critic_mag": 12.596682052089744, "train/extr_critic_max": 12.596682052089744, "train/extr_critic_mean": 3.7538047163453823, "train/extr_critic_min": -0.31388276570463836, "train/extr_critic_std": 2.991775956872391, "train/extr_return_normed_mag": 1.400047480243526, "train/extr_return_normed_max": 1.400047480243526, "train/extr_return_normed_mean": 0.39276367262618184, "train/extr_return_normed_min": -0.06743703068119206, "train/extr_return_normed_std": 0.314269947066699, "train/extr_return_rate": 0.8528699834052831, "train/extr_return_raw_mag": 13.446826255484803, "train/extr_return_raw_max": 13.446826255484803, "train/extr_return_raw_mean": 3.7712573874486637, "train/extr_return_raw_min": -0.6498410317995776, "train/extr_return_raw_std": 3.019089189294266, "train/extr_reward_mag": 1.0868138711746425, "train/extr_reward_max": 1.0868138711746425, "train/extr_reward_mean": 0.06362940473099278, "train/extr_reward_min": -0.5878901073377426, "train/extr_reward_std": 0.24195512476032727, "train/image_loss_mean": 3.793773781763364, "train/image_loss_std": 11.912294355157304, "train/model_loss_mean": 7.588907496569908, "train/model_loss_std": 16.152837361374946, "train/model_opt_grad_norm": 22.62827206964362, "train/model_opt_grad_steps": 607959.0, "train/model_opt_loss": 9486.134377675513, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.718846513800425, "train/policy_entropy_max": 2.718846513800425, "train/policy_entropy_mean": 0.45842112600803375, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6663793076391089, "train/policy_logprob_mag": 7.43838429124388, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4589017102979634, "train/policy_logprob_min": -7.43838429124388, "train/policy_logprob_std": 1.074486789638049, "train/policy_randomness_mag": 0.9596335063241932, "train/policy_randomness_max": 0.9596335063241932, "train/policy_randomness_mean": 0.16180253978053186, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23520265152193096, "train/post_ent_mag": 55.04680199819068, "train/post_ent_max": 55.04680199819068, "train/post_ent_mean": 39.79554408870331, "train/post_ent_min": 19.3115465347081, "train/post_ent_std": 5.801738288304577, "train/prior_ent_mag": 76.84457522875643, "train/prior_ent_max": 76.84457522875643, "train/prior_ent_mean": 45.97173638539771, "train/prior_ent_min": 27.79481286871923, "train/prior_ent_std": 7.926045391657581, "train/rep_loss_mean": 6.2137793514826525, "train/rep_loss_std": 9.32857940621572, "train/reward_avg": 0.051178564100641095, "train/reward_loss_mean": 0.06677779402226618, "train/reward_loss_std": 0.2346605654448679, "train/reward_max_data": 1.0369863101880845, "train/reward_max_pred": 1.034073388739808, "train/reward_neg_acc": 0.9921438677670205, "train/reward_neg_loss": 0.028003012174612856, "train/reward_pos_acc": 0.9887332352873397, "train/reward_pos_loss": 0.7267597856586927, "train/reward_pred": 0.05074235863269192, "train/reward_rate": 0.0556105522260274, "stats/sum_log_reward": 13.671428952898298, "stats/max_log_achievement_collect_coal": 0.8571428571428571, "stats/max_log_achievement_collect_drink": 2.142857142857143, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 15.0, "stats/max_log_achievement_collect_wood": 13.571428571428571, "stats/max_log_achievement_defeat_zombie": 2.7142857142857144, "stats/max_log_achievement_eat_cow": 0.7142857142857143, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.8571428571428572, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 3.4285714285714284, "stats/max_log_achievement_place_table": 3.4285714285714284, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.39957593168531147, "replay/size": 1000000.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.5621768998640606e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3790850462251058e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2024710178375, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0343475341796875, "timer/logger.write_frac": 0.00011441456182299921, "timer/logger.write_avg": 0.0343475341796875, "timer/logger.write_min": 0.0343475341796875, "timer/logger.write_max": 0.0343475341796875, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.29978513717651367, "timer/replay.add_frac": 0.0009986098254291217, "timer/replay.add_avg": 0.0002061795991585376, "timer/replay.add_min": 8.440017700195312e-05, "timer/replay.add_max": 0.001068115234375, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1454.0, "timer/env.step_total": 19.764219522476196, "timer/env.step_frac": 0.06583629860029314, "timer/env.step_avg": 0.013592998296063408, "timer/env.step_min": 0.0028777122497558594, "timer/env.step_max": 1.6803171634674072, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 10.567898273468018, "timer/agent.policy_frac": 0.03520256924480842, "timer/agent.policy_avg": 0.007268155621367275, "timer/agent.policy_min": 0.005687236785888672, "timer/agent.policy_max": 0.017626047134399414, "timer/dataset_count": 727.0, "timer/dataset_total": 0.058806419372558594, "timer/dataset_frac": 0.00019588919162848734, "timer/dataset_avg": 8.088916007229517e-05, "timer/dataset_min": 5.8650970458984375e-05, "timer/dataset_max": 0.000156402587890625, "timer/agent.train_count": 727.0, "timer/agent.train_total": 268.7794916629791, "timer/agent.train_frac": 0.895327379390587, "timer/agent.train_avg": 0.369710442452516, "timer/agent.train_min": 0.3635694980621338, "timer/agent.train_max": 0.38199758529663086, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22186660766601562, "timer/agent.report_frac": 0.0007390565671021165, "timer/agent.report_avg": 0.22186660766601562, "timer/agent.report_min": 0.22186660766601562, "timer/agent.report_max": 0.22186660766601562, "fps": 4.843327434058554}
{"step": 1219215, "episode/length": 488.0, "episode/score": 15.099999979138374, "episode/sum_abs_reward": 18.700000032782555, "episode/reward_rate": 0.032719836400818}
{"step": 1219529, "episode/length": 313.0, "episode/score": 14.099999964237213, "episode/sum_abs_reward": 17.100000008940697, "episode/reward_rate": 0.04777070063694268}
{"step": 1219810, "episode/length": 280.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 18.10000003129244, "episode/reward_rate": 0.05693950177935943}
{"step": 1219879, "episode/length": 68.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.14492753623188406}
{"step": 1220127, "episode/length": 247.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.500000022351742, "episode/reward_rate": 0.06451612903225806}
{"step": 1220197, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.3877673678927955, "train/action_min": 0.0, "train/action_std": 3.2721671296490564, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03527091290905244, "train/actor_opt_grad_steps": 609185.0, "train/actor_opt_loss": -10.358674890051285, "train/adv_mag": 0.38335130570663345, "train/adv_max": 0.29315732626451385, "train/adv_mean": 0.002097839528788528, "train/adv_min": -0.3569432186583678, "train/adv_std": 0.039868219238188535, "train/cont_avg": 0.9954020182291666, "train/cont_loss_mean": 2.6646387682769144e-06, "train/cont_loss_std": 8.064748788975488e-05, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00027234514229238925, "train/cont_pos_acc": 0.9999999817874696, "train/cont_pos_loss": 1.0604667438012743e-06, "train/cont_pred": 0.9954025761948692, "train/cont_rate": 0.9954020182291666, "train/dyn_loss_mean": 6.06185730960634, "train/dyn_loss_std": 9.003698481453789, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8506591270367304, "train/extr_critic_critic_opt_grad_steps": 609185.0, "train/extr_critic_critic_opt_loss": 14923.014689127604, "train/extr_critic_mag": 12.470574471685621, "train/extr_critic_max": 12.470574471685621, "train/extr_critic_mean": 3.668748570813073, "train/extr_critic_min": -0.3268938495053185, "train/extr_critic_std": 3.010019371906916, "train/extr_return_normed_mag": 1.3674936493237813, "train/extr_return_normed_max": 1.3674936493237813, "train/extr_return_normed_mean": 0.38292826981180245, "train/extr_return_normed_min": -0.06899361884117955, "train/extr_return_normed_std": 0.31635133197738063, "train/extr_return_rate": 0.8295618544022242, "train/extr_return_raw_mag": 13.143340826034546, "train/extr_return_raw_max": 13.143340826034546, "train/extr_return_raw_mean": 3.6888891756534576, "train/extr_return_raw_min": -0.6513883935080634, "train/extr_return_raw_std": 3.0380520025889077, "train/extr_reward_mag": 1.0800230933560266, "train/extr_reward_max": 1.0800230933560266, "train/extr_reward_mean": 0.06304872951780756, "train/extr_reward_min": -0.5657686640818914, "train/extr_reward_std": 0.24043518698049915, "train/image_loss_mean": 3.762812680668301, "train/image_loss_std": 9.730273650752174, "train/model_loss_mean": 7.465376668506199, "train/model_loss_std": 13.82998702261183, "train/model_opt_grad_norm": 20.61197630564372, "train/model_opt_grad_steps": 608684.0, "train/model_opt_loss": 16994.393141004773, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2274.3055555555557, "train/policy_entropy_mag": 2.705971098608441, "train/policy_entropy_max": 2.705971098608441, "train/policy_entropy_mean": 0.4960521881779035, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7052584480908182, "train/policy_logprob_mag": 7.438384281264411, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.495750069204304, "train/policy_logprob_min": -7.438384281264411, "train/policy_logprob_std": 1.09873897747861, "train/policy_randomness_mag": 0.9550890467233129, "train/policy_randomness_max": 0.9550890467233129, "train/policy_randomness_mean": 0.17508465320699745, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24892528230945268, "train/post_ent_mag": 54.96890640258789, "train/post_ent_max": 54.96890640258789, "train/post_ent_mean": 40.11905097961426, "train/post_ent_min": 19.87413235505422, "train/post_ent_std": 5.725754797458649, "train/prior_ent_mag": 76.91035323672824, "train/prior_ent_max": 76.91035323672824, "train/prior_ent_mean": 46.17616584565904, "train/prior_ent_min": 27.95999789237976, "train/prior_ent_std": 7.835690769884321, "train/rep_loss_mean": 6.06185730960634, "train/rep_loss_std": 9.003698481453789, "train/reward_avg": 0.052452256696091756, "train/reward_loss_mean": 0.06544700016578038, "train/reward_loss_std": 0.22542871638304657, "train/reward_max_data": 1.0333333412806194, "train/reward_max_pred": 1.0332242167658277, "train/reward_neg_acc": 0.9930166643526819, "train/reward_neg_loss": 0.026227339817624953, "train/reward_pos_acc": 0.9924802233775457, "train/reward_pos_loss": 0.7186751200093163, "train/reward_pred": 0.05204517642656962, "train/reward_rate": 0.056722005208333336, "stats/sum_log_reward": 13.700000190734864, "stats/max_log_achievement_collect_coal": 1.2, "stats/max_log_achievement_collect_drink": 4.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.2, "stats/max_log_achievement_collect_stone": 12.0, "stats/max_log_achievement_collect_wood": 10.6, "stats/max_log_achievement_defeat_zombie": 2.4, "stats/max_log_achievement_eat_cow": 1.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.8, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.4, "stats/max_log_achievement_place_plant": 2.2, "stats/max_log_achievement_place_stone": 4.4, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.8, "stats/mean_log_entropy": 0.5695988833904266, "stats/max_log_achievement_defeat_skeleton": 0.5, "replay/size": 1000000.0, "replay/inserts": 1452.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.5639636772723236e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3591870460300077e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3710343837738, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03464865684509277, "timer/logger.write_frac": 0.00011535285656347065, "timer/logger.write_avg": 0.03464865684509277, "timer/logger.write_min": 0.03464865684509277, "timer/logger.write_max": 0.03464865684509277, "timer/replay.add_count": 1452.0, "timer/replay.add_total": 0.3031892776489258, "timer/replay.add_frac": 0.0010093825400672664, "timer/replay.add_avg": 0.00020880804245793788, "timer/replay.add_min": 8.153915405273438e-05, "timer/replay.add_max": 0.0025606155395507812, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1452.0, "timer/env.step_total": 18.48307752609253, "timer/env.step_frac": 0.061534154130445655, "timer/env.step_avg": 0.012729392235600916, "timer/env.step_min": 0.0030007362365722656, "timer/env.step_max": 2.583104133605957, "timer/agent.policy_count": 1452.0, "timer/agent.policy_total": 11.954322099685669, "timer/agent.policy_frac": 0.03979851826994756, "timer/agent.policy_avg": 0.008233004200885448, "timer/agent.policy_min": 0.005735635757446289, "timer/agent.policy_max": 1.4499144554138184, "timer/dataset_count": 726.0, "timer/dataset_total": 0.05807638168334961, "timer/dataset_frac": 0.00019334880875746294, "timer/dataset_avg": 7.999501609276805e-05, "timer/dataset_min": 5.817413330078125e-05, "timer/dataset_max": 0.00014209747314453125, "timer/agent.train_count": 726.0, "timer/agent.train_total": 268.83433985710144, "timer/agent.train_frac": 0.8950075376230219, "timer/agent.train_avg": 0.37029523396294967, "timer/agent.train_min": 0.3630971908569336, "timer/agent.train_max": 0.9151980876922607, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21972966194152832, "timer/agent.report_frac": 0.000731527466995327, "timer/agent.report_avg": 0.21972966194152832, "timer/agent.report_min": 0.21972966194152832, "timer/agent.report_max": 0.21972966194152832, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.01259160041809082, "timer/checkpoint.save_frac": 4.1920155330300466e-05, "timer/checkpoint.save_avg": 0.01259160041809082, "timer/checkpoint.save_min": 0.01259160041809082, "timer/checkpoint.save_max": 0.01259160041809082, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4635775089263916, "timer/agent.save_frac": 0.004872565398754225, "timer/agent.save_avg": 1.4635775089263916, "timer/agent.save_min": 1.4635775089263916, "timer/agent.save_max": 1.4635775089263916, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.559226989746094e-05, "timer/replay.save_frac": 2.8495513914335236e-07, "timer/replay.save_avg": 8.559226989746094e-05, "timer/replay.save_min": 8.559226989746094e-05, "timer/replay.save_max": 8.559226989746094e-05, "fps": 4.833948766600684}
{"step": 1220318, "episode/length": 190.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.06282722513089005}
{"step": 1220491, "episode/length": 172.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.07514450867052024}
{"step": 1220705, "episode/length": 213.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06074766355140187}
{"step": 1220916, "episode/length": 210.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.099999994039536, "episode/reward_rate": 0.06635071090047394}
{"step": 1221107, "episode/length": 190.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 9.899999991059303, "episode/reward_rate": 0.05235602094240838}
{"step": 1221326, "episode/length": 218.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.0639269406392694}
{"step": 1221614, "episode/length": 287.0, "episode/score": 9.099999979138374, "episode/sum_abs_reward": 12.100000038743019, "episode/reward_rate": 0.034722222222222224}
{"step": 1221657, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4504110257919525, "train/action_min": 0.0, "train/action_std": 3.2908943189333564, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03536080089333939, "train/actor_opt_grad_steps": 609910.0, "train/actor_opt_loss": -12.26676260445216, "train/adv_mag": 0.39548282549805835, "train/adv_max": 0.3059193518472044, "train/adv_mean": 0.0014665469032678791, "train/adv_min": -0.36452111111928337, "train/adv_std": 0.04080324405676698, "train/cont_avg": 0.9955051369863014, "train/cont_loss_mean": 4.7564973561036144e-05, "train/cont_loss_std": 0.0014730870388309065, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0026269106141305924, "train/cont_pos_acc": 0.9999865334327906, "train/cont_pos_loss": 4.0044294513476125e-05, "train/cont_pred": 0.995494449791843, "train/cont_rate": 0.9955051369863014, "train/dyn_loss_mean": 6.061980835378987, "train/dyn_loss_std": 9.092606838435342, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9391691578577642, "train/extr_critic_critic_opt_grad_steps": 609910.0, "train/extr_critic_critic_opt_loss": 15097.892150042808, "train/extr_critic_mag": 12.777282140026355, "train/extr_critic_max": 12.777282140026355, "train/extr_critic_mean": 3.80138401789208, "train/extr_critic_min": -0.31677890150514365, "train/extr_critic_std": 3.0143642588837505, "train/extr_return_normed_mag": 1.3718491302777642, "train/extr_return_normed_max": 1.3718491302777642, "train/extr_return_normed_mean": 0.386944297650089, "train/extr_return_normed_min": -0.06863210222696604, "train/extr_return_normed_std": 0.3092486001040837, "train/extr_return_rate": 0.8527941703796387, "train/extr_return_raw_mag": 13.50552454386672, "train/extr_return_raw_max": 13.50552454386672, "train/extr_return_raw_mean": 3.8157665435581993, "train/extr_return_raw_min": -0.6667413989158526, "train/extr_return_raw_std": 3.0431735874855357, "train/extr_reward_mag": 1.0856209062550166, "train/extr_reward_max": 1.0856209062550166, "train/extr_reward_mean": 0.0632847373003829, "train/extr_reward_min": -0.5890414927103748, "train/extr_reward_std": 0.24123665302583616, "train/image_loss_mean": 3.666862713147516, "train/image_loss_std": 10.073582805999338, "train/model_loss_mean": 7.369491191759502, "train/model_loss_std": 14.266075669902644, "train/model_opt_grad_norm": 21.358587983536395, "train/model_opt_grad_steps": 609408.4246575342, "train/model_opt_loss": 13132.533236568921, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1780.8219178082193, "train/policy_entropy_mag": 2.7098415877721083, "train/policy_entropy_max": 2.7098415877721083, "train/policy_entropy_mean": 0.46629239190114685, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6832146934450489, "train/policy_logprob_mag": 7.4383842651158165, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4662902826723987, "train/policy_logprob_min": -7.4383842651158165, "train/policy_logprob_std": 1.080148311510478, "train/policy_randomness_mag": 0.9564551596772181, "train/policy_randomness_max": 0.9564551596772181, "train/policy_randomness_mean": 0.16458075187385898, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24114480308473926, "train/post_ent_mag": 54.669783030470754, "train/post_ent_max": 54.669783030470754, "train/post_ent_mean": 39.77846417361743, "train/post_ent_min": 19.859435643235297, "train/post_ent_std": 5.79503051548788, "train/prior_ent_mag": 76.93231608769665, "train/prior_ent_max": 76.93231608769665, "train/prior_ent_mean": 45.82163494580413, "train/prior_ent_min": 27.783254257620197, "train/prior_ent_std": 7.957766101784902, "train/rep_loss_mean": 6.061980835378987, "train/rep_loss_std": 9.092606838435342, "train/reward_avg": 0.05182202515026478, "train/reward_loss_mean": 0.06539247332982821, "train/reward_loss_std": 0.2326748883479262, "train/reward_max_data": 1.0301369934865874, "train/reward_max_pred": 1.0300099425119897, "train/reward_neg_acc": 0.9917584298408195, "train/reward_neg_loss": 0.026401817989982153, "train/reward_pos_acc": 0.9895737016037719, "train/reward_pos_loss": 0.7266566933017887, "train/reward_pred": 0.05159631578175172, "train/reward_rate": 0.05583797089041096, "stats/sum_log_reward": 11.100000245230538, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 2.5714285714285716, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 10.428571428571429, "stats/max_log_achievement_collect_wood": 13.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5714285714285714, "stats/max_log_achievement_eat_cow": 0.5714285714285714, "stats/max_log_achievement_make_stone_pickaxe": 0.42857142857142855, "stats/max_log_achievement_make_stone_sword": 0.5714285714285714, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.4285714285714286, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 2.2857142857142856, "stats/max_log_achievement_place_table": 3.142857142857143, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.4097140622990472, "replay/size": 1000000.0, "replay/inserts": 1460.0, "replay/samples": 11680.0, "replay/insert_wait_avg": 3.508019120725867e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3717845694659507e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2226254940033, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029754161834716797, "timer/logger.write_frac": 9.910699363766344e-05, "timer/logger.write_avg": 0.029754161834716797, "timer/logger.write_min": 0.029754161834716797, "timer/logger.write_max": 0.029754161834716797, "timer/replay.add_count": 1460.0, "timer/replay.add_total": 0.29091763496398926, "timer/replay.add_frac": 0.0009690063648111028, "timer/replay.add_avg": 0.00019925865408492414, "timer/replay.add_min": 8.487701416015625e-05, "timer/replay.add_max": 0.0011265277862548828, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1460.0, "timer/env.step_total": 19.141191720962524, "timer/env.step_frac": 0.0637566595437853, "timer/env.step_avg": 0.013110405288330497, "timer/env.step_min": 0.002895832061767578, "timer/env.step_max": 1.6978929042816162, "timer/agent.policy_count": 1460.0, "timer/agent.policy_total": 10.408416032791138, "timer/agent.policy_frac": 0.0346689927704967, "timer/agent.policy_avg": 0.007129052077254204, "timer/agent.policy_min": 0.0056684017181396484, "timer/agent.policy_max": 0.01565694808959961, "timer/dataset_count": 730.0, "timer/dataset_total": 0.05834221839904785, "timer/dataset_frac": 0.00019432985206577373, "timer/dataset_avg": 7.992084712198335e-05, "timer/dataset_min": 5.555152893066406e-05, "timer/dataset_max": 0.0001800060272216797, "timer/agent.train_count": 730.0, "timer/agent.train_total": 269.603976726532, "timer/agent.train_frac": 0.8980135200766776, "timer/agent.train_avg": 0.36932051606374244, "timer/agent.train_min": 0.36354875564575195, "timer/agent.train_max": 0.38376903533935547, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22160911560058594, "timer/agent.report_frac": 0.0007381492825063993, "timer/agent.report_avg": 0.22160911560058594, "timer/agent.report_min": 0.22160911560058594, "timer/agent.report_max": 0.22160911560058594, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.862963237065095}
{"step": 1221863, "episode/length": 248.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.30000001937151, "episode/reward_rate": 0.0642570281124498}
{"step": 1222063, "episode/length": 199.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.07}
{"step": 1222292, "episode/length": 228.0, "episode/score": 14.099999971687794, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.06986899563318777}
{"step": 1222597, "episode/length": 304.0, "episode/score": 13.099999964237213, "episode/sum_abs_reward": 14.699999988079071, "episode/reward_rate": 0.04590163934426229}
{"step": 1222824, "episode/length": 226.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.06607929515418502}
{"step": 1223034, "episode/length": 209.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 17.30000003427267, "episode/reward_rate": 0.0761904761904762}
{"step": 1223123, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4457290237014355, "train/action_min": 0.0, "train/action_std": 3.2909281060502336, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03612202760838979, "train/actor_opt_grad_steps": 610645.0, "train/actor_opt_loss": -10.505370000931057, "train/adv_mag": 0.3673610932923652, "train/adv_max": 0.30453293327544184, "train/adv_mean": 0.0018786712952950856, "train/adv_min": -0.33311615219792806, "train/adv_std": 0.040318638338027776, "train/cont_avg": 0.9953019425675675, "train/cont_loss_mean": 1.24771292573738e-05, "train/cont_loss_std": 0.00035532686378457056, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0013982679893698828, "train/cont_pos_acc": 0.9999999822797002, "train/cont_pos_loss": 4.817691910369143e-06, "train/cont_pred": 0.9953038990497589, "train/cont_rate": 0.9953019425675675, "train/dyn_loss_mean": 5.9969754090180265, "train/dyn_loss_std": 9.14922705212155, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8628052650271235, "train/extr_critic_critic_opt_grad_steps": 610645.0, "train/extr_critic_critic_opt_loss": 15062.745407516892, "train/extr_critic_mag": 12.57820397454339, "train/extr_critic_max": 12.57820397454339, "train/extr_critic_mean": 3.8391719283284367, "train/extr_critic_min": -0.3182532384588912, "train/extr_critic_std": 3.031072964539399, "train/extr_return_normed_mag": 1.3628860357645396, "train/extr_return_normed_max": 1.3628860357645396, "train/extr_return_normed_mean": 0.39361807019323913, "train/extr_return_normed_min": -0.06609644841503452, "train/extr_return_normed_std": 0.3126404506934656, "train/extr_return_rate": 0.8540646562705169, "train/extr_return_raw_mag": 13.328261491414663, "train/extr_return_raw_max": 13.328261491414663, "train/extr_return_raw_mean": 3.857522030134459, "train/extr_return_raw_min": -0.6342427138541196, "train/extr_return_raw_std": 3.054952753556741, "train/extr_reward_mag": 1.0905346258266553, "train/extr_reward_max": 1.0905346258266553, "train/extr_reward_mean": 0.06580158886877266, "train/extr_reward_min": -0.5804057813979484, "train/extr_reward_std": 0.24527292356297775, "train/image_loss_mean": 3.5166708166534835, "train/image_loss_std": 10.069109923130757, "train/model_loss_mean": 7.179273283159411, "train/model_loss_std": 14.315247960992762, "train/model_opt_grad_norm": 19.948727298427272, "train/model_opt_grad_steps": 610143.0, "train/model_opt_loss": 10885.170330975507, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1520.2702702702702, "train/policy_entropy_mag": 2.704696210655006, "train/policy_entropy_max": 2.704696210655006, "train/policy_entropy_mean": 0.4535605357708158, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6636375019679198, "train/policy_logprob_mag": 7.438384281622397, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.453012400986375, "train/policy_logprob_min": -7.438384281622397, "train/policy_logprob_std": 1.0674155523648132, "train/policy_randomness_mag": 0.9546390675209664, "train/policy_randomness_max": 0.9546390675209664, "train/policy_randomness_mean": 0.16008696544009285, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23423491438498367, "train/post_ent_mag": 54.89114333487846, "train/post_ent_max": 54.89114333487846, "train/post_ent_mean": 39.84359669040989, "train/post_ent_min": 19.88815348857158, "train/post_ent_std": 5.690967901332958, "train/prior_ent_mag": 76.8792345201647, "train/prior_ent_max": 76.8792345201647, "train/prior_ent_mean": 45.8152700888144, "train/prior_ent_min": 27.74001067393535, "train/prior_ent_std": 7.897745190439998, "train/rep_loss_mean": 5.9969754090180265, "train/rep_loss_std": 9.14922705212155, "train/reward_avg": 0.05232527414085092, "train/reward_loss_mean": 0.06440480748141134, "train/reward_loss_std": 0.22272758951058258, "train/reward_max_data": 1.0364864951855428, "train/reward_max_pred": 1.036014063938244, "train/reward_neg_acc": 0.9930487863115363, "train/reward_neg_loss": 0.02526122476351825, "train/reward_pos_acc": 0.9907206200264596, "train/reward_pos_loss": 0.7175851166248322, "train/reward_pred": 0.05200040874046248, "train/reward_rate": 0.056548247466216214, "stats/sum_log_reward": 14.100000381469727, "stats/max_log_achievement_collect_coal": 1.5, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 2.1666666666666665, "stats/max_log_achievement_collect_stone": 15.0, "stats/max_log_achievement_collect_wood": 13.0, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.6666666666666667, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_stone": 4.0, "stats/max_log_achievement_place_table": 3.5, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.6354138255119324, "replay/size": 1000000.0, "replay/inserts": 1466.0, "replay/samples": 11728.0, "replay/insert_wait_avg": 3.5073226991161644e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3746473668867374e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.15382504463196, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02458357810974121, "timer/logger.write_frac": 8.190326445476984e-05, "timer/logger.write_avg": 0.02458357810974121, "timer/logger.write_min": 0.02458357810974121, "timer/logger.write_max": 0.02458357810974121, "timer/replay.add_count": 1466.0, "timer/replay.add_total": 0.29288363456726074, "timer/replay.add_frac": 0.0009757784513447724, "timer/replay.add_avg": 0.0001997841982041342, "timer/replay.add_min": 7.581710815429688e-05, "timer/replay.add_max": 0.0008263587951660156, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1466.0, "timer/env.step_total": 17.91224479675293, "timer/env.step_frac": 0.05967688332503986, "timer/env.step_avg": 0.012218448019613186, "timer/env.step_min": 0.0030508041381835938, "timer/env.step_max": 1.603250503540039, "timer/agent.policy_count": 1466.0, "timer/agent.policy_total": 10.517573356628418, "timer/agent.policy_frac": 0.03504061077703903, "timer/agent.policy_avg": 0.007174333803975729, "timer/agent.policy_min": 0.005612611770629883, "timer/agent.policy_max": 0.015540599822998047, "timer/dataset_count": 733.0, "timer/dataset_total": 0.058443307876586914, "timer/dataset_frac": 0.00019471118806464177, "timer/dataset_avg": 7.97316614960258e-05, "timer/dataset_min": 5.888938903808594e-05, "timer/dataset_max": 0.00013971328735351562, "timer/agent.train_count": 733.0, "timer/agent.train_total": 270.65783071517944, "timer/agent.train_frac": 0.9017304066504348, "timer/agent.train_avg": 0.36924669947500605, "timer/agent.train_min": 0.36381077766418457, "timer/agent.train_max": 0.38082408905029297, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21966004371643066, "timer/agent.report_frac": 0.0007318249023938572, "timer/agent.report_avg": 0.21966004371643066, "timer/agent.report_min": 0.21966004371643066, "timer/agent.report_max": 0.21966004371643066, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.88406900149772}
{"step": 1223311, "episode/length": 276.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 12.700000017881393, "episode/reward_rate": 0.04332129963898917}
{"step": 1223545, "episode/length": 233.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.05555555555555555}
{"step": 1223770, "episode/length": 224.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.100000038743019, "episode/reward_rate": 0.06222222222222222}
{"step": 1224065, "episode/length": 294.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.04745762711864407}
{"step": 1224232, "episode/length": 166.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.08383233532934131}
{"step": 1224472, "episode/length": 239.0, "episode/score": 13.100000023841858, "episode/sum_abs_reward": 15.500000014901161, "episode/reward_rate": 0.0625}
{"step": 1224567, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.40069580078125, "train/action_min": 0.0, "train/action_std": 3.271108031272888, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0361307960572756, "train/actor_opt_grad_steps": 611375.0, "train/actor_opt_loss": -10.313597910520103, "train/adv_mag": 0.4117726259347465, "train/adv_max": 0.3274619535853465, "train/adv_mean": 0.0017251472263524192, "train/adv_min": -0.36878457851707935, "train/adv_std": 0.040788860318975315, "train/cont_avg": 0.9954427083333334, "train/cont_loss_mean": 6.142480983110469e-06, "train/cont_loss_std": 0.0001453324007169638, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 8.596571500442426e-07, "train/cont_pos_acc": 0.999999980131785, "train/cont_pos_loss": 6.164637287259862e-06, "train/cont_pred": 0.9954367081324259, "train/cont_rate": 0.9954427083333334, "train/dyn_loss_mean": 6.195995946725209, "train/dyn_loss_std": 9.254636579089695, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8617465322216352, "train/extr_critic_critic_opt_grad_steps": 611375.0, "train/extr_critic_critic_opt_loss": 15270.805555555555, "train/extr_critic_mag": 12.56856017642551, "train/extr_critic_max": 12.56856017642551, "train/extr_critic_mean": 3.677474624580807, "train/extr_critic_min": -0.2941594570875168, "train/extr_critic_std": 2.9056470659044056, "train/extr_return_normed_mag": 1.370918071932263, "train/extr_return_normed_max": 1.370918071932263, "train/extr_return_normed_mean": 0.37860176981323296, "train/extr_return_normed_min": -0.06801976214369966, "train/extr_return_normed_std": 0.3025306316299571, "train/extr_return_rate": 0.864209931757715, "train/extr_return_raw_mag": 13.32177013821072, "train/extr_return_raw_max": 13.32177013821072, "train/extr_return_raw_mean": 3.6942070689466266, "train/extr_return_raw_min": -0.6385237268275685, "train/extr_return_raw_std": 2.9351799190044403, "train/extr_reward_mag": 1.0897172060277727, "train/extr_reward_max": 1.0897172060277727, "train/extr_reward_mean": 0.06253136678909262, "train/extr_reward_min": -0.6145683626333872, "train/extr_reward_std": 0.2395512426478995, "train/image_loss_mean": 3.7349446747038098, "train/image_loss_std": 10.463075207339394, "train/model_loss_mean": 7.518212940957811, "train/model_loss_std": 14.690566380818685, "train/model_opt_grad_norm": 20.828672064675224, "train/model_opt_grad_steps": 610873.0, "train/model_opt_loss": 18795.53236219618, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.6995418204201593, "train/policy_entropy_max": 2.6995418204201593, "train/policy_entropy_mean": 0.44233767729666496, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6509106867015362, "train/policy_logprob_mag": 7.438384301132626, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4427650264567799, "train/policy_logprob_min": -7.438384301132626, "train/policy_logprob_std": 1.0624739080667496, "train/policy_randomness_mag": 0.9528197944164276, "train/policy_randomness_max": 0.9528197944164276, "train/policy_randomness_mean": 0.1561257897151841, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22974290802246994, "train/post_ent_mag": 55.01333533393012, "train/post_ent_max": 55.01333533393012, "train/post_ent_mean": 39.78786055246989, "train/post_ent_min": 19.49068792661031, "train/post_ent_std": 5.76391777727339, "train/prior_ent_mag": 76.88135316636827, "train/prior_ent_max": 76.88135316636827, "train/prior_ent_mean": 45.97141398323907, "train/prior_ent_min": 27.55041530397203, "train/prior_ent_std": 7.990491979651981, "train/rep_loss_mean": 6.195995946725209, "train/rep_loss_std": 9.254636579089695, "train/reward_avg": 0.051867675294892654, "train/reward_loss_mean": 0.0656645798848735, "train/reward_loss_std": 0.23053497365779346, "train/reward_max_data": 1.0333333412806194, "train/reward_max_pred": 1.0296058754126232, "train/reward_neg_acc": 0.9924302705460124, "train/reward_neg_loss": 0.026268383242293365, "train/reward_pos_acc": 0.9885762019289864, "train/reward_pos_loss": 0.7295018136501312, "train/reward_pred": 0.051328225837399565, "train/reward_rate": 0.055976019965277776, "stats/sum_log_reward": 12.43333371480306, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.5, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 14.166666666666666, "stats/max_log_achievement_collect_wood": 13.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.3333333333333333, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 1.8333333333333333, "stats/max_log_achievement_place_table": 3.6666666666666665, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.5207808713118235, "replay/size": 1000000.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.611447078039111e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.375261601318613e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.03189754486084, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024476289749145508, "timer/logger.write_frac": 8.157895860217931e-05, "timer/logger.write_avg": 0.024476289749145508, "timer/logger.write_min": 0.024476289749145508, "timer/logger.write_max": 0.024476289749145508, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.30154919624328613, "timer/replay.add_frac": 0.001005057124628552, "timer/replay.add_avg": 0.00020882908327097378, "timer/replay.add_min": 7.891654968261719e-05, "timer/replay.add_max": 0.002698659896850586, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1444.0, "timer/env.step_total": 19.568876028060913, "timer/env.step_frac": 0.06522265195198111, "timer/env.step_avg": 0.013551853205028334, "timer/env.step_min": 0.0028543472290039062, "timer/env.step_max": 1.885071039199829, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 12.224586009979248, "timer/agent.policy_frac": 0.040744287890761434, "timer/agent.policy_avg": 0.008465779785304188, "timer/agent.policy_min": 0.005730628967285156, "timer/agent.policy_max": 1.1804273128509521, "timer/dataset_count": 722.0, "timer/dataset_total": 0.05778670310974121, "timer/dataset_frac": 0.00019260186527701086, "timer/dataset_avg": 8.003698491653908e-05, "timer/dataset_min": 6.008148193359375e-05, "timer/dataset_max": 0.000225067138671875, "timer/agent.train_count": 722.0, "timer/agent.train_total": 267.1636698246002, "timer/agent.train_frac": 0.890450888758099, "timer/agent.train_avg": 0.370032783690582, "timer/agent.train_min": 0.36287641525268555, "timer/agent.train_max": 0.8490121364593506, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22219395637512207, "timer/agent.report_frac": 0.000740567780270428, "timer/agent.report_avg": 0.22219395637512207, "timer/agent.report_min": 0.22219395637512207, "timer/agent.report_max": 0.22219395637512207, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00024199485778808594, "timer/checkpoint.save_frac": 8.065637679470491e-07, "timer/checkpoint.save_avg": 0.00024199485778808594, "timer/checkpoint.save_min": 0.00024199485778808594, "timer/checkpoint.save_max": 0.00024199485778808594, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1916546821594238, "timer/agent.save_frac": 0.003971759975891388, "timer/agent.save_avg": 1.1916546821594238, "timer/agent.save_min": 1.1916546821594238, "timer/agent.save_max": 1.1916546821594238, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.461143493652344e-05, "timer/replay.save_frac": 2.1534855282133034e-07, "timer/replay.save_avg": 6.461143493652344e-05, "timer/replay.save_min": 6.461143493652344e-05, "timer/replay.save_max": 6.461143493652344e-05, "fps": 4.812737063054685}
{"step": 1224714, "episode/length": 241.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.700000047683716, "episode/reward_rate": 0.05785123966942149}
{"step": 1224953, "episode/length": 238.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.700000025331974, "episode/reward_rate": 0.06694560669456066}
{"step": 1225200, "episode/length": 246.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.500000037252903, "episode/reward_rate": 0.06072874493927125}
{"step": 1225286, "episode/length": 85.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.100000038743019, "episode/reward_rate": 0.08139534883720931}
{"step": 1225520, "episode/length": 233.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.0641025641025641}
{"step": 1225769, "episode/length": 248.0, "episode/score": 15.100000008940697, "episode/sum_abs_reward": 17.700000002980232, "episode/reward_rate": 0.06827309236947791}
{"step": 1225919, "episode/length": 149.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.900000028312206, "episode/reward_rate": 0.06}
{"step": 1226025, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.48526962489298, "train/action_min": 0.0, "train/action_std": 3.27213318380591, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.035957998915077886, "train/actor_opt_grad_steps": 612100.0, "train/actor_opt_loss": -11.247947451186507, "train/adv_mag": 0.4111765837424422, "train/adv_max": 0.34290113534829386, "train/adv_mean": 0.0016553938727305998, "train/adv_min": -0.34940160382283875, "train/adv_std": 0.04041963670249671, "train/cont_avg": 0.9949700342465754, "train/cont_loss_mean": 0.00014798056816671648, "train/cont_loss_std": 0.004661127459626934, "train/cont_neg_acc": 0.9938356166016565, "train/cont_neg_loss": 0.017112123333916564, "train/cont_pos_acc": 0.9999865203687589, "train/cont_pos_loss": 7.186953439719991e-05, "train/cont_pred": 0.9949733435291134, "train/cont_rate": 0.9949700342465754, "train/dyn_loss_mean": 5.916904220842335, "train/dyn_loss_std": 9.133491908034234, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8760949863146429, "train/extr_critic_critic_opt_grad_steps": 612100.0, "train/extr_critic_critic_opt_loss": 15197.230936964897, "train/extr_critic_mag": 12.758456569828398, "train/extr_critic_max": 12.758456569828398, "train/extr_critic_mean": 3.7732652883007103, "train/extr_critic_min": -0.3206432927144717, "train/extr_critic_std": 3.077356558956512, "train/extr_return_normed_mag": 1.3688051831232357, "train/extr_return_normed_max": 1.3688051831232357, "train/extr_return_normed_mean": 0.3860372858096475, "train/extr_return_normed_min": -0.0697775431589721, "train/extr_return_normed_std": 0.3168546339012172, "train/extr_return_rate": 0.8408203549581031, "train/extr_return_raw_mag": 13.418327579759572, "train/extr_return_raw_max": 13.418327579759572, "train/extr_return_raw_mean": 3.7894876166565776, "train/extr_return_raw_min": -0.6769228838894465, "train/extr_return_raw_std": 3.1047375283829153, "train/extr_reward_mag": 1.0879624249183968, "train/extr_reward_max": 1.0879624249183968, "train/extr_reward_mean": 0.0635537255096109, "train/extr_reward_min": -0.6146348224927302, "train/extr_reward_std": 0.24190099394484743, "train/image_loss_mean": 3.775629468160133, "train/image_loss_std": 10.395669649725091, "train/model_loss_mean": 7.391035772349737, "train/model_loss_std": 14.557811880764897, "train/model_opt_grad_norm": 20.579574584960938, "train/model_opt_grad_steps": 611597.2328767123, "train/model_opt_loss": 19723.324967893837, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2671.2328767123286, "train/policy_entropy_mag": 2.7188185567725194, "train/policy_entropy_max": 2.7188185567725194, "train/policy_entropy_mean": 0.46348629953110054, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6737636846222289, "train/policy_logprob_mag": 7.43838429124388, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.46276135865139634, "train/policy_logprob_min": -7.43838429124388, "train/policy_logprob_std": 1.075105755296472, "train/policy_randomness_mag": 0.959623638897726, "train/policy_randomness_max": 0.959623638897726, "train/policy_randomness_mean": 0.16359032588462308, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23780901546347633, "train/post_ent_mag": 55.39144301741091, "train/post_ent_max": 55.39144301741091, "train/post_ent_mean": 39.89458246100439, "train/post_ent_min": 19.77443721196423, "train/post_ent_std": 5.781694967452794, "train/prior_ent_mag": 76.81984219485766, "train/prior_ent_max": 76.81984219485766, "train/prior_ent_mean": 45.80948309702416, "train/prior_ent_min": 27.719944052500267, "train/prior_ent_std": 8.009036279704473, "train/rep_loss_mean": 5.916904220842335, "train/rep_loss_std": 9.133491908034234, "train/reward_avg": 0.05057389694840124, "train/reward_loss_mean": 0.06511584990849234, "train/reward_loss_std": 0.23057816412350904, "train/reward_max_data": 1.0342465835074857, "train/reward_max_pred": 1.0345898556382689, "train/reward_neg_acc": 0.9928703087649934, "train/reward_neg_loss": 0.026721359345398536, "train/reward_pos_acc": 0.9906825913141851, "train/reward_pos_loss": 0.7223488712963992, "train/reward_pred": 0.05034073130929307, "train/reward_rate": 0.05510220462328767, "stats/sum_log_reward": 12.242857456207275, "stats/max_log_achievement_collect_coal": 1.1428571428571428, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_iron": 0.14285714285714285, "stats/max_log_achievement_collect_sapling": 1.1428571428571428, "stats/max_log_achievement_collect_stone": 14.285714285714286, "stats/max_log_achievement_collect_wood": 11.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.5714285714285714, "stats/max_log_achievement_eat_cow": 0.7142857142857143, "stats/max_log_achievement_make_stone_pickaxe": 0.5714285714285714, "stats/max_log_achievement_make_stone_sword": 0.8571428571428571, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.4285714285714286, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 2.857142857142857, "stats/max_log_achievement_place_table": 3.5714285714285716, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.475861947451319, "replay/size": 1000000.0, "replay/inserts": 1458.0, "replay/samples": 11664.0, "replay/insert_wait_avg": 3.521334487224312e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3666347548140747e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.22865748405457, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025105714797973633, "timer/logger.write_frac": 8.362198002136762e-05, "timer/logger.write_avg": 0.025105714797973633, "timer/logger.write_min": 0.025105714797973633, "timer/logger.write_max": 0.025105714797973633, "timer/replay.add_count": 1458.0, "timer/replay.add_total": 0.3144075870513916, "timer/replay.add_frac": 0.0010472271024563674, "timer/replay.add_avg": 0.00021564306382125623, "timer/replay.add_min": 8.463859558105469e-05, "timer/replay.add_max": 0.0009598731994628906, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1458.0, "timer/env.step_total": 19.232851266860962, "timer/env.step_frac": 0.06406067771156201, "timer/env.step_avg": 0.013191256012936187, "timer/env.step_min": 0.003040790557861328, "timer/env.step_max": 1.5931692123413086, "timer/agent.policy_count": 1458.0, "timer/agent.policy_total": 10.548482656478882, "timer/agent.policy_frac": 0.03513482938263188, "timer/agent.policy_avg": 0.0072348989413435405, "timer/agent.policy_min": 0.005667448043823242, "timer/agent.policy_max": 0.01581573486328125, "timer/dataset_count": 729.0, "timer/dataset_total": 0.05808758735656738, "timer/dataset_frac": 0.00019347782401369352, "timer/dataset_avg": 7.968118978953002e-05, "timer/dataset_min": 5.7697296142578125e-05, "timer/dataset_max": 0.0001423358917236328, "timer/agent.train_count": 729.0, "timer/agent.train_total": 269.35801672935486, "timer/agent.train_frac": 0.8971762355619257, "timer/agent.train_avg": 0.36948973488251696, "timer/agent.train_min": 0.3599700927734375, "timer/agent.train_max": 0.38241028785705566, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2200000286102295, "timer/agent.report_frac": 0.000732774913806867, "timer/agent.report_avg": 0.2200000286102295, "timer/agent.report_min": 0.2200000286102295, "timer/agent.report_max": 0.2200000286102295, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.856203686486197}
{"step": 1226161, "episode/length": 241.0, "episode/score": 14.100000023841858, "episode/sum_abs_reward": 16.30000001192093, "episode/reward_rate": 0.06611570247933884}
{"step": 1226350, "episode/length": 188.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.06878306878306878}
{"step": 1226516, "episode/length": 165.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.0783132530120482}
{"step": 1226717, "episode/length": 200.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.500000037252903, "episode/reward_rate": 0.05970149253731343}
{"step": 1227141, "episode/length": 423.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 11.500000037252903, "episode/reward_rate": 0.02122641509433962}
{"step": 1227312, "episode/length": 170.0, "episode/score": 6.0999999940395355, "episode/sum_abs_reward": 8.300000011920929, "episode/reward_rate": 0.04678362573099415}
{"step": 1227493, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.454271290400257, "train/action_min": 0.0, "train/action_std": 3.2890320248799783, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.036438790800636764, "train/actor_opt_grad_steps": 612830.0, "train/actor_opt_loss": -13.967772761436358, "train/adv_mag": 0.39778972039483995, "train/adv_max": 0.30869242222341775, "train/adv_mean": 0.0013432968957054633, "train/adv_min": -0.36983416423405685, "train/adv_std": 0.04057927582770178, "train/cont_avg": 0.995652290239726, "train/cont_loss_mean": 9.95794451171345e-06, "train/cont_loss_std": 0.0002940895306008643, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00016521810688350605, "train/cont_pos_acc": 0.9999999795874505, "train/cont_pos_loss": 9.092878102960706e-06, "train/cont_pred": 0.9956445881765182, "train/cont_rate": 0.995652290239726, "train/dyn_loss_mean": 5.916950637347077, "train/dyn_loss_std": 9.055102002130797, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8726664267174186, "train/extr_critic_critic_opt_grad_steps": 612830.0, "train/extr_critic_critic_opt_loss": 15085.885193707192, "train/extr_critic_mag": 12.694599935453232, "train/extr_critic_max": 12.694599935453232, "train/extr_critic_mean": 3.799156904220581, "train/extr_critic_min": -0.33098496312964454, "train/extr_critic_std": 2.9685368505242753, "train/extr_return_normed_mag": 1.3788413985134804, "train/extr_return_normed_max": 1.3788413985134804, "train/extr_return_normed_mean": 0.3916137273589226, "train/extr_return_normed_min": -0.06559023077357305, "train/extr_return_normed_std": 0.30696841217067145, "train/extr_return_rate": 0.8544387245831424, "train/extr_return_raw_mag": 13.454144752188904, "train/extr_return_raw_max": 13.454144752188904, "train/extr_return_raw_mean": 3.812301358131513, "train/extr_return_raw_min": -0.6535554217965636, "train/extr_return_raw_std": 2.998272320995592, "train/extr_reward_mag": 1.0859826362296328, "train/extr_reward_max": 1.0859826362296328, "train/extr_reward_mean": 0.06438998980064915, "train/extr_reward_min": -0.5830734184343521, "train/extr_reward_std": 0.24307144116865445, "train/image_loss_mean": 3.6338358611276704, "train/image_loss_std": 9.414789036528704, "train/model_loss_mean": 7.249066509612619, "train/model_loss_std": 13.587635536716409, "train/model_opt_grad_norm": 21.16154820951697, "train/model_opt_grad_steps": 612326.6164383561, "train/model_opt_loss": 18375.650390625, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2534.246575342466, "train/policy_entropy_mag": 2.7145457888302738, "train/policy_entropy_max": 2.7145457888302738, "train/policy_entropy_mean": 0.4540456823290211, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6700379897470343, "train/policy_logprob_mag": 7.43838429124388, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4545614102931872, "train/policy_logprob_min": -7.43838429124388, "train/policy_logprob_std": 1.0717457737008187, "train/policy_randomness_mag": 0.9581155385056587, "train/policy_randomness_max": 0.9581155385056587, "train/policy_randomness_mean": 0.16025820333663732, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2364940051346609, "train/post_ent_mag": 54.95932665263137, "train/post_ent_max": 54.95932665263137, "train/post_ent_mean": 39.74213357167701, "train/post_ent_min": 19.63372246206623, "train/post_ent_std": 5.720610749231626, "train/prior_ent_mag": 76.92723240264475, "train/prior_ent_max": 76.92723240264475, "train/prior_ent_mean": 45.639893675503664, "train/prior_ent_min": 27.428151326636744, "train/prior_ent_std": 7.9329679632840095, "train/rep_loss_mean": 5.916950637347077, "train/rep_loss_std": 9.055102002130797, "train/reward_avg": 0.053161118587810696, "train/reward_loss_mean": 0.06505029352560435, "train/reward_loss_std": 0.2248585250687926, "train/reward_max_data": 1.0397260368686834, "train/reward_max_pred": 1.0373251487130988, "train/reward_neg_acc": 0.9920641241008288, "train/reward_neg_loss": 0.02520383123869765, "train/reward_pos_acc": 0.9893228999555927, "train/reward_pos_loss": 0.7221471503989337, "train/reward_pred": 0.05276218817046244, "train/reward_rate": 0.05722923801369863, "stats/sum_log_reward": 10.600000143051147, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 4.5, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 8.5, "stats/max_log_achievement_collect_wood": 12.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.6666666666666667, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.1666666666666667, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 2.1666666666666665, "stats/max_log_achievement_place_table": 2.8333333333333335, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.39493391911188763, "replay/size": 1000000.0, "replay/inserts": 1468.0, "replay/samples": 11744.0, "replay/insert_wait_avg": 3.5902459874789785e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3708459259053991e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2168138027191, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03590655326843262, "timer/logger.write_frac": 0.00011960207296060313, "timer/logger.write_avg": 0.03590655326843262, "timer/logger.write_min": 0.03590655326843262, "timer/logger.write_max": 0.03590655326843262, "timer/replay.add_count": 1468.0, "timer/replay.add_total": 0.3010401725769043, "timer/replay.add_frac": 0.0010027425471736777, "timer/replay.add_avg": 0.0002050682374502073, "timer/replay.add_min": 8.344650268554688e-05, "timer/replay.add_max": 0.0010519027709960938, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1468.0, "timer/env.step_total": 17.41649103164673, "timer/env.step_frac": 0.0580130433437069, "timer/env.step_avg": 0.011864094708206218, "timer/env.step_min": 0.003139019012451172, "timer/env.step_max": 1.5985918045043945, "timer/agent.policy_count": 1468.0, "timer/agent.policy_total": 10.506186485290527, "timer/agent.policy_frac": 0.034995330049017295, "timer/agent.policy_avg": 0.0071568027828954545, "timer/agent.policy_min": 0.005645751953125, "timer/agent.policy_max": 0.015496969223022461, "timer/dataset_count": 734.0, "timer/dataset_total": 0.05882906913757324, "timer/dataset_frac": 0.00019595527776212918, "timer/dataset_avg": 8.01485955552769e-05, "timer/dataset_min": 5.984306335449219e-05, "timer/dataset_max": 0.0001964569091796875, "timer/agent.train_count": 734.0, "timer/agent.train_total": 271.207745552063, "timer/agent.train_frac": 0.9033729394326369, "timer/agent.train_avg": 0.36949284135158444, "timer/agent.train_min": 0.36080026626586914, "timer/agent.train_max": 0.3829524517059326, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2202763557434082, "timer/agent.report_frac": 0.0007337242473306574, "timer/agent.report_avg": 0.2202763557434082, "timer/agent.report_min": 0.2202763557434082, "timer/agent.report_max": 0.2202763557434082, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.8897114591277555}
{"step": 1227529, "episode/length": 216.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.059907834101382486}
{"step": 1227765, "episode/length": 235.0, "episode/score": 13.100000023841858, "episode/sum_abs_reward": 15.300000011920929, "episode/reward_rate": 0.0635593220338983}
{"step": 1228055, "episode/length": 289.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.05172413793103448}
{"step": 1228237, "episode/length": 181.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.07142857142857142}
{"step": 1228456, "episode/length": 218.0, "episode/score": 14.100000023841858, "episode/sum_abs_reward": 16.900000020861626, "episode/reward_rate": 0.0730593607305936}
{"step": 1228524, "episode/length": 67.0, "episode/score": 4.100000016391277, "episode/sum_abs_reward": 5.500000037252903, "episode/reward_rate": 0.07352941176470588}
{"step": 1228797, "episode/length": 272.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.054945054945054944}
{"step": 1228851, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.462653664981618, "train/action_min": 0.0, "train/action_std": 3.3024765218005463, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.035251479842426145, "train/actor_opt_grad_steps": 613535.0, "train/actor_opt_loss": -12.86862227364498, "train/adv_mag": 0.3884640465326169, "train/adv_max": 0.32864389743875055, "train/adv_mean": 0.001049208384275142, "train/adv_min": -0.35022317201775666, "train/adv_std": 0.04092057153363438, "train/cont_avg": 0.994873046875, "train/cont_loss_mean": 4.183455779958959e-05, "train/cont_loss_std": 0.0013221309507100857, "train/cont_neg_acc": 0.9981617647058824, "train/cont_neg_loss": 0.004090543737719378, "train/cont_pos_acc": 0.9999999842223, "train/cont_pos_loss": 9.980149450750098e-06, "train/cont_pred": 0.9948768221280154, "train/cont_rate": 0.994873046875, "train/dyn_loss_mean": 6.023780261769014, "train/dyn_loss_std": 9.145663093118106, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8666691315524718, "train/extr_critic_critic_opt_grad_steps": 613535.0, "train/extr_critic_critic_opt_loss": 15166.329245174633, "train/extr_critic_mag": 12.881518195657168, "train/extr_critic_max": 12.881518195657168, "train/extr_critic_mean": 3.8205435276031494, "train/extr_critic_min": -0.37348245522555185, "train/extr_critic_std": 3.1498423253788665, "train/extr_return_normed_mag": 1.3910433141624226, "train/extr_return_normed_max": 1.3910433141624226, "train/extr_return_normed_mean": 0.3930322950815453, "train/extr_return_normed_min": -0.06674032515900977, "train/extr_return_normed_std": 0.32227198932977286, "train/extr_return_rate": 0.8297909463153166, "train/extr_return_raw_mag": 13.665206993327422, "train/extr_return_raw_max": 13.665206993327422, "train/extr_return_raw_mean": 3.830957952667685, "train/extr_return_raw_min": -0.6979421526193619, "train/extr_return_raw_std": 3.1747956416186165, "train/extr_reward_mag": 1.0819508643711315, "train/extr_reward_max": 1.0819508643711315, "train/extr_reward_mean": 0.0644731622956255, "train/extr_reward_min": -0.6254829010542702, "train/extr_reward_std": 0.24365314622135723, "train/image_loss_mean": 3.7180642520680145, "train/image_loss_std": 9.93329431028927, "train/model_loss_mean": 7.4008850069607, "train/model_loss_std": 14.086520770016838, "train/model_opt_grad_norm": 19.401099906248206, "train/model_opt_grad_steps": 613031.0, "train/model_opt_loss": 18502.212488511028, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.730965453035691, "train/policy_entropy_max": 2.730965453035691, "train/policy_entropy_mean": 0.47744517554255095, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6929562797441202, "train/policy_logprob_mag": 7.438384287497577, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.47696349375388203, "train/policy_logprob_min": -7.438384287497577, "train/policy_logprob_std": 1.0889861276921105, "train/policy_randomness_mag": 0.9639109600992763, "train/policy_randomness_max": 0.9639109600992763, "train/policy_randomness_mean": 0.16851719479788752, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24458315179628484, "train/post_ent_mag": 54.78685687570011, "train/post_ent_max": 54.78685687570011, "train/post_ent_mean": 39.78388550702263, "train/post_ent_min": 19.440019383149988, "train/post_ent_std": 5.706648419885075, "train/prior_ent_mag": 76.86238019606647, "train/prior_ent_max": 76.86238019606647, "train/prior_ent_mean": 45.78710802863626, "train/prior_ent_min": 27.295892126419965, "train/prior_ent_std": 8.038594414206113, "train/rep_loss_mean": 6.023780261769014, "train/rep_loss_std": 9.145663093118106, "train/reward_avg": 0.05351562411798274, "train/reward_loss_mean": 0.0685108105706818, "train/reward_loss_std": 0.23355694772566066, "train/reward_max_data": 1.0411764804054708, "train/reward_max_pred": 1.04110205524108, "train/reward_neg_acc": 0.9921644619282555, "train/reward_neg_loss": 0.028580361045897007, "train/reward_pos_acc": 0.9910049026503283, "train/reward_pos_loss": 0.7130539259489845, "train/reward_pred": 0.05323288573280854, "train/reward_rate": 0.058148552389705885, "stats/sum_log_reward": 11.957143034253802, "stats/max_log_achievement_collect_coal": 1.1428571428571428, "stats/max_log_achievement_collect_drink": 2.4285714285714284, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 11.714285714285714, "stats/max_log_achievement_collect_wood": 10.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.7142857142857142, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_stone_sword": 0.7142857142857143, "stats/max_log_achievement_make_wood_pickaxe": 1.2857142857142858, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.2857142857142858, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 2.7142857142857144, "stats/max_log_achievement_place_table": 2.7142857142857144, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.5037814400025776, "replay/size": 1000000.0, "replay/inserts": 1358.0, "replay/samples": 10864.0, "replay/insert_wait_avg": 3.6315819651810162e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3490927588079393e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3612298965454, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03164243698120117, "timer/logger.write_frac": 0.00010534794051848802, "timer/logger.write_avg": 0.03164243698120117, "timer/logger.write_min": 0.03164243698120117, "timer/logger.write_max": 0.03164243698120117, "timer/replay.add_count": 1358.0, "timer/replay.add_total": 0.27593064308166504, "timer/replay.add_frac": 0.0009186626488934838, "timer/replay.add_avg": 0.0002031889860689728, "timer/replay.add_min": 8.821487426757812e-05, "timer/replay.add_max": 0.0011706352233886719, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1358.0, "timer/env.step_total": 18.881245613098145, "timer/env.step_frac": 0.06286179351310249, "timer/env.step_avg": 0.013903715473562698, "timer/env.step_min": 0.0028734207153320312, "timer/env.step_max": 1.6090247631072998, "timer/agent.policy_count": 1358.0, "timer/agent.policy_total": 14.119275331497192, "timer/agent.policy_frac": 0.047007649210786456, "timer/agent.policy_avg": 0.010397109964283648, "timer/agent.policy_min": 0.0056858062744140625, "timer/agent.policy_max": 3.0757336616516113, "timer/dataset_count": 679.0, "timer/dataset_total": 0.055200815200805664, "timer/dataset_frac": 0.00018378142618412734, "timer/dataset_avg": 8.129722415435296e-05, "timer/dataset_min": 6.008148193359375e-05, "timer/dataset_max": 0.000148773193359375, "timer/agent.train_count": 679.0, "timer/agent.train_total": 266.33434891700745, "timer/agent.train_frac": 0.886713471671234, "timer/agent.train_avg": 0.3922449910412481, "timer/agent.train_min": 0.3639395236968994, "timer/agent.train_max": 0.47316980361938477, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21677923202514648, "timer/agent.report_frac": 0.0007217284071576502, "timer/agent.report_avg": 0.21677923202514648, "timer/agent.report_min": 0.21677923202514648, "timer/agent.report_max": 0.21677923202514648, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0006489753723144531, "timer/checkpoint.save_frac": 2.160649603605573e-06, "timer/checkpoint.save_avg": 0.0006489753723144531, "timer/checkpoint.save_min": 0.0006489753723144531, "timer/checkpoint.save_max": 0.0006489753723144531, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1606369018554688, "timer/agent.save_frac": 0.003864136866982571, "timer/agent.save_avg": 1.1606369018554688, "timer/agent.save_min": 1.1606369018554688, "timer/agent.save_max": 1.1606369018554688, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.605552673339844e-05, "timer/replay.save_frac": 2.532135281227692e-07, "timer/replay.save_avg": 7.605552673339844e-05, "timer/replay.save_min": 7.605552673339844e-05, "timer/replay.save_max": 7.605552673339844e-05, "fps": 4.521158561357018}
{"step": 1228948, "episode/length": 150.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.0728476821192053}
{"step": 1229377, "episode/length": 428.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.30000001937151, "episode/reward_rate": 0.023310023310023312}
{"step": 1229631, "episode/length": 253.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.05905511811023622}
{"step": 1229886, "episode/length": 254.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.700000002980232, "episode/reward_rate": 0.06274509803921569}
{"step": 1230094, "episode/length": 207.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.07211538461538461}
{"step": 1230173, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.470763235381155, "train/action_min": 0.0, "train/action_std": 3.2995536146741924, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.037145759402350945, "train/actor_opt_grad_steps": 614205.0, "train/actor_opt_loss": -11.291696168256529, "train/adv_mag": 0.42732084249005176, "train/adv_max": 0.36625456087517017, "train/adv_mean": 0.0017781076336508374, "train/adv_min": -0.3750002115513339, "train/adv_std": 0.04148639292653763, "train/cont_avg": 0.9951467803030303, "train/cont_loss_mean": 9.525089087783405e-05, "train/cont_loss_std": 0.0029941483615092343, "train/cont_neg_acc": 0.9969696971503171, "train/cont_neg_loss": 0.003281387345649658, "train/cont_pos_acc": 0.9999702897938815, "train/cont_pos_loss": 7.862032500184593e-05, "train/cont_pred": 0.9951237322706165, "train/cont_rate": 0.9951467803030303, "train/dyn_loss_mean": 5.931408340280706, "train/dyn_loss_std": 9.05903215119333, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8528827184980566, "train/extr_critic_critic_opt_grad_steps": 614205.0, "train/extr_critic_critic_opt_loss": 15186.906457149622, "train/extr_critic_mag": 12.729996218825832, "train/extr_critic_max": 12.729996218825832, "train/extr_critic_mean": 3.755699974117857, "train/extr_critic_min": -0.32704643227837304, "train/extr_critic_std": 3.0162144754872178, "train/extr_return_normed_mag": 1.3867387500676243, "train/extr_return_normed_max": 1.3867387500676243, "train/extr_return_normed_mean": 0.3937329762812817, "train/extr_return_normed_min": -0.0657970720168316, "train/extr_return_normed_std": 0.3135867098515684, "train/extr_return_rate": 0.8521731432640192, "train/extr_return_raw_mag": 13.400491916772092, "train/extr_return_raw_max": 13.400491916772092, "train/extr_return_raw_mean": 3.7729715433987705, "train/extr_return_raw_min": -0.682901506171082, "train/extr_return_raw_std": 3.040755725268162, "train/extr_reward_mag": 1.0826953902389065, "train/extr_reward_max": 1.0826953902389065, "train/extr_reward_mean": 0.06625740563101841, "train/extr_reward_min": -0.5830026467641195, "train/extr_reward_std": 0.24639717624946075, "train/image_loss_mean": 3.62168676925428, "train/image_loss_std": 9.963668230808143, "train/model_loss_mean": 7.246253389300722, "train/model_loss_std": 14.146186496272232, "train/model_opt_grad_norm": 19.336725596225623, "train/model_opt_grad_steps": 613700.1515151515, "train/model_opt_loss": 19770.5390625, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2727.2727272727275, "train/policy_entropy_mag": 2.7082946625622837, "train/policy_entropy_max": 2.7082946625622837, "train/policy_entropy_mean": 0.444938733270674, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6561290246970726, "train/policy_logprob_mag": 7.438384251161055, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.44315686551007355, "train/policy_logprob_min": -7.438384251161055, "train/policy_logprob_std": 1.0602764830444797, "train/policy_randomness_mag": 0.9559091690814856, "train/policy_randomness_max": 0.9559091690814856, "train/policy_randomness_mean": 0.15704384717074307, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23158475282517346, "train/post_ent_mag": 54.724252816402554, "train/post_ent_max": 54.724252816402554, "train/post_ent_mean": 39.83226932178844, "train/post_ent_min": 19.628005547956988, "train/post_ent_std": 5.710817943919789, "train/prior_ent_mag": 76.85401743108577, "train/prior_ent_max": 76.85401743108577, "train/prior_ent_mean": 45.704051509048, "train/prior_ent_min": 27.444044026461516, "train/prior_ent_std": 7.879868550734087, "train/rep_loss_mean": 5.931408340280706, "train/rep_loss_std": 9.05903215119333, "train/reward_avg": 0.05320046091395797, "train/reward_loss_mean": 0.06562649148205917, "train/reward_loss_std": 0.22857650391983264, "train/reward_max_data": 1.0393939487861865, "train/reward_max_pred": 1.0347630724762424, "train/reward_neg_acc": 0.9922290317939989, "train/reward_neg_loss": 0.026332987274861698, "train/reward_pos_acc": 0.9932611747221514, "train/reward_pos_loss": 0.7106488410270575, "train/reward_pred": 0.052960221796776306, "train/reward_rate": 0.05735085227272727, "stats/sum_log_reward": 12.300000190734863, "stats/max_log_achievement_collect_coal": 1.4, "stats/max_log_achievement_collect_drink": 5.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.6, "stats/max_log_achievement_collect_stone": 12.6, "stats/max_log_achievement_collect_wood": 11.0, "stats/max_log_achievement_defeat_skeleton": 0.2, "stats/max_log_achievement_defeat_zombie": 1.4, "stats/max_log_achievement_eat_cow": 0.6, "stats/max_log_achievement_make_stone_pickaxe": 0.8, "stats/max_log_achievement_make_stone_sword": 0.6, "stats/max_log_achievement_make_wood_pickaxe": 1.2, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.6, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 2.4, "stats/max_log_achievement_wake_up": 1.2, "stats/mean_log_entropy": 0.5421656727790832, "replay/size": 1000000.0, "replay/inserts": 1322.0, "replay/samples": 10576.0, "replay/insert_wait_avg": 3.542012778785694e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3722819748155648e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.31664633750916, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024569034576416016, "timer/logger.write_frac": 8.181043200916757e-05, "timer/logger.write_avg": 0.024569034576416016, "timer/logger.write_min": 0.024569034576416016, "timer/logger.write_max": 0.024569034576416016, "timer/replay.add_count": 1322.0, "timer/replay.add_total": 0.2765531539916992, "timer/replay.add_frac": 0.0009208718776144581, "timer/replay.add_avg": 0.00020919300604515826, "timer/replay.add_min": 8.630752563476562e-05, "timer/replay.add_max": 0.0008962154388427734, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1322.0, "timer/env.step_total": 15.353450059890747, "timer/env.step_frac": 0.051124205891124194, "timer/env.step_avg": 0.01161380488645291, "timer/env.step_min": 0.00289154052734375, "timer/env.step_max": 1.6322674751281738, "timer/agent.policy_count": 1322.0, "timer/agent.policy_total": 9.825190305709839, "timer/agent.policy_frac": 0.03271610290515783, "timer/agent.policy_avg": 0.0074320652841980625, "timer/agent.policy_min": 0.00565791130065918, "timer/agent.policy_max": 0.017451763153076172, "timer/dataset_count": 661.0, "timer/dataset_total": 0.05328989028930664, "timer/dataset_frac": 0.00017744567588643455, "timer/dataset_avg": 8.062010633783152e-05, "timer/dataset_min": 6.031990051269531e-05, "timer/dataset_max": 0.00018596649169921875, "timer/agent.train_count": 661.0, "timer/agent.train_total": 274.1236138343811, "timer/agent.train_frac": 0.9127819492440283, "timer/agent.train_avg": 0.41471045965867037, "timer/agent.train_min": 0.3727574348449707, "timer/agent.train_max": 0.46837401390075684, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2335965633392334, "timer/agent.report_frac": 0.0007778342166111805, "timer/agent.report_avg": 0.2335965633392334, "timer/agent.report_min": 0.2335965633392334, "timer/agent.report_max": 0.2335965633392334, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.401936600008253}
{"step": 1230395, "episode/length": 300.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 17.500000052154064, "episode/reward_rate": 0.04983388704318937}
{"step": 1230585, "episode/length": 189.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06315789473684211}
{"step": 1230800, "episode/length": 214.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.06046511627906977}
{"step": 1230951, "episode/length": 150.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.09271523178807947}
{"step": 1231227, "episode/length": 275.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 18.30000003427267, "episode/reward_rate": 0.057971014492753624}
{"step": 1231448, "episode/length": 220.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.06334841628959276}
{"step": 1231486, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.429948286576704, "train/action_min": 0.0, "train/action_std": 3.3017146659619883, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0364988986684969, "train/actor_opt_grad_steps": 614865.0, "train/actor_opt_loss": -10.152468524139488, "train/adv_mag": 0.4217284710118265, "train/adv_max": 0.3430141215071534, "train/adv_mean": 0.0018574185805846355, "train/adv_min": -0.37499073712211667, "train/adv_std": 0.04123153989062165, "train/cont_avg": 0.9953983191287878, "train/cont_loss_mean": 4.0012650730018734e-05, "train/cont_loss_std": 0.0012302401024157916, "train/cont_neg_acc": 0.9974747480768146, "train/cont_neg_loss": 0.0058610781816780255, "train/cont_pos_acc": 0.9999999810348857, "train/cont_pos_loss": 6.2314907487022575e-06, "train/cont_pred": 0.995406920259649, "train/cont_rate": 0.9953983191287878, "train/dyn_loss_mean": 6.1457900495240185, "train/dyn_loss_std": 9.054626833308827, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8797175992618907, "train/extr_critic_critic_opt_grad_steps": 614865.0, "train/extr_critic_critic_opt_loss": 15243.42881451231, "train/extr_critic_mag": 12.617337226867676, "train/extr_critic_max": 12.617337226867676, "train/extr_critic_mean": 3.627818743387858, "train/extr_critic_min": -0.3188320416392702, "train/extr_critic_std": 2.958985274488276, "train/extr_return_normed_mag": 1.3833895993955208, "train/extr_return_normed_max": 1.3833895993955208, "train/extr_return_normed_mean": 0.3827298983479991, "train/extr_return_normed_min": -0.06289248636951952, "train/extr_return_normed_std": 0.3101952089504762, "train/extr_return_rate": 0.8451714813709259, "train/extr_return_raw_mag": 13.261153076634262, "train/extr_return_raw_max": 13.261153076634262, "train/extr_return_raw_mean": 3.6456396904858677, "train/extr_return_raw_min": -0.6367243528366089, "train/extr_return_raw_std": 2.9809115799990566, "train/extr_reward_mag": 1.0861301747235386, "train/extr_reward_max": 1.0861301747235386, "train/extr_reward_mean": 0.06379489984476205, "train/extr_reward_min": -0.5729770263036092, "train/extr_reward_std": 0.24187846888195386, "train/image_loss_mean": 3.753200234788837, "train/image_loss_std": 9.509924512920957, "train/model_loss_mean": 7.5050098607034395, "train/model_loss_std": 13.624975110545304, "train/model_opt_grad_norm": 20.598199569817744, "train/model_opt_grad_steps": 614359.7878787878, "train/model_opt_loss": 21048.710878314392, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2803.030303030303, "train/policy_entropy_mag": 2.7384437756104902, "train/policy_entropy_max": 2.7384437756104902, "train/policy_entropy_mean": 0.46744958875757275, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6901577404051116, "train/policy_logprob_mag": 7.438384301734693, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4664730081955592, "train/policy_logprob_min": -7.438384301734693, "train/policy_logprob_std": 1.0803393685456477, "train/policy_randomness_mag": 0.9665504820419081, "train/policy_randomness_max": 0.9665504820419081, "train/policy_randomness_mean": 0.16498919079701105, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2435953924150178, "train/post_ent_mag": 54.91993580442487, "train/post_ent_max": 54.91993580442487, "train/post_ent_mean": 39.85417209972035, "train/post_ent_min": 19.635295188788213, "train/post_ent_std": 5.7914549148443975, "train/prior_ent_mag": 76.90422300858931, "train/prior_ent_max": 76.90422300858931, "train/prior_ent_mean": 46.00056145407937, "train/prior_ent_min": 27.59458790403424, "train/prior_ent_std": 7.85174908060016, "train/rep_loss_mean": 6.1457900495240185, "train/rep_loss_std": 9.054626833308827, "train/reward_avg": 0.05114672067716266, "train/reward_loss_mean": 0.0642957232440963, "train/reward_loss_std": 0.21940058785857577, "train/reward_max_data": 1.0333333412806194, "train/reward_max_pred": 1.0354177446076365, "train/reward_neg_acc": 0.9918535514311357, "train/reward_neg_loss": 0.02639844354637193, "train/reward_pos_acc": 0.9933730959892273, "train/reward_pos_loss": 0.7094745915947538, "train/reward_pred": 0.05092346419890722, "train/reward_rate": 0.05538293087121212, "stats/sum_log_reward": 13.100000222524008, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 3.1666666666666665, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 16.666666666666668, "stats/max_log_achievement_collect_wood": 11.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.8333333333333334, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 0.5, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.8333333333333333, "stats/max_log_achievement_place_plant": 1.1666666666666667, "stats/max_log_achievement_place_stone": 3.5, "stats/max_log_achievement_place_table": 2.8333333333333335, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.36991186688343686, "replay/size": 1000000.0, "replay/inserts": 1313.0, "replay/samples": 10496.0, "replay/insert_wait_avg": 3.558483545052034e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3660230651134398e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0042350292206, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03365755081176758, "timer/logger.write_frac": 0.00011219025227590308, "timer/logger.write_avg": 0.03365755081176758, "timer/logger.write_min": 0.03365755081176758, "timer/logger.write_max": 0.03365755081176758, "timer/replay.add_count": 1313.0, "timer/replay.add_total": 0.264507532119751, "timer/replay.add_frac": 0.000881679327273456, "timer/replay.add_avg": 0.000201452804356246, "timer/replay.add_min": 7.367134094238281e-05, "timer/replay.add_max": 0.000957489013671875, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1313.0, "timer/env.step_total": 17.3606276512146, "timer/env.step_frac": 0.057867941929298644, "timer/env.step_avg": 0.013222107883636406, "timer/env.step_min": 0.0031211376190185547, "timer/env.step_max": 1.6924126148223877, "timer/agent.policy_count": 1313.0, "timer/agent.policy_total": 9.832254886627197, "timer/agent.policy_frac": 0.03277372029654691, "timer/agent.policy_avg": 0.007488389098725969, "timer/agent.policy_min": 0.0057332515716552734, "timer/agent.policy_max": 0.018744707107543945, "timer/dataset_count": 656.0, "timer/dataset_total": 0.05259203910827637, "timer/dataset_frac": 0.0001753043222978298, "timer/dataset_avg": 8.017079132359202e-05, "timer/dataset_min": 5.7220458984375e-05, "timer/dataset_max": 0.0001494884490966797, "timer/agent.train_count": 656.0, "timer/agent.train_total": 271.8031165599823, "timer/agent.train_frac": 0.9059975987789256, "timer/agent.train_avg": 0.41433401914631446, "timer/agent.train_min": 0.3671534061431885, "timer/agent.train_max": 0.45041751861572266, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.23067426681518555, "timer/agent.report_frac": 0.0007689033682898434, "timer/agent.report_avg": 0.23067426681518555, "timer/agent.report_min": 0.23067426681518555, "timer/agent.report_max": 0.23067426681518555, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.376522726999494}
{"step": 1231639, "episode/length": 190.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 15.899999991059303, "episode/reward_rate": 0.08376963350785341}
{"step": 1231851, "episode/length": 211.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.900000005960464, "episode/reward_rate": 0.07075471698113207}
{"step": 1232009, "episode/length": 157.0, "episode/score": 13.099999964237213, "episode/sum_abs_reward": 15.099999994039536, "episode/reward_rate": 0.08860759493670886}
{"step": 1232228, "episode/length": 218.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.0639269406392694}
{"step": 1232525, "episode/length": 296.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 14.900000013411045, "episode/reward_rate": 0.04713804713804714}
{"step": 1232680, "episode/length": 154.0, "episode/score": 12.100000016391277, "episode/sum_abs_reward": 13.30000003427267, "episode/reward_rate": 0.08387096774193549}
{"step": 1232777, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.489102363586426, "train/action_min": 0.0, "train/action_std": 3.336981475353241, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.036552636593114585, "train/actor_opt_grad_steps": 615515.0, "train/actor_opt_loss": -8.429057388566434, "train/adv_mag": 0.4250708776526153, "train/adv_max": 0.3406836409121752, "train/adv_mean": 0.002322853593113905, "train/adv_min": -0.3773365179076791, "train/adv_std": 0.04109268507454544, "train/cont_avg": 0.9952392578125, "train/cont_loss_mean": 7.705077876364597e-05, "train/cont_loss_std": 0.002426796461582059, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00019808258847281435, "train/cont_pos_acc": 0.9999846164137125, "train/cont_pos_loss": 7.665454255607884e-05, "train/cont_pred": 0.995215617120266, "train/cont_rate": 0.9952392578125, "train/dyn_loss_mean": 5.9052843898534775, "train/dyn_loss_std": 9.140401989221573, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8655846482142806, "train/extr_critic_critic_opt_grad_steps": 615515.0, "train/extr_critic_critic_opt_loss": 15153.417663574219, "train/extr_critic_mag": 12.482654422521591, "train/extr_critic_max": 12.482654422521591, "train/extr_critic_mean": 3.756703082472086, "train/extr_critic_min": -0.30558057874441147, "train/extr_critic_std": 2.980982631444931, "train/extr_return_normed_mag": 1.3715727776288986, "train/extr_return_normed_max": 1.3715727776288986, "train/extr_return_normed_mean": 0.3934684507548809, "train/extr_return_normed_min": -0.06254210387123749, "train/extr_return_normed_std": 0.31151057593524456, "train/extr_return_rate": 0.8570546889677644, "train/extr_return_raw_mag": 13.220893889665604, "train/extr_return_raw_max": 13.220893889665604, "train/extr_return_raw_mean": 3.7791445665061474, "train/extr_return_raw_min": -0.6236044995021075, "train/extr_return_raw_std": 3.0075812488794327, "train/extr_reward_mag": 1.0891268253326416, "train/extr_reward_max": 1.0891268253326416, "train/extr_reward_mean": 0.06296195444883779, "train/extr_reward_min": -0.5917324461042881, "train/extr_reward_std": 0.24088724423199892, "train/image_loss_mean": 3.6365067027509212, "train/image_loss_std": 9.556416526436806, "train/model_loss_mean": 7.2435062527656555, "train/model_loss_std": 13.790274113416672, "train/model_opt_grad_norm": 21.14125031232834, "train/model_opt_grad_steps": 615009.0, "train/model_opt_loss": 18108.765594482422, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7475984692573547, "train/policy_entropy_max": 2.7475984692573547, "train/policy_entropy_mean": 0.4648336675018072, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6825470477342606, "train/policy_logprob_mag": 7.4383842423558235, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4624552330933511, "train/policy_logprob_min": -7.4383842423558235, "train/policy_logprob_std": 1.0731149539351463, "train/policy_randomness_mag": 0.9697816846892238, "train/policy_randomness_max": 0.9697816846892238, "train/policy_randomness_mean": 0.16406588815152645, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24090915312990546, "train/post_ent_mag": 54.722349405288696, "train/post_ent_max": 54.722349405288696, "train/post_ent_mean": 39.74969303607941, "train/post_ent_min": 19.471729397773743, "train/post_ent_std": 5.7280285358428955, "train/prior_ent_mag": 76.85415184497833, "train/prior_ent_max": 76.85415184497833, "train/prior_ent_mean": 45.63736069202423, "train/prior_ent_min": 27.58554595708847, "train/prior_ent_std": 7.970999494194984, "train/rep_loss_mean": 5.9052843898534775, "train/rep_loss_std": 9.140401989221573, "train/reward_avg": 0.05108337342971936, "train/reward_loss_mean": 0.06375190813560039, "train/reward_loss_std": 0.21944037196226418, "train/reward_max_data": 1.0437500104308128, "train/reward_max_pred": 1.0446413159370422, "train/reward_neg_acc": 0.9916748655959964, "train/reward_neg_loss": 0.02539437825907953, "train/reward_pos_acc": 0.9911904660984874, "train/reward_pos_loss": 0.7186446683481336, "train/reward_pred": 0.05074368271743879, "train/reward_rate": 0.0552520751953125, "stats/sum_log_reward": 12.93333371480306, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 1.6666666666666667, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.1666666666666667, "stats/max_log_achievement_collect_stone": 12.5, "stats/max_log_achievement_collect_wood": 12.166666666666666, "stats/max_log_achievement_defeat_skeleton": 0.3333333333333333, "stats/max_log_achievement_defeat_zombie": 0.8333333333333334, "stats/max_log_achievement_eat_cow": 0.8333333333333334, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 1.8333333333333333, "stats/max_log_achievement_place_plant": 1.1666666666666667, "stats/max_log_achievement_place_stone": 2.6666666666666665, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.46296000977357227, "replay/size": 1000000.0, "replay/inserts": 1291.0, "replay/samples": 10336.0, "replay/insert_wait_avg": 3.4638101236474874e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3492932260590072e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0575866699219, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0354762077331543, "timer/logger.write_frac": 0.00011823133061514579, "timer/logger.write_avg": 0.0354762077331543, "timer/logger.write_min": 0.0354762077331543, "timer/logger.write_max": 0.0354762077331543, "timer/replay.add_count": 1291.0, "timer/replay.add_total": 0.2527344226837158, "timer/replay.add_frac": 0.0008422863940505398, "timer/replay.add_avg": 0.0001957664002197644, "timer/replay.add_min": 8.058547973632812e-05, "timer/replay.add_max": 0.0008111000061035156, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1291.0, "timer/env.step_total": 17.442006826400757, "timer/env.step_frac": 0.0581288645955412, "timer/env.step_avg": 0.013510462297754265, "timer/env.step_min": 0.002851724624633789, "timer/env.step_max": 1.6246283054351807, "timer/agent.policy_count": 1291.0, "timer/agent.policy_total": 13.495896577835083, "timer/agent.policy_frac": 0.04497768820850124, "timer/agent.policy_avg": 0.010453831586239413, "timer/agent.policy_min": 0.005640745162963867, "timer/agent.policy_max": 2.5572400093078613, "timer/dataset_count": 646.0, "timer/dataset_total": 0.05138111114501953, "timer/dataset_frac": 0.0001712375004920015, "timer/dataset_avg": 7.95373237539002e-05, "timer/dataset_min": 5.936622619628906e-05, "timer/dataset_max": 0.0002090930938720703, "timer/agent.train_count": 646.0, "timer/agent.train_total": 268.1269516944885, "timer/agent.train_frac": 0.8935849770378956, "timer/agent.train_avg": 0.4150572007654621, "timer/agent.train_min": 0.37426161766052246, "timer/agent.train_max": 0.4797935485839844, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.24155640602111816, "timer/agent.report_frac": 0.000805033489410958, "timer/agent.report_avg": 0.24155640602111816, "timer/agent.report_min": 0.24155640602111816, "timer/agent.report_max": 0.24155640602111816, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002422332763671875, "timer/checkpoint.save_frac": 8.072892908842062e-07, "timer/checkpoint.save_avg": 0.0002422332763671875, "timer/checkpoint.save_min": 0.0002422332763671875, "timer/checkpoint.save_max": 0.0002422332763671875, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3968563079833984, "timer/agent.save_frac": 0.0046552940836653775, "timer/agent.save_avg": 1.3968563079833984, "timer/agent.save_min": 1.3968563079833984, "timer/agent.save_max": 1.3968563079833984, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.009506225585938e-05, "timer/replay.save_frac": 2.3360536566924868e-07, "timer/replay.save_avg": 7.009506225585938e-05, "timer/replay.save_min": 7.009506225585938e-05, "timer/replay.save_max": 7.009506225585938e-05, "fps": 4.302445196846954}
{"step": 1232908, "episode/length": 227.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.900000013411045, "episode/reward_rate": 0.07017543859649122}
{"step": 1232978, "episode/length": 69.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.12857142857142856}
{"step": 1233203, "episode/length": 224.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.04888888888888889}
{"step": 1233470, "episode/length": 266.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.056179775280898875}
{"step": 1233659, "episode/length": 188.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.031746031746031744}
{"step": 1233869, "episode/length": 209.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.900000050663948, "episode/reward_rate": 0.06666666666666667}
{"step": 1234089, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.429633863044508, "train/action_min": 0.0, "train/action_std": 3.293657833879644, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03603000817538211, "train/actor_opt_grad_steps": 616165.0, "train/actor_opt_loss": -11.295836259921392, "train/adv_mag": 0.4098984371080543, "train/adv_max": 0.32886284499457386, "train/adv_mean": 0.00160238877420356, "train/adv_min": -0.375237939935742, "train/adv_std": 0.04086822339079597, "train/cont_avg": 0.9951467803030303, "train/cont_loss_mean": 0.0001097998109745969, "train/cont_loss_std": 0.003472015020754997, "train/cont_neg_acc": 0.9915223681565487, "train/cont_neg_loss": 0.019645360366757986, "train/cont_pos_acc": 0.9999999792286844, "train/cont_pos_loss": 5.862178303349776e-06, "train/cont_pred": 0.9951829828999259, "train/cont_rate": 0.9951467803030303, "train/dyn_loss_mean": 5.777145826455318, "train/dyn_loss_std": 8.97958526466832, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8733990246599371, "train/extr_critic_critic_opt_grad_steps": 616165.0, "train/extr_critic_critic_opt_loss": 14999.7783203125, "train/extr_critic_mag": 12.57871136520848, "train/extr_critic_max": 12.57871136520848, "train/extr_critic_mean": 3.785701148437731, "train/extr_critic_min": -0.30558638139204547, "train/extr_critic_std": 2.992261351961078, "train/extr_return_normed_mag": 1.3789067719921921, "train/extr_return_normed_max": 1.3789067719921921, "train/extr_return_normed_mean": 0.3940058057055329, "train/extr_return_normed_min": -0.0705628895737005, "train/extr_return_normed_std": 0.31313179139838077, "train/extr_return_rate": 0.8556325426607421, "train/extr_return_raw_mag": 13.294038714784564, "train/extr_return_raw_max": 13.294038714784564, "train/extr_return_raw_mean": 3.801156354672981, "train/extr_return_raw_min": -0.6767531565644525, "train/extr_return_raw_std": 3.018624945120378, "train/extr_reward_mag": 1.077832792744492, "train/extr_reward_max": 1.077832792744492, "train/extr_reward_mean": 0.06274641271341931, "train/extr_reward_min": -0.6148563478932236, "train/extr_reward_std": 0.24020393508853335, "train/image_loss_mean": 3.5323352777596675, "train/image_loss_std": 9.138732447768703, "train/model_loss_mean": 7.0633989536401, "train/model_loss_std": 13.279534542199338, "train/model_opt_grad_norm": 21.414429823557537, "train/model_opt_grad_steps": 615658.3636363636, "train/model_opt_loss": 18176.98419744318, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2575.757575757576, "train/policy_entropy_mag": 2.7336576129450942, "train/policy_entropy_max": 2.7336576129450942, "train/policy_entropy_mean": 0.4562170155572169, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6771667324232332, "train/policy_logprob_mag": 7.438384316184304, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.45625531537966296, "train/policy_logprob_min": -7.438384316184304, "train/policy_logprob_std": 1.0766887095841495, "train/policy_randomness_mag": 0.9648611771337914, "train/policy_randomness_max": 0.9648611771337914, "train/policy_randomness_mean": 0.16102458875287662, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23901013871937088, "train/post_ent_mag": 54.61638722275243, "train/post_ent_max": 54.61638722275243, "train/post_ent_mean": 39.912323113643765, "train/post_ent_min": 19.566361181663744, "train/post_ent_std": 5.697679050040968, "train/prior_ent_mag": 76.84593350959547, "train/prior_ent_max": 76.84593350959547, "train/prior_ent_mean": 45.71640274741433, "train/prior_ent_min": 27.62960058270079, "train/prior_ent_std": 7.916971921920776, "train/rep_loss_mean": 5.777145826455318, "train/rep_loss_std": 8.97958526466832, "train/reward_avg": 0.05074573835978905, "train/reward_loss_mean": 0.06466642744613416, "train/reward_loss_std": 0.22677780055638516, "train/reward_max_data": 1.034848493157011, "train/reward_max_pred": 1.0339515642686323, "train/reward_neg_acc": 0.9925058312488325, "train/reward_neg_loss": 0.026872724463993854, "train/reward_pos_acc": 0.9902948646834402, "train/reward_pos_loss": 0.7164353186433966, "train/reward_pred": 0.050569938947305534, "train/reward_rate": 0.054939038825757576, "stats/sum_log_reward": 10.766666650772095, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 2.1666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 14.333333333333334, "stats/max_log_achievement_collect_wood": 10.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.3333333333333333, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_wood_sword": 0.6666666666666666, "stats/max_log_achievement_place_furnace": 1.8333333333333333, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 2.1666666666666665, "stats/max_log_achievement_place_table": 2.8333333333333335, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.4037959749499957, "replay/size": 1000000.0, "replay/inserts": 1312.0, "replay/samples": 10496.0, "replay/insert_wait_avg": 3.5975400994463666e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.38921526873984e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1053876876831, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02971053123474121, "timer/logger.write_frac": 9.900032606432473e-05, "timer/logger.write_avg": 0.02971053123474121, "timer/logger.write_min": 0.02971053123474121, "timer/logger.write_max": 0.02971053123474121, "timer/replay.add_count": 1312.0, "timer/replay.add_total": 0.28400397300720215, "timer/replay.add_frac": 0.0009463474654535774, "timer/replay.add_avg": 0.0002164664428408553, "timer/replay.add_min": 7.939338684082031e-05, "timer/replay.add_max": 0.001039743423461914, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1312.0, "timer/env.step_total": 17.266780853271484, "timer/env.step_frac": 0.05753572432108704, "timer/env.step_avg": 0.013160656138164242, "timer/env.step_min": 0.002975940704345703, "timer/env.step_max": 1.6990916728973389, "timer/agent.policy_count": 1312.0, "timer/agent.policy_total": 9.739859342575073, "timer/agent.policy_frac": 0.032454796688659436, "timer/agent.policy_avg": 0.007423673279401733, "timer/agent.policy_min": 0.0056362152099609375, "timer/agent.policy_max": 0.015365839004516602, "timer/dataset_count": 656.0, "timer/dataset_total": 0.05422496795654297, "timer/dataset_frac": 0.00018068641944200746, "timer/dataset_avg": 8.266001212887647e-05, "timer/dataset_min": 6.389617919921875e-05, "timer/dataset_max": 0.00013256072998046875, "timer/agent.train_count": 656.0, "timer/agent.train_total": 272.08140873908997, "timer/agent.train_frac": 0.9066195406736335, "timer/agent.train_avg": 0.4147582450291006, "timer/agent.train_min": 0.3666553497314453, "timer/agent.train_max": 0.45058774948120117, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2172536849975586, "timer/agent.report_frac": 0.0007239246408453436, "timer/agent.report_avg": 0.2172536849975586, "timer/agent.report_min": 0.2172536849975586, "timer/agent.report_max": 0.2172536849975586, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.371744971350779}
{"step": 1234139, "episode/length": 269.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.500000037252903, "episode/reward_rate": 0.05185185185185185}
{"step": 1234346, "episode/length": 206.0, "episode/score": 9.100000016391277, "episode/sum_abs_reward": 12.300000004470348, "episode/reward_rate": 0.057971014492753624}
{"step": 1234529, "episode/length": 182.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.07103825136612021}
{"step": 1234778, "episode/length": 248.0, "episode/score": 15.099999994039536, "episode/sum_abs_reward": 17.90000006556511, "episode/reward_rate": 0.06827309236947791}
{"step": 1235007, "episode/length": 228.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.900000005960464, "episode/reward_rate": 0.056768558951965066}
{"step": 1235181, "episode/length": 173.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 14.700000040233135, "episode/reward_rate": 0.08620689655172414}
{"step": 1235369, "episode/length": 187.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.0797872340425532}
{"step": 1235393, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.454181377704327, "train/action_min": 0.0, "train/action_std": 3.3168058578784647, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03600173303141044, "train/actor_opt_grad_steps": 616820.0, "train/actor_opt_loss": -10.890059778667414, "train/adv_mag": 0.4156461353485401, "train/adv_max": 0.3412118897988246, "train/adv_mean": 0.0020466955968563875, "train/adv_min": -0.37469397026758927, "train/adv_std": 0.04125261753797531, "train/cont_avg": 0.9954927884615384, "train/cont_loss_mean": 4.1372168031536754e-05, "train/cont_loss_std": 0.0012187013325907095, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0009602276387921173, "train/cont_pos_acc": 0.9999848778431232, "train/cont_pos_loss": 3.7448881967268205e-05, "train/cont_pred": 0.9954698195824256, "train/cont_rate": 0.9954927884615384, "train/dyn_loss_mean": 5.9819667889521675, "train/dyn_loss_std": 9.031753496023326, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8559462336393503, "train/extr_critic_critic_opt_grad_steps": 616820.0, "train/extr_critic_critic_opt_loss": 15130.349489182692, "train/extr_critic_mag": 12.745353698730469, "train/extr_critic_max": 12.745353698730469, "train/extr_critic_mean": 3.7973230105180007, "train/extr_critic_min": -0.27972431549659144, "train/extr_critic_std": 2.9442041910611665, "train/extr_return_normed_mag": 1.3859922335698054, "train/extr_return_normed_max": 1.3859922335698054, "train/extr_return_normed_mean": 0.39273634690504805, "train/extr_return_normed_min": -0.0661981686663169, "train/extr_return_normed_std": 0.30762342994029707, "train/extr_return_rate": 0.8646765232086182, "train/extr_return_raw_mag": 13.428190187307505, "train/extr_return_raw_max": 13.428190187307505, "train/extr_return_raw_mean": 3.8170926314133866, "train/extr_return_raw_min": -0.623861516897495, "train/extr_return_raw_std": 2.977588050182049, "train/extr_reward_mag": 1.0819063186645508, "train/extr_reward_max": 1.0819063186645508, "train/extr_reward_mean": 0.06404233832771962, "train/extr_reward_min": -0.6136049784146822, "train/extr_reward_std": 0.2424376755952835, "train/image_loss_mean": 3.4574371044452374, "train/image_loss_std": 8.91783484679002, "train/model_loss_mean": 7.1112461310166575, "train/model_loss_std": 13.086271770183856, "train/model_opt_grad_norm": 21.028792234567497, "train/model_opt_grad_steps": 616312.9692307692, "train/model_opt_loss": 19022.759615384617, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2692.3076923076924, "train/policy_entropy_mag": 2.7345923313727747, "train/policy_entropy_max": 2.7345923313727747, "train/policy_entropy_mean": 0.4602538007956285, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6853296431211325, "train/policy_logprob_mag": 7.438384261498085, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4601435931829306, "train/policy_logprob_min": -7.438384261498085, "train/policy_logprob_std": 1.0781741995077867, "train/policy_randomness_mag": 0.9651910901069641, "train/policy_randomness_max": 0.9651910901069641, "train/policy_randomness_mean": 0.1624493970320775, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2418912885280756, "train/post_ent_mag": 54.83800864586463, "train/post_ent_max": 54.83800864586463, "train/post_ent_mean": 39.62460080660306, "train/post_ent_min": 19.855812248816857, "train/post_ent_std": 5.738683311755841, "train/prior_ent_mag": 76.76946141169621, "train/prior_ent_max": 76.76946141169621, "train/prior_ent_mean": 45.59049594585712, "train/prior_ent_min": 27.463658142089844, "train/prior_ent_std": 7.945832091111403, "train/rep_loss_mean": 5.9819667889521675, "train/rep_loss_std": 9.031753496023326, "train/reward_avg": 0.05182391817753131, "train/reward_loss_mean": 0.06458760815171095, "train/reward_loss_std": 0.22142318578866813, "train/reward_max_data": 1.0292307761999278, "train/reward_max_pred": 1.0295153287740855, "train/reward_neg_acc": 0.9928365707397461, "train/reward_neg_loss": 0.026103136645486722, "train/reward_pos_acc": 0.992605290046105, "train/reward_pos_loss": 0.7145852730824397, "train/reward_pred": 0.0514030285179615, "train/reward_rate": 0.05588942307692308, "stats/sum_log_reward": 12.52857140132359, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 2.5714285714285716, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.2857142857142856, "stats/max_log_achievement_collect_stone": 11.0, "stats/max_log_achievement_collect_wood": 13.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.1428571428571428, "stats/max_log_achievement_eat_cow": 0.42857142857142855, "stats/max_log_achievement_make_stone_pickaxe": 0.7142857142857143, "stats/max_log_achievement_make_stone_sword": 0.7142857142857143, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.4285714285714286, "stats/max_log_achievement_place_furnace": 1.4285714285714286, "stats/max_log_achievement_place_plant": 2.142857142857143, "stats/max_log_achievement_place_stone": 2.4285714285714284, "stats/max_log_achievement_place_table": 3.7142857142857144, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.3887787482568196, "replay/size": 1000000.0, "replay/inserts": 1304.0, "replay/samples": 10432.0, "replay/insert_wait_avg": 3.6422826029771677e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.381877009853995e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.37437415122986, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0309445858001709, "timer/logger.write_frac": 0.00010302005917652346, "timer/logger.write_avg": 0.0309445858001709, "timer/logger.write_min": 0.0309445858001709, "timer/logger.write_max": 0.0309445858001709, "timer/replay.add_count": 1304.0, "timer/replay.add_total": 0.2645728588104248, "timer/replay.add_frac": 0.0008808103539392478, "timer/replay.add_avg": 0.00020289329663376136, "timer/replay.add_min": 8.320808410644531e-05, "timer/replay.add_max": 0.0009481906890869141, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1304.0, "timer/env.step_total": 18.596521139144897, "timer/env.step_frac": 0.06191114402383102, "timer/env.step_avg": 0.014261135842902528, "timer/env.step_min": 0.0028705596923828125, "timer/env.step_max": 1.6557316780090332, "timer/agent.policy_count": 1304.0, "timer/agent.policy_total": 9.763736724853516, "timer/agent.policy_frac": 0.03250522536232653, "timer/agent.policy_avg": 0.007487528163231224, "timer/agent.policy_min": 0.005722999572753906, "timer/agent.policy_max": 0.019206762313842773, "timer/dataset_count": 652.0, "timer/dataset_total": 0.054296255111694336, "timer/dataset_frac": 0.00018076194171063917, "timer/dataset_avg": 8.327646489523671e-05, "timer/dataset_min": 6.341934204101562e-05, "timer/dataset_max": 0.00013446807861328125, "timer/agent.train_count": 652.0, "timer/agent.train_total": 270.996178150177, "timer/agent.train_frac": 0.9021947325431238, "timer/agent.train_avg": 0.41563831004628377, "timer/agent.train_min": 0.3731670379638672, "timer/agent.train_max": 0.45054101943969727, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.228956937789917, "timer/agent.report_frac": 0.000762238584555964, "timer/agent.report_avg": 0.228956937789917, "timer/agent.report_min": 0.228956937789917, "timer/agent.report_max": 0.228956937789917, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.341184350403436}
{"step": 1235586, "episode/length": 216.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.06912442396313365}
{"step": 1235808, "episode/length": 221.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.05405405405405406}
{"step": 1235890, "episode/length": 81.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.13414634146341464}
{"step": 1236160, "episode/length": 269.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.05555555555555555}
{"step": 1236402, "episode/length": 241.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.06198347107438017}
{"step": 1236591, "episode/length": 188.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 13.90000006556511, "episode/reward_rate": 0.06349206349206349}
{"step": 1236660, "episode/length": 68.0, "episode/score": 6.099999971687794, "episode/sum_abs_reward": 7.900000028312206, "episode/reward_rate": 0.11594202898550725}
{"step": 1236699, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.446683016690341, "train/action_min": 0.0, "train/action_std": 3.2637448130231914, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03730387429734974, "train/actor_opt_grad_steps": 617475.0, "train/actor_opt_loss": -11.47615976089781, "train/adv_mag": 0.44470072582815634, "train/adv_max": 0.3347841189666228, "train/adv_mean": 0.0018410946819048231, "train/adv_min": -0.4106710623159553, "train/adv_std": 0.04160263067619367, "train/cont_avg": 0.9955462831439394, "train/cont_loss_mean": 0.00010774664287279992, "train/cont_loss_std": 0.0033317109220892044, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0021805146667909898, "train/cont_pos_acc": 0.999970246445049, "train/cont_pos_loss": 9.767070315590307e-05, "train/cont_pred": 0.9955183177283315, "train/cont_rate": 0.9955462831439394, "train/dyn_loss_mean": 5.833684010939165, "train/dyn_loss_std": 9.014566537105676, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.879994354464791, "train/extr_critic_critic_opt_grad_steps": 617475.0, "train/extr_critic_critic_opt_loss": 15228.562248461174, "train/extr_critic_mag": 12.678473472595215, "train/extr_critic_max": 12.678473472595215, "train/extr_critic_mean": 3.7908541216994776, "train/extr_critic_min": -0.32703497915556934, "train/extr_critic_std": 2.9920462080926606, "train/extr_return_normed_mag": 1.3743519367593708, "train/extr_return_normed_max": 1.3743519367593708, "train/extr_return_normed_mean": 0.3911001212669141, "train/extr_return_normed_min": -0.07491992289821307, "train/extr_return_normed_std": 0.3109008279262167, "train/extr_return_rate": 0.8592803478240967, "train/extr_return_raw_mag": 13.356419534394234, "train/extr_return_raw_max": 13.356419534394234, "train/extr_return_raw_mean": 3.8087111855998184, "train/extr_return_raw_min": -0.7172842183799455, "train/extr_return_raw_std": 3.0194740476030293, "train/extr_reward_mag": 1.0920048879854607, "train/extr_reward_max": 1.0920048879854607, "train/extr_reward_mean": 0.06663836499281002, "train/extr_reward_min": -0.6302137916738336, "train/extr_reward_std": 0.2472564336476904, "train/image_loss_mean": 3.452556357239232, "train/image_loss_std": 9.463378371614398, "train/model_loss_mean": 7.019551082090898, "train/model_loss_std": 13.63700095089999, "train/model_opt_grad_norm": 20.325453758239746, "train/model_opt_grad_steps": 616967.0, "train/model_opt_loss": 17548.877781723484, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7365876400109492, "train/policy_entropy_max": 2.7365876400109492, "train/policy_entropy_mean": 0.44518988918174396, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6682369817386974, "train/policy_logprob_mag": 7.438384272835472, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4451474416436571, "train/policy_logprob_min": -7.438384272835472, "train/policy_logprob_std": 1.0713206827640533, "train/policy_randomness_mag": 0.9658953448136648, "train/policy_randomness_max": 0.9658953448136648, "train/policy_randomness_mean": 0.15713249440446045, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2358583320270885, "train/post_ent_mag": 54.489932898319125, "train/post_ent_max": 54.489932898319125, "train/post_ent_mean": 39.745708696769945, "train/post_ent_min": 19.457127686702844, "train/post_ent_std": 5.668312607389508, "train/prior_ent_mag": 76.71116811578923, "train/prior_ent_max": 76.71116811578923, "train/prior_ent_mean": 45.56656276818478, "train/prior_ent_min": 27.06870700373794, "train/prior_ent_std": 7.852418538295861, "train/rep_loss_mean": 5.833684010939165, "train/rep_loss_std": 9.014566537105676, "train/reward_avg": 0.05259824747389013, "train/reward_loss_mean": 0.06667662045043526, "train/reward_loss_std": 0.23090367583614407, "train/reward_max_data": 1.0287878856514439, "train/reward_max_pred": 1.0299478155193906, "train/reward_neg_acc": 0.9920943343278134, "train/reward_neg_loss": 0.02742144609378143, "train/reward_pos_acc": 0.9913087938771104, "train/reward_pos_loss": 0.7177571392420566, "train/reward_pred": 0.05236683035212936, "train/reward_rate": 0.05686257102272727, "stats/sum_log_reward": 11.38571446282523, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.14285714285714285, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 14.142857142857142, "stats/max_log_achievement_collect_wood": 10.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5714285714285714, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_stone_sword": 0.7142857142857143, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 3.5714285714285716, "stats/max_log_achievement_place_table": 2.5714285714285716, "stats/max_log_achievement_wake_up": 0.8571428571428571, "stats/mean_log_entropy": 0.530109737600599, "replay/size": 1000000.0, "replay/inserts": 1306.0, "replay/samples": 10448.0, "replay/insert_wait_avg": 3.6556906941108647e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3861274646215746e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.02048683166504, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02581024169921875, "timer/logger.write_frac": 8.602826417550716e-05, "timer/logger.write_avg": 0.02581024169921875, "timer/logger.write_min": 0.02581024169921875, "timer/logger.write_max": 0.02581024169921875, "timer/replay.add_count": 1306.0, "timer/replay.add_total": 0.264880895614624, "timer/replay.add_frac": 0.0008828760276068844, "timer/replay.add_avg": 0.0002028184499346279, "timer/replay.add_min": 8.511543273925781e-05, "timer/replay.add_max": 0.0009329319000244141, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1306.0, "timer/env.step_total": 18.651458501815796, "timer/env.step_frac": 0.06216728297051502, "timer/env.step_avg": 0.014281361793120824, "timer/env.step_min": 0.0029909610748291016, "timer/env.step_max": 1.6658072471618652, "timer/agent.policy_count": 1306.0, "timer/agent.policy_total": 9.763289213180542, "timer/agent.policy_frac": 0.03254207509721998, "timer/agent.policy_avg": 0.0074757191525119, "timer/agent.policy_min": 0.0057032108306884766, "timer/agent.policy_max": 0.014810800552368164, "timer/dataset_count": 653.0, "timer/dataset_total": 0.054981231689453125, "timer/dataset_frac": 0.00018325825769458835, "timer/dataset_avg": 8.419790457802928e-05, "timer/dataset_min": 6.341934204101562e-05, "timer/dataset_max": 0.00019884109497070312, "timer/agent.train_count": 653.0, "timer/agent.train_total": 270.59962797164917, "timer/agent.train_frac": 0.9019371671224463, "timer/agent.train_avg": 0.4143945298187583, "timer/agent.train_min": 0.36658525466918945, "timer/agent.train_max": 0.4495701789855957, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2295360565185547, "timer/agent.report_frac": 0.0007650679423346925, "timer/agent.report_avg": 0.2295360565185547, "timer/agent.report_min": 0.2295360565185547, "timer/agent.report_max": 0.2295360565185547, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.352971283147646}
{"step": 1236927, "episode/length": 266.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.04868913857677903}
{"step": 1237323, "episode/length": 395.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.03787878787878788}
{"step": 1237582, "episode/length": 258.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.05019305019305019}
{"step": 1237832, "episode/length": 249.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.06}
{"step": 1238003, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.431173940805288, "train/action_min": 0.0, "train/action_std": 3.261039066314697, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03615196327177378, "train/actor_opt_grad_steps": 618130.0, "train/actor_opt_loss": -9.478884096787526, "train/adv_mag": 0.4023288956055274, "train/adv_max": 0.34649388079459853, "train/adv_mean": 0.002299826889513777, "train/adv_min": -0.336446422796983, "train/adv_std": 0.04141566994098517, "train/cont_avg": 0.9950721153846154, "train/cont_loss_mean": 7.832180097667472e-06, "train/cont_loss_std": 0.00021502582888064563, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.000158566816065014, "train/cont_pos_acc": 0.9999999871620765, "train/cont_pos_loss": 6.845130188974753e-06, "train/cont_pred": 0.9950665088800283, "train/cont_rate": 0.9950721153846154, "train/dyn_loss_mean": 6.082545199761024, "train/dyn_loss_std": 9.18609707905696, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8307347380197965, "train/extr_critic_critic_opt_grad_steps": 618130.0, "train/extr_critic_critic_opt_loss": 15105.390835336539, "train/extr_critic_mag": 12.67934598189134, "train/extr_critic_max": 12.67934598189134, "train/extr_critic_mean": 3.878949422102708, "train/extr_critic_min": -0.2960658807020921, "train/extr_critic_std": 3.0285164466271035, "train/extr_return_normed_mag": 1.3815247058868407, "train/extr_return_normed_max": 1.3815247058868407, "train/extr_return_normed_mean": 0.40272491299189056, "train/extr_return_normed_min": -0.07052615709029711, "train/extr_return_normed_std": 0.31589393638647517, "train/extr_return_rate": 0.8579147072938772, "train/extr_return_raw_mag": 13.380541126544658, "train/extr_return_raw_max": 13.380541126544658, "train/extr_return_raw_mean": 3.901215204825768, "train/extr_return_raw_min": -0.6832487862843734, "train/extr_return_raw_std": 3.0596771276914154, "train/extr_reward_mag": 1.086379942527184, "train/extr_reward_max": 1.086379942527184, "train/extr_reward_mean": 0.06672224488395911, "train/extr_reward_min": -0.6274892293489897, "train/extr_reward_std": 0.24704035956125994, "train/image_loss_mean": 3.578283896813026, "train/image_loss_std": 9.368641273791974, "train/model_loss_mean": 7.293492559286264, "train/model_loss_std": 13.623855766883263, "train/model_opt_grad_norm": 18.561148658165564, "train/model_opt_grad_steps": 617622.0, "train/model_opt_loss": 27633.056670673075, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3769.230769230769, "train/policy_entropy_mag": 2.7259650743924655, "train/policy_entropy_max": 2.7259650743924655, "train/policy_entropy_mean": 0.4540951664631183, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6699375152587891, "train/policy_logprob_mag": 7.438384320185735, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4550682058701148, "train/policy_logprob_min": -7.438384320185735, "train/policy_logprob_std": 1.0753668849284832, "train/policy_randomness_mag": 0.962146047445444, "train/policy_randomness_max": 0.962146047445444, "train/policy_randomness_mean": 0.16027566951054792, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23645854546473577, "train/post_ent_mag": 54.62494536179763, "train/post_ent_max": 54.62494536179763, "train/post_ent_mean": 39.70784325232873, "train/post_ent_min": 19.171765576876126, "train/post_ent_std": 5.725884129450871, "train/prior_ent_mag": 76.65894564115084, "train/prior_ent_max": 76.65894564115084, "train/prior_ent_mean": 45.76330443162185, "train/prior_ent_min": 27.510131102341873, "train/prior_ent_std": 7.969037899604211, "train/rep_loss_mean": 6.082545199761024, "train/rep_loss_std": 9.18609707905696, "train/reward_avg": 0.053105468360277325, "train/reward_loss_mean": 0.06567372570817287, "train/reward_loss_std": 0.22809538680773514, "train/reward_max_data": 1.030769238105187, "train/reward_max_pred": 1.0316919143383319, "train/reward_neg_acc": 0.9918665830905621, "train/reward_neg_loss": 0.025990847412210246, "train/reward_pos_acc": 0.9910604752027071, "train/reward_pos_loss": 0.7176392408517691, "train/reward_pred": 0.05278774517086836, "train/reward_rate": 0.05734675480769231, "stats/sum_log_reward": 13.100000381469727, "stats/max_log_achievement_collect_coal": 0.25, "stats/max_log_achievement_collect_drink": 4.25, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.75, "stats/max_log_achievement_collect_stone": 16.0, "stats/max_log_achievement_collect_wood": 12.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 3.0, "stats/max_log_achievement_eat_cow": 1.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 4.5, "stats/max_log_achievement_place_table": 2.75, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.6274280995130539, "replay/size": 1000000.0, "replay/inserts": 1304.0, "replay/samples": 10432.0, "replay/insert_wait_avg": 3.552875635814082e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.369466993706358e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3749632835388, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02487492561340332, "timer/logger.write_frac": 8.281291270578582e-05, "timer/logger.write_avg": 0.02487492561340332, "timer/logger.write_min": 0.02487492561340332, "timer/logger.write_max": 0.02487492561340332, "timer/replay.add_count": 1304.0, "timer/replay.add_total": 0.28673553466796875, "timer/replay.add_frac": 0.0009545919924001951, "timer/replay.add_avg": 0.00021988921370243001, "timer/replay.add_min": 8.535385131835938e-05, "timer/replay.add_max": 0.0009860992431640625, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1304.0, "timer/env.step_total": 13.888109683990479, "timer/env.step_frac": 0.0462359097182171, "timer/env.step_avg": 0.010650390861955888, "timer/env.step_min": 0.0027332305908203125, "timer/env.step_max": 1.5777831077575684, "timer/agent.policy_count": 1304.0, "timer/agent.policy_total": 14.063215255737305, "timer/agent.policy_frac": 0.046818866332951785, "timer/agent.policy_avg": 0.010784674275872166, "timer/agent.policy_min": 0.005684375762939453, "timer/agent.policy_max": 3.244398832321167, "timer/dataset_count": 652.0, "timer/dataset_total": 0.053414344787597656, "timer/dataset_frac": 0.00017782555577768714, "timer/dataset_avg": 8.19238416987694e-05, "timer/dataset_min": 6.389617919921875e-05, "timer/dataset_max": 0.00016927719116210938, "timer/agent.train_count": 652.0, "timer/agent.train_total": 271.41757917404175, "timer/agent.train_frac": 0.9035958796533826, "timer/agent.train_avg": 0.41628463063503335, "timer/agent.train_min": 0.3742537498474121, "timer/agent.train_max": 0.4593524932861328, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21822571754455566, "timer/agent.report_frac": 0.0007265110086374329, "timer/agent.report_avg": 0.21822571754455566, "timer/agent.report_min": 0.21822571754455566, "timer/agent.report_max": 0.21822571754455566, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0005869865417480469, "timer/checkpoint.save_frac": 1.9541793208442646e-06, "timer/checkpoint.save_avg": 0.0005869865417480469, "timer/checkpoint.save_min": 0.0005869865417480469, "timer/checkpoint.save_max": 0.0005869865417480469, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1730773448944092, "timer/agent.save_frac": 0.0039053765735697597, "timer/agent.save_avg": 1.1730773448944092, "timer/agent.save_min": 1.1730773448944092, "timer/agent.save_max": 1.1730773448944092, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.2479248046875e-05, "timer/replay.save_frac": 2.412959031424275e-07, "timer/replay.save_avg": 7.2479248046875e-05, "timer/replay.save_min": 7.2479248046875e-05, "timer/replay.save_max": 7.2479248046875e-05, "fps": 4.341161670846262}
{"step": 1238083, "episode/length": 250.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.055776892430278883}
{"step": 1238346, "episode/length": 262.0, "episode/score": 15.099999979138374, "episode/sum_abs_reward": 18.100000023841858, "episode/reward_rate": 0.060836501901140684}
{"step": 1238513, "episode/length": 166.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.08982035928143713}
{"step": 1238683, "episode/length": 169.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.07647058823529412}
{"step": 1239020, "episode/length": 336.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.03560830860534125}
{"step": 1239201, "episode/length": 180.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.299999997019768, "episode/reward_rate": 0.08287292817679558}
{"step": 1239315, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.465404334435096, "train/action_min": 0.0, "train/action_std": 3.332366411502545, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.035690596986275455, "train/actor_opt_grad_steps": 618780.0, "train/actor_opt_loss": -9.310080331793198, "train/adv_mag": 0.3638212025165558, "train/adv_max": 0.3151845952639213, "train/adv_mean": 0.0019638847188056946, "train/adv_min": -0.3221076217981485, "train/adv_std": 0.04057226822926448, "train/cont_avg": 0.9955528846153846, "train/cont_loss_mean": 1.267411010898146e-05, "train/cont_loss_std": 0.0003349740244647574, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0009379933679315563, "train/cont_pos_acc": 0.9999999825771039, "train/cont_pos_loss": 7.5178506912939505e-06, "train/cont_pred": 0.9955505481133095, "train/cont_rate": 0.9955528846153846, "train/dyn_loss_mean": 5.919805343334492, "train/dyn_loss_std": 9.022892673198994, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8469019247935369, "train/extr_critic_critic_opt_grad_steps": 618780.0, "train/extr_critic_critic_opt_loss": 15193.5634765625, "train/extr_critic_mag": 12.8256314937885, "train/extr_critic_max": 12.8256314937885, "train/extr_critic_mean": 3.6933752610133244, "train/extr_critic_min": -0.2951116580229539, "train/extr_critic_std": 3.00931642972506, "train/extr_return_normed_mag": 1.3871130191362822, "train/extr_return_normed_max": 1.3871130191362822, "train/extr_return_normed_mean": 0.3788162350654602, "train/extr_return_normed_min": -0.0672623356947532, "train/extr_return_normed_std": 0.31069976618656747, "train/extr_return_rate": 0.8368359794983498, "train/extr_return_raw_mag": 13.572542880131648, "train/extr_return_raw_max": 13.572542880131648, "train/extr_return_raw_mean": 3.71258728320782, "train/extr_return_raw_min": -0.6503534477490646, "train/extr_return_raw_std": 3.0387750222132754, "train/extr_reward_mag": 1.0842813125023476, "train/extr_reward_max": 1.0842813125023476, "train/extr_reward_mean": 0.06360964499987089, "train/extr_reward_min": -0.6041311869254479, "train/extr_reward_std": 0.2419118126997581, "train/image_loss_mean": 3.810709810256958, "train/image_loss_std": 9.236612884814923, "train/model_loss_mean": 7.427976894378662, "train/model_loss_std": 13.375461651728703, "train/model_opt_grad_norm": 18.929257979759804, "train/model_opt_grad_steps": 618271.3538461538, "train/model_opt_loss": 25162.984089543268, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3384.6153846153848, "train/policy_entropy_mag": 2.725152070705707, "train/policy_entropy_max": 2.725152070705707, "train/policy_entropy_mean": 0.4868810094319857, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6939473353899442, "train/policy_logprob_mag": 7.438384298177866, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.48709420149142924, "train/policy_logprob_min": -7.438384298177866, "train/policy_logprob_std": 1.0943874551699713, "train/policy_randomness_mag": 0.9618590923456045, "train/policy_randomness_max": 0.9618590923456045, "train/policy_randomness_mean": 0.17184763172498116, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2449329580251987, "train/post_ent_mag": 55.5394048837515, "train/post_ent_max": 55.5394048837515, "train/post_ent_mean": 40.004534325232875, "train/post_ent_min": 19.447485072796162, "train/post_ent_std": 5.860810287182147, "train/prior_ent_mag": 76.80408313457782, "train/prior_ent_max": 76.80408313457782, "train/prior_ent_mean": 45.92533252422626, "train/prior_ent_min": 27.567083035982574, "train/prior_ent_std": 7.989369619809664, "train/rep_loss_mean": 5.919805343334492, "train/rep_loss_std": 9.022892673198994, "train/reward_avg": 0.051262018714959806, "train/reward_loss_mean": 0.06537124955883393, "train/reward_loss_std": 0.2298014549108652, "train/reward_max_data": 1.0338461619157058, "train/reward_max_pred": 1.0336952246152438, "train/reward_neg_acc": 0.9920595526695252, "train/reward_neg_loss": 0.026410280368649043, "train/reward_pos_acc": 0.9895620611997751, "train/reward_pos_loss": 0.7275365838637718, "train/reward_pred": 0.05071484675774207, "train/reward_rate": 0.055588942307692304, "stats/sum_log_reward": 13.100000063578287, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 2.3333333333333335, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 15.5, "stats/max_log_achievement_collect_wood": 13.5, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.8333333333333333, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.3333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.8333333333333333, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 3.8333333333333335, "stats/max_log_achievement_place_table": 3.8333333333333335, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.5305474748214086, "replay/size": 1000000.0, "replay/inserts": 1312.0, "replay/samples": 10496.0, "replay/insert_wait_avg": 3.662959831516917e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3756997338155422e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.30085825920105, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03937387466430664, "timer/logger.write_frac": 0.00013111475902050722, "timer/logger.write_avg": 0.03937387466430664, "timer/logger.write_min": 0.03937387466430664, "timer/logger.write_max": 0.03937387466430664, "timer/replay.add_count": 1312.0, "timer/replay.add_total": 0.2683420181274414, "timer/replay.add_frac": 0.0008935772600950253, "timer/replay.add_avg": 0.00020452897723128156, "timer/replay.add_min": 8.130073547363281e-05, "timer/replay.add_max": 0.0008521080017089844, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1312.0, "timer/env.step_total": 16.81048035621643, "timer/env.step_frac": 0.05597879557742279, "timer/env.step_avg": 0.012812866125164963, "timer/env.step_min": 0.002858877182006836, "timer/env.step_max": 1.5867979526519775, "timer/agent.policy_count": 1312.0, "timer/agent.policy_total": 9.64939022064209, "timer/agent.policy_frac": 0.03213240973261999, "timer/agent.policy_avg": 0.007354718155977203, "timer/agent.policy_min": 0.005618572235107422, "timer/agent.policy_max": 0.015076398849487305, "timer/dataset_count": 656.0, "timer/dataset_total": 0.05431556701660156, "timer/dataset_frac": 0.00018087050210732246, "timer/dataset_avg": 8.279812045213652e-05, "timer/dataset_min": 6.437301635742188e-05, "timer/dataset_max": 0.00014662742614746094, "timer/agent.train_count": 656.0, "timer/agent.train_total": 272.7843291759491, "timer/agent.train_frac": 0.9083701284013601, "timer/agent.train_avg": 0.41582977008528826, "timer/agent.train_min": 0.3655221462249756, "timer/agent.train_max": 0.453779935836792, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.25981831550598145, "timer/agent.report_frac": 0.0008651933831028962, "timer/agent.report_avg": 0.25981831550598145, "timer/agent.report_min": 0.25981831550598145, "timer/agent.report_max": 0.25981831550598145, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.368864550488684}
{"step": 1239427, "episode/length": 225.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.500000044703484, "episode/reward_rate": 0.06637168141592921}
{"step": 1239617, "episode/length": 189.0, "episode/score": 12.100000016391277, "episode/sum_abs_reward": 13.30000003427267, "episode/reward_rate": 0.06842105263157895}
{"step": 1239930, "episode/length": 312.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.04472843450479233}
{"step": 1240134, "episode/length": 203.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.299999997019768, "episode/reward_rate": 0.0784313725490196}
{"step": 1240455, "episode/length": 320.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 16.30000003427267, "episode/reward_rate": 0.04361370716510903}
{"step": 1240635, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.476514411695076, "train/action_min": 0.0, "train/action_std": 3.326558738043814, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03626285546995474, "train/actor_opt_grad_steps": 619435.0, "train/actor_opt_loss": -9.184630170012966, "train/adv_mag": 0.41567116795164166, "train/adv_max": 0.3454279222271659, "train/adv_mean": 0.0019965586213374713, "train/adv_min": -0.3680745259378896, "train/adv_std": 0.041510903078949814, "train/cont_avg": 0.9952503551136364, "train/cont_loss_mean": 0.0001682931067458911, "train/cont_loss_std": 0.005340110469292886, "train/cont_neg_acc": 0.9962121212121212, "train/cont_neg_loss": 0.008532357000812162, "train/cont_pos_acc": 0.9999851412845381, "train/cont_pos_loss": 0.00013510313017091113, "train/cont_pred": 0.9952419192501993, "train/cont_rate": 0.9952503551136364, "train/dyn_loss_mean": 5.924187371225068, "train/dyn_loss_std": 9.096955039284445, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8757421022111719, "train/extr_critic_critic_opt_grad_steps": 619435.0, "train/extr_critic_critic_opt_loss": 15120.626938328598, "train/extr_critic_mag": 12.820350748119932, "train/extr_critic_max": 12.820350748119932, "train/extr_critic_mean": 3.888210061824683, "train/extr_critic_min": -0.2889893578760552, "train/extr_critic_std": 3.0612177306955513, "train/extr_return_normed_mag": 1.379722170757525, "train/extr_return_normed_max": 1.379722170757525, "train/extr_return_normed_mean": 0.39837543621207727, "train/extr_return_normed_min": -0.06728894438481692, "train/extr_return_normed_std": 0.3157064300594908, "train/extr_return_rate": 0.8446674220489733, "train/extr_return_raw_mag": 13.510462096243193, "train/extr_return_raw_max": 13.510462096243193, "train/extr_return_raw_mean": 3.9077525608467334, "train/extr_return_raw_min": -0.6492331809166706, "train/extr_return_raw_std": 3.089433373826923, "train/extr_reward_mag": 1.0874298160726374, "train/extr_reward_max": 1.0874298160726374, "train/extr_reward_mean": 0.0656925266552152, "train/extr_reward_min": -0.5943199540629531, "train/extr_reward_std": 0.24563144034508502, "train/image_loss_mean": 3.5296357039249306, "train/image_loss_std": 9.36752225413467, "train/model_loss_mean": 7.149361104676218, "train/model_loss_std": 13.54891568964178, "train/model_opt_grad_norm": 19.881296981464732, "train/model_opt_grad_steps": 618926.0, "train/model_opt_loss": 19967.46875, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2803.030303030303, "train/policy_entropy_mag": 2.713782975167939, "train/policy_entropy_max": 2.713782975167939, "train/policy_entropy_mean": 0.4732831215316599, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6906388438109196, "train/policy_logprob_mag": 7.438384272835472, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4722234064882452, "train/policy_logprob_min": -7.438384272835472, "train/policy_logprob_std": 1.0841471670251903, "train/policy_randomness_mag": 0.9578463010715715, "train/policy_randomness_max": 0.9578463010715715, "train/policy_randomness_mean": 0.16704817375901973, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24376520503199461, "train/post_ent_mag": 54.938361370202266, "train/post_ent_max": 54.938361370202266, "train/post_ent_mean": 39.84382016731031, "train/post_ent_min": 18.90057812315045, "train/post_ent_std": 5.773290309039029, "train/prior_ent_mag": 76.69681132923473, "train/prior_ent_max": 76.69681132923473, "train/prior_ent_mean": 45.7592970530192, "train/prior_ent_min": 27.64447509881222, "train/prior_ent_std": 7.957283229538889, "train/rep_loss_mean": 5.924187371225068, "train/rep_loss_std": 9.096955039284445, "train/reward_avg": 0.05298295430839062, "train/reward_loss_mean": 0.06504465729901285, "train/reward_loss_std": 0.22470823427041373, "train/reward_max_data": 1.0242424300222686, "train/reward_max_pred": 1.0256767670313518, "train/reward_neg_acc": 0.9925422659426024, "train/reward_neg_loss": 0.025755522377563244, "train/reward_pos_acc": 0.9924669058033915, "train/reward_pos_loss": 0.7105313060861645, "train/reward_pred": 0.05271565236828544, "train/reward_rate": 0.057232481060606064, "stats/sum_log_reward": 13.300000190734863, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 4.6, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.4, "stats/max_log_achievement_collect_stone": 16.8, "stats/max_log_achievement_collect_wood": 14.4, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.6, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_stone_pickaxe": 1.4, "stats/max_log_achievement_make_stone_sword": 1.4, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2, "stats/max_log_achievement_place_furnace": 1.4, "stats/max_log_achievement_place_plant": 1.4, "stats/max_log_achievement_place_stone": 6.0, "stats/max_log_achievement_place_table": 4.0, "stats/max_log_achievement_wake_up": 1.6, "stats/mean_log_entropy": 0.576321867108345, "replay/size": 1000000.0, "replay/inserts": 1320.0, "replay/samples": 10560.0, "replay/insert_wait_avg": 3.6525003837816644e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3363632288846103e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1635320186615, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03384685516357422, "timer/logger.write_frac": 0.00011276138355631397, "timer/logger.write_avg": 0.03384685516357422, "timer/logger.write_min": 0.03384685516357422, "timer/logger.write_max": 0.03384685516357422, "timer/replay.add_count": 1320.0, "timer/replay.add_total": 0.2709970474243164, "timer/replay.add_frac": 0.0009028313519693932, "timer/replay.add_avg": 0.00020530079350327, "timer/replay.add_min": 9.1552734375e-05, "timer/replay.add_max": 0.004133939743041992, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1320.0, "timer/env.step_total": 15.494011402130127, "timer/env.step_frac": 0.05161856704553586, "timer/env.step_avg": 0.011737887425856157, "timer/env.step_min": 0.002893209457397461, "timer/env.step_max": 1.6376128196716309, "timer/agent.policy_count": 1320.0, "timer/agent.policy_total": 9.688790082931519, "timer/agent.policy_frac": 0.03227837178544779, "timer/agent.policy_avg": 0.007339992487069332, "timer/agent.policy_min": 0.005651235580444336, "timer/agent.policy_max": 0.015364885330200195, "timer/dataset_count": 660.0, "timer/dataset_total": 0.05423259735107422, "timer/dataset_frac": 0.0001806768363443382, "timer/dataset_avg": 8.217060204708214e-05, "timer/dataset_min": 6.437301635742188e-05, "timer/dataset_max": 0.0001392364501953125, "timer/agent.train_count": 660.0, "timer/agent.train_total": 273.93143248558044, "timer/agent.train_frac": 0.912607306568307, "timer/agent.train_avg": 0.4150476249781522, "timer/agent.train_min": 0.3726484775543213, "timer/agent.train_max": 0.44768857955932617, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.25998449325561523, "timer/agent.report_frac": 0.0008661428372299794, "timer/agent.report_avg": 0.25998449325561523, "timer/agent.report_min": 0.25998449325561523, "timer/agent.report_max": 0.25998449325561523, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.397532160943721}
{"step": 1240670, "episode/length": 214.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.06976744186046512}
{"step": 1240874, "episode/length": 203.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.500000044703484, "episode/reward_rate": 0.07352941176470588}
{"step": 1241057, "episode/length": 182.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.700000002980232, "episode/reward_rate": 0.07650273224043716}
{"step": 1241242, "episode/length": 184.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.05405405405405406}
{"step": 1241450, "episode/length": 207.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 16.900000013411045, "episode/reward_rate": 0.07692307692307693}
{"step": 1241517, "episode/length": 66.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.11940298507462686}
{"step": 1241738, "episode/length": 220.0, "episode/score": 12.099999979138374, "episode/sum_abs_reward": 15.100000038743019, "episode/reward_rate": 0.058823529411764705}
{"step": 1241905, "episode/length": 166.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.07784431137724551}
{"step": 1241911, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.526284217834473, "train/action_min": 0.0, "train/action_std": 3.38186876475811, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03617733780993149, "train/actor_opt_grad_steps": 620085.0, "train/actor_opt_loss": -10.893109761178493, "train/adv_mag": 0.4225542298518121, "train/adv_max": 0.3416501213796437, "train/adv_mean": 0.0018255565964864218, "train/adv_min": -0.3686242059338838, "train/adv_std": 0.04151659907074645, "train/cont_avg": 0.9951934814453125, "train/cont_loss_mean": 1.1900678331344672e-05, "train/cont_loss_std": 0.0003425944725281571, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00038729954522470633, "train/cont_pos_acc": 0.9999999823048711, "train/cont_pos_loss": 9.705550553185116e-06, "train/cont_pred": 0.9951867926865816, "train/cont_rate": 0.9951934814453125, "train/dyn_loss_mean": 5.979389004409313, "train/dyn_loss_std": 9.160178422927856, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9607253670692444, "train/extr_critic_critic_opt_grad_steps": 620085.0, "train/extr_critic_critic_opt_loss": 15218.192169189453, "train/extr_critic_mag": 12.766947850584984, "train/extr_critic_max": 12.766947850584984, "train/extr_critic_mean": 3.8621864430606365, "train/extr_critic_min": -0.3318649120628834, "train/extr_critic_std": 3.0695513673126698, "train/extr_return_normed_mag": 1.3773497305810452, "train/extr_return_normed_max": 1.3773497305810452, "train/extr_return_normed_mean": 0.3959061880595982, "train/extr_return_normed_min": -0.07072108646389097, "train/extr_return_normed_std": 0.31697490671649575, "train/extr_return_rate": 0.842284188605845, "train/extr_return_raw_mag": 13.464618772268295, "train/extr_return_raw_max": 13.464618772268295, "train/extr_return_raw_mean": 3.8800175487995148, "train/extr_return_raw_min": -0.6770943053998053, "train/extr_return_raw_std": 3.0956143736839294, "train/extr_reward_mag": 1.0875803008675575, "train/extr_reward_max": 1.0875803008675575, "train/extr_reward_mean": 0.06592465873109177, "train/extr_reward_min": -0.6197423003613949, "train/extr_reward_std": 0.2457836139947176, "train/image_loss_mean": 3.648068618029356, "train/image_loss_std": 9.874584674835205, "train/model_loss_mean": 7.301082603633404, "train/model_loss_std": 14.078775241971016, "train/model_opt_grad_norm": 21.37886805832386, "train/model_opt_grad_steps": 619575.015625, "train/model_opt_loss": 18608.939651489258, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2539.0625, "train/policy_entropy_mag": 2.6922388896346092, "train/policy_entropy_max": 2.6922388896346092, "train/policy_entropy_mean": 0.46304902038536966, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6738195419311523, "train/policy_logprob_mag": 7.4383843168616295, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.46200719801709056, "train/policy_logprob_min": -7.4383843168616295, "train/policy_logprob_std": 1.076145044527948, "train/policy_randomness_mag": 0.950242180377245, "train/policy_randomness_max": 0.950242180377245, "train/policy_randomness_mean": 0.16343598370440304, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2378287287428975, "train/post_ent_mag": 55.03016644716263, "train/post_ent_max": 55.03016644716263, "train/post_ent_mean": 39.94692921638489, "train/post_ent_min": 19.094948634505272, "train/post_ent_std": 5.799328289926052, "train/prior_ent_mag": 76.78324723243713, "train/prior_ent_max": 76.78324723243713, "train/prior_ent_mean": 45.87970328330994, "train/prior_ent_min": 27.91842558979988, "train/prior_ent_std": 8.007451631128788, "train/rep_loss_mean": 5.979389004409313, "train/rep_loss_std": 9.160178422927856, "train/reward_avg": 0.05229797336505726, "train/reward_loss_mean": 0.06536872120341286, "train/reward_loss_std": 0.2247014578897506, "train/reward_max_data": 1.0328125078231096, "train/reward_max_pred": 1.0323384515941143, "train/reward_neg_acc": 0.9928473755717278, "train/reward_neg_loss": 0.026778612402267754, "train/reward_pos_acc": 0.9926826125010848, "train/reward_pos_loss": 0.7096657324582338, "train/reward_pred": 0.05208336445502937, "train/reward_rate": 0.0565338134765625, "stats/sum_log_reward": 11.974999964237213, "stats/max_log_achievement_collect_coal": 0.75, "stats/max_log_achievement_collect_drink": 2.375, "stats/max_log_achievement_collect_iron": 0.125, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 14.625, "stats/max_log_achievement_collect_wood": 11.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.125, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_stone_pickaxe": 0.625, "stats/max_log_achievement_make_stone_sword": 0.75, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 1.25, "stats/max_log_achievement_place_stone": 4.0, "stats/max_log_achievement_place_table": 2.75, "stats/max_log_achievement_wake_up": 0.875, "stats/mean_log_entropy": 0.33243822678923607, "replay/size": 1000000.0, "replay/inserts": 1276.0, "replay/samples": 10208.0, "replay/insert_wait_avg": 3.6093508561950494e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3681508156946833e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.26368594169617, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03098773956298828, "timer/logger.write_frac": 0.00010320175570283694, "timer/logger.write_avg": 0.03098773956298828, "timer/logger.write_min": 0.03098773956298828, "timer/logger.write_max": 0.03098773956298828, "timer/replay.add_count": 1276.0, "timer/replay.add_total": 0.286043643951416, "timer/replay.add_frac": 0.0009526414859469842, "timer/replay.add_avg": 0.000224172134758163, "timer/replay.add_min": 9.036064147949219e-05, "timer/replay.add_max": 0.0008816719055175781, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1276.0, "timer/env.step_total": 20.234032154083252, "timer/env.step_frac": 0.06738754335418437, "timer/env.step_avg": 0.01585739197028468, "timer/env.step_min": 0.0030889511108398438, "timer/env.step_max": 1.6551730632781982, "timer/agent.policy_count": 1276.0, "timer/agent.policy_total": 14.288559913635254, "timer/agent.policy_frac": 0.04758670656034557, "timer/agent.policy_avg": 0.011197930966798789, "timer/agent.policy_min": 0.005688905715942383, "timer/agent.policy_max": 3.3507001399993896, "timer/dataset_count": 638.0, "timer/dataset_total": 0.05306506156921387, "timer/dataset_frac": 0.0001767282027554867, "timer/dataset_avg": 8.317407769469259e-05, "timer/dataset_min": 6.461143493652344e-05, "timer/dataset_max": 0.000179290771484375, "timer/agent.train_count": 638.0, "timer/agent.train_total": 264.67930483818054, "timer/agent.train_frac": 0.8814895614435865, "timer/agent.train_avg": 0.4148578445739507, "timer/agent.train_min": 0.3673868179321289, "timer/agent.train_max": 0.4607691764831543, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2590615749359131, "timer/agent.report_frac": 0.0008627802397197525, "timer/agent.report_avg": 0.2590615749359131, "timer/agent.report_min": 0.2590615749359131, "timer/agent.report_max": 0.2590615749359131, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00017714500427246094, "timer/checkpoint.save_frac": 5.899647961653882e-07, "timer/checkpoint.save_avg": 0.00017714500427246094, "timer/checkpoint.save_min": 0.00017714500427246094, "timer/checkpoint.save_max": 0.00017714500427246094, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.391864538192749, "timer/agent.save_frac": 0.004635474096135005, "timer/agent.save_avg": 1.391864538192749, "timer/agent.save_min": 1.391864538192749, "timer/agent.save_max": 1.391864538192749, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.4849853515625e-05, "timer/replay.save_frac": 2.1597634529876933e-07, "timer/replay.save_avg": 6.4849853515625e-05, "timer/replay.save_min": 6.4849853515625e-05, "timer/replay.save_max": 6.4849853515625e-05, "fps": 4.249522660457802}
{"step": 1242120, "episode/length": 214.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.06046511627906977}
{"step": 1242376, "episode/length": 255.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.0546875}
{"step": 1242512, "episode/length": 135.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.07352941176470588}
{"step": 1242726, "episode/length": 213.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 14.900000013411045, "episode/reward_rate": 0.06542056074766354}
{"step": 1242922, "episode/length": 195.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.07142857142857142}
{"step": 1243229, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.486764618844697, "train/action_min": 0.0, "train/action_std": 3.3945470795486914, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.035470221558529316, "train/actor_opt_grad_steps": 620735.0, "train/actor_opt_loss": -10.308396457722694, "train/adv_mag": 0.439505092122338, "train/adv_max": 0.3317904230771643, "train/adv_mean": 0.0021505007426833, "train/adv_min": -0.38362995196472516, "train/adv_std": 0.040426792802684235, "train/cont_avg": 0.9952503551136364, "train/cont_loss_mean": 1.740148575861285e-05, "train/cont_loss_std": 0.0005251439732718106, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0007674469254900263, "train/cont_pos_acc": 0.9999999792286844, "train/cont_pos_loss": 1.4244257631782867e-05, "train/cont_pred": 0.9952401618162791, "train/cont_rate": 0.9952503551136364, "train/dyn_loss_mean": 5.882817766883156, "train/dyn_loss_std": 9.068667281757701, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8487391661513936, "train/extr_critic_critic_opt_grad_steps": 620735.0, "train/extr_critic_critic_opt_loss": 15155.390477035984, "train/extr_critic_mag": 12.669882181918982, "train/extr_critic_max": 12.669882181918982, "train/extr_critic_mean": 3.730399413542314, "train/extr_critic_min": -0.3287946437344407, "train/extr_critic_std": 3.0227653221650557, "train/extr_return_normed_mag": 1.3673087430722786, "train/extr_return_normed_max": 1.3673087430722786, "train/extr_return_normed_mean": 0.3828786399328347, "train/extr_return_normed_min": -0.07484424701242735, "train/extr_return_normed_std": 0.3126071018703056, "train/extr_return_rate": 0.8379626815969293, "train/extr_return_raw_mag": 13.35370346994111, "train/extr_return_raw_max": 13.35370346994111, "train/extr_return_raw_mean": 3.751368847760287, "train/extr_return_raw_min": -0.7135659248539896, "train/extr_return_raw_std": 3.0495058153614854, "train/extr_reward_mag": 1.0827428319237449, "train/extr_reward_max": 1.0827428319237449, "train/extr_reward_mean": 0.06291231908129924, "train/extr_reward_min": -0.6377285520235697, "train/extr_reward_std": 0.2405959020058314, "train/image_loss_mean": 3.7451831897099814, "train/image_loss_std": 9.399111964485861, "train/model_loss_mean": 7.341798652302135, "train/model_loss_std": 13.544807679725416, "train/model_opt_grad_norm": 21.600762352798924, "train/model_opt_grad_steps": 620224.5757575758, "train/model_opt_loss": 18354.496641216858, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2537.878787878788, "train/policy_entropy_mag": 2.7124995390574136, "train/policy_entropy_max": 2.7124995390574136, "train/policy_entropy_mean": 0.4882534155339906, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6973779400189718, "train/policy_logprob_mag": 7.438384316184304, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.48735438829118555, "train/policy_logprob_min": -7.438384316184304, "train/policy_logprob_std": 1.0947645261432186, "train/policy_randomness_mag": 0.9573933003526746, "train/policy_randomness_max": 0.9573933003526746, "train/policy_randomness_mean": 0.1723320305798993, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24614381428920862, "train/post_ent_mag": 54.975041822953656, "train/post_ent_max": 54.975041822953656, "train/post_ent_mean": 39.99856682979699, "train/post_ent_min": 19.296157880262896, "train/post_ent_std": 5.765942595221779, "train/prior_ent_mag": 76.81432839595911, "train/prior_ent_max": 76.81432839595911, "train/prior_ent_mean": 45.866706905942976, "train/prior_ent_min": 27.977667981928047, "train/prior_ent_std": 7.955776893731319, "train/rep_loss_mean": 5.882817766883156, "train/rep_loss_std": 9.068667281757701, "train/reward_avg": 0.05161428651913549, "train/reward_loss_mean": 0.06690735206233733, "train/reward_loss_std": 0.2356412293332996, "train/reward_max_data": 1.0318181894042275, "train/reward_max_pred": 1.0323843450257273, "train/reward_neg_acc": 0.9915152192115784, "train/reward_neg_loss": 0.027823423585769804, "train/reward_pos_acc": 0.9888404680020881, "train/reward_pos_loss": 0.7275621195634207, "train/reward_pred": 0.05106620913879438, "train/reward_rate": 0.05581202651515151, "stats/sum_log_reward": 12.100000190734864, "stats/max_log_achievement_collect_coal": 2.0, "stats/max_log_achievement_collect_drink": 2.8, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.2, "stats/max_log_achievement_collect_stone": 9.2, "stats/max_log_achievement_collect_wood": 13.2, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.6, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.2, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8, "stats/max_log_achievement_place_furnace": 1.2, "stats/max_log_achievement_place_plant": 1.8, "stats/max_log_achievement_place_stone": 2.0, "stats/max_log_achievement_place_table": 3.8, "stats/max_log_achievement_wake_up": 0.8, "stats/mean_log_entropy": 0.43100009560585023, "replay/size": 1000000.0, "replay/inserts": 1318.0, "replay/samples": 10544.0, "replay/insert_wait_avg": 3.7150245515999918e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3581537874768827e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.30308508872986, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03714489936828613, "timer/logger.write_frac": 0.00012369136786360692, "timer/logger.write_avg": 0.03714489936828613, "timer/logger.write_min": 0.03714489936828613, "timer/logger.write_max": 0.03714489936828613, "timer/replay.add_count": 1318.0, "timer/replay.add_total": 0.2728688716888428, "timer/replay.add_frac": 0.0009086449165456253, "timer/replay.add_avg": 0.00020703252783675475, "timer/replay.add_min": 8.821487426757812e-05, "timer/replay.add_max": 0.0032989978790283203, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1318.0, "timer/env.step_total": 15.44633960723877, "timer/env.step_frac": 0.0514358339098477, "timer/env.step_avg": 0.011719529292290417, "timer/env.step_min": 0.0029985904693603516, "timer/env.step_max": 1.68733811378479, "timer/agent.policy_count": 1318.0, "timer/agent.policy_total": 9.912346124649048, "timer/agent.policy_frac": 0.03300780650228841, "timer/agent.policy_avg": 0.007520748197761037, "timer/agent.policy_min": 0.005606412887573242, "timer/agent.policy_max": 0.04185080528259277, "timer/dataset_count": 659.0, "timer/dataset_total": 0.05464005470275879, "timer/dataset_frac": 0.00018194969487780793, "timer/dataset_avg": 8.291358831981607e-05, "timer/dataset_min": 6.365776062011719e-05, "timer/dataset_max": 0.00014901161193847656, "timer/agent.train_count": 659.0, "timer/agent.train_total": 273.91342759132385, "timer/agent.train_frac": 0.9121232554450491, "timer/agent.train_avg": 0.41565011774100735, "timer/agent.train_min": 0.3728344440460205, "timer/agent.train_max": 0.45123767852783203, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2285900115966797, "timer/agent.report_frac": 0.0007611976797678876, "timer/agent.report_avg": 0.2285900115966797, "timer/agent.report_min": 0.2285900115966797, "timer/agent.report_max": 0.2285900115966797, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.388834915248783}
{"step": 1243282, "episode/length": 359.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 18.10000003129244, "episode/reward_rate": 0.044444444444444446}
{"step": 1243530, "episode/length": 247.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.299999997019768, "episode/reward_rate": 0.06048387096774194}
{"step": 1244050, "episode/length": 519.0, "episode/score": 16.099999979138374, "episode/sum_abs_reward": 21.10000006854534, "episode/reward_rate": 0.032692307692307694}
{"step": 1244238, "episode/length": 187.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.07446808510638298}
{"step": 1244299, "episode/length": 60.0, "episode/score": 7.099999971687794, "episode/sum_abs_reward": 9.100000031292439, "episode/reward_rate": 0.14754098360655737}
{"step": 1244469, "episode/length": 169.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.07647058823529412}
{"step": 1244543, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.379306677616004, "train/action_min": 0.0, "train/action_std": 3.2653294946208145, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.035807155439573704, "train/actor_opt_grad_steps": 621395.0, "train/actor_opt_loss": -11.838800012162238, "train/adv_mag": 0.4132067403106978, "train/adv_max": 0.3246458529522925, "train/adv_mean": 0.0018410311693680176, "train/adv_min": -0.36536684903231537, "train/adv_std": 0.04075527140362696, "train/cont_avg": 0.9950580018939394, "train/cont_loss_mean": 0.00021376050916592376, "train/cont_loss_std": 0.006646236032144601, "train/cont_neg_acc": 0.9949494952505286, "train/cont_neg_loss": 0.06503638603312863, "train/cont_pos_acc": 0.9999999855503892, "train/cont_pos_loss": 2.2847749089547207e-05, "train/cont_pred": 0.9950522554643226, "train/cont_rate": 0.9950580018939394, "train/dyn_loss_mean": 5.822676051746715, "train/dyn_loss_std": 9.08948529850353, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8779613971710205, "train/extr_critic_critic_opt_grad_steps": 621395.0, "train/extr_critic_critic_opt_loss": 14897.477968158144, "train/extr_critic_mag": 12.752995158686783, "train/extr_critic_max": 12.752995158686783, "train/extr_critic_mean": 3.8874039108102973, "train/extr_critic_min": -0.3178192106160251, "train/extr_critic_std": 3.087363011909254, "train/extr_return_normed_mag": 1.3744908101630933, "train/extr_return_normed_max": 1.3744908101630933, "train/extr_return_normed_mean": 0.3968737062179681, "train/extr_return_normed_min": -0.06631551965168028, "train/extr_return_normed_std": 0.3179215427600976, "train/extr_return_rate": 0.8490313725038008, "train/extr_return_raw_mag": 13.486649152004357, "train/extr_return_raw_max": 13.486649152004357, "train/extr_return_raw_mean": 3.9054446545514194, "train/extr_return_raw_min": -0.6342113076737432, "train/extr_return_raw_std": 3.116005543506507, "train/extr_reward_mag": 1.0879158467957468, "train/extr_reward_max": 1.0879158467957468, "train/extr_reward_mean": 0.06436689745521906, "train/extr_reward_min": -0.5750454266866049, "train/extr_reward_std": 0.24294155249089905, "train/image_loss_mean": 3.4811407977884468, "train/image_loss_std": 8.563688704461763, "train/model_loss_mean": 7.04292352994283, "train/model_loss_std": 12.767066088589756, "train/model_opt_grad_norm": 19.13002333496556, "train/model_opt_grad_steps": 620884.0, "train/model_opt_loss": 17607.308756510418, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7250397205352783, "train/policy_entropy_max": 2.7250397205352783, "train/policy_entropy_mean": 0.463717932953979, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6800884455442429, "train/policy_logprob_mag": 7.438384323409109, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.46389423762307025, "train/policy_logprob_min": -7.438384323409109, "train/policy_logprob_std": 1.0834347741170363, "train/policy_randomness_mag": 0.9618194383202177, "train/policy_randomness_max": 0.9618194383202177, "train/policy_randomness_mean": 0.16367208178747783, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2400413749344421, "train/post_ent_mag": 54.90441235628995, "train/post_ent_max": 54.90441235628995, "train/post_ent_mean": 39.70105217442368, "train/post_ent_min": 19.528777064699113, "train/post_ent_std": 5.755478064219157, "train/prior_ent_mag": 76.74813680937795, "train/prior_ent_max": 76.74813680937795, "train/prior_ent_mean": 45.46086565653483, "train/prior_ent_min": 27.394291762149695, "train/prior_ent_std": 8.039225469936024, "train/rep_loss_mean": 5.822676051746715, "train/rep_loss_std": 9.08948529850353, "train/reward_avg": 0.05455137275610909, "train/reward_loss_mean": 0.06796333746928157, "train/reward_loss_std": 0.23231704036394754, "train/reward_max_data": 1.0393939487861865, "train/reward_max_pred": 1.0384425809889128, "train/reward_neg_acc": 0.992363200043187, "train/reward_neg_loss": 0.026548212507005894, "train/reward_pos_acc": 0.9870239523324099, "train/reward_pos_loss": 0.7318132203636747, "train/reward_pred": 0.05376329786623969, "train/reward_rate": 0.058845288825757576, "stats/sum_log_reward": 12.766666809717814, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 5.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 17.333333333333332, "stats/max_log_achievement_collect_wood": 13.5, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.8333333333333333, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 5.166666666666667, "stats/max_log_achievement_place_table": 3.8333333333333335, "stats/max_log_achievement_wake_up": 1.6666666666666667, "stats/mean_log_entropy": 0.5756292566657066, "replay/size": 1000000.0, "replay/inserts": 1314.0, "replay/samples": 10512.0, "replay/insert_wait_avg": 3.615652226603376e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.339834393250162e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.06704926490784, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025327444076538086, "timer/logger.write_frac": 8.440594906566461e-05, "timer/logger.write_avg": 0.025327444076538086, "timer/logger.write_min": 0.025327444076538086, "timer/logger.write_max": 0.025327444076538086, "timer/replay.add_count": 1314.0, "timer/replay.add_total": 0.2798147201538086, "timer/replay.add_frac": 0.0009325073207447716, "timer/replay.add_avg": 0.0002129487976817417, "timer/replay.add_min": 8.535385131835938e-05, "timer/replay.add_max": 0.010454893112182617, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1314.0, "timer/env.step_total": 16.790889024734497, "timer/env.step_frac": 0.05595712380239063, "timer/env.step_avg": 0.01277845435672336, "timer/env.step_min": 0.0029289722442626953, "timer/env.step_max": 1.7182724475860596, "timer/agent.policy_count": 1314.0, "timer/agent.policy_total": 9.822070598602295, "timer/agent.policy_frac": 0.03273291960134912, "timer/agent.policy_avg": 0.0074749395727566935, "timer/agent.policy_min": 0.005759000778198242, "timer/agent.policy_max": 0.03492283821105957, "timer/dataset_count": 657.0, "timer/dataset_total": 0.054903507232666016, "timer/dataset_frac": 0.0001829707972507025, "timer/dataset_avg": 8.356698208929378e-05, "timer/dataset_min": 6.413459777832031e-05, "timer/dataset_max": 0.0001697540283203125, "timer/agent.train_count": 657.0, "timer/agent.train_total": 272.4362757205963, "timer/agent.train_frac": 0.9079180016199704, "timer/agent.train_avg": 0.41466708633271887, "timer/agent.train_min": 0.365830659866333, "timer/agent.train_max": 0.4495260715484619, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21808552742004395, "timer/agent.report_frac": 0.0007267893224341063, "timer/agent.report_avg": 0.21808552742004395, "timer/agent.report_min": 0.21808552742004395, "timer/agent.report_max": 0.21808552742004395, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.378951254198463}
{"step": 1244683, "episode/length": 213.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.900000028312206, "episode/reward_rate": 0.07476635514018691}
{"step": 1245068, "episode/length": 384.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.03896103896103896}
{"step": 1245213, "episode/length": 144.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.100000001490116, "episode/reward_rate": 0.0896551724137931}
{"step": 1245540, "episode/length": 326.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 18.10000003129244, "episode/reward_rate": 0.04892966360856269}
{"step": 1245604, "episode/length": 63.0, "episode/score": 7.100000023841858, "episode/sum_abs_reward": 8.899999976158142, "episode/reward_rate": 0.140625}
{"step": 1245839, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.458014385516827, "train/action_min": 0.0, "train/action_std": 3.366570835847121, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0365913384522383, "train/actor_opt_grad_steps": 622050.0, "train/actor_opt_loss": -11.307242555801684, "train/adv_mag": 0.4213463923105827, "train/adv_max": 0.34398551262342014, "train/adv_mean": 0.001645052659240229, "train/adv_min": -0.3646006790491251, "train/adv_std": 0.040856198164132926, "train/cont_avg": 0.9954176682692307, "train/cont_loss_mean": 2.9106695715943086e-05, "train/cont_loss_std": 0.0008639885805861852, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0023684046395778214, "train/cont_pos_acc": 0.9999999807431148, "train/cont_pos_loss": 1.9662218694039578e-05, "train/cont_pred": 0.9954084634780884, "train/cont_rate": 0.9954176682692307, "train/dyn_loss_mean": 5.7600672208345856, "train/dyn_loss_std": 8.991875178997333, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8623453974723816, "train/extr_critic_critic_opt_grad_steps": 622050.0, "train/extr_critic_critic_opt_loss": 15053.4841796875, "train/extr_critic_mag": 12.889195251464844, "train/extr_critic_max": 12.889195251464844, "train/extr_critic_mean": 3.8585395116072436, "train/extr_critic_min": -0.3066078882951003, "train/extr_critic_std": 3.018338408836952, "train/extr_return_normed_mag": 1.378730324598459, "train/extr_return_normed_max": 1.378730324598459, "train/extr_return_normed_mean": 0.39509670780255246, "train/extr_return_normed_min": -0.06741589433871782, "train/extr_return_normed_std": 0.3112910174406492, "train/extr_return_rate": 0.8547025689711938, "train/extr_return_raw_mag": 13.494241611774152, "train/extr_return_raw_max": 13.494241611774152, "train/extr_return_raw_mean": 3.874617015398466, "train/extr_return_raw_min": -0.6496336107070629, "train/extr_return_raw_std": 3.0443417622492865, "train/extr_reward_mag": 1.0783400242145245, "train/extr_reward_max": 1.0783400242145245, "train/extr_reward_mean": 0.06293798931516134, "train/extr_reward_min": -0.6004004386755136, "train/extr_reward_std": 0.24043099513420693, "train/image_loss_mean": 3.4676819251133844, "train/image_loss_std": 9.3746583205003, "train/model_loss_mean": 6.989490934518668, "train/model_loss_std": 13.53479806459867, "train/model_opt_grad_norm": 19.324099188584547, "train/model_opt_grad_steps": 621538.2307692308, "train/model_opt_loss": 19774.584810697117, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2846.153846153846, "train/policy_entropy_mag": 2.7271467208862306, "train/policy_entropy_max": 2.7271467208862306, "train/policy_entropy_mean": 0.46410542038770825, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6757970869541168, "train/policy_logprob_mag": 7.4383842688340405, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4645869002892421, "train/policy_logprob_min": -7.4383842688340405, "train/policy_logprob_std": 1.0803081741699805, "train/policy_randomness_mag": 0.96256311581685, "train/policy_randomness_max": 0.96256311581685, "train/policy_randomness_mean": 0.1638088469321911, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23852671384811402, "train/post_ent_mag": 55.10057173508864, "train/post_ent_max": 55.10057173508864, "train/post_ent_mean": 39.7739492563101, "train/post_ent_min": 19.022065192002515, "train/post_ent_std": 5.727779439779428, "train/prior_ent_mag": 76.8918205848107, "train/prior_ent_max": 76.8918205848107, "train/prior_ent_mean": 45.53120610163762, "train/prior_ent_min": 27.9529479100154, "train/prior_ent_std": 7.924147811302772, "train/rep_loss_mean": 5.7600672208345856, "train/rep_loss_std": 8.991875178997333, "train/reward_avg": 0.05058894188931355, "train/reward_loss_mean": 0.06573953416485052, "train/reward_loss_std": 0.2366022779391362, "train/reward_max_data": 1.030769238105187, "train/reward_max_pred": 1.0285907360223623, "train/reward_neg_acc": 0.9925115310228788, "train/reward_neg_loss": 0.02738380920715057, "train/reward_pos_acc": 0.9895539155373206, "train/reward_pos_loss": 0.7288231647931612, "train/reward_pred": 0.0500966150027055, "train/reward_rate": 0.05471754807692308, "stats/sum_log_reward": 12.500000286102296, "stats/max_log_achievement_collect_coal": 1.4, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.4, "stats/max_log_achievement_collect_sapling": 1.6, "stats/max_log_achievement_collect_stone": 11.4, "stats/max_log_achievement_collect_wood": 13.6, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.6, "stats/max_log_achievement_eat_cow": 0.8, "stats/max_log_achievement_make_stone_pickaxe": 0.6, "stats/max_log_achievement_make_stone_sword": 0.6, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.8, "stats/max_log_achievement_place_furnace": 0.8, "stats/max_log_achievement_place_plant": 1.2, "stats/max_log_achievement_place_stone": 4.2, "stats/max_log_achievement_place_table": 4.0, "stats/max_log_achievement_wake_up": 1.4, "stats/mean_log_entropy": 0.57273428440094, "replay/size": 1000000.0, "replay/inserts": 1296.0, "replay/samples": 10368.0, "replay/insert_wait_avg": 3.6908888522489573e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.342737196404257e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.4434404373169, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03169989585876465, "timer/logger.write_frac": 0.00010551036099381363, "timer/logger.write_avg": 0.03169989585876465, "timer/logger.write_min": 0.03169989585876465, "timer/logger.write_max": 0.03169989585876465, "timer/replay.add_count": 1296.0, "timer/replay.add_total": 0.2900230884552002, "timer/replay.add_frac": 0.0009653167598968074, "timer/replay.add_avg": 0.00022378324726481496, "timer/replay.add_min": 8.869171142578125e-05, "timer/replay.add_max": 0.0007867813110351562, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1296.0, "timer/env.step_total": 15.775439977645874, "timer/env.step_frac": 0.05250718722526807, "timer/env.step_avg": 0.012172407390158853, "timer/env.step_min": 0.002882242202758789, "timer/env.step_max": 1.668358564376831, "timer/agent.policy_count": 1296.0, "timer/agent.policy_total": 14.000571727752686, "timer/agent.policy_frac": 0.046599691800139995, "timer/agent.policy_avg": 0.010802910283759789, "timer/agent.policy_min": 0.0057048797607421875, "timer/agent.policy_max": 3.2712485790252686, "timer/dataset_count": 648.0, "timer/dataset_total": 0.05328655242919922, "timer/dataset_frac": 0.00017735967991724775, "timer/dataset_avg": 8.22323339956778e-05, "timer/dataset_min": 6.437301635742188e-05, "timer/dataset_max": 0.00013637542724609375, "timer/agent.train_count": 648.0, "timer/agent.train_total": 269.6383376121521, "timer/agent.train_frac": 0.8974678802095803, "timer/agent.train_avg": 0.41610854569776556, "timer/agent.train_min": 0.37386322021484375, "timer/agent.train_max": 0.4546072483062744, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22938990592956543, "timer/agent.report_frac": 0.0007635044572638099, "timer/agent.report_avg": 0.22938990592956543, "timer/agent.report_min": 0.22938990592956543, "timer/agent.report_max": 0.22938990592956543, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00028967857360839844, "timer/checkpoint.save_frac": 9.641700720333603e-07, "timer/checkpoint.save_avg": 0.00028967857360839844, "timer/checkpoint.save_min": 0.00028967857360839844, "timer/checkpoint.save_max": 0.00028967857360839844, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1855964660644531, "timer/agent.save_frac": 0.003946155270818137, "timer/agent.save_avg": 1.1855964660644531, "timer/agent.save_min": 1.1855964660644531, "timer/agent.save_max": 1.1855964660644531, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.224082946777344e-05, "timer/replay.save_frac": 2.404473512972084e-07, "timer/replay.save_avg": 7.224082946777344e-05, "timer/replay.save_min": 7.224082946777344e-05, "timer/replay.save_max": 7.224082946777344e-05, "fps": 4.313553336940307}
{"step": 1245975, "episode/length": 370.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.03773584905660377}
{"step": 1246306, "episode/length": 330.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.045317220543806644}
{"step": 1246672, "episode/length": 365.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.040983606557377046}
{"step": 1246911, "episode/length": 238.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.0502092050209205}
{"step": 1247140, "episode/length": 228.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.500000044703484, "episode/reward_rate": 0.06550218340611354}
{"step": 1247159, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.351273970170454, "train/action_min": 0.0, "train/action_std": 3.2705378821401885, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03663537809343049, "train/actor_opt_grad_steps": 622705.0, "train/actor_opt_loss": -8.662670993669467, "train/adv_mag": 0.3836233577493465, "train/adv_max": 0.3046335754069415, "train/adv_mean": 0.0023207488312905434, "train/adv_min": -0.35723145283532864, "train/adv_std": 0.04119088054832184, "train/cont_avg": 0.9950432054924242, "train/cont_loss_mean": 0.00017551845456573935, "train/cont_loss_std": 0.005544874138004816, "train/cont_neg_acc": 0.9826599332419309, "train/cont_neg_loss": 0.0519261974648192, "train/cont_pos_acc": 0.9999999855503892, "train/cont_pos_loss": 4.725558245586157e-06, "train/cont_pred": 0.9950927866227699, "train/cont_rate": 0.9950432054924242, "train/dyn_loss_mean": 5.866115266626531, "train/dyn_loss_std": 9.085836526119348, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9177758964625272, "train/extr_critic_critic_opt_grad_steps": 622705.0, "train/extr_critic_critic_opt_loss": 15345.696244673296, "train/extr_critic_mag": 12.657808361631451, "train/extr_critic_max": 12.657808361631451, "train/extr_critic_mean": 3.8565575317903, "train/extr_critic_min": -0.28715980233568134, "train/extr_critic_std": 3.053138335545858, "train/extr_return_normed_mag": 1.372312473528313, "train/extr_return_normed_max": 1.372312473528313, "train/extr_return_normed_mean": 0.39673091516350256, "train/extr_return_normed_min": -0.06464123776690527, "train/extr_return_normed_std": 0.3152306693972963, "train/extr_return_rate": 0.8595516148841742, "train/extr_return_raw_mag": 13.407317912939822, "train/extr_return_raw_max": 13.407317912939822, "train/extr_return_raw_mean": 3.8792323885541973, "train/extr_return_raw_min": -0.6267840600374973, "train/extr_return_raw_std": 3.0785913648027363, "train/extr_reward_mag": 1.085449052579475, "train/extr_reward_max": 1.085449052579475, "train/extr_reward_mean": 0.06599945857217818, "train/extr_reward_min": -0.5815595767714761, "train/extr_reward_std": 0.24542851926702441, "train/image_loss_mean": 3.6459280848503113, "train/image_loss_std": 9.363430774573123, "train/model_loss_mean": 7.232557751915672, "train/model_loss_std": 13.533235275384152, "train/model_opt_grad_norm": 19.194845271833014, "train/model_opt_grad_steps": 622192.7575757576, "train/model_opt_loss": 18081.39442767519, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7141882614655928, "train/policy_entropy_max": 2.7141882614655928, "train/policy_entropy_mean": 0.4388225015365716, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6419703418558295, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.43925163917469257, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 1.0591071103558396, "train/policy_randomness_mag": 0.957989344994227, "train/policy_randomness_max": 0.957989344994227, "train/policy_randomness_mean": 0.154885087500919, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2265873576203982, "train/post_ent_mag": 55.529133998986445, "train/post_ent_max": 55.529133998986445, "train/post_ent_mean": 39.89017636848219, "train/post_ent_min": 19.52176958141905, "train/post_ent_std": 5.786214568398216, "train/prior_ent_mag": 76.8381076003566, "train/prior_ent_max": 76.8381076003566, "train/prior_ent_mean": 45.73371309222597, "train/prior_ent_min": 27.813904386578184, "train/prior_ent_std": 7.969956398010254, "train/rep_loss_mean": 5.866115266626531, "train/rep_loss_std": 9.085836526119348, "train/reward_avg": 0.05206557713223226, "train/reward_loss_mean": 0.06678506839230205, "train/reward_loss_std": 0.2267547748757131, "train/reward_max_data": 1.0272727337750522, "train/reward_max_pred": 1.0282433899966152, "train/reward_neg_acc": 0.9920032033414552, "train/reward_neg_loss": 0.02816714346408844, "train/reward_pos_acc": 0.9915479656421777, "train/reward_pos_loss": 0.7135958861220967, "train/reward_pred": 0.051818686198781834, "train/reward_rate": 0.05649266098484849, "stats/sum_log_reward": 13.3, "stats/max_log_achievement_collect_coal": 1.2, "stats/max_log_achievement_collect_drink": 5.0, "stats/max_log_achievement_collect_iron": 0.2, "stats/max_log_achievement_collect_sapling": 2.6, "stats/max_log_achievement_collect_stone": 26.0, "stats/max_log_achievement_collect_wood": 12.8, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.4, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 2.2, "stats/max_log_achievement_place_stone": 3.8, "stats/max_log_achievement_place_table": 3.2, "stats/max_log_achievement_wake_up": 1.8, "stats/mean_log_entropy": 0.6796346724033355, "replay/size": 1000000.0, "replay/inserts": 1320.0, "replay/samples": 10560.0, "replay/insert_wait_avg": 3.710660067471591e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3511289249766957e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.35139298439026, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.035073041915893555, "timer/logger.write_frac": 0.00011677336191917165, "timer/logger.write_avg": 0.035073041915893555, "timer/logger.write_min": 0.035073041915893555, "timer/logger.write_max": 0.035073041915893555, "timer/replay.add_count": 1320.0, "timer/replay.add_total": 0.27153801918029785, "timer/replay.add_frac": 0.0009040677870084329, "timer/replay.add_avg": 0.00020571062059113475, "timer/replay.add_min": 8.225440979003906e-05, "timer/replay.add_max": 0.0010783672332763672, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1320.0, "timer/env.step_total": 15.441641330718994, "timer/env.step_frac": 0.051411918477506514, "timer/env.step_avg": 0.011698213129332571, "timer/env.step_min": 0.003202676773071289, "timer/env.step_max": 1.6348419189453125, "timer/agent.policy_count": 1320.0, "timer/agent.policy_total": 9.90308690071106, "timer/agent.policy_frac": 0.032971669624404704, "timer/agent.policy_avg": 0.007502338561144742, "timer/agent.policy_min": 0.0056765079498291016, "timer/agent.policy_max": 0.015656709671020508, "timer/dataset_count": 660.0, "timer/dataset_total": 0.055910348892211914, "timer/dataset_frac": 0.0001861497905392357, "timer/dataset_avg": 8.471264983668472e-05, "timer/dataset_min": 6.413459777832031e-05, "timer/dataset_max": 0.00016999244689941406, "timer/agent.train_count": 660.0, "timer/agent.train_total": 273.9336349964142, "timer/agent.train_frac": 0.9120438306428995, "timer/agent.train_avg": 0.4150509621157791, "timer/agent.train_min": 0.3677709102630615, "timer/agent.train_max": 0.4527571201324463, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.26020288467407227, "timer/agent.report_frac": 0.0008663282100629227, "timer/agent.report_avg": 0.26020288467407227, "timer/agent.report_min": 0.26020288467407227, "timer/agent.report_max": 0.26020288467407227, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.3947774778759}
{"step": 1247371, "episode/length": 230.0, "episode/score": 16.100000001490116, "episode/sum_abs_reward": 19.1000000461936, "episode/reward_rate": 0.0735930735930736}
{"step": 1247745, "episode/length": 373.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.034759358288770054}
{"step": 1248025, "episode/length": 279.0, "episode/score": 15.100000008940697, "episode/sum_abs_reward": 18.300000086426735, "episode/reward_rate": 0.060714285714285714}
{"step": 1248274, "episode/length": 248.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.060240963855421686}
{"step": 1248467, "episode/length": 192.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.500000022351742, "episode/reward_rate": 0.08290155440414508}
{"step": 1248477, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.365411846454327, "train/action_min": 0.0, "train/action_std": 3.282149340556218, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03613832386640402, "train/actor_opt_grad_steps": 623360.0, "train/actor_opt_loss": -10.755956486555247, "train/adv_mag": 0.37981683749418993, "train/adv_max": 0.32662146779207085, "train/adv_mean": 0.0018202177108972907, "train/adv_min": -0.33370907077422507, "train/adv_std": 0.04091306758614687, "train/cont_avg": 0.9953275240384616, "train/cont_loss_mean": 9.959676323992776e-05, "train/cont_loss_std": 0.003038465270863246, "train/cont_neg_acc": 0.9947252759566674, "train/cont_neg_loss": 0.01639516902622034, "train/cont_pos_acc": 0.9999999798261202, "train/cont_pos_loss": 1.1923924251697407e-05, "train/cont_pred": 0.9953436374664306, "train/cont_rate": 0.9953275240384616, "train/dyn_loss_mean": 5.888296134655292, "train/dyn_loss_std": 9.0614042868981, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8784453126100393, "train/extr_critic_critic_opt_grad_steps": 623360.0, "train/extr_critic_critic_opt_loss": 15060.971168870192, "train/extr_critic_mag": 12.90141922877385, "train/extr_critic_max": 12.90141922877385, "train/extr_critic_mean": 3.879734556491558, "train/extr_critic_min": -0.2609417786965003, "train/extr_critic_std": 3.0127796723292426, "train/extr_return_normed_mag": 1.3882756820091835, "train/extr_return_normed_max": 1.3882756820091835, "train/extr_return_normed_mean": 0.39800795110372394, "train/extr_return_normed_min": -0.0627807493106677, "train/extr_return_normed_std": 0.31202479027784785, "train/extr_return_rate": 0.8479497597767757, "train/extr_return_raw_mag": 13.544433623093825, "train/extr_return_raw_max": 13.544433623093825, "train/extr_return_raw_mean": 3.8974759688744176, "train/extr_return_raw_min": -0.5908284430320446, "train/extr_return_raw_std": 3.03932005075308, "train/extr_reward_mag": 1.086771715604342, "train/extr_reward_max": 1.086771715604342, "train/extr_reward_mean": 0.06461055943599114, "train/extr_reward_min": -0.5527548258121197, "train/extr_reward_std": 0.24367360151731052, "train/image_loss_mean": 3.6700736852792595, "train/image_loss_std": 9.24552202958327, "train/model_loss_mean": 7.2687228422898515, "train/model_loss_std": 13.431524423452524, "train/model_opt_grad_norm": 20.78617596259484, "train/model_opt_grad_steps": 622847.0, "train/model_opt_loss": 18171.807151442306, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.717027623836811, "train/policy_entropy_max": 2.717027623836811, "train/policy_entropy_mean": 0.45149662219561065, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6570989329081315, "train/policy_logprob_mag": 7.438384320185735, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4517472624778748, "train/policy_logprob_min": -7.438384320185735, "train/policy_logprob_std": 1.0706881816570575, "train/policy_randomness_mag": 0.9589915165534386, "train/policy_randomness_max": 0.9589915165534386, "train/policy_randomness_mean": 0.15935849512998873, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2319270881322714, "train/post_ent_mag": 55.01810613778921, "train/post_ent_max": 55.01810613778921, "train/post_ent_mean": 39.75525254469652, "train/post_ent_min": 19.414010590773362, "train/post_ent_std": 5.786842133448674, "train/prior_ent_mag": 76.75740673358624, "train/prior_ent_max": 76.75740673358624, "train/prior_ent_mean": 45.60113783616286, "train/prior_ent_min": 27.519978567270133, "train/prior_ent_std": 7.963709515791673, "train/rep_loss_mean": 5.888296134655292, "train/rep_loss_std": 9.0614042868981, "train/reward_avg": 0.05206430264963553, "train/reward_loss_mean": 0.06557190641760827, "train/reward_loss_std": 0.2278460076222053, "train/reward_max_data": 1.0476923190630398, "train/reward_max_pred": 1.0458258041968713, "train/reward_neg_acc": 0.9927227157812852, "train/reward_neg_loss": 0.02656793359380502, "train/reward_pos_acc": 0.9900949533169087, "train/reward_pos_loss": 0.7198907320316021, "train/reward_pred": 0.051779989497019695, "train/reward_rate": 0.05625, "stats/sum_log_reward": 14.500000190734863, "stats/max_log_achievement_collect_coal": 0.8, "stats/max_log_achievement_collect_drink": 4.6, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 19.2, "stats/max_log_achievement_collect_wood": 13.6, "stats/max_log_achievement_defeat_skeleton": 0.4, "stats/max_log_achievement_defeat_zombie": 1.4, "stats/max_log_achievement_eat_cow": 0.6, "stats/max_log_achievement_make_stone_pickaxe": 1.4, "stats/max_log_achievement_make_stone_sword": 1.4, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2, "stats/max_log_achievement_place_furnace": 2.6, "stats/max_log_achievement_place_plant": 1.4, "stats/max_log_achievement_place_stone": 3.8, "stats/max_log_achievement_place_table": 4.0, "stats/max_log_achievement_wake_up": 1.8, "stats/mean_log_entropy": 0.6415741086006165, "replay/size": 1000000.0, "replay/inserts": 1318.0, "replay/samples": 10544.0, "replay/insert_wait_avg": 3.5685002351566947e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3741177022004886e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.08362770080566, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03222942352294922, "timer/logger.write_frac": 0.00010740147261577073, "timer/logger.write_avg": 0.03222942352294922, "timer/logger.write_min": 0.03222942352294922, "timer/logger.write_max": 0.03222942352294922, "timer/replay.add_count": 1318.0, "timer/replay.add_total": 0.262800931930542, "timer/replay.add_frac": 0.0008757589807350774, "timer/replay.add_avg": 0.00019939372680617755, "timer/replay.add_min": 7.748603820800781e-05, "timer/replay.add_max": 0.0008835792541503906, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1318.0, "timer/env.step_total": 15.628073930740356, "timer/env.step_frac": 0.05207906226167766, "timer/env.step_avg": 0.011857415728938055, "timer/env.step_min": 0.002965688705444336, "timer/env.step_max": 1.7160344123840332, "timer/agent.policy_count": 1318.0, "timer/agent.policy_total": 9.719734191894531, "timer/agent.policy_frac": 0.032390084945205545, "timer/agent.policy_avg": 0.007374608643319068, "timer/agent.policy_min": 0.005585432052612305, "timer/agent.policy_max": 0.018064022064208984, "timer/dataset_count": 659.0, "timer/dataset_total": 0.053985595703125, "timer/dataset_frac": 0.00017990183642058142, "timer/dataset_avg": 8.192047906392261e-05, "timer/dataset_min": 6.389617919921875e-05, "timer/dataset_max": 0.0001304149627685547, "timer/agent.train_count": 659.0, "timer/agent.train_total": 273.733544588089, "timer/agent.train_frac": 0.9121908672105609, "timer/agent.train_avg": 0.415377154154915, "timer/agent.train_min": 0.37326598167419434, "timer/agent.train_max": 0.4505307674407959, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2149820327758789, "timer/agent.report_frac": 0.0007164070709989678, "timer/agent.report_avg": 0.2149820327758789, "timer/agent.report_min": 0.2149820327758789, "timer/agent.report_max": 0.2149820327758789, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.392032287201249}
{"step": 1248648, "episode/length": 180.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.100000016391277, "episode/reward_rate": 0.08839779005524862}
{"step": 1248894, "episode/length": 245.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.056910569105691054}
{"step": 1248987, "episode/length": 92.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.11827956989247312}
{"step": 1249255, "episode/length": 267.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.05223880597014925}
{"step": 1249446, "episode/length": 190.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.700000040233135, "episode/reward_rate": 0.06282722513089005}
{"step": 1249675, "episode/length": 228.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.06550218340611354}
{"step": 1249769, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.474960561899039, "train/action_min": 0.0, "train/action_std": 3.378471015049861, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03565979029696721, "train/actor_opt_grad_steps": 624010.0, "train/actor_opt_loss": -10.707011155898755, "train/adv_mag": 0.40149655823524183, "train/adv_max": 0.3251864850521088, "train/adv_mean": 0.002190320599737998, "train/adv_min": -0.366042197896884, "train/adv_std": 0.04109463820663782, "train/cont_avg": 0.9952073317307693, "train/cont_loss_mean": 1.3713731864037563e-05, "train/cont_loss_std": 0.000366938811192505, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0008886473383306555, "train/cont_pos_acc": 0.999999984411093, "train/cont_pos_loss": 1.2763889891140514e-05, "train/cont_pred": 0.9951961379784804, "train/cont_rate": 0.9952073317307693, "train/dyn_loss_mean": 5.841347114856426, "train/dyn_loss_std": 9.066807688199557, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.866419675716987, "train/extr_critic_critic_opt_grad_steps": 624010.0, "train/extr_critic_critic_opt_loss": 15079.638296274039, "train/extr_critic_mag": 12.875750967172475, "train/extr_critic_max": 12.875750967172475, "train/extr_critic_mean": 3.8685207807100737, "train/extr_critic_min": -0.2766962363169743, "train/extr_critic_std": 3.0508802817418026, "train/extr_return_normed_mag": 1.3890650254029495, "train/extr_return_normed_max": 1.3890650254029495, "train/extr_return_normed_mean": 0.39345070238296803, "train/extr_return_normed_min": -0.06374720621567506, "train/extr_return_normed_std": 0.313320589524049, "train/extr_return_rate": 0.8502614617347717, "train/extr_return_raw_mag": 13.687002431429349, "train/extr_return_raw_max": 13.687002431429349, "train/extr_return_raw_mean": 3.890016566790067, "train/extr_return_raw_min": -0.6084256612337553, "train/extr_return_raw_std": 3.0831040455744816, "train/extr_reward_mag": 1.0787663203019362, "train/extr_reward_max": 1.0787663203019362, "train/extr_reward_mean": 0.06260547686654788, "train/extr_reward_min": -0.5528041711220375, "train/extr_reward_std": 0.23979757244770344, "train/image_loss_mean": 3.7194609898787276, "train/image_loss_std": 9.344482157780574, "train/model_loss_mean": 7.290292607820951, "train/model_loss_std": 13.493507443941557, "train/model_opt_grad_norm": 19.032779708275427, "train/model_opt_grad_steps": 623496.4153846154, "train/model_opt_loss": 20272.1427734375, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2807.6923076923076, "train/policy_entropy_mag": 2.7283470704005315, "train/policy_entropy_max": 2.7283470704005315, "train/policy_entropy_mean": 0.4695598230912135, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6833985058160928, "train/policy_logprob_mag": 7.4383843348576475, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.46804868899858915, "train/policy_logprob_min": -7.4383843348576475, "train/policy_logprob_std": 1.0803608289131752, "train/policy_randomness_mag": 0.9629867856319134, "train/policy_randomness_max": 0.9629867856319134, "train/policy_randomness_mean": 0.16573401334194038, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24120968190523295, "train/post_ent_mag": 55.04975521381085, "train/post_ent_max": 55.04975521381085, "train/post_ent_mean": 39.85244833139273, "train/post_ent_min": 19.615700046832746, "train/post_ent_std": 5.788263071500338, "train/prior_ent_mag": 76.73590170053335, "train/prior_ent_max": 76.73590170053335, "train/prior_ent_mean": 45.680409475473255, "train/prior_ent_min": 27.431718943669246, "train/prior_ent_std": 7.977902273031382, "train/rep_loss_mean": 5.841347114856426, "train/rep_loss_std": 9.066807688199557, "train/reward_avg": 0.05107722291006492, "train/reward_loss_mean": 0.06600961289726771, "train/reward_loss_std": 0.22551854321589837, "train/reward_max_data": 1.0323077000104464, "train/reward_max_pred": 1.0316222190856934, "train/reward_neg_acc": 0.9918293301875775, "train/reward_neg_loss": 0.02768282534984442, "train/reward_pos_acc": 0.9896186911142789, "train/reward_pos_loss": 0.7205950278502244, "train/reward_pred": 0.05079060300038411, "train/reward_rate": 0.05539362980769231, "stats/sum_log_reward": 12.766666889190674, "stats/max_log_achievement_collect_coal": 1.1666666666666667, "stats/max_log_achievement_collect_drink": 1.6666666666666667, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 14.0, "stats/max_log_achievement_collect_wood": 12.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 2.8333333333333335, "stats/max_log_achievement_place_table": 3.6666666666666665, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.35409530252218246, "replay/size": 1000000.0, "replay/inserts": 1292.0, "replay/samples": 10336.0, "replay/insert_wait_avg": 3.6050660691394158e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3486934889211744e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2123386859894, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02866053581237793, "timer/logger.write_frac": 9.546754786236736e-05, "timer/logger.write_avg": 0.02866053581237793, "timer/logger.write_min": 0.02866053581237793, "timer/logger.write_max": 0.02866053581237793, "timer/replay.add_count": 1292.0, "timer/replay.add_total": 0.2992830276489258, "timer/replay.add_frac": 0.0009969044875332868, "timer/replay.add_avg": 0.00023164321025458652, "timer/replay.add_min": 9.131431579589844e-05, "timer/replay.add_max": 0.005318164825439453, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1292.0, "timer/env.step_total": 16.967940092086792, "timer/env.step_frac": 0.056519795843016994, "timer/env.step_avg": 0.013133080566630644, "timer/env.step_min": 0.00313568115234375, "timer/env.step_max": 1.6893563270568848, "timer/agent.policy_count": 1292.0, "timer/agent.policy_total": 14.116975784301758, "timer/agent.policy_frac": 0.047023303059730584, "timer/agent.policy_avg": 0.010926451845434797, "timer/agent.policy_min": 0.005635261535644531, "timer/agent.policy_max": 3.506596803665161, "timer/dataset_count": 646.0, "timer/dataset_total": 0.052527666091918945, "timer/dataset_frac": 0.0001749683784544941, "timer/dataset_avg": 8.131217661287763e-05, "timer/dataset_min": 6.413459777832031e-05, "timer/dataset_max": 0.0001842975616455078, "timer/agent.train_count": 646.0, "timer/agent.train_total": 268.1034805774689, "timer/agent.train_frac": 0.8930461744208816, "timer/agent.train_avg": 0.41502086776697966, "timer/agent.train_min": 0.36686182022094727, "timer/agent.train_max": 0.4536473751068115, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21573710441589355, "timer/agent.report_frac": 0.000718615048802329, "timer/agent.report_avg": 0.21573710441589355, "timer/agent.report_min": 0.21573710441589355, "timer/agent.report_max": 0.21573710441589355, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003170967102050781, "timer/checkpoint.save_frac": 1.0562414309584695e-06, "timer/checkpoint.save_avg": 0.0003170967102050781, "timer/checkpoint.save_min": 0.0003170967102050781, "timer/checkpoint.save_max": 0.0003170967102050781, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1668789386749268, "timer/agent.save_frac": 0.003886845370121304, "timer/agent.save_avg": 1.1668789386749268, "timer/agent.save_min": 1.1668789386749268, "timer/agent.save_max": 1.1668789386749268, "timer/replay.save_count": 1.0, "timer/replay.save_total": 5.984306335449219e-05, "timer/replay.save_frac": 1.9933578885005704e-07, "timer/replay.save_avg": 5.984306335449219e-05, "timer/replay.save_min": 5.984306335449219e-05, "timer/replay.save_max": 5.984306335449219e-05, "fps": 4.303564309671015}
{"step": 1249983, "episode/length": 307.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.700000025331974, "episode/reward_rate": 0.05194805194805195}
{"step": 1250250, "episode/length": 266.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.700000025331974, "episode/reward_rate": 0.0599250936329588}
{"step": 1250569, "episode/length": 318.0, "episode/score": 16.099999964237213, "episode/sum_abs_reward": 18.299999997019768, "episode/reward_rate": 0.05329153605015674}
{"step": 1250786, "episode/length": 216.0, "episode/score": 15.099999994039536, "episode/sum_abs_reward": 17.700000017881393, "episode/reward_rate": 0.07834101382488479}
{"step": 1251031, "episode/length": 244.0, "episode/score": 14.099999994039536, "episode/sum_abs_reward": 16.700000017881393, "episode/reward_rate": 0.0653061224489796}
{"step": 1251085, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.395467122395833, "train/action_min": 0.0, "train/action_std": 3.2923841042952104, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03587428316699736, "train/actor_opt_grad_steps": 624665.0, "train/actor_opt_loss": -11.769759703766216, "train/adv_mag": 0.4143337727044568, "train/adv_max": 0.3263519078944669, "train/adv_mean": 0.0017900840863341837, "train/adv_min": -0.3719662753018466, "train/adv_std": 0.04097532221313679, "train/cont_avg": 0.9951171875, "train/cont_loss_mean": 2.927614200003022e-05, "train/cont_loss_std": 0.0007947089116641744, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0009340109799446207, "train/cont_pos_acc": 0.9999999810348857, "train/cont_pos_loss": 2.1694967702673598e-05, "train/cont_pred": 0.995103100935618, "train/cont_rate": 0.9951171875, "train/dyn_loss_mean": 5.941569754571626, "train/dyn_loss_std": 9.017042723569004, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8674124253518654, "train/extr_critic_critic_opt_grad_steps": 624665.0, "train/extr_critic_critic_opt_loss": 14923.523467092804, "train/extr_critic_mag": 12.826279972538803, "train/extr_critic_max": 12.826279972538803, "train/extr_critic_mean": 3.9699487975149443, "train/extr_critic_min": -0.3089233763290174, "train/extr_critic_std": 3.134688478527647, "train/extr_return_normed_mag": 1.3640570459943828, "train/extr_return_normed_max": 1.3640570459943828, "train/extr_return_normed_mean": 0.4006362187139916, "train/extr_return_normed_min": -0.06547475284473463, "train/extr_return_normed_std": 0.31942234165740735, "train/extr_return_rate": 0.8457643272298755, "train/extr_return_raw_mag": 13.530180873292865, "train/extr_return_raw_max": 13.530180873292865, "train/extr_return_raw_mean": 3.9876888593037925, "train/extr_return_raw_min": -0.6296465676842313, "train/extr_return_raw_std": 3.1641216639316445, "train/extr_reward_mag": 1.0892385280493535, "train/extr_reward_max": 1.0892385280493535, "train/extr_reward_mean": 0.06371747787025842, "train/extr_reward_min": -0.5831098303650365, "train/extr_reward_std": 0.24196463033105386, "train/image_loss_mean": 3.5600450761390454, "train/image_loss_std": 8.81948355472449, "train/model_loss_mean": 7.191975897008723, "train/model_loss_std": 13.0026285720594, "train/model_opt_grad_norm": 20.202386249195445, "train/model_opt_grad_steps": 624151.0, "train/model_opt_loss": 18962.00115411932, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2651.5151515151515, "train/policy_entropy_mag": 2.740358312924703, "train/policy_entropy_max": 2.740358312924703, "train/policy_entropy_mean": 0.4641997218132019, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6854793460983218, "train/policy_logprob_mag": 7.438384287285082, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.46346341795993573, "train/policy_logprob_min": -7.438384287285082, "train/policy_logprob_std": 1.081547666679729, "train/policy_randomness_mag": 0.9672262262214314, "train/policy_randomness_max": 0.9672262262214314, "train/policy_randomness_mean": 0.16384213146838275, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24194412723635184, "train/post_ent_mag": 55.2419938174161, "train/post_ent_max": 55.2419938174161, "train/post_ent_mean": 39.661405274362274, "train/post_ent_min": 19.611504728143867, "train/post_ent_std": 5.783982638156775, "train/prior_ent_mag": 76.69116881399444, "train/prior_ent_max": 76.69116881399444, "train/prior_ent_mean": 45.59689857020523, "train/prior_ent_min": 27.2383921363137, "train/prior_ent_std": 8.046957023216017, "train/rep_loss_mean": 5.941569754571626, "train/rep_loss_std": 9.017042723569004, "train/reward_avg": 0.0518510297900348, "train/reward_loss_mean": 0.06695976018002539, "train/reward_loss_std": 0.23558595257275033, "train/reward_max_data": 1.0393939487861865, "train/reward_max_pred": 1.0363598881345806, "train/reward_neg_acc": 0.9908439363494064, "train/reward_neg_loss": 0.027644563014760162, "train/reward_pos_acc": 0.9886242431221586, "train/reward_pos_loss": 0.7261290161898641, "train/reward_pred": 0.0513558154643485, "train/reward_rate": 0.056196732954545456, "stats/sum_log_reward": 15.100000190734864, "stats/max_log_achievement_collect_coal": 1.2, "stats/max_log_achievement_collect_drink": 3.2, "stats/max_log_achievement_collect_iron": 0.2, "stats/max_log_achievement_collect_sapling": 3.0, "stats/max_log_achievement_collect_stone": 17.2, "stats/max_log_achievement_collect_wood": 14.4, "stats/max_log_achievement_defeat_skeleton": 0.4, "stats/max_log_achievement_defeat_zombie": 2.4, "stats/max_log_achievement_eat_cow": 0.8, "stats/max_log_achievement_make_stone_pickaxe": 1.4, "stats/max_log_achievement_make_stone_sword": 1.2, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.4, "stats/max_log_achievement_place_plant": 2.4, "stats/max_log_achievement_place_stone": 4.8, "stats/max_log_achievement_place_table": 4.2, "stats/max_log_achievement_wake_up": 1.6, "stats/mean_log_entropy": 0.627393639087677, "replay/size": 1000000.0, "replay/inserts": 1316.0, "replay/samples": 10528.0, "replay/insert_wait_avg": 3.603816394747934e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.36823458512141e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2567455768585, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025652647018432617, "timer/logger.write_frac": 8.54357059294315e-05, "timer/logger.write_avg": 0.025652647018432617, "timer/logger.write_min": 0.025652647018432617, "timer/logger.write_max": 0.025652647018432617, "timer/replay.add_count": 1316.0, "timer/replay.add_total": 0.2678995132446289, "timer/replay.add_frac": 0.0008922347863657006, "timer/replay.add_avg": 0.00020357105869652653, "timer/replay.add_min": 8.535385131835938e-05, "timer/replay.add_max": 0.0011701583862304688, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1316.0, "timer/env.step_total": 15.970943689346313, "timer/env.step_frac": 0.05319095715456003, "timer/env.step_avg": 0.012135975447831545, "timer/env.step_min": 0.0029668807983398438, "timer/env.step_max": 1.6627869606018066, "timer/agent.policy_count": 1316.0, "timer/agent.policy_total": 9.839242458343506, "timer/agent.policy_frac": 0.03276943017363417, "timer/agent.policy_avg": 0.0074766280078598065, "timer/agent.policy_min": 0.00565648078918457, "timer/agent.policy_max": 0.016542673110961914, "timer/dataset_count": 658.0, "timer/dataset_total": 0.054564476013183594, "timer/dataset_frac": 0.00018172606216840646, "timer/dataset_avg": 8.292473558234588e-05, "timer/dataset_min": 6.341934204101562e-05, "timer/dataset_max": 0.000141143798828125, "timer/agent.train_count": 658.0, "timer/agent.train_total": 273.43198680877686, "timer/agent.train_frac": 0.9106605957626515, "timer/agent.train_avg": 0.4155501319282323, "timer/agent.train_min": 0.3740057945251465, "timer/agent.train_max": 0.45079755783081055, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.23079204559326172, "timer/agent.report_frac": 0.0007686489945458511, "timer/agent.report_avg": 0.23079204559326172, "timer/agent.report_min": 0.23079204559326172, "timer/agent.report_max": 0.23079204559326172, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.382845201577151}
{"step": 1251280, "episode/length": 248.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.05622489959839357}
{"step": 1251394, "episode/length": 113.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 9.899999976158142, "episode/reward_rate": 0.08771929824561403}
{"step": 1251621, "episode/length": 226.0, "episode/score": 14.099999971687794, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.07048458149779736}
{"step": 1251828, "episode/length": 206.0, "episode/score": 14.100000023841858, "episode/sum_abs_reward": 16.300000056624413, "episode/reward_rate": 0.07246376811594203}
{"step": 1252019, "episode/length": 190.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.07853403141361257}
{"step": 1252079, "episode/length": 59.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 9.099999994039536, "episode/reward_rate": 0.15}
{"step": 1252147, "episode/length": 67.0, "episode/score": 1.1000000089406967, "episode/sum_abs_reward": 3.0999999940395355, "episode/reward_rate": 0.04411764705882353}
{"step": 1252333, "episode/length": 185.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 9.899999991059303, "episode/reward_rate": 0.053763440860215055}
{"step": 1252381, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4620849609375, "train/action_min": 0.0, "train/action_std": 3.3606441974639893, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.034888275196919075, "train/actor_opt_grad_steps": 625320.0, "train/actor_opt_loss": -12.360050868988036, "train/adv_mag": 0.41164838350736177, "train/adv_max": 0.3271483668914208, "train/adv_mean": 0.0014275090076597944, "train/adv_min": -0.3736254047888976, "train/adv_std": 0.04013739216786164, "train/cont_avg": 0.9954176682692307, "train/cont_loss_mean": 0.00012053324758811028, "train/cont_loss_std": 0.0036319618342601574, "train/cont_neg_acc": 0.993750000372529, "train/cont_neg_loss": 0.02087532866839617, "train/cont_pos_acc": 0.9999999825771039, "train/cont_pos_loss": 2.333589840715761e-05, "train/cont_pred": 0.9954308867454529, "train/cont_rate": 0.9954176682692307, "train/dyn_loss_mean": 5.791102798168476, "train/dyn_loss_std": 8.986316270094651, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.821765476006728, "train/extr_critic_critic_opt_grad_steps": 625320.0, "train/extr_critic_critic_opt_loss": 14891.933864182693, "train/extr_critic_mag": 12.967520948556754, "train/extr_critic_max": 12.967520948556754, "train/extr_critic_mean": 3.8238340817964995, "train/extr_critic_min": -0.3010743031134972, "train/extr_critic_std": 3.090604301599356, "train/extr_return_normed_mag": 1.3747253839786235, "train/extr_return_normed_max": 1.3747253839786235, "train/extr_return_normed_mean": 0.3913407720052279, "train/extr_return_normed_min": -0.06266485375280563, "train/extr_return_normed_std": 0.31704172033530015, "train/extr_return_rate": 0.8441456776398879, "train/extr_return_raw_mag": 13.503061808072603, "train/extr_return_raw_max": 13.503061808072603, "train/extr_return_raw_mean": 3.837861233491164, "train/extr_return_raw_min": -0.6244171406214054, "train/extr_return_raw_std": 3.1162845281454232, "train/extr_reward_mag": 1.0786095252403847, "train/extr_reward_max": 1.0786095252403847, "train/extr_reward_mean": 0.06317681200229204, "train/extr_reward_min": -0.5701128849616417, "train/extr_reward_std": 0.24127230300353122, "train/image_loss_mean": 3.635367727279663, "train/image_loss_std": 9.319712242713342, "train/model_loss_mean": 7.176348238724929, "train/model_loss_std": 13.39189912355863, "train/model_opt_grad_norm": 20.000416066096378, "train/model_opt_grad_steps": 624805.0615384616, "train/model_opt_loss": 18969.853515625, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2653.846153846154, "train/policy_entropy_mag": 2.743556594848633, "train/policy_entropy_max": 2.743556594848633, "train/policy_entropy_mean": 0.4768803963294396, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6950202235808739, "train/policy_logprob_mag": 7.438384246826172, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.47682426663545463, "train/policy_logprob_min": -7.438384246826172, "train/policy_logprob_std": 1.091649447954618, "train/policy_randomness_mag": 0.968355077963609, "train/policy_randomness_max": 0.968355077963609, "train/policy_randomness_mean": 0.16831785153884155, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24531163756663982, "train/post_ent_mag": 55.10530794583834, "train/post_ent_max": 55.10530794583834, "train/post_ent_mean": 39.80867608877329, "train/post_ent_min": 19.573596279437727, "train/post_ent_std": 5.80678028693566, "train/prior_ent_mag": 76.75266406719501, "train/prior_ent_max": 76.75266406719501, "train/prior_ent_mean": 45.60778286273663, "train/prior_ent_min": 27.67167692918044, "train/prior_ent_std": 8.002966015155499, "train/rep_loss_mean": 5.791102798168476, "train/rep_loss_std": 8.986316270094651, "train/reward_avg": 0.05092247592715116, "train/reward_loss_mean": 0.06619831461172837, "train/reward_loss_std": 0.23797830664194547, "train/reward_max_data": 1.0369230857262244, "train/reward_max_pred": 1.0353850804842435, "train/reward_neg_acc": 0.9915564766296974, "train/reward_neg_loss": 0.02747493082514176, "train/reward_pos_acc": 0.9870624331327585, "train/reward_pos_loss": 0.7317672289334811, "train/reward_pred": 0.050545950348560624, "train/reward_rate": 0.05512319711538462, "stats/sum_log_reward": 9.975000157952309, "stats/max_log_achievement_collect_coal": 0.25, "stats/max_log_achievement_collect_drink": 1.25, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 10.0, "stats/max_log_achievement_collect_wood": 10.75, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 0.625, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "stats/max_log_achievement_make_stone_sword": 0.625, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.75, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 0.875, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 0.875, "stats/mean_log_entropy": 0.3432726990431547, "replay/size": 1000000.0, "replay/inserts": 1296.0, "replay/samples": 10368.0, "replay/insert_wait_avg": 3.5862127939860025e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3996513537418695e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1431713104248, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025461435317993164, "timer/logger.write_frac": 8.483096652450416e-05, "timer/logger.write_avg": 0.025461435317993164, "timer/logger.write_min": 0.025461435317993164, "timer/logger.write_max": 0.025461435317993164, "timer/replay.add_count": 1296.0, "timer/replay.add_total": 0.2613668441772461, "timer/replay.add_frac": 0.0008708072318824336, "timer/replay.add_avg": 0.00020167194766762816, "timer/replay.add_min": 8.368492126464844e-05, "timer/replay.add_max": 0.0014467239379882812, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1296.0, "timer/env.step_total": 20.15516233444214, "timer/env.step_frac": 0.0671518270645463, "timer/env.step_avg": 0.015551822788921404, "timer/env.step_min": 0.0028493404388427734, "timer/env.step_max": 1.686586856842041, "timer/agent.policy_count": 1296.0, "timer/agent.policy_total": 9.546484470367432, "timer/agent.policy_frac": 0.03180643567097492, "timer/agent.policy_avg": 0.0073661145604686975, "timer/agent.policy_min": 0.005678653717041016, "timer/agent.policy_max": 0.015904903411865234, "timer/dataset_count": 648.0, "timer/dataset_total": 0.0528411865234375, "timer/dataset_frac": 0.00017605326915396053, "timer/dataset_avg": 8.154504093123071e-05, "timer/dataset_min": 6.175041198730469e-05, "timer/dataset_max": 0.00015664100646972656, "timer/agent.train_count": 648.0, "timer/agent.train_total": 269.41904497146606, "timer/agent.train_frac": 0.8976350979273751, "timer/agent.train_avg": 0.4157701311288057, "timer/agent.train_min": 0.36844491958618164, "timer/agent.train_max": 0.4540560245513916, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.25528478622436523, "timer/agent.report_frac": 0.0008505433760488106, "timer/agent.report_avg": 0.25528478622436523, "timer/agent.report_min": 0.25528478622436523, "timer/agent.report_max": 0.25528478622436523, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.317871119888262}
{"step": 1252519, "episode/length": 185.0, "episode/score": 14.100000023841858, "episode/sum_abs_reward": 16.700000062584877, "episode/reward_rate": 0.08064516129032258}
{"step": 1252699, "episode/length": 179.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.100000038743019, "episode/reward_rate": 0.07222222222222222}
{"step": 1252905, "episode/length": 205.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.05339805825242718}
{"step": 1253097, "episode/length": 191.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 15.10000005364418, "episode/reward_rate": 0.06770833333333333}
{"step": 1253292, "episode/length": 194.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.07179487179487179}
{"step": 1253611, "episode/length": 318.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.03761755485893417}
{"step": 1253671, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.3862457275390625, "train/action_min": 0.0, "train/action_std": 3.2660987451672554, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03679896212997846, "train/actor_opt_grad_steps": 625965.0, "train/actor_opt_loss": -13.170719848014414, "train/adv_mag": 0.4453507992438972, "train/adv_max": 0.3360125105828047, "train/adv_mean": 0.001407310679319096, "train/adv_min": -0.4072088396642357, "train/adv_std": 0.041188168223015964, "train/cont_avg": 0.9951324462890625, "train/cont_loss_mean": 5.256160867261883e-05, "train/cont_loss_std": 0.001568435917556954, "train/cont_neg_acc": 0.9973544979852343, "train/cont_neg_loss": 0.0065303971404118005, "train/cont_pos_acc": 0.9999999804422259, "train/cont_pos_loss": 1.5209429959917031e-05, "train/cont_pred": 0.9951334958896041, "train/cont_rate": 0.9951324462890625, "train/dyn_loss_mean": 5.97963098436594, "train/dyn_loss_std": 9.174294993281364, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8287267880514264, "train/extr_critic_critic_opt_grad_steps": 625965.0, "train/extr_critic_critic_opt_loss": 15116.610641479492, "train/extr_critic_mag": 12.629210457205772, "train/extr_critic_max": 12.629210457205772, "train/extr_critic_mean": 3.8882269263267517, "train/extr_critic_min": -0.3123411536216736, "train/extr_critic_std": 3.0446435175836086, "train/extr_return_normed_mag": 1.3708932641893625, "train/extr_return_normed_max": 1.3708932641893625, "train/extr_return_normed_mean": 0.3993609598837793, "train/extr_return_normed_min": -0.07434742682380602, "train/extr_return_normed_std": 0.31506124534644186, "train/extr_return_rate": 0.8597809262573719, "train/extr_return_raw_mag": 13.360292375087738, "train/extr_return_raw_max": 13.360292375087738, "train/extr_return_raw_mean": 3.901918586343527, "train/extr_return_raw_min": -0.7099575288593769, "train/extr_return_raw_std": 3.067168030887842, "train/extr_reward_mag": 1.0853223465383053, "train/extr_reward_max": 1.0853223465383053, "train/extr_reward_mean": 0.06480666331481189, "train/extr_reward_min": -0.5976597443223, "train/extr_reward_std": 0.24448157148435712, "train/image_loss_mean": 3.6050107404589653, "train/image_loss_std": 9.228745929896832, "train/model_loss_mean": 7.25943823158741, "train/model_loss_std": 13.468807309865952, "train/model_opt_grad_norm": 22.056741952896118, "train/model_opt_grad_steps": 625449.671875, "train/model_opt_loss": 18978.03727722168, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2656.25, "train/policy_entropy_mag": 2.7215580716729164, "train/policy_entropy_max": 2.7215580716729164, "train/policy_entropy_mean": 0.4350419060792774, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6467815926298499, "train/policy_logprob_mag": 7.4383843168616295, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4353425498120487, "train/policy_logprob_min": -7.4383843168616295, "train/policy_logprob_std": 1.0579961333423853, "train/policy_randomness_mag": 0.9605905674397945, "train/policy_randomness_max": 0.9605905674397945, "train/policy_randomness_mean": 0.15355070121586323, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22828551847487688, "train/post_ent_mag": 55.290724873542786, "train/post_ent_max": 55.290724873542786, "train/post_ent_mean": 39.9153214097023, "train/post_ent_min": 19.00845630466938, "train/post_ent_std": 5.890887215733528, "train/prior_ent_mag": 76.83186483383179, "train/prior_ent_max": 76.83186483383179, "train/prior_ent_mean": 45.82777667045593, "train/prior_ent_min": 27.20353227853775, "train/prior_ent_std": 8.020911939442158, "train/rep_loss_mean": 5.97963098436594, "train/rep_loss_std": 9.174294993281364, "train/reward_avg": 0.053088378452230245, "train/reward_loss_mean": 0.06659639329882339, "train/reward_loss_std": 0.23098183888942003, "train/reward_max_data": 1.0375000089406967, "train/reward_max_pred": 1.035816427320242, "train/reward_neg_acc": 0.9923521960154176, "train/reward_neg_loss": 0.026485198613954708, "train/reward_pos_acc": 0.9904201179742813, "train/reward_pos_loss": 0.7238517282530665, "train/reward_pred": 0.05275392031762749, "train/reward_rate": 0.0575408935546875, "stats/sum_log_reward": 12.100000222524008, "stats/max_log_achievement_collect_coal": 0.3333333333333333, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 14.833333333333334, "stats/max_log_achievement_collect_wood": 12.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.1666666666666667, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 2.3333333333333335, "stats/max_log_achievement_place_table": 3.8333333333333335, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3879740039507548, "replay/size": 1000000.0, "replay/inserts": 1290.0, "replay/samples": 10320.0, "replay/insert_wait_avg": 3.6043714183245517e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.378345859143161e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.37085914611816, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02700638771057129, "timer/logger.write_frac": 8.99101457023625e-05, "timer/logger.write_avg": 0.02700638771057129, "timer/logger.write_min": 0.02700638771057129, "timer/logger.write_max": 0.02700638771057129, "timer/replay.add_count": 1290.0, "timer/replay.add_total": 0.25618696212768555, "timer/replay.add_frac": 0.0008529021851719013, "timer/replay.add_avg": 0.00019859454428502755, "timer/replay.add_min": 8.630752563476562e-05, "timer/replay.add_max": 0.0011620521545410156, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1290.0, "timer/env.step_total": 17.820061445236206, "timer/env.step_frac": 0.05932686511565848, "timer/env.step_avg": 0.013814001120338145, "timer/env.step_min": 0.003064393997192383, "timer/env.step_max": 1.6592938899993896, "timer/agent.policy_count": 1290.0, "timer/agent.policy_total": 13.53954267501831, "timer/agent.policy_frac": 0.045076085987528755, "timer/agent.policy_avg": 0.01049576951551807, "timer/agent.policy_min": 0.005594968795776367, "timer/agent.policy_max": 2.596994638442993, "timer/dataset_count": 645.0, "timer/dataset_total": 0.052901506423950195, "timer/dataset_frac": 0.00017612063491890127, "timer/dataset_avg": 8.201783941697705e-05, "timer/dataset_min": 6.413459777832031e-05, "timer/dataset_max": 0.00020194053649902344, "timer/agent.train_count": 645.0, "timer/agent.train_total": 267.9862344264984, "timer/agent.train_frac": 0.8921845321091353, "timer/agent.train_avg": 0.4154825339945712, "timer/agent.train_min": 0.37368321418762207, "timer/agent.train_max": 0.4507334232330322, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.25992798805236816, "timer/agent.report_frac": 0.0008653568751352267, "timer/agent.report_avg": 0.25992798805236816, "timer/agent.report_min": 0.25992798805236816, "timer/agent.report_max": 0.25992798805236816, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00018668174743652344, "timer/checkpoint.save_frac": 6.215041897446862e-07, "timer/checkpoint.save_avg": 0.00018668174743652344, "timer/checkpoint.save_min": 0.00018668174743652344, "timer/checkpoint.save_max": 0.00018668174743652344, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4536716938018799, "timer/agent.save_frac": 0.00483958962575237, "timer/agent.save_avg": 1.4536716938018799, "timer/agent.save_min": 1.4536716938018799, "timer/agent.save_max": 1.4536716938018799, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.532669067382812e-05, "timer/replay.save_frac": 2.1748677904220181e-07, "timer/replay.save_avg": 6.532669067382812e-05, "timer/replay.save_min": 6.532669067382812e-05, "timer/replay.save_max": 6.532669067382812e-05, "fps": 4.294617018460057}
{"step": 1253900, "episode/length": 288.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.04152249134948097}
{"step": 1254127, "episode/length": 226.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.700000002980232, "episode/reward_rate": 0.06167400881057269}
{"step": 1254230, "episode/length": 102.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.1262135922330097}
{"step": 1254463, "episode/length": 232.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 17.500000037252903, "episode/reward_rate": 0.06866952789699571}
{"step": 1254713, "episode/length": 249.0, "episode/score": 12.100000023841858, "episode/sum_abs_reward": 14.299999982118607, "episode/reward_rate": 0.056}
{"step": 1254987, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.390225497159091, "train/action_min": 0.0, "train/action_std": 3.3012286244016704, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.035582139608309124, "train/actor_opt_grad_steps": 626615.0, "train/actor_opt_loss": -9.911345507159378, "train/adv_mag": 0.38941720805384894, "train/adv_max": 0.33631239786292566, "train/adv_mean": 0.0020195676832262316, "train/adv_min": -0.3374301382538044, "train/adv_std": 0.040724350308830086, "train/cont_avg": 0.9950580018939394, "train/cont_loss_mean": 3.3519051819878726e-05, "train/cont_loss_std": 0.0010295406994323525, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.000762730761226694, "train/cont_pos_acc": 0.9999850870984973, "train/cont_pos_loss": 2.923094406095529e-05, "train/cont_pred": 0.9950417442755266, "train/cont_rate": 0.9950580018939394, "train/dyn_loss_mean": 5.9512714689428154, "train/dyn_loss_std": 9.114975625818426, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8528173927104834, "train/extr_critic_critic_opt_grad_steps": 626615.0, "train/extr_critic_critic_opt_loss": 15002.86455374053, "train/extr_critic_mag": 12.764311790466309, "train/extr_critic_max": 12.764311790466309, "train/extr_critic_mean": 3.8538397044846504, "train/extr_critic_min": -0.3212808659582427, "train/extr_critic_std": 3.045989433924357, "train/extr_return_normed_mag": 1.3908308509624365, "train/extr_return_normed_max": 1.3908308509624365, "train/extr_return_normed_mean": 0.3987307525945432, "train/extr_return_normed_min": -0.06961519784773841, "train/extr_return_normed_std": 0.3166284211205714, "train/extr_return_rate": 0.8520784432237799, "train/extr_return_raw_mag": 13.504441087896174, "train/extr_return_raw_max": 13.504441087896174, "train/extr_return_raw_mean": 3.873440630508192, "train/extr_return_raw_min": -0.6735119824156617, "train/extr_return_raw_std": 3.074056321924383, "train/extr_reward_mag": 1.0843708298423074, "train/extr_reward_max": 1.0843708298423074, "train/extr_reward_mean": 0.0659991055162567, "train/extr_reward_min": -0.601292245315783, "train/extr_reward_std": 0.24654496348265445, "train/image_loss_mean": 3.6791902419292564, "train/image_loss_std": 9.552740429386947, "train/model_loss_mean": 7.316695906899192, "train/model_loss_std": 13.730424866531834, "train/model_opt_grad_norm": 18.581260493307404, "train/model_opt_grad_steps": 626099.0, "train/model_opt_loss": 18291.739805279358, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.731616247784008, "train/policy_entropy_max": 2.731616247784008, "train/policy_entropy_mean": 0.452679098555536, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6692744791507721, "train/policy_logprob_mag": 7.438384316184304, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4518660952647527, "train/policy_logprob_min": -7.438384316184304, "train/policy_logprob_std": 1.069829378164176, "train/policy_randomness_mag": 0.9641406608350349, "train/policy_randomness_max": 0.9641406608350349, "train/policy_randomness_mean": 0.1597758556405703, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2362245192581957, "train/post_ent_mag": 55.102243307865024, "train/post_ent_max": 55.102243307865024, "train/post_ent_mean": 39.68010474696304, "train/post_ent_min": 19.62398081114798, "train/post_ent_std": 5.785852974111384, "train/prior_ent_mag": 76.88567664406516, "train/prior_ent_max": 76.88567664406516, "train/prior_ent_mean": 45.60316848754883, "train/prior_ent_min": 27.56269645690918, "train/prior_ent_std": 8.037735339367028, "train/rep_loss_mean": 5.9512714689428154, "train/rep_loss_std": 9.114975625818426, "train/reward_avg": 0.05299775093568094, "train/reward_loss_mean": 0.06670935531005714, "train/reward_loss_std": 0.2293390469117598, "train/reward_max_data": 1.0318181894042275, "train/reward_max_pred": 1.032462846149098, "train/reward_neg_acc": 0.9922000612273361, "train/reward_neg_loss": 0.026891619263386183, "train/reward_pos_acc": 0.9897472957770029, "train/reward_pos_loss": 0.7208420968416965, "train/reward_pred": 0.05270482086096749, "train/reward_rate": 0.05754320549242424, "stats/sum_log_reward": 12.500000190734863, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 2.4, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8, "stats/max_log_achievement_collect_stone": 15.6, "stats/max_log_achievement_collect_wood": 13.6, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_stone_pickaxe": 0.6, "stats/max_log_achievement_make_stone_sword": 0.8, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.6, "stats/max_log_achievement_place_stone": 4.6, "stats/max_log_achievement_place_table": 3.2, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.4175007402896881, "replay/size": 1000000.0, "replay/inserts": 1316.0, "replay/samples": 10528.0, "replay/insert_wait_avg": 3.6387820374277226e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4316437816909744e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.17205691337585, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026428937911987305, "timer/logger.write_frac": 8.804596331767887e-05, "timer/logger.write_avg": 0.026428937911987305, "timer/logger.write_min": 0.026428937911987305, "timer/logger.write_max": 0.026428937911987305, "timer/replay.add_count": 1316.0, "timer/replay.add_total": 0.26971960067749023, "timer/replay.add_frac": 0.0008985499964619504, "timer/replay.add_avg": 0.00020495410385827525, "timer/replay.add_min": 7.82012939453125e-05, "timer/replay.add_max": 0.0009334087371826172, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1316.0, "timer/env.step_total": 15.610510110855103, "timer/env.step_frac": 0.05200520751790034, "timer/env.step_avg": 0.011862089749889896, "timer/env.step_min": 0.003020763397216797, "timer/env.step_max": 1.6510231494903564, "timer/agent.policy_count": 1316.0, "timer/agent.policy_total": 9.829888105392456, "timer/agent.policy_frac": 0.03274751223172376, "timer/agent.policy_avg": 0.007469519836924359, "timer/agent.policy_min": 0.005731105804443359, "timer/agent.policy_max": 0.015297412872314453, "timer/dataset_count": 658.0, "timer/dataset_total": 0.05450868606567383, "timer/dataset_frac": 0.00018159147332426093, "timer/dataset_avg": 8.283994842807572e-05, "timer/dataset_min": 6.270408630371094e-05, "timer/dataset_max": 0.0001964569091796875, "timer/agent.train_count": 658.0, "timer/agent.train_total": 273.73034501075745, "timer/agent.train_frac": 0.9119114811201464, "timer/agent.train_avg": 0.41600356384613596, "timer/agent.train_min": 0.36838459968566895, "timer/agent.train_max": 0.4538288116455078, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22127699851989746, "timer/agent.report_frac": 0.0007371672126821383, "timer/agent.report_avg": 0.22127699851989746, "timer/agent.report_min": 0.22127699851989746, "timer/agent.report_max": 0.22127699851989746, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.384090626960057}
{"step": 1255036, "episode/length": 322.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.04643962848297214}
{"step": 1255238, "episode/length": 201.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.30000003427267, "episode/reward_rate": 0.07425742574257425}
{"step": 1255419, "episode/length": 180.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.07734806629834254}
{"step": 1255459, "episode/length": 39.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 5.899999991059303, "episode/reward_rate": 0.15}
{"step": 1255648, "episode/length": 188.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.099999994039536, "episode/reward_rate": 0.08465608465608465}
{"step": 1255924, "episode/length": 275.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.05434782608695652}
{"step": 1256299, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.410343054569129, "train/action_min": 0.0, "train/action_std": 3.3039885795477666, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.036193308448701195, "train/actor_opt_grad_steps": 627275.0, "train/actor_opt_loss": -9.093037133754203, "train/adv_mag": 0.41675945664897107, "train/adv_max": 0.3303656995748029, "train/adv_mean": 0.0023444567388761434, "train/adv_min": -0.36473759466951544, "train/adv_std": 0.040703522097883804, "train/cont_avg": 0.9952355587121212, "train/cont_loss_mean": 8.387113222101327e-05, "train/cont_loss_std": 0.0026402057689526, "train/cont_neg_acc": 0.9974747480768146, "train/cont_neg_loss": 0.01313617817761805, "train/cont_pos_acc": 0.9999999783255837, "train/cont_pos_loss": 7.487299182321639e-06, "train/cont_pred": 0.9952438500794497, "train/cont_rate": 0.9952355587121212, "train/dyn_loss_mean": 5.933932983514034, "train/dyn_loss_std": 9.208270997712106, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.873127902095968, "train/extr_critic_critic_opt_grad_steps": 627275.0, "train/extr_critic_critic_opt_loss": 15069.884144176136, "train/extr_critic_mag": 12.82054276899858, "train/extr_critic_max": 12.82054276899858, "train/extr_critic_mean": 3.824429154396057, "train/extr_critic_min": -0.3017959486354481, "train/extr_critic_std": 3.0329009691874185, "train/extr_return_normed_mag": 1.3868127158193877, "train/extr_return_normed_max": 1.3868127158193877, "train/extr_return_normed_mean": 0.39296962320804596, "train/extr_return_normed_min": -0.06401236248061512, "train/extr_return_normed_std": 0.3130636077487107, "train/extr_return_rate": 0.8638514506094384, "train/extr_return_raw_mag": 13.567303556384463, "train/extr_return_raw_max": 13.567303556384463, "train/extr_return_raw_mean": 3.847332907445503, "train/extr_return_raw_min": -0.6220042899702535, "train/extr_return_raw_std": 3.062109831607703, "train/extr_reward_mag": 1.090555559505116, "train/extr_reward_max": 1.090555559505116, "train/extr_reward_mean": 0.06371399353850972, "train/extr_reward_min": -0.5885477246660175, "train/extr_reward_std": 0.24207123346400983, "train/image_loss_mean": 3.7197774215178057, "train/image_loss_std": 9.423772053285079, "train/model_loss_mean": 7.3454139521627715, "train/model_loss_std": 13.688177917942856, "train/model_opt_grad_norm": 19.58548677328861, "train/model_opt_grad_steps": 626758.2424242424, "train/model_opt_loss": 19194.4775390625, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2613.6363636363635, "train/policy_entropy_mag": 2.7299997734301016, "train/policy_entropy_max": 2.7299997734301016, "train/policy_entropy_mean": 0.455803500883507, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6750083105130629, "train/policy_logprob_mag": 7.438384265610666, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4548148846987522, "train/policy_logprob_min": -7.438384265610666, "train/policy_logprob_std": 1.073153642090884, "train/policy_randomness_mag": 0.9635701188535402, "train/policy_randomness_max": 0.9635701188535402, "train/policy_randomness_mean": 0.16087863560427318, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23824830962852997, "train/post_ent_mag": 55.307963573571406, "train/post_ent_max": 55.307963573571406, "train/post_ent_mean": 39.84880048578436, "train/post_ent_min": 18.755653713688705, "train/post_ent_std": 5.823665207082575, "train/prior_ent_mag": 76.82098492709073, "train/prior_ent_max": 76.82098492709073, "train/prior_ent_mean": 45.75684807517312, "train/prior_ent_min": 27.40461401505904, "train/prior_ent_std": 8.08218044945688, "train/rep_loss_mean": 5.933932983514034, "train/rep_loss_std": 9.208270997712106, "train/reward_avg": 0.05068507336192962, "train/reward_loss_mean": 0.06519292407866681, "train/reward_loss_std": 0.22426894826419425, "train/reward_max_data": 1.0363636450334028, "train/reward_max_pred": 1.0375463492942578, "train/reward_neg_acc": 0.9919760913559885, "train/reward_neg_loss": 0.02744265575187676, "train/reward_pos_acc": 0.9899004372683439, "train/reward_pos_loss": 0.7142696272243153, "train/reward_pred": 0.050507924519479275, "train/reward_rate": 0.05496863162878788, "stats/sum_log_reward": 12.266666809717814, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 2.1666666666666665, "stats/max_log_achievement_collect_stone": 15.0, "stats/max_log_achievement_collect_wood": 12.166666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.6666666666666667, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 1.1666666666666667, "stats/max_log_achievement_make_wood_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.8333333333333333, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_stone": 3.6666666666666665, "stats/max_log_achievement_place_table": 3.1666666666666665, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.48188602924346924, "replay/size": 1000000.0, "replay/inserts": 1312.0, "replay/samples": 10496.0, "replay/insert_wait_avg": 3.696760026420035e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.429216709078812e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2849268913269, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02306652069091797, "timer/logger.write_frac": 7.681544634861324e-05, "timer/logger.write_avg": 0.02306652069091797, "timer/logger.write_min": 0.02306652069091797, "timer/logger.write_max": 0.02306652069091797, "timer/replay.add_count": 1312.0, "timer/replay.add_total": 0.26718783378601074, "timer/replay.add_frac": 0.0008897810374701425, "timer/replay.add_avg": 0.00020364926355641064, "timer/replay.add_min": 7.843971252441406e-05, "timer/replay.add_max": 0.0016274452209472656, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1312.0, "timer/env.step_total": 17.148926496505737, "timer/env.step_frac": 0.05710884883246881, "timer/env.step_avg": 0.01307082812233669, "timer/env.step_min": 0.002872943878173828, "timer/env.step_max": 1.6884291172027588, "timer/agent.policy_count": 1312.0, "timer/agent.policy_total": 9.923052310943604, "timer/agent.policy_frac": 0.03304545590639904, "timer/agent.policy_avg": 0.00756330206626799, "timer/agent.policy_min": 0.005624055862426758, "timer/agent.policy_max": 0.016278743743896484, "timer/dataset_count": 656.0, "timer/dataset_total": 0.05577850341796875, "timer/dataset_frac": 0.0001857519256641043, "timer/dataset_avg": 8.502820642983041e-05, "timer/dataset_min": 6.4849853515625e-05, "timer/dataset_max": 0.00017142295837402344, "timer/agent.train_count": 656.0, "timer/agent.train_total": 272.19878816604614, "timer/agent.train_frac": 0.906468369837807, "timer/agent.train_avg": 0.4149371770823874, "timer/agent.train_min": 0.3739948272705078, "timer/agent.train_max": 0.45201849937438965, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.23319530487060547, "timer/agent.report_frac": 0.0007765801210361745, "timer/agent.report_avg": 0.23319530487060547, "timer/agent.report_min": 0.23319530487060547, "timer/agent.report_max": 0.23319530487060547, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.369119580911845}
{"step": 1256440, "episode/length": 515.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 18.900000043213367, "episode/reward_rate": 0.031007751937984496}
{"step": 1256707, "episode/length": 266.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.700000040233135, "episode/reward_rate": 0.056179775280898875}
{"step": 1256917, "episode/length": 209.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.07142857142857142}
{"step": 1257131, "episode/length": 213.0, "episode/score": 14.100000023841858, "episode/sum_abs_reward": 15.900000005960464, "episode/reward_rate": 0.07476635514018691}
{"step": 1257193, "episode/length": 61.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 5.0999999940395355, "episode/reward_rate": 0.08064516129032258}
{"step": 1257351, "episode/length": 157.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.0379746835443038}
{"step": 1257544, "episode/length": 192.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 15.900000013411045, "episode/reward_rate": 0.07772020725388601}
{"step": 1257581, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.42808723449707, "train/action_min": 0.0, "train/action_std": 3.29001072794199, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03689736584783532, "train/actor_opt_grad_steps": 627925.0, "train/actor_opt_loss": -10.137499255535658, "train/adv_mag": 0.39876104914583266, "train/adv_max": 0.3200252519454807, "train/adv_mean": 0.001930165872863654, "train/adv_min": -0.35605491837486625, "train/adv_std": 0.04058915170026012, "train/cont_avg": 0.9954376220703125, "train/cont_loss_mean": 4.692670758976725e-06, "train/cont_loss_std": 0.00014072447111468378, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0003495158543628128, "train/cont_pos_acc": 0.9999999841675162, "train/cont_pos_loss": 2.9215467721721566e-06, "train/cont_pred": 0.9954365026205778, "train/cont_rate": 0.9954376220703125, "train/dyn_loss_mean": 5.817747518420219, "train/dyn_loss_std": 9.064595356583595, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.845293128862977, "train/extr_critic_critic_opt_grad_steps": 627925.0, "train/extr_critic_critic_opt_loss": 15017.88542175293, "train/extr_critic_mag": 12.831172123551369, "train/extr_critic_max": 12.831172123551369, "train/extr_critic_mean": 3.8900798931717873, "train/extr_critic_min": -0.29902620799839497, "train/extr_critic_std": 2.982779089361429, "train/extr_return_normed_mag": 1.391851270571351, "train/extr_return_normed_max": 1.391851270571351, "train/extr_return_normed_mean": 0.400440271012485, "train/extr_return_normed_min": -0.0707664234796539, "train/extr_return_normed_std": 0.30812636110931635, "train/extr_return_rate": 0.864554894156754, "train/extr_return_raw_mag": 13.595974519848824, "train/extr_return_raw_max": 13.595974519848824, "train/extr_return_raw_mean": 3.908953905105591, "train/extr_return_raw_min": -0.6955739613622427, "train/extr_return_raw_std": 3.0106760412454605, "train/extr_reward_mag": 1.083659153431654, "train/extr_reward_max": 1.083659153431654, "train/extr_reward_mean": 0.0648741940385662, "train/extr_reward_min": -0.6226187441498041, "train/extr_reward_std": 0.2441832262557, "train/image_loss_mean": 3.4761196188628674, "train/image_loss_std": 9.287538476288319, "train/model_loss_mean": 7.033342242240906, "train/model_loss_std": 13.47217258810997, "train/model_opt_grad_norm": 19.632475420832634, "train/model_opt_grad_steps": 627407.859375, "train/model_opt_loss": 18767.98243713379, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2695.3125, "train/policy_entropy_mag": 2.7272593043744564, "train/policy_entropy_max": 2.7272593043744564, "train/policy_entropy_mean": 0.4489001310430467, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6662816661410034, "train/policy_logprob_mag": 7.438384234905243, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4487963584251702, "train/policy_logprob_min": -7.438384234905243, "train/policy_logprob_std": 1.068851194344461, "train/policy_randomness_mag": 0.9626028509810567, "train/policy_randomness_max": 0.9626028509810567, "train/policy_randomness_mean": 0.1584420473081991, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2351681876461953, "train/post_ent_mag": 55.424301505088806, "train/post_ent_max": 55.424301505088806, "train/post_ent_mean": 39.78392940759659, "train/post_ent_min": 19.47880168259144, "train/post_ent_std": 5.813807152211666, "train/prior_ent_mag": 76.8319400548935, "train/prior_ent_max": 76.8319400548935, "train/prior_ent_mean": 45.55946224927902, "train/prior_ent_min": 27.29113107919693, "train/prior_ent_std": 7.994923003017902, "train/rep_loss_mean": 5.817747518420219, "train/rep_loss_std": 9.064595356583595, "train/reward_avg": 0.05234680155990645, "train/reward_loss_mean": 0.06656944495625794, "train/reward_loss_std": 0.23852059966884553, "train/reward_max_data": 1.0359375085681677, "train/reward_max_pred": 1.0341075733304024, "train/reward_neg_acc": 0.9919126089662313, "train/reward_neg_loss": 0.026662905598641373, "train/reward_pos_acc": 0.9865046422928572, "train/reward_pos_loss": 0.7366716461256146, "train/reward_pred": 0.051844738627551123, "train/reward_rate": 0.056396484375, "stats/sum_log_reward": 11.385714565004621, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 3.7142857142857144, "stats/max_log_achievement_collect_iron": 0.14285714285714285, "stats/max_log_achievement_collect_sapling": 2.142857142857143, "stats/max_log_achievement_collect_stone": 14.714285714285714, "stats/max_log_achievement_collect_wood": 12.0, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 2.5714285714285716, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.7142857142857143, "stats/max_log_achievement_make_wood_pickaxe": 0.7142857142857143, "stats/max_log_achievement_make_wood_sword": 1.2857142857142858, "stats/max_log_achievement_place_furnace": 1.8571428571428572, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 2.857142857142857, "stats/max_log_achievement_place_table": 3.5714285714285716, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.4292690519775663, "replay/size": 1000000.0, "replay/inserts": 1282.0, "replay/samples": 10256.0, "replay/insert_wait_avg": 3.5839036176803517e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3818560450013825e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.03286123275757, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028979778289794922, "timer/logger.write_frac": 9.658868088890162e-05, "timer/logger.write_avg": 0.028979778289794922, "timer/logger.write_min": 0.028979778289794922, "timer/logger.write_max": 0.028979778289794922, "timer/replay.add_count": 1282.0, "timer/replay.add_total": 0.2550952434539795, "timer/replay.add_frac": 0.0008502243467794127, "timer/replay.add_avg": 0.00019898224918407135, "timer/replay.add_min": 8.392333984375e-05, "timer/replay.add_max": 0.0009887218475341797, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1282.0, "timer/env.step_total": 18.524834871292114, "timer/env.step_frac": 0.06174268643500699, "timer/env.step_avg": 0.014449949197575753, "timer/env.step_min": 0.0028972625732421875, "timer/env.step_max": 1.6930851936340332, "timer/agent.policy_count": 1282.0, "timer/agent.policy_total": 10.62494444847107, "timer/agent.policy_frac": 0.03541260248899376, "timer/agent.policy_avg": 0.008287788181334688, "timer/agent.policy_min": 0.0057256221771240234, "timer/agent.policy_max": 1.2710192203521729, "timer/dataset_count": 641.0, "timer/dataset_total": 0.052335262298583984, "timer/dataset_frac": 0.0001744317675189041, "timer/dataset_avg": 8.164627503679249e-05, "timer/dataset_min": 6.175041198730469e-05, "timer/dataset_max": 0.00015616416931152344, "timer/agent.train_count": 641.0, "timer/agent.train_total": 266.4220938682556, "timer/agent.train_frac": 0.8879763795658783, "timer/agent.train_avg": 0.4156350918381523, "timer/agent.train_min": 0.3677632808685303, "timer/agent.train_max": 0.4816911220550537, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.24377107620239258, "timer/agent.report_frac": 0.000812481256888996, "timer/agent.report_avg": 0.24377107620239258, "timer/agent.report_min": 0.24377107620239258, "timer/agent.report_max": 0.24377107620239258, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00021409988403320312, "timer/checkpoint.save_frac": 7.135881154934896e-07, "timer/checkpoint.save_avg": 0.00021409988403320312, "timer/checkpoint.save_min": 0.00021409988403320312, "timer/checkpoint.save_max": 0.00021409988403320312, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2789196968078613, "timer/agent.save_frac": 0.00426259874186151, "timer/agent.save_avg": 1.2789196968078613, "timer/agent.save_min": 1.2789196968078613, "timer/agent.save_max": 1.2789196968078613, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.510185241699219e-05, "timer/replay.save_frac": 2.503120895105225e-07, "timer/replay.save_avg": 7.510185241699219e-05, "timer/replay.save_min": 7.510185241699219e-05, "timer/replay.save_max": 7.510185241699219e-05, "fps": 4.272785870962391}
{"step": 1257602, "episode/length": 57.0, "episode/score": 3.0999999716877937, "episode/sum_abs_reward": 4.900000028312206, "episode/reward_rate": 0.08620689655172414}
{"step": 1258089, "episode/length": 486.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.700000025331974, "episode/reward_rate": 0.01642710472279261}
{"step": 1258500, "episode/length": 410.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.700000025331974, "episode/reward_rate": 0.038929440389294405}
{"step": 1258732, "episode/length": 231.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.05603448275862069}
{"step": 1258909, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.452206698330966, "train/action_min": 0.0, "train/action_std": 3.2876703955910425, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03535878350676009, "train/actor_opt_grad_steps": 628575.0, "train/actor_opt_loss": -12.376200032956673, "train/adv_mag": 0.3983210049795382, "train/adv_max": 0.33086818998510187, "train/adv_mean": 0.0014877644227288495, "train/adv_min": -0.35519170783685916, "train/adv_std": 0.040847762233831665, "train/cont_avg": 0.9952651515151515, "train/cont_loss_mean": 2.7234065269502484e-05, "train/cont_loss_std": 0.0007815628369859888, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0004358813364410231, "train/cont_pos_acc": 0.9999851241256251, "train/cont_pos_loss": 2.5619784064577868e-05, "train/cont_pred": 0.9952474651914655, "train/cont_rate": 0.9952651515151515, "train/dyn_loss_mean": 5.8576906377618965, "train/dyn_loss_std": 9.025001800421512, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8983576370008064, "train/extr_critic_critic_opt_grad_steps": 628575.0, "train/extr_critic_critic_opt_loss": 15100.82939749053, "train/extr_critic_mag": 12.924843975991914, "train/extr_critic_max": 12.924843975991914, "train/extr_critic_mean": 3.791933966405464, "train/extr_critic_min": -0.3585638999938965, "train/extr_critic_std": 3.0975662144747647, "train/extr_return_normed_mag": 1.3923309626001301, "train/extr_return_normed_max": 1.3923309626001301, "train/extr_return_normed_mean": 0.388356845713023, "train/extr_return_normed_min": -0.0643049714183717, "train/extr_return_normed_std": 0.31611437689174304, "train/extr_return_rate": 0.8324889956098614, "train/extr_return_raw_mag": 13.735565908027418, "train/extr_return_raw_max": 13.735565908027418, "train/extr_return_raw_mean": 3.806638594829675, "train/extr_return_raw_min": -0.6697732652678634, "train/extr_return_raw_std": 3.1264091874613906, "train/extr_reward_mag": 1.0836767680717236, "train/extr_reward_max": 1.0836767680717236, "train/extr_reward_mean": 0.06304425305940888, "train/extr_reward_min": -0.5676276340629115, "train/extr_reward_std": 0.2409413093418786, "train/image_loss_mean": 3.7117447780840322, "train/image_loss_std": 9.291099873456089, "train/model_loss_mean": 7.292119828137484, "train/model_loss_std": 13.381012714270389, "train/model_opt_grad_norm": 21.861311768040512, "train/model_opt_grad_steps": 628057.0, "train/model_opt_loss": 18230.299553148674, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7343230536489775, "train/policy_entropy_max": 2.7343230536489775, "train/policy_entropy_mean": 0.47854727732412744, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6979802982373671, "train/policy_logprob_mag": 7.438384301734693, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4799293528000514, "train/policy_logprob_min": -7.438384301734693, "train/policy_logprob_std": 1.0960973772135647, "train/policy_randomness_mag": 0.9650960465272268, "train/policy_randomness_max": 0.9650960465272268, "train/policy_randomness_mean": 0.16890618972706073, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24635641728386734, "train/post_ent_mag": 55.14462546146277, "train/post_ent_max": 55.14462546146277, "train/post_ent_mean": 40.01049203583688, "train/post_ent_min": 19.83360173485496, "train/post_ent_std": 5.803603454069658, "train/prior_ent_mag": 76.77351286917022, "train/prior_ent_max": 76.77351286917022, "train/prior_ent_mean": 45.82239445773038, "train/prior_ent_min": 27.629244139700226, "train/prior_ent_std": 7.94845294229912, "train/rep_loss_mean": 5.8576906377618965, "train/rep_loss_std": 9.025001800421512, "train/reward_avg": 0.05179628300847429, "train/reward_loss_mean": 0.06573342069080382, "train/reward_loss_std": 0.2250907617536458, "train/reward_max_data": 1.0333333412806194, "train/reward_max_pred": 1.0324457630966648, "train/reward_neg_acc": 0.9922859921599879, "train/reward_neg_loss": 0.027736999941143124, "train/reward_pos_acc": 0.9938602510726813, "train/reward_pos_loss": 0.7046251784671437, "train/reward_pred": 0.05160843228187525, "train/reward_rate": 0.05606356534090909, "stats/sum_log_reward": 9.349999964237213, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 6.75, "stats/max_log_achievement_collect_iron": 0.25, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 12.25, "stats/max_log_achievement_collect_wood": 13.25, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.25, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "stats/max_log_achievement_make_stone_sword": 0.75, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 0.75, "stats/max_log_achievement_place_stone": 4.0, "stats/max_log_achievement_place_table": 4.0, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.6384375542402267, "replay/size": 1000000.0, "replay/inserts": 1328.0, "replay/samples": 10624.0, "replay/insert_wait_avg": 3.555452967264566e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3854938099183233e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.18601965904236, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0250699520111084, "timer/logger.write_frac": 8.35147221032591e-05, "timer/logger.write_avg": 0.0250699520111084, "timer/logger.write_min": 0.0250699520111084, "timer/logger.write_max": 0.0250699520111084, "timer/replay.add_count": 1328.0, "timer/replay.add_total": 0.2692856788635254, "timer/replay.add_frac": 0.0008970626918914671, "timer/replay.add_avg": 0.00020277536059000405, "timer/replay.add_min": 8.034706115722656e-05, "timer/replay.add_max": 0.0008985996246337891, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1328.0, "timer/env.step_total": 13.476994276046753, "timer/env.step_frac": 0.04489547611629019, "timer/env.step_avg": 0.010148339063288218, "timer/env.step_min": 0.0029206275939941406, "timer/env.step_max": 1.598149061203003, "timer/agent.policy_count": 1328.0, "timer/agent.policy_total": 9.84031343460083, "timer/agent.policy_frac": 0.032780718588352874, "timer/agent.policy_avg": 0.007409874574247613, "timer/agent.policy_min": 0.00563812255859375, "timer/agent.policy_max": 0.017439603805541992, "timer/dataset_count": 664.0, "timer/dataset_total": 0.05518341064453125, "timer/dataset_frac": 0.00018383071505864842, "timer/dataset_avg": 8.310754615140248e-05, "timer/dataset_min": 6.365776062011719e-05, "timer/dataset_max": 0.00023627281188964844, "timer/agent.train_count": 664.0, "timer/agent.train_total": 275.82423067092896, "timer/agent.train_frac": 0.9188443585221455, "timer/agent.train_avg": 0.4153979377574231, "timer/agent.train_min": 0.3735029697418213, "timer/agent.train_max": 0.45117712020874023, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2641010284423828, "timer/agent.report_frac": 0.0008797912332571462, "timer/agent.report_avg": 0.2641010284423828, "timer/agent.report_min": 0.2641010284423828, "timer/agent.report_max": 0.2641010284423828, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.423846920037965}
{"step": 1258947, "episode/length": 214.0, "episode/score": 11.099999971687794, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.06046511627906977}
{"step": 1259251, "episode/length": 303.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 15.900000013411045, "episode/reward_rate": 0.049342105263157895}
{"step": 1259431, "episode/length": 179.0, "episode/score": 14.099999994039536, "episode/sum_abs_reward": 16.500000059604645, "episode/reward_rate": 0.08888888888888889}
{"step": 1259630, "episode/length": 198.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.06532663316582915}
{"step": 1260008, "episode/length": 377.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.03968253968253968}
{"step": 1260225, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.462324662642046, "train/action_min": 0.0, "train/action_std": 3.298901995023092, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0354413433903546, "train/actor_opt_grad_steps": 629235.0, "train/actor_opt_loss": -11.004622926314672, "train/adv_mag": 0.39064468962676596, "train/adv_max": 0.3197132929256468, "train/adv_mean": 0.0016068224513494924, "train/adv_min": -0.3434566920905402, "train/adv_std": 0.04004501709432313, "train/cont_avg": 0.9949840198863636, "train/cont_loss_mean": 0.00024210138094126637, "train/cont_loss_std": 0.0075334026983241665, "train/cont_neg_acc": 0.9915223681565487, "train/cont_neg_loss": 0.039983907785396434, "train/cont_pos_acc": 0.999999977422483, "train/cont_pos_loss": 2.3848914198746723e-05, "train/cont_pred": 0.9950033001827471, "train/cont_rate": 0.9949840198863636, "train/dyn_loss_mean": 5.9677660537488535, "train/dyn_loss_std": 9.136226841897676, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8754725122090542, "train/extr_critic_critic_opt_grad_steps": 629235.0, "train/extr_critic_critic_opt_loss": 15018.173946496212, "train/extr_critic_mag": 12.850140658291904, "train/extr_critic_max": 12.850140658291904, "train/extr_critic_mean": 3.812439542828184, "train/extr_critic_min": -0.3455516786286325, "train/extr_critic_std": 3.1267136299248897, "train/extr_return_normed_mag": 1.3725101767164287, "train/extr_return_normed_max": 1.3725101767164287, "train/extr_return_normed_mean": 0.3911114727908915, "train/extr_return_normed_min": -0.06833685804722887, "train/extr_return_normed_std": 0.3189745863730257, "train/extr_return_rate": 0.8420326736840335, "train/extr_return_raw_mag": 13.527244755716035, "train/extr_return_raw_max": 13.527244755716035, "train/extr_return_raw_mean": 3.8283069278254653, "train/extr_return_raw_min": -0.711973279263034, "train/extr_return_raw_std": 3.152282559510433, "train/extr_reward_mag": 1.0837555581873113, "train/extr_reward_max": 1.0837555581873113, "train/extr_reward_mean": 0.0639489447190003, "train/extr_reward_min": -0.6242860573710818, "train/extr_reward_std": 0.2427003891630606, "train/image_loss_mean": 3.8254263509403574, "train/image_loss_std": 9.486503991213711, "train/model_loss_mean": 7.472944758155129, "train/model_loss_std": 13.653347911256732, "train/model_opt_grad_norm": 20.43804996663874, "train/model_opt_grad_steps": 628716.1666666666, "train/model_opt_loss": 10790.206010298296, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1458.3333333333333, "train/policy_entropy_mag": 2.733643333117167, "train/policy_entropy_max": 2.733643333117167, "train/policy_entropy_mean": 0.47181707033605286, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6907605104374163, "train/policy_logprob_mag": 7.438384316184304, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4717702161182057, "train/policy_logprob_min": -7.438384316184304, "train/policy_logprob_std": 1.088703506823742, "train/policy_randomness_mag": 0.9648561351227037, "train/policy_randomness_max": 0.9648561351227037, "train/policy_randomness_mean": 0.166530721792669, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24380814645326498, "train/post_ent_mag": 55.17321973858458, "train/post_ent_max": 55.17321973858458, "train/post_ent_mean": 39.91901010455507, "train/post_ent_min": 19.337382128744416, "train/post_ent_std": 5.858738754734849, "train/prior_ent_mag": 76.77243747133197, "train/prior_ent_max": 76.77243747133197, "train/prior_ent_mean": 45.85056825117631, "train/prior_ent_min": 27.562669667330656, "train/prior_ent_std": 8.062287540146798, "train/rep_loss_mean": 5.9677660537488535, "train/rep_loss_std": 9.136226841897676, "train/reward_avg": 0.05219726546695738, "train/reward_loss_mean": 0.06661669311649872, "train/reward_loss_std": 0.23089099765727014, "train/reward_max_data": 1.0303030375278357, "train/reward_max_pred": 1.0295103427135583, "train/reward_neg_acc": 0.9918970691435265, "train/reward_neg_loss": 0.0277376526148256, "train/reward_pos_acc": 0.9916298777768107, "train/reward_pos_loss": 0.7138827515370918, "train/reward_pred": 0.0519493922421878, "train/reward_rate": 0.056685014204545456, "stats/sum_log_reward": 13.100000190734864, "stats/max_log_achievement_collect_coal": 1.6, "stats/max_log_achievement_collect_drink": 2.8, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 12.2, "stats/max_log_achievement_collect_wood": 15.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.2, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2, "stats/max_log_achievement_place_furnace": 0.8, "stats/max_log_achievement_place_plant": 1.8, "stats/max_log_achievement_place_stone": 5.0, "stats/max_log_achievement_place_table": 4.6, "stats/max_log_achievement_wake_up": 1.2, "stats/mean_log_entropy": 0.6284542679786682, "replay/size": 1000000.0, "replay/inserts": 1316.0, "replay/samples": 10528.0, "replay/insert_wait_avg": 3.7583536652446157e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3961799238952823e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.01814007759094, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030845165252685547, "timer/logger.write_frac": 0.00010281100084384346, "timer/logger.write_avg": 0.030845165252685547, "timer/logger.write_min": 0.030845165252685547, "timer/logger.write_max": 0.030845165252685547, "timer/replay.add_count": 1316.0, "timer/replay.add_total": 0.2697780132293701, "timer/replay.add_frac": 0.0008992056718957057, "timer/replay.add_avg": 0.00020499849029587396, "timer/replay.add_min": 8.988380432128906e-05, "timer/replay.add_max": 0.0014867782592773438, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1316.0, "timer/env.step_total": 15.745796918869019, "timer/env.step_frac": 0.052482816255033204, "timer/env.step_avg": 0.011964891275736337, "timer/env.step_min": 0.003125905990600586, "timer/env.step_max": 1.6789534091949463, "timer/agent.policy_count": 1316.0, "timer/agent.policy_total": 9.94586706161499, "timer/agent.policy_frac": 0.03315088567325556, "timer/agent.policy_avg": 0.007557649742868534, "timer/agent.policy_min": 0.005705118179321289, "timer/agent.policy_max": 0.016271591186523438, "timer/dataset_count": 658.0, "timer/dataset_total": 0.05592632293701172, "timer/dataset_frac": 0.00018640980482896135, "timer/dataset_avg": 8.499441175837647e-05, "timer/dataset_min": 6.461143493652344e-05, "timer/dataset_max": 0.00018167495727539062, "timer/agent.train_count": 658.0, "timer/agent.train_total": 273.2678108215332, "timer/agent.train_frac": 0.9108376271876776, "timer/agent.train_avg": 0.41530062434883463, "timer/agent.train_min": 0.3661074638366699, "timer/agent.train_max": 0.4494900703430176, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.26131439208984375, "timer/agent.report_frac": 0.0008709953072246312, "timer/agent.report_avg": 0.26131439208984375, "timer/agent.report_min": 0.26131439208984375, "timer/agent.report_max": 0.26131439208984375, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.386322887121197}
{"step": 1260232, "episode/length": 223.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.06696428571428571}
{"step": 1260471, "episode/length": 238.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.058577405857740586}
{"step": 1260638, "episode/length": 166.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.0658682634730539}
{"step": 1261004, "episode/length": 365.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.03825136612021858}
{"step": 1261289, "episode/length": 284.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.04912280701754386}
{"step": 1261498, "episode/length": 208.0, "episode/score": 14.099999964237213, "episode/sum_abs_reward": 15.699999988079071, "episode/reward_rate": 0.07177033492822966}
{"step": 1261517, "stats/sum_log_reward": 12.93333355585734, "stats/max_log_achievement_collect_coal": 1.1666666666666667, "stats/max_log_achievement_collect_drink": 4.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 12.5, "stats/max_log_achievement_collect_wood": 12.166666666666666, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.8333333333333333, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_stone": 2.6666666666666665, "stats/max_log_achievement_place_table": 3.3333333333333335, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.501201257109642, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.5437469482421875, "train/action_min": 0.0, "train/action_std": 3.4326997846364975, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.035751429211813956, "train/actor_opt_grad_steps": 629885.0, "train/actor_opt_loss": -10.244833485339768, "train/adv_mag": 0.4144022506661713, "train/adv_max": 0.3207735950127244, "train/adv_mean": 0.0019580556923415315, "train/adv_min": -0.377298045437783, "train/adv_std": 0.04039081680821255, "train/cont_avg": 0.9949798583984375, "train/cont_loss_mean": 8.06879097168256e-05, "train/cont_loss_std": 0.002427240560866295, "train/cont_neg_acc": 0.9982363316747878, "train/cont_neg_loss": 0.007213271664306241, "train/cont_pos_acc": 0.9999999823048711, "train/cont_pos_loss": 1.900135925936297e-05, "train/cont_pred": 0.9949773279950023, "train/cont_rate": 0.9949798583984375, "train/dyn_loss_mean": 5.856318585574627, "train/dyn_loss_std": 9.04344242811203, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8400087244808674, "train/extr_critic_critic_opt_grad_steps": 629885.0, "train/extr_critic_critic_opt_loss": 14851.40007019043, "train/extr_critic_mag": 12.788140624761581, "train/extr_critic_max": 12.788140624761581, "train/extr_critic_mean": 3.839380320161581, "train/extr_critic_min": -0.3451575767248869, "train/extr_critic_std": 3.112580541521311, "train/extr_return_normed_mag": 1.3742949310690165, "train/extr_return_normed_max": 1.3742949310690165, "train/extr_return_normed_mean": 0.39335794001817703, "train/extr_return_normed_min": -0.0641082645743154, "train/extr_return_normed_std": 0.3186767983715981, "train/extr_return_rate": 0.8342529721558094, "train/extr_return_raw_mag": 13.52658848464489, "train/extr_return_raw_max": 13.52658848464489, "train/extr_return_raw_mean": 3.8587015010416508, "train/extr_return_raw_min": -0.6519169746898115, "train/extr_return_raw_std": 3.141863014549017, "train/extr_reward_mag": 1.0836914479732513, "train/extr_reward_max": 1.0836914479732513, "train/extr_reward_mean": 0.06324674823554233, "train/extr_reward_min": -0.6177363134920597, "train/extr_reward_std": 0.2407295284792781, "train/image_loss_mean": 3.6614751294255257, "train/image_loss_std": 9.529834225773811, "train/model_loss_mean": 7.2424613162875175, "train/model_loss_std": 13.66159637272358, "train/model_opt_grad_norm": 18.089094325900078, "train/model_opt_grad_steps": 629366.0, "train/model_opt_loss": 11665.367553710938, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1621.09375, "train/policy_entropy_mag": 2.7277704551815987, "train/policy_entropy_max": 2.7277704551815987, "train/policy_entropy_mean": 0.4825383995193988, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6965166772715747, "train/policy_logprob_mag": 7.438384264707565, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4838350764475763, "train/policy_logprob_min": -7.438384264707565, "train/policy_logprob_std": 1.0961596174165606, "train/policy_randomness_mag": 0.9627832677215338, "train/policy_randomness_max": 0.9627832677215338, "train/policy_randomness_mean": 0.1703148817177862, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24583982024341822, "train/post_ent_mag": 54.899700343608856, "train/post_ent_max": 54.899700343608856, "train/post_ent_mean": 39.89949232339859, "train/post_ent_min": 19.84188023209572, "train/post_ent_std": 5.7868544310331345, "train/prior_ent_mag": 76.59973955154419, "train/prior_ent_max": 76.59973955154419, "train/prior_ent_mean": 45.76090008020401, "train/prior_ent_min": 28.07918679714203, "train/prior_ent_std": 7.942624486982822, "train/rep_loss_mean": 5.856318585574627, "train/rep_loss_std": 9.04344242811203, "train/reward_avg": 0.052520751632982865, "train/reward_loss_mean": 0.06711442588130012, "train/reward_loss_std": 0.23328676726669073, "train/reward_max_data": 1.0281250067055225, "train/reward_max_pred": 1.0303867906332016, "train/reward_neg_acc": 0.9925102340057492, "train/reward_neg_loss": 0.027086222064099275, "train/reward_pos_acc": 0.9889532728120685, "train/reward_pos_loss": 0.7288215905427933, "train/reward_pred": 0.05188353406265378, "train/reward_rate": 0.0570068359375, "replay/size": 1000000.0, "replay/inserts": 1292.0, "replay/samples": 10336.0, "replay/insert_wait_avg": 3.6637480413950632e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3853697215809541e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.33432388305664, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02650904655456543, "timer/logger.write_frac": 8.826512471777102e-05, "timer/logger.write_avg": 0.02650904655456543, "timer/logger.write_min": 0.02650904655456543, "timer/logger.write_max": 0.02650904655456543, "timer/replay.add_count": 1292.0, "timer/replay.add_total": 0.26662421226501465, "timer/replay.add_frac": 0.0008877580451604728, "timer/replay.add_avg": 0.0002063654893692064, "timer/replay.add_min": 8.726119995117188e-05, "timer/replay.add_max": 0.004068851470947266, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1292.0, "timer/env.step_total": 17.584352731704712, "timer/env.step_frac": 0.05854926105133311, "timer/env.step_avg": 0.013610180132898385, "timer/env.step_min": 0.0029180049896240234, "timer/env.step_max": 1.6569888591766357, "timer/agent.policy_count": 1292.0, "timer/agent.policy_total": 13.333767414093018, "timer/agent.policy_frac": 0.044396415440297404, "timer/agent.policy_avg": 0.010320253416480664, "timer/agent.policy_min": 0.005686044692993164, "timer/agent.policy_max": 2.5678367614746094, "timer/dataset_count": 646.0, "timer/dataset_total": 0.05376887321472168, "timer/dataset_frac": 0.0001790300639618469, "timer/dataset_avg": 8.323354986799022e-05, "timer/dataset_min": 6.413459777832031e-05, "timer/dataset_max": 0.00016021728515625, "timer/agent.train_count": 646.0, "timer/agent.train_total": 268.4113793373108, "timer/agent.train_frac": 0.8937086373178714, "timer/agent.train_avg": 0.41549749123422725, "timer/agent.train_min": 0.37383532524108887, "timer/agent.train_max": 0.4517784118652344, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.23077058792114258, "timer/agent.report_frac": 0.0007683790015655999, "timer/agent.report_avg": 0.23077058792114258, "timer/agent.report_min": 0.23077058792114258, "timer/agent.report_max": 0.23077058792114258, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00023937225341796875, "timer/checkpoint.save_frac": 7.970193027659898e-07, "timer/checkpoint.save_avg": 0.00023937225341796875, "timer/checkpoint.save_min": 0.00023937225341796875, "timer/checkpoint.save_max": 0.00023937225341796875, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1865155696868896, "timer/agent.save_frac": 0.003950649244303131, "timer/agent.save_avg": 1.1865155696868896, "timer/agent.save_min": 1.1865155696868896, "timer/agent.save_max": 1.1865155696868896, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.963180541992188e-05, "timer/replay.save_frac": 2.651438716372914e-07, "timer/replay.save_avg": 7.963180541992188e-05, "timer/replay.save_min": 7.963180541992188e-05, "timer/replay.save_max": 7.963180541992188e-05, "fps": 4.301801555932373}
{"step": 1262085, "episode/length": 586.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 20.10000006109476, "episode/reward_rate": 0.027257240204429302}
{"step": 1262306, "episode/length": 220.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.05429864253393665}
{"step": 1262510, "episode/length": 203.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.06862745098039216}
{"step": 1262786, "episode/length": 275.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.500000022351742, "episode/reward_rate": 0.057971014492753624}
{"step": 1262843, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.46934668697528, "train/action_min": 0.0, "train/action_std": 3.309320876847452, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03462785715932277, "train/actor_opt_grad_steps": 630540.0, "train/actor_opt_loss": -11.53165537830609, "train/adv_mag": 0.3682101686943823, "train/adv_max": 0.30515287060346175, "train/adv_mean": 0.0014564997655358652, "train/adv_min": -0.3410764959321093, "train/adv_std": 0.03975820624783857, "train/cont_avg": 0.995292094216418, "train/cont_loss_mean": 3.359380347160028e-05, "train/cont_loss_std": 0.001020728772222179, "train/cont_neg_acc": 0.9981343283582089, "train/cont_neg_loss": 0.0030240221149140877, "train/cont_pos_acc": 0.999999973311353, "train/cont_pos_loss": 1.0036106757881308e-05, "train/cont_pred": 0.9952941474629872, "train/cont_rate": 0.995292094216418, "train/dyn_loss_mean": 5.878628097363372, "train/dyn_loss_std": 9.042508879704261, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8629921425634356, "train/extr_critic_critic_opt_grad_steps": 630540.0, "train/extr_critic_critic_opt_loss": 14917.09764167444, "train/extr_critic_mag": 12.891208919126596, "train/extr_critic_max": 12.891208919126596, "train/extr_critic_mean": 3.876806921033717, "train/extr_critic_min": -0.2905003544109971, "train/extr_critic_std": 3.0554439523326815, "train/extr_return_normed_mag": 1.3794926262613554, "train/extr_return_normed_max": 1.3794926262613554, "train/extr_return_normed_mean": 0.39542624665730036, "train/extr_return_normed_min": -0.06790620816954926, "train/extr_return_normed_std": 0.3124411702156067, "train/extr_return_rate": 0.8572606159679925, "train/extr_return_raw_mag": 13.591830452876305, "train/extr_return_raw_max": 13.591830452876305, "train/extr_return_raw_mean": 3.891187728340946, "train/extr_return_raw_min": -0.6763400488824987, "train/extr_return_raw_std": 3.0800665029838905, "train/extr_reward_mag": 1.0900570314321945, "train/extr_reward_max": 1.0900570314321945, "train/extr_reward_mean": 0.06419059828813396, "train/extr_reward_min": -0.6293926559277435, "train/extr_reward_std": 0.24255038464247292, "train/image_loss_mean": 3.653963277589029, "train/image_loss_std": 8.939657133017013, "train/model_loss_mean": 7.247425150515428, "train/model_loss_std": 13.10182685282693, "train/model_opt_grad_norm": 19.87231240343692, "train/model_opt_grad_steps": 630021.0, "train/model_opt_loss": 18118.562878964553, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.717593481291586, "train/policy_entropy_max": 2.717593481291586, "train/policy_entropy_mean": 0.462710917440813, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6790825555573649, "train/policy_logprob_mag": 7.438384241132594, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.463751602973511, "train/policy_logprob_min": -7.438384241132594, "train/policy_logprob_std": 1.0807728918630686, "train/policy_randomness_mag": 0.9591912387022331, "train/policy_randomness_max": 0.9591912387022331, "train/policy_randomness_mean": 0.16331664817546732, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23968634365209893, "train/post_ent_mag": 55.025726318359375, "train/post_ent_max": 55.025726318359375, "train/post_ent_mean": 39.84332713796132, "train/post_ent_min": 19.45176867584684, "train/post_ent_std": 5.730610370635986, "train/prior_ent_mag": 76.6579158270537, "train/prior_ent_max": 76.6579158270537, "train/prior_ent_mean": 45.66112734666511, "train/prior_ent_min": 27.302737335660563, "train/prior_ent_std": 7.903069581558455, "train/rep_loss_mean": 5.878628097363372, "train/rep_loss_std": 9.042508879704261, "train/reward_avg": 0.05222423007683968, "train/reward_loss_mean": 0.06625145000975523, "train/reward_loss_std": 0.23303253303712873, "train/reward_max_data": 1.0402985170705994, "train/reward_max_pred": 1.0367408866312966, "train/reward_neg_acc": 0.9923937329605445, "train/reward_neg_loss": 0.026558872298407022, "train/reward_pos_acc": 0.9884903012816586, "train/reward_pos_loss": 0.7297699638267061, "train/reward_pred": 0.05180298150586548, "train/reward_rate": 0.05648029384328358, "stats/sum_log_reward": 13.599999904632568, "stats/max_log_achievement_collect_coal": 1.25, "stats/max_log_achievement_collect_drink": 5.75, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.25, "stats/max_log_achievement_collect_stone": 19.5, "stats/max_log_achievement_collect_wood": 13.75, "stats/max_log_achievement_defeat_skeleton": 0.25, "stats/max_log_achievement_defeat_zombie": 3.5, "stats/max_log_achievement_eat_cow": 0.75, "stats/max_log_achievement_make_stone_pickaxe": 1.25, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.5, "stats/max_log_achievement_place_plant": 1.25, "stats/max_log_achievement_place_stone": 4.0, "stats/max_log_achievement_place_table": 4.0, "stats/max_log_achievement_wake_up": 1.75, "stats/mean_log_entropy": 0.7119902856647968, "replay/size": 1000000.0, "replay/inserts": 1326.0, "replay/samples": 10608.0, "replay/insert_wait_avg": 3.6670791257740327e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3664567092964551e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.43276166915894, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026172399520874023, "timer/logger.write_frac": 8.711566400236823e-05, "timer/logger.write_avg": 0.026172399520874023, "timer/logger.write_min": 0.026172399520874023, "timer/logger.write_max": 0.026172399520874023, "timer/replay.add_count": 1326.0, "timer/replay.add_total": 0.2644057273864746, "timer/replay.add_frac": 0.000880082870847628, "timer/replay.add_avg": 0.00019940100104560678, "timer/replay.add_min": 8.702278137207031e-05, "timer/replay.add_max": 0.0008206367492675781, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1326.0, "timer/env.step_total": 14.034202814102173, "timer/env.step_frac": 0.04671329030872088, "timer/env.step_avg": 0.010583863359051413, "timer/env.step_min": 0.0028328895568847656, "timer/env.step_max": 1.6422138214111328, "timer/agent.policy_count": 1326.0, "timer/agent.policy_total": 9.746504068374634, "timer/agent.policy_frac": 0.032441548698698947, "timer/agent.policy_avg": 0.007350304727281021, "timer/agent.policy_min": 0.0056302547454833984, "timer/agent.policy_max": 0.015083074569702148, "timer/dataset_count": 663.0, "timer/dataset_total": 0.055194854736328125, "timer/dataset_frac": 0.0001837178290066432, "timer/dataset_avg": 8.325015797334559e-05, "timer/dataset_min": 6.365776062011719e-05, "timer/dataset_max": 0.00014138221740722656, "timer/agent.train_count": 663.0, "timer/agent.train_total": 275.6111717224121, "timer/agent.train_frac": 0.917380548616463, "timer/agent.train_avg": 0.41570312476985233, "timer/agent.train_min": 0.36737895011901855, "timer/agent.train_max": 0.45024967193603516, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2585577964782715, "timer/agent.report_frac": 0.0008606178468745004, "timer/agent.report_avg": 0.2585577964782715, "timer/agent.report_min": 0.2585577964782715, "timer/agent.report_max": 0.2585577964782715, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.413559721444715}
{"step": 1263123, "episode/length": 336.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 14.900000013411045, "episode/reward_rate": 0.04154302670623145}
{"step": 1263465, "episode/length": 341.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.038011695906432746}
{"step": 1263769, "episode/length": 303.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.046052631578947366}
{"step": 1263960, "episode/length": 190.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.500000044703484, "episode/reward_rate": 0.06282722513089005}
{"step": 1264167, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.48886200875947, "train/action_min": 0.0, "train/action_std": 3.3444152600837476, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03525955297730186, "train/actor_opt_grad_steps": 631205.0, "train/actor_opt_loss": -11.16313555023887, "train/adv_mag": 0.3888819339600476, "train/adv_max": 0.3136939736026706, "train/adv_mean": 0.0016075544179770848, "train/adv_min": -0.3577753680221962, "train/adv_std": 0.039716043255545876, "train/cont_avg": 0.9952799479166666, "train/cont_loss_mean": 7.6124746856849734e-06, "train/cont_loss_std": 0.00020737459048630723, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 4.7575092790246906e-05, "train/cont_pos_acc": 0.999999974713181, "train/cont_pos_loss": 7.457802485869277e-06, "train/cont_pred": 0.9952729633360198, "train/cont_rate": 0.9952799479166666, "train/dyn_loss_mean": 5.915388230121497, "train/dyn_loss_std": 9.114195361281887, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8642787093465979, "train/extr_critic_critic_opt_grad_steps": 631205.0, "train/extr_critic_critic_opt_loss": 14928.537257339016, "train/extr_critic_mag": 12.881226973100143, "train/extr_critic_max": 12.881226973100143, "train/extr_critic_mean": 3.7375385400020713, "train/extr_critic_min": -0.34021187912334094, "train/extr_critic_std": 3.0520713329315186, "train/extr_return_normed_mag": 1.3834145737416816, "train/extr_return_normed_max": 1.3834145737416816, "train/extr_return_normed_mean": 0.38441182311737176, "train/extr_return_normed_min": -0.07322024570947344, "train/extr_return_normed_std": 0.3151495237693642, "train/extr_return_rate": 0.8425821129119757, "train/extr_return_raw_mag": 13.504857251138398, "train/extr_return_raw_max": 13.504857251138398, "train/extr_return_raw_mean": 3.7532146807872886, "train/extr_return_raw_min": -0.7136514940948198, "train/extr_return_raw_std": 3.0760910619388926, "train/extr_reward_mag": 1.0845725283478245, "train/extr_reward_max": 1.0845725283478245, "train/extr_reward_mean": 0.06226982142437588, "train/extr_reward_min": -0.6390677455699805, "train/extr_reward_std": 0.2396875856952234, "train/image_loss_mean": 3.745397737531951, "train/image_loss_std": 9.27063386368029, "train/model_loss_mean": 7.360359661506884, "train/model_loss_std": 13.452231898452297, "train/model_opt_grad_norm": 20.93288703398271, "train/model_opt_grad_steps": 630685.3181818182, "train/model_opt_loss": 20183.840894294506, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2727.2727272727275, "train/policy_entropy_mag": 2.7370611971074883, "train/policy_entropy_max": 2.7370611971074883, "train/policy_entropy_mean": 0.4824427217245102, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7039730431455554, "train/policy_logprob_mag": 7.438384316184304, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.48051684124000144, "train/policy_logprob_min": -7.438384316184304, "train/policy_logprob_std": 1.092429928707354, "train/policy_randomness_mag": 0.9660624906872258, "train/policy_randomness_max": 0.9660624906872258, "train/policy_randomness_mean": 0.17028110846877098, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24847159150874976, "train/post_ent_mag": 55.37055038683342, "train/post_ent_max": 55.37055038683342, "train/post_ent_mean": 39.89983974803578, "train/post_ent_min": 19.105867978298303, "train/post_ent_std": 5.805857535564538, "train/prior_ent_mag": 76.87143950028853, "train/prior_ent_max": 76.87143950028853, "train/prior_ent_mean": 45.779691407174774, "train/prior_ent_min": 27.338984778433137, "train/prior_ent_std": 8.043937589182999, "train/rep_loss_mean": 5.915388230121497, "train/rep_loss_std": 9.114195361281887, "train/reward_avg": 0.050673235969787296, "train/reward_loss_mean": 0.06572142107920213, "train/reward_loss_std": 0.23138000748374246, "train/reward_max_data": 1.021212126269485, "train/reward_max_pred": 1.0221668301206646, "train/reward_neg_acc": 0.9921115600701534, "train/reward_neg_loss": 0.027164759142606548, "train/reward_pos_acc": 0.9888275536623868, "train/reward_pos_loss": 0.7308022361813169, "train/reward_pred": 0.05017554455182769, "train/reward_rate": 0.054998224431818184, "stats/sum_log_reward": 12.350000381469727, "stats/max_log_achievement_collect_coal": 0.75, "stats/max_log_achievement_collect_drink": 1.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.25, "stats/max_log_achievement_collect_stone": 19.25, "stats/max_log_achievement_collect_wood": 13.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_stone_pickaxe": 1.25, "stats/max_log_achievement_make_stone_sword": 0.75, "stats/max_log_achievement_make_wood_pickaxe": 1.25, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 2.25, "stats/max_log_achievement_place_stone": 6.5, "stats/max_log_achievement_place_table": 3.75, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.6834412105381489, "replay/size": 1000000.0, "replay/inserts": 1324.0, "replay/samples": 10592.0, "replay/insert_wait_avg": 3.625799161790001e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3810360179566906e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.33627128601074, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03461599349975586, "timer/logger.write_frac": 0.00011525745242668672, "timer/logger.write_avg": 0.03461599349975586, "timer/logger.write_min": 0.03461599349975586, "timer/logger.write_max": 0.03461599349975586, "timer/replay.add_count": 1324.0, "timer/replay.add_total": 0.2696506977081299, "timer/replay.add_frac": 0.000897829278340281, "timer/replay.add_avg": 0.0002036636689638443, "timer/replay.add_min": 8.273124694824219e-05, "timer/replay.add_max": 0.0009338855743408203, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1324.0, "timer/env.step_total": 14.306134700775146, "timer/env.step_frac": 0.047633722825144185, "timer/env.step_avg": 0.01080523768940721, "timer/env.step_min": 0.0031015872955322266, "timer/env.step_max": 1.6571931838989258, "timer/agent.policy_count": 1324.0, "timer/agent.policy_total": 9.831620693206787, "timer/agent.policy_frac": 0.0327353757543461, "timer/agent.policy_avg": 0.0074256953876184195, "timer/agent.policy_min": 0.005752086639404297, "timer/agent.policy_max": 0.017613649368286133, "timer/dataset_count": 662.0, "timer/dataset_total": 0.05376124382019043, "timer/dataset_frac": 0.00017900350027650675, "timer/dataset_avg": 8.12103380969644e-05, "timer/dataset_min": 6.365776062011719e-05, "timer/dataset_max": 0.0001575946807861328, "timer/agent.train_count": 662.0, "timer/agent.train_total": 275.1542375087738, "timer/agent.train_frac": 0.9161538708947476, "timer/agent.train_avg": 0.4156408421582686, "timer/agent.train_min": 0.37398386001586914, "timer/agent.train_max": 0.45082759857177734, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.26275110244750977, "timer/agent.report_frac": 0.0008748563778941354, "timer/agent.report_avg": 0.26275110244750977, "timer/agent.report_min": 0.26275110244750977, "timer/agent.report_max": 0.26275110244750977, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.408326654218305}
{"step": 1264250, "episode/length": 289.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.05172413793103448}
{"step": 1264483, "episode/length": 232.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.060085836909871244}
{"step": 1264760, "episode/length": 276.0, "episode/score": 15.100000023841858, "episode/sum_abs_reward": 18.100000023841858, "episode/reward_rate": 0.061371841155234655}
{"step": 1265208, "episode/length": 447.0, "episode/score": 14.099999979138374, "episode/sum_abs_reward": 17.30000004172325, "episode/reward_rate": 0.033482142857142856}
{"step": 1265363, "episode/length": 154.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.07096774193548387}
{"step": 1265465, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.512495304987981, "train/action_min": 0.0, "train/action_std": 3.4304266232710616, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0348892471824701, "train/actor_opt_grad_steps": 631860.0, "train/actor_opt_loss": -11.424769068681277, "train/adv_mag": 0.4159329675711118, "train/adv_max": 0.3288457622894874, "train/adv_mean": 0.0017289001968143005, "train/adv_min": -0.3748353728881249, "train/adv_std": 0.04024159868176167, "train/cont_avg": 0.9952524038461539, "train/cont_loss_mean": 9.49548829912426e-05, "train/cont_loss_std": 0.002854051030670654, "train/cont_neg_acc": 0.9974358980472271, "train/cont_neg_loss": 0.013133308292423408, "train/cont_pos_acc": 0.9999999770751367, "train/cont_pos_loss": 1.870770447304984e-05, "train/cont_pred": 0.995257895726424, "train/cont_rate": 0.9952524038461539, "train/dyn_loss_mean": 5.842520310328557, "train/dyn_loss_std": 9.072208243149978, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8866272495343135, "train/extr_critic_critic_opt_grad_steps": 631860.0, "train/extr_critic_critic_opt_loss": 15172.108623798076, "train/extr_critic_mag": 12.709798607459435, "train/extr_critic_max": 12.709798607459435, "train/extr_critic_mean": 3.6590199323800894, "train/extr_critic_min": -0.331404841863192, "train/extr_critic_std": 3.027453037408682, "train/extr_return_normed_mag": 1.3858151344152598, "train/extr_return_normed_max": 1.3858151344152598, "train/extr_return_normed_mean": 0.37920115177447977, "train/extr_return_normed_min": -0.06744828957777757, "train/extr_return_normed_std": 0.31448291081648605, "train/extr_return_rate": 0.8321404649661137, "train/extr_return_raw_mag": 13.442125980670635, "train/extr_return_raw_max": 13.442125980670635, "train/extr_return_raw_mean": 3.675809111961952, "train/extr_return_raw_min": -0.657747601545774, "train/extr_return_raw_std": 3.0513569281651423, "train/extr_reward_mag": 1.0861031789046067, "train/extr_reward_max": 1.0861031789046067, "train/extr_reward_mean": 0.06144396078128081, "train/extr_reward_min": -0.6067281007766724, "train/extr_reward_std": 0.2385064897628931, "train/image_loss_mean": 3.773448892740103, "train/image_loss_std": 9.602310261359582, "train/model_loss_mean": 7.346221982515775, "train/model_loss_std": 13.769735409663273, "train/model_opt_grad_norm": 20.478543266883264, "train/model_opt_grad_steps": 631340.0, "train/model_opt_loss": 21248.469861778845, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2884.6153846153848, "train/policy_entropy_mag": 2.7200912989102877, "train/policy_entropy_max": 2.7200912989102877, "train/policy_entropy_mean": 0.48672425609368547, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6952772626510033, "train/policy_logprob_mag": 7.43838429084191, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.48652929571958686, "train/policy_logprob_min": -7.43838429084191, "train/policy_logprob_std": 1.0951630959144005, "train/policy_randomness_mag": 0.9600728612679702, "train/policy_randomness_max": 0.9600728612679702, "train/policy_randomness_mean": 0.17179230336959544, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24540235996246337, "train/post_ent_mag": 54.993216646634615, "train/post_ent_max": 54.993216646634615, "train/post_ent_mean": 40.034824312650244, "train/post_ent_min": 19.534195181039664, "train/post_ent_std": 5.835148987403283, "train/prior_ent_mag": 76.85718360314003, "train/prior_ent_max": 76.85718360314003, "train/prior_ent_mean": 45.85436947162335, "train/prior_ent_min": 27.744416926457333, "train/prior_ent_std": 8.06413225027231, "train/rep_loss_mean": 5.842520310328557, "train/rep_loss_std": 9.072208243149978, "train/reward_avg": 0.05025991545273707, "train/reward_loss_mean": 0.06716596117386452, "train/reward_loss_std": 0.23716046099479382, "train/reward_max_data": 1.0338461619157058, "train/reward_max_pred": 1.0351054374988262, "train/reward_neg_acc": 0.9916307541040273, "train/reward_neg_loss": 0.02880822723874679, "train/reward_pos_acc": 0.9888765435952407, "train/reward_pos_loss": 0.7301093596678514, "train/reward_pred": 0.04980941088153766, "train/reward_rate": 0.054762620192307696, "stats/sum_log_reward": 13.300000381469726, "stats/max_log_achievement_collect_coal": 0.6, "stats/max_log_achievement_collect_drink": 5.8, "stats/max_log_achievement_collect_iron": 0.2, "stats/max_log_achievement_collect_sapling": 2.6, "stats/max_log_achievement_collect_stone": 22.6, "stats/max_log_achievement_collect_wood": 12.2, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.6, "stats/max_log_achievement_eat_cow": 0.8, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 2.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2, "stats/max_log_achievement_place_furnace": 2.6, "stats/max_log_achievement_place_plant": 1.8, "stats/max_log_achievement_place_stone": 6.0, "stats/max_log_achievement_place_table": 2.8, "stats/max_log_achievement_wake_up": 1.6, "stats/mean_log_entropy": 0.7167420506477356, "replay/size": 1000000.0, "replay/inserts": 1298.0, "replay/samples": 10384.0, "replay/insert_wait_avg": 3.7096314511056672e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3789888155662407e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1881854534149, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.021750926971435547, "timer/logger.write_frac": 7.245763832637907e-05, "timer/logger.write_avg": 0.021750926971435547, "timer/logger.write_min": 0.021750926971435547, "timer/logger.write_max": 0.021750926971435547, "timer/replay.add_count": 1298.0, "timer/replay.add_total": 0.2739725112915039, "timer/replay.add_frac": 0.0009126692007471449, "timer/replay.add_avg": 0.00021107281301348528, "timer/replay.add_min": 8.630752563476562e-05, "timer/replay.add_max": 0.0038366317749023438, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1298.0, "timer/env.step_total": 15.51904010772705, "timer/env.step_frac": 0.051697704505880335, "timer/env.step_avg": 0.011956117186230393, "timer/env.step_min": 0.002925395965576172, "timer/env.step_max": 1.6367692947387695, "timer/agent.policy_count": 1298.0, "timer/agent.policy_total": 14.11210012435913, "timer/agent.policy_frac": 0.04701084455753551, "timer/agent.policy_avg": 0.010872188077318283, "timer/agent.policy_min": 0.005701303482055664, "timer/agent.policy_max": 3.168339729309082, "timer/dataset_count": 649.0, "timer/dataset_total": 0.05346488952636719, "timer/dataset_frac": 0.00017810457611984934, "timer/dataset_avg": 8.23804152948647e-05, "timer/dataset_min": 6.461143493652344e-05, "timer/dataset_max": 0.00026035308837890625, "timer/agent.train_count": 649.0, "timer/agent.train_total": 269.518185377121, "timer/agent.train_frac": 0.8978307556309424, "timer/agent.train_avg": 0.4152822579000323, "timer/agent.train_min": 0.3678462505340576, "timer/agent.train_max": 0.45505499839782715, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2610020637512207, "timer/agent.report_frac": 0.0008694614791617928, "timer/agent.report_avg": 0.2610020637512207, "timer/agent.report_min": 0.2610020637512207, "timer/agent.report_max": 0.2610020637512207, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0005075931549072266, "timer/checkpoint.save_frac": 1.6909164967320077e-06, "timer/checkpoint.save_avg": 0.0005075931549072266, "timer/checkpoint.save_min": 0.0005075931549072266, "timer/checkpoint.save_max": 0.0005075931549072266, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3927485942840576, "timer/agent.save_frac": 0.004639584972940892, "timer/agent.save_avg": 1.3927485942840576, "timer/agent.save_min": 1.3927485942840576, "timer/agent.save_max": 1.3927485942840576, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.5367431640625e-05, "timer/replay.save_frac": 3.1769215532776095e-07, "timer/replay.save_avg": 9.5367431640625e-05, "timer/replay.save_min": 9.5367431640625e-05, "timer/replay.save_max": 9.5367431640625e-05, "fps": 4.323895800842106}
{"step": 1265555, "episode/length": 191.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.700000025331974, "episode/reward_rate": 0.046875}
{"step": 1265886, "episode/length": 330.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.045317220543806644}
{"step": 1266074, "episode/length": 187.0, "episode/score": 12.099999979138374, "episode/sum_abs_reward": 14.30000002682209, "episode/reward_rate": 0.06914893617021277}
{"step": 1266218, "episode/length": 143.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.09027777777777778}
{"step": 1266422, "episode/length": 203.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.06372549019607843}
{"step": 1266663, "episode/length": 240.0, "episode/score": 9.099999994039536, "episode/sum_abs_reward": 11.300000011920929, "episode/reward_rate": 0.04564315352697095}
{"step": 1266775, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.520431753305289, "train/action_min": 0.0, "train/action_std": 3.337076396208543, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03585050341028433, "train/actor_opt_grad_steps": 632510.0, "train/actor_opt_loss": -11.161199922745045, "train/adv_mag": 0.43286832502255074, "train/adv_max": 0.34424157463587246, "train/adv_mean": 0.001766973818191148, "train/adv_min": -0.38806691261438225, "train/adv_std": 0.04032854741582503, "train/cont_avg": 0.9953575721153847, "train/cont_loss_mean": 7.629175621723597e-05, "train/cont_loss_std": 0.002387006966387162, "train/cont_neg_acc": 0.9961538461538462, "train/cont_neg_loss": 0.010270528744128468, "train/cont_pos_acc": 0.9999697731091426, "train/cont_pos_loss": 3.519093913607863e-05, "train/cont_pred": 0.9953494475438045, "train/cont_rate": 0.9953575721153847, "train/dyn_loss_mean": 5.7842681151169995, "train/dyn_loss_std": 8.995315471062293, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9081714043250451, "train/extr_critic_critic_opt_grad_steps": 632510.0, "train/extr_critic_critic_opt_loss": 14703.068149038461, "train/extr_critic_mag": 12.735059342017541, "train/extr_critic_max": 12.735059342017541, "train/extr_critic_mean": 3.8890892138847937, "train/extr_critic_min": -0.32648913860321044, "train/extr_critic_std": 3.016191684282743, "train/extr_return_normed_mag": 1.3801161839411809, "train/extr_return_normed_max": 1.3801161839411809, "train/extr_return_normed_mean": 0.4000798326272231, "train/extr_return_normed_min": -0.0628402679012372, "train/extr_return_normed_std": 0.3106491998984264, "train/extr_return_rate": 0.856525484415201, "train/extr_return_raw_mag": 13.506838783851038, "train/extr_return_raw_max": 13.506838783851038, "train/extr_return_raw_mean": 3.906391848050631, "train/extr_return_raw_min": -0.6282888439985422, "train/extr_return_raw_std": 3.0432775570796085, "train/extr_reward_mag": 1.0853197501255916, "train/extr_reward_max": 1.0853197501255916, "train/extr_reward_mean": 0.06356532430419555, "train/extr_reward_min": -0.6067159010813786, "train/extr_reward_std": 0.2409714311361313, "train/image_loss_mean": 3.5614039127643293, "train/image_loss_std": 9.285101677821233, "train/model_loss_mean": 7.098296605623686, "train/model_loss_std": 13.402607932457556, "train/model_opt_grad_norm": 20.27622454716609, "train/model_opt_grad_steps": 631989.4307692308, "train/model_opt_loss": 25335.799864783654, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3576.923076923077, "train/policy_entropy_mag": 2.7319051339076115, "train/policy_entropy_max": 2.7319051339076115, "train/policy_entropy_mean": 0.4821747458898104, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7013309634648837, "train/policy_logprob_mag": 7.4383842688340405, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.481391762311642, "train/policy_logprob_min": -7.4383842688340405, "train/policy_logprob_std": 1.0913795296962445, "train/policy_randomness_mag": 0.9642426270705003, "train/policy_randomness_max": 0.9642426270705003, "train/policy_randomness_mean": 0.1701865276465049, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24753905534744264, "train/post_ent_mag": 54.93879928588867, "train/post_ent_max": 54.93879928588867, "train/post_ent_mean": 39.87851245586689, "train/post_ent_min": 19.321523035489594, "train/post_ent_std": 5.74590431360098, "train/prior_ent_mag": 76.70470017653246, "train/prior_ent_max": 76.70470017653246, "train/prior_ent_mean": 45.62681779127855, "train/prior_ent_min": 27.20763840308556, "train/prior_ent_std": 7.969383569864126, "train/rep_loss_mean": 5.7842681151169995, "train/rep_loss_std": 8.995315471062293, "train/reward_avg": 0.053858172377714744, "train/reward_loss_mean": 0.06625553896793952, "train/reward_loss_std": 0.23296420276165009, "train/reward_max_data": 1.030769238105187, "train/reward_max_pred": 1.0303313145270714, "train/reward_neg_acc": 0.9924138032473051, "train/reward_neg_loss": 0.025782803489038577, "train/reward_pos_acc": 0.9900800769145672, "train/reward_pos_loss": 0.7240530105737539, "train/reward_pred": 0.053382528573274614, "train/reward_rate": 0.05805288461538462, "stats/sum_log_reward": 11.266667048136393, "stats/max_log_achievement_collect_coal": 0.3333333333333333, "stats/max_log_achievement_collect_drink": 2.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.3333333333333335, "stats/max_log_achievement_collect_stone": 11.333333333333334, "stats/max_log_achievement_collect_wood": 9.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 1.0, "stats/max_log_achievement_place_table": 2.1666666666666665, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.38884855310122174, "replay/size": 1000000.0, "replay/inserts": 1310.0, "replay/samples": 10480.0, "replay/insert_wait_avg": 3.5646307559413763e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4584483081147871e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0850200653076, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026939868927001953, "timer/logger.write_frac": 8.977412108454804e-05, "timer/logger.write_avg": 0.026939868927001953, "timer/logger.write_min": 0.026939868927001953, "timer/logger.write_max": 0.026939868927001953, "timer/replay.add_count": 1310.0, "timer/replay.add_total": 0.2678956985473633, "timer/replay.add_frac": 0.0008927326611940211, "timer/replay.add_avg": 0.00020450053324226204, "timer/replay.add_min": 8.106231689453125e-05, "timer/replay.add_max": 0.0030150413513183594, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1310.0, "timer/env.step_total": 17.179301261901855, "timer/env.step_frac": 0.057248113411869465, "timer/env.step_avg": 0.013113970428932715, "timer/env.step_min": 0.0027337074279785156, "timer/env.step_max": 1.641066074371338, "timer/agent.policy_count": 1310.0, "timer/agent.policy_total": 9.813953876495361, "timer/agent.policy_frac": 0.03270391129273813, "timer/agent.policy_avg": 0.007491567844652948, "timer/agent.policy_min": 0.005744457244873047, "timer/agent.policy_max": 0.015115022659301758, "timer/dataset_count": 655.0, "timer/dataset_total": 0.05431175231933594, "timer/dataset_frac": 0.0001809878823925168, "timer/dataset_avg": 8.291870583104724e-05, "timer/dataset_min": 6.198883056640625e-05, "timer/dataset_max": 0.00014853477478027344, "timer/agent.train_count": 655.0, "timer/agent.train_total": 272.0462296009064, "timer/agent.train_frac": 0.9065638449453454, "timer/agent.train_avg": 0.4153377551158876, "timer/agent.train_min": 0.3740711212158203, "timer/agent.train_max": 0.4516875743865967, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2609715461730957, "timer/agent.report_frac": 0.0008696586924475616, "timer/agent.report_avg": 0.2609715461730957, "timer/agent.report_min": 0.2609715461730957, "timer/agent.report_max": 0.2609715461730957, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.36534805728145}
{"step": 1266800, "episode/length": 136.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.899999976158142, "episode/reward_rate": 0.08759124087591241}
{"step": 1266952, "episode/length": 151.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.07894736842105263}
{"step": 1267170, "episode/length": 217.0, "episode/score": 13.099999994039536, "episode/sum_abs_reward": 15.700000047683716, "episode/reward_rate": 0.06422018348623854}
{"step": 1267368, "episode/length": 197.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.06565656565656566}
{"step": 1267597, "episode/length": 228.0, "episode/score": 13.099999971687794, "episode/sum_abs_reward": 15.900000043213367, "episode/reward_rate": 0.06550218340611354}
{"step": 1267818, "episode/length": 220.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 16.50000001490116, "episode/reward_rate": 0.06787330316742081}
{"step": 1268008, "episode/length": 189.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.06842105263157895}
{"step": 1268083, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.472028327710701, "train/action_min": 0.0, "train/action_std": 3.3132482658733022, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03506716823374683, "train/actor_opt_grad_steps": 633165.0, "train/actor_opt_loss": -11.776245951652527, "train/adv_mag": 0.41278973989414447, "train/adv_max": 0.3388596951509967, "train/adv_mean": 0.0015752767258025856, "train/adv_min": -0.3640466562726281, "train/adv_std": 0.0399675802186583, "train/cont_avg": 0.995413115530303, "train/cont_loss_mean": 6.360328200525883e-05, "train/cont_loss_std": 0.0019128398253302969, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0012832322518604973, "train/cont_pos_acc": 0.9999851033543096, "train/cont_pos_loss": 5.753794816813972e-05, "train/cont_pred": 0.9953882603934316, "train/cont_rate": 0.995413115530303, "train/dyn_loss_mean": 5.799479383410829, "train/dyn_loss_std": 9.004853436441133, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8521705766518911, "train/extr_critic_critic_opt_grad_steps": 633165.0, "train/extr_critic_critic_opt_loss": 14978.179820667614, "train/extr_critic_mag": 12.516080841873631, "train/extr_critic_max": 12.516080841873631, "train/extr_critic_mean": 3.69849114707022, "train/extr_critic_min": -0.3275917316928054, "train/extr_critic_std": 2.9468666423450816, "train/extr_return_normed_mag": 1.3648792469140254, "train/extr_return_normed_max": 1.3648792469140254, "train/extr_return_normed_mean": 0.3837175111879002, "train/extr_return_normed_min": -0.0699567050306183, "train/extr_return_normed_std": 0.30625135677330423, "train/extr_return_rate": 0.8536281215422081, "train/extr_return_raw_mag": 13.234992359623764, "train/extr_return_raw_max": 13.234992359623764, "train/extr_return_raw_mean": 3.7137699271693374, "train/extr_return_raw_min": -0.6888056361314022, "train/extr_return_raw_std": 2.9720477227008706, "train/extr_reward_mag": 1.0924314079862651, "train/extr_reward_max": 1.0924314079862651, "train/extr_reward_mean": 0.06147076404004386, "train/extr_reward_min": -0.611430337934783, "train/extr_reward_std": 0.23854664080973828, "train/image_loss_mean": 3.623277010339679, "train/image_loss_std": 9.009684548233494, "train/model_loss_mean": 7.167664267800071, "train/model_loss_std": 13.18220839355931, "train/model_opt_grad_norm": 20.68192720413208, "train/model_opt_grad_steps": 632643.9848484849, "train/model_opt_loss": 18461.922022964016, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2575.757575757576, "train/policy_entropy_mag": 2.73037203875455, "train/policy_entropy_max": 2.73037203875455, "train/policy_entropy_mean": 0.4696039473920157, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6789981944091392, "train/policy_logprob_mag": 7.43838425838586, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4698997844349254, "train/policy_logprob_min": -7.43838425838586, "train/policy_logprob_std": 1.0830584213589176, "train/policy_randomness_mag": 0.963701504649538, "train/policy_randomness_max": 0.963701504649538, "train/policy_randomness_mean": 0.16574958869905182, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2396565650900205, "train/post_ent_mag": 54.86180964383212, "train/post_ent_max": 54.86180964383212, "train/post_ent_mean": 39.79311376629454, "train/post_ent_min": 19.68063007701527, "train/post_ent_std": 5.780105424649788, "train/prior_ent_mag": 76.76011149088542, "train/prior_ent_max": 76.76011149088542, "train/prior_ent_mean": 45.575735959139735, "train/prior_ent_min": 27.454528692996863, "train/prior_ent_std": 7.990243752797444, "train/rep_loss_mean": 5.799479383410829, "train/rep_loss_std": 9.004853436441133, "train/reward_avg": 0.05046608643324086, "train/reward_loss_mean": 0.06463599459014156, "train/reward_loss_std": 0.22340660948644986, "train/reward_max_data": 1.0439394044153618, "train/reward_max_pred": 1.0434537331263225, "train/reward_neg_acc": 0.9921083829619668, "train/reward_neg_loss": 0.02703706261165666, "train/reward_pos_acc": 0.9924418005076322, "train/reward_pos_loss": 0.7171461699586926, "train/reward_pred": 0.05018729042036064, "train/reward_rate": 0.05467270359848485, "stats/sum_log_reward": 12.100000381469727, "stats/max_log_achievement_collect_coal": 0.8571428571428571, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_iron": 0.2857142857142857, "stats/max_log_achievement_collect_sapling": 1.1428571428571428, "stats/max_log_achievement_collect_stone": 13.428571428571429, "stats/max_log_achievement_collect_wood": 11.0, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.4285714285714286, "stats/max_log_achievement_eat_cow": 0.42857142857142855, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.5714285714285714, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.8571428571428572, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 2.7142857142857144, "stats/max_log_achievement_place_table": 2.857142857142857, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.4467014329774039, "replay/size": 1000000.0, "replay/inserts": 1308.0, "replay/samples": 10464.0, "replay/insert_wait_avg": 3.646455408965411e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4026686321340206e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.41778230667114, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023736000061035156, "timer/logger.write_frac": 7.900997031129495e-05, "timer/logger.write_avg": 0.023736000061035156, "timer/logger.write_min": 0.023736000061035156, "timer/logger.write_max": 0.023736000061035156, "timer/replay.add_count": 1308.0, "timer/replay.add_total": 0.26167821884155273, "timer/replay.add_frac": 0.0008710477017449904, "timer/replay.add_avg": 0.00020005980033757854, "timer/replay.add_min": 8.606910705566406e-05, "timer/replay.add_max": 0.0008318424224853516, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1308.0, "timer/env.step_total": 18.434595346450806, "timer/env.step_frac": 0.061363196295858694, "timer/env.step_avg": 0.01409372732909083, "timer/env.step_min": 0.0029709339141845703, "timer/env.step_max": 1.6395635604858398, "timer/agent.policy_count": 1308.0, "timer/agent.policy_total": 9.66450810432434, "timer/agent.policy_frac": 0.03217022650962339, "timer/agent.policy_avg": 0.00738876766385653, "timer/agent.policy_min": 0.005652904510498047, "timer/agent.policy_max": 0.014681100845336914, "timer/dataset_count": 654.0, "timer/dataset_total": 0.053873538970947266, "timer/dataset_frac": 0.00017932872867010356, "timer/dataset_avg": 8.237544185160132e-05, "timer/dataset_min": 6.437301635742188e-05, "timer/dataset_max": 0.0001513957977294922, "timer/agent.train_count": 654.0, "timer/agent.train_total": 271.29015469551086, "timer/agent.train_frac": 0.9030429311224116, "timer/agent.train_avg": 0.41481675029894627, "timer/agent.train_min": 0.3657710552215576, "timer/agent.train_max": 0.4505610466003418, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2595391273498535, "timer/agent.report_frac": 0.0008639273126812178, "timer/agent.report_avg": 0.2595391273498535, "timer/agent.report_min": 0.2595391273498535, "timer/agent.report_max": 0.2595391273498535, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.353853712073631}
{"step": 1268203, "episode/length": 194.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.05641025641025641}
{"step": 1268440, "episode/length": 236.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.299999997019768, "episode/reward_rate": 0.05063291139240506}
{"step": 1268645, "episode/length": 204.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.500000022351742, "episode/reward_rate": 0.07804878048780488}
{"step": 1268941, "episode/length": 295.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.900000028312206, "episode/reward_rate": 0.05405405405405406}
{"step": 1269387, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.512606107271635, "train/action_min": 0.0, "train/action_std": 3.354777145385742, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.036189537438062525, "train/actor_opt_grad_steps": 633820.0, "train/actor_opt_loss": -11.953958729597238, "train/adv_mag": 0.3898195037474999, "train/adv_max": 0.31788604305340695, "train/adv_mean": 0.001464545742671292, "train/adv_min": -0.3565174400806427, "train/adv_std": 0.0397979495043938, "train/cont_avg": 0.9955979567307692, "train/cont_loss_mean": 8.734637498472116e-05, "train/cont_loss_std": 0.002698019644323652, "train/cont_neg_acc": 0.9978021988501915, "train/cont_neg_loss": 0.01058365341116271, "train/cont_pos_acc": 0.9999999807431148, "train/cont_pos_loss": 1.421688469650261e-05, "train/cont_pred": 0.9956072935691247, "train/cont_rate": 0.9955979567307692, "train/dyn_loss_mean": 5.798974176553579, "train/dyn_loss_std": 8.993609714508057, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8656766295433045, "train/extr_critic_critic_opt_grad_steps": 633820.0, "train/extr_critic_critic_opt_loss": 14833.921514423077, "train/extr_critic_mag": 12.699947283818172, "train/extr_critic_max": 12.699947283818172, "train/extr_critic_mean": 3.734895398066594, "train/extr_critic_min": -0.333409857749939, "train/extr_critic_std": 2.991688798024104, "train/extr_return_normed_mag": 1.3842587012511034, "train/extr_return_normed_max": 1.3842587012511034, "train/extr_return_normed_mean": 0.38928716411957376, "train/extr_return_normed_min": -0.06398855983637847, "train/extr_return_normed_std": 0.31164385309586157, "train/extr_return_rate": 0.8364123005133409, "train/extr_return_raw_mag": 13.396010164114145, "train/extr_return_raw_max": 13.396010164114145, "train/extr_return_raw_mean": 3.749087271323571, "train/extr_return_raw_min": -0.6469924461383086, "train/extr_return_raw_std": 3.0223641432248627, "train/extr_reward_mag": 1.0880467928372897, "train/extr_reward_max": 1.0880467928372897, "train/extr_reward_mean": 0.06274889048475485, "train/extr_reward_min": -0.565293761400076, "train/extr_reward_std": 0.2401459813117981, "train/image_loss_mean": 3.732179931493906, "train/image_loss_std": 9.054528955312875, "train/model_loss_mean": 7.277076955942007, "train/model_loss_std": 13.16057919722337, "train/model_opt_grad_norm": 19.009303048940804, "train/model_opt_grad_steps": 633298.0, "train/model_opt_loss": 18192.6923828125, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7402581214904784, "train/policy_entropy_max": 2.7402581214904784, "train/policy_entropy_mean": 0.4924433341393104, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7163572733218854, "train/policy_logprob_mag": 7.438384246826172, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.49108986212657046, "train/policy_logprob_min": -7.438384246826172, "train/policy_logprob_std": 1.1027188695394077, "train/policy_randomness_mag": 0.967190866286938, "train/policy_randomness_max": 0.967190866286938, "train/policy_randomness_mean": 0.17381088802447686, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.25284267778580005, "train/post_ent_mag": 55.22109838632437, "train/post_ent_max": 55.22109838632437, "train/post_ent_mean": 39.978216376671426, "train/post_ent_min": 19.53267713693472, "train/post_ent_std": 5.829276627760667, "train/prior_ent_mag": 76.95708594689002, "train/prior_ent_max": 76.95708594689002, "train/prior_ent_mean": 45.76164151705228, "train/prior_ent_min": 27.51371457026555, "train/prior_ent_std": 7.9678339371314415, "train/rep_loss_mean": 5.798974176553579, "train/rep_loss_std": 8.993609714508057, "train/reward_avg": 0.05155048046547633, "train/reward_loss_mean": 0.06542514946598273, "train/reward_loss_std": 0.22836391283915594, "train/reward_max_data": 1.0446153952525212, "train/reward_max_pred": 1.0444306116837723, "train/reward_neg_acc": 0.9927129846352797, "train/reward_neg_loss": 0.026493832368690233, "train/reward_pos_acc": 0.9893515715232262, "train/reward_pos_loss": 0.7254859960996187, "train/reward_pred": 0.05109480556387168, "train/reward_rate": 0.05575420673076923, "stats/sum_log_reward": 12.600000381469727, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 13.75, "stats/max_log_achievement_collect_wood": 10.25, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "stats/max_log_achievement_make_stone_sword": 0.75, "stats/max_log_achievement_make_wood_pickaxe": 1.5, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 4.25, "stats/max_log_achievement_place_table": 2.75, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.4363092854619026, "replay/size": 1000000.0, "replay/inserts": 1304.0, "replay/samples": 10432.0, "replay/insert_wait_avg": 3.6479505293208396e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3619021404008924e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.228303194046, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025322437286376953, "timer/logger.write_frac": 8.434393765337423e-05, "timer/logger.write_avg": 0.025322437286376953, "timer/logger.write_min": 0.025322437286376953, "timer/logger.write_max": 0.025322437286376953, "timer/replay.add_count": 1304.0, "timer/replay.add_total": 0.30108213424682617, "timer/replay.add_frac": 0.0010028439392412256, "timer/replay.add_avg": 0.0002308912072444986, "timer/replay.add_min": 8.535385131835938e-05, "timer/replay.add_max": 0.011936664581298828, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1304.0, "timer/env.step_total": 14.014545202255249, "timer/env.step_frac": 0.046679626981061983, "timer/env.step_avg": 0.010747350615226418, "timer/env.step_min": 0.0029649734497070312, "timer/env.step_max": 1.649707555770874, "timer/agent.policy_count": 1304.0, "timer/agent.policy_total": 14.371830224990845, "timer/agent.policy_frac": 0.04786967142035881, "timer/agent.policy_avg": 0.011021342197078869, "timer/agent.policy_min": 0.005636692047119141, "timer/agent.policy_max": 3.3171777725219727, "timer/dataset_count": 652.0, "timer/dataset_total": 0.05359935760498047, "timer/dataset_frac": 0.00017852866313652544, "timer/dataset_avg": 8.220760368862035e-05, "timer/dataset_min": 6.556510925292969e-05, "timer/dataset_max": 0.00015544891357421875, "timer/agent.train_count": 652.0, "timer/agent.train_total": 270.8017244338989, "timer/agent.train_frac": 0.901985993835072, "timer/agent.train_avg": 0.41534006815015173, "timer/agent.train_min": 0.37447333335876465, "timer/agent.train_max": 0.47777342796325684, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.23246145248413086, "timer/agent.report_frac": 0.0007742822712283873, "timer/agent.report_avg": 0.23246145248413086, "timer/agent.report_min": 0.23246145248413086, "timer/agent.report_max": 0.23246145248413086, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0001938343048095703, "timer/checkpoint.save_frac": 6.456230233706171e-07, "timer/checkpoint.save_avg": 0.0001938343048095703, "timer/checkpoint.save_min": 0.0001938343048095703, "timer/checkpoint.save_max": 0.0001938343048095703, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2229855060577393, "timer/agent.save_frac": 0.0040735183626817795, "timer/agent.save_avg": 1.2229855060577393, "timer/agent.save_min": 1.2229855060577393, "timer/agent.save_max": 1.2229855060577393, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.916854858398438e-05, "timer/replay.save_frac": 2.970024732356837e-07, "timer/replay.save_avg": 8.916854858398438e-05, "timer/replay.save_min": 8.916854858398438e-05, "timer/replay.save_max": 8.916854858398438e-05, "fps": 4.343286090494999}
{"step": 1269449, "episode/length": 507.0, "episode/score": 15.099999979138374, "episode/sum_abs_reward": 19.700000062584877, "episode/reward_rate": 0.031496062992125984}
{"step": 1269738, "episode/length": 288.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.05190311418685121}
{"step": 1270069, "episode/length": 330.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.04229607250755287}
{"step": 1270325, "episode/length": 255.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 10.900000005960464, "episode/reward_rate": 0.0390625}
{"step": 1270561, "episode/length": 235.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.900000043213367, "episode/reward_rate": 0.0635593220338983}
{"step": 1270707, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.528142755681818, "train/action_min": 0.0, "train/action_std": 3.3594213615764272, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.034785107455470345, "train/actor_opt_grad_steps": 634475.0, "train/actor_opt_loss": -12.50689706657872, "train/adv_mag": 0.4128202213482423, "train/adv_max": 0.331088228207646, "train/adv_mean": 0.0012669286436655304, "train/adv_min": -0.3747879487998558, "train/adv_std": 0.04009014706720005, "train/cont_avg": 0.9951023910984849, "train/cont_loss_mean": 2.3712018875225265e-05, "train/cont_loss_std": 0.0005913869814152707, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0011182253059088315, "train/cont_pos_acc": 0.9999999828410872, "train/cont_pos_loss": 1.6332937515270178e-05, "train/cont_pred": 0.9950928940917506, "train/cont_rate": 0.9951023910984849, "train/dyn_loss_mean": 5.907906749031761, "train/dyn_loss_std": 9.055989467736447, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8857403713645358, "train/extr_critic_critic_opt_grad_steps": 634475.0, "train/extr_critic_critic_opt_loss": 14909.229743726326, "train/extr_critic_mag": 12.814382423054088, "train/extr_critic_max": 12.814382423054088, "train/extr_critic_mean": 3.8077390880295723, "train/extr_critic_min": -0.36379192634062335, "train/extr_critic_std": 3.0683707522623465, "train/extr_return_normed_mag": 1.3737565260944944, "train/extr_return_normed_max": 1.3737565260944944, "train/extr_return_normed_mean": 0.394200709733096, "train/extr_return_normed_min": -0.06727202552737611, "train/extr_return_normed_std": 0.3153977491187327, "train/extr_return_rate": 0.8375375270843506, "train/extr_return_raw_mag": 13.432767376755223, "train/extr_return_raw_max": 13.432767376755223, "train/extr_return_raw_mean": 3.8201806942621865, "train/extr_return_raw_min": -0.7081511463179733, "train/extr_return_raw_std": 3.0951010928009497, "train/extr_reward_mag": 1.0883405750448054, "train/extr_reward_max": 1.0883405750448054, "train/extr_reward_mean": 0.06373846598646858, "train/extr_reward_min": -0.6299515203996138, "train/extr_reward_std": 0.24173142557794397, "train/image_loss_mean": 3.729907700509736, "train/image_loss_std": 8.926478703816732, "train/model_loss_mean": 7.34055428793936, "train/model_loss_std": 13.073590798811479, "train/model_opt_grad_norm": 21.50675241874926, "train/model_opt_grad_steps": 633952.2878787878, "train/model_opt_loss": 11823.907470703125, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1609.8484848484848, "train/policy_entropy_mag": 2.7457868908390854, "train/policy_entropy_max": 2.7457868908390854, "train/policy_entropy_mean": 0.5011338505781058, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7142856220404307, "train/policy_logprob_mag": 7.43838425838586, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.5009918998588215, "train/policy_logprob_min": -7.43838425838586, "train/policy_logprob_std": 1.1098919844988622, "train/policy_randomness_mag": 0.9691422771323811, "train/policy_randomness_max": 0.9691422771323811, "train/policy_randomness_mean": 0.17687826084368158, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.25211147918845667, "train/post_ent_mag": 55.81593704223633, "train/post_ent_max": 55.81593704223633, "train/post_ent_mean": 39.85808771306818, "train/post_ent_min": 19.499204910162725, "train/post_ent_std": 5.853241118517789, "train/prior_ent_mag": 76.7594380234227, "train/prior_ent_max": 76.7594380234227, "train/prior_ent_mean": 45.699578603108726, "train/prior_ent_min": 27.4311986692024, "train/prior_ent_std": 8.120044636003898, "train/rep_loss_mean": 5.907906749031761, "train/rep_loss_std": 9.055989467736447, "train/reward_avg": 0.0509514081658739, "train/reward_loss_mean": 0.06587883305143226, "train/reward_loss_std": 0.2266438106695811, "train/reward_max_data": 1.0257575818986604, "train/reward_max_pred": 1.0239748882524895, "train/reward_neg_acc": 0.9921889521858909, "train/reward_neg_loss": 0.02823084772028255, "train/reward_pos_acc": 0.9935032273783828, "train/reward_pos_loss": 0.7084046277132902, "train/reward_pred": 0.05092450584087408, "train/reward_rate": 0.05544211647727273, "stats/sum_log_reward": 12.900000381469727, "stats/max_log_achievement_collect_coal": 0.8, "stats/max_log_achievement_collect_drink": 6.2, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.2, "stats/max_log_achievement_collect_stone": 15.8, "stats/max_log_achievement_collect_wood": 13.4, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.8, "stats/max_log_achievement_eat_cow": 0.6, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.2, "stats/max_log_achievement_place_plant": 2.2, "stats/max_log_achievement_place_stone": 4.0, "stats/max_log_achievement_place_table": 3.8, "stats/max_log_achievement_wake_up": 1.4, "stats/mean_log_entropy": 0.6410930216312408, "replay/size": 1000000.0, "replay/inserts": 1320.0, "replay/samples": 10560.0, "replay/insert_wait_avg": 3.631367827906753e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3290932684233693e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.37604427337646, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02970123291015625, "timer/logger.write_frac": 9.888016530081453e-05, "timer/logger.write_avg": 0.02970123291015625, "timer/logger.write_min": 0.02970123291015625, "timer/logger.write_max": 0.02970123291015625, "timer/replay.add_count": 1320.0, "timer/replay.add_total": 0.2753174304962158, "timer/replay.add_frac": 0.0009165758579790256, "timer/replay.add_avg": 0.0002085738109819817, "timer/replay.add_min": 8.678436279296875e-05, "timer/replay.add_max": 0.005234241485595703, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1320.0, "timer/env.step_total": 15.208606243133545, "timer/env.step_frac": 0.05063188803862128, "timer/env.step_avg": 0.011521671396313292, "timer/env.step_min": 0.0028765201568603516, "timer/env.step_max": 1.6864585876464844, "timer/agent.policy_count": 1320.0, "timer/agent.policy_total": 9.81318736076355, "timer/agent.policy_frac": 0.03266967372348918, "timer/agent.policy_avg": 0.007434232849063295, "timer/agent.policy_min": 0.005660295486450195, "timer/agent.policy_max": 0.023975849151611328, "timer/dataset_count": 660.0, "timer/dataset_total": 0.05451512336730957, "timer/dataset_frac": 0.00018148958416169364, "timer/dataset_avg": 8.259867176865086e-05, "timer/dataset_min": 6.246566772460938e-05, "timer/dataset_max": 0.0001926422119140625, "timer/agent.train_count": 660.0, "timer/agent.train_total": 274.29386854171753, "timer/agent.train_frac": 0.9131682561611965, "timer/agent.train_avg": 0.41559677051775384, "timer/agent.train_min": 0.3677859306335449, "timer/agent.train_max": 0.4530479907989502, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2636880874633789, "timer/agent.report_frac": 0.0008778599109035229, "timer/agent.report_avg": 0.2636880874633789, "timer/agent.report_min": 0.2636880874633789, "timer/agent.report_max": 0.2636880874633789, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.3944069944870865}
{"step": 1270837, "episode/length": 275.0, "episode/score": 16.099999986588955, "episode/sum_abs_reward": 18.700000025331974, "episode/reward_rate": 0.06159420289855073}
{"step": 1271021, "episode/length": 183.0, "episode/score": 16.100000023841858, "episode/sum_abs_reward": 18.300000056624413, "episode/reward_rate": 0.09239130434782608}
{"step": 1271273, "episode/length": 251.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.05952380952380952}
{"step": 1271318, "episode/length": 44.0, "episode/score": 1.099999986588955, "episode/sum_abs_reward": 3.1000000163912773, "episode/reward_rate": 0.044444444444444446}
{"step": 1271683, "episode/length": 364.0, "episode/score": 15.099999979138374, "episode/sum_abs_reward": 19.10000005364418, "episode/reward_rate": 0.043835616438356165}
{"step": 1271914, "episode/length": 230.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 16.30000003427267, "episode/reward_rate": 0.06060606060606061}
{"step": 1272017, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.474859149639423, "train/action_min": 0.0, "train/action_std": 3.354847684273353, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.036051912204577374, "train/actor_opt_grad_steps": 635130.0, "train/actor_opt_loss": -12.860811105141273, "train/adv_mag": 0.43160200119018555, "train/adv_max": 0.3244172398860638, "train/adv_mean": 0.0011875205583587209, "train/adv_min": -0.3933202848984645, "train/adv_std": 0.040346091871078196, "train/cont_avg": 0.9951622596153846, "train/cont_loss_mean": 5.4926067540988626e-05, "train/cont_loss_std": 0.001685965894215367, "train/cont_neg_acc": 0.9961538461538462, "train/cont_neg_loss": 0.012049351614433077, "train/cont_pos_acc": 0.9999999825771039, "train/cont_pos_loss": 7.67205861419685e-06, "train/cont_pred": 0.9951697560457083, "train/cont_rate": 0.9951622596153846, "train/dyn_loss_mean": 5.891242636167086, "train/dyn_loss_std": 9.060789453066313, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8580652081049406, "train/extr_critic_critic_opt_grad_steps": 635130.0, "train/extr_critic_critic_opt_loss": 14882.968810096154, "train/extr_critic_mag": 12.727349897531363, "train/extr_critic_max": 12.727349897531363, "train/extr_critic_mean": 3.8572160464066725, "train/extr_critic_min": -0.3554725463573749, "train/extr_critic_std": 3.0844415261195257, "train/extr_return_normed_mag": 1.3803795099258422, "train/extr_return_normed_max": 1.3803795099258422, "train/extr_return_normed_mean": 0.40244136865322405, "train/extr_return_normed_min": -0.06883918084204196, "train/extr_return_normed_std": 0.3180615723133087, "train/extr_return_rate": 0.8388882618684035, "train/extr_return_raw_mag": 13.41676524235652, "train/extr_return_raw_max": 13.41676524235652, "train/extr_return_raw_mean": 3.868808210813082, "train/extr_return_raw_min": -0.7321804275879493, "train/extr_return_raw_std": 3.1055267003866343, "train/extr_reward_mag": 1.0902447847219614, "train/extr_reward_max": 1.0902447847219614, "train/extr_reward_mean": 0.06594308666311778, "train/extr_reward_min": -0.6372440209755531, "train/extr_reward_std": 0.2459508451131674, "train/image_loss_mean": 3.6072738537421594, "train/image_loss_std": 8.870548622424787, "train/model_loss_mean": 7.210311838296744, "train/model_loss_std": 13.05918037707989, "train/model_opt_grad_norm": 18.222660182072566, "train/model_opt_grad_steps": 634607.0, "train/model_opt_loss": 10844.76328125, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1480.7692307692307, "train/policy_entropy_mag": 2.7180660614600547, "train/policy_entropy_max": 2.7180660614600547, "train/policy_entropy_mean": 0.4605061457707332, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6712597145484044, "train/policy_logprob_mag": 7.4383842688340405, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4586665197060658, "train/policy_logprob_min": -7.4383842688340405, "train/policy_logprob_std": 1.0732853238399211, "train/policy_randomness_mag": 0.959358038352086, "train/policy_randomness_max": 0.959358038352086, "train/policy_randomness_mean": 0.16253846276264924, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23692521957250742, "train/post_ent_mag": 55.13074223445012, "train/post_ent_max": 55.13074223445012, "train/post_ent_mean": 39.69977575448843, "train/post_ent_min": 19.443092346191406, "train/post_ent_std": 5.753659864572378, "train/prior_ent_mag": 76.82982670710636, "train/prior_ent_max": 76.82982670710636, "train/prior_ent_mean": 45.5717656649076, "train/prior_ent_min": 27.430306185208835, "train/prior_ent_std": 8.022085424569937, "train/rep_loss_mean": 5.891242636167086, "train/rep_loss_std": 9.060789453066313, "train/reward_avg": 0.05406850946064179, "train/reward_loss_mean": 0.06823760912968563, "train/reward_loss_std": 0.23961981099385482, "train/reward_max_data": 1.0400000095367432, "train/reward_max_pred": 1.0388605411236103, "train/reward_neg_acc": 0.991924339074355, "train/reward_neg_loss": 0.027640006175407995, "train/reward_pos_acc": 0.9896116770230807, "train/reward_pos_loss": 0.723254447716933, "train/reward_pred": 0.05369491806397071, "train/reward_rate": 0.0583984375, "stats/sum_log_reward": 12.599999984105429, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 2.3333333333333335, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 13.666666666666666, "stats/max_log_achievement_collect_wood": 13.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.3333333333333333, "stats/max_log_achievement_defeat_zombie": 2.3333333333333335, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_stone_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_stone_sword": 1.1666666666666667, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.3333333333333333, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 3.6666666666666665, "stats/max_log_achievement_place_table": 4.333333333333333, "stats/max_log_achievement_wake_up": 1.6666666666666667, "stats/mean_log_entropy": 0.5599846777816614, "replay/size": 1000000.0, "replay/inserts": 1310.0, "replay/samples": 10480.0, "replay/insert_wait_avg": 3.6401603058094287e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3776862894305747e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0358974933624, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030753135681152344, "timer/logger.write_frac": 0.00010249818751048841, "timer/logger.write_avg": 0.030753135681152344, "timer/logger.write_min": 0.030753135681152344, "timer/logger.write_max": 0.030753135681152344, "timer/replay.add_count": 1310.0, "timer/replay.add_total": 0.2576141357421875, "timer/replay.add_frac": 0.0008586110458595595, "timer/replay.add_avg": 0.00019665201201693702, "timer/replay.add_min": 8.702278137207031e-05, "timer/replay.add_max": 0.000885009765625, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1310.0, "timer/env.step_total": 17.145754098892212, "timer/env.step_frac": 0.05714567570792598, "timer/env.step_avg": 0.013088361907551306, "timer/env.step_min": 0.0030562877655029297, "timer/env.step_max": 1.651954174041748, "timer/agent.policy_count": 1310.0, "timer/agent.policy_total": 9.706656455993652, "timer/agent.policy_frac": 0.03235165037613004, "timer/agent.policy_avg": 0.007409661416789047, "timer/agent.policy_min": 0.0056307315826416016, "timer/agent.policy_max": 0.015033721923828125, "timer/dataset_count": 655.0, "timer/dataset_total": 0.05384540557861328, "timer/dataset_frac": 0.00017946321099729235, "timer/dataset_avg": 8.220672607421875e-05, "timer/dataset_min": 6.413459777832031e-05, "timer/dataset_max": 0.00013875961303710938, "timer/agent.train_count": 655.0, "timer/agent.train_total": 272.1530692577362, "timer/agent.train_frac": 0.9070683592577683, "timer/agent.train_avg": 0.4155008690957805, "timer/agent.train_min": 0.3739337921142578, "timer/agent.train_max": 0.45105814933776855, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.25899815559387207, "timer/agent.report_frac": 0.0008632238933996282, "timer/agent.report_avg": 0.25899815559387207, "timer/agent.report_min": 0.25899815559387207, "timer/agent.report_max": 0.25899815559387207, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.36606009825238}
{"step": 1272140, "episode/length": 225.0, "episode/score": 10.099999994039536, "episode/sum_abs_reward": 12.700000017881393, "episode/reward_rate": 0.05309734513274336}
{"step": 1272291, "episode/length": 150.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.07947019867549669}
{"step": 1272562, "episode/length": 270.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.055350553505535055}
{"step": 1272727, "episode/length": 164.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.700000025331974, "episode/reward_rate": 0.05454545454545454}
{"step": 1272933, "episode/length": 205.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.05825242718446602}
{"step": 1273136, "episode/length": 202.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.700000040233135, "episode/reward_rate": 0.07389162561576355}
{"step": 1273307, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4914137620192305, "train/action_min": 0.0, "train/action_std": 3.374696489480826, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0349563367664814, "train/actor_opt_grad_steps": 635780.0, "train/actor_opt_loss": -13.046062212723951, "train/adv_mag": 0.38367533683776855, "train/adv_max": 0.3080281654229531, "train/adv_mean": 0.0010357169947663072, "train/adv_min": -0.33848642454697536, "train/adv_std": 0.039158809930086136, "train/cont_avg": 0.994921875, "train/cont_loss_mean": 2.1701072950664777e-05, "train/cont_loss_std": 0.0006497222144658438, "train/cont_neg_acc": 0.9980769230769231, "train/cont_neg_loss": 0.0019524371221229066, "train/cont_pos_acc": 0.9999999779921311, "train/cont_pos_loss": 7.641328821141367e-06, "train/cont_pred": 0.9949248781571022, "train/cont_rate": 0.994921875, "train/dyn_loss_mean": 5.877828377943772, "train/dyn_loss_std": 9.053567387507512, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8426264056792626, "train/extr_critic_critic_opt_grad_steps": 635780.0, "train/extr_critic_critic_opt_loss": 14941.211853966346, "train/extr_critic_mag": 12.722599807152381, "train/extr_critic_max": 12.722599807152381, "train/extr_critic_mean": 3.670401129355797, "train/extr_critic_min": -0.3688055570308979, "train/extr_critic_std": 3.101468482384315, "train/extr_return_normed_mag": 1.3690357483350313, "train/extr_return_normed_max": 1.3690357483350313, "train/extr_return_normed_mean": 0.382268613576889, "train/extr_return_normed_min": -0.06965737841450251, "train/extr_return_normed_std": 0.3193151437319242, "train/extr_return_rate": 0.81795176084225, "train/extr_return_raw_mag": 13.335663590064415, "train/extr_return_raw_max": 13.335663590064415, "train/extr_return_raw_mean": 3.6805351367363563, "train/extr_return_raw_min": -0.7419067061864413, "train/extr_return_raw_std": 3.1246063195742093, "train/extr_reward_mag": 1.0847976757929876, "train/extr_reward_max": 1.0847976757929876, "train/extr_reward_mean": 0.06182523908523413, "train/extr_reward_min": -0.6072753209334153, "train/extr_reward_std": 0.23928768841119913, "train/image_loss_mean": 3.6873307998363787, "train/image_loss_std": 9.035106262793908, "train/model_loss_mean": 7.280672432826115, "train/model_loss_std": 13.182162050100473, "train/model_opt_grad_norm": 19.758400975740873, "train/model_opt_grad_steps": 635257.0, "train/model_opt_loss": 18201.681084735577, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7405450894282413, "train/policy_entropy_max": 2.7405450894282413, "train/policy_entropy_mean": 0.49101239167726957, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7079934642865108, "train/policy_logprob_mag": 7.438384224818303, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.49254278678160446, "train/policy_logprob_min": -7.438384224818303, "train/policy_logprob_std": 1.1065385974370516, "train/policy_randomness_mag": 0.967292151084313, "train/policy_randomness_max": 0.967292151084313, "train/policy_randomness_mean": 0.17330582623298352, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24989062341359947, "train/post_ent_mag": 55.2979979294997, "train/post_ent_max": 55.2979979294997, "train/post_ent_mean": 39.90373012836163, "train/post_ent_min": 19.957972908020018, "train/post_ent_std": 5.817048755058876, "train/prior_ent_mag": 76.8489737877479, "train/prior_ent_max": 76.8489737877479, "train/prior_ent_mean": 45.75401857816256, "train/prior_ent_min": 27.182476513202374, "train/prior_ent_std": 8.10417486337515, "train/rep_loss_mean": 5.877828377943772, "train/rep_loss_std": 9.053567387507512, "train/reward_avg": 0.05239182633276169, "train/reward_loss_mean": 0.06662298842118336, "train/reward_loss_std": 0.23117367625236512, "train/reward_max_data": 1.0323077000104464, "train/reward_max_pred": 1.032851424584022, "train/reward_neg_acc": 0.9924422713426443, "train/reward_neg_loss": 0.027502587752846572, "train/reward_pos_acc": 0.9907807487707871, "train/reward_pos_loss": 0.716006062580989, "train/reward_pred": 0.05195637121796608, "train/reward_rate": 0.056790865384615384, "stats/sum_log_reward": 11.43333371480306, "stats/max_log_achievement_collect_coal": 1.3333333333333333, "stats/max_log_achievement_collect_drink": 3.3333333333333335, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 12.0, "stats/max_log_achievement_collect_wood": 11.166666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.3333333333333333, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 3.6666666666666665, "stats/max_log_achievement_place_table": 2.6666666666666665, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.40849529206752777, "replay/size": 1000000.0, "replay/inserts": 1290.0, "replay/samples": 10320.0, "replay/insert_wait_avg": 3.6925308464109436e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3262957565544188e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.13299894332886, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026267290115356445, "timer/logger.write_frac": 8.751883400970594e-05, "timer/logger.write_avg": 0.026267290115356445, "timer/logger.write_min": 0.026267290115356445, "timer/logger.write_max": 0.026267290115356445, "timer/replay.add_count": 1290.0, "timer/replay.add_total": 0.2804732322692871, "timer/replay.add_frac": 0.0009344964840811992, "timer/replay.add_avg": 0.00021742111028626908, "timer/replay.add_min": 8.559226989746094e-05, "timer/replay.add_max": 0.0011005401611328125, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1290.0, "timer/env.step_total": 17.18092632293701, "timer/env.step_frac": 0.05724437627127138, "timer/env.step_avg": 0.013318547537160474, "timer/env.step_min": 0.0029611587524414062, "timer/env.step_max": 1.7090857028961182, "timer/agent.policy_count": 1290.0, "timer/agent.policy_total": 13.990855693817139, "timer/agent.policy_frac": 0.04661551959656023, "timer/agent.policy_avg": 0.010845624568850494, "timer/agent.policy_min": 0.005773067474365234, "timer/agent.policy_max": 3.250514268875122, "timer/dataset_count": 645.0, "timer/dataset_total": 0.05330944061279297, "timer/dataset_frac": 0.00017761939140473808, "timer/dataset_avg": 8.265029552371003e-05, "timer/dataset_min": 6.365776062011719e-05, "timer/dataset_max": 0.00015854835510253906, "timer/agent.train_count": 645.0, "timer/agent.train_total": 267.9400088787079, "timer/agent.train_frac": 0.89273758574378, "timer/agent.train_avg": 0.41541086647861686, "timer/agent.train_min": 0.36617588996887207, "timer/agent.train_max": 0.45630764961242676, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2295856475830078, "timer/agent.report_frac": 0.0007649463684143515, "timer/agent.report_avg": 0.2295856475830078, "timer/agent.report_min": 0.2295856475830078, "timer/agent.report_max": 0.2295856475830078, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0001709461212158203, "timer/checkpoint.save_frac": 5.695678976242741e-07, "timer/checkpoint.save_avg": 0.0001709461212158203, "timer/checkpoint.save_min": 0.0001709461212158203, "timer/checkpoint.save_max": 0.0001709461212158203, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1757590770721436, "timer/agent.save_frac": 0.003917460196684839, "timer/agent.save_avg": 1.1757590770721436, "timer/agent.save_min": 1.1757590770721436, "timer/agent.save_max": 1.1757590770721436, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.0001163482666015625, "timer/replay.save_frac": 3.876556960120583e-07, "timer/replay.save_avg": 0.0001163482666015625, "timer/replay.save_min": 0.0001163482666015625, "timer/replay.save_max": 0.0001163482666015625, "fps": 4.2980305605138405}
{"step": 1273425, "episode/length": 288.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.04844290657439446}
{"step": 1273651, "episode/length": 225.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 11.300000011920929, "episode/reward_rate": 0.048672566371681415}
{"step": 1273869, "episode/length": 217.0, "episode/score": 9.099999994039536, "episode/sum_abs_reward": 11.300000011920929, "episode/reward_rate": 0.05045871559633028}
{"step": 1274143, "episode/length": 273.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.040145985401459854}
{"step": 1274509, "episode/length": 365.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.040983606557377046}
{"step": 1274627, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.540225867069129, "train/action_min": 0.0, "train/action_std": 3.394219514095422, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03599642392135027, "train/actor_opt_grad_steps": 636435.0, "train/actor_opt_loss": -11.870333571325649, "train/adv_mag": 0.39529573465838574, "train/adv_max": 0.32835350569450494, "train/adv_mean": 0.001315751294565747, "train/adv_min": -0.3654156543991782, "train/adv_std": 0.04051234827122905, "train/cont_avg": 0.9949988162878788, "train/cont_loss_mean": 9.684319240351029e-05, "train/cont_loss_std": 0.002992406090684384, "train/cont_neg_acc": 0.9950757577563777, "train/cont_neg_loss": 0.012007844961048285, "train/cont_pos_acc": 0.999999980131785, "train/cont_pos_loss": 1.5251988417792695e-05, "train/cont_pred": 0.9950170309254618, "train/cont_rate": 0.9949988162878788, "train/dyn_loss_mean": 5.844157616297404, "train/dyn_loss_std": 9.001264225352894, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8352379229935732, "train/extr_critic_critic_opt_grad_steps": 636435.0, "train/extr_critic_critic_opt_loss": 14939.416755445076, "train/extr_critic_mag": 12.762339823173754, "train/extr_critic_max": 12.762339823173754, "train/extr_critic_mean": 3.7418911348689687, "train/extr_critic_min": -0.35326342510454584, "train/extr_critic_std": 3.0895396543271616, "train/extr_return_normed_mag": 1.379638955448613, "train/extr_return_normed_max": 1.379638955448613, "train/extr_return_normed_mean": 0.3922165036201477, "train/extr_return_normed_min": -0.062185122462158855, "train/extr_return_normed_std": 0.31928171894767066, "train/extr_return_rate": 0.8306897562561613, "train/extr_return_raw_mag": 13.378947561437434, "train/extr_return_raw_max": 13.378947561437434, "train/extr_return_raw_mean": 3.7547146515412764, "train/extr_return_raw_min": -0.6747578025767298, "train/extr_return_raw_std": 3.1121973052169336, "train/extr_reward_mag": 1.0831645980025784, "train/extr_reward_max": 1.0831645980025784, "train/extr_reward_mean": 0.06453498334369877, "train/extr_reward_min": -0.6206038576183897, "train/extr_reward_std": 0.24347754500129007, "train/image_loss_mean": 3.518207640358896, "train/image_loss_std": 8.709894303119544, "train/model_loss_mean": 7.093444239009511, "train/model_loss_std": 12.862544045303807, "train/model_opt_grad_norm": 20.023676120873652, "train/model_opt_grad_steps": 635911.5151515151, "train/model_opt_loss": 20546.052689985794, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2916.6666666666665, "train/policy_entropy_mag": 2.720422546068827, "train/policy_entropy_max": 2.720422546068827, "train/policy_entropy_mean": 0.47512416451266315, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6935762663682302, "train/policy_logprob_mag": 7.438384236711444, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4751693114186778, "train/policy_logprob_min": -7.438384236711444, "train/policy_logprob_std": 1.0922257457718705, "train/policy_randomness_mag": 0.9601897795995077, "train/policy_randomness_max": 0.9601897795995077, "train/policy_randomness_mean": 0.16769797998395833, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24480198346304172, "train/post_ent_mag": 54.93203550396544, "train/post_ent_max": 54.93203550396544, "train/post_ent_mean": 39.64921812577681, "train/post_ent_min": 19.351400115273215, "train/post_ent_std": 5.738079446734804, "train/prior_ent_mag": 76.7456343679717, "train/prior_ent_max": 76.7456343679717, "train/prior_ent_mean": 45.49046770731608, "train/prior_ent_min": 27.735819643194024, "train/prior_ent_std": 7.981703505371556, "train/rep_loss_mean": 5.844157616297404, "train/rep_loss_std": 9.001264225352894, "train/reward_avg": 0.05410452141906276, "train/reward_loss_mean": 0.06864519744659915, "train/reward_loss_std": 0.23588184560790207, "train/reward_max_data": 1.034848493157011, "train/reward_max_pred": 1.0322349468866985, "train/reward_neg_acc": 0.991929829120636, "train/reward_neg_loss": 0.027851964205955013, "train/reward_pos_acc": 0.9884034991264343, "train/reward_pos_loss": 0.7262860094055985, "train/reward_pred": 0.053551048040390015, "train/reward_rate": 0.05860854640151515, "stats/sum_log_reward": 11.100000190734864, "stats/max_log_achievement_collect_coal": 0.2, "stats/max_log_achievement_collect_drink": 6.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.2, "stats/max_log_achievement_collect_stone": 8.6, "stats/max_log_achievement_collect_wood": 14.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.8, "stats/max_log_achievement_make_stone_pickaxe": 0.6, "stats/max_log_achievement_make_stone_sword": 1.4, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.6, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.2, "stats/max_log_achievement_place_stone": 1.6, "stats/max_log_achievement_place_table": 4.0, "stats/max_log_achievement_wake_up": 1.4, "stats/mean_log_entropy": 0.6556233286857605, "replay/size": 1000000.0, "replay/inserts": 1320.0, "replay/samples": 10560.0, "replay/insert_wait_avg": 3.633715889670632e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.358240842819214e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3738434314728, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03054356575012207, "timer/logger.write_frac": 0.00010168517138906695, "timer/logger.write_avg": 0.03054356575012207, "timer/logger.write_min": 0.03054356575012207, "timer/logger.write_max": 0.03054356575012207, "timer/replay.add_count": 1320.0, "timer/replay.add_total": 0.26323556900024414, "timer/replay.add_frac": 0.0008763598254529731, "timer/replay.add_avg": 0.00019942088560624555, "timer/replay.add_min": 8.869171142578125e-05, "timer/replay.add_max": 0.0012018680572509766, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1320.0, "timer/env.step_total": 15.341756105422974, "timer/env.step_frac": 0.051075539501571274, "timer/env.step_avg": 0.011622542504108314, "timer/env.step_min": 0.002894163131713867, "timer/env.step_max": 1.6375031471252441, "timer/agent.policy_count": 1320.0, "timer/agent.policy_total": 9.775949954986572, "timer/agent.policy_frac": 0.03254594289338264, "timer/agent.policy_avg": 0.007406022693171646, "timer/agent.policy_min": 0.00565791130065918, "timer/agent.policy_max": 0.017688274383544922, "timer/dataset_count": 660.0, "timer/dataset_total": 0.05344414710998535, "timer/dataset_frac": 0.00017792543618125686, "timer/dataset_avg": 8.097598046967477e-05, "timer/dataset_min": 6.365776062011719e-05, "timer/dataset_max": 0.000152587890625, "timer/agent.train_count": 660.0, "timer/agent.train_total": 274.257696390152, "timer/agent.train_frac": 0.9130545231802817, "timer/agent.train_avg": 0.415541964227503, "timer/agent.train_min": 0.37300992012023926, "timer/agent.train_max": 0.44934844970703125, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2192847728729248, "timer/agent.report_frac": 0.000730039507993819, "timer/agent.report_avg": 0.2192847728729248, "timer/agent.report_min": 0.2192847728729248, "timer/agent.report_max": 0.2192847728729248, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.394453471534416}
{"step": 1274751, "episode/length": 241.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 17.30000003427267, "episode/reward_rate": 0.06611570247933884}
{"step": 1275012, "episode/length": 260.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.04597701149425287}
{"step": 1275336, "episode/length": 323.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.046296296296296294}
{"step": 1275645, "episode/length": 308.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.900000050663948, "episode/reward_rate": 0.045307443365695796}
{"step": 1275865, "episode/length": 219.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 16.700000062584877, "episode/reward_rate": 0.06363636363636363}
{"step": 1275945, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.45474150686553, "train/action_min": 0.0, "train/action_std": 3.3370502934311377, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.036249986341731114, "train/actor_opt_grad_steps": 637095.0, "train/actor_opt_loss": -10.67780281016321, "train/adv_mag": 0.40406616167588666, "train/adv_max": 0.3209600380875848, "train/adv_mean": 0.0018894264369120003, "train/adv_min": -0.373121770493912, "train/adv_std": 0.04124978670116627, "train/cont_avg": 0.9951615767045454, "train/cont_loss_mean": 0.00013419568091572472, "train/cont_loss_std": 0.0042675446933374715, "train/cont_neg_acc": 0.9969696971503171, "train/cont_neg_loss": 0.003126209774476721, "train/cont_pos_acc": 0.9999851439938401, "train/cont_pos_loss": 0.00011902657016131734, "train/cont_pred": 0.9951516091823578, "train/cont_rate": 0.9951615767045454, "train/dyn_loss_mean": 5.952714089191321, "train/dyn_loss_std": 9.078042088132916, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8478552753275092, "train/extr_critic_critic_opt_grad_steps": 637095.0, "train/extr_critic_critic_opt_loss": 14947.710700757576, "train/extr_critic_mag": 12.63946078040383, "train/extr_critic_max": 12.63946078040383, "train/extr_critic_mean": 3.7080446156588467, "train/extr_critic_min": -0.31890797434431134, "train/extr_critic_std": 2.998385360746673, "train/extr_return_normed_mag": 1.39676624175274, "train/extr_return_normed_max": 1.39676624175274, "train/extr_return_normed_mean": 0.3927112831310792, "train/extr_return_normed_min": -0.06272482987719052, "train/extr_return_normed_std": 0.3155932119398406, "train/extr_return_rate": 0.8429165130311792, "train/extr_return_raw_mag": 13.35630395195701, "train/extr_return_raw_max": 13.35630395195701, "train/extr_return_raw_mean": 3.726176193266204, "train/extr_return_raw_min": -0.6412732799847921, "train/extr_return_raw_std": 3.0268803365302808, "train/extr_reward_mag": 1.0889425097089824, "train/extr_reward_max": 1.0889425097089824, "train/extr_reward_mean": 0.06338721000109658, "train/extr_reward_min": -0.6179619738549897, "train/extr_reward_std": 0.2416567700830373, "train/image_loss_mean": 3.501294721256603, "train/image_loss_std": 8.644388986356331, "train/model_loss_mean": 7.138439792575258, "train/model_loss_std": 12.868274760968758, "train/model_opt_grad_norm": 19.37564140377623, "train/model_opt_grad_steps": 636571.0, "train/model_opt_loss": 17846.09943181818, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7310016371987085, "train/policy_entropy_max": 2.7310016371987085, "train/policy_entropy_mean": 0.4713119024580175, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6852761317383159, "train/policy_logprob_mag": 7.438384251161055, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.47017120773142035, "train/policy_logprob_min": -7.438384251161055, "train/policy_logprob_std": 1.0854090334791127, "train/policy_randomness_mag": 0.9639237324396769, "train/policy_randomness_max": 0.9639237324396769, "train/policy_randomness_mean": 0.166352419239102, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24187240252892175, "train/post_ent_mag": 54.950075380729906, "train/post_ent_max": 54.950075380729906, "train/post_ent_mean": 39.710862419822, "train/post_ent_min": 19.359305757464785, "train/post_ent_std": 5.791511008233735, "train/prior_ent_mag": 76.82484967780836, "train/prior_ent_max": 76.82484967780836, "train/prior_ent_mean": 45.66424855318937, "train/prior_ent_min": 27.379588647322223, "train/prior_ent_std": 8.019197883027973, "train/rep_loss_mean": 5.952714089191321, "train/rep_loss_std": 9.078042088132916, "train/reward_avg": 0.05165127839780215, "train/reward_loss_mean": 0.06538249761091941, "train/reward_loss_std": 0.22496270207744656, "train/reward_max_data": 1.0272727337750522, "train/reward_max_pred": 1.0265337084278916, "train/reward_neg_acc": 0.992398842717662, "train/reward_neg_loss": 0.027113237319457712, "train/reward_pos_acc": 0.9924746119614803, "train/reward_pos_loss": 0.7120632457010674, "train/reward_pred": 0.051556592976505104, "train/reward_rate": 0.055900804924242424, "stats/sum_log_reward": 13.300000381469726, "stats/max_log_achievement_collect_coal": 0.6, "stats/max_log_achievement_collect_drink": 4.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.4, "stats/max_log_achievement_collect_stone": 18.4, "stats/max_log_achievement_collect_wood": 12.4, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.6, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.2, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2, "stats/max_log_achievement_place_furnace": 2.6, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 2.8, "stats/max_log_achievement_place_table": 3.8, "stats/max_log_achievement_wake_up": 1.6, "stats/mean_log_entropy": 0.6851782023906707, "replay/size": 1000000.0, "replay/inserts": 1318.0, "replay/samples": 10544.0, "replay/insert_wait_avg": 3.6513497869233985e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3814439180226536e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1318361759186, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028677940368652344, "timer/logger.write_frac": 9.555114423730485e-05, "timer/logger.write_avg": 0.028677940368652344, "timer/logger.write_min": 0.028677940368652344, "timer/logger.write_max": 0.028677940368652344, "timer/replay.add_count": 1318.0, "timer/replay.add_total": 0.2632725238800049, "timer/replay.add_frac": 0.0008771895951940631, "timer/replay.add_avg": 0.0001997515355690477, "timer/replay.add_min": 8.153915405273438e-05, "timer/replay.add_max": 0.0011394023895263672, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1318.0, "timer/env.step_total": 15.542148351669312, "timer/env.step_frac": 0.05178440431277498, "timer/env.step_avg": 0.011792221814620115, "timer/env.step_min": 0.003063678741455078, "timer/env.step_max": 1.6779298782348633, "timer/agent.policy_count": 1318.0, "timer/agent.policy_total": 9.696461200714111, "timer/agent.policy_frac": 0.032307339748625166, "timer/agent.policy_avg": 0.00735695083513969, "timer/agent.policy_min": 0.005573272705078125, "timer/agent.policy_max": 0.01438283920288086, "timer/dataset_count": 659.0, "timer/dataset_total": 0.0539546012878418, "timer/dataset_frac": 0.00017976967047313492, "timer/dataset_avg": 8.187344656728649e-05, "timer/dataset_min": 6.341934204101562e-05, "timer/dataset_max": 0.0001373291015625, "timer/agent.train_count": 659.0, "timer/agent.train_total": 273.8790957927704, "timer/agent.train_frac": 0.9125293047294041, "timer/agent.train_avg": 0.4155980209298488, "timer/agent.train_min": 0.3653552532196045, "timer/agent.train_max": 0.4524722099304199, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.23459696769714355, "timer/agent.report_frac": 0.0007816463947517965, "timer/agent.report_avg": 0.23459696769714355, "timer/agent.report_min": 0.23459696769714355, "timer/agent.report_max": 0.23459696769714355, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.391317846384584}
{"step": 1275958, "episode/length": 92.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 11.899999976158142, "episode/reward_rate": 0.12903225806451613}
{"step": 1276220, "episode/length": 261.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 15.10000005364418, "episode/reward_rate": 0.04961832061068702}
{"step": 1276408, "episode/length": 187.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.100000016391277, "episode/reward_rate": 0.0851063829787234}
{"step": 1276619, "episode/length": 210.0, "episode/score": 12.100000023841858, "episode/sum_abs_reward": 14.300000056624413, "episode/reward_rate": 0.061611374407582936}
{"step": 1276812, "episode/length": 192.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.07253886010362694}
{"step": 1276997, "episode/length": 184.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.700000002980232, "episode/reward_rate": 0.06486486486486487}
{"step": 1277233, "stats/sum_log_reward": 12.100000381469727, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 1.5, "stats/max_log_achievement_collect_iron": 0.3333333333333333, "stats/max_log_achievement_collect_sapling": 1.1666666666666667, "stats/max_log_achievement_collect_stone": 13.833333333333334, "stats/max_log_achievement_collect_wood": 11.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.8333333333333333, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.6666666666666667, "stats/max_log_achievement_place_furnace": 2.1666666666666665, "stats/max_log_achievement_place_plant": 0.8333333333333334, "stats/max_log_achievement_place_stone": 2.3333333333333335, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.3552596891919772, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.462334632873535, "train/action_min": 0.0, "train/action_std": 3.3213200382888317, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.037174066179431975, "train/actor_opt_grad_steps": 637745.0, "train/actor_opt_loss": -11.18002060893923, "train/adv_mag": 0.4038615566678345, "train/adv_max": 0.3272799807600677, "train/adv_mean": 0.0018992861219970791, "train/adv_min": -0.36434000660665333, "train/adv_std": 0.0414594947360456, "train/cont_avg": 0.99517822265625, "train/cont_loss_mean": 1.022144310636186e-05, "train/cont_loss_std": 0.0003114475607957079, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 3.6709200654801155e-05, "train/cont_pos_acc": 0.9999999785795808, "train/cont_pos_loss": 1.0147155016848597e-05, "train/cont_pred": 0.9951689466834068, "train/cont_rate": 0.99517822265625, "train/dyn_loss_mean": 5.862761080265045, "train/dyn_loss_std": 9.05480907857418, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8579488564282656, "train/extr_critic_critic_opt_grad_steps": 637745.0, "train/extr_critic_critic_opt_loss": 15009.441436767578, "train/extr_critic_mag": 12.70560485124588, "train/extr_critic_max": 12.70560485124588, "train/extr_critic_mean": 3.683965642005205, "train/extr_critic_min": -0.3374414723366499, "train/extr_critic_std": 3.012629345059395, "train/extr_return_normed_mag": 1.3946425151079893, "train/extr_return_normed_max": 1.3946425151079893, "train/extr_return_normed_mean": 0.3897393266670406, "train/extr_return_normed_min": -0.06274409980687778, "train/extr_return_normed_std": 0.31529586086981, "train/extr_return_rate": 0.8362305127084255, "train/extr_return_raw_mag": 13.397849515080452, "train/extr_return_raw_max": 13.397849515080452, "train/extr_return_raw_mean": 3.7022748924791813, "train/extr_return_raw_min": -0.6633396954275668, "train/extr_return_raw_std": 3.0421199947595596, "train/extr_reward_mag": 1.0943376198410988, "train/extr_reward_max": 1.0943376198410988, "train/extr_reward_mean": 0.06326746934792027, "train/extr_reward_min": -0.5990018863230944, "train/extr_reward_std": 0.24112286395393312, "train/image_loss_mean": 3.7728035897016525, "train/image_loss_std": 9.39374953508377, "train/model_loss_mean": 7.356437914073467, "train/model_loss_std": 13.508129730820656, "train/model_opt_grad_norm": 20.40099659562111, "train/model_opt_grad_steps": 637220.25, "train/model_opt_loss": 22393.318450927734, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3046.875, "train/policy_entropy_mag": 2.73959107324481, "train/policy_entropy_max": 2.73959107324481, "train/policy_entropy_mean": 0.4810730000026524, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6974287405610085, "train/policy_logprob_mag": 7.4383842796087265, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.47988917818292975, "train/policy_logprob_min": -7.4383842796087265, "train/policy_logprob_std": 1.0937664238736033, "train/policy_randomness_mag": 0.9669554270803928, "train/policy_randomness_max": 0.9669554270803928, "train/policy_randomness_mean": 0.1697976595023647, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24616173817776144, "train/post_ent_mag": 55.62888866662979, "train/post_ent_max": 55.62888866662979, "train/post_ent_mean": 39.95746958255768, "train/post_ent_min": 20.17094585299492, "train/post_ent_std": 5.848098024725914, "train/prior_ent_mag": 76.88948154449463, "train/prior_ent_max": 76.88948154449463, "train/prior_ent_mean": 45.74482196569443, "train/prior_ent_min": 27.740102887153625, "train/prior_ent_std": 8.062701679766178, "train/rep_loss_mean": 5.862761080265045, "train/rep_loss_std": 9.05480907857418, "train/reward_avg": 0.05180511437356472, "train/reward_loss_mean": 0.06596751557663083, "train/reward_loss_std": 0.23025786271318793, "train/reward_max_data": 1.0453125108033419, "train/reward_max_pred": 1.0437829848378897, "train/reward_neg_acc": 0.9922903999686241, "train/reward_neg_loss": 0.02706692027277313, "train/reward_pos_acc": 0.9898652704432607, "train/reward_pos_loss": 0.723533084616065, "train/reward_pred": 0.05123285111039877, "train/reward_rate": 0.055908203125, "replay/size": 1000000.0, "replay/inserts": 1288.0, "replay/samples": 10304.0, "replay/insert_wait_avg": 3.6590217803575977e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3639421566672947e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.30154371261597, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02503657341003418, "timer/logger.write_frac": 8.337144425069557e-05, "timer/logger.write_avg": 0.02503657341003418, "timer/logger.write_min": 0.02503657341003418, "timer/logger.write_max": 0.02503657341003418, "timer/replay.add_count": 1288.0, "timer/replay.add_total": 0.2694227695465088, "timer/replay.add_frac": 0.000897174107783949, "timer/replay.add_avg": 0.00020917916890256894, "timer/replay.add_min": 8.702278137207031e-05, "timer/replay.add_max": 0.0009860992431640625, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1288.0, "timer/env.step_total": 16.86944270133972, "timer/env.step_frac": 0.05617501159928609, "timer/env.step_avg": 0.013097393401661274, "timer/env.step_min": 0.00310516357421875, "timer/env.step_max": 1.625201940536499, "timer/agent.policy_count": 1288.0, "timer/agent.policy_total": 14.332655906677246, "timer/agent.policy_frac": 0.04772754655032137, "timer/agent.policy_avg": 0.011127838436861217, "timer/agent.policy_min": 0.0056018829345703125, "timer/agent.policy_max": 3.4454569816589355, "timer/dataset_count": 644.0, "timer/dataset_total": 0.05262565612792969, "timer/dataset_frac": 0.00017524270930252575, "timer/dataset_avg": 8.171685734150572e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.00015020370483398438, "timer/agent.train_count": 644.0, "timer/agent.train_total": 268.06830644607544, "timer/agent.train_frac": 0.8926637643348672, "timer/agent.train_avg": 0.4162551342330364, "timer/agent.train_min": 0.3744699954986572, "timer/agent.train_max": 0.45210766792297363, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.26154255867004395, "timer/agent.report_frac": 0.0008709331142178084, "timer/agent.report_avg": 0.26154255867004395, "timer/agent.report_min": 0.26154255867004395, "timer/agent.report_max": 0.26154255867004395, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002493858337402344, "timer/checkpoint.save_frac": 8.304513878186815e-07, "timer/checkpoint.save_avg": 0.0002493858337402344, "timer/checkpoint.save_min": 0.0002493858337402344, "timer/checkpoint.save_max": 0.0002493858337402344, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4239003658294678, "timer/agent.save_frac": 0.004741568585448628, "timer/agent.save_avg": 1.4239003658294678, "timer/agent.save_min": 1.4239003658294678, "timer/agent.save_max": 1.4239003658294678, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.104873657226562e-05, "timer/replay.save_frac": 2.365913131644045e-07, "timer/replay.save_avg": 7.104873657226562e-05, "timer/replay.save_min": 7.104873657226562e-05, "timer/replay.save_max": 7.104873657226562e-05, "fps": 4.288944771047604}
{"step": 1277260, "episode/length": 262.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.045627376425855515}
{"step": 1277471, "episode/length": 210.0, "episode/score": 12.100000023841858, "episode/sum_abs_reward": 15.100000068545341, "episode/reward_rate": 0.061611374407582936}
{"step": 1277743, "episode/length": 271.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.500000044703484, "episode/reward_rate": 0.05514705882352941}
{"step": 1277949, "episode/length": 205.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.06796116504854369}
{"step": 1278095, "episode/length": 145.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.300000041723251, "episode/reward_rate": 0.08904109589041095}
{"step": 1278306, "episode/length": 210.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 12.100000031292439, "episode/reward_rate": 0.04739336492890995}
{"step": 1278498, "episode/length": 191.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.100000016391277, "episode/reward_rate": 0.046875}
{"step": 1278533, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.494624211237981, "train/action_min": 0.0, "train/action_std": 3.3747587827535774, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03677238678702941, "train/actor_opt_grad_steps": 638390.0, "train/actor_opt_loss": -11.052980820032266, "train/adv_mag": 0.38810732914851265, "train/adv_max": 0.3286854269412848, "train/adv_mean": 0.0018207550449591719, "train/adv_min": -0.3500121705807172, "train/adv_std": 0.04145799829409673, "train/cont_avg": 0.9954777644230769, "train/cont_loss_mean": 1.129889625045822e-05, "train/cont_loss_std": 0.00034089665796163725, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0007015507283329239, "train/cont_pos_acc": 0.9999999825771039, "train/cont_pos_loss": 5.9803649199407206e-06, "train/cont_pred": 0.9954765182275038, "train/cont_rate": 0.9954777644230769, "train/dyn_loss_mean": 5.803094284351055, "train/dyn_loss_std": 8.966224699753981, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8584325588666476, "train/extr_critic_critic_opt_grad_steps": 638390.0, "train/extr_critic_critic_opt_loss": 15040.477028245192, "train/extr_critic_mag": 12.835325006338266, "train/extr_critic_max": 12.835325006338266, "train/extr_critic_mean": 3.7275810168339656, "train/extr_critic_min": -0.32961128675020657, "train/extr_critic_std": 2.9834858197432297, "train/extr_return_normed_mag": 1.3983854825680073, "train/extr_return_normed_max": 1.3983854825680073, "train/extr_return_normed_mean": 0.3912400766060902, "train/extr_return_normed_min": -0.06342042375069398, "train/extr_return_normed_std": 0.3106769552597633, "train/extr_return_rate": 0.8448548106046824, "train/extr_return_raw_mag": 13.50569857083834, "train/extr_return_raw_max": 13.50569857083834, "train/extr_return_raw_mean": 3.7452265482682447, "train/extr_return_raw_min": -0.66139605985238, "train/extr_return_raw_std": 3.0111234224759613, "train/extr_reward_mag": 1.086551754291241, "train/extr_reward_max": 1.086551754291241, "train/extr_reward_mean": 0.06584673357697633, "train/extr_reward_min": -0.5715237012276283, "train/extr_reward_std": 0.24514847031006445, "train/image_loss_mean": 3.3964610374890842, "train/image_loss_std": 8.785213338411772, "train/model_loss_mean": 6.944891966306246, "train/model_loss_std": 12.934048770024226, "train/model_opt_grad_norm": 18.71244452549861, "train/model_opt_grad_steps": 637864.9846153846, "train/model_opt_loss": 20388.843509615384, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2961.5384615384614, "train/policy_entropy_mag": 2.739745261118962, "train/policy_entropy_max": 2.739745261118962, "train/policy_entropy_mean": 0.4847150878264354, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7092993374054248, "train/policy_logprob_mag": 7.438384254162128, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4842482777742239, "train/policy_logprob_min": -7.438384254162128, "train/policy_logprob_std": 1.0994483892734235, "train/policy_randomness_mag": 0.967009845146766, "train/policy_randomness_max": 0.967009845146766, "train/policy_randomness_mean": 0.1710831581399991, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.25035153742019944, "train/post_ent_mag": 55.439288271390474, "train/post_ent_max": 55.439288271390474, "train/post_ent_mean": 39.77850652841421, "train/post_ent_min": 19.433280988839957, "train/post_ent_std": 5.781303303058331, "train/prior_ent_mag": 76.73803417499249, "train/prior_ent_max": 76.73803417499249, "train/prior_ent_mean": 45.55115837684045, "train/prior_ent_min": 27.70245980482835, "train/prior_ent_std": 8.003260964613695, "train/rep_loss_mean": 5.803094284351055, "train/rep_loss_std": 8.966224699753981, "train/reward_avg": 0.05291616526933817, "train/reward_loss_mean": 0.0665631203697278, "train/reward_loss_std": 0.2283781512425496, "train/reward_max_data": 1.030769238105187, "train/reward_max_pred": 1.0288891792297363, "train/reward_neg_acc": 0.9923515026385967, "train/reward_neg_loss": 0.02755122484209446, "train/reward_pos_acc": 0.9940516536052411, "train/reward_pos_loss": 0.7102526820622957, "train/reward_pred": 0.05277293977829126, "train/reward_rate": 0.057106370192307694, "stats/sum_log_reward": 11.385714530944824, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 1.7142857142857142, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 9.285714285714286, "stats/max_log_achievement_collect_wood": 14.857142857142858, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 2.7142857142857144, "stats/max_log_achievement_eat_cow": 0.5714285714285714, "stats/max_log_achievement_make_stone_pickaxe": 0.7142857142857143, "stats/max_log_achievement_make_stone_sword": 0.42857142857142855, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.1428571428571428, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 2.4285714285714284, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.32615409578595844, "replay/size": 1000000.0, "replay/inserts": 1300.0, "replay/samples": 10400.0, "replay/insert_wait_avg": 3.68650142963116e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.448645041539119e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 299.97750449180603, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025316715240478516, "timer/logger.write_frac": 8.439537919140883e-05, "timer/logger.write_avg": 0.025316715240478516, "timer/logger.write_min": 0.025316715240478516, "timer/logger.write_max": 0.025316715240478516, "timer/replay.add_count": 1300.0, "timer/replay.add_total": 0.2664158344268799, "timer/replay.add_frac": 0.0008881193770786806, "timer/replay.add_avg": 0.00020493525725144606, "timer/replay.add_min": 8.058547973632812e-05, "timer/replay.add_max": 0.0009806156158447266, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1300.0, "timer/env.step_total": 18.618306159973145, "timer/env.step_frac": 0.062065674529543625, "timer/env.step_avg": 0.014321773969210111, "timer/env.step_min": 0.0030481815338134766, "timer/env.step_max": 1.6593964099884033, "timer/agent.policy_count": 1300.0, "timer/agent.policy_total": 9.630799531936646, "timer/agent.policy_frac": 0.03210507250619426, "timer/agent.policy_avg": 0.0074083073322589585, "timer/agent.policy_min": 0.005637168884277344, "timer/agent.policy_max": 0.015688419342041016, "timer/dataset_count": 650.0, "timer/dataset_total": 0.05348777770996094, "timer/dataset_frac": 0.00017830596264401544, "timer/dataset_avg": 8.22888887845553e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.0001418590545654297, "timer/agent.train_count": 650.0, "timer/agent.train_total": 270.7315402030945, "timer/agent.train_frac": 0.9025061417913408, "timer/agent.train_avg": 0.4165100618509146, "timer/agent.train_min": 0.368558406829834, "timer/agent.train_max": 0.4510021209716797, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21775555610656738, "timer/agent.report_frac": 0.0007259062857912248, "timer/agent.report_avg": 0.21775555610656738, "timer/agent.report_min": 0.21775555610656738, "timer/agent.report_max": 0.21775555610656738, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.3336004424488666}
{"step": 1278704, "episode/length": 205.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.07766990291262135}
{"step": 1278899, "episode/length": 194.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 16.10000006109476, "episode/reward_rate": 0.07179487179487179}
{"step": 1279213, "episode/length": 313.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 11.30000003427267, "episode/reward_rate": 0.028662420382165606}
{"step": 1279420, "episode/length": 206.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.07246376811594203}
{"step": 1279643, "episode/length": 222.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.06278026905829596}
{"step": 1279849, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.472762599135891, "train/action_min": 0.0, "train/action_std": 3.3594916661580405, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03636928382470752, "train/actor_opt_grad_steps": 639045.0, "train/actor_opt_loss": -10.965269036365278, "train/adv_mag": 0.4197472697406104, "train/adv_max": 0.32706729277516855, "train/adv_mean": 0.0020021061938994976, "train/adv_min": -0.38012885031375016, "train/adv_std": 0.041001543402671814, "train/cont_avg": 0.9952947443181818, "train/cont_loss_mean": 0.0001743561536213329, "train/cont_loss_std": 0.005536103563663738, "train/cont_neg_acc": 0.9962121212121212, "train/cont_neg_loss": 0.029872699537830436, "train/cont_pos_acc": 0.9999851096760143, "train/cont_pos_loss": 5.688642632334205e-05, "train/cont_pred": 0.9952826572187019, "train/cont_rate": 0.9952947443181818, "train/dyn_loss_mean": 5.883214184732148, "train/dyn_loss_std": 9.10892593499386, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8440257229588248, "train/extr_critic_critic_opt_grad_steps": 639045.0, "train/extr_critic_critic_opt_loss": 14984.797526041666, "train/extr_critic_mag": 12.64503372076786, "train/extr_critic_max": 12.64503372076786, "train/extr_critic_mean": 3.6363258397940434, "train/extr_critic_min": -0.34061782107208716, "train/extr_critic_std": 2.982928601178256, "train/extr_return_normed_mag": 1.3876222841667407, "train/extr_return_normed_max": 1.3876222841667407, "train/extr_return_normed_mean": 0.383465235431989, "train/extr_return_normed_min": -0.06205216465009884, "train/extr_return_normed_std": 0.31229278309778735, "train/extr_return_rate": 0.8411212166150411, "train/extr_return_raw_mag": 13.353743090774074, "train/extr_return_raw_max": 13.353743090774074, "train/extr_return_raw_mean": 3.6556606979081123, "train/extr_return_raw_min": -0.6465415056004669, "train/extr_return_raw_std": 3.015954205484101, "train/extr_reward_mag": 1.0908302610570735, "train/extr_reward_max": 1.0908302610570735, "train/extr_reward_mean": 0.06336153795321782, "train/extr_reward_min": -0.5513400923122059, "train/extr_reward_std": 0.2417387847195972, "train/image_loss_mean": 3.667079864126263, "train/image_loss_std": 9.376661185062293, "train/model_loss_mean": 7.264118093432802, "train/model_loss_std": 13.550100702227969, "train/model_opt_grad_norm": 19.740463386882436, "train/model_opt_grad_steps": 638519.0, "train/model_opt_loss": 18160.295276988636, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.758406400680542, "train/policy_entropy_max": 2.758406400680542, "train/policy_entropy_mean": 0.4867890070785176, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7091113197984118, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.48717541541113996, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 1.1013393284696522, "train/policy_randomness_mag": 0.9735964094147538, "train/policy_randomness_max": 0.9735964094147538, "train/policy_randomness_mean": 0.17181515614643242, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.25028517616517615, "train/post_ent_mag": 54.91424710822828, "train/post_ent_max": 54.91424710822828, "train/post_ent_mean": 39.58975578076912, "train/post_ent_min": 19.442374475074537, "train/post_ent_std": 5.77316250223102, "train/prior_ent_mag": 76.83287984674627, "train/prior_ent_max": 76.83287984674627, "train/prior_ent_mean": 45.4315185546875, "train/prior_ent_min": 27.143543330105867, "train/prior_ent_std": 8.043704928773822, "train/rep_loss_mean": 5.883214184732148, "train/rep_loss_std": 9.10892593499386, "train/reward_avg": 0.05289861469557791, "train/reward_loss_mean": 0.06693535145710815, "train/reward_loss_std": 0.2319029788627769, "train/reward_max_data": 1.0378787969097947, "train/reward_max_pred": 1.0405059258143108, "train/reward_neg_acc": 0.9922968528487466, "train/reward_neg_loss": 0.027198658268334286, "train/reward_pos_acc": 0.9901221385507872, "train/reward_pos_loss": 0.7220748229460283, "train/reward_pred": 0.052507302864934456, "train/reward_rate": 0.05726207386363636, "stats/sum_log_reward": 12.700000190734864, "stats/max_log_achievement_collect_coal": 0.8, "stats/max_log_achievement_collect_drink": 2.4, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.6, "stats/max_log_achievement_collect_stone": 13.4, "stats/max_log_achievement_collect_wood": 14.6, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.4, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_stone_pickaxe": 1.2, "stats/max_log_achievement_make_stone_sword": 0.8, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.2, "stats/max_log_achievement_place_stone": 2.2, "stats/max_log_achievement_place_table": 3.8, "stats/max_log_achievement_wake_up": 1.6, "stats/mean_log_entropy": 0.47121656239032744, "replay/size": 1000000.0, "replay/inserts": 1316.0, "replay/samples": 10528.0, "replay/insert_wait_avg": 3.575372840858158e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3868044212596394e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.34377694129944, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029116392135620117, "timer/logger.write_frac": 9.694355059439356e-05, "timer/logger.write_avg": 0.029116392135620117, "timer/logger.write_min": 0.029116392135620117, "timer/logger.write_max": 0.029116392135620117, "timer/replay.add_count": 1316.0, "timer/replay.add_total": 0.2651834487915039, "timer/replay.add_frac": 0.0008829330558872627, "timer/replay.add_avg": 0.00020150717993275372, "timer/replay.add_min": 8.416175842285156e-05, "timer/replay.add_max": 0.004884481430053711, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1316.0, "timer/env.step_total": 15.5794198513031, "timer/env.step_frac": 0.051871958227215124, "timer/env.step_avg": 0.01183846493260114, "timer/env.step_min": 0.002851724624633789, "timer/env.step_max": 1.6871764659881592, "timer/agent.policy_count": 1316.0, "timer/agent.policy_total": 9.646271705627441, "timer/agent.policy_frac": 0.03211743490697579, "timer/agent.policy_avg": 0.00732999369728529, "timer/agent.policy_min": 0.005719661712646484, "timer/agent.policy_max": 0.014774322509765625, "timer/dataset_count": 658.0, "timer/dataset_total": 0.05312085151672363, "timer/dataset_frac": 0.00017686682926380663, "timer/dataset_avg": 8.073077738103896e-05, "timer/dataset_min": 6.461143493652344e-05, "timer/dataset_max": 0.00011968612670898438, "timer/agent.train_count": 658.0, "timer/agent.train_total": 274.1271347999573, "timer/agent.train_frac": 0.9127112190958894, "timer/agent.train_avg": 0.41660658784188037, "timer/agent.train_min": 0.37386131286621094, "timer/agent.train_max": 0.4536569118499756, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2171337604522705, "timer/agent.report_frac": 0.0007229507555094379, "timer/agent.report_avg": 0.2171337604522705, "timer/agent.report_min": 0.2171337604522705, "timer/agent.report_max": 0.2171337604522705, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.381584073685112}
{"step": 1280121, "episode/length": 477.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.500000037252903, "episode/reward_rate": 0.03138075313807531}
{"step": 1280338, "episode/length": 216.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.500000037252903, "episode/reward_rate": 0.06912442396313365}
{"step": 1280605, "episode/length": 266.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.04868913857677903}
{"step": 1280896, "episode/length": 290.0, "episode/score": 14.099999971687794, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.054982817869415807}
{"step": 1281135, "episode/length": 238.0, "episode/score": 13.099999994039536, "episode/sum_abs_reward": 15.300000011920929, "episode/reward_rate": 0.06276150627615062}
{"step": 1281147, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.494889009915865, "train/action_min": 0.0, "train/action_std": 3.4171812424292933, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.035504908171983866, "train/actor_opt_grad_steps": 639700.0, "train/actor_opt_loss": -12.09117776797368, "train/adv_mag": 0.4114497789969811, "train/adv_max": 0.3047296097645393, "train/adv_mean": 0.0017113881779340983, "train/adv_min": -0.3874589807712115, "train/adv_std": 0.040266191558195996, "train/cont_avg": 0.9955679086538461, "train/cont_loss_mean": 9.570811129501285e-05, "train/cont_loss_std": 0.0030280779072960774, "train/cont_neg_acc": 0.9961538461538462, "train/cont_neg_loss": 0.007992907501047163, "train/cont_pos_acc": 0.9999849108549265, "train/cont_pos_loss": 6.464095268020524e-05, "train/cont_pred": 0.995561040364779, "train/cont_rate": 0.9955679086538461, "train/dyn_loss_mean": 5.7587926424466644, "train/dyn_loss_std": 9.03306334568904, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8763544183511001, "train/extr_critic_critic_opt_grad_steps": 639700.0, "train/extr_critic_critic_opt_loss": 14927.124368990384, "train/extr_critic_mag": 12.706546313946063, "train/extr_critic_max": 12.706546313946063, "train/extr_critic_mean": 3.613932884656466, "train/extr_critic_min": -0.34003909734579235, "train/extr_critic_std": 2.958503007888794, "train/extr_return_normed_mag": 1.3938105198053212, "train/extr_return_normed_max": 1.3938105198053212, "train/extr_return_normed_mean": 0.3822481682667365, "train/extr_return_normed_min": -0.06741577048714344, "train/extr_return_normed_std": 0.308840648486064, "train/extr_return_rate": 0.8361759222470797, "train/extr_return_raw_mag": 13.399801782461314, "train/extr_return_raw_max": 13.399801782461314, "train/extr_return_raw_mean": 3.6304514151353104, "train/extr_return_raw_min": -0.7126720740244938, "train/extr_return_raw_std": 2.9829221358666054, "train/extr_reward_mag": 1.087937171642597, "train/extr_reward_max": 1.087937171642597, "train/extr_reward_mean": 0.06297150059388235, "train/extr_reward_min": -0.6217402403171246, "train/extr_reward_std": 0.24079692363739014, "train/image_loss_mean": 3.479530198757465, "train/image_loss_std": 9.070996137765738, "train/model_loss_mean": 6.999888023963341, "train/model_loss_std": 13.222709362323467, "train/model_opt_grad_norm": 18.70961397611178, "train/model_opt_grad_steps": 639173.8307692307, "train/model_opt_loss": 23106.18137019231, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3307.6923076923076, "train/policy_entropy_mag": 2.756653330876277, "train/policy_entropy_max": 2.756653330876277, "train/policy_entropy_mean": 0.49736166848586155, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7228604325881371, "train/policy_logprob_mag": 7.438384246826172, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4980915197959313, "train/policy_logprob_min": -7.438384246826172, "train/policy_logprob_std": 1.1076235010073736, "train/policy_randomness_mag": 0.972977655667525, "train/policy_randomness_max": 0.972977655667525, "train/policy_randomness_mean": 0.1755468452206025, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2551380116205949, "train/post_ent_mag": 54.55430872990535, "train/post_ent_max": 54.55430872990535, "train/post_ent_mean": 39.666377258300784, "train/post_ent_min": 19.661357659559982, "train/post_ent_std": 5.732142485105074, "train/prior_ent_mag": 76.88238595815805, "train/prior_ent_max": 76.88238595815805, "train/prior_ent_mean": 45.38986528836764, "train/prior_ent_min": 27.369698451115536, "train/prior_ent_std": 7.973505210876465, "train/rep_loss_mean": 5.7587926424466644, "train/rep_loss_std": 9.03306334568904, "train/reward_avg": 0.051868990178291614, "train/reward_loss_mean": 0.06498660508256693, "train/reward_loss_std": 0.22610458594102126, "train/reward_max_data": 1.0353846238209652, "train/reward_max_pred": 1.0323131671318642, "train/reward_neg_acc": 0.9917212908084576, "train/reward_neg_loss": 0.025799598831396837, "train/reward_pos_acc": 0.98936935204726, "train/reward_pos_loss": 0.7264977941146263, "train/reward_pred": 0.05138814242986532, "train/reward_rate": 0.05600961538461539, "stats/sum_log_reward": 13.500000190734863, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 4.4, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 17.4, "stats/max_log_achievement_collect_wood": 14.4, "stats/max_log_achievement_defeat_skeleton": 0.2, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_stone_pickaxe": 1.2, "stats/max_log_achievement_make_stone_sword": 1.2, "stats/max_log_achievement_make_wood_pickaxe": 1.2, "stats/max_log_achievement_make_wood_sword": 1.4, "stats/max_log_achievement_place_furnace": 2.8, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 3.2, "stats/max_log_achievement_place_table": 3.6, "stats/max_log_achievement_wake_up": 1.6, "stats/mean_log_entropy": 0.6507878065109253, "replay/size": 1000000.0, "replay/inserts": 1298.0, "replay/samples": 10384.0, "replay/insert_wait_avg": 3.6205459265569325e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3648912609082708e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3917009830475, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028460264205932617, "timer/logger.write_frac": 9.474384316475762e-05, "timer/logger.write_avg": 0.028460264205932617, "timer/logger.write_min": 0.028460264205932617, "timer/logger.write_max": 0.028460264205932617, "timer/replay.add_count": 1298.0, "timer/replay.add_total": 0.2945902347564697, "timer/replay.add_frac": 0.0009806869956540338, "timer/replay.add_avg": 0.00022695703756276558, "timer/replay.add_min": 9.1552734375e-05, "timer/replay.add_max": 0.009831905364990234, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1298.0, "timer/env.step_total": 15.6353440284729, "timer/env.step_frac": 0.05204985349896626, "timer/env.step_avg": 0.012045719590503006, "timer/env.step_min": 0.0028755664825439453, "timer/env.step_max": 1.6491925716400146, "timer/agent.policy_count": 1298.0, "timer/agent.policy_total": 14.018526077270508, "timer/agent.policy_frac": 0.046667487921251326, "timer/agent.policy_avg": 0.010800097131949543, "timer/agent.policy_min": 0.00569915771484375, "timer/agent.policy_max": 3.1895458698272705, "timer/dataset_count": 649.0, "timer/dataset_total": 0.05325055122375488, "timer/dataset_frac": 0.00017727038080442861, "timer/dataset_avg": 8.205015596880568e-05, "timer/dataset_min": 6.365776062011719e-05, "timer/dataset_max": 0.0001652240753173828, "timer/agent.train_count": 649.0, "timer/agent.train_total": 269.7124228477478, "timer/agent.train_frac": 0.8978690888100432, "timer/agent.train_avg": 0.4155815452199504, "timer/agent.train_min": 0.36669087409973145, "timer/agent.train_max": 0.5086057186126709, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22043824195861816, "timer/agent.report_frac": 0.0007338359922635097, "timer/agent.report_avg": 0.22043824195861816, "timer/agent.report_min": 0.22043824195861816, "timer/agent.report_max": 0.22043824195861816, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00014925003051757812, "timer/checkpoint.save_frac": 4.968513778148651e-07, "timer/checkpoint.save_avg": 0.00014925003051757812, "timer/checkpoint.save_min": 0.00014925003051757812, "timer/checkpoint.save_max": 0.00014925003051757812, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.229743242263794, "timer/agent.save_frac": 0.004093798990582613, "timer/agent.save_avg": 1.229743242263794, "timer/agent.save_min": 1.229743242263794, "timer/agent.save_max": 1.229743242263794, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.29425048828125e-05, "timer/replay.save_frac": 2.0953476636281852e-07, "timer/replay.save_avg": 6.29425048828125e-05, "timer/replay.save_min": 6.29425048828125e-05, "timer/replay.save_max": 6.29425048828125e-05, "fps": 4.320976738743335}
{"step": 1281422, "episode/length": 286.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.04529616724738676}
{"step": 1281676, "episode/length": 253.0, "episode/score": 10.100000008940697, "episode/sum_abs_reward": 12.900000050663948, "episode/reward_rate": 0.04330708661417323}
{"step": 1281974, "episode/length": 297.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.100000016391277, "episode/reward_rate": 0.053691275167785234}
{"step": 1282040, "episode/length": 65.0, "episode/score": 7.100000001490116, "episode/sum_abs_reward": 8.700000025331974, "episode/reward_rate": 0.12121212121212122}
{"step": 1282354, "episode/length": 313.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.041401273885350316}
{"step": 1282463, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.525399872750947, "train/action_min": 0.0, "train/action_std": 3.4064058968515107, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03614449876388817, "train/actor_opt_grad_steps": 640355.0, "train/actor_opt_loss": -11.142412935016733, "train/adv_mag": 0.43698869690750586, "train/adv_max": 0.3827655252182122, "train/adv_mean": 0.0021416359062586157, "train/adv_min": -0.37201417260097736, "train/adv_std": 0.04097287001257593, "train/cont_avg": 0.995413115530303, "train/cont_loss_mean": 0.00016270594228928064, "train/cont_loss_std": 0.005115095685097213, "train/cont_neg_acc": 0.9955128211241502, "train/cont_neg_loss": 0.025801841568344107, "train/cont_pos_acc": 0.9999999828410872, "train/cont_pos_loss": 7.261823738699294e-06, "train/cont_pred": 0.9954354744968992, "train/cont_rate": 0.995413115530303, "train/dyn_loss_mean": 5.705484419158011, "train/dyn_loss_std": 8.999391136747418, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8695912343083005, "train/extr_critic_critic_opt_grad_steps": 640355.0, "train/extr_critic_critic_opt_loss": 15021.33330374053, "train/extr_critic_mag": 12.598155281760476, "train/extr_critic_max": 12.598155281760476, "train/extr_critic_mean": 3.6464742927840263, "train/extr_critic_min": -0.3558242917060852, "train/extr_critic_std": 3.0003639965346367, "train/extr_return_normed_mag": 1.3828357566486706, "train/extr_return_normed_max": 1.3828357566486706, "train/extr_return_normed_mean": 0.3855586458336223, "train/extr_return_normed_min": -0.05903013538794987, "train/extr_return_normed_std": 0.31240389541243063, "train/extr_return_rate": 0.8246764929005594, "train/extr_return_raw_mag": 13.345825744397713, "train/extr_return_raw_max": 13.345825744397713, "train/extr_return_raw_mean": 3.6672448100465718, "train/extr_return_raw_min": -0.6474129259586334, "train/extr_return_raw_std": 3.032060579820113, "train/extr_reward_mag": 1.0882453340472598, "train/extr_reward_max": 1.0882453340472598, "train/extr_reward_mean": 0.06340556179709507, "train/extr_reward_min": -0.5719673796133562, "train/extr_reward_std": 0.2416967652512319, "train/image_loss_mean": 3.586901209571145, "train/image_loss_std": 9.316716309749719, "train/model_loss_mean": 7.073429707324866, "train/model_loss_std": 13.452773628812848, "train/model_opt_grad_norm": 18.761593789765328, "train/model_opt_grad_steps": 639828.0, "train/model_opt_loss": 17683.57421875, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7545223597324258, "train/policy_entropy_max": 2.7545223597324258, "train/policy_entropy_mean": 0.509717300082698, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7305044066725355, "train/policy_logprob_mag": 7.43838425838586, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.5117284605900446, "train/policy_logprob_min": -7.43838425838586, "train/policy_logprob_std": 1.121215665882284, "train/policy_randomness_mag": 0.9722255143252286, "train/policy_randomness_max": 0.9722255143252286, "train/policy_randomness_mean": 0.17990784222880998, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2578359966476758, "train/post_ent_mag": 55.47326879790335, "train/post_ent_max": 55.47326879790335, "train/post_ent_mean": 39.919802925803445, "train/post_ent_min": 19.77979157187722, "train/post_ent_std": 5.796447876727942, "train/prior_ent_mag": 76.76162187980883, "train/prior_ent_max": 76.76162187980883, "train/prior_ent_mean": 45.617450540716, "train/prior_ent_min": 27.582088181466766, "train/prior_ent_std": 7.884250821489276, "train/rep_loss_mean": 5.705484419158011, "train/rep_loss_std": 8.999391136747418, "train/reward_avg": 0.049891986093963635, "train/reward_loss_mean": 0.06307520175522024, "train/reward_loss_std": 0.22391820270003696, "train/reward_max_data": 1.0393939487861865, "train/reward_max_pred": 1.0384938464020237, "train/reward_neg_acc": 0.9920275030714093, "train/reward_neg_loss": 0.02550149330812873, "train/reward_pos_acc": 0.989671862486637, "train/reward_pos_loss": 0.7223099406921503, "train/reward_pred": 0.04959696034590403, "train/reward_rate": 0.054080847537878785, "stats/sum_log_reward": 11.300000381469726, "stats/max_log_achievement_collect_coal": 1.6, "stats/max_log_achievement_collect_drink": 2.2, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.4, "stats/max_log_achievement_collect_stone": 14.8, "stats/max_log_achievement_collect_wood": 12.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.4, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_stone_pickaxe": 0.8, "stats/max_log_achievement_make_stone_sword": 0.8, "stats/max_log_achievement_make_wood_pickaxe": 1.4, "stats/max_log_achievement_make_wood_sword": 0.8, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.4, "stats/max_log_achievement_place_stone": 3.6, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.2, "stats/mean_log_entropy": 0.7090869784355164, "replay/size": 1000000.0, "replay/inserts": 1316.0, "replay/samples": 10528.0, "replay/insert_wait_avg": 3.620483954989077e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.378742394838652e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1614181995392, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.031556129455566406, "timer/logger.write_frac": 0.00010513053158147309, "timer/logger.write_avg": 0.031556129455566406, "timer/logger.write_min": 0.031556129455566406, "timer/logger.write_max": 0.031556129455566406, "timer/replay.add_count": 1316.0, "timer/replay.add_total": 0.2748141288757324, "timer/replay.add_frac": 0.0009155544724040564, "timer/replay.add_avg": 0.0002088253258934137, "timer/replay.add_min": 8.416175842285156e-05, "timer/replay.add_max": 0.0015420913696289062, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1316.0, "timer/env.step_total": 15.94657850265503, "timer/env.step_frac": 0.053126676300730216, "timer/env.step_avg": 0.012117460868278898, "timer/env.step_min": 0.0032415390014648438, "timer/env.step_max": 1.6768417358398438, "timer/agent.policy_count": 1316.0, "timer/agent.policy_total": 9.67484712600708, "timer/agent.policy_frac": 0.032232147569263896, "timer/agent.policy_avg": 0.007351707542558572, "timer/agent.policy_min": 0.005681753158569336, "timer/agent.policy_max": 0.017917633056640625, "timer/dataset_count": 658.0, "timer/dataset_total": 0.0543217658996582, "timer/dataset_frac": 0.0001809751773745504, "timer/dataset_avg": 8.255587522744408e-05, "timer/dataset_min": 6.437301635742188e-05, "timer/dataset_max": 0.0001583099365234375, "timer/agent.train_count": 658.0, "timer/agent.train_total": 273.49217462539673, "timer/agent.train_frac": 0.9111503279331741, "timer/agent.train_avg": 0.4156416027741592, "timer/agent.train_min": 0.37357044219970703, "timer/agent.train_max": 0.4521973133087158, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.26241159439086914, "timer/agent.report_frac": 0.0008742349232119666, "timer/agent.report_avg": 0.26241159439086914, "timer/agent.report_min": 0.26241159439086914, "timer/agent.report_max": 0.26241159439086914, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.384220653033113}
{"step": 1282746, "episode/length": 391.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.900000043213367, "episode/reward_rate": 0.03826530612244898}
{"step": 1283053, "episode/length": 306.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.03908794788273615}
{"step": 1283262, "episode/length": 208.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.06698564593301436}
{"step": 1283313, "episode/length": 50.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.900000013411045, "episode/reward_rate": 0.17647058823529413}
{"step": 1283487, "episode/length": 173.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06896551724137931}
{"step": 1283743, "episode/length": 255.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.05859375}
{"step": 1283775, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.545197002704327, "train/action_min": 0.0, "train/action_std": 3.4194823081676775, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.035865116234009085, "train/actor_opt_grad_steps": 641010.0, "train/actor_opt_loss": -11.745034247178298, "train/adv_mag": 0.4278695883659216, "train/adv_max": 0.34542397466989666, "train/adv_mean": 0.0013954024479272238, "train/adv_min": -0.38255510467749376, "train/adv_std": 0.04103271009830328, "train/cont_avg": 0.9952524038461539, "train/cont_loss_mean": 1.989667760758843e-05, "train/cont_loss_std": 0.0005673765144199303, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0022649513196203036, "train/cont_pos_acc": 0.999999984411093, "train/cont_pos_loss": 1.0843618158035567e-05, "train/cont_pred": 0.9952498390124395, "train/cont_rate": 0.9952524038461539, "train/dyn_loss_mean": 5.781811472085806, "train/dyn_loss_std": 9.05435670705942, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8540917754173278, "train/extr_critic_critic_opt_grad_steps": 641010.0, "train/extr_critic_critic_opt_loss": 15023.207527043269, "train/extr_critic_mag": 12.751578228290265, "train/extr_critic_max": 12.751578228290265, "train/extr_critic_mean": 3.6665146314180816, "train/extr_critic_min": -0.3667226828061617, "train/extr_critic_std": 3.0732677643115704, "train/extr_return_normed_mag": 1.3952905654907226, "train/extr_return_normed_max": 1.3952905654907226, "train/extr_return_normed_mean": 0.38479856573618376, "train/extr_return_normed_min": -0.06228805161439455, "train/extr_return_normed_std": 0.31912358311506417, "train/extr_return_rate": 0.8202694718654339, "train/extr_return_raw_mag": 13.503572860130896, "train/extr_return_raw_max": 13.503572860130896, "train/extr_return_raw_mean": 3.68009242277879, "train/extr_return_raw_min": -0.6667696663966546, "train/extr_return_raw_std": 3.1024930257063645, "train/extr_reward_mag": 1.0865996250739465, "train/extr_reward_max": 1.0865996250739465, "train/extr_reward_mean": 0.0647894106232203, "train/extr_reward_min": -0.6032805956326999, "train/extr_reward_std": 0.2447644850382438, "train/image_loss_mean": 3.627707679455097, "train/image_loss_std": 9.01347143466656, "train/model_loss_mean": 7.162557572584886, "train/model_loss_std": 13.16654660151555, "train/model_opt_grad_norm": 21.153353397662823, "train/model_opt_grad_steps": 640482.5538461539, "train/model_opt_loss": 21452.420162259616, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3000.0, "train/policy_entropy_mag": 2.7461734258211576, "train/policy_entropy_max": 2.7461734258211576, "train/policy_entropy_mean": 0.5010705911196195, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7178990565813504, "train/policy_logprob_mag": 7.438384305513822, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.5003039135382725, "train/policy_logprob_min": -7.438384305513822, "train/policy_logprob_std": 1.1043178109022287, "train/policy_randomness_mag": 0.9692787087880648, "train/policy_randomness_max": 0.9692787087880648, "train/policy_randomness_mean": 0.1768559293105052, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2533868594811513, "train/post_ent_mag": 55.44617385864258, "train/post_ent_max": 55.44617385864258, "train/post_ent_mean": 39.87591400146484, "train/post_ent_min": 19.50793411548321, "train/post_ent_std": 5.799811531947209, "train/prior_ent_mag": 76.74669518103967, "train/prior_ent_max": 76.74669518103967, "train/prior_ent_mean": 45.61744554959811, "train/prior_ent_min": 27.55550463749812, "train/prior_ent_std": 7.992127477205717, "train/rep_loss_mean": 5.781811472085806, "train/rep_loss_std": 9.05435670705942, "train/reward_avg": 0.05165715125890879, "train/reward_loss_mean": 0.06574315331303156, "train/reward_loss_std": 0.22860414087772368, "train/reward_max_data": 1.0353846238209652, "train/reward_max_pred": 1.0355364726139948, "train/reward_neg_acc": 0.9919727316269508, "train/reward_neg_loss": 0.027115745383959552, "train/reward_pos_acc": 0.9889563129498409, "train/reward_pos_loss": 0.7186512442735525, "train/reward_pred": 0.05126833881323154, "train/reward_rate": 0.056039663461538464, "stats/sum_log_reward": 11.933333396911621, "stats/max_log_achievement_collect_coal": 1.1666666666666667, "stats/max_log_achievement_collect_drink": 3.6666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 12.833333333333334, "stats/max_log_achievement_collect_wood": 12.0, "stats/max_log_achievement_defeat_skeleton": 0.3333333333333333, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_stone": 5.0, "stats/max_log_achievement_place_table": 3.5, "stats/max_log_achievement_wake_up": 0.8333333333333334, "stats/mean_log_entropy": 0.5290013427535692, "replay/size": 1000000.0, "replay/inserts": 1312.0, "replay/samples": 10496.0, "replay/insert_wait_avg": 3.6731362342834473e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3711566968661983e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.32567977905273, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024310588836669922, "timer/logger.write_frac": 8.094741966306388e-05, "timer/logger.write_avg": 0.024310588836669922, "timer/logger.write_min": 0.024310588836669922, "timer/logger.write_max": 0.024310588836669922, "timer/replay.add_count": 1312.0, "timer/replay.add_total": 0.26384520530700684, "timer/replay.add_frac": 0.0008785302858587241, "timer/replay.add_avg": 0.00020110152843521862, "timer/replay.add_min": 8.463859558105469e-05, "timer/replay.add_max": 0.00107574462890625, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1312.0, "timer/env.step_total": 17.305587768554688, "timer/env.step_frac": 0.057622737360608904, "timer/env.step_avg": 0.013190234579691073, "timer/env.step_min": 0.002857685089111328, "timer/env.step_max": 1.720879316329956, "timer/agent.policy_count": 1312.0, "timer/agent.policy_total": 9.873213291168213, "timer/agent.policy_frac": 0.032875021871029676, "timer/agent.policy_avg": 0.007525315008512358, "timer/agent.policy_min": 0.005558490753173828, "timer/agent.policy_max": 0.014678239822387695, "timer/dataset_count": 656.0, "timer/dataset_total": 0.05416440963745117, "timer/dataset_frac": 0.00018035224186389759, "timer/dataset_avg": 8.256769761806581e-05, "timer/dataset_min": 6.175041198730469e-05, "timer/dataset_max": 0.0001742839813232422, "timer/agent.train_count": 656.0, "timer/agent.train_total": 272.14016938209534, "timer/agent.train_frac": 0.9061501819701423, "timer/agent.train_avg": 0.4148478191800234, "timer/agent.train_min": 0.367267370223999, "timer/agent.train_max": 0.45338940620422363, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22822189331054688, "timer/agent.report_frac": 0.0007599146815498693, "timer/agent.report_avg": 0.22822189331054688, "timer/agent.report_min": 0.22822189331054688, "timer/agent.report_max": 0.22822189331054688, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.368515923308128}
{"step": 1283946, "episode/length": 202.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.07389162561576355}
{"step": 1284247, "episode/length": 300.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.04318936877076412}
{"step": 1284502, "episode/length": 254.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.900000050663948, "episode/reward_rate": 0.058823529411764705}
{"step": 1284705, "episode/length": 202.0, "episode/score": 8.099999979138374, "episode/sum_abs_reward": 11.500000044703484, "episode/reward_rate": 0.04433497536945813}
{"step": 1284920, "episode/length": 214.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.100000016391277, "episode/reward_rate": 0.07441860465116279}
{"step": 1285077, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.562293419471154, "train/action_min": 0.0, "train/action_std": 3.3909559103158804, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03544680851583298, "train/actor_opt_grad_steps": 641660.0, "train/actor_opt_loss": -10.80180908533243, "train/adv_mag": 0.37434307084633756, "train/adv_max": 0.3187937014378034, "train/adv_mean": 0.0018264853983614908, "train/adv_min": -0.3359667303470465, "train/adv_std": 0.0401444499882368, "train/cont_avg": 0.9956580528846154, "train/cont_loss_mean": 7.806202680794828e-05, "train/cont_loss_std": 0.0023490413151191747, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0012504996910420244, "train/cont_pos_acc": 0.9999848705071669, "train/cont_pos_loss": 7.165155328190911e-05, "train/cont_pred": 0.9956359927470867, "train/cont_rate": 0.9956580528846154, "train/dyn_loss_mean": 5.848788576859694, "train/dyn_loss_std": 8.971106543907752, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8786635655623216, "train/extr_critic_critic_opt_grad_steps": 641660.0, "train/extr_critic_critic_opt_loss": 14930.751231971153, "train/extr_critic_mag": 12.691183090209961, "train/extr_critic_max": 12.691183090209961, "train/extr_critic_mean": 3.6027733069199783, "train/extr_critic_min": -0.3307041314932016, "train/extr_critic_std": 2.9863343165471004, "train/extr_return_normed_mag": 1.387321897653433, "train/extr_return_normed_max": 1.387321897653433, "train/extr_return_normed_mean": 0.37949489790659685, "train/extr_return_normed_min": -0.06261195322641959, "train/extr_return_normed_std": 0.31071200760511253, "train/extr_return_rate": 0.8354167131277231, "train/extr_return_raw_mag": 13.397355901277983, "train/extr_return_raw_max": 13.397355901277983, "train/extr_return_raw_mean": 3.620509386062622, "train/extr_return_raw_min": -0.6684132355910081, "train/extr_return_raw_std": 3.0140804144052358, "train/extr_reward_mag": 1.0872547443096454, "train/extr_reward_max": 1.0872547443096454, "train/extr_reward_mean": 0.06376419096038892, "train/extr_reward_min": -0.6135792970657349, "train/extr_reward_std": 0.24204822320204514, "train/image_loss_mean": 3.632576656341553, "train/image_loss_std": 8.866755771636964, "train/model_loss_mean": 7.206915400578425, "train/model_loss_std": 12.96180735367995, "train/model_opt_grad_norm": 20.977007381732648, "train/model_opt_grad_steps": 641131.7538461538, "train/model_opt_loss": 15773.78095703125, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2192.3076923076924, "train/policy_entropy_mag": 2.759427609810462, "train/policy_entropy_max": 2.759427609810462, "train/policy_entropy_mean": 0.511483170894476, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7335293797346262, "train/policy_logprob_mag": 7.438384283505953, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.5127213808206411, "train/policy_logprob_min": -7.438384283505953, "train/policy_logprob_std": 1.1229807560260479, "train/policy_randomness_mag": 0.9739568545268132, "train/policy_randomness_max": 0.9739568545268132, "train/policy_randomness_mean": 0.18053111491295007, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2589036810856599, "train/post_ent_mag": 55.6416612478403, "train/post_ent_max": 55.6416612478403, "train/post_ent_mean": 40.00233776385968, "train/post_ent_min": 19.71524003835825, "train/post_ent_std": 5.817990596477802, "train/prior_ent_mag": 76.84204571063702, "train/prior_ent_max": 76.84204571063702, "train/prior_ent_mean": 45.77639776376577, "train/prior_ent_min": 27.42556032034067, "train/prior_ent_std": 7.99913278726431, "train/rep_loss_mean": 5.848788576859694, "train/rep_loss_std": 8.971106543907752, "train/reward_avg": 0.05160757194344814, "train/reward_loss_mean": 0.06498750946842707, "train/reward_loss_std": 0.22312173912158378, "train/reward_max_data": 1.0415384714420026, "train/reward_max_pred": 1.041346788406372, "train/reward_neg_acc": 0.9913268850399898, "train/reward_neg_loss": 0.026572404973782025, "train/reward_pos_acc": 0.9932386077367342, "train/reward_pos_loss": 0.7165087168033306, "train/reward_pred": 0.051346491219905706, "train/reward_rate": 0.05552884615384615, "stats/sum_log_reward": 12.700000190734864, "stats/max_log_achievement_collect_coal": 0.8, "stats/max_log_achievement_collect_drink": 2.8, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.6, "stats/max_log_achievement_collect_stone": 22.4, "stats/max_log_achievement_collect_wood": 14.2, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.4, "stats/max_log_achievement_eat_cow": 0.8, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.6, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 2.8, "stats/max_log_achievement_place_table": 3.4, "stats/max_log_achievement_wake_up": 1.6, "stats/mean_log_entropy": 0.5431055426597595, "replay/size": 1000000.0, "replay/inserts": 1302.0, "replay/samples": 10416.0, "replay/insert_wait_avg": 3.692558101062218e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3742029392224851e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.16855025291443, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03247332572937012, "timer/logger.write_frac": 0.00010818363783284063, "timer/logger.write_avg": 0.03247332572937012, "timer/logger.write_min": 0.03247332572937012, "timer/logger.write_max": 0.03247332572937012, "timer/replay.add_count": 1302.0, "timer/replay.add_total": 0.2695438861846924, "timer/replay.add_frac": 0.000897975107510702, "timer/replay.add_avg": 0.00020702295405890353, "timer/replay.add_min": 8.487701416015625e-05, "timer/replay.add_max": 0.0009732246398925781, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1302.0, "timer/env.step_total": 17.097481727600098, "timer/env.step_frac": 0.05695960390651916, "timer/env.step_avg": 0.013131706396006219, "timer/env.step_min": 0.0030202865600585938, "timer/env.step_max": 3.254089117050171, "timer/agent.policy_count": 1302.0, "timer/agent.policy_total": 11.712230205535889, "timer/agent.policy_frac": 0.039018845231012574, "timer/agent.policy_avg": 0.008995568514236474, "timer/agent.policy_min": 0.005749702453613281, "timer/agent.policy_max": 1.2243320941925049, "timer/dataset_count": 651.0, "timer/dataset_total": 0.05328488349914551, "timer/dataset_frac": 0.00017751654346949078, "timer/dataset_avg": 8.185081950713595e-05, "timer/dataset_min": 6.341934204101562e-05, "timer/dataset_max": 0.00013327598571777344, "timer/agent.train_count": 651.0, "timer/agent.train_total": 270.3113811016083, "timer/agent.train_frac": 0.9005319873579385, "timer/agent.train_avg": 0.41522485576283913, "timer/agent.train_min": 0.37381768226623535, "timer/agent.train_max": 0.45109105110168457, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.26152586936950684, "timer/agent.report_frac": 0.0008712633923479051, "timer/agent.report_avg": 0.26152586936950684, "timer/agent.report_min": 0.26152586936950684, "timer/agent.report_max": 0.26152586936950684, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00021314620971679688, "timer/checkpoint.save_frac": 7.100884137835402e-07, "timer/checkpoint.save_avg": 0.00021314620971679688, "timer/checkpoint.save_min": 0.00021314620971679688, "timer/checkpoint.save_max": 0.00021314620971679688, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2262389659881592, "timer/agent.save_frac": 0.004085168032943362, "timer/agent.save_avg": 1.2262389659881592, "timer/agent.save_min": 1.2262389659881592, "timer/agent.save_max": 1.2262389659881592, "timer/replay.save_count": 1.0, "timer/replay.save_total": 5.030632019042969e-05, "timer/replay.save_frac": 1.6759357417038812e-07, "timer/replay.save_avg": 5.030632019042969e-05, "timer/replay.save_min": 5.030632019042969e-05, "timer/replay.save_max": 5.030632019042969e-05, "fps": 4.3374940326119455}
{"step": 1285128, "episode/length": 207.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.057692307692307696}
{"step": 1285192, "episode/length": 63.0, "episode/score": 7.099999971687794, "episode/sum_abs_reward": 9.100000031292439, "episode/reward_rate": 0.140625}
{"step": 1285349, "episode/length": 156.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.07006369426751592}
{"step": 1285566, "episode/length": 216.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.059907834101382486}
{"step": 1285784, "episode/length": 217.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.045871559633027525}
{"step": 1286024, "episode/length": 239.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 18.500000037252903, "episode/reward_rate": 0.06666666666666667}
{"step": 1286240, "episode/length": 215.0, "episode/score": 14.100000016391277, "episode/sum_abs_reward": 16.30000003427267, "episode/reward_rate": 0.07407407407407407}
{"step": 1286383, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.493106726444129, "train/action_min": 0.0, "train/action_std": 3.39660885478511, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.035733453393208256, "train/actor_opt_grad_steps": 642315.0, "train/actor_opt_loss": -11.516737206415696, "train/adv_mag": 0.3982307658051, "train/adv_max": 0.32997905891953094, "train/adv_mean": 0.0017970854015319756, "train/adv_min": -0.35848064856095746, "train/adv_std": 0.04082876452329484, "train/cont_avg": 0.9953391335227273, "train/cont_loss_mean": 0.00011670228038157705, "train/cont_loss_std": 0.0035782451418320056, "train/cont_neg_acc": 0.9960973380189954, "train/cont_neg_loss": 0.014952253305303361, "train/cont_pos_acc": 0.999999980131785, "train/cont_pos_loss": 2.2517206794032752e-05, "train/cont_pred": 0.9953431595455516, "train/cont_rate": 0.9953391335227273, "train/dyn_loss_mean": 6.017222852417917, "train/dyn_loss_std": 9.087421771251794, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.861007857503313, "train/extr_critic_critic_opt_grad_steps": 642315.0, "train/extr_critic_critic_opt_loss": 15225.427867542614, "train/extr_critic_mag": 12.716079524069121, "train/extr_critic_max": 12.716079524069121, "train/extr_critic_mean": 3.515067255858219, "train/extr_critic_min": -0.37244661649068195, "train/extr_critic_std": 2.9627802913839165, "train/extr_return_normed_mag": 1.3974774515990056, "train/extr_return_normed_max": 1.3974774515990056, "train/extr_return_normed_mean": 0.3732858747243881, "train/extr_return_normed_min": -0.06726043411728108, "train/extr_return_normed_std": 0.31002693894234573, "train/extr_return_rate": 0.8271504532207142, "train/extr_return_raw_mag": 13.40902077067982, "train/extr_return_raw_max": 13.40902077067982, "train/extr_return_raw_mean": 3.532366304686575, "train/extr_return_raw_min": -0.7148466805617014, "train/extr_return_raw_std": 2.9895583282817495, "train/extr_reward_mag": 1.0918947386019158, "train/extr_reward_max": 1.0918947386019158, "train/extr_reward_mean": 0.06234482675790787, "train/extr_reward_min": -0.5756557800553062, "train/extr_reward_std": 0.23960023937803326, "train/image_loss_mean": 3.7465623219807944, "train/image_loss_std": 9.532215616919778, "train/model_loss_mean": 7.423087784738252, "train/model_loss_std": 13.710076187596176, "train/model_opt_grad_norm": 18.916869322458904, "train/model_opt_grad_steps": 641786.0, "train/model_opt_loss": 9278.859700520834, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.7445633772647744, "train/policy_entropy_max": 2.7445633772647744, "train/policy_entropy_mean": 0.4687866433100267, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6897738697853956, "train/policy_logprob_mag": 7.438384265610666, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.46804509515112097, "train/policy_logprob_min": -7.438384265610666, "train/policy_logprob_std": 1.0865777189081365, "train/policy_randomness_mag": 0.9687104333530773, "train/policy_randomness_max": 0.9687104333530773, "train/policy_randomness_mean": 0.1654611150875236, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2434599060903896, "train/post_ent_mag": 55.415403539484196, "train/post_ent_max": 55.415403539484196, "train/post_ent_mean": 40.04185219967004, "train/post_ent_min": 19.688256032539137, "train/post_ent_std": 5.832196560772982, "train/prior_ent_mag": 76.79081899469548, "train/prior_ent_max": 76.79081899469548, "train/prior_ent_mean": 46.05903978058786, "train/prior_ent_min": 27.489330494042598, "train/prior_ent_std": 7.937497955380064, "train/rep_loss_mean": 6.017222852417917, "train/rep_loss_std": 9.087421771251794, "train/reward_avg": 0.05164092099011847, "train/reward_loss_mean": 0.0660751024543336, "train/reward_loss_std": 0.228720857564247, "train/reward_max_data": 1.0363636450334028, "train/reward_max_pred": 1.0371714974894668, "train/reward_neg_acc": 0.9926265559413217, "train/reward_neg_loss": 0.027266446740902735, "train/reward_pos_acc": 0.9915411382010488, "train/reward_pos_loss": 0.7213106877876051, "train/reward_pred": 0.05112982403035417, "train/reward_rate": 0.056033972537878785, "stats/sum_log_reward": 11.242857319968087, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 3.7142857142857144, "stats/max_log_achievement_collect_iron": 0.2857142857142857, "stats/max_log_achievement_collect_sapling": 1.1428571428571428, "stats/max_log_achievement_collect_stone": 10.714285714285714, "stats/max_log_achievement_collect_wood": 12.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.8571428571428572, "stats/max_log_achievement_eat_cow": 0.5714285714285714, "stats/max_log_achievement_make_stone_pickaxe": 0.7142857142857143, "stats/max_log_achievement_make_stone_sword": 1.1428571428571428, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.1428571428571428, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 3.7142857142857144, "stats/max_log_achievement_place_table": 3.4285714285714284, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.380785454596792, "replay/size": 1000000.0, "replay/inserts": 1306.0, "replay/samples": 10448.0, "replay/insert_wait_avg": 3.594716876790863e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3575345779816187e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2747824192047, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024953365325927734, "timer/logger.write_frac": 8.310176807019073e-05, "timer/logger.write_avg": 0.024953365325927734, "timer/logger.write_min": 0.024953365325927734, "timer/logger.write_max": 0.024953365325927734, "timer/replay.add_count": 1306.0, "timer/replay.add_total": 0.2745516300201416, "timer/replay.add_frac": 0.00091433462313478, "timer/replay.add_avg": 0.00021022330016856172, "timer/replay.add_min": 7.772445678710938e-05, "timer/replay.add_max": 0.0007815361022949219, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1306.0, "timer/env.step_total": 18.462222814559937, "timer/env.step_frac": 0.0614844265835996, "timer/env.step_avg": 0.014136464635957073, "timer/env.step_min": 0.0027205944061279297, "timer/env.step_max": 1.6798887252807617, "timer/agent.policy_count": 1306.0, "timer/agent.policy_total": 9.594120979309082, "timer/agent.policy_frac": 0.03195113789447365, "timer/agent.policy_avg": 0.007346187579869129, "timer/agent.policy_min": 0.005684852600097656, "timer/agent.policy_max": 0.019055843353271484, "timer/dataset_count": 653.0, "timer/dataset_total": 0.05303215980529785, "timer/dataset_frac": 0.00017661209968428593, "timer/dataset_avg": 8.121310843077773e-05, "timer/dataset_min": 6.365776062011719e-05, "timer/dataset_max": 0.0001461505889892578, "timer/agent.train_count": 653.0, "timer/agent.train_total": 271.17737007141113, "timer/agent.train_frac": 0.9030973826261189, "timer/agent.train_avg": 0.4152792803543815, "timer/agent.train_min": 0.366621732711792, "timer/agent.train_max": 0.4523153305053711, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.26096367835998535, "timer/agent.report_frac": 0.0008690828988618222, "timer/agent.report_avg": 0.26096367835998535, "timer/agent.report_min": 0.26096367835998535, "timer/agent.report_max": 0.26096367835998535, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.349291771574485}
{"step": 1286496, "episode/length": 255.0, "episode/score": 13.099999994039536, "episode/sum_abs_reward": 15.90000006556511, "episode/reward_rate": 0.05859375}
{"step": 1286688, "episode/length": 191.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.06770833333333333}
{"step": 1286920, "episode/length": 231.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.299999997019768, "episode/reward_rate": 0.06465517241379311}
{"step": 1287144, "episode/length": 223.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.700000025331974, "episode/reward_rate": 0.07142857142857142}
{"step": 1287361, "episode/length": 216.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.1000000461936, "episode/reward_rate": 0.07373271889400922}
{"step": 1287560, "episode/length": 198.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.900000050663948, "episode/reward_rate": 0.06532663316582915}
{"step": 1287695, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.429217059795673, "train/action_min": 0.0, "train/action_std": 3.2722154764028697, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03662907312122675, "train/actor_opt_grad_steps": 642970.0, "train/actor_opt_loss": -10.544568782815567, "train/adv_mag": 0.39062727781442497, "train/adv_max": 0.3315321434002656, "train/adv_mean": 0.0024189800913098644, "train/adv_min": -0.3435251556910001, "train/adv_std": 0.04121510460972786, "train/cont_avg": 0.9961538461538462, "train/cont_loss_mean": 7.053569233050894e-05, "train/cont_loss_std": 0.0021934188633395022, "train/cont_neg_acc": 0.99609375, "train/cont_neg_loss": 0.015416519036565192, "train/cont_pos_acc": 0.999999986245082, "train/cont_pos_loss": 8.651318975912895e-06, "train/cont_pred": 0.9961691223658048, "train/cont_rate": 0.9961538461538462, "train/dyn_loss_mean": 5.779225188035231, "train/dyn_loss_std": 8.933706723726713, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8816379629648649, "train/extr_critic_critic_opt_grad_steps": 642970.0, "train/extr_critic_critic_opt_loss": 15116.09248798077, "train/extr_critic_mag": 12.413238848172702, "train/extr_critic_max": 12.413238848172702, "train/extr_critic_mean": 3.518459598834698, "train/extr_critic_min": -0.32838347691756026, "train/extr_critic_std": 2.8031349402207595, "train/extr_return_normed_mag": 1.3709999194512001, "train/extr_return_normed_max": 1.3709999194512001, "train/extr_return_normed_mean": 0.3756165059713217, "train/extr_return_normed_min": -0.06501972709710781, "train/extr_return_normed_std": 0.2969974561379506, "train/extr_return_rate": 0.8465244815899775, "train/extr_return_raw_mag": 13.02680354485145, "train/extr_return_raw_max": 13.02680354485145, "train/extr_return_raw_mean": 3.54150501031142, "train/extr_return_raw_min": -0.6577109192426388, "train/extr_return_raw_std": 2.830076239659236, "train/extr_reward_mag": 1.0959161501664383, "train/extr_reward_max": 1.0959161501664383, "train/extr_reward_mean": 0.0640944042457984, "train/extr_reward_min": -0.5927196557705219, "train/extr_reward_std": 0.24190128055902627, "train/image_loss_mean": 3.546445318368765, "train/image_loss_std": 9.023447080758901, "train/model_loss_mean": 7.078229434673602, "train/model_loss_std": 13.114344538175143, "train/model_opt_grad_norm": 19.09923032613901, "train/model_opt_grad_steps": 642440.8, "train/model_opt_loss": 13433.364475661057, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1903.8461538461538, "train/policy_entropy_mag": 2.723602815774771, "train/policy_entropy_max": 2.723602815774771, "train/policy_entropy_mean": 0.4579165353224828, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6795645356178284, "train/policy_logprob_mag": 7.438384312849778, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4576084214907426, "train/policy_logprob_min": -7.438384312849778, "train/policy_logprob_std": 1.0769572028746972, "train/policy_randomness_mag": 0.9613122701644897, "train/policy_randomness_max": 0.9613122701644897, "train/policy_randomness_mean": 0.16162444307253912, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23985646023200108, "train/post_ent_mag": 55.291304837740384, "train/post_ent_max": 55.291304837740384, "train/post_ent_mean": 39.95853471022386, "train/post_ent_min": 19.786814777667704, "train/post_ent_std": 5.780485204549936, "train/prior_ent_mag": 76.8301994910607, "train/prior_ent_max": 76.8301994910607, "train/prior_ent_mean": 45.71536378126878, "train/prior_ent_min": 27.616975520207333, "train/prior_ent_std": 7.810808057051439, "train/rep_loss_mean": 5.779225188035231, "train/rep_loss_std": 8.933706723726713, "train/reward_avg": 0.05274038455234124, "train/reward_loss_mean": 0.06417858239549856, "train/reward_loss_std": 0.22452106223656582, "train/reward_max_data": 1.0369230857262244, "train/reward_max_pred": 1.0407561668982872, "train/reward_neg_acc": 0.9920482855576735, "train/reward_neg_loss": 0.025099724617141942, "train/reward_pos_acc": 0.9900426782094516, "train/reward_pos_loss": 0.7202403417000404, "train/reward_pred": 0.05248250445494285, "train/reward_rate": 0.056265024038461536, "stats/sum_log_reward": 13.266666889190674, "stats/max_log_achievement_collect_coal": 1.1666666666666667, "stats/max_log_achievement_collect_drink": 3.8333333333333335, "stats/max_log_achievement_collect_iron": 0.3333333333333333, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 13.5, "stats/max_log_achievement_collect_wood": 13.166666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.6666666666666667, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.3333333333333333, "stats/max_log_achievement_place_furnace": 1.8333333333333333, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 3.8333333333333335, "stats/max_log_achievement_place_table": 3.5, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.35485151410102844, "replay/size": 1000000.0, "replay/inserts": 1312.0, "replay/samples": 10496.0, "replay/insert_wait_avg": 3.7434624462592892e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.380401777058113e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.32605838775635, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029174089431762695, "timer/logger.write_frac": 9.714138556067454e-05, "timer/logger.write_avg": 0.029174089431762695, "timer/logger.write_min": 0.029174089431762695, "timer/logger.write_max": 0.029174089431762695, "timer/replay.add_count": 1312.0, "timer/replay.add_total": 0.27350616455078125, "timer/replay.add_frac": 0.0009106974134014457, "timer/replay.add_avg": 0.00020846506444419303, "timer/replay.add_min": 8.678436279296875e-05, "timer/replay.add_max": 0.0009036064147949219, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1312.0, "timer/env.step_total": 16.987635374069214, "timer/env.step_frac": 0.05656397405294806, "timer/env.step_avg": 0.012947892815601535, "timer/env.step_min": 0.002882242202758789, "timer/env.step_max": 1.6082777976989746, "timer/agent.policy_count": 1312.0, "timer/agent.policy_total": 9.889514684677124, "timer/agent.policy_frac": 0.03292925941147802, "timer/agent.policy_avg": 0.007537739851125856, "timer/agent.policy_min": 0.00568079948425293, "timer/agent.policy_max": 0.01485753059387207, "timer/dataset_count": 656.0, "timer/dataset_total": 0.054553985595703125, "timer/dataset_frac": 0.000181649191177635, "timer/dataset_avg": 8.316156340808403e-05, "timer/dataset_min": 6.246566772460938e-05, "timer/dataset_max": 0.00018668174743652344, "timer/agent.train_count": 656.0, "timer/agent.train_total": 272.4266130924225, "timer/agent.train_frac": 0.9071028153697126, "timer/agent.train_avg": 0.4152844711774733, "timer/agent.train_min": 0.3742334842681885, "timer/agent.train_max": 0.4503898620605469, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.23085737228393555, "timer/agent.report_frac": 0.0007686891158338031, "timer/agent.report_avg": 0.23085737228393555, "timer/agent.report_min": 0.23085737228393555, "timer/agent.report_max": 0.23085737228393555, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.368517386787829}
{"step": 1287733, "episode/length": 172.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.06936416184971098}
{"step": 1288030, "episode/length": 296.0, "episode/score": 16.100000008940697, "episode/sum_abs_reward": 20.10000006854534, "episode/reward_rate": 0.05723905723905724}
{"step": 1288242, "episode/length": 211.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 14.700000062584877, "episode/reward_rate": 0.05660377358490566}
{"step": 1288486, "episode/length": 243.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.299999997019768, "episode/reward_rate": 0.05327868852459016}
{"step": 1288713, "episode/length": 226.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.06607929515418502}
{"step": 1288877, "episode/length": 163.0, "episode/score": 9.099999971687794, "episode/sum_abs_reward": 11.100000031292439, "episode/reward_rate": 0.06707317073170732}
{"step": 1288985, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.482842548076923, "train/action_min": 0.0, "train/action_std": 3.33051055761484, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.037247054708691746, "train/actor_opt_grad_steps": 643620.0, "train/actor_opt_loss": -10.75060999152752, "train/adv_mag": 0.41341720865322995, "train/adv_max": 0.3309957809173144, "train/adv_mean": 0.0019884662347836777, "train/adv_min": -0.37555383168734036, "train/adv_std": 0.04131407250578587, "train/cont_avg": 0.9952073317307693, "train/cont_loss_mean": 0.00014422380907035403, "train/cont_loss_std": 0.004363544402314381, "train/cont_neg_acc": 0.994358975153703, "train/cont_neg_loss": 0.019144104996810525, "train/cont_pos_acc": 0.9999697245084322, "train/cont_pos_loss": 4.916983725357008e-05, "train/cont_pred": 0.9952054399710435, "train/cont_rate": 0.9952073317307693, "train/dyn_loss_mean": 5.9181717799260065, "train/dyn_loss_std": 9.078245206979604, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8381224412184495, "train/extr_critic_critic_opt_grad_steps": 643620.0, "train/extr_critic_critic_opt_loss": 15048.5818359375, "train/extr_critic_mag": 12.428111487168533, "train/extr_critic_max": 12.428111487168533, "train/extr_critic_mean": 3.726731432401217, "train/extr_critic_min": -0.3131308335524339, "train/extr_critic_std": 2.986183452606201, "train/extr_return_normed_mag": 1.3848668391887957, "train/extr_return_normed_max": 1.3848668391887957, "train/extr_return_normed_mean": 0.39377944125578956, "train/extr_return_normed_min": -0.0655718037715325, "train/extr_return_normed_std": 0.31399821318112886, "train/extr_return_rate": 0.8410837787848252, "train/extr_return_raw_mag": 13.254061669569749, "train/extr_return_raw_max": 13.254061669569749, "train/extr_return_raw_mean": 3.7458089168255144, "train/extr_return_raw_min": -0.6613617411026588, "train/extr_return_raw_std": 3.0127110481262207, "train/extr_reward_mag": 1.0911908333118145, "train/extr_reward_max": 1.0911908333118145, "train/extr_reward_mean": 0.06544364174971214, "train/extr_reward_min": -0.601033012683575, "train/extr_reward_std": 0.24476887537882877, "train/image_loss_mean": 3.5435520795675424, "train/image_loss_std": 9.042691524212177, "train/model_loss_mean": 7.160351474468524, "train/model_loss_std": 13.207315430274377, "train/model_opt_grad_norm": 21.44069329775297, "train/model_opt_grad_steps": 643090.0, "train/model_opt_loss": 8950.439332932692, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.7406216438000017, "train/policy_entropy_max": 2.7406216438000017, "train/policy_entropy_mean": 0.4697335477058704, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6904082426658044, "train/policy_logprob_mag": 7.438384305513822, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4689743179541368, "train/policy_logprob_min": -7.438384305513822, "train/policy_logprob_std": 1.0870410625751201, "train/policy_randomness_mag": 0.9673191749132597, "train/policy_randomness_max": 0.9673191749132597, "train/policy_randomness_mean": 0.1657953299008883, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24368381202220918, "train/post_ent_mag": 54.828255638709436, "train/post_ent_max": 54.828255638709436, "train/post_ent_mean": 39.690159548245944, "train/post_ent_min": 19.711237613971416, "train/post_ent_std": 5.730255823868972, "train/prior_ent_mag": 76.81056659405048, "train/prior_ent_max": 76.81056659405048, "train/prior_ent_mean": 45.55003456702599, "train/prior_ent_min": 27.303254318237304, "train/prior_ent_std": 7.961448346651517, "train/rep_loss_mean": 5.9181717799260065, "train/rep_loss_std": 9.078245206979604, "train/reward_avg": 0.05281099728666819, "train/reward_loss_mean": 0.06575209395243571, "train/reward_loss_std": 0.2321847344820316, "train/reward_max_data": 1.0492307809682992, "train/reward_max_pred": 1.0470235934624306, "train/reward_neg_acc": 0.9927219592607939, "train/reward_neg_loss": 0.026291692486176126, "train/reward_pos_acc": 0.989589549944951, "train/reward_pos_loss": 0.7182499619630667, "train/reward_pred": 0.05250278218434407, "train/reward_rate": 0.056896033653846156, "stats/sum_log_reward": 12.100000222524008, "stats/max_log_achievement_collect_coal": 0.3333333333333333, "stats/max_log_achievement_collect_drink": 2.6666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 15.333333333333334, "stats/max_log_achievement_collect_wood": 13.0, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 0.5, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 4.5, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.4329337999224663, "replay/size": 1000000.0, "replay/inserts": 1290.0, "replay/samples": 10320.0, "replay/insert_wait_avg": 3.6710916563521985e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.366424930188083e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.39488077163696, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026596546173095703, "timer/logger.write_frac": 8.853861325724339e-05, "timer/logger.write_avg": 0.026596546173095703, "timer/logger.write_min": 0.026596546173095703, "timer/logger.write_max": 0.026596546173095703, "timer/replay.add_count": 1290.0, "timer/replay.add_total": 0.2741892337799072, "timer/replay.add_frac": 0.0009127626711733097, "timer/replay.add_avg": 0.00021254979362783505, "timer/replay.add_min": 8.487701416015625e-05, "timer/replay.add_max": 0.0008573532104492188, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1290.0, "timer/env.step_total": 17.067907094955444, "timer/env.step_frac": 0.05681823555418918, "timer/env.step_avg": 0.0132309357325236, "timer/env.step_min": 0.003130197525024414, "timer/env.step_max": 1.6487984657287598, "timer/agent.policy_count": 1290.0, "timer/agent.policy_total": 14.389881610870361, "timer/agent.policy_frac": 0.04790321850327964, "timer/agent.policy_avg": 0.011154946985170822, "timer/agent.policy_min": 0.005815029144287109, "timer/agent.policy_max": 3.2569825649261475, "timer/dataset_count": 645.0, "timer/dataset_total": 0.05389094352722168, "timer/dataset_frac": 0.00017940033927605473, "timer/dataset_avg": 8.355185042980106e-05, "timer/dataset_min": 6.461143493652344e-05, "timer/dataset_max": 0.0001811981201171875, "timer/agent.train_count": 645.0, "timer/agent.train_total": 267.9258575439453, "timer/agent.train_frac": 0.8919121952268724, "timer/agent.train_avg": 0.4153889264247214, "timer/agent.train_min": 0.36684226989746094, "timer/agent.train_max": 0.5179145336151123, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2202608585357666, "timer/agent.report_frac": 0.0007332377235256915, "timer/agent.report_avg": 0.2202608585357666, "timer/agent.report_min": 0.2202608585357666, "timer/agent.report_max": 0.2202608585357666, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00021839141845703125, "timer/checkpoint.save_frac": 7.270144481025776e-07, "timer/checkpoint.save_avg": 0.00021839141845703125, "timer/checkpoint.save_min": 0.00021839141845703125, "timer/checkpoint.save_max": 0.00021839141845703125, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.3931479454040527, "timer/agent.save_frac": 0.00463772199388157, "timer/agent.save_avg": 1.3931479454040527, "timer/agent.save_min": 1.3931479454040527, "timer/agent.save_max": 1.3931479454040527, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.534027099609375e-05, "timer/replay.save_frac": 2.508041109174831e-07, "timer/replay.save_avg": 7.534027099609375e-05, "timer/replay.save_min": 7.534027099609375e-05, "timer/replay.save_max": 7.534027099609375e-05, "fps": 4.29428162729358}
{"step": 1289109, "episode/length": 231.0, "episode/score": 15.100000023841858, "episode/sum_abs_reward": 17.700000017881393, "episode/reward_rate": 0.07327586206896551}
{"step": 1289370, "episode/length": 260.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.5, "episode/reward_rate": 0.05363984674329502}
{"step": 1289688, "episode/length": 317.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.0440251572327044}
{"step": 1289906, "episode/length": 217.0, "episode/score": 12.100000061094761, "episode/sum_abs_reward": 14.300000093877316, "episode/reward_rate": 0.05963302752293578}
{"step": 1290082, "episode/length": 175.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.06818181818181818}
{"step": 1290303, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.517474550189394, "train/action_min": 0.0, "train/action_std": 3.3805201956720063, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03645686604872798, "train/actor_opt_grad_steps": 644275.0, "train/actor_opt_loss": -10.420769549454704, "train/adv_mag": 0.38564918009620724, "train/adv_max": 0.3046000518582084, "train/adv_mean": 0.0020345545712960743, "train/adv_min": -0.3553638584686048, "train/adv_std": 0.041085192425684494, "train/cont_avg": 0.9952651515151515, "train/cont_loss_mean": 0.00017727450876040248, "train/cont_loss_std": 0.0056188443199239445, "train/cont_neg_acc": 0.9939393943006342, "train/cont_neg_loss": 0.033975703506153164, "train/cont_pos_acc": 0.9999999837441877, "train/cont_pos_loss": 1.1280342491850412e-05, "train/cont_pred": 0.9952847731835914, "train/cont_rate": 0.9952651515151515, "train/dyn_loss_mean": 5.813415715188691, "train/dyn_loss_std": 8.949150027650775, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8772541979948679, "train/extr_critic_critic_opt_grad_steps": 644275.0, "train/extr_critic_critic_opt_loss": 15163.52889737216, "train/extr_critic_mag": 12.606438116593795, "train/extr_critic_max": 12.606438116593795, "train/extr_critic_mean": 3.6773907126802388, "train/extr_critic_min": -0.34923028404062445, "train/extr_critic_std": 3.038566874735283, "train/extr_return_normed_mag": 1.3768037792408105, "train/extr_return_normed_max": 1.3768037792408105, "train/extr_return_normed_mean": 0.385895516836282, "train/extr_return_normed_min": -0.06899211569830324, "train/extr_return_normed_std": 0.3161244821367842, "train/extr_return_rate": 0.8307035592469302, "train/extr_return_raw_mag": 13.31417551907626, "train/extr_return_raw_max": 13.31417551907626, "train/extr_return_raw_mean": 3.6971449201757256, "train/extr_return_raw_min": -0.7168476279034759, "train/extr_return_raw_std": 3.067940520517754, "train/extr_reward_mag": 1.0912663467002637, "train/extr_reward_max": 1.0912663467002637, "train/extr_reward_mean": 0.06518506128905398, "train/extr_reward_min": -0.6343638355081732, "train/extr_reward_std": 0.24487190377531629, "train/image_loss_mean": 3.560656265778975, "train/image_loss_std": 8.751461166324038, "train/model_loss_mean": 7.115964203169852, "train/model_loss_std": 12.863433476650354, "train/model_opt_grad_norm": 19.194564299149945, "train/model_opt_grad_steps": 643745.0, "train/model_opt_loss": 14703.780421401516, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2083.3333333333335, "train/policy_entropy_mag": 2.7458689537915317, "train/policy_entropy_max": 2.7458689537915317, "train/policy_entropy_mean": 0.4882192507837758, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7165521798711835, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4885203748038321, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 1.104805692578807, "train/policy_randomness_mag": 0.9691712404742385, "train/policy_randomness_max": 0.9691712404742385, "train/policy_randomness_mean": 0.17231996910590114, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2529114717335412, "train/post_ent_mag": 55.28720167911414, "train/post_ent_max": 55.28720167911414, "train/post_ent_mean": 39.88088723384973, "train/post_ent_min": 19.65556595542214, "train/post_ent_std": 5.761829860282667, "train/prior_ent_mag": 76.76606658010772, "train/prior_ent_max": 76.76606658010772, "train/prior_ent_mean": 45.678247740774445, "train/prior_ent_min": 27.35344597787568, "train/prior_ent_std": 7.9902850931341, "train/rep_loss_mean": 5.813415715188691, "train/rep_loss_std": 8.949150027650775, "train/reward_avg": 0.052681107807791595, "train/reward_loss_mean": 0.0670812584346894, "train/reward_loss_std": 0.2330405298959125, "train/reward_max_data": 1.0378787969097947, "train/reward_max_pred": 1.034033320166848, "train/reward_neg_acc": 0.9916114771004879, "train/reward_neg_loss": 0.027089163548115528, "train/reward_pos_acc": 0.988032110712745, "train/reward_pos_loss": 0.7301810889533071, "train/reward_pred": 0.05214106393131343, "train/reward_rate": 0.05692175662878788, "stats/sum_log_reward": 12.700000381469726, "stats/max_log_achievement_collect_coal": 0.8, "stats/max_log_achievement_collect_drink": 2.6, "stats/max_log_achievement_collect_iron": 0.8, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 18.8, "stats/max_log_achievement_collect_wood": 14.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.4, "stats/max_log_achievement_eat_cow": 0.4, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.4, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 3.8, "stats/max_log_achievement_place_table": 3.8, "stats/max_log_achievement_wake_up": 1.2, "stats/mean_log_entropy": 0.5727424502372742, "replay/size": 1000000.0, "replay/inserts": 1318.0, "replay/samples": 10544.0, "replay/insert_wait_avg": 3.649540844745086e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3898554991518057e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.07382225990295, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026268959045410156, "timer/logger.write_frac": 8.754165507532284e-05, "timer/logger.write_avg": 0.026268959045410156, "timer/logger.write_min": 0.026268959045410156, "timer/logger.write_max": 0.026268959045410156, "timer/replay.add_count": 1318.0, "timer/replay.add_total": 0.2989046573638916, "timer/replay.add_frac": 0.0009961037424484208, "timer/replay.add_avg": 0.00022678653821236086, "timer/replay.add_min": 8.0108642578125e-05, "timer/replay.add_max": 0.0007975101470947266, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1318.0, "timer/env.step_total": 15.68351697921753, "timer/env.step_frac": 0.05226552873257156, "timer/env.step_avg": 0.011899481774823618, "timer/env.step_min": 0.003048419952392578, "timer/env.step_max": 1.6586906909942627, "timer/agent.policy_count": 1318.0, "timer/agent.policy_total": 9.905843257904053, "timer/agent.policy_frac": 0.03301135428376123, "timer/agent.policy_avg": 0.007515814307969691, "timer/agent.policy_min": 0.005663871765136719, "timer/agent.policy_max": 0.014697074890136719, "timer/dataset_count": 659.0, "timer/dataset_total": 0.05426669120788574, "timer/dataset_frac": 0.00018084446953484576, "timer/dataset_avg": 8.234702762956865e-05, "timer/dataset_min": 6.29425048828125e-05, "timer/dataset_max": 0.00017380714416503906, "timer/agent.train_count": 659.0, "timer/agent.train_total": 273.4491720199585, "timer/agent.train_frac": 0.9112729992925406, "timer/agent.train_avg": 0.4149456328072208, "timer/agent.train_min": 0.3737306594848633, "timer/agent.train_max": 0.45093560218811035, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2181692123413086, "timer/agent.report_frac": 0.0007270517991147715, "timer/agent.report_avg": 0.2181692123413086, "timer/agent.report_min": 0.2181692123413086, "timer/agent.report_max": 0.2181692123413086, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.392178503093606}
{"step": 1290308, "episode/length": 225.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.500000022351742, "episode/reward_rate": 0.07079646017699115}
{"step": 1290513, "episode/length": 204.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.07317073170731707}
{"step": 1290601, "episode/length": 87.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.09090909090909091}
{"step": 1290885, "episode/length": 283.0, "episode/score": 13.099999964237213, "episode/sum_abs_reward": 15.900000005960464, "episode/reward_rate": 0.04929577464788732}
{"step": 1291081, "episode/length": 195.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.700000047683716, "episode/reward_rate": 0.07653061224489796}
{"step": 1291228, "episode/length": 146.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.900000050663948, "episode/reward_rate": 0.08163265306122448}
{"step": 1291269, "episode/length": 40.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 6.100000016391277, "episode/reward_rate": 0.12195121951219512}
{"step": 1291465, "episode/length": 195.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.04591836734693878}
{"step": 1291601, "stats/sum_log_reward": 10.850000202655792, "stats/max_log_achievement_collect_coal": 0.625, "stats/max_log_achievement_collect_drink": 2.125, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.625, "stats/max_log_achievement_collect_stone": 11.25, "stats/max_log_achievement_collect_wood": 11.875, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.625, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.875, "stats/max_log_achievement_make_stone_sword": 0.875, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.125, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 1.375, "stats/max_log_achievement_place_stone": 2.0, "stats/max_log_achievement_place_table": 3.125, "stats/max_log_achievement_wake_up": 0.875, "stats/mean_log_entropy": 0.33066366240382195, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.475753079927885, "train/action_min": 0.0, "train/action_std": 3.3106698733109696, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.035426094354345246, "train/actor_opt_grad_steps": 644930.0, "train/actor_opt_loss": -10.677155096255817, "train/adv_mag": 0.36099742169563587, "train/adv_max": 0.30151292085647585, "train/adv_mean": 0.0016601268859141364, "train/adv_min": -0.32048122882843016, "train/adv_std": 0.039831481530116154, "train/cont_avg": 0.9952674278846154, "train/cont_loss_mean": 1.5790887273134592e-05, "train/cont_loss_std": 0.00041862280784506277, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0007585130507880404, "train/cont_pos_acc": 0.9999999761581421, "train/cont_pos_loss": 1.1521189886510596e-05, "train/cont_pred": 0.9952606402910673, "train/cont_rate": 0.9952674278846154, "train/dyn_loss_mean": 5.845196980696458, "train/dyn_loss_std": 8.979963845473069, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8547382501455454, "train/extr_critic_critic_opt_grad_steps": 644930.0, "train/extr_critic_critic_opt_loss": 15033.819456129808, "train/extr_critic_mag": 12.80521675990178, "train/extr_critic_max": 12.80521675990178, "train/extr_critic_mean": 3.7300151604872482, "train/extr_critic_min": -0.3808063525419969, "train/extr_critic_std": 3.0243407873006967, "train/extr_return_normed_mag": 1.3782842819507306, "train/extr_return_normed_max": 1.3782842819507306, "train/extr_return_normed_mean": 0.3883040299782386, "train/extr_return_normed_min": -0.07026523569455513, "train/extr_return_normed_std": 0.3126328472907727, "train/extr_return_rate": 0.8406741169782785, "train/extr_return_raw_mag": 13.409051733750564, "train/extr_return_raw_max": 13.409051733750564, "train/extr_return_raw_mean": 3.7462082092578592, "train/extr_return_raw_min": -0.7303721739695622, "train/extr_return_raw_std": 3.051927896646353, "train/extr_reward_mag": 1.0876106849083533, "train/extr_reward_max": 1.0876106849083533, "train/extr_reward_mean": 0.0649716498186955, "train/extr_reward_min": -0.58973372899569, "train/extr_reward_std": 0.2441633123617906, "train/image_loss_mean": 3.4399110353910007, "train/image_loss_std": 8.972320681351881, "train/model_loss_mean": 7.012125616807204, "train/model_loss_std": 13.093196692833533, "train/model_opt_grad_norm": 19.949713369516225, "train/model_opt_grad_steps": 644400.0, "train/model_opt_loss": 19688.560096153848, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2807.6923076923076, "train/policy_entropy_mag": 2.715567009265606, "train/policy_entropy_max": 2.715567009265606, "train/policy_entropy_mean": 0.46729703408021195, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6791900034134205, "train/policy_logprob_mag": 7.438384261498085, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4660860831920917, "train/policy_logprob_min": -7.438384261498085, "train/policy_logprob_std": 1.0798475274672874, "train/policy_randomness_mag": 0.9584759868108309, "train/policy_randomness_max": 0.9584759868108309, "train/policy_randomness_mean": 0.16493534835485313, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23972426377809963, "train/post_ent_mag": 55.175086740347055, "train/post_ent_max": 55.175086740347055, "train/post_ent_mean": 39.81556167602539, "train/post_ent_min": 19.638553839463455, "train/post_ent_std": 5.710317076169527, "train/prior_ent_mag": 76.79480708195614, "train/prior_ent_max": 76.79480708195614, "train/prior_ent_mean": 45.654635091928334, "train/prior_ent_min": 27.468650935246394, "train/prior_ent_std": 7.925310398982122, "train/rep_loss_mean": 5.845196980696458, "train/rep_loss_std": 8.979963845473069, "train/reward_avg": 0.052225059958604665, "train/reward_loss_mean": 0.06508068958154091, "train/reward_loss_std": 0.23037645793878114, "train/reward_max_data": 1.026153852389409, "train/reward_max_pred": 1.0253262336437519, "train/reward_neg_acc": 0.9926263708334703, "train/reward_neg_loss": 0.02539058380688612, "train/reward_pos_acc": 0.989850062590379, "train/reward_pos_loss": 0.7270859975081224, "train/reward_pred": 0.051721545366140514, "train/reward_rate": 0.05652043269230769, "replay/size": 1000000.0, "replay/inserts": 1298.0, "replay/samples": 10384.0, "replay/insert_wait_avg": 3.597402058323653e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3765320755851287e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.4230661392212, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03313708305358887, "timer/logger.write_frac": 0.00011030139422860618, "timer/logger.write_avg": 0.03313708305358887, "timer/logger.write_min": 0.03313708305358887, "timer/logger.write_max": 0.03313708305358887, "timer/replay.add_count": 1298.0, "timer/replay.add_total": 0.2582976818084717, "timer/replay.add_frac": 0.0008597797936353266, "timer/replay.add_avg": 0.00019899667319604907, "timer/replay.add_min": 8.845329284667969e-05, "timer/replay.add_max": 0.0009620189666748047, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1298.0, "timer/env.step_total": 19.8452250957489, "timer/env.step_frac": 0.0660575945475248, "timer/env.step_avg": 0.015289079426617027, "timer/env.step_min": 0.0031697750091552734, "timer/env.step_max": 1.6258628368377686, "timer/agent.policy_count": 1298.0, "timer/agent.policy_total": 9.574148893356323, "timer/agent.policy_frac": 0.03186888748721944, "timer/agent.policy_avg": 0.007376077729858492, "timer/agent.policy_min": 0.005667686462402344, "timer/agent.policy_max": 0.014655590057373047, "timer/dataset_count": 649.0, "timer/dataset_total": 0.05273580551147461, "timer/dataset_frac": 0.00017553847042835232, "timer/dataset_avg": 8.125701927808106e-05, "timer/dataset_min": 6.270408630371094e-05, "timer/dataset_max": 0.00017571449279785156, "timer/agent.train_count": 649.0, "timer/agent.train_total": 269.9664466381073, "timer/agent.train_frac": 0.8986209018750918, "timer/agent.train_avg": 0.41597295321742267, "timer/agent.train_min": 0.36792969703674316, "timer/agent.train_max": 0.45191264152526855, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2607104778289795, "timer/agent.report_frac": 0.0008678111210946825, "timer/agent.report_avg": 0.2607104778289795, "timer/agent.report_min": 0.2607104778289795, "timer/agent.report_max": 0.2607104778289795, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.3205076083184215}
{"step": 1291652, "episode/length": 186.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06417112299465241}
{"step": 1291813, "episode/length": 160.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.08695652173913043}
{"step": 1292088, "episode/length": 274.0, "episode/score": 13.099999979138374, "episode/sum_abs_reward": 14.700000002980232, "episode/reward_rate": 0.05090909090909091}
{"step": 1292393, "episode/length": 304.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.099999994039536, "episode/reward_rate": 0.05245901639344262}
{"step": 1292666, "episode/length": 272.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.054945054945054944}
{"step": 1292897, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.461289405822754, "train/action_min": 0.0, "train/action_std": 3.318341940641403, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03519621241139248, "train/actor_opt_grad_steps": 645575.0, "train/actor_opt_loss": -13.702226493507624, "train/adv_mag": 0.3674576960038394, "train/adv_max": 0.3136293648276478, "train/adv_mean": 0.0015424339140110988, "train/adv_min": -0.32952441927045584, "train/adv_std": 0.04028419399401173, "train/cont_avg": 0.9955291748046875, "train/cont_loss_mean": 2.409608559328369e-05, "train/cont_loss_std": 0.0006762056346163448, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00015441763599152725, "train/cont_pos_acc": 0.9999999813735485, "train/cont_pos_loss": 2.3535684114728284e-05, "train/cont_pred": 0.9955085553228855, "train/cont_rate": 0.9955291748046875, "train/dyn_loss_mean": 5.756559520959854, "train/dyn_loss_std": 9.022668197751045, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8681141501292586, "train/extr_critic_critic_opt_grad_steps": 645575.0, "train/extr_critic_critic_opt_loss": 15018.46125793457, "train/extr_critic_mag": 12.707761064171791, "train/extr_critic_max": 12.707761064171791, "train/extr_critic_mean": 3.7438229620456696, "train/extr_critic_min": -0.3783189821988344, "train/extr_critic_std": 2.984402559697628, "train/extr_return_normed_mag": 1.390607438981533, "train/extr_return_normed_max": 1.390607438981533, "train/extr_return_normed_mean": 0.39223948074504733, "train/extr_return_normed_min": -0.06953590270131826, "train/extr_return_normed_std": 0.30996696348302066, "train/extr_return_rate": 0.8531057136133313, "train/extr_return_raw_mag": 13.452820360660553, "train/extr_return_raw_max": 13.452820360660553, "train/extr_return_raw_mean": 3.7588086239993572, "train/extr_return_raw_min": -0.724458837416023, "train/extr_return_raw_std": 3.0098109878599644, "train/extr_reward_mag": 1.0921108201146126, "train/extr_reward_max": 1.0921108201146126, "train/extr_reward_mean": 0.06557030417025089, "train/extr_reward_min": -0.612133638933301, "train/extr_reward_std": 0.2448538050521165, "train/image_loss_mean": 3.4759625643491745, "train/image_loss_std": 9.253665812313557, "train/model_loss_mean": 6.9963290095329285, "train/model_loss_std": 13.394010484218597, "train/model_opt_grad_norm": 19.771650210022926, "train/model_opt_grad_steps": 645044.046875, "train/model_opt_loss": 18352.388305664062, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2617.1875, "train/policy_entropy_mag": 2.7104863561689854, "train/policy_entropy_max": 2.7104863561689854, "train/policy_entropy_mean": 0.45668225176632404, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.668978976085782, "train/policy_logprob_mag": 7.4383842796087265, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4559919098392129, "train/policy_logprob_min": -7.4383842796087265, "train/policy_logprob_std": 1.0719182090833783, "train/policy_randomness_mag": 0.956682737916708, "train/policy_randomness_max": 0.956682737916708, "train/policy_randomness_mean": 0.16118879325222224, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23612022050656378, "train/post_ent_mag": 55.47056621313095, "train/post_ent_max": 55.47056621313095, "train/post_ent_mean": 39.82759779691696, "train/post_ent_min": 19.736855924129486, "train/post_ent_std": 5.814741067588329, "train/prior_ent_mag": 76.87696433067322, "train/prior_ent_max": 76.87696433067322, "train/prior_ent_mean": 45.579652547836304, "train/prior_ent_min": 27.619766026735306, "train/prior_ent_std": 8.01356054842472, "train/rep_loss_mean": 5.756559520959854, "train/rep_loss_std": 9.022668197751045, "train/reward_avg": 0.05370788529398851, "train/reward_loss_mean": 0.06640667252941057, "train/reward_loss_std": 0.22623420180752873, "train/reward_max_data": 1.0343750081956387, "train/reward_max_pred": 1.031530424952507, "train/reward_neg_acc": 0.9915273888036609, "train/reward_neg_loss": 0.026449426310136914, "train/reward_pos_acc": 0.991193181835115, "train/reward_pos_loss": 0.7177670728415251, "train/reward_pred": 0.053332638199208304, "train/reward_rate": 0.05780029296875, "stats/sum_log_reward": 13.100000381469727, "stats/max_log_achievement_collect_coal": 0.4, "stats/max_log_achievement_collect_drink": 2.8, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 17.8, "stats/max_log_achievement_collect_wood": 13.2, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.2, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_stone_pickaxe": 1.4, "stats/max_log_achievement_make_stone_sword": 1.2, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.6, "stats/max_log_achievement_place_furnace": 2.2, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 4.0, "stats/max_log_achievement_place_table": 3.8, "stats/max_log_achievement_wake_up": 1.4, "stats/mean_log_entropy": 0.5712963670492173, "replay/size": 1000000.0, "replay/inserts": 1296.0, "replay/samples": 10368.0, "replay/insert_wait_avg": 3.661270494814272e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3945233306767028e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.28980803489685, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03252124786376953, "timer/logger.write_frac": 0.00010829953929035853, "timer/logger.write_avg": 0.03252124786376953, "timer/logger.write_min": 0.03252124786376953, "timer/logger.write_max": 0.03252124786376953, "timer/replay.add_count": 1296.0, "timer/replay.add_total": 0.26816606521606445, "timer/replay.add_frac": 0.0008930241987596886, "timer/replay.add_avg": 0.0002069182601975806, "timer/replay.add_min": 8.869171142578125e-05, "timer/replay.add_max": 0.005723476409912109, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1296.0, "timer/env.step_total": 15.951302528381348, "timer/env.step_frac": 0.05311969338142718, "timer/env.step_avg": 0.012308103802763386, "timer/env.step_min": 0.003122091293334961, "timer/env.step_max": 1.72365140914917, "timer/agent.policy_count": 1296.0, "timer/agent.policy_total": 13.987560033798218, "timer/agent.policy_frac": 0.04658020238959531, "timer/agent.policy_avg": 0.010792870396449243, "timer/agent.policy_min": 0.005718708038330078, "timer/agent.policy_max": 3.1205575466156006, "timer/dataset_count": 648.0, "timer/dataset_total": 0.0527806282043457, "timer/dataset_frac": 0.00017576563303877446, "timer/dataset_avg": 8.14515867351014e-05, "timer/dataset_min": 6.175041198730469e-05, "timer/dataset_max": 0.00017762184143066406, "timer/agent.train_count": 648.0, "timer/agent.train_total": 269.34177708625793, "timer/agent.train_frac": 0.8969394560835631, "timer/agent.train_avg": 0.41565089056521287, "timer/agent.train_min": 0.37370824813842773, "timer/agent.train_max": 0.4522275924682617, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22811245918273926, "timer/agent.report_frac": 0.0007596410303616771, "timer/agent.report_avg": 0.22811245918273926, "timer/agent.report_min": 0.22811245918273926, "timer/agent.report_max": 0.22811245918273926, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.003001689910888672, "timer/checkpoint.save_frac": 9.995976655124585e-06, "timer/checkpoint.save_avg": 0.003001689910888672, "timer/checkpoint.save_min": 0.003001689910888672, "timer/checkpoint.save_max": 0.003001689910888672, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1714353561401367, "timer/agent.save_frac": 0.003901016034496927, "timer/agent.save_avg": 1.1714353561401367, "timer/agent.save_min": 1.1714353561401367, "timer/agent.save_max": 1.1714353561401367, "timer/replay.save_count": 1.0, "timer/replay.save_total": 1.6689300537109375e-05, "timer/replay.save_frac": 5.557731261784916e-08, "timer/replay.save_avg": 1.6689300537109375e-05, "timer/replay.save_min": 1.6689300537109375e-05, "timer/replay.save_max": 1.6689300537109375e-05, "fps": 4.315752944253082}
{"step": 1292993, "episode/length": 326.0, "episode/score": 16.1000000461936, "episode/sum_abs_reward": 18.90000008791685, "episode/reward_rate": 0.05198776758409786}
{"step": 1293224, "episode/length": 230.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.05194805194805195}
{"step": 1293414, "episode/length": 189.0, "episode/score": 12.099999979138374, "episode/sum_abs_reward": 14.30000002682209, "episode/reward_rate": 0.06842105263157895}
{"step": 1293634, "episode/length": 219.0, "episode/score": 16.099999986588955, "episode/sum_abs_reward": 18.30000001937151, "episode/reward_rate": 0.07727272727272727}
{"step": 1293875, "episode/length": 240.0, "episode/score": 15.099999979138374, "episode/sum_abs_reward": 18.10000003874302, "episode/reward_rate": 0.06639004149377593}
{"step": 1294213, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.470920447147254, "train/action_min": 0.0, "train/action_std": 3.322000023090478, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03587890580070741, "train/actor_opt_grad_steps": 646225.0, "train/actor_opt_loss": -11.26928719584689, "train/adv_mag": 0.3876994414763017, "train/adv_max": 0.33232277089899237, "train/adv_mean": 0.001721524871002926, "train/adv_min": -0.3444173229914723, "train/adv_std": 0.040087526494806465, "train/cont_avg": 0.995413115530303, "train/cont_loss_mean": 1.4572264000569454e-05, "train/cont_loss_std": 0.0003929846035275935, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0017667303092375843, "train/cont_pos_acc": 0.999999980131785, "train/cont_pos_loss": 5.450815837265867e-06, "train/cont_pred": 0.9954157092354514, "train/cont_rate": 0.995413115530303, "train/dyn_loss_mean": 5.853846824530399, "train/dyn_loss_std": 9.035115400950113, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8587260372710951, "train/extr_critic_critic_opt_grad_steps": 646225.0, "train/extr_critic_critic_opt_loss": 14958.57978219697, "train/extr_critic_mag": 12.684358914693197, "train/extr_critic_max": 12.684358914693197, "train/extr_critic_mean": 3.634621652689847, "train/extr_critic_min": -0.3846862894116026, "train/extr_critic_std": 3.0405407493764702, "train/extr_return_normed_mag": 1.3888879291939014, "train/extr_return_normed_max": 1.3888879291939014, "train/extr_return_normed_mean": 0.3831450632124236, "train/extr_return_normed_min": -0.07008273955998999, "train/extr_return_normed_std": 0.31650426577438007, "train/extr_return_rate": 0.8317935647386493, "train/extr_return_raw_mag": 13.406282511624424, "train/extr_return_raw_max": 13.406282511624424, "train/extr_return_raw_mean": 3.6513134241104126, "train/extr_return_raw_min": -0.7439353217681249, "train/extr_return_raw_std": 3.069890087301081, "train/extr_reward_mag": 1.092893907518098, "train/extr_reward_max": 1.092893907518098, "train/extr_reward_mean": 0.06510865112597292, "train/extr_reward_min": -0.6207174821333452, "train/extr_reward_std": 0.24489158843502853, "train/image_loss_mean": 3.6131866231109155, "train/image_loss_std": 9.317420728278883, "train/model_loss_mean": 7.192337252876976, "train/model_loss_std": 13.505477226141727, "train/model_opt_grad_norm": 20.414527387330025, "train/model_opt_grad_steps": 645693.7272727273, "train/model_opt_loss": 20141.593971946022, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2840.909090909091, "train/policy_entropy_mag": 2.721118146722967, "train/policy_entropy_max": 2.721118146722967, "train/policy_entropy_mean": 0.47295808295408887, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.684437708421187, "train/policy_logprob_mag": 7.438384229486639, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.47331954629132245, "train/policy_logprob_min": -7.438384229486639, "train/policy_logprob_std": 1.0871215453653624, "train/policy_randomness_mag": 0.9604352947437402, "train/policy_randomness_max": 0.9604352947437402, "train/policy_randomness_mean": 0.16693345073497656, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2415764731439677, "train/post_ent_mag": 55.06267888618238, "train/post_ent_max": 55.06267888618238, "train/post_ent_mean": 39.944238547122836, "train/post_ent_min": 19.77851846001365, "train/post_ent_std": 5.756624770886971, "train/prior_ent_mag": 76.8490358988444, "train/prior_ent_max": 76.8490358988444, "train/prior_ent_mean": 45.756859519264914, "train/prior_ent_min": 27.624023321903113, "train/prior_ent_std": 7.968598026217836, "train/rep_loss_mean": 5.853846824530399, "train/rep_loss_std": 9.035115400950113, "train/reward_avg": 0.053107244414136265, "train/reward_loss_mean": 0.06682802398096431, "train/reward_loss_std": 0.2318282899531451, "train/reward_max_data": 1.0469697081681453, "train/reward_max_pred": 1.0427380150014705, "train/reward_neg_acc": 0.9919173699436765, "train/reward_neg_loss": 0.027426104583410604, "train/reward_pos_acc": 0.9913177517327395, "train/reward_pos_loss": 0.7145944508639249, "train/reward_pred": 0.05297933149179726, "train/reward_rate": 0.057365648674242424, "stats/sum_log_reward": 14.099999809265137, "stats/max_log_achievement_collect_coal": 1.6, "stats/max_log_achievement_collect_drink": 3.2, "stats/max_log_achievement_collect_iron": 0.2, "stats/max_log_achievement_collect_sapling": 1.6, "stats/max_log_achievement_collect_stone": 17.0, "stats/max_log_achievement_collect_wood": 15.0, "stats/max_log_achievement_defeat_skeleton": 0.4, "stats/max_log_achievement_defeat_zombie": 1.2, "stats/max_log_achievement_eat_cow": 0.8, "stats/max_log_achievement_make_stone_pickaxe": 0.6, "stats/max_log_achievement_make_stone_sword": 0.6, "stats/max_log_achievement_make_wood_pickaxe": 1.6, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.8, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 4.2, "stats/max_log_achievement_place_table": 3.4, "stats/max_log_achievement_wake_up": 1.6, "stats/mean_log_entropy": 0.5510724574327469, "replay/size": 1000000.0, "replay/inserts": 1316.0, "replay/samples": 10528.0, "replay/insert_wait_avg": 3.662877532124157e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3810070090018507e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 299.9974892139435, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03078174591064453, "timer/logger.write_frac": 0.0001026066784468736, "timer/logger.write_avg": 0.03078174591064453, "timer/logger.write_min": 0.03078174591064453, "timer/logger.write_max": 0.03078174591064453, "timer/replay.add_count": 1316.0, "timer/replay.add_total": 0.25839829444885254, "timer/replay.add_frac": 0.0008613348569213377, "timer/replay.add_avg": 0.00019635128757511592, "timer/replay.add_min": 8.058547973632812e-05, "timer/replay.add_max": 0.0009105205535888672, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1316.0, "timer/env.step_total": 15.850690603256226, "timer/env.step_frac": 0.05283607754447669, "timer/env.step_avg": 0.012044597722839077, "timer/env.step_min": 0.0029740333557128906, "timer/env.step_max": 1.6555123329162598, "timer/agent.policy_count": 1316.0, "timer/agent.policy_total": 9.789769649505615, "timer/agent.policy_frac": 0.03263283861193929, "timer/agent.policy_avg": 0.0074390346880741755, "timer/agent.policy_min": 0.005718231201171875, "timer/agent.policy_max": 0.01695990562438965, "timer/dataset_count": 658.0, "timer/dataset_total": 0.05397820472717285, "timer/dataset_frac": 0.0001799288549667769, "timer/dataset_avg": 8.203374578597698e-05, "timer/dataset_min": 6.4849853515625e-05, "timer/dataset_max": 0.00015425682067871094, "timer/agent.train_count": 658.0, "timer/agent.train_total": 273.36252641677856, "timer/agent.train_frac": 0.9112160476177513, "timer/agent.train_avg": 0.4154445690224598, "timer/agent.train_min": 0.36818528175354004, "timer/agent.train_max": 0.45252227783203125, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2172539234161377, "timer/agent.report_frac": 0.0007241858056392027, "timer/agent.report_avg": 0.2172539234161377, "timer/agent.report_min": 0.2172539234161377, "timer/agent.report_max": 0.2172539234161377, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.386640108883898}
{"step": 1294378, "episode/length": 502.0, "episode/score": 17.099999986588955, "episode/sum_abs_reward": 21.700000055134296, "episode/reward_rate": 0.03578528827037773}
{"step": 1294541, "episode/length": 162.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.0736196319018405}
{"step": 1294918, "episode/length": 376.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.900000028312206, "episode/reward_rate": 0.023872679045092837}
{"step": 1295236, "episode/length": 317.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.700000025331974, "episode/reward_rate": 0.050314465408805034}
{"step": 1295512, "episode/length": 275.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.050724637681159424}
{"step": 1295531, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.466341885653409, "train/action_min": 0.0, "train/action_std": 3.3326779965198403, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.035703022512748386, "train/actor_opt_grad_steps": 646885.0, "train/actor_opt_loss": -12.40306377772129, "train/adv_mag": 0.4096957661888816, "train/adv_max": 0.32593912450653134, "train/adv_mean": 0.0017702403104825255, "train/adv_min": -0.3733313018173883, "train/adv_std": 0.0407098557687167, "train/cont_avg": 0.9950580018939394, "train/cont_loss_mean": 1.4107927262459311e-05, "train/cont_loss_std": 0.0003854444413487058, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00021808071723954315, "train/cont_pos_acc": 0.9999999711007783, "train/cont_pos_loss": 1.3296205137953104e-05, "train/cont_pred": 0.9950464286587455, "train/cont_rate": 0.9950580018939394, "train/dyn_loss_mean": 5.873111074621027, "train/dyn_loss_std": 9.06525528792179, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8562649325890974, "train/extr_critic_critic_opt_grad_steps": 646885.0, "train/extr_critic_critic_opt_loss": 15045.408558238636, "train/extr_critic_mag": 12.762449929208467, "train/extr_critic_max": 12.762449929208467, "train/extr_critic_mean": 3.7260177316087666, "train/extr_critic_min": -0.3423806302475207, "train/extr_critic_std": 3.0691447005127417, "train/extr_return_normed_mag": 1.3797091462395408, "train/extr_return_normed_max": 1.3797091462395408, "train/extr_return_normed_mean": 0.38947505391005316, "train/extr_return_normed_min": -0.06250090329823169, "train/extr_return_normed_std": 0.31786917782191076, "train/extr_return_rate": 0.8343158544916095, "train/extr_return_raw_mag": 13.394550005594889, "train/extr_return_raw_max": 13.394550005594889, "train/extr_return_raw_mean": 3.743274728457133, "train/extr_return_raw_min": -0.6612541296265342, "train/extr_return_raw_std": 3.0982410763249253, "train/extr_reward_mag": 1.0896609588102861, "train/extr_reward_max": 1.0896609588102861, "train/extr_reward_mean": 0.06669235381890427, "train/extr_reward_min": -0.571052352587382, "train/extr_reward_std": 0.2473813886895324, "train/image_loss_mean": 3.5404461405493994, "train/image_loss_std": 9.141514734788375, "train/model_loss_mean": 7.1324756145477295, "train/model_loss_std": 13.316876266941879, "train/model_opt_grad_norm": 19.410309040185176, "train/model_opt_grad_steps": 646353.0, "train/model_opt_loss": 17831.189009232956, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.715623465451327, "train/policy_entropy_max": 2.715623465451327, "train/policy_entropy_mean": 0.4657723000555327, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6841160393122471, "train/policy_logprob_mag": 7.438384251161055, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4661498918677821, "train/policy_logprob_min": -7.438384251161055, "train/policy_logprob_std": 1.0853076821023768, "train/policy_randomness_mag": 0.9584959095174616, "train/policy_randomness_max": 0.9584959095174616, "train/policy_randomness_mean": 0.16439718346704135, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24146293871330493, "train/post_ent_mag": 55.11836797540838, "train/post_ent_max": 55.11836797540838, "train/post_ent_mean": 39.78303585630475, "train/post_ent_min": 19.448107676072553, "train/post_ent_std": 5.736985141580755, "train/prior_ent_mag": 76.73788405909683, "train/prior_ent_max": 76.73788405909683, "train/prior_ent_mean": 45.60387004505504, "train/prior_ent_min": 27.301407727328215, "train/prior_ent_std": 7.989190600135109, "train/rep_loss_mean": 5.873111074621027, "train/rep_loss_std": 9.06525528792179, "train/reward_avg": 0.05366802768725337, "train/reward_loss_mean": 0.0681487608588103, "train/reward_loss_std": 0.23787428054845694, "train/reward_max_data": 1.034848493157011, "train/reward_max_pred": 1.0323587800517227, "train/reward_neg_acc": 0.9919050073984897, "train/reward_neg_loss": 0.027499936662162796, "train/reward_pos_acc": 0.9872677253954338, "train/reward_pos_loss": 0.726996612368208, "train/reward_pred": 0.05318470863681851, "train/reward_rate": 0.05791311553030303, "stats/sum_log_reward": 12.900000190734863, "stats/max_log_achievement_collect_coal": 0.8, "stats/max_log_achievement_collect_drink": 5.6, "stats/max_log_achievement_collect_iron": 0.2, "stats/max_log_achievement_collect_sapling": 2.6, "stats/max_log_achievement_collect_stone": 17.0, "stats/max_log_achievement_collect_wood": 12.8, "stats/max_log_achievement_defeat_skeleton": 0.4, "stats/max_log_achievement_defeat_zombie": 2.8, "stats/max_log_achievement_eat_cow": 0.4, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.6, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2, "stats/max_log_achievement_place_furnace": 2.2, "stats/max_log_achievement_place_plant": 2.4, "stats/max_log_achievement_place_stone": 4.0, "stats/max_log_achievement_place_table": 4.0, "stats/max_log_achievement_wake_up": 2.0, "stats/mean_log_entropy": 0.6325125932693482, "replay/size": 1000000.0, "replay/inserts": 1318.0, "replay/samples": 10544.0, "replay/insert_wait_avg": 3.5969006273561978e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3767180565818127e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.4492530822754, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026293277740478516, "timer/logger.write_frac": 8.751320720800172e-05, "timer/logger.write_avg": 0.026293277740478516, "timer/logger.write_min": 0.026293277740478516, "timer/logger.write_max": 0.026293277740478516, "timer/replay.add_count": 1318.0, "timer/replay.add_total": 0.25930047035217285, "timer/replay.add_frac": 0.000863042486183734, "timer/replay.add_avg": 0.0001967378378999794, "timer/replay.add_min": 7.891654968261719e-05, "timer/replay.add_max": 0.0009303092956542969, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1318.0, "timer/env.step_total": 15.513557434082031, "timer/env.step_frac": 0.051634534867137045, "timer/env.step_avg": 0.011770529160912011, "timer/env.step_min": 0.0030798912048339844, "timer/env.step_max": 1.6582379341125488, "timer/agent.policy_count": 1318.0, "timer/agent.policy_total": 9.61086654663086, "timer/agent.policy_frac": 0.03198831898576565, "timer/agent.policy_avg": 0.0072920080019960995, "timer/agent.policy_min": 0.0056645870208740234, "timer/agent.policy_max": 0.015941619873046875, "timer/dataset_count": 659.0, "timer/dataset_total": 0.053455352783203125, "timer/dataset_frac": 0.00017791807513185877, "timer/dataset_avg": 8.11158615830093e-05, "timer/dataset_min": 6.365776062011719e-05, "timer/dataset_max": 0.00013589859008789062, "timer/agent.train_count": 659.0, "timer/agent.train_total": 274.2943048477173, "timer/agent.train_frac": 0.9129472016780291, "timer/agent.train_avg": 0.4162280801938047, "timer/agent.train_min": 0.3738560676574707, "timer/agent.train_max": 0.45011234283447266, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.25824809074401855, "timer/agent.report_frac": 0.0008595397994659005, "timer/agent.report_avg": 0.25824809074401855, "timer/agent.report_min": 0.25824809074401855, "timer/agent.report_max": 0.25824809074401855, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.386689796301761}
{"step": 1295781, "episode/length": 268.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.055762081784386616}
{"step": 1295978, "episode/length": 196.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.700000040233135, "episode/reward_rate": 0.06598984771573604}
{"step": 1296034, "episode/length": 55.0, "episode/score": 6.100000023841858, "episode/sum_abs_reward": 7.899999976158142, "episode/reward_rate": 0.14285714285714285}
{"step": 1296252, "episode/length": 217.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.06422018348623854}
{"step": 1296506, "episode/length": 253.0, "episode/score": 11.099999979138374, "episode/sum_abs_reward": 14.500000044703484, "episode/reward_rate": 0.047244094488188976}
{"step": 1296743, "episode/length": 236.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.05907172995780591}
{"step": 1296823, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.492400653545673, "train/action_min": 0.0, "train/action_std": 3.377616566878099, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03474941740815456, "train/actor_opt_grad_steps": 647540.0, "train/actor_opt_loss": -10.600030716107442, "train/adv_mag": 0.357362067928681, "train/adv_max": 0.3093227789952205, "train/adv_mean": 0.0016995989596650292, "train/adv_min": -0.3327517126615231, "train/adv_std": 0.0393433695515761, "train/cont_avg": 0.9950871394230769, "train/cont_loss_mean": 0.00019770068357407065, "train/cont_loss_std": 0.006212227766516776, "train/cont_neg_acc": 0.9948717951774597, "train/cont_neg_loss": 0.05689559811383684, "train/cont_pos_acc": 0.9999849163568937, "train/cont_pos_loss": 3.0941477410314414e-05, "train/cont_pred": 0.9950783766233005, "train/cont_rate": 0.9950871394230769, "train/dyn_loss_mean": 5.9682895220243015, "train/dyn_loss_std": 9.074579532329853, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8316998243331909, "train/extr_critic_critic_opt_grad_steps": 647540.0, "train/extr_critic_critic_opt_loss": 14902.294756610578, "train/extr_critic_mag": 12.808876888568586, "train/extr_critic_max": 12.808876888568586, "train/extr_critic_mean": 3.646530041327843, "train/extr_critic_min": -0.3630539472286518, "train/extr_critic_std": 3.0613413664010856, "train/extr_return_normed_mag": 1.3839011339040903, "train/extr_return_normed_max": 1.3839011339040903, "train/extr_return_normed_mean": 0.382881662937311, "train/extr_return_normed_min": -0.05917059309207476, "train/extr_return_normed_std": 0.31542050677996414, "train/extr_return_rate": 0.8241226434707641, "train/extr_return_raw_mag": 13.444407580449031, "train/extr_return_raw_max": 13.444407580449031, "train/extr_return_raw_mean": 3.6631368563725397, "train/extr_return_raw_min": -0.6565611406014515, "train/extr_return_raw_std": 3.0822862148284913, "train/extr_reward_mag": 1.0915221691131591, "train/extr_reward_max": 1.0915221691131591, "train/extr_reward_mean": 0.06462671871368701, "train/extr_reward_min": -0.58209786598499, "train/extr_reward_std": 0.24328152147623208, "train/image_loss_mean": 3.5287372515751767, "train/image_loss_std": 8.792290929647592, "train/model_loss_mean": 7.175270770146296, "train/model_loss_std": 12.989706523601825, "train/model_opt_grad_norm": 21.19814687875601, "train/model_opt_grad_steps": 647007.323076923, "train/model_opt_loss": 19352.542427884615, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2692.3076923076924, "train/policy_entropy_mag": 2.7354382991790773, "train/policy_entropy_max": 2.7354382991790773, "train/policy_entropy_mean": 0.4947928841297443, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7154666052414821, "train/policy_logprob_mag": 7.438384305513822, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4949115867798145, "train/policy_logprob_min": -7.438384305513822, "train/policy_logprob_std": 1.1030403861632714, "train/policy_randomness_mag": 0.9654896745314965, "train/policy_randomness_max": 0.9654896745314965, "train/policy_randomness_mean": 0.17464017661718223, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.25252831280231475, "train/post_ent_mag": 55.1439942580003, "train/post_ent_max": 55.1439942580003, "train/post_ent_mean": 39.646541067270135, "train/post_ent_min": 19.461414880018967, "train/post_ent_std": 5.7693857999948355, "train/prior_ent_mag": 76.87112215482271, "train/prior_ent_max": 76.87112215482271, "train/prior_ent_mean": 45.58931473952073, "train/prior_ent_min": 26.94607006953313, "train/prior_ent_std": 8.037493199568528, "train/rep_loss_mean": 5.9682895220243015, "train/rep_loss_std": 9.074579532329853, "train/reward_avg": 0.05152644196955057, "train/reward_loss_mean": 0.06536208459964166, "train/reward_loss_std": 0.232053168461873, "train/reward_max_data": 1.0338461619157058, "train/reward_max_pred": 1.0327422123688919, "train/reward_neg_acc": 0.9928731138889606, "train/reward_neg_loss": 0.02620180808007717, "train/reward_pos_acc": 0.9883943814497728, "train/reward_pos_loss": 0.7267357211846571, "train/reward_pred": 0.05107935887689774, "train/reward_rate": 0.055919471153846156, "stats/sum_log_reward": 11.600000143051147, "stats/max_log_achievement_collect_coal": 0.3333333333333333, "stats/max_log_achievement_collect_drink": 1.8333333333333333, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 8.166666666666666, "stats/max_log_achievement_collect_wood": 12.5, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 2.1666666666666665, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 2.0, "stats/max_log_achievement_place_table": 3.3333333333333335, "stats/max_log_achievement_wake_up": 0.8333333333333334, "stats/mean_log_entropy": 0.38132209082444507, "replay/size": 1000000.0, "replay/inserts": 1292.0, "replay/samples": 10336.0, "replay/insert_wait_avg": 3.5618849952154484e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3883684072701186e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 299.9907057285309, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024832487106323242, "timer/logger.write_frac": 8.277752154360003e-05, "timer/logger.write_avg": 0.024832487106323242, "timer/logger.write_min": 0.024832487106323242, "timer/logger.write_max": 0.024832487106323242, "timer/replay.add_count": 1292.0, "timer/replay.add_total": 0.2567329406738281, "timer/replay.add_frac": 0.0008558029824635707, "timer/replay.add_avg": 0.00019870970640389175, "timer/replay.add_min": 8.463859558105469e-05, "timer/replay.add_max": 0.0008528232574462891, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1292.0, "timer/env.step_total": 17.142669439315796, "timer/env.step_frac": 0.05714400183727234, "timer/env.step_avg": 0.01326831999947043, "timer/env.step_min": 0.003149271011352539, "timer/env.step_max": 1.710815668106079, "timer/agent.policy_count": 1292.0, "timer/agent.policy_total": 13.783870935440063, "timer/agent.policy_frac": 0.04594765995155008, "timer/agent.policy_avg": 0.01066863075498457, "timer/agent.policy_min": 0.005619525909423828, "timer/agent.policy_max": 3.1436867713928223, "timer/dataset_count": 646.0, "timer/dataset_total": 0.0521235466003418, "timer/dataset_frac": 0.00017375053828337504, "timer/dataset_avg": 8.068660464449195e-05, "timer/dataset_min": 6.079673767089844e-05, "timer/dataset_max": 0.00016450881958007812, "timer/agent.train_count": 646.0, "timer/agent.train_total": 268.0789272785187, "timer/agent.train_frac": 0.8936241095452805, "timer/agent.train_avg": 0.4149828595642704, "timer/agent.train_min": 0.3667869567871094, "timer/agent.train_max": 0.5253076553344727, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.23163580894470215, "timer/agent.report_frac": 0.0007721432848466819, "timer/agent.report_avg": 0.23163580894470215, "timer/agent.report_min": 0.23163580894470215, "timer/agent.report_max": 0.23163580894470215, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0001766681671142578, "timer/checkpoint.save_frac": 5.889121354117193e-07, "timer/checkpoint.save_avg": 0.0001766681671142578, "timer/checkpoint.save_min": 0.0001766681671142578, "timer/checkpoint.save_max": 0.0001766681671142578, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1765618324279785, "timer/agent.save_frac": 0.0039219942816917765, "timer/agent.save_avg": 1.1765618324279785, "timer/agent.save_min": 1.1765618324279785, "timer/agent.save_max": 1.1765618324279785, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.367134094238281e-05, "timer/replay.save_frac": 2.4557874472634447e-07, "timer/replay.save_avg": 7.367134094238281e-05, "timer/replay.save_min": 7.367134094238281e-05, "timer/replay.save_max": 7.367134094238281e-05, "fps": 4.306749827941712}
{"step": 1296918, "episode/length": 174.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.08}
{"step": 1297241, "episode/length": 322.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.700000002980232, "episode/reward_rate": 0.04953560371517028}
{"step": 1297281, "episode/length": 39.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.1}
{"step": 1297326, "episode/length": 44.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.100000016391277, "episode/reward_rate": 0.06666666666666667}
{"step": 1297492, "episode/length": 165.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.060240963855421686}
{"step": 1297530, "episode/length": 37.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.100000016391277, "episode/reward_rate": 0.07894736842105263}
{"step": 1297736, "episode/length": 205.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.500000037252903, "episode/reward_rate": 0.07281553398058252}
{"step": 1297952, "episode/length": 215.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.06481481481481481}
{"step": 1298121, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.421454326923077, "train/action_min": 0.0, "train/action_std": 3.2785129913916955, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0344366039794225, "train/actor_opt_grad_steps": 648190.0, "train/actor_opt_loss": -11.275526262246645, "train/adv_mag": 0.368076491355896, "train/adv_max": 0.30698698163032534, "train/adv_mean": 0.0017337472249682132, "train/adv_min": -0.3326833683710832, "train/adv_std": 0.039694861609202166, "train/cont_avg": 0.9953725961538461, "train/cont_loss_mean": 3.582141482682416e-05, "train/cont_loss_std": 0.0010682211346053148, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0018197501146681556, "train/cont_pos_acc": 0.9999848521672763, "train/cont_pos_loss": 2.541975713064368e-05, "train/cont_pred": 0.9953599315423232, "train/cont_rate": 0.9953725961538461, "train/dyn_loss_mean": 5.657242378821739, "train/dyn_loss_std": 8.886442477886494, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8518885291539706, "train/extr_critic_critic_opt_grad_steps": 648190.0, "train/extr_critic_critic_opt_loss": 14838.555303485577, "train/extr_critic_mag": 12.71962162898137, "train/extr_critic_max": 12.71962162898137, "train/extr_critic_mean": 3.718056062551645, "train/extr_critic_min": -0.3218955846933218, "train/extr_critic_std": 3.0119853459871733, "train/extr_return_normed_mag": 1.409102518741901, "train/extr_return_normed_max": 1.409102518741901, "train/extr_return_normed_mean": 0.39620528129430915, "train/extr_return_normed_min": -0.06605950806003351, "train/extr_return_normed_std": 0.31836897822526783, "train/extr_return_rate": 0.8381801302616413, "train/extr_return_raw_mag": 13.395473847022423, "train/extr_return_raw_max": 13.395473847022423, "train/extr_return_raw_mean": 3.7345713688777042, "train/extr_return_raw_min": -0.6745271989932426, "train/extr_return_raw_std": 3.036995865748479, "train/extr_reward_mag": 1.09260930281419, "train/extr_reward_max": 1.09260930281419, "train/extr_reward_mean": 0.06489433468534396, "train/extr_reward_min": -0.5979706214024471, "train/extr_reward_std": 0.24397427714787998, "train/image_loss_mean": 3.528824813549335, "train/image_loss_std": 8.871962642669677, "train/model_loss_mean": 6.988221454620361, "train/model_loss_std": 12.986894710247332, "train/model_opt_grad_norm": 17.981545184208798, "train/model_opt_grad_steps": 647657.0, "train/model_opt_loss": 19544.75088641827, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2846.153846153846, "train/policy_entropy_mag": 2.7432712114774263, "train/policy_entropy_max": 2.7432712114774263, "train/policy_entropy_mean": 0.4829058151978713, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.708560035778926, "train/policy_logprob_mag": 7.438384276169997, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4825424804137303, "train/policy_logprob_min": -7.438384276169997, "train/policy_logprob_std": 1.0950841656097998, "train/policy_randomness_mag": 0.9682543525329003, "train/policy_randomness_max": 0.9682543525329003, "train/policy_randomness_mean": 0.1704445642920641, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.25009060066479905, "train/post_ent_mag": 55.57749962439904, "train/post_ent_max": 55.57749962439904, "train/post_ent_mean": 39.93483605018029, "train/post_ent_min": 19.69303157512958, "train/post_ent_std": 5.8209735356844385, "train/prior_ent_mag": 76.83745387150691, "train/prior_ent_max": 76.83745387150691, "train/prior_ent_mean": 45.59114908071665, "train/prior_ent_min": 27.202535482553337, "train/prior_ent_std": 7.980535683265099, "train/rep_loss_mean": 5.657242378821739, "train/rep_loss_std": 8.886442477886494, "train/reward_avg": 0.053638821553725465, "train/reward_loss_mean": 0.06501536203118471, "train/reward_loss_std": 0.23041134407887093, "train/reward_max_data": 1.0338461619157058, "train/reward_max_pred": 1.0318354386549728, "train/reward_neg_acc": 0.9925745643102206, "train/reward_neg_loss": 0.024895643528837424, "train/reward_pos_acc": 0.9916828238047086, "train/reward_pos_loss": 0.7196481585502624, "train/reward_pred": 0.05308946806650895, "train/reward_rate": 0.05772235576923077, "stats/sum_log_reward": 8.850000083446503, "stats/max_log_achievement_collect_coal": 0.125, "stats/max_log_achievement_collect_drink": 2.625, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.25, "stats/max_log_achievement_collect_stone": 8.5, "stats/max_log_achievement_collect_wood": 8.75, "stats/max_log_achievement_defeat_skeleton": 0.25, "stats/max_log_achievement_defeat_zombie": 0.625, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "stats/max_log_achievement_make_stone_sword": 0.625, "stats/max_log_achievement_make_wood_pickaxe": 0.625, "stats/max_log_achievement_make_wood_sword": 0.625, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.25, "stats/max_log_achievement_place_stone": 2.875, "stats/max_log_achievement_place_table": 2.25, "stats/max_log_achievement_wake_up": 0.75, "stats/mean_log_entropy": 0.2752264868468046, "replay/size": 1000000.0, "replay/inserts": 1298.0, "replay/samples": 10384.0, "replay/insert_wait_avg": 3.5606657595406696e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3721926002913889e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3596787452698, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024828195571899414, "timer/logger.write_frac": 8.2661546568492e-05, "timer/logger.write_avg": 0.024828195571899414, "timer/logger.write_min": 0.024828195571899414, "timer/logger.write_max": 0.024828195571899414, "timer/replay.add_count": 1298.0, "timer/replay.add_total": 0.2583494186401367, "timer/replay.add_frac": 0.0008601334896860065, "timer/replay.add_avg": 0.0001990365320802286, "timer/replay.add_min": 8.130073547363281e-05, "timer/replay.add_max": 0.0011839866638183594, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1298.0, "timer/env.step_total": 19.90419292449951, "timer/env.step_frac": 0.06626785928007313, "timer/env.step_avg": 0.01533450918682551, "timer/env.step_min": 0.002928018569946289, "timer/env.step_max": 1.6228442192077637, "timer/agent.policy_count": 1298.0, "timer/agent.policy_total": 9.693360090255737, "timer/agent.policy_frac": 0.032272507850417964, "timer/agent.policy_avg": 0.0074679199462679025, "timer/agent.policy_min": 0.005620479583740234, "timer/agent.policy_max": 0.09807729721069336, "timer/dataset_count": 649.0, "timer/dataset_total": 0.05254054069519043, "timer/dataset_frac": 0.00017492541247438615, "timer/dataset_avg": 8.095614899104842e-05, "timer/dataset_min": 6.318092346191406e-05, "timer/dataset_max": 0.00012612342834472656, "timer/agent.train_count": 649.0, "timer/agent.train_total": 269.7835021018982, "timer/agent.train_frac": 0.8982014604253764, "timer/agent.train_avg": 0.41569106641278614, "timer/agent.train_min": 0.37425684928894043, "timer/agent.train_max": 0.4526524543762207, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22018790245056152, "timer/agent.report_frac": 0.0007330807629385546, "timer/agent.report_avg": 0.22018790245056152, "timer/agent.report_min": 0.22018790245056152, "timer/agent.report_max": 0.22018790245056152, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.32140480522773}
{"step": 1298190, "episode/length": 237.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.06302521008403361}
{"step": 1298482, "episode/length": 291.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 18.300000064074993, "episode/reward_rate": 0.0547945205479452}
{"step": 1298733, "episode/length": 250.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.05976095617529881}
{"step": 1299043, "episode/length": 309.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 18.10000006109476, "episode/reward_rate": 0.05161290322580645}
{"step": 1299305, "episode/length": 261.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 14.900000013411045, "episode/reward_rate": 0.05343511450381679}
{"step": 1299439, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.511913877544981, "train/action_min": 0.0, "train/action_std": 3.3410371469728872, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03555925023939573, "train/actor_opt_grad_steps": 648845.0, "train/actor_opt_loss": -10.62569415591883, "train/adv_mag": 0.41154430535706604, "train/adv_max": 0.33489172431555664, "train/adv_mean": 0.002161831143894233, "train/adv_min": -0.3603164820056973, "train/adv_std": 0.04099118782941139, "train/cont_avg": 0.9954279119318182, "train/cont_loss_mean": 6.255597602858236e-06, "train/cont_loss_std": 0.00014575268592883125, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00023948751982202793, "train/cont_pos_acc": 0.9999999828410872, "train/cont_pos_loss": 5.132542348893352e-06, "train/cont_pred": 0.9954240493702166, "train/cont_rate": 0.9954279119318182, "train/dyn_loss_mean": 5.827135396726204, "train/dyn_loss_std": 9.03500155246619, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8706203961011135, "train/extr_critic_critic_opt_grad_steps": 648845.0, "train/extr_critic_critic_opt_loss": 14963.52772845644, "train/extr_critic_mag": 12.513009360342314, "train/extr_critic_max": 12.513009360342314, "train/extr_critic_mean": 3.7913183624094184, "train/extr_critic_min": -0.3041226863861084, "train/extr_critic_std": 3.020546165379611, "train/extr_return_normed_mag": 1.3881925091598972, "train/extr_return_normed_max": 1.3881925091598972, "train/extr_return_normed_mean": 0.4021155698732896, "train/extr_return_normed_min": -0.06563458775141925, "train/extr_return_normed_std": 0.3196428203673074, "train/extr_return_rate": 0.8391651339603193, "train/extr_return_raw_mag": 13.223511117877383, "train/extr_return_raw_max": 13.223511117877383, "train/extr_return_raw_mean": 3.8119312633167612, "train/extr_return_raw_min": -0.6521400258396611, "train/extr_return_raw_std": 3.050795742959687, "train/extr_reward_mag": 1.0864666411370942, "train/extr_reward_max": 1.0864666411370942, "train/extr_reward_mean": 0.06658579753429601, "train/extr_reward_min": -0.530526092558196, "train/extr_reward_std": 0.24701177690065268, "train/image_loss_mean": 3.5440312190489336, "train/image_loss_std": 9.004785877285581, "train/model_loss_mean": 7.108552007964163, "train/model_loss_std": 13.157355265183883, "train/model_opt_grad_norm": 19.98614030984732, "train/model_opt_grad_steps": 648311.3484848485, "train/model_opt_loss": 24237.178622159092, "train/model_opt_model_opt_grad_overflow": 0.015151515151515152, "train/model_opt_model_opt_grad_scale": 3371.212121212121, "train/policy_entropy_mag": 2.7326268210555567, "train/policy_entropy_max": 2.7326268210555567, "train/policy_entropy_mean": 0.47970956473639514, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7038633493763028, "train/policy_logprob_mag": 7.438384265610666, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.48056918518109754, "train/policy_logprob_min": -7.438384265610666, "train/policy_logprob_std": 1.0951563508221598, "train/policy_randomness_mag": 0.9644973449634783, "train/policy_randomness_max": 0.9644973449634783, "train/policy_randomness_mean": 0.16931642456488175, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2484328749053406, "train/post_ent_mag": 55.120075399225406, "train/post_ent_max": 55.120075399225406, "train/post_ent_mean": 39.82209379022772, "train/post_ent_min": 19.45597930388017, "train/post_ent_std": 5.76298797491825, "train/prior_ent_mag": 76.82778098366477, "train/prior_ent_max": 76.82778098366477, "train/prior_ent_mean": 45.64883301474831, "train/prior_ent_min": 27.691899530815355, "train/prior_ent_std": 7.975094340064309, "train/rep_loss_mean": 5.827135396726204, "train/rep_loss_std": 9.03500155246619, "train/reward_avg": 0.05549982215531848, "train/reward_loss_mean": 0.06823332794010639, "train/reward_loss_std": 0.233713567934253, "train/reward_max_data": 1.0333333412806194, "train/reward_max_pred": 1.0332911881533535, "train/reward_neg_acc": 0.9918535965861697, "train/reward_neg_loss": 0.02652323902161284, "train/reward_pos_acc": 0.9891369315710935, "train/reward_pos_loss": 0.7248333981542876, "train/reward_pred": 0.05499813186399864, "train/reward_rate": 0.05965909090909091, "stats/sum_log_reward": 14.300000381469726, "stats/max_log_achievement_collect_coal": 0.4, "stats/max_log_achievement_collect_drink": 2.8, "stats/max_log_achievement_collect_iron": 0.8, "stats/max_log_achievement_collect_sapling": 2.8, "stats/max_log_achievement_collect_stone": 17.2, "stats/max_log_achievement_collect_wood": 14.0, "stats/max_log_achievement_defeat_skeleton": 0.2, "stats/max_log_achievement_defeat_zombie": 2.2, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_stone_pickaxe": 1.4, "stats/max_log_achievement_make_stone_sword": 1.2, "stats/max_log_achievement_make_wood_pickaxe": 1.2, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.4, "stats/max_log_achievement_place_plant": 2.4, "stats/max_log_achievement_place_stone": 3.8, "stats/max_log_achievement_place_table": 4.4, "stats/max_log_achievement_wake_up": 1.6, "stats/mean_log_entropy": 0.6559101402759552, "replay/size": 1000000.0, "replay/inserts": 1318.0, "replay/samples": 10544.0, "replay/insert_wait_avg": 3.6318132113976255e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3968425383155372e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2674722671509, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026279926300048828, "timer/logger.write_frac": 8.752172222193726e-05, "timer/logger.write_avg": 0.026279926300048828, "timer/logger.write_min": 0.026279926300048828, "timer/logger.write_max": 0.026279926300048828, "timer/replay.add_count": 1318.0, "timer/replay.add_total": 0.26546192169189453, "timer/replay.add_frac": 0.0008840848450467871, "timer/replay.add_avg": 0.0002014126871713919, "timer/replay.add_min": 8.988380432128906e-05, "timer/replay.add_max": 0.0016279220581054688, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1318.0, "timer/env.step_total": 15.884937524795532, "timer/env.step_frac": 0.05290262513237714, "timer/env.step_avg": 0.012052304647037581, "timer/env.step_min": 0.003223419189453125, "timer/env.step_max": 1.6249351501464844, "timer/agent.policy_count": 1318.0, "timer/agent.policy_total": 9.851680994033813, "timer/agent.policy_frac": 0.032809684377895845, "timer/agent.policy_avg": 0.007474720025822317, "timer/agent.policy_min": 0.005700588226318359, "timer/agent.policy_max": 0.015106201171875, "timer/dataset_count": 659.0, "timer/dataset_total": 0.05401134490966797, "timer/dataset_frac": 0.0001798774422745783, "timer/dataset_avg": 8.195955221497415e-05, "timer/dataset_min": 6.198883056640625e-05, "timer/dataset_max": 0.00014019012451171875, "timer/agent.train_count": 659.0, "timer/agent.train_total": 273.5400068759918, "timer/agent.train_frac": 0.9109878096706413, "timer/agent.train_avg": 0.4150834702215354, "timer/agent.train_min": 0.367063045501709, "timer/agent.train_max": 0.45228028297424316, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21784114837646484, "timer/agent.report_frac": 0.0007254903327745387, "timer/agent.report_avg": 0.21784114837646484, "timer/agent.report_min": 0.21784114837646484, "timer/agent.report_max": 0.21784114837646484, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.389342603592313}
{"step": 1299517, "episode/length": 211.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.900000028312206, "episode/reward_rate": 0.07547169811320754}
{"step": 1300026, "episode/length": 508.0, "episode/score": 15.099999964237213, "episode/sum_abs_reward": 18.30000001192093, "episode/reward_rate": 0.03143418467583497}
{"step": 1300197, "episode/length": 170.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.07602339181286549}
{"step": 1300370, "episode/length": 172.0, "episode/score": 10.099999979138374, "episode/sum_abs_reward": 11.5, "episode/reward_rate": 0.06358381502890173}
{"step": 1300532, "episode/length": 161.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.08024691358024691}
{"step": 1300733, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.472455978393555, "train/action_min": 0.0, "train/action_std": 3.298720460385084, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03613993717590347, "train/actor_opt_grad_steps": 649495.0, "train/actor_opt_loss": -10.844817435368896, "train/adv_mag": 0.4132125424221158, "train/adv_max": 0.31733761518262327, "train/adv_mean": 0.0018895775249188063, "train/adv_min": -0.3862373330630362, "train/adv_std": 0.040241069335024804, "train/cont_avg": 0.9950714111328125, "train/cont_loss_mean": 9.334723698128933e-06, "train/cont_loss_std": 0.00025230735991943476, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 2.833217335871177e-05, "train/cont_pos_acc": 0.9999999832361937, "train/cont_pos_loss": 9.238469393046955e-06, "train/cont_pred": 0.9950627163052559, "train/cont_rate": 0.9950714111328125, "train/dyn_loss_mean": 5.810845270752907, "train/dyn_loss_std": 9.022498548030853, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8569208020344377, "train/extr_critic_critic_opt_grad_steps": 649495.0, "train/extr_critic_critic_opt_loss": 15047.450729370117, "train/extr_critic_mag": 12.519224926829338, "train/extr_critic_max": 12.519224926829338, "train/extr_critic_mean": 3.653626050800085, "train/extr_critic_min": -0.3279421776533127, "train/extr_critic_std": 3.0482164286077023, "train/extr_return_normed_mag": 1.375423438847065, "train/extr_return_normed_max": 1.375423438847065, "train/extr_return_normed_mean": 0.3853408491704613, "train/extr_return_normed_min": -0.07054607011377811, "train/extr_return_normed_std": 0.31980797508731484, "train/extr_return_rate": 0.8202148890122771, "train/extr_return_raw_mag": 13.180629894137383, "train/extr_return_raw_max": 13.180629894137383, "train/extr_return_raw_mean": 3.671749286353588, "train/extr_return_raw_min": -0.7064440636895597, "train/extr_return_raw_std": 3.0714632607996464, "train/extr_reward_mag": 1.087877046316862, "train/extr_reward_max": 1.087877046316862, "train/extr_reward_mean": 0.0650251284823753, "train/extr_reward_min": -0.6063519045710564, "train/extr_reward_std": 0.24418936460278928, "train/image_loss_mean": 3.6218168660998344, "train/image_loss_std": 8.34477549791336, "train/model_loss_mean": 7.175800271332264, "train/model_loss_std": 12.50005666911602, "train/model_opt_grad_norm": 21.80790811777115, "train/model_opt_grad_steps": 648961.0, "train/model_opt_loss": 19724.1534576416, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2734.375, "train/policy_entropy_mag": 2.7210508286952972, "train/policy_entropy_max": 2.7210508286952972, "train/policy_entropy_mean": 0.47149169771000743, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6699972385540605, "train/policy_logprob_mag": 7.4383842423558235, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.47009268030524254, "train/policy_logprob_min": -7.4383842423558235, "train/policy_logprob_std": 1.0800511110574007, "train/policy_randomness_mag": 0.9604115327820182, "train/policy_randomness_max": 0.9604115327820182, "train/policy_randomness_mean": 0.1664158774074167, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.236479623708874, "train/post_ent_mag": 55.26693594455719, "train/post_ent_max": 55.26693594455719, "train/post_ent_mean": 39.951252579689026, "train/post_ent_min": 19.33880165219307, "train/post_ent_std": 5.824865870177746, "train/prior_ent_mag": 76.73317730426788, "train/prior_ent_max": 76.73317730426788, "train/prior_ent_mean": 45.745019018650055, "train/prior_ent_min": 27.53661620616913, "train/prior_ent_std": 7.90339519828558, "train/rep_loss_mean": 5.810845270752907, "train/rep_loss_std": 9.022498548030853, "train/reward_avg": 0.05268402025103569, "train/reward_loss_mean": 0.0674670070875436, "train/reward_loss_std": 0.23286865465342999, "train/reward_max_data": 1.0375000089406967, "train/reward_max_pred": 1.0356402583420277, "train/reward_neg_acc": 0.9918661154806614, "train/reward_neg_loss": 0.028008275825413875, "train/reward_pos_acc": 0.9899665731936693, "train/reward_pos_loss": 0.7208305737003684, "train/reward_pred": 0.05235596123384312, "train/reward_rate": 0.057037353515625, "stats/sum_log_reward": 12.900000190734863, "stats/max_log_achievement_collect_coal": 1.2, "stats/max_log_achievement_collect_drink": 3.8, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 16.4, "stats/max_log_achievement_collect_wood": 10.4, "stats/max_log_achievement_defeat_skeleton": 0.2, "stats/max_log_achievement_defeat_zombie": 1.2, "stats/max_log_achievement_eat_cow": 0.6, "stats/max_log_achievement_make_stone_pickaxe": 0.6, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.2, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.8, "stats/max_log_achievement_place_plant": 1.6, "stats/max_log_achievement_place_stone": 6.6, "stats/max_log_achievement_place_table": 2.4, "stats/max_log_achievement_wake_up": 2.6, "stats/mean_log_entropy": 0.4982550829648972, "replay/size": 1000000.0, "replay/inserts": 1294.0, "replay/samples": 10352.0, "replay/insert_wait_avg": 3.617182028533134e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3793362347751717e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1865530014038, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02499246597290039, "timer/logger.write_frac": 8.325644744247926e-05, "timer/logger.write_avg": 0.02499246597290039, "timer/logger.write_min": 0.02499246597290039, "timer/logger.write_max": 0.02499246597290039, "timer/replay.add_count": 1294.0, "timer/replay.add_total": 0.2541332244873047, "timer/replay.add_frac": 0.0008465843054805864, "timer/replay.add_avg": 0.0001963935274245013, "timer/replay.add_min": 8.606910705566406e-05, "timer/replay.add_max": 0.0009052753448486328, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1294.0, "timer/env.step_total": 16.353111267089844, "timer/env.step_frac": 0.054476495044777605, "timer/env.step_avg": 0.012637643946746402, "timer/env.step_min": 0.003005504608154297, "timer/env.step_max": 1.6440565586090088, "timer/agent.policy_count": 1294.0, "timer/agent.policy_total": 13.614607810974121, "timer/agent.policy_frac": 0.04535382306385474, "timer/agent.policy_avg": 0.010521335248048007, "timer/agent.policy_min": 0.005698680877685547, "timer/agent.policy_max": 2.619788408279419, "timer/dataset_count": 647.0, "timer/dataset_total": 0.053109169006347656, "timer/dataset_frac": 0.000176920546491299, "timer/dataset_avg": 8.208526894335032e-05, "timer/dataset_min": 6.341934204101562e-05, "timer/dataset_max": 0.0001552104949951172, "timer/agent.train_count": 647.0, "timer/agent.train_total": 269.2324240207672, "timer/agent.train_frac": 0.8968836922535572, "timer/agent.train_avg": 0.4161243029687283, "timer/agent.train_min": 0.3732450008392334, "timer/agent.train_max": 0.44910645484924316, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.23231172561645508, "timer/agent.report_frac": 0.0007738911796471066, "timer/agent.report_avg": 0.23231172561645508, "timer/agent.report_min": 0.23231172561645508, "timer/agent.report_max": 0.23231172561645508, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004305839538574219, "timer/checkpoint.save_frac": 1.4343878816430803e-06, "timer/checkpoint.save_avg": 0.0004305839538574219, "timer/checkpoint.save_min": 0.0004305839538574219, "timer/checkpoint.save_max": 0.0004305839538574219, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4037978649139404, "timer/agent.save_frac": 0.004676418216865882, "timer/agent.save_avg": 1.4037978649139404, "timer/agent.save_min": 1.4037978649139404, "timer/agent.save_max": 1.4037978649139404, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.726119995117188e-05, "timer/replay.save_frac": 2.9068990292434517e-07, "timer/replay.save_avg": 8.726119995117188e-05, "timer/replay.save_min": 8.726119995117188e-05, "timer/replay.save_max": 8.726119995117188e-05, "fps": 4.310572848251896}
{"step": 1300774, "episode/length": 241.0, "episode/score": 9.099999971687794, "episode/sum_abs_reward": 11.500000037252903, "episode/reward_rate": 0.045454545454545456}
{"step": 1300994, "episode/length": 219.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.06363636363636363}
{"step": 1301222, "episode/length": 227.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.06578947368421052}
{"step": 1301485, "episode/length": 262.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.500000022351742, "episode/reward_rate": 0.060836501901140684}
{"step": 1301605, "episode/length": 119.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.09166666666666666}
{"step": 1301836, "episode/length": 230.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.30000001937151, "episode/reward_rate": 0.06926406926406926}
{"step": 1302045, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.517145330255682, "train/action_min": 0.0, "train/action_std": 3.3678599812767724, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03728601181258758, "train/actor_opt_grad_steps": 650145.0, "train/actor_opt_loss": -11.906459656628696, "train/adv_mag": 0.4073261975338965, "train/adv_max": 0.336025068479957, "train/adv_mean": 0.0015834350900237578, "train/adv_min": -0.36031379663583, "train/adv_std": 0.04135546584924062, "train/cont_avg": 0.9954575047348485, "train/cont_loss_mean": 3.381375938952639e-05, "train/cont_loss_std": 0.0010318451471520843, "train/cont_neg_acc": 0.9974747480768146, "train/cont_neg_loss": 0.00465760044437424, "train/cont_pos_acc": 0.9999999855503892, "train/cont_pos_loss": 9.093453616017225e-06, "train/cont_pred": 0.9954647783077124, "train/cont_rate": 0.9954575047348485, "train/dyn_loss_mean": 5.786460529674184, "train/dyn_loss_std": 9.087675990480365, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8597499637892752, "train/extr_critic_critic_opt_grad_steps": 650145.0, "train/extr_critic_critic_opt_loss": 15029.902861624054, "train/extr_critic_mag": 12.77642703778816, "train/extr_critic_max": 12.77642703778816, "train/extr_critic_mean": 3.7915537718570596, "train/extr_critic_min": -0.32331799015854346, "train/extr_critic_std": 3.061002189462835, "train/extr_return_normed_mag": 1.3856125022425796, "train/extr_return_normed_max": 1.3856125022425796, "train/extr_return_normed_mean": 0.3955871367996389, "train/extr_return_normed_min": -0.06866389538415453, "train/extr_return_normed_std": 0.3182311315428127, "train/extr_return_rate": 0.830448081999114, "train/extr_return_raw_mag": 13.423954862536807, "train/extr_return_raw_max": 13.423954862536807, "train/extr_return_raw_mean": 3.8069506161140674, "train/extr_return_raw_min": -0.7026019967866667, "train/extr_return_raw_std": 3.09105063568462, "train/extr_reward_mag": 1.091069712783351, "train/extr_reward_max": 1.091069712783351, "train/extr_reward_mean": 0.06650210815397176, "train/extr_reward_min": -0.5942943818641432, "train/extr_reward_std": 0.24692175356727658, "train/image_loss_mean": 3.673896222403555, "train/image_loss_std": 9.689171328689113, "train/model_loss_mean": 7.213299534537575, "train/model_loss_std": 13.81561347210046, "train/model_opt_grad_norm": 20.718871665723395, "train/model_opt_grad_steps": 649610.3484848485, "train/model_opt_loss": 24265.043338660038, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3371.212121212121, "train/policy_entropy_mag": 2.7341167999036387, "train/policy_entropy_max": 2.7341167999036387, "train/policy_entropy_mean": 0.48633401637727564, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7101645158095793, "train/policy_logprob_mag": 7.438384222261833, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.48623944548043335, "train/policy_logprob_min": -7.438384222261833, "train/policy_logprob_std": 1.0992174582047896, "train/policy_randomness_mag": 0.9650232466784391, "train/policy_randomness_max": 0.9650232466784391, "train/policy_randomness_mean": 0.17165456746112218, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.25065690911177435, "train/post_ent_mag": 55.16661314530806, "train/post_ent_max": 55.16661314530806, "train/post_ent_mean": 39.8534804835464, "train/post_ent_min": 19.35390418948549, "train/post_ent_std": 5.784403345801613, "train/prior_ent_mag": 76.79374382712625, "train/prior_ent_max": 76.79374382712625, "train/prior_ent_mean": 45.601006189982094, "train/prior_ent_min": 27.90402146541711, "train/prior_ent_std": 7.994091084509185, "train/rep_loss_mean": 5.786460529674184, "train/rep_loss_std": 9.087675990480365, "train/reward_avg": 0.05391660733430675, "train/reward_loss_mean": 0.06749310141259973, "train/reward_loss_std": 0.2341246749415542, "train/reward_max_data": 1.0393939487861865, "train/reward_max_pred": 1.0396312800320713, "train/reward_neg_acc": 0.9923298476320325, "train/reward_neg_loss": 0.027383549251791203, "train/reward_pos_acc": 0.9917087211753383, "train/reward_pos_loss": 0.7198246482646826, "train/reward_pred": 0.05367099725161538, "train/reward_rate": 0.058075875946969696, "stats/sum_log_reward": 12.600000381469727, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 4.333333333333333, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 2.6666666666666665, "stats/max_log_achievement_collect_stone": 14.333333333333334, "stats/max_log_achievement_collect_wood": 12.0, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.6666666666666667, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.5, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_stone": 3.6666666666666665, "stats/max_log_achievement_place_table": 3.1666666666666665, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.4091584235429764, "replay/size": 1000000.0, "replay/inserts": 1312.0, "replay/samples": 10496.0, "replay/insert_wait_avg": 3.832687691944401e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3934630082874764e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2218430042267, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.031662940979003906, "timer/logger.write_frac": 0.00010546514757941227, "timer/logger.write_avg": 0.031662940979003906, "timer/logger.write_min": 0.031662940979003906, "timer/logger.write_max": 0.031662940979003906, "timer/replay.add_count": 1312.0, "timer/replay.add_total": 0.2845284938812256, "timer/replay.add_frac": 0.0009477274905584397, "timer/replay.add_avg": 0.00021686623009239755, "timer/replay.add_min": 7.987022399902344e-05, "timer/replay.add_max": 0.0010488033294677734, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1312.0, "timer/env.step_total": 16.434756755828857, "timer/env.step_frac": 0.05474204205587226, "timer/env.step_avg": 0.012526491429747605, "timer/env.step_min": 0.002530336380004883, "timer/env.step_max": 1.8646786212921143, "timer/agent.policy_count": 1312.0, "timer/agent.policy_total": 9.885857105255127, "timer/agent.policy_frac": 0.03292850715434436, "timer/agent.policy_avg": 0.0075349520619322615, "timer/agent.policy_min": 0.005578041076660156, "timer/agent.policy_max": 0.017299413681030273, "timer/dataset_count": 656.0, "timer/dataset_total": 0.06459832191467285, "timer/dataset_frac": 0.00021516862753308527, "timer/dataset_avg": 9.847305169919641e-05, "timer/dataset_min": 6.461143493652344e-05, "timer/dataset_max": 0.0001590251922607422, "timer/agent.train_count": 656.0, "timer/agent.train_total": 272.82392597198486, "timer/agent.train_frac": 0.9087410937256284, "timer/agent.train_avg": 0.41589013105485495, "timer/agent.train_min": 0.36890673637390137, "timer/agent.train_max": 0.4670896530151367, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.26220273971557617, "timer/agent.report_frac": 0.0008733633005906393, "timer/agent.report_avg": 0.26220273971557617, "timer/agent.report_min": 0.26220273971557617, "timer/agent.report_max": 0.26220273971557617, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.370025697728586}
{"step": 1302102, "episode/length": 265.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.05263157894736842}
{"step": 1302314, "episode/length": 211.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.500000037252903, "episode/reward_rate": 0.07075471698113207}
{"step": 1302514, "episode/length": 199.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.075}
{"step": 1302775, "episode/length": 260.0, "episode/score": 14.099999979138374, "episode/sum_abs_reward": 16.700000032782555, "episode/reward_rate": 0.05747126436781609}
{"step": 1302991, "episode/length": 215.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.06481481481481481}
{"step": 1303340, "episode/length": 348.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.04297994269340974}
{"step": 1303357, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.481537334735577, "train/action_min": 0.0, "train/action_std": 3.314552435508141, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03491762802004814, "train/actor_opt_grad_steps": 650800.0, "train/actor_opt_loss": -11.382864279013413, "train/adv_mag": 0.36944675009984235, "train/adv_max": 0.30911586468036356, "train/adv_mean": 0.0015483892371076554, "train/adv_min": -0.3343301507142874, "train/adv_std": 0.039317991469915096, "train/cont_avg": 0.9955078125, "train/cont_loss_mean": 9.334449882771877e-05, "train/cont_loss_std": 0.002865496891672592, "train/cont_neg_acc": 0.9952380968974187, "train/cont_neg_loss": 0.013925649452219633, "train/cont_pos_acc": 0.9999999871620765, "train/cont_pos_loss": 8.995992869551208e-06, "train/cont_pred": 0.9955251290247991, "train/cont_rate": 0.9955078125, "train/dyn_loss_mean": 5.697668779813326, "train/dyn_loss_std": 9.013795295128455, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8812398910522461, "train/extr_critic_critic_opt_grad_steps": 650800.0, "train/extr_critic_critic_opt_loss": 15016.170868389423, "train/extr_critic_mag": 12.756607862619253, "train/extr_critic_max": 12.756607862619253, "train/extr_critic_mean": 3.611732508586003, "train/extr_critic_min": -0.31991390815147985, "train/extr_critic_std": 2.9808130924518292, "train/extr_return_normed_mag": 1.382811188697815, "train/extr_return_normed_max": 1.382811188697815, "train/extr_return_normed_mean": 0.3770172160405379, "train/extr_return_normed_min": -0.06481160951348451, "train/extr_return_normed_std": 0.30932045922829554, "train/extr_return_rate": 0.838700964817634, "train/extr_return_raw_mag": 13.397163361769456, "train/extr_return_raw_max": 13.397163361769456, "train/extr_return_raw_mean": 3.6267822412344124, "train/extr_return_raw_min": -0.6658537502472217, "train/extr_return_raw_std": 3.0050986730135403, "train/extr_reward_mag": 1.089842965052678, "train/extr_reward_max": 1.089842965052678, "train/extr_reward_mean": 0.06259008628817705, "train/extr_reward_min": -0.5885131615858812, "train/extr_reward_std": 0.2403155301625912, "train/image_loss_mean": 3.6487215555631196, "train/image_loss_std": 9.019917708176832, "train/model_loss_mean": 7.131735610961914, "train/model_loss_std": 13.17953551365779, "train/model_opt_grad_norm": 18.905417060852052, "train/model_opt_grad_steps": 650265.0, "train/model_opt_loss": 19918.387049278845, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2807.6923076923076, "train/policy_entropy_mag": 2.7451433181762694, "train/policy_entropy_max": 2.7451433181762694, "train/policy_entropy_mean": 0.471613897727086, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6862043078129109, "train/policy_logprob_mag": 7.438384305513822, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.46888960141402025, "train/policy_logprob_min": -7.438384305513822, "train/policy_logprob_std": 1.0816624008692228, "train/policy_randomness_mag": 0.9689151250399076, "train/policy_randomness_max": 0.9689151250399076, "train/policy_randomness_mean": 0.166459010885312, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24220000803470612, "train/post_ent_mag": 55.11124555147611, "train/post_ent_max": 55.11124555147611, "train/post_ent_mean": 39.80495493962214, "train/post_ent_min": 19.836237349876992, "train/post_ent_std": 5.770721883040208, "train/prior_ent_mag": 76.80039661114033, "train/prior_ent_max": 76.80039661114033, "train/prior_ent_mean": 45.50217009324294, "train/prior_ent_min": 27.07523372356708, "train/prior_ent_std": 8.03234324822059, "train/rep_loss_mean": 5.697668779813326, "train/rep_loss_std": 9.013795295128455, "train/reward_avg": 0.05146183858697231, "train/reward_loss_mean": 0.06431951992786848, "train/reward_loss_std": 0.22452694590275105, "train/reward_max_data": 1.026153852389409, "train/reward_max_pred": 1.0270228459284856, "train/reward_neg_acc": 0.9921347856521606, "train/reward_neg_loss": 0.02616343406530527, "train/reward_pos_acc": 0.9927864789962768, "train/reward_pos_loss": 0.7124186460788433, "train/reward_pred": 0.05115491426908053, "train/reward_rate": 0.05554387019230769, "stats/sum_log_reward": 13.766667048136393, "stats/max_log_achievement_collect_coal": 1.6666666666666667, "stats/max_log_achievement_collect_drink": 2.1666666666666665, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 19.5, "stats/max_log_achievement_collect_wood": 13.166666666666666, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 2.5, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.5, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 5.666666666666667, "stats/max_log_achievement_place_table": 3.1666666666666665, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.6679264605045319, "replay/size": 1000000.0, "replay/inserts": 1312.0, "replay/samples": 10496.0, "replay/insert_wait_avg": 3.847952296094197e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.397529026357139e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.29694533348083, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02430105209350586, "timer/logger.write_frac": 8.092340755088086e-05, "timer/logger.write_avg": 0.02430105209350586, "timer/logger.write_min": 0.02430105209350586, "timer/logger.write_max": 0.02430105209350586, "timer/replay.add_count": 1312.0, "timer/replay.add_total": 0.3014204502105713, "timer/replay.add_frac": 0.0010037413130388083, "timer/replay.add_avg": 0.00022974119680683788, "timer/replay.add_min": 7.462501525878906e-05, "timer/replay.add_max": 0.0034177303314208984, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1312.0, "timer/env.step_total": 16.07738447189331, "timer/env.step_frac": 0.05353828842327822, "timer/env.step_avg": 0.012254104018211365, "timer/env.step_min": 0.002341032028198242, "timer/env.step_max": 1.4966750144958496, "timer/agent.policy_count": 1312.0, "timer/agent.policy_total": 9.996631145477295, "timer/agent.policy_frac": 0.03328915362217887, "timer/agent.policy_avg": 0.007619383495028426, "timer/agent.policy_min": 0.005688667297363281, "timer/agent.policy_max": 0.01568460464477539, "timer/dataset_count": 656.0, "timer/dataset_total": 0.06456136703491211, "timer/dataset_frac": 0.00021499175412262845, "timer/dataset_avg": 9.841671804102456e-05, "timer/dataset_min": 7.319450378417969e-05, "timer/dataset_max": 0.00021958351135253906, "timer/agent.train_count": 656.0, "timer/agent.train_total": 273.1573178768158, "timer/agent.train_frac": 0.9096240308854078, "timer/agent.train_avg": 0.4163983504219753, "timer/agent.train_min": 0.3726317882537842, "timer/agent.train_max": 0.4835014343261719, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.23359966278076172, "timer/agent.report_frac": 0.000777895567739953, "timer/agent.report_avg": 0.23359966278076172, "timer/agent.report_min": 0.23359966278076172, "timer/agent.report_max": 0.23359966278076172, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.368934702305787}
{"step": 1303500, "episode/length": 159.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.08125}
{"step": 1303761, "episode/length": 260.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 15.500000052154064, "episode/reward_rate": 0.04980842911877394}
{"step": 1304044, "episode/length": 282.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.045936395759717315}
{"step": 1304321, "episode/length": 276.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 16.300000056624413, "episode/reward_rate": 0.05054151624548736}
{"step": 1304535, "episode/length": 213.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.30000001937151, "episode/reward_rate": 0.07476635514018691}
{"step": 1304673, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.441654089725379, "train/action_min": 0.0, "train/action_std": 3.2789805043827402, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03511561797649571, "train/actor_opt_grad_steps": 651455.0, "train/actor_opt_loss": -12.602179050445557, "train/adv_mag": 0.42367819380579574, "train/adv_max": 0.35086018140568875, "train/adv_mean": 0.0017713348184412153, "train/adv_min": -0.36962098650860065, "train/adv_std": 0.04101275601847605, "train/cont_avg": 0.9947768702651515, "train/cont_loss_mean": 2.9665821169931984e-05, "train/cont_loss_std": 0.0008567930192315764, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00014173052482909418, "train/cont_pos_acc": 0.9999851620558536, "train/cont_pos_loss": 2.8962796461207812e-05, "train/cont_pred": 0.9947596562631202, "train/cont_rate": 0.9947768702651515, "train/dyn_loss_mean": 5.687181899041841, "train/dyn_loss_std": 9.078877853624748, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8552601770921187, "train/extr_critic_critic_opt_grad_steps": 651455.0, "train/extr_critic_critic_opt_loss": 14864.198360558712, "train/extr_critic_mag": 12.567344983418783, "train/extr_critic_max": 12.567344983418783, "train/extr_critic_mean": 3.776977705233025, "train/extr_critic_min": -0.3755433974844037, "train/extr_critic_std": 3.0870992414879077, "train/extr_return_normed_mag": 1.3799514029965256, "train/extr_return_normed_max": 1.3799514029965256, "train/extr_return_normed_mean": 0.39830947441585135, "train/extr_return_normed_min": -0.07074889944245417, "train/extr_return_normed_std": 0.3230831442457257, "train/extr_return_rate": 0.8276436681097205, "train/extr_return_raw_mag": 13.255866050720215, "train/extr_return_raw_max": 13.255866050720215, "train/extr_return_raw_mean": 3.794060670968258, "train/extr_return_raw_min": -0.726706629449671, "train/extr_return_raw_std": 3.114442735007315, "train/extr_reward_mag": 1.0856288815989639, "train/extr_reward_max": 1.0856288815989639, "train/extr_reward_mean": 0.06483381199227138, "train/extr_reward_min": -0.6245064663164543, "train/extr_reward_std": 0.24462173201821066, "train/image_loss_mean": 3.69452105327086, "train/image_loss_std": 9.704840631195992, "train/model_loss_mean": 7.173248464410955, "train/model_loss_std": 13.82297455180775, "train/model_opt_grad_norm": 19.75899231072628, "train/model_opt_grad_steps": 650919.2424242424, "train/model_opt_loss": 22242.386112097538, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3106.060606060606, "train/policy_entropy_mag": 2.740908286788247, "train/policy_entropy_max": 2.740908286788247, "train/policy_entropy_mean": 0.48265736482360144, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6975324208086188, "train/policy_logprob_mag": 7.438384280060276, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4812519107804154, "train/policy_logprob_min": -7.438384280060276, "train/policy_logprob_std": 1.0933058334119392, "train/policy_randomness_mag": 0.9674203395843506, "train/policy_randomness_max": 0.9674203395843506, "train/policy_randomness_mean": 0.1703568702620087, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24619833379983902, "train/post_ent_mag": 55.07762949394457, "train/post_ent_max": 55.07762949394457, "train/post_ent_mean": 39.90991187818123, "train/post_ent_min": 19.28050689986258, "train/post_ent_std": 5.812504782821193, "train/prior_ent_mag": 76.71320909442323, "train/prior_ent_max": 76.71320909442323, "train/prior_ent_mean": 45.55623568910541, "train/prior_ent_min": 27.41792092178807, "train/prior_ent_std": 8.029366984511867, "train/rep_loss_mean": 5.687181899041841, "train/rep_loss_std": 9.078877853624748, "train/reward_avg": 0.05316790921444243, "train/reward_loss_mean": 0.06638862926400069, "train/reward_loss_std": 0.22808828430645395, "train/reward_max_data": 1.0378787969097947, "train/reward_max_pred": 1.042215751879143, "train/reward_neg_acc": 0.9922012867349567, "train/reward_neg_loss": 0.02693059387137041, "train/reward_pos_acc": 0.9928005247405081, "train/reward_pos_loss": 0.7131499115264777, "train/reward_pred": 0.05301869420729803, "train/reward_rate": 0.057587594696969696, "stats/sum_log_reward": 12.900000381469727, "stats/max_log_achievement_collect_coal": 0.4, "stats/max_log_achievement_collect_drink": 2.4, "stats/max_log_achievement_collect_iron": 0.2, "stats/max_log_achievement_collect_sapling": 1.8, "stats/max_log_achievement_collect_stone": 16.4, "stats/max_log_achievement_collect_wood": 13.2, "stats/max_log_achievement_defeat_skeleton": 0.2, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.4, "stats/max_log_achievement_make_stone_sword": 1.6, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2, "stats/max_log_achievement_place_furnace": 1.8, "stats/max_log_achievement_place_plant": 1.6, "stats/max_log_achievement_place_stone": 5.4, "stats/max_log_achievement_place_table": 3.8, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.500957977771759, "replay/size": 1000000.0, "replay/inserts": 1316.0, "replay/samples": 10528.0, "replay/insert_wait_avg": 3.7210328238351006e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.398512476483377e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0503590106964, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03519749641418457, "timer/logger.write_frac": 0.00011730529678496343, "timer/logger.write_avg": 0.03519749641418457, "timer/logger.write_min": 0.03519749641418457, "timer/logger.write_max": 0.03519749641418457, "timer/replay.add_count": 1316.0, "timer/replay.add_total": 0.29230642318725586, "timer/replay.add_frac": 0.0009741912129384771, "timer/replay.add_avg": 0.00022211734284745887, "timer/replay.add_min": 7.867813110351562e-05, "timer/replay.add_max": 0.0050506591796875, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1316.0, "timer/env.step_total": 15.068408489227295, "timer/env.step_frac": 0.05021959826647008, "timer/env.step_avg": 0.01145015842646451, "timer/env.step_min": 0.0026426315307617188, "timer/env.step_max": 1.734191656112671, "timer/agent.policy_count": 1316.0, "timer/agent.policy_total": 10.041825771331787, "timer/agent.policy_frac": 0.03346713466513069, "timer/agent.policy_avg": 0.0076305666955408715, "timer/agent.policy_min": 0.005615949630737305, "timer/agent.policy_max": 0.018398523330688477, "timer/dataset_count": 658.0, "timer/dataset_total": 0.06180882453918457, "timer/dataset_frac": 0.00020599483614342607, "timer/dataset_avg": 9.393438379815284e-05, "timer/dataset_min": 6.556510925292969e-05, "timer/dataset_max": 0.000217437744140625, "timer/agent.train_count": 658.0, "timer/agent.train_total": 273.8965644836426, "timer/agent.train_frac": 0.9128353166672216, "timer/agent.train_avg": 0.41625617702681245, "timer/agent.train_min": 0.36748242378234863, "timer/agent.train_max": 0.4798097610473633, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22127747535705566, "timer/agent.report_frac": 0.0007374677906956525, "timer/agent.report_avg": 0.22127747535705566, "timer/agent.report_min": 0.22127747535705566, "timer/agent.report_max": 0.22127747535705566, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.385859457931181}
{"step": 1304771, "episode/length": 235.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.30000004172325, "episode/reward_rate": 0.0635593220338983}
{"step": 1305220, "episode/length": 448.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.031180400890868598}
{"step": 1305478, "episode/length": 257.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 13.900000020861626, "episode/reward_rate": 0.05426356589147287}
{"step": 1305609, "episode/length": 130.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.09923664122137404}
{"step": 1305856, "episode/length": 246.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.500000037252903, "episode/reward_rate": 0.05668016194331984}
{"step": 1305965, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.488680326021635, "train/action_min": 0.0, "train/action_std": 3.3648639385516828, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.036460887554746406, "train/actor_opt_grad_steps": 652110.0, "train/actor_opt_loss": -10.022165287687228, "train/adv_mag": 0.3730680332734035, "train/adv_max": 0.3185885243690931, "train/adv_mean": 0.0022279114165380284, "train/adv_min": -0.342280248266, "train/adv_std": 0.04073407122722039, "train/cont_avg": 0.9951472355769231, "train/cont_loss_mean": 6.314038595007787e-05, "train/cont_loss_std": 0.001985014589736413, "train/cont_neg_acc": 0.9933333341891949, "train/cont_neg_loss": 0.011688598414828465, "train/cont_pos_acc": 0.9999999752411476, "train/cont_pos_loss": 6.813454804990635e-06, "train/cont_pred": 0.995169314971337, "train/cont_rate": 0.9951472355769231, "train/dyn_loss_mean": 5.8687205534714915, "train/dyn_loss_std": 9.060957204378568, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8422729363808266, "train/extr_critic_critic_opt_grad_steps": 652110.0, "train/extr_critic_critic_opt_loss": 15093.703740985577, "train/extr_critic_mag": 12.622496560903697, "train/extr_critic_max": 12.622496560903697, "train/extr_critic_mean": 3.6765134261204646, "train/extr_critic_min": -0.3386438039632944, "train/extr_critic_std": 3.0271963302905744, "train/extr_return_normed_mag": 1.3986847198926486, "train/extr_return_normed_max": 1.3986847198926486, "train/extr_return_normed_mean": 0.39057098168593185, "train/extr_return_normed_min": -0.06223724023080789, "train/extr_return_normed_std": 0.3176405892922328, "train/extr_return_rate": 0.821579568202679, "train/extr_return_raw_mag": 13.388059366666354, "train/extr_return_raw_max": 13.388059366666354, "train/extr_return_raw_mean": 3.697942466002244, "train/extr_return_raw_min": -0.6538745517914112, "train/extr_return_raw_std": 3.052848999316876, "train/extr_reward_mag": 1.0980459323296181, "train/extr_reward_max": 1.0980459323296181, "train/extr_reward_mean": 0.06485089871745843, "train/extr_reward_min": -0.6011855143767136, "train/extr_reward_std": 0.24405591510809385, "train/image_loss_mean": 3.756821977175199, "train/image_loss_std": 9.117063940488375, "train/model_loss_mean": 7.345755408360408, "train/model_loss_std": 13.263881316551796, "train/model_opt_grad_norm": 20.347556554354153, "train/model_opt_grad_steps": 651573.7846153846, "train/model_opt_loss": 18672.357106370193, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2538.4615384615386, "train/policy_entropy_mag": 2.7351051367246186, "train/policy_entropy_max": 2.7351051367246186, "train/policy_entropy_mean": 0.48215532853053167, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6874110391506782, "train/policy_logprob_mag": 7.438384261498085, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.48302491834530464, "train/policy_logprob_min": -7.438384261498085, "train/policy_logprob_std": 1.0944662644312932, "train/policy_randomness_mag": 0.9653720892392672, "train/policy_randomness_max": 0.9653720892392672, "train/policy_randomness_mean": 0.17017967437322323, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24262593147846367, "train/post_ent_mag": 55.56693173922025, "train/post_ent_max": 55.56693173922025, "train/post_ent_mean": 39.85255936842698, "train/post_ent_min": 19.397378217256986, "train/post_ent_std": 5.830223516317514, "train/prior_ent_mag": 76.82871774526743, "train/prior_ent_max": 76.82871774526743, "train/prior_ent_mean": 45.72390952477088, "train/prior_ent_min": 27.38979245699369, "train/prior_ent_std": 8.08688704417302, "train/rep_loss_mean": 5.8687205534714915, "train/rep_loss_std": 9.060957204378568, "train/reward_avg": 0.05168719922120755, "train/reward_loss_mean": 0.06763793963652391, "train/reward_loss_std": 0.23620477387538322, "train/reward_max_data": 1.0415384714420026, "train/reward_max_pred": 1.043346933218149, "train/reward_neg_acc": 0.9918992565228388, "train/reward_neg_loss": 0.028434372478379655, "train/reward_pos_acc": 0.9882495935146626, "train/reward_pos_loss": 0.7278502968641428, "train/reward_pred": 0.0511324926924247, "train/reward_rate": 0.055994591346153845, "stats/sum_log_reward": 12.900000190734863, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 4.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.4, "stats/max_log_achievement_collect_stone": 16.0, "stats/max_log_achievement_collect_wood": 11.8, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.8, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2, "stats/max_log_achievement_place_furnace": 1.6, "stats/max_log_achievement_place_plant": 2.2, "stats/max_log_achievement_place_stone": 4.8, "stats/max_log_achievement_place_table": 3.2, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.6315732419490814, "replay/size": 1000000.0, "replay/inserts": 1292.0, "replay/samples": 10336.0, "replay/insert_wait_avg": 3.8639679781792706e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.393627640632653e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.25951290130615, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.038840293884277344, "timer/logger.write_frac": 0.00012935574799604753, "timer/logger.write_avg": 0.038840293884277344, "timer/logger.write_min": 0.038840293884277344, "timer/logger.write_max": 0.038840293884277344, "timer/replay.add_count": 1292.0, "timer/replay.add_total": 0.2983860969543457, "timer/replay.add_frac": 0.0009937606774591144, "timer/replay.add_avg": 0.00023094899145073198, "timer/replay.add_min": 7.653236389160156e-05, "timer/replay.add_max": 0.007791042327880859, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1292.0, "timer/env.step_total": 15.767088890075684, "timer/env.step_frac": 0.05251153822812685, "timer/env.step_avg": 0.012203629171885205, "timer/env.step_min": 0.002692699432373047, "timer/env.step_max": 1.7086832523345947, "timer/agent.policy_count": 1292.0, "timer/agent.policy_total": 14.436377763748169, "timer/agent.policy_frac": 0.04807966823183829, "timer/agent.policy_avg": 0.011173666999805085, "timer/agent.policy_min": 0.005609750747680664, "timer/agent.policy_max": 3.1036174297332764, "timer/dataset_count": 646.0, "timer/dataset_total": 0.06121349334716797, "timer/dataset_frac": 0.00020386862269802106, "timer/dataset_avg": 9.47577296395789e-05, "timer/dataset_min": 6.461143493652344e-05, "timer/dataset_max": 0.000179290771484375, "timer/agent.train_count": 646.0, "timer/agent.train_total": 268.9885015487671, "timer/agent.train_frac": 0.8958533867907202, "timer/agent.train_avg": 0.4163908692705373, "timer/agent.train_min": 0.3733546733856201, "timer/agent.train_max": 0.4781644344329834, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.23169612884521484, "timer/agent.report_frac": 0.0007716529165268187, "timer/agent.report_avg": 0.23169612884521484, "timer/agent.report_min": 0.23169612884521484, "timer/agent.report_max": 0.23169612884521484, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00038242340087890625, "timer/checkpoint.save_frac": 1.27364291370381e-06, "timer/checkpoint.save_avg": 0.00038242340087890625, "timer/checkpoint.save_min": 0.00038242340087890625, "timer/checkpoint.save_max": 0.00038242340087890625, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.171919345855713, "timer/agent.save_frac": 0.0039030215380417175, "timer/agent.save_avg": 1.171919345855713, "timer/agent.save_min": 1.171919345855713, "timer/agent.save_max": 1.171919345855713, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.130073547363281e-05, "timer/replay.save_frac": 2.7076822541957555e-07, "timer/replay.save_avg": 8.130073547363281e-05, "timer/replay.save_min": 8.130073547363281e-05, "timer/replay.save_max": 8.130073547363281e-05, "fps": 4.302858847617188}
{"step": 1306038, "episode/length": 181.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.700000032782555, "episode/reward_rate": 0.07692307692307693}
{"step": 1306271, "episode/length": 232.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.060085836909871244}
{"step": 1306648, "episode/length": 376.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.30000001937151, "episode/reward_rate": 0.042440318302387266}
{"step": 1306876, "episode/length": 227.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.1000000461936, "episode/reward_rate": 0.039473684210526314}
{"step": 1307219, "episode/length": 342.0, "episode/score": 16.100000008940697, "episode/sum_abs_reward": 18.500000044703484, "episode/reward_rate": 0.04956268221574344}
{"step": 1307283, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.530699758818655, "train/action_min": 0.0, "train/action_std": 3.4081937941637905, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.035836546681821346, "train/actor_opt_grad_steps": 652765.0, "train/actor_opt_loss": -9.89404814622619, "train/adv_mag": 0.3867057236758145, "train/adv_max": 0.33050152591683646, "train/adv_mean": 0.001952667165713854, "train/adv_min": -0.34549518674612045, "train/adv_std": 0.04054080107898423, "train/cont_avg": 0.9948508522727273, "train/cont_loss_mean": 1.6900385190434932e-05, "train/cont_loss_std": 0.0004358096628986156, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0008491260511751634, "train/cont_pos_acc": 0.9999999846472885, "train/cont_pos_loss": 1.2607531787095336e-05, "train/cont_pred": 0.9948428038394812, "train/cont_rate": 0.9948508522727273, "train/dyn_loss_mean": 5.972619324019461, "train/dyn_loss_std": 9.118874130827008, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8347598124634136, "train/extr_critic_critic_opt_grad_steps": 652765.0, "train/extr_critic_critic_opt_loss": 15010.617690577652, "train/extr_critic_mag": 12.878395904194225, "train/extr_critic_max": 12.878395904194225, "train/extr_critic_mean": 3.7596708247155854, "train/extr_critic_min": -0.3460657036665714, "train/extr_critic_std": 3.1266407081575105, "train/extr_return_normed_mag": 1.4001081658132148, "train/extr_return_normed_max": 1.4001081658132148, "train/extr_return_normed_mean": 0.3909400642821283, "train/extr_return_normed_min": -0.06766506800936027, "train/extr_return_normed_std": 0.32223048015977396, "train/extr_return_rate": 0.8264609421744491, "train/extr_return_raw_mag": 13.662943695530746, "train/extr_return_raw_max": 13.662943695530746, "train/extr_return_raw_mean": 3.778790072961287, "train/extr_return_raw_min": -0.713457137797818, "train/extr_return_raw_std": 3.1562943025068804, "train/extr_reward_mag": 1.08785829038331, "train/extr_reward_max": 1.08785829038331, "train/extr_reward_mean": 0.06511747927376718, "train/extr_reward_min": -0.6001900886044358, "train/extr_reward_std": 0.2450264696822022, "train/image_loss_mean": 3.67781328793728, "train/image_loss_std": 9.255177158297915, "train/model_loss_mean": 7.328774972395464, "train/model_loss_std": 13.4312549793359, "train/model_opt_grad_norm": 20.72471942323627, "train/model_opt_grad_steps": 652228.0, "train/model_opt_loss": 18321.937455610794, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7464036002303613, "train/policy_entropy_max": 2.7464036002303613, "train/policy_entropy_mean": 0.49874335301644873, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7156430487379883, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4985713443972848, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 1.1068703739932089, "train/policy_randomness_mag": 0.9693599496826981, "train/policy_randomness_max": 0.9693599496826981, "train/policy_randomness_mean": 0.17603451747334364, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.25259059103149356, "train/post_ent_mag": 55.18311223116788, "train/post_ent_max": 55.18311223116788, "train/post_ent_mean": 39.82584236607407, "train/post_ent_min": 19.742198741797246, "train/post_ent_std": 5.8586360252264775, "train/prior_ent_mag": 76.84377358176492, "train/prior_ent_max": 76.84377358176492, "train/prior_ent_mean": 45.779894106315844, "train/prior_ent_min": 27.35471017432935, "train/prior_ent_std": 8.059417616237294, "train/rep_loss_mean": 5.972619324019461, "train/rep_loss_std": 9.118874130827008, "train/reward_avg": 0.05290009493403362, "train/reward_loss_mean": 0.06737325210688692, "train/reward_loss_std": 0.23207537852453464, "train/reward_max_data": 1.0333333412806194, "train/reward_max_pred": 1.0334235646507957, "train/reward_neg_acc": 0.9921956540960254, "train/reward_neg_loss": 0.02771631106169838, "train/reward_pos_acc": 0.9903760660778392, "train/reward_pos_loss": 0.7180744012196859, "train/reward_pred": 0.05253039006934022, "train/reward_rate": 0.05739524147727273, "stats/sum_log_reward": 12.699999713897705, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 2.8, "stats/max_log_achievement_collect_iron": 0.2, "stats/max_log_achievement_collect_sapling": 1.6, "stats/max_log_achievement_collect_stone": 19.4, "stats/max_log_achievement_collect_wood": 11.8, "stats/max_log_achievement_defeat_skeleton": 0.2, "stats/max_log_achievement_defeat_zombie": 1.4, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.2, "stats/max_log_achievement_make_wood_pickaxe": 1.2, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.2, "stats/max_log_achievement_place_plant": 1.6, "stats/max_log_achievement_place_stone": 5.0, "stats/max_log_achievement_place_table": 3.4, "stats/max_log_achievement_wake_up": 1.6, "stats/mean_log_entropy": 0.6442769944667817, "replay/size": 1000000.0, "replay/inserts": 1318.0, "replay/samples": 10544.0, "replay/insert_wait_avg": 3.8094513333078944e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3917775002162626e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.13063788414, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0267331600189209, "timer/logger.write_frac": 8.907174624818127e-05, "timer/logger.write_avg": 0.0267331600189209, "timer/logger.write_min": 0.0267331600189209, "timer/logger.write_max": 0.0267331600189209, "timer/replay.add_count": 1318.0, "timer/replay.add_total": 0.3021230697631836, "timer/replay.add_frac": 0.0010066385487769254, "timer/replay.add_avg": 0.00022922842925886464, "timer/replay.add_min": 7.557868957519531e-05, "timer/replay.add_max": 0.0011985301971435547, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1318.0, "timer/env.step_total": 14.99924349784851, "timer/env.step_frac": 0.049975715920207706, "timer/env.step_avg": 0.011380306144042876, "timer/env.step_min": 0.0027294158935546875, "timer/env.step_max": 1.6377456188201904, "timer/agent.policy_count": 1318.0, "timer/agent.policy_total": 10.26877212524414, "timer/agent.policy_frac": 0.034214341453564674, "timer/agent.policy_avg": 0.007791177636755797, "timer/agent.policy_min": 0.005692481994628906, "timer/agent.policy_max": 0.01683640480041504, "timer/dataset_count": 659.0, "timer/dataset_total": 0.06082487106323242, "timer/dataset_frac": 0.00020266131939090056, "timer/dataset_avg": 9.2298742129336e-05, "timer/dataset_min": 6.318092346191406e-05, "timer/dataset_max": 0.00021600723266601562, "timer/agent.train_count": 659.0, "timer/agent.train_total": 273.8054850101471, "timer/agent.train_frac": 0.9122876855905818, "timer/agent.train_avg": 0.4154863201974918, "timer/agent.train_min": 0.36608099937438965, "timer/agent.train_max": 0.45726633071899414, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2201547622680664, "timer/agent.report_frac": 0.0007335297849633504, "timer/agent.report_avg": 0.2201547622680664, "timer/agent.report_min": 0.2201547622680664, "timer/agent.report_max": 0.2201547622680664, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.391343883246291}
{"step": 1307369, "episode/length": 149.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.08}
{"step": 1307487, "episode/length": 117.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.11016949152542373}
{"step": 1307701, "episode/length": 213.0, "episode/score": 16.099999986588955, "episode/sum_abs_reward": 18.700000025331974, "episode/reward_rate": 0.0794392523364486}
{"step": 1307928, "episode/length": 226.0, "episode/score": 16.100000001490116, "episode/sum_abs_reward": 17.700000025331974, "episode/reward_rate": 0.07488986784140969}
{"step": 1308228, "episode/length": 299.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.043333333333333335}
{"step": 1308412, "episode/length": 183.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 10.500000044703484, "episode/reward_rate": 0.05434782608695652}
{"step": 1308587, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.474152080829327, "train/action_min": 0.0, "train/action_std": 3.3867346323453464, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.036900112548699744, "train/actor_opt_grad_steps": 653420.0, "train/actor_opt_loss": -11.258999587939336, "train/adv_mag": 0.4204679764234103, "train/adv_max": 0.34406079283127416, "train/adv_mean": 0.001965105244352554, "train/adv_min": -0.3657627160732563, "train/adv_std": 0.04147048621223523, "train/cont_avg": 0.9951171875, "train/cont_loss_mean": 6.495216528540263e-05, "train/cont_loss_std": 0.0020316411773233785, "train/cont_neg_acc": 0.9974358980472271, "train/cont_neg_loss": 0.00945626823419788, "train/cont_pos_acc": 0.999999974324153, "train/cont_pos_loss": 9.724051344160391e-06, "train/cont_pred": 0.9951245958988483, "train/cont_rate": 0.9951171875, "train/dyn_loss_mean": 5.768104457855225, "train/dyn_loss_std": 9.062824968191293, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.9105919351944557, "train/extr_critic_critic_opt_grad_steps": 653420.0, "train/extr_critic_critic_opt_loss": 15095.954432091346, "train/extr_critic_mag": 12.976701002854567, "train/extr_critic_max": 12.976701002854567, "train/extr_critic_mean": 3.8079443491422214, "train/extr_critic_min": -0.3332113742828369, "train/extr_critic_std": 3.1179478828723615, "train/extr_return_normed_mag": 1.4012487741617057, "train/extr_return_normed_max": 1.4012487741617057, "train/extr_return_normed_mean": 0.39203167053369375, "train/extr_return_normed_min": -0.06764332090432827, "train/extr_return_normed_std": 0.3202205717563629, "train/extr_return_rate": 0.841814950796274, "train/extr_return_raw_mag": 13.744303776667667, "train/extr_return_raw_max": 13.744303776667667, "train/extr_return_raw_mean": 3.8272593388190637, "train/extr_return_raw_min": -0.689643336717899, "train/extr_return_raw_std": 3.1467014386103704, "train/extr_reward_mag": 1.0880839531238262, "train/extr_reward_max": 1.0880839531238262, "train/extr_reward_mean": 0.06616700973648292, "train/extr_reward_min": -0.6061434268951416, "train/extr_reward_std": 0.2463425439137679, "train/image_loss_mean": 3.657235394991361, "train/image_loss_std": 8.992208722921518, "train/model_loss_mean": 7.1850204541133, "train/model_loss_std": 13.17371419759897, "train/model_opt_grad_norm": 19.81594496506911, "train/model_opt_grad_steps": 652882.3846153846, "train/model_opt_loss": 19311.911583533652, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2692.3076923076924, "train/policy_entropy_mag": 2.73523132617657, "train/policy_entropy_max": 2.73523132617657, "train/policy_entropy_mean": 0.4770736359632932, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6918076464763054, "train/policy_logprob_mag": 7.438384246826172, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4792169644282414, "train/policy_logprob_min": -7.438384246826172, "train/policy_logprob_std": 1.0974402601902302, "train/policy_randomness_mag": 0.9654166249128489, "train/policy_randomness_max": 0.9654166249128489, "train/policy_randomness_mean": 0.168386057133858, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2441777419585448, "train/post_ent_mag": 55.26489011324369, "train/post_ent_max": 55.26489011324369, "train/post_ent_mean": 39.80423085139348, "train/post_ent_min": 19.396380849984975, "train/post_ent_std": 5.868761994288518, "train/prior_ent_mag": 76.82686086801382, "train/prior_ent_max": 76.82686086801382, "train/prior_ent_mean": 45.51062991802509, "train/prior_ent_min": 26.962166712834286, "train/prior_ent_std": 8.096359142890343, "train/rep_loss_mean": 5.768104457855225, "train/rep_loss_std": 9.062824968191293, "train/reward_avg": 0.05230168178677559, "train/reward_loss_mean": 0.06685745830719288, "train/reward_loss_std": 0.23436305545843564, "train/reward_max_data": 1.0338461619157058, "train/reward_max_pred": 1.0314032481266902, "train/reward_neg_acc": 0.991687812254979, "train/reward_neg_loss": 0.027614046146090213, "train/reward_pos_acc": 0.9907896353648259, "train/reward_pos_loss": 0.7191165942412157, "train/reward_pred": 0.0519964697269293, "train/reward_rate": 0.05662560096153846, "stats/sum_log_reward": 12.766666730244955, "stats/max_log_achievement_collect_coal": 1.1666666666666667, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_iron": 0.3333333333333333, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 12.5, "stats/max_log_achievement_collect_wood": 11.166666666666666, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "stats/max_log_achievement_make_stone_sword": 0.5, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 2.3333333333333335, "stats/max_log_achievement_place_table": 2.6666666666666665, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.3802093217770259, "replay/size": 1000000.0, "replay/inserts": 1304.0, "replay/samples": 10432.0, "replay/insert_wait_avg": 3.890574344096739e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4130048956607748e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0070538520813, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024970531463623047, "timer/logger.write_frac": 8.323314783103328e-05, "timer/logger.write_avg": 0.024970531463623047, "timer/logger.write_min": 0.024970531463623047, "timer/logger.write_max": 0.024970531463623047, "timer/replay.add_count": 1304.0, "timer/replay.add_total": 0.2910499572753906, "timer/replay.add_frac": 0.0009701437134171286, "timer/replay.add_avg": 0.0002231978199964652, "timer/replay.add_min": 8.130073547363281e-05, "timer/replay.add_max": 0.001233816146850586, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1304.0, "timer/env.step_total": 17.652665853500366, "timer/env.step_frac": 0.05884083599648969, "timer/env.step_avg": 0.013537320439800894, "timer/env.step_min": 0.002857208251953125, "timer/env.step_max": 1.7900638580322266, "timer/agent.policy_count": 1304.0, "timer/agent.policy_total": 10.134140968322754, "timer/agent.policy_frac": 0.03377967563829149, "timer/agent.policy_avg": 0.007771580497180026, "timer/agent.policy_min": 0.00567936897277832, "timer/agent.policy_max": 0.017568588256835938, "timer/dataset_count": 652.0, "timer/dataset_total": 0.061364173889160156, "timer/dataset_frac": 0.0002045424369235525, "timer/dataset_avg": 9.41168311183438e-05, "timer/dataset_min": 6.580352783203125e-05, "timer/dataset_max": 0.00018310546875, "timer/agent.train_count": 652.0, "timer/agent.train_total": 271.1700248718262, "timer/agent.train_frac": 0.9038788301475297, "timer/agent.train_avg": 0.4159049461224328, "timer/agent.train_min": 0.37305736541748047, "timer/agent.train_max": 0.482677698135376, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22032856941223145, "timer/agent.report_frac": 0.0007344112966119276, "timer/agent.report_avg": 0.22032856941223145, "timer/agent.report_min": 0.22032856941223145, "timer/agent.report_max": 0.22032856941223145, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.346512843320031}
{"step": 1308661, "episode/length": 248.0, "episode/score": 10.099999971687794, "episode/sum_abs_reward": 12.100000031292439, "episode/reward_rate": 0.04819277108433735}
{"step": 1308949, "episode/length": 287.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.04513888888888889}
{"step": 1309369, "episode/length": 419.0, "episode/score": 15.100000008940697, "episode/sum_abs_reward": 19.90000008046627, "episode/reward_rate": 0.0380952380952381}
{"step": 1309664, "episode/length": 294.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 17.90000005811453, "episode/reward_rate": 0.05084745762711865}
{"step": 1309810, "episode/length": 145.0, "episode/score": 12.100000016391277, "episode/sum_abs_reward": 13.100000031292439, "episode/reward_rate": 0.08904109589041095}
{"step": 1309889, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.481001164362981, "train/action_min": 0.0, "train/action_std": 3.35380628659175, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03514928981088675, "train/actor_opt_grad_steps": 654070.0, "train/actor_opt_loss": -12.413675396259015, "train/adv_mag": 0.4038621641122378, "train/adv_max": 0.3233968803515801, "train/adv_mean": 0.0015370695442050838, "train/adv_min": -0.37846751167224, "train/adv_std": 0.04023219616367267, "train/cont_avg": 0.9953876201923076, "train/cont_loss_mean": 4.160755418408913e-05, "train/cont_loss_std": 0.0012851556898064804, "train/cont_neg_acc": 0.9978021988501915, "train/cont_neg_loss": 0.004210024979595936, "train/cont_pos_acc": 0.9999999825771039, "train/cont_pos_loss": 1.355066876326506e-05, "train/cont_pred": 0.9953876724609962, "train/cont_rate": 0.9953876201923076, "train/dyn_loss_mean": 5.826642043773944, "train/dyn_loss_std": 8.987108707427979, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8635080530093266, "train/extr_critic_critic_opt_grad_steps": 654070.0, "train/extr_critic_critic_opt_loss": 14965.612169471155, "train/extr_critic_mag": 12.761896368173453, "train/extr_critic_max": 12.761896368173453, "train/extr_critic_mean": 3.7365463770352876, "train/extr_critic_min": -0.340354481110206, "train/extr_critic_std": 3.0476684386913595, "train/extr_return_normed_mag": 1.3782625876940213, "train/extr_return_normed_max": 1.3782625876940213, "train/extr_return_normed_mean": 0.38715160810030425, "train/extr_return_normed_min": -0.06945808761968063, "train/extr_return_normed_std": 0.31385107453052813, "train/extr_return_rate": 0.8398427926577055, "train/extr_return_raw_mag": 13.458458739060623, "train/extr_return_raw_max": 13.458458739060623, "train/extr_return_raw_mean": 3.751563233595628, "train/extr_return_raw_min": -0.7205283685372426, "train/extr_return_raw_std": 3.0737531515268177, "train/extr_reward_mag": 1.0859010549692008, "train/extr_reward_max": 1.0859010549692008, "train/extr_reward_mean": 0.063587397394272, "train/extr_reward_min": -0.6067894715529222, "train/extr_reward_std": 0.24175572464099296, "train/image_loss_mean": 3.6904961916116568, "train/image_loss_std": 8.836908450493446, "train/model_loss_mean": 7.251066780090332, "train/model_loss_std": 12.923283210167519, "train/model_opt_grad_norm": 20.749230766296385, "train/model_opt_grad_steps": 653531.9538461538, "train/model_opt_loss": 18375.097521033655, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2576.923076923077, "train/policy_entropy_mag": 2.732950408642109, "train/policy_entropy_max": 2.732950408642109, "train/policy_entropy_mean": 0.48496190034426173, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6935224973238432, "train/policy_logprob_mag": 7.4383842321542595, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.48452612390884986, "train/policy_logprob_min": -7.4383842321542595, "train/policy_logprob_std": 1.0950749525657066, "train/policy_randomness_mag": 0.9646115587307856, "train/policy_randomness_max": 0.9646115587307856, "train/policy_randomness_mean": 0.17117026952596812, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2447830048891214, "train/post_ent_mag": 55.29245887169471, "train/post_ent_max": 55.29245887169471, "train/post_ent_mean": 39.73683612530048, "train/post_ent_min": 19.41161961188683, "train/post_ent_std": 5.800496688255897, "train/prior_ent_mag": 76.80676457331731, "train/prior_ent_max": 76.80676457331731, "train/prior_ent_mean": 45.53170095590445, "train/prior_ent_min": 27.343895310621996, "train/prior_ent_std": 8.06996133510883, "train/rep_loss_mean": 5.826642043773944, "train/rep_loss_std": 8.987108707427979, "train/reward_avg": 0.05120642999043831, "train/reward_loss_mean": 0.0645438232100927, "train/reward_loss_std": 0.22599071883238278, "train/reward_max_data": 1.0400000095367432, "train/reward_max_pred": 1.0376844846285307, "train/reward_neg_acc": 0.991828585588015, "train/reward_neg_loss": 0.02625266554263922, "train/reward_pos_acc": 0.9912404903998742, "train/reward_pos_loss": 0.7205004233580369, "train/reward_pred": 0.050701781706168104, "train/reward_rate": 0.055108173076923075, "stats/sum_log_reward": 12.700000190734864, "stats/max_log_achievement_collect_coal": 1.8, "stats/max_log_achievement_collect_drink": 3.4, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.6, "stats/max_log_achievement_collect_stone": 15.2, "stats/max_log_achievement_collect_wood": 12.0, "stats/max_log_achievement_defeat_skeleton": 0.2, "stats/max_log_achievement_defeat_zombie": 2.2, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_stone_pickaxe": 0.6, "stats/max_log_achievement_make_stone_sword": 0.8, "stats/max_log_achievement_make_wood_pickaxe": 1.2, "stats/max_log_achievement_make_wood_sword": 0.8, "stats/max_log_achievement_place_furnace": 1.8, "stats/max_log_achievement_place_plant": 2.6, "stats/max_log_achievement_place_stone": 3.2, "stats/max_log_achievement_place_table": 3.2, "stats/max_log_achievement_wake_up": 2.4, "stats/mean_log_entropy": 0.6020988076925278, "replay/size": 1000000.0, "replay/inserts": 1302.0, "replay/samples": 10416.0, "replay/insert_wait_avg": 3.7072074761222216e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.402517434455649e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0037796497345, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027252674102783203, "timer/logger.write_frac": 9.084110251744731e-05, "timer/logger.write_avg": 0.027252674102783203, "timer/logger.write_min": 0.027252674102783203, "timer/logger.write_max": 0.027252674102783203, "timer/replay.add_count": 1302.0, "timer/replay.add_total": 0.27375149726867676, "timer/replay.add_frac": 0.0009124934945429412, "timer/replay.add_avg": 0.00021025460619714036, "timer/replay.add_min": 7.319450378417969e-05, "timer/replay.add_max": 0.0020787715911865234, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1302.0, "timer/env.step_total": 14.81512451171875, "timer/env.step_frac": 0.04938312620266303, "timer/env.step_avg": 0.011378743864607336, "timer/env.step_min": 0.002647876739501953, "timer/env.step_max": 1.4327619075775146, "timer/agent.policy_count": 1302.0, "timer/agent.policy_total": 14.220406532287598, "timer/agent.policy_frac": 0.047400757913418454, "timer/agent.policy_avg": 0.010921971222955145, "timer/agent.policy_min": 0.0055789947509765625, "timer/agent.policy_max": 3.160494089126587, "timer/dataset_count": 651.0, "timer/dataset_total": 0.0598142147064209, "timer/dataset_frac": 0.00019937820375548669, "timer/dataset_avg": 9.188051414196759e-05, "timer/dataset_min": 6.341934204101562e-05, "timer/dataset_max": 0.00018548965454101562, "timer/agent.train_count": 651.0, "timer/agent.train_total": 269.958379983902, "timer/agent.train_frac": 0.8998499295545155, "timer/agent.train_avg": 0.41468261134239937, "timer/agent.train_min": 0.36475324630737305, "timer/agent.train_max": 0.4536166191101074, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22295713424682617, "timer/agent.report_frac": 0.000743181084275461, "timer/agent.report_avg": 0.22295713424682617, "timer/agent.report_min": 0.22295713424682617, "timer/agent.report_max": 0.22295713424682617, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00019121170043945312, "timer/checkpoint.save_frac": 6.37364304752093e-07, "timer/checkpoint.save_avg": 0.00019121170043945312, "timer/checkpoint.save_min": 0.00019121170043945312, "timer/checkpoint.save_max": 0.00019121170043945312, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2151775360107422, "timer/agent.save_frac": 0.004050540754618181, "timer/agent.save_avg": 1.2151775360107422, "timer/agent.save_min": 1.2151775360107422, "timer/agent.save_max": 1.2151775360107422, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.2479248046875e-05, "timer/replay.save_frac": 2.4159444968159135e-07, "timer/replay.save_avg": 7.2479248046875e-05, "timer/replay.save_min": 7.2479248046875e-05, "timer/replay.save_max": 7.2479248046875e-05, "fps": 4.339859387296549}
{"step": 1310147, "episode/length": 336.0, "episode/score": 16.100000008940697, "episode/sum_abs_reward": 18.900000050663948, "episode/reward_rate": 0.050445103857566766}
{"step": 1310368, "episode/length": 220.0, "episode/score": 16.100000001490116, "episode/sum_abs_reward": 17.500000022351742, "episode/reward_rate": 0.07692307692307693}
{"step": 1310556, "episode/length": 187.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.0797872340425532}
{"step": 1310855, "episode/length": 298.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.046822742474916385}
{"step": 1311076, "episode/length": 220.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.06787330316742081}
{"step": 1311209, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.394683837890625, "train/action_min": 0.0, "train/action_std": 3.272489551341895, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03494309684769674, "train/actor_opt_grad_steps": 654725.0, "train/actor_opt_loss": -12.495273658723542, "train/adv_mag": 0.39502568091406964, "train/adv_max": 0.32204960015687073, "train/adv_mean": 0.0015089703266505348, "train/adv_min": -0.36223527066635364, "train/adv_std": 0.04023314781035438, "train/cont_avg": 0.995413115530303, "train/cont_loss_mean": 7.119175231936244e-05, "train/cont_loss_std": 0.0022288311781474245, "train/cont_neg_acc": 0.9969696971503171, "train/cont_neg_loss": 0.012916785500365256, "train/cont_pos_acc": 0.9999999846472885, "train/cont_pos_loss": 7.593213979254532e-06, "train/cont_pred": 0.9954233892036207, "train/cont_rate": 0.995413115530303, "train/dyn_loss_mean": 5.796598672866821, "train/dyn_loss_std": 9.030566649003463, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8527672570763212, "train/extr_critic_critic_opt_grad_steps": 654725.0, "train/extr_critic_critic_opt_loss": 14881.455033735796, "train/extr_critic_mag": 12.68171621091438, "train/extr_critic_max": 12.68171621091438, "train/extr_critic_mean": 3.8224994377656416, "train/extr_critic_min": -0.3331822355588277, "train/extr_critic_std": 3.0454886971098003, "train/extr_return_normed_mag": 1.362340175744259, "train/extr_return_normed_max": 1.362340175744259, "train/extr_return_normed_mean": 0.3962483433159915, "train/extr_return_normed_min": -0.061873610893433746, "train/extr_return_normed_std": 0.3143302175131711, "train/extr_return_rate": 0.8469391600652174, "train/extr_return_raw_mag": 13.26954393675833, "train/extr_return_raw_max": 13.26954393675833, "train/extr_return_raw_mean": 3.837235273736896, "train/extr_return_raw_min": -0.6352610434546615, "train/extr_return_raw_std": 3.0689671617565732, "train/extr_reward_mag": 1.0904437159046982, "train/extr_reward_max": 1.0904437159046982, "train/extr_reward_mean": 0.0646565178352775, "train/extr_reward_min": -0.5726000558246266, "train/extr_reward_std": 0.24334964020685715, "train/image_loss_mean": 3.5533198804566353, "train/image_loss_std": 8.859252922462694, "train/model_loss_mean": 7.098840316136678, "train/model_loss_std": 13.026790445501154, "train/model_opt_grad_norm": 18.89171465960416, "train/model_opt_grad_steps": 654186.0, "train/model_opt_loss": 17747.100807883522, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7491237539233584, "train/policy_entropy_max": 2.7491237539233584, "train/policy_entropy_mean": 0.446069751273502, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6612510197993481, "train/policy_logprob_mag": 7.438384316184304, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4455713778734207, "train/policy_logprob_min": -7.438384316184304, "train/policy_logprob_std": 1.0709925510666587, "train/policy_randomness_mag": 0.9703200468511293, "train/policy_randomness_max": 0.9703200468511293, "train/policy_randomness_mean": 0.15744304939201384, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23339259353550998, "train/post_ent_mag": 55.66916945486358, "train/post_ent_max": 55.66916945486358, "train/post_ent_mean": 39.70546450759425, "train/post_ent_min": 19.331381581046365, "train/post_ent_std": 5.806882056322965, "train/prior_ent_mag": 76.81122461954753, "train/prior_ent_max": 76.81122461954753, "train/prior_ent_mean": 45.457037550030336, "train/prior_ent_min": 27.199879415107496, "train/prior_ent_std": 8.060051130525993, "train/rep_loss_mean": 5.796598672866821, "train/rep_loss_std": 9.030566649003463, "train/reward_avg": 0.05377160235674995, "train/reward_loss_mean": 0.06749003555512789, "train/reward_loss_std": 0.23593963840694138, "train/reward_max_data": 1.0378787969097947, "train/reward_max_pred": 1.0386755285841045, "train/reward_neg_acc": 0.9913356322230715, "train/reward_neg_loss": 0.02701729591089216, "train/reward_pos_acc": 0.9886877572897709, "train/reward_pos_loss": 0.7246618216687982, "train/reward_pred": 0.053301798038636196, "train/reward_rate": 0.05795750473484849, "stats/sum_log_reward": 14.700000190734864, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 3.4, "stats/max_log_achievement_collect_iron": 0.6, "stats/max_log_achievement_collect_sapling": 2.6, "stats/max_log_achievement_collect_stone": 21.6, "stats/max_log_achievement_collect_wood": 10.8, "stats/max_log_achievement_defeat_skeleton": 0.2, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.4, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.6, "stats/max_log_achievement_place_plant": 2.2, "stats/max_log_achievement_place_stone": 5.6, "stats/max_log_achievement_place_table": 2.4, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.49584788680076597, "replay/size": 1000000.0, "replay/inserts": 1320.0, "replay/samples": 10560.0, "replay/insert_wait_avg": 3.864367802937825e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4033732992230039e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3804793357849, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03089761734008789, "timer/logger.write_frac": 0.00010286160208682708, "timer/logger.write_avg": 0.03089761734008789, "timer/logger.write_min": 0.03089761734008789, "timer/logger.write_max": 0.03089761734008789, "timer/replay.add_count": 1320.0, "timer/replay.add_total": 0.2943706512451172, "timer/replay.add_frac": 0.000979992614353779, "timer/replay.add_avg": 0.00022300806912508878, "timer/replay.add_min": 7.152557373046875e-05, "timer/replay.add_max": 0.0020253658294677734, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1320.0, "timer/env.step_total": 15.400840044021606, "timer/env.step_frac": 0.051271108156151324, "timer/env.step_avg": 0.011667303063652733, "timer/env.step_min": 0.002725839614868164, "timer/env.step_max": 1.8028514385223389, "timer/agent.policy_count": 1320.0, "timer/agent.policy_total": 10.06713056564331, "timer/agent.policy_frac": 0.033514596514075116, "timer/agent.policy_avg": 0.007626614064881296, "timer/agent.policy_min": 0.005673408508300781, "timer/agent.policy_max": 0.016422748565673828, "timer/dataset_count": 660.0, "timer/dataset_total": 0.05971670150756836, "timer/dataset_frac": 0.00019880353623383473, "timer/dataset_avg": 9.047985076904297e-05, "timer/dataset_min": 6.771087646484375e-05, "timer/dataset_max": 0.00017309188842773438, "timer/agent.train_count": 660.0, "timer/agent.train_total": 273.8617031574249, "timer/agent.train_frac": 0.9117160468050404, "timer/agent.train_avg": 0.4149419744809469, "timer/agent.train_min": 0.37214183807373047, "timer/agent.train_max": 0.47411394119262695, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2343282699584961, "timer/agent.report_frac": 0.0007801048539394221, "timer/agent.report_avg": 0.2343282699584961, "timer/agent.report_min": 0.2343282699584961, "timer/agent.report_max": 0.2343282699584961, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.3943385241643576}
{"step": 1311304, "episode/length": 227.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.900000050663948, "episode/reward_rate": 0.06140350877192982}
{"step": 1311560, "episode/length": 255.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.0625}
{"step": 1311775, "episode/length": 214.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.06976744186046512}
{"step": 1312213, "episode/length": 437.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.0182648401826484}
{"step": 1312320, "episode/length": 106.0, "episode/score": 2.100000001490116, "episode/sum_abs_reward": 4.300000034272671, "episode/reward_rate": 0.028037383177570093}
{"step": 1312482, "episode/length": 161.0, "episode/score": 14.100000031292439, "episode/sum_abs_reward": 15.1000000461936, "episode/reward_rate": 0.09259259259259259}
{"step": 1312529, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.340051824396307, "train/action_min": 0.0, "train/action_std": 3.2359009005806665, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03448623542984327, "train/actor_opt_grad_steps": 655385.0, "train/actor_opt_loss": -12.35075919375275, "train/adv_mag": 0.3941210232900851, "train/adv_max": 0.3026985799272855, "train/adv_mean": 0.0012989683942357783, "train/adv_min": -0.3678237362341447, "train/adv_std": 0.039514153744235184, "train/cont_avg": 0.9953835227272727, "train/cont_loss_mean": 5.587822383705069e-05, "train/cont_loss_std": 0.001778228252531539, "train/cont_neg_acc": 0.9919191924008456, "train/cont_neg_loss": 0.011816466833530817, "train/cont_pos_acc": 0.9999999837441877, "train/cont_pos_loss": 9.399221853225187e-06, "train/cont_pred": 0.9953978016520991, "train/cont_rate": 0.9953835227272727, "train/dyn_loss_mean": 5.897499221743959, "train/dyn_loss_std": 9.113783084984982, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8253873234445398, "train/extr_critic_critic_opt_grad_steps": 655385.0, "train/extr_critic_critic_opt_loss": 14858.986535274622, "train/extr_critic_mag": 12.715491005868623, "train/extr_critic_max": 12.715491005868623, "train/extr_critic_mean": 3.7575709603049536, "train/extr_critic_min": -0.31881402839313855, "train/extr_critic_std": 2.999865091208256, "train/extr_return_normed_mag": 1.3743967720956514, "train/extr_return_normed_max": 1.3743967720956514, "train/extr_return_normed_mean": 0.39298135900136194, "train/extr_return_normed_min": -0.06060542905646743, "train/extr_return_normed_std": 0.3107246682047844, "train/extr_return_rate": 0.8379656302206444, "train/extr_return_raw_mag": 13.309665145296039, "train/extr_return_raw_max": 13.309665145296039, "train/extr_return_raw_mean": 3.7702319658163823, "train/extr_return_raw_min": -0.6397650585030065, "train/extr_return_raw_std": 3.020605127016703, "train/extr_reward_mag": 1.0865890148914221, "train/extr_reward_max": 1.0865890148914221, "train/extr_reward_mean": 0.0645032748015541, "train/extr_reward_min": -0.5608969095981482, "train/extr_reward_std": 0.2433991985339107, "train/image_loss_mean": 3.730916229161349, "train/image_loss_std": 9.26308689695416, "train/model_loss_mean": 7.333994294657852, "train/model_loss_std": 13.487335999806723, "train/model_opt_grad_norm": 19.478523709223822, "train/model_opt_grad_steps": 654845.6666666666, "train/model_opt_loss": 22265.148866595642, "train/model_opt_model_opt_grad_overflow": 0.015151515151515152, "train/model_opt_model_opt_grad_scale": 2992.4242424242425, "train/policy_entropy_mag": 2.742561278921185, "train/policy_entropy_max": 2.742561278921185, "train/policy_entropy_mean": 0.4514559200315764, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6682671719428265, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.452268584208055, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 1.075287062110323, "train/policy_randomness_mag": 0.9680037733280298, "train/policy_randomness_max": 0.9680037733280298, "train/policy_randomness_mean": 0.15934413061900574, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23586898342226492, "train/post_ent_mag": 55.355488979455195, "train/post_ent_max": 55.355488979455195, "train/post_ent_mean": 39.81424025333289, "train/post_ent_min": 19.275769724990383, "train/post_ent_std": 5.840009450912476, "train/prior_ent_mag": 76.79681512081262, "train/prior_ent_max": 76.79681512081262, "train/prior_ent_mean": 45.6440653367476, "train/prior_ent_min": 27.553629990779992, "train/prior_ent_std": 8.031191984812418, "train/rep_loss_mean": 5.897499221743959, "train/rep_loss_std": 9.113783084984982, "train/reward_avg": 0.05230971792656364, "train/reward_loss_mean": 0.06452266380868175, "train/reward_loss_std": 0.22393180858908276, "train/reward_max_data": 1.034848493157011, "train/reward_max_pred": 1.0305694684837803, "train/reward_neg_acc": 0.9922554023338087, "train/reward_neg_loss": 0.025592315377611103, "train/reward_pos_acc": 0.9908159826741074, "train/reward_pos_loss": 0.716162565982703, "train/reward_pred": 0.05209532651034268, "train/reward_rate": 0.05635949337121212, "stats/sum_log_reward": 10.933333595593771, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 4.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 13.333333333333334, "stats/max_log_achievement_collect_wood": 9.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 1.8333333333333333, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.5372605895002683, "replay/size": 1000000.0, "replay/inserts": 1320.0, "replay/samples": 10560.0, "replay/insert_wait_avg": 3.7615949457341975e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4108464573368883e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.15125823020935, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0260162353515625, "timer/logger.write_frac": 8.667708243158063e-05, "timer/logger.write_avg": 0.0260162353515625, "timer/logger.write_min": 0.0260162353515625, "timer/logger.write_max": 0.0260162353515625, "timer/replay.add_count": 1320.0, "timer/replay.add_total": 0.2823350429534912, "timer/replay.add_frac": 0.0009406425434237111, "timer/replay.add_avg": 0.00021389018405567516, "timer/replay.add_min": 8.416175842285156e-05, "timer/replay.add_max": 0.0012743473052978516, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1320.0, "timer/env.step_total": 15.88502812385559, "timer/env.step_frac": 0.052923410075036655, "timer/env.step_avg": 0.012034112215042114, "timer/env.step_min": 0.002704620361328125, "timer/env.step_max": 1.441990613937378, "timer/agent.policy_count": 1320.0, "timer/agent.policy_total": 10.164576053619385, "timer/agent.policy_frac": 0.03386484572329655, "timer/agent.policy_avg": 0.007700436404257109, "timer/agent.policy_min": 0.005682945251464844, "timer/agent.policy_max": 0.04638981819152832, "timer/dataset_count": 660.0, "timer/dataset_total": 0.058968544006347656, "timer/dataset_frac": 0.00019646275799090635, "timer/dataset_avg": 8.934627879749645e-05, "timer/dataset_min": 6.389617919921875e-05, "timer/dataset_max": 0.00023818016052246094, "timer/agent.train_count": 660.0, "timer/agent.train_total": 273.07284569740295, "timer/agent.train_frac": 0.9097841112095627, "timer/agent.train_avg": 0.413746735905156, "timer/agent.train_min": 0.3672206401824951, "timer/agent.train_max": 0.44985198974609375, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22157073020935059, "timer/agent.report_frac": 0.0007381969061725896, "timer/agent.report_avg": 0.22157073020935059, "timer/agent.report_min": 0.22157073020935059, "timer/agent.report_max": 0.22157073020935059, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.397708408475503}
{"step": 1312666, "episode/length": 183.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.07608695652173914}
{"step": 1312785, "episode/length": 118.0, "episode/score": 7.100000023841858, "episode/sum_abs_reward": 8.899999976158142, "episode/reward_rate": 0.07563025210084033}
{"step": 1313110, "episode/length": 324.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 17.300000056624413, "episode/reward_rate": 0.046153846153846156}
{"step": 1313320, "episode/length": 209.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.047619047619047616}
{"step": 1313567, "episode/length": 246.0, "episode/score": 13.099999994039536, "episode/sum_abs_reward": 15.700000017881393, "episode/reward_rate": 0.06072874493927125}
{"step": 1313781, "episode/length": 213.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.06542056074766354}
{"step": 1313825, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.450318321814904, "train/action_min": 0.0, "train/action_std": 3.3213516748868503, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03447411005886702, "train/actor_opt_grad_steps": 656040.0, "train/actor_opt_loss": -10.020971742043129, "train/adv_mag": 0.43709108325151297, "train/adv_max": 0.34543800491553084, "train/adv_mean": 0.0017819513961652635, "train/adv_min": -0.3914108457473608, "train/adv_std": 0.03984826241548245, "train/cont_avg": 0.9952974759615385, "train/cont_loss_mean": 7.245457451689346e-05, "train/cont_loss_std": 0.002252564581203186, "train/cont_neg_acc": 0.9968750001862645, "train/cont_neg_loss": 0.007456101944052954, "train/cont_pos_acc": 0.9999849126889155, "train/cont_pos_loss": 3.7101691111292194e-05, "train/cont_pred": 0.9952908974427443, "train/cont_rate": 0.9952974759615385, "train/dyn_loss_mean": 5.893272840059721, "train/dyn_loss_std": 9.052039645268367, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8305315888845004, "train/extr_critic_critic_opt_grad_steps": 656040.0, "train/extr_critic_critic_opt_loss": 14912.848753004808, "train/extr_critic_mag": 12.62925469325139, "train/extr_critic_max": 12.62925469325139, "train/extr_critic_mean": 3.729180181943453, "train/extr_critic_min": -0.3286861181259155, "train/extr_critic_std": 3.038363056916457, "train/extr_return_normed_mag": 1.3799262175193199, "train/extr_return_normed_max": 1.3799262175193199, "train/extr_return_normed_mean": 0.3898697513800401, "train/extr_return_normed_min": -0.07032427260508904, "train/extr_return_normed_std": 0.3163133396552159, "train/extr_return_rate": 0.832530089525076, "train/extr_return_raw_mag": 13.33108385526217, "train/extr_return_raw_max": 13.33108385526217, "train/extr_return_raw_mean": 3.746417709497305, "train/extr_return_raw_min": -0.708499537064479, "train/extr_return_raw_std": 3.0622194033402663, "train/extr_reward_mag": 1.0899656772613526, "train/extr_reward_max": 1.0899656772613526, "train/extr_reward_mean": 0.06431437484346904, "train/extr_reward_min": -0.6168129315743079, "train/extr_reward_std": 0.24300133058658013, "train/image_loss_mean": 3.613770002585191, "train/image_loss_std": 9.188975561582126, "train/model_loss_mean": 7.217050589047945, "train/model_loss_std": 13.307275801438552, "train/model_opt_grad_norm": 21.203966889014612, "train/model_opt_grad_steps": 655500.0, "train/model_opt_loss": 18042.626487379806, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7348153921274037, "train/policy_entropy_max": 2.7348153921274037, "train/policy_entropy_mean": 0.4722734121175913, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.690714382666808, "train/policy_logprob_mag": 7.438384224818303, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.472327818778845, "train/policy_logprob_min": -7.438384224818303, "train/policy_logprob_std": 1.087598963884207, "train/policy_randomness_mag": 0.9652698177557725, "train/policy_randomness_max": 0.9652698177557725, "train/policy_randomness_mean": 0.1666917900626476, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24379186515624707, "train/post_ent_mag": 55.05851258497972, "train/post_ent_max": 55.05851258497972, "train/post_ent_mean": 39.74471189058744, "train/post_ent_min": 19.26921553978553, "train/post_ent_std": 5.755295232626108, "train/prior_ent_mag": 76.82543018047626, "train/prior_ent_max": 76.82543018047626, "train/prior_ent_mean": 45.63600411048302, "train/prior_ent_min": 27.800582562960113, "train/prior_ent_std": 7.95369468835684, "train/rep_loss_mean": 5.893272840059721, "train/rep_loss_std": 9.052039645268367, "train/reward_avg": 0.05249849706888199, "train/reward_loss_mean": 0.0672445066846334, "train/reward_loss_std": 0.23685296315413254, "train/reward_max_data": 1.0338461619157058, "train/reward_max_pred": 1.0329059747549203, "train/reward_neg_acc": 0.9915029479907109, "train/reward_neg_loss": 0.027796076682324592, "train/reward_pos_acc": 0.989669120311737, "train/reward_pos_loss": 0.7227083820563096, "train/reward_pred": 0.05207059486554219, "train/reward_rate": 0.056805889423076926, "stats/sum_log_reward": 11.600000143051147, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 2.1666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.3333333333333335, "stats/max_log_achievement_collect_stone": 12.833333333333334, "stats/max_log_achievement_collect_wood": 11.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.6666666666666667, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.8333333333333333, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 2.6666666666666665, "stats/max_log_achievement_place_table": 2.6666666666666665, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.4248609667023023, "replay/size": 1000000.0, "replay/inserts": 1296.0, "replay/samples": 10368.0, "replay/insert_wait_avg": 3.6715725321828583e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.396018045919913e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0503706932068, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02393651008605957, "timer/logger.write_frac": 7.977497255130536e-05, "timer/logger.write_avg": 0.02393651008605957, "timer/logger.write_min": 0.02393651008605957, "timer/logger.write_max": 0.02393651008605957, "timer/replay.add_count": 1296.0, "timer/replay.add_total": 0.2755470275878906, "timer/replay.add_frac": 0.0009183359012398284, "timer/replay.add_avg": 0.00021261344721287858, "timer/replay.add_min": 6.937980651855469e-05, "timer/replay.add_max": 0.00311279296875, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1296.0, "timer/env.step_total": 15.838881969451904, "timer/env.step_frac": 0.05278741010337469, "timer/env.step_avg": 0.012221359544330172, "timer/env.step_min": 0.0026144981384277344, "timer/env.step_max": 1.4117045402526855, "timer/agent.policy_count": 1296.0, "timer/agent.policy_total": 14.354727745056152, "timer/agent.policy_frac": 0.04784105985902435, "timer/agent.policy_avg": 0.011076178815629747, "timer/agent.policy_min": 0.005640745162963867, "timer/agent.policy_max": 3.1999425888061523, "timer/dataset_count": 648.0, "timer/dataset_total": 0.05711483955383301, "timer/dataset_frac": 0.00019035083816720677, "timer/dataset_avg": 8.814018449665587e-05, "timer/dataset_min": 6.270408630371094e-05, "timer/dataset_max": 0.00018477439880371094, "timer/agent.train_count": 648.0, "timer/agent.train_total": 268.86135244369507, "timer/agent.train_frac": 0.896054058598709, "timer/agent.train_avg": 0.4149094945118751, "timer/agent.train_min": 0.37091779708862305, "timer/agent.train_max": 0.5080881118774414, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21939659118652344, "timer/agent.report_frac": 0.0007311992005863922, "timer/agent.report_avg": 0.21939659118652344, "timer/agent.report_min": 0.21939659118652344, "timer/agent.report_max": 0.21939659118652344, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00038552284240722656, "timer/checkpoint.save_frac": 1.284860410325615e-06, "timer/checkpoint.save_avg": 0.00038552284240722656, "timer/checkpoint.save_min": 0.00038552284240722656, "timer/checkpoint.save_max": 0.00038552284240722656, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4173974990844727, "timer/agent.save_frac": 0.0047238651824020655, "timer/agent.save_avg": 1.4173974990844727, "timer/agent.save_min": 1.4173974990844727, "timer/agent.save_max": 1.4173974990844727, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.152557373046875e-05, "timer/replay.save_frac": 2.3837855479139425e-07, "timer/replay.save_avg": 7.152557373046875e-05, "timer/replay.save_min": 7.152557373046875e-05, "timer/replay.save_max": 7.152557373046875e-05, "fps": 4.31919657507581}
{"step": 1314004, "episode/length": 222.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.06278026905829596}
{"step": 1314315, "episode/length": 310.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 16.10000005364418, "episode/reward_rate": 0.04501607717041801}
{"step": 1314508, "episode/length": 192.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.07772020725388601}
{"step": 1314728, "episode/length": 219.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.700000025331974, "episode/reward_rate": 0.07272727272727272}
{"step": 1315004, "episode/length": 275.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.299999997019768, "episode/reward_rate": 0.057971014492753624}
{"step": 1315051, "episode/length": 46.0, "episode/score": 5.100000016391277, "episode/sum_abs_reward": 6.300000034272671, "episode/reward_rate": 0.1276595744680851}
{"step": 1315092, "episode/length": 40.0, "episode/score": 4.099999971687794, "episode/sum_abs_reward": 6.1000000312924385, "episode/reward_rate": 0.14634146341463414}
{"step": 1315135, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.477173790564904, "train/action_min": 0.0, "train/action_std": 3.3753539158747747, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03584040036568275, "train/actor_opt_grad_steps": 656690.0, "train/actor_opt_loss": -10.414078776652996, "train/adv_mag": 0.3957079011660356, "train/adv_max": 0.31235146339123065, "train/adv_mean": 0.001895176521625567, "train/adv_min": -0.36593903119747456, "train/adv_std": 0.040302119289453216, "train/cont_avg": 0.9951322115384615, "train/cont_loss_mean": 0.00012707709542277931, "train/cont_loss_std": 0.0039670983363906155, "train/cont_neg_acc": 0.9947916669771075, "train/cont_neg_loss": 0.03568616616210963, "train/cont_pos_acc": 0.9999848540012654, "train/cont_pos_loss": 2.0560108732489913e-05, "train/cont_pred": 0.9951397244746868, "train/cont_rate": 0.9951322115384615, "train/dyn_loss_mean": 5.9562157264122595, "train/dyn_loss_std": 9.12489672440749, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8541078833433298, "train/extr_critic_critic_opt_grad_steps": 656690.0, "train/extr_critic_critic_opt_loss": 15135.693239182692, "train/extr_critic_mag": 12.60621744302603, "train/extr_critic_max": 12.60621744302603, "train/extr_critic_mean": 3.6752008804908165, "train/extr_critic_min": -0.32798547377953163, "train/extr_critic_std": 3.035680879079379, "train/extr_return_normed_mag": 1.3756915422586293, "train/extr_return_normed_max": 1.3756915422586293, "train/extr_return_normed_mean": 0.3829027503728867, "train/extr_return_normed_min": -0.06843375907494471, "train/extr_return_normed_std": 0.31628541144040917, "train/extr_return_rate": 0.8286859374779921, "train/extr_return_raw_mag": 13.314990909282978, "train/extr_return_raw_max": 13.314990909282978, "train/extr_return_raw_mean": 3.6935651742495024, "train/extr_return_raw_min": -0.6812816784932063, "train/extr_return_raw_std": 3.0656733109400824, "train/extr_reward_mag": 1.0901938328376184, "train/extr_reward_max": 1.0901938328376184, "train/extr_reward_mean": 0.06457856887808212, "train/extr_reward_min": -0.6004717019888071, "train/extr_reward_std": 0.2433709985934771, "train/image_loss_mean": 3.7981649692241963, "train/image_loss_std": 9.22625006895799, "train/model_loss_mean": 7.437513212057261, "train/model_loss_std": 13.356407062823957, "train/model_opt_grad_norm": 19.6030216217041, "train/model_opt_grad_steps": 656149.323076923, "train/model_opt_loss": 20757.32537560096, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2769.230769230769, "train/policy_entropy_mag": 2.7370186218848596, "train/policy_entropy_max": 2.7370186218848596, "train/policy_entropy_mean": 0.4746868399473337, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6878717697583712, "train/policy_logprob_mag": 7.438384364201473, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.47622970663584197, "train/policy_logprob_min": -7.438384364201473, "train/policy_logprob_std": 1.0931931908314045, "train/policy_randomness_mag": 0.9660474612162664, "train/policy_randomness_max": 0.9660474612162664, "train/policy_randomness_mean": 0.16754362491460947, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24278854842369374, "train/post_ent_mag": 55.191475501427284, "train/post_ent_max": 55.191475501427284, "train/post_ent_mean": 39.829241884671724, "train/post_ent_min": 19.53190523294302, "train/post_ent_std": 5.861823632166936, "train/prior_ent_mag": 76.7790505042443, "train/prior_ent_max": 76.7790505042443, "train/prior_ent_mean": 45.730521451509915, "train/prior_ent_min": 27.3960810147799, "train/prior_ent_std": 8.02112023280217, "train/rep_loss_mean": 5.9562157264122595, "train/rep_loss_std": 9.12489672440749, "train/reward_avg": 0.051409254781901836, "train/reward_loss_mean": 0.06549165581281369, "train/reward_loss_std": 0.22483675456964053, "train/reward_max_data": 1.0369230857262244, "train/reward_max_pred": 1.0354690955235408, "train/reward_neg_acc": 0.9919567126494188, "train/reward_neg_loss": 0.027098346702181374, "train/reward_pos_acc": 0.9918662639764639, "train/reward_pos_loss": 0.7165560052945064, "train/reward_pred": 0.05108447882991571, "train/reward_rate": 0.0556640625, "stats/sum_log_reward": 11.242857456207275, "stats/max_log_achievement_collect_coal": 1.1428571428571428, "stats/max_log_achievement_collect_drink": 1.4285714285714286, "stats/max_log_achievement_collect_iron": 0.5714285714285714, "stats/max_log_achievement_collect_sapling": 0.7142857142857143, "stats/max_log_achievement_collect_stone": 9.285714285714286, "stats/max_log_achievement_collect_wood": 10.857142857142858, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.42857142857142855, "stats/max_log_achievement_make_stone_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_stone_sword": 0.7142857142857143, "stats/max_log_achievement_make_wood_pickaxe": 1.2857142857142858, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 0.7142857142857143, "stats/max_log_achievement_place_stone": 2.4285714285714284, "stats/max_log_achievement_place_table": 3.2857142857142856, "stats/max_log_achievement_wake_up": 0.7142857142857143, "stats/mean_log_entropy": 0.45469957696540014, "replay/size": 1000000.0, "replay/inserts": 1310.0, "replay/samples": 10480.0, "replay/insert_wait_avg": 3.7457196767093573e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4081938576152307e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0510449409485, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.037480831146240234, "timer/logger.write_frac": 0.00012491484958373215, "timer/logger.write_avg": 0.037480831146240234, "timer/logger.write_min": 0.037480831146240234, "timer/logger.write_max": 0.037480831146240234, "timer/replay.add_count": 1310.0, "timer/replay.add_total": 0.2792673110961914, "timer/replay.add_frac": 0.0009307326730061965, "timer/replay.add_avg": 0.00021318115350854307, "timer/replay.add_min": 7.2479248046875e-05, "timer/replay.add_max": 0.0019333362579345703, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1310.0, "timer/env.step_total": 17.278169631958008, "timer/env.step_frac": 0.05758410084976853, "timer/env.step_avg": 0.013189442467143517, "timer/env.step_min": 0.002672433853149414, "timer/env.step_max": 1.4095954895019531, "timer/agent.policy_count": 1310.0, "timer/agent.policy_total": 9.927905321121216, "timer/agent.policy_frac": 0.03308738792452823, "timer/agent.policy_avg": 0.007578553680245203, "timer/agent.policy_min": 0.005659818649291992, "timer/agent.policy_max": 0.01729583740234375, "timer/dataset_count": 655.0, "timer/dataset_total": 0.05935406684875488, "timer/dataset_frac": 0.00019781323161342782, "timer/dataset_avg": 9.061689595229753e-05, "timer/dataset_min": 6.389617919921875e-05, "timer/dataset_max": 0.000152587890625, "timer/agent.train_count": 655.0, "timer/agent.train_total": 271.8062698841095, "timer/agent.train_frac": 0.9058667665616772, "timer/agent.train_avg": 0.4149714044032206, "timer/agent.train_min": 0.3720691204071045, "timer/agent.train_max": 0.4529538154602051, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.23225951194763184, "timer/agent.report_frac": 0.0007740666658679414, "timer/agent.report_avg": 0.23225951194763184, "timer/agent.report_min": 0.23225951194763184, "timer/agent.report_max": 0.23225951194763184, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.365850264652791}
{"step": 1315388, "episode/length": 295.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.05067567567567568}
{"step": 1315583, "episode/length": 194.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.07179487179487179}
{"step": 1315786, "episode/length": 202.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.06403940886699508}
{"step": 1316059, "episode/length": 272.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.05128205128205128}
{"step": 1316289, "episode/length": 229.0, "episode/score": 8.099999971687794, "episode/sum_abs_reward": 10.30000003427267, "episode/reward_rate": 0.043478260869565216}
{"step": 1316392, "episode/length": 102.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.05825242718446602}
{"step": 1316453, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.395535555752841, "train/action_min": 0.0, "train/action_std": 3.2560516487468374, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.035570636335195915, "train/actor_opt_grad_steps": 657345.0, "train/actor_opt_loss": -11.27303299601331, "train/adv_mag": 0.434271185687094, "train/adv_max": 0.34453473443334753, "train/adv_mean": 0.0016977558566809007, "train/adv_min": -0.3820326348597353, "train/adv_std": 0.04062743970390522, "train/cont_avg": 0.9951615767045454, "train/cont_loss_mean": 8.908531805062341e-05, "train/cont_loss_std": 0.0028362761121162416, "train/cont_neg_acc": 0.9952861955671599, "train/cont_neg_loss": 0.014614156771581342, "train/cont_pos_acc": 0.999999974713181, "train/cont_pos_loss": 1.2026403434114396e-05, "train/cont_pred": 0.9951838318145636, "train/cont_rate": 0.9951615767045454, "train/dyn_loss_mean": 5.800940990447998, "train/dyn_loss_std": 9.000837369398637, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8515953584150835, "train/extr_critic_critic_opt_grad_steps": 657345.0, "train/extr_critic_critic_opt_loss": 14846.02647076231, "train/extr_critic_mag": 12.603380044301352, "train/extr_critic_max": 12.603380044301352, "train/extr_critic_mean": 3.828308080181931, "train/extr_critic_min": -0.2819898309129657, "train/extr_critic_std": 2.983174670826305, "train/extr_return_normed_mag": 1.3864923986521633, "train/extr_return_normed_max": 1.3864923986521633, "train/extr_return_normed_mean": 0.40004958257530676, "train/extr_return_normed_min": -0.06791748930559013, "train/extr_return_normed_std": 0.3132095585266749, "train/extr_return_rate": 0.8527679560762463, "train/extr_return_raw_mag": 13.317968065088445, "train/extr_return_raw_max": 13.317968065088445, "train/extr_return_raw_mean": 3.8446293744173916, "train/extr_return_raw_min": -0.6484321378397219, "train/extr_return_raw_std": 3.007733876054937, "train/extr_reward_mag": 1.0900592045350508, "train/extr_reward_max": 1.0900592045350508, "train/extr_reward_mean": 0.06526031345129013, "train/extr_reward_min": -0.6012677821246061, "train/extr_reward_std": 0.24404155282360135, "train/image_loss_mean": 3.4632107922525117, "train/image_loss_std": 8.64678025968147, "train/model_loss_mean": 7.011492815884677, "train/model_loss_std": 12.76612814989957, "train/model_opt_grad_norm": 19.490758708029084, "train/model_opt_grad_steps": 656804.0, "train/model_opt_loss": 19872.459487452652, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2878.787878787879, "train/policy_entropy_mag": 2.7419318936087866, "train/policy_entropy_max": 2.7419318936087866, "train/policy_entropy_mean": 0.4486653104876027, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6721144146991499, "train/policy_logprob_mag": 7.438384287285082, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4477089647993897, "train/policy_logprob_min": -7.438384287285082, "train/policy_logprob_std": 1.0715821692437837, "train/policy_randomness_mag": 0.967781634944858, "train/policy_randomness_max": 0.967781634944858, "train/policy_randomness_mean": 0.1583591660089565, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23722689418178616, "train/post_ent_mag": 55.51131780219801, "train/post_ent_max": 55.51131780219801, "train/post_ent_mean": 39.66084295330626, "train/post_ent_min": 19.36952322179621, "train/post_ent_std": 5.790287314039288, "train/prior_ent_mag": 76.81445878924745, "train/prior_ent_max": 76.81445878924745, "train/prior_ent_mean": 45.46233217643969, "train/prior_ent_min": 27.190069632096723, "train/prior_ent_std": 8.049300034840902, "train/rep_loss_mean": 5.800940990447998, "train/rep_loss_std": 9.000837369398637, "train/reward_avg": 0.05382339029826901, "train/reward_loss_mean": 0.06762836924330755, "train/reward_loss_std": 0.23224359186309756, "train/reward_max_data": 1.0409091006625781, "train/reward_max_pred": 1.0386748061035618, "train/reward_neg_acc": 0.9916248727928508, "train/reward_neg_loss": 0.027170283211903137, "train/reward_pos_acc": 0.9874716473348213, "train/reward_pos_loss": 0.7261107022112067, "train/reward_pred": 0.05336116948588328, "train/reward_rate": 0.05809067234848485, "stats/sum_log_reward": 10.933333396911621, "stats/max_log_achievement_collect_coal": 0.3333333333333333, "stats/max_log_achievement_collect_drink": 2.5, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 7.666666666666667, "stats/max_log_achievement_collect_wood": 11.0, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 0.6666666666666666, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_stone": 1.6666666666666667, "stats/max_log_achievement_place_table": 2.6666666666666665, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.512956440448761, "replay/size": 1000000.0, "replay/inserts": 1318.0, "replay/samples": 10544.0, "replay/insert_wait_avg": 3.7479472992452756e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.397792232959151e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.31374502182007, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029510021209716797, "timer/logger.write_frac": 9.826397125969933e-05, "timer/logger.write_avg": 0.029510021209716797, "timer/logger.write_min": 0.029510021209716797, "timer/logger.write_max": 0.029510021209716797, "timer/replay.add_count": 1318.0, "timer/replay.add_total": 0.2842519283294678, "timer/replay.add_frac": 0.000946516544918098, "timer/replay.add_avg": 0.00021566914137288905, "timer/replay.add_min": 7.677078247070312e-05, "timer/replay.add_max": 0.003565073013305664, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1318.0, "timer/env.step_total": 16.269578218460083, "timer/env.step_frac": 0.05417526999064919, "timer/env.step_avg": 0.012344141288664706, "timer/env.step_min": 0.002710103988647461, "timer/env.step_max": 1.6603314876556396, "timer/agent.policy_count": 1318.0, "timer/agent.policy_total": 9.988575220108032, "timer/agent.policy_frac": 0.03326046638119173, "timer/agent.policy_avg": 0.007578585144239781, "timer/agent.policy_min": 0.005563497543334961, "timer/agent.policy_max": 0.015801668167114258, "timer/dataset_count": 659.0, "timer/dataset_total": 0.05918407440185547, "timer/dataset_frac": 0.00019707414456689385, "timer/dataset_avg": 8.980891411510694e-05, "timer/dataset_min": 6.580352783203125e-05, "timer/dataset_max": 0.000148773193359375, "timer/agent.train_count": 659.0, "timer/agent.train_total": 273.030464887619, "timer/agent.train_frac": 0.9091507445580996, "timer/agent.train_avg": 0.41431026538333693, "timer/agent.train_min": 0.36331772804260254, "timer/agent.train_max": 0.4512503147125244, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22013068199157715, "timer/agent.report_frac": 0.0007330023538402579, "timer/agent.report_avg": 0.22013068199157715, "timer/agent.report_min": 0.22013068199157715, "timer/agent.report_max": 0.22013068199157715, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.3886727102900585}
{"step": 1316618, "episode/length": 225.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.061946902654867256}
{"step": 1317089, "episode/length": 470.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.03184713375796178}
{"step": 1317270, "episode/length": 180.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.06629834254143646}
{"step": 1317685, "episode/length": 414.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.02891566265060241}
{"step": 1317759, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.398455070726799, "train/action_min": 0.0, "train/action_std": 3.300522197376598, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03527259761749795, "train/actor_opt_grad_steps": 658005.0, "train/actor_opt_loss": -11.118688230938984, "train/adv_mag": 0.37238694275870465, "train/adv_max": 0.30496218326416885, "train/adv_mean": 0.002042688470530927, "train/adv_min": -0.33398775485428894, "train/adv_std": 0.04018528426461147, "train/cont_avg": 0.9951911695075758, "train/cont_loss_mean": 8.853057216987626e-06, "train/cont_loss_std": 0.00023566568784724151, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00020875021484357387, "train/cont_pos_acc": 0.9999999828410872, "train/cont_pos_loss": 7.987540859076926e-06, "train/cont_pred": 0.9951844341827162, "train/cont_rate": 0.9951911695075758, "train/dyn_loss_mean": 5.975352077773123, "train/dyn_loss_std": 9.153426748333555, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8410888142658003, "train/extr_critic_critic_opt_grad_steps": 658005.0, "train/extr_critic_critic_opt_loss": 14996.808874881628, "train/extr_critic_mag": 12.798621972401937, "train/extr_critic_max": 12.798621972401937, "train/extr_critic_mean": 3.7525354515422475, "train/extr_critic_min": -0.31215779889713635, "train/extr_critic_std": 3.0563514377131606, "train/extr_return_normed_mag": 1.3916239395286099, "train/extr_return_normed_max": 1.3916239395286099, "train/extr_return_normed_mean": 0.38869266934467084, "train/extr_return_normed_min": -0.062323331804663845, "train/extr_return_normed_std": 0.3173383221481786, "train/extr_return_rate": 0.845322409362504, "train/extr_return_raw_mag": 13.52010677800034, "train/extr_return_raw_max": 13.52010677800034, "train/extr_return_raw_mean": 3.7723830179734663, "train/extr_return_raw_min": -0.611501255721757, "train/extr_return_raw_std": 3.084294951323307, "train/extr_reward_mag": 1.08774564482949, "train/extr_reward_max": 1.08774564482949, "train/extr_reward_mean": 0.06535455240218928, "train/extr_reward_min": -0.5849710522275983, "train/extr_reward_std": 0.24490627714178778, "train/image_loss_mean": 3.717133691816619, "train/image_loss_std": 9.609244758432562, "train/model_loss_mean": 7.3697161385507295, "train/model_loss_std": 13.804017066955566, "train/model_opt_grad_norm": 21.989032167376894, "train/model_opt_grad_steps": 657463.0303030303, "train/model_opt_loss": 18935.693596117424, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2575.757575757576, "train/policy_entropy_mag": 2.7355050968401358, "train/policy_entropy_max": 2.7355050968401358, "train/policy_entropy_mean": 0.45735355579491815, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6774221487117537, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4577474986965006, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 1.078004949020617, "train/policy_randomness_mag": 0.9655132564631376, "train/policy_randomness_max": 0.9655132564631376, "train/policy_randomness_mean": 0.16142573264060597, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23910028803529162, "train/post_ent_mag": 55.209149505152844, "train/post_ent_max": 55.209149505152844, "train/post_ent_mean": 39.77870490334251, "train/post_ent_min": 19.149535352533515, "train/post_ent_std": 5.82250384128455, "train/prior_ent_mag": 76.8032182635683, "train/prior_ent_max": 76.8032182635683, "train/prior_ent_mean": 45.68966934897683, "train/prior_ent_min": 27.349534930604875, "train/prior_ent_std": 8.065525806311404, "train/rep_loss_mean": 5.975352077773123, "train/rep_loss_std": 9.153426748333555, "train/reward_avg": 0.05319750201747273, "train/reward_loss_mean": 0.0673623602611549, "train/reward_loss_std": 0.23262359856656104, "train/reward_max_data": 1.0333333412806194, "train/reward_max_pred": 1.0291923248406611, "train/reward_neg_acc": 0.9919567108154297, "train/reward_neg_loss": 0.027279525063931942, "train/reward_pos_acc": 0.9881020224455631, "train/reward_pos_loss": 0.7280277420173992, "train/reward_pred": 0.052757713040619186, "train/reward_rate": 0.05732125946969697, "stats/sum_log_reward": 12.350000143051147, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 20.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 23.0, "stats/max_log_achievement_collect_wood": 13.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "stats/max_log_achievement_make_stone_sword": 1.25, "stats/max_log_achievement_make_wood_pickaxe": 1.25, "stats/max_log_achievement_make_wood_sword": 1.5, "stats/max_log_achievement_place_furnace": 3.25, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 3.25, "stats/max_log_achievement_place_table": 3.75, "stats/max_log_achievement_wake_up": 2.0, "stats/mean_log_entropy": 0.6179618313908577, "replay/size": 1000000.0, "replay/inserts": 1306.0, "replay/samples": 10448.0, "replay/insert_wait_avg": 3.702242560627632e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3980392657596886e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.13572335243225, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023814678192138672, "timer/logger.write_frac": 7.934636345895572e-05, "timer/logger.write_avg": 0.023814678192138672, "timer/logger.write_min": 0.023814678192138672, "timer/logger.write_max": 0.023814678192138672, "timer/replay.add_count": 1306.0, "timer/replay.add_total": 0.2747318744659424, "timer/replay.add_frac": 0.0009153587963380834, "timer/replay.add_avg": 0.00021036131276105848, "timer/replay.add_min": 8.845329284667969e-05, "timer/replay.add_max": 0.0010995864868164062, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1306.0, "timer/env.step_total": 13.425598382949829, "timer/env.step_frac": 0.044731757462889266, "timer/env.step_avg": 0.01027993750608716, "timer/env.step_min": 0.002704620361328125, "timer/env.step_max": 1.7157175540924072, "timer/agent.policy_count": 1306.0, "timer/agent.policy_total": 14.378922700881958, "timer/agent.policy_frac": 0.047908068190861804, "timer/agent.policy_avg": 0.011009894870506859, "timer/agent.policy_min": 0.005534172058105469, "timer/agent.policy_max": 3.353755474090576, "timer/dataset_count": 653.0, "timer/dataset_total": 0.06030082702636719, "timer/dataset_frac": 0.00020091186198305147, "timer/dataset_avg": 9.234429866212432e-05, "timer/dataset_min": 6.556510925292969e-05, "timer/dataset_max": 0.0002665519714355469, "timer/agent.train_count": 653.0, "timer/agent.train_total": 271.30454874038696, "timer/agent.train_frac": 0.9039395434505126, "timer/agent.train_avg": 0.4154740409500566, "timer/agent.train_min": 0.37167859077453613, "timer/agent.train_max": 0.453960657119751, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2338254451751709, "timer/agent.report_frac": 0.0007790656925587062, "timer/agent.report_avg": 0.2338254451751709, "timer/agent.report_min": 0.2338254451751709, "timer/agent.report_max": 0.2338254451751709, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002846717834472656, "timer/checkpoint.save_frac": 9.484768433012947e-07, "timer/checkpoint.save_avg": 0.0002846717834472656, "timer/checkpoint.save_min": 0.0002846717834472656, "timer/checkpoint.save_max": 0.0002846717834472656, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2124464511871338, "timer/agent.save_frac": 0.00403966058303372, "timer/agent.save_avg": 1.2124464511871338, "timer/agent.save_min": 1.2124464511871338, "timer/agent.save_max": 1.2124464511871338, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.176399230957031e-05, "timer/replay.save_frac": 2.3910513386406175e-07, "timer/replay.save_avg": 7.176399230957031e-05, "timer/replay.save_min": 7.176399230957031e-05, "timer/replay.save_max": 7.176399230957031e-05, "fps": 4.35129304226231}
{"step": 1317956, "episode/length": 270.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.055350553505535055}
{"step": 1318199, "episode/length": 242.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.053497942386831275}
{"step": 1318403, "episode/length": 203.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.06862745098039216}
{"step": 1318584, "episode/length": 180.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.06629834254143646}
{"step": 1318780, "episode/length": 195.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.061224489795918366}
{"step": 1319004, "episode/length": 223.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.06696428571428571}
{"step": 1319079, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.422862659801137, "train/action_min": 0.0, "train/action_std": 3.375773801948085, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03590587481404796, "train/actor_opt_grad_steps": 658665.0, "train/actor_opt_loss": -11.877224499529058, "train/adv_mag": 0.4058425724506378, "train/adv_max": 0.3294528420224334, "train/adv_mean": 0.0015954823450308388, "train/adv_min": -0.3458597452351541, "train/adv_std": 0.03968769484058474, "train/cont_avg": 0.99560546875, "train/cont_loss_mean": 9.644355160521092e-06, "train/cont_loss_std": 0.00028295863601357496, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00023059892210335937, "train/cont_pos_acc": 0.9999999810348857, "train/cont_pos_loss": 8.547761176956644e-06, "train/cont_pred": 0.9955983234174324, "train/cont_rate": 0.99560546875, "train/dyn_loss_mean": 5.706881848248568, "train/dyn_loss_std": 8.91370812329379, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8110355021375598, "train/extr_critic_critic_opt_grad_steps": 658665.0, "train/extr_critic_critic_opt_loss": 14803.851089015152, "train/extr_critic_mag": 12.886394081693707, "train/extr_critic_max": 12.886394081693707, "train/extr_critic_mean": 3.7861954407258467, "train/extr_critic_min": -0.34501781066258747, "train/extr_critic_std": 3.0292297890692046, "train/extr_return_normed_mag": 1.3861528598900996, "train/extr_return_normed_max": 1.3861528598900996, "train/extr_return_normed_mean": 0.39242026887156745, "train/extr_return_normed_min": -0.06599666085094213, "train/extr_return_normed_std": 0.3133987429918665, "train/extr_return_rate": 0.8420484562714895, "train/extr_return_raw_mag": 13.491067756306041, "train/extr_return_raw_max": 13.491067756306041, "train/extr_return_raw_mean": 3.801752617864898, "train/extr_return_raw_min": -0.6677935895594683, "train/extr_return_raw_std": 3.055797396284161, "train/extr_reward_mag": 1.0840473319544937, "train/extr_reward_max": 1.0840473319544937, "train/extr_reward_mean": 0.06475543462191567, "train/extr_reward_min": -0.5869474031708457, "train/extr_reward_std": 0.24370720576156268, "train/image_loss_mean": 3.5827732664166074, "train/image_loss_std": 8.922110326362379, "train/model_loss_mean": 7.07238338210366, "train/model_loss_std": 13.0246964078961, "train/model_opt_grad_norm": 19.593345483144123, "train/model_opt_grad_steps": 658122.696969697, "train/model_opt_loss": 20455.383049242424, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2878.787878787879, "train/policy_entropy_mag": 2.7371311657356494, "train/policy_entropy_max": 2.7371311657356494, "train/policy_entropy_mean": 0.4709424362941222, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6908073321436391, "train/policy_logprob_mag": 7.43838425838586, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4719346874591076, "train/policy_logprob_min": -7.43838425838586, "train/policy_logprob_std": 1.0898064989032168, "train/policy_randomness_mag": 0.966087183265975, "train/policy_randomness_max": 0.966087183265975, "train/policy_randomness_mean": 0.16622201680685533, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24382467161525379, "train/post_ent_mag": 55.176872715805516, "train/post_ent_max": 55.176872715805516, "train/post_ent_mean": 39.93911303895892, "train/post_ent_min": 19.5945782661438, "train/post_ent_std": 5.8262418689149795, "train/prior_ent_mag": 76.81959972959577, "train/prior_ent_max": 76.81959972959577, "train/prior_ent_mean": 45.62307386687308, "train/prior_ent_min": 27.40694424600312, "train/prior_ent_std": 7.999419710852883, "train/rep_loss_mean": 5.706881848248568, "train/rep_loss_std": 8.91370812329379, "train/reward_avg": 0.05284238821177772, "train/reward_loss_mean": 0.0654714261040543, "train/reward_loss_std": 0.22894219941262042, "train/reward_max_data": 1.0378787969097947, "train/reward_max_pred": 1.0344963976831147, "train/reward_neg_acc": 0.992857653986324, "train/reward_neg_loss": 0.02595286002156861, "train/reward_pos_acc": 0.9880046022660804, "train/reward_pos_loss": 0.7208907089450143, "train/reward_pred": 0.05238225883945371, "train/reward_rate": 0.056892163825757576, "stats/sum_log_reward": 12.43333355585734, "stats/max_log_achievement_collect_coal": 0.16666666666666666, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 16.666666666666668, "stats/max_log_achievement_collect_wood": 12.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.6666666666666667, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 1.1666666666666667, "stats/max_log_achievement_make_wood_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.1666666666666667, "stats/max_log_achievement_place_plant": 1.1666666666666667, "stats/max_log_achievement_place_stone": 5.5, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.42811621228853863, "replay/size": 1000000.0, "replay/inserts": 1320.0, "replay/samples": 10560.0, "replay/insert_wait_avg": 3.614570155288234e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3982933579069196e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3501396179199, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02625417709350586, "timer/logger.write_frac": 8.741190241131303e-05, "timer/logger.write_avg": 0.02625417709350586, "timer/logger.write_min": 0.02625417709350586, "timer/logger.write_max": 0.02625417709350586, "timer/replay.add_count": 1320.0, "timer/replay.add_total": 0.2793240547180176, "timer/replay.add_frac": 0.0009299947556986324, "timer/replay.add_avg": 0.00021160913236213452, "timer/replay.add_min": 7.319450378417969e-05, "timer/replay.add_max": 0.002930164337158203, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1320.0, "timer/env.step_total": 16.112658739089966, "timer/env.step_frac": 0.053646250205134347, "timer/env.step_avg": 0.012206559650825732, "timer/env.step_min": 0.002623319625854492, "timer/env.step_max": 1.771554946899414, "timer/agent.policy_count": 1320.0, "timer/agent.policy_total": 10.00842809677124, "timer/agent.policy_frac": 0.033322535190105515, "timer/agent.policy_avg": 0.00758214249755397, "timer/agent.policy_min": 0.0056993961334228516, "timer/agent.policy_max": 0.01977062225341797, "timer/dataset_count": 660.0, "timer/dataset_total": 0.06002449989318848, "timer/dataset_frac": 0.00019984841681627507, "timer/dataset_avg": 9.094621195937648e-05, "timer/dataset_min": 6.461143493652344e-05, "timer/dataset_max": 0.00018596649169921875, "timer/agent.train_count": 660.0, "timer/agent.train_total": 273.20137000083923, "timer/agent.train_frac": 0.9096095988115169, "timer/agent.train_avg": 0.41394146969824125, "timer/agent.train_min": 0.36287832260131836, "timer/agent.train_max": 0.4535825252532959, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2267470359802246, "timer/agent.report_frac": 0.0007549423358639788, "timer/agent.report_avg": 0.2267470359802246, "timer/agent.report_min": 0.2267470359802246, "timer/agent.report_max": 0.2267470359802246, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.394826073354446}
{"step": 1319193, "episode/length": 188.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.08465608465608465}
{"step": 1319422, "episode/length": 228.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 14.900000013411045, "episode/reward_rate": 0.0611353711790393}
{"step": 1319723, "episode/length": 300.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.04983388704318937}
{"step": 1319783, "episode/length": 59.0, "episode/score": 4.099999986588955, "episode/sum_abs_reward": 5.900000013411045, "episode/reward_rate": 0.08333333333333333}
{"step": 1320098, "episode/length": 314.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.900000028312206, "episode/reward_rate": 0.050793650793650794}
{"step": 1320391, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.3590951772836535, "train/action_min": 0.0, "train/action_std": 3.2929383534651535, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.034772411475961024, "train/actor_opt_grad_steps": 659320.0, "train/actor_opt_loss": -11.414819709154276, "train/adv_mag": 0.40258013330973114, "train/adv_max": 0.3569785801263956, "train/adv_mean": 0.0019947593204471138, "train/adv_min": -0.3405912243402921, "train/adv_std": 0.04024406740298638, "train/cont_avg": 0.9954477163461538, "train/cont_loss_mean": 5.086518992308916e-05, "train/cont_loss_std": 0.0015569792048635324, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0006146182484440142, "train/cont_pos_acc": 0.9999849356137789, "train/cont_pos_loss": 4.654570552090193e-05, "train/cont_pred": 0.9954247392140902, "train/cont_rate": 0.9954477163461538, "train/dyn_loss_mean": 5.934060463538537, "train/dyn_loss_std": 9.007042576716497, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8462517857551575, "train/extr_critic_critic_opt_grad_steps": 659320.0, "train/extr_critic_critic_opt_loss": 14945.02334735577, "train/extr_critic_mag": 12.840262559744028, "train/extr_critic_max": 12.840262559744028, "train/extr_critic_mean": 3.7170101495889516, "train/extr_critic_min": -0.3060684369160579, "train/extr_critic_std": 3.05958242049584, "train/extr_return_normed_mag": 1.3828278431525598, "train/extr_return_normed_max": 1.3828278431525598, "train/extr_return_normed_mean": 0.3840696275234222, "train/extr_return_normed_min": -0.059445556281850886, "train/extr_return_normed_std": 0.3156084175293262, "train/extr_return_rate": 0.8335957985657912, "train/extr_return_raw_mag": 13.506465119581955, "train/extr_return_raw_max": 13.506465119581955, "train/extr_return_raw_mean": 3.7365220326643724, "train/extr_return_raw_min": -0.6028682245657995, "train/extr_return_raw_std": 3.0878763015453634, "train/extr_reward_mag": 1.0889496950002817, "train/extr_reward_max": 1.0889496950002817, "train/extr_reward_mean": 0.06520945028616831, "train/extr_reward_min": -0.5831985253554124, "train/extr_reward_std": 0.24421879305289343, "train/image_loss_mean": 3.707403876231267, "train/image_loss_std": 9.106957912445068, "train/model_loss_mean": 7.335601857992319, "train/model_loss_std": 13.21817999619704, "train/model_opt_grad_norm": 17.545295443901647, "train/model_opt_grad_steps": 658777.0, "train/model_opt_loss": 18339.00461237981, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.745722535940317, "train/policy_entropy_max": 2.745722535940317, "train/policy_entropy_mean": 0.4567680363471691, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6760499839599315, "train/policy_logprob_mag": 7.4383842688340405, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.45753265298329865, "train/policy_logprob_min": -7.4383842688340405, "train/policy_logprob_std": 1.080706619299375, "train/policy_randomness_mag": 0.9691195625525254, "train/policy_randomness_max": 0.9691195625525254, "train/policy_randomness_mean": 0.16121907394665938, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.238615977534881, "train/post_ent_mag": 55.45986169668345, "train/post_ent_max": 55.45986169668345, "train/post_ent_mean": 39.953211036095254, "train/post_ent_min": 19.641216894296498, "train/post_ent_std": 5.843611335754394, "train/prior_ent_mag": 76.82011930025541, "train/prior_ent_max": 76.82011930025541, "train/prior_ent_mean": 45.84816970825195, "train/prior_ent_min": 27.201543543888974, "train/prior_ent_std": 8.02216698573186, "train/rep_loss_mean": 5.934060463538537, "train/rep_loss_std": 9.007042576716497, "train/reward_avg": 0.05301983167345707, "train/reward_loss_mean": 0.06771091153988472, "train/reward_loss_std": 0.23293825135781215, "train/reward_max_data": 1.030769238105187, "train/reward_max_pred": 1.0301453517033503, "train/reward_neg_acc": 0.9921259971765372, "train/reward_neg_loss": 0.02808659442055684, "train/reward_pos_acc": 0.9904909491539001, "train/reward_pos_loss": 0.7218085105602557, "train/reward_pred": 0.05266596462864142, "train/reward_rate": 0.05725661057692308, "stats/sum_log_reward": 12.300000286102295, "stats/max_log_achievement_collect_coal": 0.8, "stats/max_log_achievement_collect_drink": 1.8, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.6, "stats/max_log_achievement_collect_stone": 13.0, "stats/max_log_achievement_collect_wood": 11.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.4, "stats/max_log_achievement_make_stone_pickaxe": 1.2, "stats/max_log_achievement_make_stone_sword": 1.2, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 2.2, "stats/max_log_achievement_place_stone": 2.6, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.6, "stats/mean_log_entropy": 0.5828641578555107, "replay/size": 1000000.0, "replay/inserts": 1312.0, "replay/samples": 10496.0, "replay/insert_wait_avg": 3.5651936763670386e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4004592851894658e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2142345905304, "timer/logger.write_count": 1.0, "timer/logger.write_total": 2.7372348308563232, "timer/logger.write_frac": 0.009117605081550198, "timer/logger.write_avg": 2.7372348308563232, "timer/logger.write_min": 2.7372348308563232, "timer/logger.write_max": 2.7372348308563232, "timer/replay.add_count": 1312.0, "timer/replay.add_total": 0.2662825584411621, "timer/replay.add_frac": 0.0008869751256277087, "timer/replay.add_avg": 0.0002029592671045443, "timer/replay.add_min": 7.128715515136719e-05, "timer/replay.add_max": 0.0012807846069335938, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1312.0, "timer/env.step_total": 14.723768711090088, "timer/env.step_frac": 0.04904420581912846, "timer/env.step_avg": 0.01122238468833086, "timer/env.step_min": 0.0026700496673583984, "timer/env.step_max": 1.4186723232269287, "timer/agent.policy_count": 1312.0, "timer/agent.policy_total": 10.04848337173462, "timer/agent.policy_frac": 0.033471042388912686, "timer/agent.policy_avg": 0.007658905008944069, "timer/agent.policy_min": 0.005533456802368164, "timer/agent.policy_max": 0.0177152156829834, "timer/dataset_count": 656.0, "timer/dataset_total": 0.060260772705078125, "timer/dataset_frac": 0.0002007259009129573, "timer/dataset_avg": 9.186093400164349e-05, "timer/dataset_min": 6.699562072753906e-05, "timer/dataset_max": 0.00015211105346679688, "timer/agent.train_count": 656.0, "timer/agent.train_total": 271.7418475151062, "timer/agent.train_frac": 0.9051597699414273, "timer/agent.train_avg": 0.41424062121205213, "timer/agent.train_min": 0.37241125106811523, "timer/agent.train_max": 0.4519071578979492, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21963047981262207, "timer/agent.report_frac": 0.0007315791674974423, "timer/agent.report_avg": 0.21963047981262207, "timer/agent.report_min": 0.21963047981262207, "timer/agent.report_max": 0.21963047981262207, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.370135079200543}
{"step": 1320404, "episode/length": 305.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.500000037252903, "episode/reward_rate": 0.0457516339869281}
{"step": 1320589, "episode/length": 184.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.07027027027027027}
{"step": 1320762, "episode/length": 172.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.1000000461936, "episode/reward_rate": 0.08670520231213873}
{"step": 1320934, "episode/length": 171.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.0872093023255814}
{"step": 1321116, "episode/length": 181.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.07692307692307693}
{"step": 1321321, "episode/length": 204.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.06829268292682927}
{"step": 1321519, "episode/length": 197.0, "episode/score": 11.099999964237213, "episode/sum_abs_reward": 13.099999994039536, "episode/reward_rate": 0.06060606060606061}
{"step": 1321683, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.431635929987981, "train/action_min": 0.0, "train/action_std": 3.365830865273109, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.035739774514849366, "train/actor_opt_grad_steps": 659970.0, "train/actor_opt_loss": -11.854520220022936, "train/adv_mag": 0.3909652521977058, "train/adv_max": 0.32963652473229627, "train/adv_mean": 0.0013213448955971567, "train/adv_min": -0.36193558000601256, "train/adv_std": 0.04033167849366481, "train/cont_avg": 0.9950120192307692, "train/cont_loss_mean": 0.00010168728936894065, "train/cont_loss_std": 0.0031949033617995437, "train/cont_neg_acc": 0.9897435903549194, "train/cont_neg_loss": 0.04065302932833778, "train/cont_pos_acc": 0.9999999825771039, "train/cont_pos_loss": 1.1947973750308777e-05, "train/cont_pred": 0.995025518307319, "train/cont_rate": 0.9950120192307692, "train/dyn_loss_mean": 5.799017737461971, "train/dyn_loss_std": 9.05771697117732, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8387742959536039, "train/extr_critic_critic_opt_grad_steps": 659970.0, "train/extr_critic_critic_opt_loss": 14989.495537860577, "train/extr_critic_mag": 12.854677728506235, "train/extr_critic_max": 12.854677728506235, "train/extr_critic_mean": 3.813044786453247, "train/extr_critic_min": -0.3214839183367216, "train/extr_critic_std": 3.1263650197249193, "train/extr_return_normed_mag": 1.378030544060927, "train/extr_return_normed_max": 1.378030544060927, "train/extr_return_normed_mean": 0.39126354639346783, "train/extr_return_normed_min": -0.06187498661187979, "train/extr_return_normed_std": 0.3192151087981004, "train/extr_return_rate": 0.8327274093261132, "train/extr_return_raw_mag": 13.568167172945463, "train/extr_return_raw_max": 13.568167172945463, "train/extr_return_raw_mean": 3.82609674013578, "train/extr_return_raw_min": -0.6476805035884564, "train/extr_return_raw_std": 3.151530926044171, "train/extr_reward_mag": 1.0915721636552078, "train/extr_reward_max": 1.0915721636552078, "train/extr_reward_mean": 0.06534676546087632, "train/extr_reward_min": -0.5772131974880512, "train/extr_reward_std": 0.24505655329961043, "train/image_loss_mean": 3.5350052081621612, "train/image_loss_std": 9.149531841278076, "train/model_loss_mean": 7.081099488185003, "train/model_loss_std": 13.283508902329665, "train/model_opt_grad_norm": 19.210825934776892, "train/model_opt_grad_steps": 659426.323076923, "train/model_opt_loss": 19208.853771033653, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2730.769230769231, "train/policy_entropy_mag": 2.7337290837214545, "train/policy_entropy_max": 2.7337290837214545, "train/policy_entropy_mean": 0.46493764565541196, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6847466876873604, "train/policy_logprob_mag": 7.438384283505953, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4639755565386552, "train/policy_logprob_min": -7.438384283505953, "train/policy_logprob_std": 1.080644558943235, "train/policy_randomness_mag": 0.9648863994158231, "train/policy_randomness_max": 0.9648863994158231, "train/policy_randomness_mean": 0.16410258744771664, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24168553146032187, "train/post_ent_mag": 55.93436701847957, "train/post_ent_max": 55.93436701847957, "train/post_ent_mean": 39.86993161714994, "train/post_ent_min": 19.382287304218, "train/post_ent_std": 5.806047542278583, "train/prior_ent_mag": 76.90352442814753, "train/prior_ent_max": 76.90352442814753, "train/prior_ent_mean": 45.65846581092248, "train/prior_ent_min": 27.542816690298228, "train/prior_ent_std": 7.971930511181171, "train/rep_loss_mean": 5.799017737461971, "train/rep_loss_std": 9.05771697117732, "train/reward_avg": 0.051962138855686554, "train/reward_loss_mean": 0.06658200071408199, "train/reward_loss_std": 0.23472429445156684, "train/reward_max_data": 1.0384615476314838, "train/reward_max_pred": 1.0352197958872869, "train/reward_neg_acc": 0.9924538052999057, "train/reward_neg_loss": 0.02737133437051223, "train/reward_pos_acc": 0.9904381632804871, "train/reward_pos_loss": 0.7212914824485779, "train/reward_pred": 0.05168298511550977, "train/reward_rate": 0.05634014423076923, "stats/sum_log_reward": 12.81428609575544, "stats/max_log_achievement_collect_coal": 1.4285714285714286, "stats/max_log_achievement_collect_drink": 2.2857142857142856, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 13.428571428571429, "stats/max_log_achievement_collect_wood": 12.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 2.2857142857142856, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.1428571428571428, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.7142857142857142, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 1.7142857142857142, "stats/max_log_achievement_place_table": 3.2857142857142856, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.3469411070857729, "replay/size": 1000000.0, "replay/inserts": 1292.0, "replay/samples": 10336.0, "replay/insert_wait_avg": 3.4823506240136113e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4195547384374282e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.16224670410156, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02254486083984375, "timer/logger.write_frac": 7.510891555282221e-05, "timer/logger.write_avg": 0.02254486083984375, "timer/logger.write_min": 0.02254486083984375, "timer/logger.write_max": 0.02254486083984375, "timer/replay.add_count": 1292.0, "timer/replay.add_total": 0.25824689865112305, "timer/replay.add_frac": 0.0008603576948359583, "timer/replay.add_avg": 0.0001998815005039652, "timer/replay.add_min": 8.296966552734375e-05, "timer/replay.add_max": 0.0009579658508300781, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1292.0, "timer/env.step_total": 17.90710711479187, "timer/env.step_frac": 0.05965809261963783, "timer/env.step_avg": 0.013859990026928693, "timer/env.step_min": 0.002410411834716797, "timer/env.step_max": 1.664780855178833, "timer/agent.policy_count": 1292.0, "timer/agent.policy_total": 14.221863031387329, "timer/agent.policy_frac": 0.04738058562510418, "timer/agent.policy_avg": 0.011007633925222391, "timer/agent.policy_min": 0.005605459213256836, "timer/agent.policy_max": 3.198000431060791, "timer/dataset_count": 646.0, "timer/dataset_total": 0.05900692939758301, "timer/dataset_frac": 0.0001965834479369144, "timer/dataset_avg": 9.134199597149072e-05, "timer/dataset_min": 6.556510925292969e-05, "timer/dataset_max": 0.00018262863159179688, "timer/agent.train_count": 646.0, "timer/agent.train_total": 267.03130626678467, "timer/agent.train_frac": 0.889623226101525, "timer/agent.train_avg": 0.413361155211741, "timer/agent.train_min": 0.36218714714050293, "timer/agent.train_max": 0.4516425132751465, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.24082612991333008, "timer/agent.report_frac": 0.0008023198538713473, "timer/agent.report_avg": 0.24082612991333008, "timer/agent.report_min": 0.24082612991333008, "timer/agent.report_max": 0.24082612991333008, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0008053779602050781, "timer/checkpoint.save_frac": 2.683142097477088e-06, "timer/checkpoint.save_avg": 0.0008053779602050781, "timer/checkpoint.save_min": 0.0008053779602050781, "timer/checkpoint.save_max": 0.0008053779602050781, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1979835033416748, "timer/agent.save_frac": 0.003991119857663649, "timer/agent.save_avg": 1.1979835033416748, "timer/agent.save_min": 1.1979835033416748, "timer/agent.save_max": 1.1979835033416748, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.00013113021850585938, "timer/replay.save_frac": 4.3686446228904623e-07, "timer/replay.save_avg": 0.00013113021850585938, "timer/replay.save_min": 0.00013113021850585938, "timer/replay.save_max": 0.00013113021850585938, "fps": 4.304263958616254}
{"step": 1321772, "episode/length": 252.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.30000001937151, "episode/reward_rate": 0.06324110671936758}
{"step": 1322240, "episode/length": 467.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 18.900000043213367, "episode/reward_rate": 0.03418803418803419}
{"step": 1322502, "episode/length": 261.0, "episode/score": 10.099999971687794, "episode/sum_abs_reward": 12.500000037252903, "episode/reward_rate": 0.04580152671755725}
{"step": 1322543, "episode/length": 40.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.099999994039536, "episode/reward_rate": 0.1951219512195122}
{"step": 1322790, "episode/length": 246.0, "episode/score": 15.100000008940697, "episode/sum_abs_reward": 17.700000047683716, "episode/reward_rate": 0.06477732793522267}
{"step": 1322948, "episode/length": 157.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.06962025316455696}
{"step": 1322999, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.435323079427083, "train/action_min": 0.0, "train/action_std": 3.3680998520417647, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03666954013434323, "train/actor_opt_grad_steps": 660625.0, "train/actor_opt_loss": -12.16712831115971, "train/adv_mag": 0.39988785485426587, "train/adv_max": 0.33074748493505246, "train/adv_mean": 0.001376057756274487, "train/adv_min": -0.36348974298347125, "train/adv_std": 0.041204900396141136, "train/cont_avg": 0.995413115530303, "train/cont_loss_mean": 5.226624588535363e-06, "train/cont_loss_std": 0.00013413475465693918, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 9.468191403032499e-05, "train/cont_pos_acc": 0.9999999792286844, "train/cont_pos_loss": 4.677866824780374e-06, "train/cont_pred": 0.995409116600499, "train/cont_rate": 0.995413115530303, "train/dyn_loss_mean": 5.989882223533861, "train/dyn_loss_std": 8.9988513137355, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8733274683807836, "train/extr_critic_critic_opt_grad_steps": 660625.0, "train/extr_critic_critic_opt_loss": 15118.519457267992, "train/extr_critic_mag": 12.71374968326453, "train/extr_critic_max": 12.71374968326453, "train/extr_critic_mean": 3.8052492972576255, "train/extr_critic_min": -0.30846792820728186, "train/extr_critic_std": 3.0123377243677774, "train/extr_return_normed_mag": 1.383648086677898, "train/extr_return_normed_max": 1.383648086677898, "train/extr_return_normed_mean": 0.3966320260907664, "train/extr_return_normed_min": -0.06018279769429655, "train/extr_return_normed_std": 0.3127282358931773, "train/extr_return_rate": 0.8462171003674016, "train/extr_return_raw_mag": 13.39604562701601, "train/extr_return_raw_max": 13.39604562701601, "train/extr_return_raw_mean": 3.818584756417708, "train/extr_return_raw_min": -0.6133923801508817, "train/extr_return_raw_std": 3.0342257781462236, "train/extr_reward_mag": 1.0913499160246416, "train/extr_reward_max": 1.0913499160246416, "train/extr_reward_mean": 0.0653725571253083, "train/extr_reward_min": -0.5703463066707958, "train/extr_reward_std": 0.24512607513955145, "train/image_loss_mean": 3.6277192560109226, "train/image_loss_std": 9.240350347576719, "train/model_loss_mean": 7.286963730147391, "train/model_loss_std": 13.382998206398703, "train/model_opt_grad_norm": 20.427242640293006, "train/model_opt_grad_steps": 660080.8636363636, "train/model_opt_loss": 18486.774340080494, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2537.878787878788, "train/policy_entropy_mag": 2.7219318512714272, "train/policy_entropy_max": 2.7219318512714272, "train/policy_entropy_mean": 0.46320445067954785, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6790137638648351, "train/policy_logprob_mag": 7.438384287285082, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.46259054270657624, "train/policy_logprob_min": -7.438384287285082, "train/policy_logprob_std": 1.0795056061311201, "train/policy_randomness_mag": 0.9607224943059863, "train/policy_randomness_max": 0.9607224943059863, "train/policy_randomness_mean": 0.1634908461886825, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2396620586514473, "train/post_ent_mag": 55.517441662875086, "train/post_ent_max": 55.517441662875086, "train/post_ent_mean": 39.720225074074484, "train/post_ent_min": 19.53842949144768, "train/post_ent_std": 5.922411282857259, "train/prior_ent_mag": 76.84908190640536, "train/prior_ent_max": 76.84908190640536, "train/prior_ent_mean": 45.67377142472701, "train/prior_ent_min": 27.565468499154754, "train/prior_ent_std": 8.10597452250394, "train/rep_loss_mean": 5.989882223533861, "train/rep_loss_std": 8.9988513137355, "train/reward_avg": 0.05326112698424946, "train/reward_loss_mean": 0.06530994069621418, "train/reward_loss_std": 0.2280308139143568, "train/reward_max_data": 1.0378787969097947, "train/reward_max_pred": 1.0372144670197458, "train/reward_neg_acc": 0.9930010167035189, "train/reward_neg_loss": 0.025586876185667334, "train/reward_pos_acc": 0.9906489560098359, "train/reward_pos_loss": 0.720998921177604, "train/reward_pred": 0.05296188025650653, "train/reward_rate": 0.057306463068181816, "stats/sum_log_reward": 11.9333336353302, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 4.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 12.5, "stats/max_log_achievement_collect_wood": 12.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.8333333333333333, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.8333333333333333, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_stone": 2.6666666666666665, "stats/max_log_achievement_place_table": 2.6666666666666665, "stats/max_log_achievement_wake_up": 1.8333333333333333, "stats/mean_log_entropy": 0.5783237963914871, "replay/size": 1000000.0, "replay/inserts": 1316.0, "replay/samples": 10528.0, "replay/insert_wait_avg": 3.454170690843762e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4183731426946297e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2255849838257, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024440288543701172, "timer/logger.write_frac": 8.14064149296865e-05, "timer/logger.write_avg": 0.024440288543701172, "timer/logger.write_min": 0.024440288543701172, "timer/logger.write_max": 0.024440288543701172, "timer/replay.add_count": 1316.0, "timer/replay.add_total": 0.2735931873321533, "timer/replay.add_frac": 0.0009112920451029943, "timer/replay.add_avg": 0.00020789755876303445, "timer/replay.add_min": 7.82012939453125e-05, "timer/replay.add_max": 0.002471446990966797, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1316.0, "timer/env.step_total": 16.712894439697266, "timer/env.step_frac": 0.05566778874158128, "timer/env.step_avg": 0.01269976781132011, "timer/env.step_min": 0.0025703907012939453, "timer/env.step_max": 1.6981256008148193, "timer/agent.policy_count": 1316.0, "timer/agent.policy_total": 9.994644403457642, "timer/agent.policy_frac": 0.0332904485938335, "timer/agent.policy_avg": 0.007594714592293041, "timer/agent.policy_min": 0.005692005157470703, "timer/agent.policy_max": 0.02097153663635254, "timer/dataset_count": 658.0, "timer/dataset_total": 0.059574127197265625, "timer/dataset_frac": 0.00019843121365047922, "timer/dataset_avg": 9.053818722988697e-05, "timer/dataset_min": 6.127357482910156e-05, "timer/dataset_max": 0.00042748451232910156, "timer/agent.train_count": 658.0, "timer/agent.train_total": 272.5152921676636, "timer/agent.train_frac": 0.907701760935348, "timer/agent.train_avg": 0.41415697897821213, "timer/agent.train_min": 0.3720071315765381, "timer/agent.train_max": 0.4517245292663574, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2178812026977539, "timer/agent.report_frac": 0.0007257249668095142, "timer/agent.report_avg": 0.2178812026977539, "timer/agent.report_min": 0.2178812026977539, "timer/agent.report_max": 0.2178812026977539, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.3832945125735465}
{"step": 1323455, "episode/length": 506.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 18.300000049173832, "episode/reward_rate": 0.03155818540433925}
{"step": 1323610, "episode/length": 154.0, "episode/score": 11.100000016391277, "episode/sum_abs_reward": 12.100000031292439, "episode/reward_rate": 0.07741935483870968}
{"step": 1323877, "episode/length": 266.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.04868913857677903}
{"step": 1324075, "episode/length": 197.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.06565656565656566}
{"step": 1324333, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.307720762310606, "train/action_min": 0.0, "train/action_std": 3.2441658756949683, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03500609943699656, "train/actor_opt_grad_steps": 661285.0, "train/actor_opt_loss": -9.915699288700566, "train/adv_mag": 0.3768806227228858, "train/adv_max": 0.31578677666909766, "train/adv_mean": 0.002258990278416163, "train/adv_min": -0.3495543504303152, "train/adv_std": 0.04066497914380196, "train/cont_avg": 0.9953539299242424, "train/cont_loss_mean": 6.930694536287346e-05, "train/cont_loss_std": 0.002197434399228909, "train/cont_neg_acc": 0.9974747480768146, "train/cont_neg_loss": 0.01153058789871616, "train/cont_pos_acc": 0.9999999783255837, "train/cont_pos_loss": 2.241019256307456e-06, "train/cont_pred": 0.9953739435383768, "train/cont_rate": 0.9953539299242424, "train/dyn_loss_mean": 5.897283041115963, "train/dyn_loss_std": 9.004173618374448, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.863849067326748, "train/extr_critic_critic_opt_grad_steps": 661285.0, "train/extr_critic_critic_opt_loss": 15019.16542376894, "train/extr_critic_mag": 12.703882491949832, "train/extr_critic_max": 12.703882491949832, "train/extr_critic_mean": 3.765215848431443, "train/extr_critic_min": -0.3362692594528198, "train/extr_critic_std": 3.039583430145726, "train/extr_return_normed_mag": 1.3900358658848386, "train/extr_return_normed_max": 1.3900358658848386, "train/extr_return_normed_mean": 0.39430173125230905, "train/extr_return_normed_min": -0.06775947361055648, "train/extr_return_normed_std": 0.3171617305188468, "train/extr_return_rate": 0.8326428803530607, "train/extr_return_raw_mag": 13.423560055819424, "train/extr_return_raw_max": 13.423560055819424, "train/extr_return_raw_mean": 3.7870627117879465, "train/extr_return_raw_min": -0.6852482087684401, "train/extr_return_raw_std": 3.069589535395304, "train/extr_reward_mag": 1.0879434419400764, "train/extr_reward_max": 1.0879434419400764, "train/extr_reward_mean": 0.06385583264019454, "train/extr_reward_min": -0.5885025335080696, "train/extr_reward_std": 0.24229948606454965, "train/image_loss_mean": 3.7306148608525596, "train/image_loss_std": 9.304179668426514, "train/model_loss_mean": 7.3350441455841064, "train/model_loss_std": 13.39758911999789, "train/model_opt_grad_norm": 19.127661979559697, "train/model_opt_grad_steps": 660740.0, "train/model_opt_loss": 18337.610277580494, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.731739979801756, "train/policy_entropy_max": 2.731739979801756, "train/policy_entropy_mean": 0.44660802998326044, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6514802259026151, "train/policy_logprob_mag": 7.438384236711444, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.44653300466862594, "train/policy_logprob_min": -7.438384236711444, "train/policy_logprob_std": 1.067284390781865, "train/policy_randomness_mag": 0.9641843329776417, "train/policy_randomness_max": 0.9641843329776417, "train/policy_randomness_mean": 0.1576330332141934, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.22994392974810166, "train/post_ent_mag": 55.7495033379757, "train/post_ent_max": 55.7495033379757, "train/post_ent_mean": 39.90524829517711, "train/post_ent_min": 19.53103137738777, "train/post_ent_std": 5.954681504856456, "train/prior_ent_mag": 76.80556996663411, "train/prior_ent_max": 76.80556996663411, "train/prior_ent_mean": 45.798657735188804, "train/prior_ent_min": 27.238730690696023, "train/prior_ent_std": 8.07797434835723, "train/rep_loss_mean": 5.897283041115963, "train/rep_loss_std": 9.004173618374448, "train/reward_avg": 0.05307469181152004, "train/reward_loss_mean": 0.06599006062429963, "train/reward_loss_std": 0.22634531173742178, "train/reward_max_data": 1.034848493157011, "train/reward_max_pred": 1.0329767646211567, "train/reward_neg_acc": 0.991640851353154, "train/reward_neg_loss": 0.026545240670781244, "train/reward_pos_acc": 0.9902422175262914, "train/reward_pos_loss": 0.7164092100027836, "train/reward_pred": 0.05278388515227672, "train/reward_rate": 0.057247277462121215, "stats/sum_log_reward": 12.600000143051147, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 4.25, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.75, "stats/max_log_achievement_collect_stone": 16.75, "stats/max_log_achievement_collect_wood": 16.25, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.75, "stats/max_log_achievement_eat_cow": 1.0, "stats/max_log_achievement_make_stone_pickaxe": 0.75, "stats/max_log_achievement_make_stone_sword": 1.25, "stats/max_log_achievement_make_wood_pickaxe": 1.25, "stats/max_log_achievement_make_wood_sword": 1.25, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 1.75, "stats/max_log_achievement_place_stone": 2.75, "stats/max_log_achievement_place_table": 3.75, "stats/max_log_achievement_wake_up": 2.25, "stats/mean_log_entropy": 0.4449625238776207, "replay/size": 1000000.0, "replay/inserts": 1334.0, "replay/samples": 10672.0, "replay/insert_wait_avg": 3.5585849538914624e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.410561344255393e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.4198808670044, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03028559684753418, "timer/logger.write_frac": 0.00010081089427281141, "timer/logger.write_avg": 0.03028559684753418, "timer/logger.write_min": 0.03028559684753418, "timer/logger.write_max": 0.03028559684753418, "timer/replay.add_count": 1334.0, "timer/replay.add_total": 0.26914405822753906, "timer/replay.add_frac": 0.0008958929663735833, "timer/replay.add_avg": 0.00020175716508811023, "timer/replay.add_min": 7.128715515136719e-05, "timer/replay.add_max": 0.0009441375732421875, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1334.0, "timer/env.step_total": 13.396578788757324, "timer/env.step_frac": 0.04459285034697147, "timer/env.step_avg": 0.01004241288512543, "timer/env.step_min": 0.0026154518127441406, "timer/env.step_max": 1.4322826862335205, "timer/agent.policy_count": 1334.0, "timer/agent.policy_total": 10.056426763534546, "timer/agent.policy_frac": 0.033474571438188265, "timer/agent.policy_avg": 0.007538550797252283, "timer/agent.policy_min": 0.005558013916015625, "timer/agent.policy_max": 0.018732547760009766, "timer/dataset_count": 667.0, "timer/dataset_total": 0.06028580665588379, "timer/dataset_frac": 0.00020067182798255706, "timer/dataset_avg": 9.038351822471332e-05, "timer/dataset_min": 6.4849853515625e-05, "timer/dataset_max": 0.0001919269561767578, "timer/agent.train_count": 667.0, "timer/agent.train_total": 275.9298963546753, "timer/agent.train_frac": 0.9184808127822579, "timer/agent.train_avg": 0.4136880005317471, "timer/agent.train_min": 0.3607332706451416, "timer/agent.train_max": 0.45345616340637207, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2588021755218506, "timer/agent.report_frac": 0.0008614682050167715, "timer/agent.report_avg": 0.2588021755218506, "timer/agent.report_min": 0.2588021755218506, "timer/agent.report_max": 0.2588021755218506, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.440374781337375}
{"step": 1324343, "episode/length": 267.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.500000037252903, "episode/reward_rate": 0.05223880597014925}
{"step": 1324616, "episode/length": 272.0, "episode/score": 12.099999979138374, "episode/sum_abs_reward": 13.900000020861626, "episode/reward_rate": 0.047619047619047616}
{"step": 1324830, "episode/length": 213.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.07009345794392523}
{"step": 1325010, "episode/length": 179.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.07777777777777778}
{"step": 1325186, "episode/length": 175.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.07386363636363637}
{"step": 1325436, "episode/length": 249.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 16.500000044703484, "episode/reward_rate": 0.06}
{"step": 1325627, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.397004582331731, "train/action_min": 0.0, "train/action_std": 3.261891078948975, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03549218186392234, "train/actor_opt_grad_steps": 661940.0, "train/actor_opt_loss": -12.027335588748638, "train/adv_mag": 0.38607687812585095, "train/adv_max": 0.31706834527162403, "train/adv_mean": 0.0017654713885769105, "train/adv_min": -0.34985282375262333, "train/adv_std": 0.04024402556511072, "train/cont_avg": 0.994921875, "train/cont_loss_mean": 1.3789853726328041e-05, "train/cont_loss_std": 0.00038019368217262055, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0011010579059027, "train/cont_pos_acc": 0.9999999853280874, "train/cont_pos_loss": 8.35999244400271e-06, "train/cont_pred": 0.9949189552894006, "train/cont_rate": 0.994921875, "train/dyn_loss_mean": 5.715177807441124, "train/dyn_loss_std": 8.998944487938514, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8519602096997775, "train/extr_critic_critic_opt_grad_steps": 661940.0, "train/extr_critic_critic_opt_loss": 14845.222280649039, "train/extr_critic_mag": 12.884496864905724, "train/extr_critic_max": 12.884496864905724, "train/extr_critic_mean": 3.9061103637401873, "train/extr_critic_min": -0.32804856116955095, "train/extr_critic_std": 3.11479062300462, "train/extr_return_normed_mag": 1.3829504086421087, "train/extr_return_normed_max": 1.3829504086421087, "train/extr_return_normed_mean": 0.39980042714339037, "train/extr_return_normed_min": -0.06724034424584646, "train/extr_return_normed_std": 0.31863703979895663, "train/extr_return_rate": 0.8509014881574191, "train/extr_return_raw_mag": 13.60330203129695, "train/extr_return_raw_max": 13.60330203129695, "train/extr_return_raw_mean": 3.923487839331994, "train/extr_return_raw_min": -0.6752092567773965, "train/extr_return_raw_std": 3.1377478782947246, "train/extr_reward_mag": 1.0849083240215596, "train/extr_reward_max": 1.0849083240215596, "train/extr_reward_mean": 0.06519509903513468, "train/extr_reward_min": -0.5480277373240544, "train/extr_reward_std": 0.2445517831123792, "train/image_loss_mean": 3.6606793623704177, "train/image_loss_std": 9.194211160219632, "train/model_loss_mean": 7.155672506185678, "train/model_loss_std": 13.288776647127591, "train/model_opt_grad_norm": 19.051909021230845, "train/model_opt_grad_steps": 661394.5538461539, "train/model_opt_loss": 20975.466165865386, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2923.076923076923, "train/policy_entropy_mag": 2.720012309001042, "train/policy_entropy_max": 2.720012309001042, "train/policy_entropy_mean": 0.46620982541487765, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6816333995415614, "train/policy_logprob_mag": 7.438384320185735, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4648029293005283, "train/policy_logprob_min": -7.438384320185735, "train/policy_logprob_std": 1.0808483701485854, "train/policy_randomness_mag": 0.9600449800491333, "train/policy_randomness_max": 0.9600449800491333, "train/policy_randomness_mean": 0.16455160998381102, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24058667662052008, "train/post_ent_mag": 55.78877551739033, "train/post_ent_max": 55.78877551739033, "train/post_ent_mean": 39.97825282170222, "train/post_ent_min": 19.336478350712703, "train/post_ent_std": 5.912774738898644, "train/prior_ent_mag": 76.64942920391377, "train/prior_ent_max": 76.64942920391377, "train/prior_ent_mean": 45.676925424429086, "train/prior_ent_min": 27.314792192899265, "train/prior_ent_std": 8.07599261357234, "train/rep_loss_mean": 5.715177807441124, "train/rep_loss_std": 8.998944487938514, "train/reward_avg": 0.05391826887543385, "train/reward_loss_mean": 0.0658727092238573, "train/reward_loss_std": 0.22414372884310207, "train/reward_max_data": 1.0230769285788903, "train/reward_max_pred": 1.0245541315812332, "train/reward_neg_acc": 0.9926916296665486, "train/reward_neg_loss": 0.02587434504754268, "train/reward_pos_acc": 0.989872344640585, "train/reward_pos_loss": 0.7147600650787354, "train/reward_pred": 0.05358808860182762, "train/reward_rate": 0.05809795673076923, "stats/sum_log_reward": 12.93333355585734, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 3.3333333333333335, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 15.833333333333334, "stats/max_log_achievement_collect_wood": 14.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.8333333333333333, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.3333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.3333333333333333, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_stone": 4.666666666666667, "stats/max_log_achievement_place_table": 3.6666666666666665, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.43238591651121777, "replay/size": 1000000.0, "replay/inserts": 1294.0, "replay/samples": 10352.0, "replay/insert_wait_avg": 3.5858596495166997e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.422611786372142e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 299.97947931289673, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03408241271972656, "timer/logger.write_frac": 0.00011361581398098417, "timer/logger.write_avg": 0.03408241271972656, "timer/logger.write_min": 0.03408241271972656, "timer/logger.write_max": 0.03408241271972656, "timer/replay.add_count": 1294.0, "timer/replay.add_total": 0.2723557949066162, "timer/replay.add_frac": 0.0009079147531372726, "timer/replay.add_avg": 0.0002104758847810017, "timer/replay.add_min": 7.724761962890625e-05, "timer/replay.add_max": 0.0012218952178955078, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1294.0, "timer/env.step_total": 16.788266897201538, "timer/env.step_frac": 0.05596471777221255, "timer/env.step_avg": 0.012973931141577695, "timer/env.step_min": 0.002672433853149414, "timer/env.step_max": 1.7424802780151367, "timer/agent.policy_count": 1294.0, "timer/agent.policy_total": 14.34833312034607, "timer/agent.policy_frac": 0.04783104882110916, "timer/agent.policy_avg": 0.011088356352663115, "timer/agent.policy_min": 0.005585432052612305, "timer/agent.policy_max": 3.1224422454833984, "timer/dataset_count": 647.0, "timer/dataset_total": 0.05931663513183594, "timer/dataset_frac": 0.00019773564267696158, "timer/dataset_avg": 9.167949788537239e-05, "timer/dataset_min": 6.532669067382812e-05, "timer/dataset_max": 0.0001804828643798828, "timer/agent.train_count": 647.0, "timer/agent.train_total": 267.8404085636139, "timer/agent.train_frac": 0.8928624357142781, "timer/agent.train_avg": 0.4139728107629272, "timer/agent.train_min": 0.37154245376586914, "timer/agent.train_max": 0.4507439136505127, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21784687042236328, "timer/agent.report_frac": 0.0007262059088886404, "timer/agent.report_avg": 0.21784687042236328, "timer/agent.report_min": 0.21784687042236328, "timer/agent.report_max": 0.21784687042236328, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00041604042053222656, "timer/checkpoint.save_frac": 1.3868962686553344e-06, "timer/checkpoint.save_avg": 0.00041604042053222656, "timer/checkpoint.save_min": 0.00041604042053222656, "timer/checkpoint.save_max": 0.00041604042053222656, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4077041149139404, "timer/agent.save_frac": 0.004692668038954824, "timer/agent.save_avg": 1.4077041149139404, "timer/agent.save_min": 1.4077041149139404, "timer/agent.save_max": 1.4077041149139404, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.654594421386719e-05, "timer/replay.save_frac": 2.8850621519878875e-07, "timer/replay.save_avg": 8.654594421386719e-05, "timer/replay.save_min": 8.654594421386719e-05, "timer/replay.save_max": 8.654594421386719e-05, "fps": 4.3135612889698915}
{"step": 1325627, "episode/length": 190.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06282722513089005}
{"step": 1325870, "episode/length": 242.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.500000052154064, "episode/reward_rate": 0.06995884773662552}
{"step": 1326193, "episode/length": 322.0, "episode/score": 13.100000023841858, "episode/sum_abs_reward": 16.300000071525574, "episode/reward_rate": 0.043343653250773995}
{"step": 1326416, "episode/length": 222.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.06726457399103139}
{"step": 1326797, "episode/length": 380.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.700000025331974, "episode/reward_rate": 0.04199475065616798}
{"step": 1326953, "stats/sum_log_reward": 13.700000190734864, "stats/max_log_achievement_collect_coal": 2.0, "stats/max_log_achievement_collect_drink": 2.8, "stats/max_log_achievement_collect_iron": 0.4, "stats/max_log_achievement_collect_sapling": 1.8, "stats/max_log_achievement_collect_stone": 16.4, "stats/max_log_achievement_collect_wood": 11.4, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.6, "stats/max_log_achievement_eat_cow": 0.8, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.2, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2, "stats/max_log_achievement_place_furnace": 1.2, "stats/max_log_achievement_place_plant": 1.8, "stats/max_log_achievement_place_stone": 3.8, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.4, "stats/mean_log_entropy": 0.7506658971309662, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.438368363813921, "train/action_min": 0.0, "train/action_std": 3.355213559035099, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.034634221006523476, "train/actor_opt_grad_steps": 662595.0, "train/actor_opt_loss": -12.087522400599537, "train/adv_mag": 0.42250921328862506, "train/adv_max": 0.346225615252148, "train/adv_mean": 0.0014603479655761475, "train/adv_min": -0.3661636055418939, "train/adv_std": 0.03941400653936646, "train/cont_avg": 0.9956498579545454, "train/cont_loss_mean": 1.7535438951823885e-05, "train/cont_loss_std": 0.0005128727424683823, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0017718336018439438, "train/cont_pos_acc": 0.9999999765193823, "train/cont_pos_loss": 1.0883337993375964e-05, "train/cont_pred": 0.9956458617340435, "train/cont_rate": 0.9956498579545454, "train/dyn_loss_mean": 5.75656880754413, "train/dyn_loss_std": 9.08241553740068, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8458759062217943, "train/extr_critic_critic_opt_grad_steps": 662595.0, "train/extr_critic_critic_opt_loss": 14766.130992542614, "train/extr_critic_mag": 12.866178093534527, "train/extr_critic_max": 12.866178093534527, "train/extr_critic_mean": 3.763379111434474, "train/extr_critic_min": -0.3510693167195176, "train/extr_critic_std": 3.015795425935225, "train/extr_return_normed_mag": 1.377384025039095, "train/extr_return_normed_max": 1.377384025039095, "train/extr_return_normed_mean": 0.38661757427634613, "train/extr_return_normed_min": -0.07008208224380558, "train/extr_return_normed_std": 0.3087048991159959, "train/extr_return_rate": 0.8378640368129268, "train/extr_return_raw_mag": 13.547208179127086, "train/extr_return_raw_max": 13.547208179127086, "train/extr_return_raw_mean": 3.7777810746973213, "train/extr_return_raw_min": -0.7256026114478256, "train/extr_return_raw_std": 3.044105244405342, "train/extr_reward_mag": 1.0914383801546963, "train/extr_reward_max": 1.0914383801546963, "train/extr_reward_mean": 0.06130094323871714, "train/extr_reward_min": -0.6145525520498102, "train/extr_reward_std": 0.23803322107502908, "train/image_loss_mean": 3.627659570087086, "train/image_loss_std": 9.230026281241214, "train/model_loss_mean": 7.145724578337236, "train/model_loss_std": 13.390302874825217, "train/model_opt_grad_norm": 18.539659081083357, "train/model_opt_grad_steps": 662049.0, "train/model_opt_loss": 17864.311508641098, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7180459571607187, "train/policy_entropy_max": 2.7180459571607187, "train/policy_entropy_mean": 0.4861738532781601, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7043438431891528, "train/policy_logprob_mag": 7.438384316184304, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.48636330980243103, "train/policy_logprob_min": -7.438384316184304, "train/policy_logprob_std": 1.0980010122963877, "train/policy_randomness_mag": 0.9593509435653687, "train/policy_randomness_max": 0.9593509435653687, "train/policy_randomness_mean": 0.1715980370839437, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24860246682708914, "train/post_ent_mag": 55.16709923021721, "train/post_ent_max": 55.16709923021721, "train/post_ent_mean": 39.67094005237926, "train/post_ent_min": 19.089128364216197, "train/post_ent_std": 5.881846102801236, "train/prior_ent_mag": 76.75049036199397, "train/prior_ent_max": 76.75049036199397, "train/prior_ent_mean": 45.37981790484804, "train/prior_ent_min": 27.187970479329426, "train/prior_ent_std": 8.100989291162202, "train/rep_loss_mean": 5.75656880754413, "train/rep_loss_std": 9.08241553740068, "train/reward_avg": 0.05087002840909091, "train/reward_loss_mean": 0.0641061540580157, "train/reward_loss_std": 0.2223957214843143, "train/reward_max_data": 1.0333333412806194, "train/reward_max_pred": 1.0332565054748997, "train/reward_neg_acc": 0.9922589289419579, "train/reward_neg_loss": 0.026206184855916283, "train/reward_pos_acc": 0.9909984153328519, "train/reward_pos_loss": 0.7149302769790996, "train/reward_pred": 0.05076922580712673, "train/reward_rate": 0.05496863162878788, "replay/size": 1000000.0, "replay/inserts": 1326.0, "replay/samples": 10608.0, "replay/insert_wait_avg": 3.5367220595231784e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.412800893884259e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3137788772583, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03436088562011719, "timer/logger.write_frac": 0.00011441661367845821, "timer/logger.write_avg": 0.03436088562011719, "timer/logger.write_min": 0.03436088562011719, "timer/logger.write_max": 0.03436088562011719, "timer/replay.add_count": 1326.0, "timer/replay.add_total": 0.27332067489624023, "timer/replay.add_frac": 0.0009101169980214246, "timer/replay.add_avg": 0.00020612418921285087, "timer/replay.add_min": 7.557868957519531e-05, "timer/replay.add_max": 0.0011398792266845703, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1326.0, "timer/env.step_total": 14.711473226547241, "timer/env.step_frac": 0.04898700712816773, "timer/env.step_avg": 0.01109462535938706, "timer/env.step_min": 0.0025720596313476562, "timer/env.step_max": 1.4708600044250488, "timer/agent.policy_count": 1326.0, "timer/agent.policy_total": 9.972391366958618, "timer/agent.policy_frac": 0.03320657281940583, "timer/agent.policy_avg": 0.007520657139486137, "timer/agent.policy_min": 0.005670309066772461, "timer/agent.policy_max": 0.017247438430786133, "timer/dataset_count": 663.0, "timer/dataset_total": 0.0594942569732666, "timer/dataset_frac": 0.00019810698395421474, "timer/dataset_avg": 8.973492756148809e-05, "timer/dataset_min": 6.4849853515625e-05, "timer/dataset_max": 0.0001773834228515625, "timer/agent.train_count": 663.0, "timer/agent.train_total": 274.5956633090973, "timer/agent.train_frac": 0.9143625188817184, "timer/agent.train_avg": 0.4141714378719416, "timer/agent.train_min": 0.3659837245941162, "timer/agent.train_max": 0.4506206512451172, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2269117832183838, "timer/agent.report_frac": 0.0007555823248160893, "timer/agent.report_avg": 0.2269117832183838, "timer/agent.report_min": 0.2269117832183838, "timer/agent.report_max": 0.2269117832183838, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.415316507019758}
{"step": 1327060, "episode/length": 262.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.049429657794676805}
{"step": 1327269, "episode/length": 208.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.07655502392344497}
{"step": 1327488, "episode/length": 218.0, "episode/score": 16.099999986588955, "episode/sum_abs_reward": 18.700000025331974, "episode/reward_rate": 0.0776255707762557}
{"step": 1327545, "episode/length": 56.0, "episode/score": 3.1000000089406967, "episode/sum_abs_reward": 4.899999991059303, "episode/reward_rate": 0.08771929824561403}
{"step": 1327733, "episode/length": 187.0, "episode/score": 13.100000016391277, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.07446808510638298}
{"step": 1327911, "episode/length": 177.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.100000038743019, "episode/reward_rate": 0.07865168539325842}
{"step": 1328086, "episode/length": 174.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.06857142857142857}
{"step": 1328267, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.3538124778053975, "train/action_min": 0.0, "train/action_std": 3.263651818940134, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.035505278995542816, "train/actor_opt_grad_steps": 663255.0, "train/actor_opt_loss": -12.367339012297718, "train/adv_mag": 0.4092448344736388, "train/adv_max": 0.3266691748391498, "train/adv_mean": 0.0015463084446585553, "train/adv_min": -0.3712415706479188, "train/adv_std": 0.0403217627017787, "train/cont_avg": 0.9953687263257576, "train/cont_loss_mean": 1.160429485319076e-05, "train/cont_loss_std": 0.00030908258016486826, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00012115922737491887, "train/cont_pos_acc": 0.9999999846472885, "train/cont_pos_loss": 1.0855091562753863e-05, "train/cont_pred": 0.9953590234120687, "train/cont_rate": 0.9953687263257576, "train/dyn_loss_mean": 5.8098890636906475, "train/dyn_loss_std": 8.98811486273101, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8557087634548997, "train/extr_critic_critic_opt_grad_steps": 663255.0, "train/extr_critic_critic_opt_loss": 14863.095377604166, "train/extr_critic_mag": 12.884164969126383, "train/extr_critic_max": 12.884164969126383, "train/extr_critic_mean": 3.859796744404417, "train/extr_critic_min": -0.3275268186222423, "train/extr_critic_std": 3.0528150977510395, "train/extr_return_normed_mag": 1.3778878251711528, "train/extr_return_normed_max": 1.3778878251711528, "train/extr_return_normed_mean": 0.3978688825260509, "train/extr_return_normed_min": -0.06233216082733689, "train/extr_return_normed_std": 0.3122712631117214, "train/extr_return_rate": 0.8519689531037302, "train/extr_return_raw_mag": 13.53759967919552, "train/extr_return_raw_max": 13.53759967919552, "train/extr_return_raw_mean": 3.875043045390736, "train/extr_return_raw_min": -0.66284207638466, "train/extr_return_raw_std": 3.0794780254364014, "train/extr_reward_mag": 1.090613235126842, "train/extr_reward_max": 1.090613235126842, "train/extr_reward_mean": 0.06413727727803317, "train/extr_reward_min": -0.5846858530333547, "train/extr_reward_std": 0.2426743624788342, "train/image_loss_mean": 3.688221407659126, "train/image_loss_std": 8.925113793575402, "train/model_loss_mean": 7.240492408925837, "train/model_loss_std": 13.045092394857695, "train/model_opt_grad_norm": 18.815062754081957, "train/model_opt_grad_steps": 662708.3333333334, "train/model_opt_loss": 22818.54265802557, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3143.939393939394, "train/policy_entropy_mag": 2.7310053579735034, "train/policy_entropy_max": 2.7310053579735034, "train/policy_entropy_mean": 0.45324177994872583, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6704345169392499, "train/policy_logprob_mag": 7.438384280060276, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4535445880257722, "train/policy_logprob_min": -7.438384280060276, "train/policy_logprob_std": 1.0741852350307233, "train/policy_randomness_mag": 0.9639250401294592, "train/policy_randomness_max": 0.9639250401294592, "train/policy_randomness_mean": 0.15997445978450053, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23663396320559762, "train/post_ent_mag": 55.33770462960908, "train/post_ent_max": 55.33770462960908, "train/post_ent_mean": 39.806989785396695, "train/post_ent_min": 19.80146327163234, "train/post_ent_std": 5.812612793662331, "train/prior_ent_mag": 76.7776660341205, "train/prior_ent_max": 76.7776660341205, "train/prior_ent_mean": 45.5709562590628, "train/prior_ent_min": 27.48310713334517, "train/prior_ent_std": 8.060117331418125, "train/rep_loss_mean": 5.8098890636906475, "train/rep_loss_std": 8.98811486273101, "train/reward_avg": 0.05367690544914116, "train/reward_loss_mean": 0.06632595402047489, "train/reward_loss_std": 0.22485010664571414, "train/reward_max_data": 1.0303030375278357, "train/reward_max_pred": 1.0292219718297322, "train/reward_neg_acc": 0.9913813634352251, "train/reward_neg_loss": 0.026534195805928022, "train/reward_pos_acc": 0.9926905939073274, "train/reward_pos_loss": 0.715475877126058, "train/reward_pred": 0.05343284869961666, "train/reward_rate": 0.057853929924242424, "stats/sum_log_reward": 11.957143170492989, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.142857142857143, "stats/max_log_achievement_collect_stone": 12.714285714285714, "stats/max_log_achievement_collect_wood": 11.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_stone_pickaxe": 0.7142857142857143, "stats/max_log_achievement_make_stone_sword": 0.7142857142857143, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.7142857142857142, "stats/max_log_achievement_place_plant": 1.7142857142857142, "stats/max_log_achievement_place_stone": 2.857142857142857, "stats/max_log_achievement_place_table": 2.857142857142857, "stats/max_log_achievement_wake_up": 0.8571428571428571, "stats/mean_log_entropy": 0.30850588210991453, "replay/size": 1000000.0, "replay/inserts": 1314.0, "replay/samples": 10512.0, "replay/insert_wait_avg": 3.5309174652331857e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4044514529781254e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3766360282898, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025902748107910156, "timer/logger.write_frac": 8.623423063260689e-05, "timer/logger.write_avg": 0.025902748107910156, "timer/logger.write_min": 0.025902748107910156, "timer/logger.write_max": 0.025902748107910156, "timer/replay.add_count": 1314.0, "timer/replay.add_total": 0.2636682987213135, "timer/replay.add_frac": 0.0008777923017171046, "timer/replay.add_avg": 0.00020066080572398286, "timer/replay.add_min": 7.295608520507812e-05, "timer/replay.add_max": 0.0012924671173095703, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1314.0, "timer/env.step_total": 16.93434429168701, "timer/env.step_frac": 0.05637703556308593, "timer/env.step_avg": 0.012887628836900313, "timer/env.step_min": 0.002498626708984375, "timer/env.step_max": 1.4435184001922607, "timer/agent.policy_count": 1314.0, "timer/agent.policy_total": 10.017198324203491, "timer/agent.policy_frac": 0.03334879322391792, "timer/agent.policy_avg": 0.00762343860289459, "timer/agent.policy_min": 0.005713939666748047, "timer/agent.policy_max": 0.017576217651367188, "timer/dataset_count": 657.0, "timer/dataset_total": 0.05976057052612305, "timer/dataset_frac": 0.00019895212662443803, "timer/dataset_avg": 9.095977249029383e-05, "timer/dataset_min": 6.413459777832031e-05, "timer/dataset_max": 0.00018835067749023438, "timer/agent.train_count": 657.0, "timer/agent.train_total": 272.4412455558777, "timer/agent.train_frac": 0.9069987904459349, "timer/agent.train_avg": 0.4146746507699813, "timer/agent.train_min": 0.3717775344848633, "timer/agent.train_max": 0.4510347843170166, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21648335456848145, "timer/agent.report_frac": 0.0007207063686141448, "timer/agent.report_avg": 0.21648335456848145, "timer/agent.report_min": 0.21648335456848145, "timer/agent.report_max": 0.21648335456848145, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.374440076633613}
{"step": 1328404, "episode/length": 317.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.04716981132075472}
{"step": 1328536, "episode/length": 131.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.09848484848484848}
{"step": 1328761, "episode/length": 224.0, "episode/score": 8.099999971687794, "episode/sum_abs_reward": 10.30000003427267, "episode/reward_rate": 0.044444444444444446}
{"step": 1329037, "episode/length": 275.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.5, "episode/reward_rate": 0.05434782608695652}
{"step": 1329469, "episode/length": 431.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.034722222222222224}
{"step": 1329569, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.431861290564904, "train/action_min": 0.0, "train/action_std": 3.307467379936805, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.034578201891138007, "train/actor_opt_grad_steps": 663910.0, "train/actor_opt_loss": -11.568756160827784, "train/adv_mag": 0.39211736825796273, "train/adv_max": 0.3185860762229333, "train/adv_mean": 0.0015311923151714907, "train/adv_min": -0.3551568317871827, "train/adv_std": 0.03949537196984658, "train/cont_avg": 0.9948167067307693, "train/cont_loss_mean": 0.00015556913248044698, "train/cont_loss_std": 0.004811549292636331, "train/cont_neg_acc": 0.9948717951774597, "train/cont_neg_loss": 0.00946869739310789, "train/cont_pos_acc": 0.9999848705071669, "train/cont_pos_loss": 0.00012518486475224713, "train/cont_pred": 0.9947966309694144, "train/cont_rate": 0.9948167067307693, "train/dyn_loss_mean": 5.804938191633958, "train/dyn_loss_std": 9.05737878359281, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8057965883841881, "train/extr_critic_critic_opt_grad_steps": 663910.0, "train/extr_critic_critic_opt_loss": 14808.7947265625, "train/extr_critic_mag": 13.05872412461501, "train/extr_critic_max": 13.05872412461501, "train/extr_critic_mean": 3.8364277106065017, "train/extr_critic_min": -0.3396636431033795, "train/extr_critic_std": 3.147316034023578, "train/extr_return_normed_mag": 1.4024903976000271, "train/extr_return_normed_max": 1.4024903976000271, "train/extr_return_normed_mean": 0.39335527007396404, "train/extr_return_normed_min": -0.0634584381030156, "train/extr_return_normed_std": 0.32218485130713537, "train/extr_return_rate": 0.8436078172463637, "train/extr_return_raw_mag": 13.798153084975022, "train/extr_return_raw_max": 13.798153084975022, "train/extr_return_raw_mean": 3.8515078324538012, "train/extr_return_raw_min": -0.6509116048996265, "train/extr_return_raw_std": 3.175534351055439, "train/extr_reward_mag": 1.0866374969482422, "train/extr_reward_max": 1.0866374969482422, "train/extr_reward_mean": 0.06560217933012889, "train/extr_reward_min": -0.5594238061171312, "train/extr_reward_std": 0.24586103352216573, "train/image_loss_mean": 3.618174043068519, "train/image_loss_std": 9.06766483600323, "train/model_loss_mean": 7.168778866987962, "train/model_loss_std": 13.212197245084322, "train/model_opt_grad_norm": 18.97923281742976, "train/model_opt_grad_steps": 663363.0, "train/model_opt_loss": 20332.250540865385, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2846.153846153846, "train/policy_entropy_mag": 2.73097531245305, "train/policy_entropy_max": 2.73097531245305, "train/policy_entropy_mean": 0.449373262662154, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.661161888562716, "train/policy_logprob_mag": 7.4383842688340405, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4507895630139571, "train/policy_logprob_min": -7.4383842688340405, "train/policy_logprob_std": 1.07470344213339, "train/policy_randomness_mag": 0.9639144383943998, "train/policy_randomness_max": 0.9639144383943998, "train/policy_randomness_mean": 0.1586090420301144, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23336113301607278, "train/post_ent_mag": 54.98042966402494, "train/post_ent_max": 54.98042966402494, "train/post_ent_mean": 39.95657741840069, "train/post_ent_min": 19.68703539921687, "train/post_ent_std": 5.7633898368248575, "train/prior_ent_mag": 76.84065586970402, "train/prior_ent_max": 76.84065586970402, "train/prior_ent_mean": 45.73281455406776, "train/prior_ent_min": 27.373757817195013, "train/prior_ent_std": 8.024676022162804, "train/rep_loss_mean": 5.804938191633958, "train/rep_loss_std": 9.05737878359281, "train/reward_avg": 0.05208533578194105, "train/reward_loss_mean": 0.06748631424628772, "train/reward_loss_std": 0.23140115531591268, "train/reward_max_data": 1.0400000095367432, "train/reward_max_pred": 1.0347483048072228, "train/reward_neg_acc": 0.9914995441069969, "train/reward_neg_loss": 0.028252887768814197, "train/reward_pos_acc": 0.9895666617613572, "train/reward_pos_loss": 0.7214501701868498, "train/reward_pred": 0.0518013847561983, "train/reward_rate": 0.05655048076923077, "stats/sum_log_reward": 12.300000190734863, "stats/max_log_achievement_collect_coal": 0.2, "stats/max_log_achievement_collect_drink": 4.6, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 10.0, "stats/max_log_achievement_collect_wood": 16.6, "stats/max_log_achievement_defeat_skeleton": 0.2, "stats/max_log_achievement_defeat_zombie": 1.6, "stats/max_log_achievement_eat_cow": 0.4, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.8, "stats/max_log_achievement_make_wood_pickaxe": 1.4, "stats/max_log_achievement_make_wood_sword": 1.2, "stats/max_log_achievement_place_furnace": 1.4, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 2.0, "stats/max_log_achievement_place_table": 3.8, "stats/max_log_achievement_wake_up": 1.6, "stats/mean_log_entropy": 0.6960966944694519, "replay/size": 1000000.0, "replay/inserts": 1302.0, "replay/samples": 10416.0, "replay/insert_wait_avg": 3.6462294524349557e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4088578670988067e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0809516906738, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026335716247558594, "timer/logger.write_frac": 8.7762039207026e-05, "timer/logger.write_avg": 0.026335716247558594, "timer/logger.write_min": 0.026335716247558594, "timer/logger.write_max": 0.026335716247558594, "timer/replay.add_count": 1302.0, "timer/replay.add_total": 0.2653212547302246, "timer/replay.add_frac": 0.0008841656001002028, "timer/replay.add_avg": 0.0002037797655378069, "timer/replay.add_min": 7.867813110351562e-05, "timer/replay.add_max": 0.0019383430480957031, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1302.0, "timer/env.step_total": 14.554208278656006, "timer/env.step_frac": 0.048500940151838146, "timer/env.step_avg": 0.011178347372239637, "timer/env.step_min": 0.00258636474609375, "timer/env.step_max": 1.5734477043151855, "timer/agent.policy_count": 1302.0, "timer/agent.policy_total": 14.653966903686523, "timer/agent.policy_frac": 0.04883337919693072, "timer/agent.policy_avg": 0.011254966899912844, "timer/agent.policy_min": 0.005620002746582031, "timer/agent.policy_max": 3.182192087173462, "timer/dataset_count": 651.0, "timer/dataset_total": 0.060524940490722656, "timer/dataset_frac": 0.00020169537636334983, "timer/dataset_avg": 9.297225881831437e-05, "timer/dataset_min": 6.699562072753906e-05, "timer/dataset_max": 0.00015306472778320312, "timer/agent.train_count": 651.0, "timer/agent.train_total": 269.86538434028625, "timer/agent.train_frac": 0.8993086126255223, "timer/agent.train_avg": 0.41453976089137673, "timer/agent.train_min": 0.36203861236572266, "timer/agent.train_max": 0.4686243534088135, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.23466277122497559, "timer/agent.report_frac": 0.0007819982238221775, "timer/agent.report_avg": 0.23466277122497559, "timer/agent.report_min": 0.23466277122497559, "timer/agent.report_max": 0.23466277122497559, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.000576019287109375, "timer/checkpoint.save_frac": 1.919546321964284e-06, "timer/checkpoint.save_avg": 0.000576019287109375, "timer/checkpoint.save_min": 0.000576019287109375, "timer/checkpoint.save_max": 0.000576019287109375, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.5991590023040771, "timer/agent.save_frac": 0.005329092010986771, "timer/agent.save_avg": 1.5991590023040771, "timer/agent.save_min": 1.5991590023040771, "timer/agent.save_max": 1.5991590023040771, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.05718994140625e-05, "timer/replay.save_frac": 2.3517620500886925e-07, "timer/replay.save_avg": 7.05718994140625e-05, "timer/replay.save_min": 7.05718994140625e-05, "timer/replay.save_max": 7.05718994140625e-05, "fps": 4.338751218462959}
{"step": 1329680, "episode/length": 210.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.07582938388625593}
{"step": 1329736, "episode/length": 55.0, "episode/score": 3.100000023841858, "episode/sum_abs_reward": 4.899999976158142, "episode/reward_rate": 0.08928571428571429}
{"step": 1329920, "episode/length": 183.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.07065217391304347}
{"step": 1330119, "episode/length": 198.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 10.500000037252903, "episode/reward_rate": 0.04522613065326633}
{"step": 1330458, "episode/length": 338.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.04424778761061947}
{"step": 1330541, "episode/length": 82.0, "episode/score": 7.100000023841858, "episode/sum_abs_reward": 8.899999976158142, "episode/reward_rate": 0.10843373493975904}
{"step": 1330692, "episode/length": 150.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.06622516556291391}
{"step": 1330881, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.421786221590909, "train/action_min": 0.0, "train/action_std": 3.3239281791629214, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.035164316071931156, "train/actor_opt_grad_steps": 664565.0, "train/actor_opt_loss": -12.16888960292845, "train/adv_mag": 0.4197957181569302, "train/adv_max": 0.32119712323853467, "train/adv_mean": 0.0013144420901715587, "train/adv_min": -0.3909323980862444, "train/adv_std": 0.039887278651197754, "train/cont_avg": 0.9953835227272727, "train/cont_loss_mean": 0.00016388694859670989, "train/cont_loss_std": 0.00516790047741033, "train/cont_neg_acc": 0.992255892717477, "train/cont_neg_loss": 0.027413722995550564, "train/cont_pos_acc": 0.9999999873565905, "train/cont_pos_loss": 1.3156700154441857e-05, "train/cont_pred": 0.995420880389936, "train/cont_rate": 0.9953835227272727, "train/dyn_loss_mean": 5.834793249766032, "train/dyn_loss_std": 8.987273028402617, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8529371465697433, "train/extr_critic_critic_opt_grad_steps": 664565.0, "train/extr_critic_critic_opt_loss": 14895.768036813446, "train/extr_critic_mag": 12.756766694964785, "train/extr_critic_max": 12.756766694964785, "train/extr_critic_mean": 3.7984590060783154, "train/extr_critic_min": -0.34636115124731354, "train/extr_critic_std": 3.0190447677265513, "train/extr_return_normed_mag": 1.375660412239306, "train/extr_return_normed_max": 1.375660412239306, "train/extr_return_normed_mean": 0.39320901736165537, "train/extr_return_normed_min": -0.06993980635183328, "train/extr_return_normed_std": 0.3103419774861047, "train/extr_return_rate": 0.8356189303325884, "train/extr_return_raw_mag": 13.437475724653764, "train/extr_return_raw_max": 13.437475724653764, "train/extr_return_raw_mean": 3.811352048859452, "train/extr_return_raw_min": -0.7281926337516669, "train/extr_return_raw_std": 3.041499089110981, "train/extr_reward_mag": 1.0861862717252788, "train/extr_reward_max": 1.0861862717252788, "train/extr_reward_mean": 0.06510753918326262, "train/extr_reward_min": -0.6277841745000897, "train/extr_reward_std": 0.24400860409845004, "train/image_loss_mean": 3.6480325243689795, "train/image_loss_std": 8.926207188403968, "train/model_loss_mean": 7.217138767242432, "train/model_loss_std": 13.046874291969068, "train/model_opt_grad_norm": 19.929491129788484, "train/model_opt_grad_steps": 664017.0, "train/model_opt_loss": 18042.846916429924, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7278841842304575, "train/policy_entropy_max": 2.7278841842304575, "train/policy_entropy_mean": 0.457444069963513, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6716893888784178, "train/policy_logprob_mag": 7.43838425838586, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4570905083056652, "train/policy_logprob_min": -7.43838425838586, "train/policy_logprob_std": 1.0766529576344923, "train/policy_randomness_mag": 0.9628234027010022, "train/policy_randomness_max": 0.9628234027010022, "train/policy_randomness_mean": 0.16145768084309317, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23707687854766846, "train/post_ent_mag": 55.639526020396836, "train/post_ent_max": 55.639526020396836, "train/post_ent_mean": 39.87054385560931, "train/post_ent_min": 19.273339199297357, "train/post_ent_std": 5.889313661690914, "train/prior_ent_mag": 76.84345245361328, "train/prior_ent_max": 76.84345245361328, "train/prior_ent_mean": 45.66787349816525, "train/prior_ent_min": 27.35790995395545, "train/prior_ent_std": 8.035458680355188, "train/rep_loss_mean": 5.834793249766032, "train/rep_loss_std": 8.987273028402617, "train/reward_avg": 0.05392104621525064, "train/reward_loss_mean": 0.0680664111154549, "train/reward_loss_std": 0.23882445015690543, "train/reward_max_data": 1.0393939487861865, "train/reward_max_pred": 1.0376984820221409, "train/reward_neg_acc": 0.9917581271041523, "train/reward_neg_loss": 0.02767273797794725, "train/reward_pos_acc": 0.9897827876336647, "train/reward_pos_loss": 0.7203454926158442, "train/reward_pred": 0.053537698377939785, "train/reward_rate": 0.05825343276515151, "stats/sum_log_reward": 9.671428680419922, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 2.5714285714285716, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8571428571428572, "stats/max_log_achievement_collect_stone": 8.0, "stats/max_log_achievement_collect_wood": 9.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.4285714285714286, "stats/max_log_achievement_eat_cow": 0.42857142857142855, "stats/max_log_achievement_make_stone_pickaxe": 0.2857142857142857, "stats/max_log_achievement_make_stone_sword": 0.2857142857142857, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.7142857142857143, "stats/max_log_achievement_place_furnace": 0.7142857142857143, "stats/max_log_achievement_place_plant": 1.7142857142857142, "stats/max_log_achievement_place_stone": 1.5714285714285714, "stats/max_log_achievement_place_table": 2.142857142857143, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3916688305991037, "replay/size": 1000000.0, "replay/inserts": 1312.0, "replay/samples": 10496.0, "replay/insert_wait_avg": 3.659507123435416e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4187450089105745e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.242901802063, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.036451101303100586, "timer/logger.write_frac": 0.00012140537239788337, "timer/logger.write_avg": 0.036451101303100586, "timer/logger.write_min": 0.036451101303100586, "timer/logger.write_max": 0.036451101303100586, "timer/replay.add_count": 1312.0, "timer/replay.add_total": 0.270737886428833, "timer/replay.add_frac": 0.0009017295156816685, "timer/replay.add_avg": 0.0002063550963634398, "timer/replay.add_min": 7.224082946777344e-05, "timer/replay.add_max": 0.0023877620697021484, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1312.0, "timer/env.step_total": 17.32277202606201, "timer/env.step_frac": 0.05769585866007303, "timer/env.step_avg": 0.013203332336937509, "timer/env.step_min": 0.002591848373413086, "timer/env.step_max": 1.5072922706604004, "timer/agent.policy_count": 1312.0, "timer/agent.policy_total": 9.929468393325806, "timer/agent.policy_frac": 0.03307145092766213, "timer/agent.policy_avg": 0.007568192372961742, "timer/agent.policy_min": 0.005675077438354492, "timer/agent.policy_max": 0.019489765167236328, "timer/dataset_count": 656.0, "timer/dataset_total": 0.05973219871520996, "timer/dataset_frac": 0.00019894624771042477, "timer/dataset_avg": 9.105518096830787e-05, "timer/dataset_min": 6.580352783203125e-05, "timer/dataset_max": 0.0002219676971435547, "timer/agent.train_count": 656.0, "timer/agent.train_total": 271.97510504722595, "timer/agent.train_frac": 0.9058502413040467, "timer/agent.train_avg": 0.41459619671833225, "timer/agent.train_min": 0.37250757217407227, "timer/agent.train_max": 0.4541201591491699, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.23078393936157227, "timer/agent.report_frac": 0.0007686574369498934, "timer/agent.report_avg": 0.23078393936157227, "timer/agent.report_min": 0.23078393936157227, "timer/agent.report_max": 0.23078393936157227, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.369711489842667}
{"step": 1330921, "episode/length": 228.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.700000025331974, "episode/reward_rate": 0.06986899563318777}
{"step": 1331064, "episode/length": 142.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.0979020979020979}
{"step": 1331288, "episode/length": 223.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.06696428571428571}
{"step": 1331531, "episode/length": 242.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.06172839506172839}
{"step": 1331713, "episode/length": 181.0, "episode/score": 13.099999971687794, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.08241758241758242}
{"step": 1331923, "episode/length": 209.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.700000025331974, "episode/reward_rate": 0.0761904761904762}
{"step": 1332156, "episode/length": 232.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 17.700000017881393, "episode/reward_rate": 0.06866952789699571}
{"step": 1332193, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.381107271634615, "train/action_min": 0.0, "train/action_std": 3.266681869213398, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03475538363250402, "train/actor_opt_grad_steps": 665220.0, "train/actor_opt_loss": -11.778570888821895, "train/adv_mag": 0.3933206168504862, "train/adv_max": 0.3092565875787001, "train/adv_mean": 0.0016265753649629634, "train/adv_min": -0.3600478131037492, "train/adv_std": 0.03933627367592775, "train/cont_avg": 0.9954026442307692, "train/cont_loss_mean": 7.901406714071212e-05, "train/cont_loss_std": 0.002463065893494751, "train/cont_neg_acc": 0.9946428583934903, "train/cont_neg_loss": 0.013025860472524853, "train/cont_pos_acc": 0.9999999853280874, "train/cont_pos_loss": 1.1388957561892382e-05, "train/cont_pred": 0.9954214417017423, "train/cont_rate": 0.9954026442307692, "train/dyn_loss_mean": 5.743139685117281, "train/dyn_loss_std": 9.046469849806565, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8231706967720619, "train/extr_critic_critic_opt_grad_steps": 665220.0, "train/extr_critic_critic_opt_loss": 14944.485667067307, "train/extr_critic_mag": 12.52671115581806, "train/extr_critic_max": 12.52671115581806, "train/extr_critic_mean": 3.663852093769954, "train/extr_critic_min": -0.3522086657010592, "train/extr_critic_std": 2.954566636452308, "train/extr_return_normed_mag": 1.3662235168310313, "train/extr_return_normed_max": 1.3662235168310313, "train/extr_return_normed_mean": 0.38627057258899394, "train/extr_return_normed_min": -0.06306171549054293, "train/extr_return_normed_std": 0.30699924322275013, "train/extr_return_rate": 0.8282562530957736, "train/extr_return_raw_mag": 13.193906358572153, "train/extr_return_raw_max": 13.193906358572153, "train/extr_return_raw_mean": 3.679644955121554, "train/extr_return_raw_min": -0.6824048991386708, "train/extr_return_raw_std": 2.980559073961698, "train/extr_reward_mag": 1.088269644517165, "train/extr_reward_max": 1.088269644517165, "train/extr_reward_mean": 0.06459657819225238, "train/extr_reward_min": -0.5930620982096746, "train/extr_reward_std": 0.24306732347378365, "train/image_loss_mean": 3.6672586807837853, "train/image_loss_std": 9.388974571228028, "train/model_loss_mean": 7.17910207601694, "train/model_loss_std": 13.525866611187274, "train/model_opt_grad_norm": 19.301831069359412, "train/model_opt_grad_steps": 664671.7846153846, "train/model_opt_loss": 22271.69460637019, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3153.846153846154, "train/policy_entropy_mag": 2.7399762337024396, "train/policy_entropy_max": 2.7399762337024396, "train/policy_entropy_mean": 0.4733184328446021, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6884376915601583, "train/policy_logprob_mag": 7.43838429084191, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4723813575047713, "train/policy_logprob_min": -7.43838429084191, "train/policy_logprob_std": 1.086631598839393, "train/policy_randomness_mag": 0.9670913714628954, "train/policy_randomness_max": 0.9670913714628954, "train/policy_randomness_mean": 0.16706063529619805, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24298829596776228, "train/post_ent_mag": 55.51744619516226, "train/post_ent_max": 55.51744619516226, "train/post_ent_mean": 39.90746935330905, "train/post_ent_min": 19.114877011225772, "train/post_ent_std": 5.778834533691406, "train/prior_ent_mag": 76.73471221923828, "train/prior_ent_max": 76.73471221923828, "train/prior_ent_mean": 45.58709141657903, "train/prior_ent_min": 27.75866957444411, "train/prior_ent_std": 7.926635859562801, "train/rep_loss_mean": 5.743139685117281, "train/rep_loss_std": 9.046469849806565, "train/reward_avg": 0.05221754771012526, "train/reward_loss_mean": 0.06588062116732964, "train/reward_loss_std": 0.22796395902450267, "train/reward_max_data": 1.0276923142946683, "train/reward_max_pred": 1.0300173722780668, "train/reward_neg_acc": 0.9919396363771878, "train/reward_neg_loss": 0.02698698775986066, "train/reward_pos_acc": 0.9906332758756784, "train/reward_pos_loss": 0.717106387248406, "train/reward_pred": 0.05203917189859427, "train/reward_rate": 0.05652043269230769, "stats/sum_log_reward": 14.100000245230538, "stats/max_log_achievement_collect_coal": 1.5714285714285714, "stats/max_log_achievement_collect_drink": 3.142857142857143, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 13.142857142857142, "stats/max_log_achievement_collect_wood": 12.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 2.142857142857143, "stats/max_log_achievement_eat_cow": 0.8571428571428571, "stats/max_log_achievement_make_stone_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2857142857142858, "stats/max_log_achievement_place_furnace": 1.4285714285714286, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 3.142857142857143, "stats/max_log_achievement_place_table": 2.7142857142857144, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.43234649300575256, "replay/size": 1000000.0, "replay/inserts": 1312.0, "replay/samples": 10496.0, "replay/insert_wait_avg": 3.6794964860125287e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.404161860303181e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2729184627533, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03447747230529785, "timer/logger.write_frac": 0.00011482045227989661, "timer/logger.write_avg": 0.03447747230529785, "timer/logger.write_min": 0.03447747230529785, "timer/logger.write_max": 0.03447747230529785, "timer/replay.add_count": 1312.0, "timer/replay.add_total": 0.2639303207397461, "timer/replay.add_frac": 0.000878968113711143, "timer/replay.add_avg": 0.00020116640300285525, "timer/replay.add_min": 7.104873657226562e-05, "timer/replay.add_max": 0.001874685287475586, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1312.0, "timer/env.step_total": 17.653377056121826, "timer/env.step_frac": 0.05879110625925994, "timer/env.step_avg": 0.013455317878141635, "timer/env.step_min": 0.0025281906127929688, "timer/env.step_max": 1.5020220279693604, "timer/agent.policy_count": 1312.0, "timer/agent.policy_total": 10.027763605117798, "timer/agent.policy_frac": 0.033395497857265706, "timer/agent.policy_avg": 0.00764311250390076, "timer/agent.policy_min": 0.005557060241699219, "timer/agent.policy_max": 0.018952369689941406, "timer/dataset_count": 656.0, "timer/dataset_total": 0.06083965301513672, "timer/dataset_frac": 0.0002026145192400474, "timer/dataset_avg": 9.274337349868402e-05, "timer/dataset_min": 6.437301635742188e-05, "timer/dataset_max": 0.000240325927734375, "timer/agent.train_count": 656.0, "timer/agent.train_total": 271.55810737609863, "timer/agent.train_frac": 0.9043709594802618, "timer/agent.train_avg": 0.41396052953673573, "timer/agent.train_min": 0.36476731300354004, "timer/agent.train_max": 0.4510672092437744, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.24993467330932617, "timer/agent.report_frac": 0.0008323583578195008, "timer/agent.report_avg": 0.24993467330932617, "timer/agent.report_min": 0.24993467330932617, "timer/agent.report_max": 0.24993467330932617, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.369272915968955}
{"step": 1332416, "episode/length": 259.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000052154064, "episode/reward_rate": 0.057692307692307696}
{"step": 1332632, "episode/length": 215.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.900000050663948, "episode/reward_rate": 0.06018518518518518}
{"step": 1332842, "episode/length": 209.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.06666666666666667}
{"step": 1333110, "episode/length": 267.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.299999997019768, "episode/reward_rate": 0.05970149253731343}
{"step": 1333304, "episode/length": 193.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.06701030927835051}
{"step": 1333497, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.481390850360577, "train/action_min": 0.0, "train/action_std": 3.3628258521740255, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03497818201207198, "train/actor_opt_grad_steps": 665870.0, "train/actor_opt_loss": -11.23600968752916, "train/adv_mag": 0.41300745354248924, "train/adv_max": 0.3409882343732394, "train/adv_mean": 0.001806091739630434, "train/adv_min": -0.36849809541152073, "train/adv_std": 0.040142540347117645, "train/cont_avg": 0.9955078125, "train/cont_loss_mean": 5.886968664124372e-06, "train/cont_loss_std": 0.0001691676811049092, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0003459283115896524, "train/cont_pos_acc": 0.9999999871620765, "train/cont_pos_loss": 4.465324011868268e-06, "train/cont_pred": 0.9955049652319689, "train/cont_rate": 0.9955078125, "train/dyn_loss_mean": 5.899229159721961, "train/dyn_loss_std": 8.971405528141903, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8376004118185777, "train/extr_critic_critic_opt_grad_steps": 665870.0, "train/extr_critic_critic_opt_loss": 14864.133894230768, "train/extr_critic_mag": 12.591016666705793, "train/extr_critic_max": 12.591016666705793, "train/extr_critic_mean": 3.707287256534283, "train/extr_critic_min": -0.37486681387974663, "train/extr_critic_std": 3.0314466549799994, "train/extr_return_normed_mag": 1.3699652213316698, "train/extr_return_normed_max": 1.3699652213316698, "train/extr_return_normed_mean": 0.3903791184608753, "train/extr_return_normed_min": -0.06351722871454862, "train/extr_return_normed_std": 0.31407910379079673, "train/extr_return_rate": 0.8240074570362385, "train/extr_return_raw_mag": 13.269636256878192, "train/extr_return_raw_max": 13.269636256878192, "train/extr_return_raw_mean": 3.7248996844658486, "train/extr_return_raw_min": -0.6988092926832346, "train/extr_return_raw_std": 3.060269487821139, "train/extr_reward_mag": 1.0929218512315018, "train/extr_reward_max": 1.0929218512315018, "train/extr_reward_mean": 0.06345496126092397, "train/extr_reward_min": -0.6014941765711858, "train/extr_reward_std": 0.24121641562535212, "train/image_loss_mean": 3.712173865391658, "train/image_loss_std": 8.993924713134765, "train/model_loss_mean": 7.316958398085374, "train/model_loss_std": 13.084035051785982, "train/model_opt_grad_norm": 19.38613091982328, "train/model_opt_grad_steps": 665321.0, "train/model_opt_loss": 18292.396018629806, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.72876270367549, "train/policy_entropy_max": 2.72876270367549, "train/policy_entropy_mean": 0.49670578699845536, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.719093997661884, "train/policy_logprob_mag": 7.438384276169997, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4965252523238842, "train/policy_logprob_min": -7.438384276169997, "train/policy_logprob_std": 1.107608723640442, "train/policy_randomness_mag": 0.9631334845836346, "train/policy_randomness_max": 0.9631334845836346, "train/policy_randomness_mean": 0.17531534662613502, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2538086228645765, "train/post_ent_mag": 55.578435633732724, "train/post_ent_max": 55.578435633732724, "train/post_ent_mean": 39.96307150033804, "train/post_ent_min": 19.815721819950983, "train/post_ent_std": 5.89542041191688, "train/prior_ent_mag": 76.84058697040264, "train/prior_ent_max": 76.84058697040264, "train/prior_ent_mean": 45.8252433189979, "train/prior_ent_min": 27.66972949688251, "train/prior_ent_std": 8.0256499510545, "train/rep_loss_mean": 5.899229159721961, "train/rep_loss_std": 8.971405528141903, "train/reward_avg": 0.05137169429889092, "train/reward_loss_mean": 0.06524115181886232, "train/reward_loss_std": 0.22274480920571546, "train/reward_max_data": 1.0384615476314838, "train/reward_max_pred": 1.0391746227557843, "train/reward_neg_acc": 0.991627232845013, "train/reward_neg_loss": 0.027446501831022593, "train/reward_pos_acc": 0.9931034381573017, "train/reward_pos_loss": 0.7082763598515437, "train/reward_pred": 0.051271490552104435, "train/reward_rate": 0.05548377403846154, "stats/sum_log_reward": 12.9, "stats/max_log_achievement_collect_coal": 0.2, "stats/max_log_achievement_collect_drink": 2.6, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.6, "stats/max_log_achievement_collect_stone": 16.4, "stats/max_log_achievement_collect_wood": 14.6, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.4, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_stone_pickaxe": 0.8, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.6, "stats/max_log_achievement_place_plant": 1.6, "stats/max_log_achievement_place_stone": 3.2, "stats/max_log_achievement_place_table": 4.0, "stats/max_log_achievement_wake_up": 1.6, "stats/mean_log_entropy": 0.4762246310710907, "replay/size": 1000000.0, "replay/inserts": 1304.0, "replay/samples": 10432.0, "replay/insert_wait_avg": 3.7035327747555596e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4066284785241438e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.36303782463074, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03325986862182617, "timer/logger.write_frac": 0.00011073222878124305, "timer/logger.write_avg": 0.03325986862182617, "timer/logger.write_min": 0.03325986862182617, "timer/logger.write_max": 0.03325986862182617, "timer/replay.add_count": 1304.0, "timer/replay.add_total": 0.2627909183502197, "timer/replay.add_frac": 0.000874910975243406, "timer/replay.add_avg": 0.00020152677787593537, "timer/replay.add_min": 7.271766662597656e-05, "timer/replay.add_max": 0.002114534378051758, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1304.0, "timer/env.step_total": 14.977733612060547, "timer/env.step_frac": 0.04986543524308544, "timer/env.step_avg": 0.011485992033788762, "timer/env.step_min": 0.0024971961975097656, "timer/env.step_max": 1.7055728435516357, "timer/agent.policy_count": 1304.0, "timer/agent.policy_total": 14.267249584197998, "timer/agent.policy_frac": 0.047500017603790655, "timer/agent.policy_avg": 0.010941142319170243, "timer/agent.policy_min": 0.005588054656982422, "timer/agent.policy_max": 3.175513744354248, "timer/dataset_count": 652.0, "timer/dataset_total": 0.06005096435546875, "timer/dataset_frac": 0.00019992794316632916, "timer/dataset_avg": 9.210270606666986e-05, "timer/dataset_min": 6.794929504394531e-05, "timer/dataset_max": 0.00022983551025390625, "timer/agent.train_count": 652.0, "timer/agent.train_total": 270.1197657585144, "timer/agent.train_frac": 0.8993109395711529, "timer/agent.train_avg": 0.41429411926152515, "timer/agent.train_min": 0.37210798263549805, "timer/agent.train_max": 0.5079381465911865, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.23209619522094727, "timer/agent.report_frac": 0.0007727188967786989, "timer/agent.report_avg": 0.23209619522094727, "timer/agent.report_min": 0.23209619522094727, "timer/agent.report_max": 0.23209619522094727, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002880096435546875, "timer/checkpoint.save_frac": 9.588717894205217e-07, "timer/checkpoint.save_avg": 0.0002880096435546875, "timer/checkpoint.save_min": 0.0002880096435546875, "timer/checkpoint.save_max": 0.0002880096435546875, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.244375467300415, "timer/agent.save_frac": 0.004142904787196064, "timer/agent.save_avg": 1.244375467300415, "timer/agent.save_min": 1.244375467300415, "timer/agent.save_max": 1.244375467300415, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.535385131835938e-05, "timer/replay.save_frac": 2.841689574607175e-07, "timer/replay.save_avg": 8.535385131835938e-05, "timer/replay.save_min": 8.535385131835938e-05, "timer/replay.save_max": 8.535385131835938e-05, "fps": 4.341339423314832}
{"step": 1333577, "episode/length": 272.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.100000016391277, "episode/reward_rate": 0.05860805860805861}
{"step": 1333828, "episode/length": 250.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.055776892430278883}
{"step": 1334067, "episode/length": 238.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.05439330543933055}
{"step": 1334338, "episode/length": 270.0, "episode/score": 13.099999979138374, "episode/sum_abs_reward": 14.900000020861626, "episode/reward_rate": 0.05166051660516605}
{"step": 1334526, "episode/length": 187.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.07446808510638298}
{"step": 1334692, "episode/length": 165.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.0783132530120482}
{"step": 1334817, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.447208288944129, "train/action_min": 0.0, "train/action_std": 3.3143465699571553, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03454081189226021, "train/actor_opt_grad_steps": 666525.0, "train/actor_opt_loss": -12.425098551945252, "train/adv_mag": 0.38736027975877124, "train/adv_max": 0.30444040262337885, "train/adv_mean": 0.001155511695342835, "train/adv_min": -0.34512105064861703, "train/adv_std": 0.03941255903831034, "train/cont_avg": 0.9952355587121212, "train/cont_loss_mean": 3.978323974354182e-05, "train/cont_loss_std": 0.001165462277725522, "train/cont_neg_acc": 0.9969696971503171, "train/cont_neg_loss": 0.006267977308547573, "train/cont_pos_acc": 0.999999980131785, "train/cont_pos_loss": 8.743430322166398e-06, "train/cont_pred": 0.9952424376299887, "train/cont_rate": 0.9952355587121212, "train/dyn_loss_mean": 5.890099178661, "train/dyn_loss_std": 8.991099964488637, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8199415071444078, "train/extr_critic_critic_opt_grad_steps": 666525.0, "train/extr_critic_critic_opt_loss": 14893.561464251894, "train/extr_critic_mag": 12.552591020410711, "train/extr_critic_max": 12.552591020410711, "train/extr_critic_mean": 3.7173194921377934, "train/extr_critic_min": -0.3452994064851241, "train/extr_critic_std": 3.064763336470633, "train/extr_return_normed_mag": 1.3711444031108508, "train/extr_return_normed_max": 1.3711444031108508, "train/extr_return_normed_mean": 0.39151745266986615, "train/extr_return_normed_min": -0.06262769208600123, "train/extr_return_normed_std": 0.3178361719756415, "train/extr_return_rate": 0.8207850402051752, "train/extr_return_raw_mag": 13.24290063164451, "train/extr_return_raw_max": 13.24290063164451, "train/extr_return_raw_mean": 3.7285228245186084, "train/extr_return_raw_min": -0.68188366068132, "train/extr_return_raw_std": 3.086803772232749, "train/extr_reward_mag": 1.0920477708180745, "train/extr_reward_max": 1.0920477708180745, "train/extr_reward_mean": 0.06439877188566959, "train/extr_reward_min": -0.5588103659225233, "train/extr_reward_std": 0.2435292247118372, "train/image_loss_mean": 3.684756221193256, "train/image_loss_std": 8.964492234316738, "train/model_loss_mean": 7.284874280293782, "train/model_loss_std": 13.108324672236588, "train/model_opt_grad_norm": 20.632040731834643, "train/model_opt_grad_steps": 665975.7272727273, "train/model_opt_loss": 25616.551521070076, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3522.7272727272725, "train/policy_entropy_mag": 2.7532939838640615, "train/policy_entropy_max": 2.7532939838640615, "train/policy_entropy_mean": 0.4856948477752281, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7017502170620542, "train/policy_logprob_mag": 7.438384236711444, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4837578684091568, "train/policy_logprob_min": -7.438384236711444, "train/policy_logprob_std": 1.0939485195911292, "train/policy_randomness_mag": 0.9717919501391324, "train/policy_randomness_max": 0.9717919501391324, "train/policy_randomness_mean": 0.1714289677188252, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24768702934185663, "train/post_ent_mag": 55.18173333370324, "train/post_ent_max": 55.18173333370324, "train/post_ent_mean": 39.91548619125829, "train/post_ent_min": 19.86652960921779, "train/post_ent_std": 5.849140774119984, "train/prior_ent_mag": 76.81998825073242, "train/prior_ent_max": 76.81998825073242, "train/prior_ent_mean": 45.78527306065415, "train/prior_ent_min": 27.283935431278113, "train/prior_ent_std": 8.0298067222942, "train/rep_loss_mean": 5.890099178661, "train/rep_loss_std": 8.991099964488637, "train/reward_avg": 0.052303799682042816, "train/reward_loss_mean": 0.06601878193517526, "train/reward_loss_std": 0.23018754634893301, "train/reward_max_data": 1.04242425253897, "train/reward_max_pred": 1.042351990035086, "train/reward_neg_acc": 0.9923753223635934, "train/reward_neg_loss": 0.02692406208282619, "train/reward_pos_acc": 0.9901535944505171, "train/reward_pos_loss": 0.720214970184095, "train/reward_pred": 0.05192322690378536, "train/reward_rate": 0.05643347537878788, "stats/sum_log_reward": 13.100000222524008, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 2.5, "stats/max_log_achievement_collect_iron": 0.3333333333333333, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 19.833333333333332, "stats/max_log_achievement_collect_wood": 14.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.3333333333333333, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.5, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 4.5, "stats/max_log_achievement_place_table": 3.3333333333333335, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.5068153068423271, "replay/size": 1000000.0, "replay/inserts": 1320.0, "replay/samples": 10560.0, "replay/insert_wait_avg": 3.7648461081764915e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4069405469027433e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.30832409858704, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0341794490814209, "timer/logger.write_frac": 0.00011381452440259451, "timer/logger.write_avg": 0.0341794490814209, "timer/logger.write_min": 0.0341794490814209, "timer/logger.write_max": 0.0341794490814209, "timer/replay.add_count": 1320.0, "timer/replay.add_total": 0.27866411209106445, "timer/replay.add_frac": 0.0009279266997593543, "timer/replay.add_avg": 0.000211109175826564, "timer/replay.add_min": 8.416175842285156e-05, "timer/replay.add_max": 0.0019795894622802734, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1320.0, "timer/env.step_total": 16.47435688972473, "timer/env.step_frac": 0.054858142674448246, "timer/env.step_avg": 0.012480573401306615, "timer/env.step_min": 0.002546072006225586, "timer/env.step_max": 1.8221352100372314, "timer/agent.policy_count": 1320.0, "timer/agent.policy_total": 9.962363481521606, "timer/agent.policy_frac": 0.03317378401489498, "timer/agent.policy_avg": 0.007547245061758793, "timer/agent.policy_min": 0.005568504333496094, "timer/agent.policy_max": 0.018487930297851562, "timer/dataset_count": 660.0, "timer/dataset_total": 0.06026959419250488, "timer/dataset_frac": 0.00020069238631134054, "timer/dataset_avg": 9.131756695834073e-05, "timer/dataset_min": 6.556510925292969e-05, "timer/dataset_max": 0.00022554397583007812, "timer/agent.train_count": 660.0, "timer/agent.train_total": 272.8541069030762, "timer/agent.train_frac": 0.9085798994153155, "timer/agent.train_avg": 0.41341531348950933, "timer/agent.train_min": 0.3662092685699463, "timer/agent.train_max": 0.4557638168334961, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22289013862609863, "timer/agent.report_frac": 0.0007422043304831168, "timer/agent.report_avg": 0.22289013862609863, "timer/agent.report_min": 0.22289013862609863, "timer/agent.report_max": 0.22289013862609863, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.395413232129315}
{"step": 1335062, "episode/length": 369.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 18.500000037252903, "episode/reward_rate": 0.043243243243243246}
{"step": 1335122, "episode/length": 59.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 8.899999991059303, "episode/reward_rate": 0.15}
{"step": 1335342, "episode/length": 219.0, "episode/score": 15.099999979138374, "episode/sum_abs_reward": 17.30000002682209, "episode/reward_rate": 0.07272727272727272}
{"step": 1335516, "episode/length": 173.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.07471264367816093}
{"step": 1335696, "episode/length": 179.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.08333333333333333}
{"step": 1335955, "episode/length": 258.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.500000022351742, "episode/reward_rate": 0.06177606177606178}
{"step": 1336120, "episode/length": 164.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.10000003874302, "episode/reward_rate": 0.09090909090909091}
{"step": 1336127, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.419445615826231, "train/action_min": 0.0, "train/action_std": 3.315613020550121, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03492930751632561, "train/actor_opt_grad_steps": 667185.0, "train/actor_opt_loss": -11.66998287041982, "train/adv_mag": 0.40782307946320734, "train/adv_max": 0.30529126570080267, "train/adv_mean": 0.0016360728177184656, "train/adv_min": -0.3778564769661788, "train/adv_std": 0.0397161670932264, "train/cont_avg": 0.995413115530303, "train/cont_loss_mean": 9.748364335235041e-05, "train/cont_loss_std": 0.0030858507693512288, "train/cont_neg_acc": 0.9936868692889358, "train/cont_neg_loss": 0.01779332544569273, "train/cont_pos_acc": 0.9999999828410872, "train/cont_pos_loss": 1.9354195853782734e-05, "train/cont_pred": 0.9954242769515875, "train/cont_rate": 0.995413115530303, "train/dyn_loss_mean": 5.757533875378695, "train/dyn_loss_std": 8.990444790233266, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8719326302860723, "train/extr_critic_critic_opt_grad_steps": 667185.0, "train/extr_critic_critic_opt_loss": 14923.768761837122, "train/extr_critic_mag": 12.703511888330633, "train/extr_critic_max": 12.703511888330633, "train/extr_critic_mean": 3.646172552397757, "train/extr_critic_min": -0.370389593370033, "train/extr_critic_std": 3.0317000114556514, "train/extr_return_normed_mag": 1.3725822965304058, "train/extr_return_normed_max": 1.3725822965304058, "train/extr_return_normed_mean": 0.38292006200010126, "train/extr_return_normed_min": -0.06155336361773538, "train/extr_return_normed_std": 0.3142760522437818, "train/extr_return_rate": 0.8271997742580645, "train/extr_return_raw_mag": 13.294331146009041, "train/extr_return_raw_max": 13.294331146009041, "train/extr_return_raw_mean": 3.6620800350651597, "train/extr_return_raw_min": -0.6641268441171357, "train/extr_return_raw_std": 3.0590929985046387, "train/extr_reward_mag": 1.0851416479457507, "train/extr_reward_max": 1.0851416479457507, "train/extr_reward_mean": 0.06268189520095334, "train/extr_reward_min": -0.5594722393787268, "train/extr_reward_std": 0.24033418275190122, "train/image_loss_mean": 3.6470688834334863, "train/image_loss_std": 9.058392575292876, "train/model_loss_mean": 7.1689097303332705, "train/model_loss_std": 13.151352376648873, "train/model_opt_grad_norm": 17.55214481642752, "train/model_opt_grad_steps": 666635.0, "train/model_opt_loss": 17922.274354876892, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.73732662562168, "train/policy_entropy_max": 2.73732662562168, "train/policy_entropy_mean": 0.48411792652173474, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.714425678506042, "train/policy_logprob_mag": 7.438384308959499, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.48468408394943585, "train/policy_logprob_min": -7.438384308959499, "train/policy_logprob_std": 1.1009870957244525, "train/policy_randomness_mag": 0.9661561729330005, "train/policy_randomness_max": 0.9661561729330005, "train/policy_randomness_mean": 0.170872385416067, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2521609128876166, "train/post_ent_mag": 55.59646820299553, "train/post_ent_max": 55.59646820299553, "train/post_ent_mean": 39.82141015023896, "train/post_ent_min": 20.068063721512303, "train/post_ent_std": 5.773086836843779, "train/prior_ent_mag": 76.90431190259528, "train/prior_ent_max": 76.90431190259528, "train/prior_ent_mean": 45.53710613828717, "train/prior_ent_min": 27.077965418497723, "train/prior_ent_std": 8.013714826468265, "train/rep_loss_mean": 5.757533875378695, "train/rep_loss_std": 8.990444790233266, "train/reward_avg": 0.05316642970975601, "train/reward_loss_mean": 0.06722307831726292, "train/reward_loss_std": 0.23563644019040195, "train/reward_max_data": 1.0303030375278357, "train/reward_max_pred": 1.029519285216476, "train/reward_neg_acc": 0.9917065564430121, "train/reward_neg_loss": 0.02744283095340837, "train/reward_pos_acc": 0.9906360163833156, "train/reward_pos_loss": 0.7230985507820592, "train/reward_pred": 0.05276893638074398, "train/reward_rate": 0.05732125946969697, "stats/sum_log_reward": 13.242857251848493, "stats/max_log_achievement_collect_coal": 2.2857142857142856, "stats/max_log_achievement_collect_drink": 4.0, "stats/max_log_achievement_collect_iron": 0.2857142857142857, "stats/max_log_achievement_collect_sapling": 1.8571428571428572, "stats/max_log_achievement_collect_stone": 13.142857142857142, "stats/max_log_achievement_collect_wood": 13.0, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.1428571428571428, "stats/max_log_achievement_eat_cow": 1.1428571428571428, "stats/max_log_achievement_make_stone_pickaxe": 0.7142857142857143, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.4285714285714286, "stats/max_log_achievement_place_plant": 1.8571428571428572, "stats/max_log_achievement_place_stone": 3.5714285714285716, "stats/max_log_achievement_place_table": 3.142857142857143, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.46239316889217924, "replay/size": 1000000.0, "replay/inserts": 1310.0, "replay/samples": 10480.0, "replay/insert_wait_avg": 3.82980317559861e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4186815451119692e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0739333629608, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023323535919189453, "timer/logger.write_frac": 7.772596459079295e-05, "timer/logger.write_avg": 0.023323535919189453, "timer/logger.write_min": 0.023323535919189453, "timer/logger.write_max": 0.023323535919189453, "timer/replay.add_count": 1310.0, "timer/replay.add_total": 0.2848227024078369, "timer/replay.add_frac": 0.0009491750890048939, "timer/replay.add_avg": 0.00021742191023499, "timer/replay.add_min": 7.915496826171875e-05, "timer/replay.add_max": 0.003919124603271484, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1310.0, "timer/env.step_total": 17.445200204849243, "timer/env.step_frac": 0.05813633996575114, "timer/env.step_avg": 0.013316946721258964, "timer/env.step_min": 0.0027930736541748047, "timer/env.step_max": 1.4733340740203857, "timer/agent.policy_count": 1310.0, "timer/agent.policy_total": 9.902416706085205, "timer/agent.policy_frac": 0.032999923035992355, "timer/agent.policy_avg": 0.007559096722202447, "timer/agent.policy_min": 0.005640506744384766, "timer/agent.policy_max": 0.017210721969604492, "timer/dataset_count": 655.0, "timer/dataset_total": 0.06088590621948242, "timer/dataset_frac": 0.0002029030163904193, "timer/dataset_avg": 9.295558201447698e-05, "timer/dataset_min": 6.437301635742188e-05, "timer/dataset_max": 0.0001895427703857422, "timer/agent.train_count": 655.0, "timer/agent.train_total": 271.6911187171936, "timer/agent.train_frac": 0.9054139280687331, "timer/agent.train_avg": 0.41479560109495206, "timer/agent.train_min": 0.37084317207336426, "timer/agent.train_max": 0.4541149139404297, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.23606610298156738, "timer/agent.report_frac": 0.0007866931337085804, "timer/agent.report_avg": 0.23606610298156738, "timer/agent.report_min": 0.23606610298156738, "timer/agent.report_max": 0.23606610298156738, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.365523993264953}
{"step": 1336208, "episode/length": 87.0, "episode/score": 2.099999986588955, "episode/sum_abs_reward": 4.100000016391277, "episode/reward_rate": 0.03409090909090909}
{"step": 1336495, "episode/length": 286.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.05226480836236934}
{"step": 1336695, "episode/length": 199.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.900000043213367, "episode/reward_rate": 0.06}
{"step": 1336921, "episode/length": 225.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 16.30000003427267, "episode/reward_rate": 0.061946902654867256}
{"step": 1337208, "episode/length": 286.0, "episode/score": 15.100000008940697, "episode/sum_abs_reward": 18.100000008940697, "episode/reward_rate": 0.059233449477351915}
{"step": 1337410, "episode/length": 201.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.07425742574257425}
{"step": 1337423, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.507223745492788, "train/action_min": 0.0, "train/action_std": 3.399846234688392, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.034566062631515355, "train/actor_opt_grad_steps": 667840.0, "train/actor_opt_loss": -12.363871854085188, "train/adv_mag": 0.41507058693812443, "train/adv_max": 0.33195323783617753, "train/adv_mean": 0.0013128056906680286, "train/adv_min": -0.3684792963358072, "train/adv_std": 0.0393284417115725, "train/cont_avg": 0.9953425480769231, "train/cont_loss_mean": 0.0002566500433431429, "train/cont_loss_std": 0.008038926468809502, "train/cont_neg_acc": 0.9969230771064759, "train/cont_neg_loss": 0.034389467612279116, "train/cont_pos_acc": 0.9999848971000085, "train/cont_pos_loss": 8.928074846739246e-05, "train/cont_pred": 0.9953267170832707, "train/cont_rate": 0.9953425480769231, "train/dyn_loss_mean": 5.908268928527832, "train/dyn_loss_std": 9.1242506980896, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8515181147135221, "train/extr_critic_critic_opt_grad_steps": 667840.0, "train/extr_critic_critic_opt_loss": 14836.092518028847, "train/extr_critic_mag": 12.80982723236084, "train/extr_critic_max": 12.80982723236084, "train/extr_critic_mean": 3.627218297811655, "train/extr_critic_min": -0.3511867834971501, "train/extr_critic_std": 3.0587874559255748, "train/extr_return_normed_mag": 1.3815057314359225, "train/extr_return_normed_max": 1.3815057314359225, "train/extr_return_normed_mean": 0.38165846994289987, "train/extr_return_normed_min": -0.061028315184208065, "train/extr_return_normed_std": 0.3162285898740475, "train/extr_return_rate": 0.820157293172983, "train/extr_return_raw_mag": 13.38962597480187, "train/extr_return_raw_max": 13.38962597480187, "train/extr_return_raw_mean": 3.6400257404033955, "train/extr_return_raw_min": -0.6763151214672969, "train/extr_return_raw_std": 3.0833103546729457, "train/extr_reward_mag": 1.0863597466395452, "train/extr_reward_max": 1.0863597466395452, "train/extr_reward_mean": 0.061980301027114576, "train/extr_reward_min": -0.5742740631103516, "train/extr_reward_std": 0.2394061157336602, "train/image_loss_mean": 3.7005154609680178, "train/image_loss_std": 9.009815810276912, "train/model_loss_mean": 7.313311672210693, "train/model_loss_std": 13.212900821979229, "train/model_opt_grad_norm": 19.351455013568586, "train/model_opt_grad_steps": 667289.4, "train/model_opt_loss": 21133.84657451923, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2884.6153846153848, "train/policy_entropy_mag": 2.729491666647104, "train/policy_entropy_max": 2.729491666647104, "train/policy_entropy_mean": 0.5232303192982307, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7435977990810688, "train/policy_logprob_mag": 7.43838429084191, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.5216441044440636, "train/policy_logprob_min": -7.43838429084191, "train/policy_logprob_std": 1.1200224317037142, "train/policy_randomness_mag": 0.9633907776612501, "train/policy_randomness_max": 0.9633907776612501, "train/policy_randomness_mean": 0.18467734375825295, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2624573925366768, "train/post_ent_mag": 55.46871138352614, "train/post_ent_max": 55.46871138352614, "train/post_ent_mean": 39.740931877723106, "train/post_ent_min": 19.07653550368089, "train/post_ent_std": 5.833158977215106, "train/prior_ent_mag": 76.76610506497897, "train/prior_ent_max": 76.76610506497897, "train/prior_ent_mean": 45.61403080866887, "train/prior_ent_min": 27.132608178945688, "train/prior_ent_std": 8.04858378630418, "train/rep_loss_mean": 5.908268928527832, "train/rep_loss_std": 9.1242506980896, "train/reward_avg": 0.051622596096533996, "train/reward_loss_mean": 0.06757816999004437, "train/reward_loss_std": 0.23766074845424065, "train/reward_max_data": 1.0323077000104464, "train/reward_max_pred": 1.030276030760545, "train/reward_neg_acc": 0.990896240564493, "train/reward_neg_loss": 0.028615936507972388, "train/reward_pos_acc": 0.9870507221955519, "train/reward_pos_loss": 0.72763455922787, "train/reward_pred": 0.05121928121034915, "train/reward_rate": 0.05579927884615385, "stats/sum_log_reward": 11.600000182787577, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 2.5, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 12.833333333333334, "stats/max_log_achievement_collect_wood": 11.166666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.6666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.1666666666666667, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_stone": 2.5, "stats/max_log_achievement_place_table": 2.8333333333333335, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.43341980626185733, "replay/size": 1000000.0, "replay/inserts": 1296.0, "replay/samples": 10368.0, "replay/insert_wait_avg": 3.816720880108115e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3948912605827238e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1051983833313, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.034132957458496094, "timer/logger.write_frac": 0.00011373664182550173, "timer/logger.write_avg": 0.034132957458496094, "timer/logger.write_min": 0.034132957458496094, "timer/logger.write_max": 0.034132957458496094, "timer/replay.add_count": 1296.0, "timer/replay.add_total": 0.26595187187194824, "timer/replay.add_frac": 0.0008861954851319896, "timer/replay.add_avg": 0.00020520977767897241, "timer/replay.add_min": 6.914138793945312e-05, "timer/replay.add_max": 0.0010619163513183594, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1296.0, "timer/env.step_total": 16.290743589401245, "timer/env.step_frac": 0.05428344352966756, "timer/env.step_avg": 0.012570018201698492, "timer/env.step_min": 0.0028228759765625, "timer/env.step_max": 1.779585361480713, "timer/agent.policy_count": 1296.0, "timer/agent.policy_total": 14.354594945907593, "timer/agent.policy_frac": 0.04783187703257355, "timer/agent.policy_avg": 0.01107607634715092, "timer/agent.policy_min": 0.0054166316986083984, "timer/agent.policy_max": 3.0884413719177246, "timer/dataset_count": 648.0, "timer/dataset_total": 0.060721635818481445, "timer/dataset_frac": 0.00020233450185331444, "timer/dataset_avg": 9.37062281149405e-05, "timer/dataset_min": 6.699562072753906e-05, "timer/dataset_max": 0.00017976760864257812, "timer/agent.train_count": 648.0, "timer/agent.train_total": 268.4606132507324, "timer/agent.train_frac": 0.894555025027662, "timer/agent.train_avg": 0.4142910698313772, "timer/agent.train_min": 0.36486220359802246, "timer/agent.train_max": 0.45167088508605957, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21565675735473633, "timer/agent.report_frac": 0.0007186038712974007, "timer/agent.report_avg": 0.21565675735473633, "timer/agent.report_min": 0.21565675735473633, "timer/agent.report_max": 0.21565675735473633, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002357959747314453, "timer/checkpoint.save_frac": 7.857110639924926e-07, "timer/checkpoint.save_avg": 0.0002357959747314453, "timer/checkpoint.save_min": 0.0002357959747314453, "timer/checkpoint.save_max": 0.0002357959747314453, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.489081621170044, "timer/agent.save_frac": 0.004961865469814373, "timer/agent.save_avg": 1.489081621170044, "timer/agent.save_min": 1.489081621170044, "timer/agent.save_max": 1.489081621170044, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.890296936035156e-05, "timer/replay.save_frac": 2.2959605408880725e-07, "timer/replay.save_avg": 6.890296936035156e-05, "timer/replay.save_min": 6.890296936035156e-05, "timer/replay.save_max": 6.890296936035156e-05, "fps": 4.318405778814009}
{"step": 1337596, "episode/length": 185.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06989247311827956}
{"step": 1337825, "episode/length": 228.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.0611353711790393}
{"step": 1338040, "episode/length": 214.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.06511627906976744}
{"step": 1338385, "episode/length": 344.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.03188405797101449}
{"step": 1338641, "episode/length": 255.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.05859375}
{"step": 1338745, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.458798495205966, "train/action_min": 0.0, "train/action_std": 3.345995715170196, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03447649969408909, "train/actor_opt_grad_steps": 668495.0, "train/actor_opt_loss": -12.167726942987153, "train/adv_mag": 0.39097651252240845, "train/adv_max": 0.31284529038450937, "train/adv_mean": 0.0015497768212795067, "train/adv_min": -0.3605498181599559, "train/adv_std": 0.03964992005829558, "train/cont_avg": 0.9953983191287878, "train/cont_loss_mean": 2.2595991548860528e-05, "train/cont_loss_std": 0.0005929011487749545, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.000642593261990787, "train/cont_pos_acc": 0.9999999819379864, "train/cont_pos_loss": 2.0006289641935037e-05, "train/cont_pred": 0.9953818583127224, "train/cont_rate": 0.9953983191287878, "train/dyn_loss_mean": 5.786308165752526, "train/dyn_loss_std": 9.044338833202016, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8797244637301473, "train/extr_critic_critic_opt_grad_steps": 668495.0, "train/extr_critic_critic_opt_loss": 14972.660304214016, "train/extr_critic_mag": 12.636327916925604, "train/extr_critic_max": 12.636327916925604, "train/extr_critic_mean": 3.5899269942081338, "train/extr_critic_min": -0.36192711374976416, "train/extr_critic_std": 2.990572203289379, "train/extr_return_normed_mag": 1.3692152427904534, "train/extr_return_normed_max": 1.3692152427904534, "train/extr_return_normed_mean": 0.37753028987031995, "train/extr_return_normed_min": -0.06389159745903629, "train/extr_return_normed_std": 0.3092833696441217, "train/extr_return_rate": 0.8275973038239912, "train/extr_return_raw_mag": 13.286574826096043, "train/extr_return_raw_max": 13.286574826096043, "train/extr_return_raw_mean": 3.6050565856875796, "train/extr_return_raw_min": -0.7043215334415436, "train/extr_return_raw_std": 3.019313162023371, "train/extr_reward_mag": 1.0909022995919893, "train/extr_reward_max": 1.0909022995919893, "train/extr_reward_mean": 0.06198519569906322, "train/extr_reward_min": -0.6112672253088518, "train/extr_reward_std": 0.23942352470123407, "train/image_loss_mean": 3.7520336165572656, "train/image_loss_std": 9.164163379958183, "train/model_loss_mean": 7.287832440751972, "train/model_loss_std": 13.30068014607285, "train/model_opt_grad_norm": 19.642657814603865, "train/model_opt_grad_steps": 667944.0, "train/model_opt_loss": 19501.573316169506, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2689.3939393939395, "train/policy_entropy_mag": 2.732170502344767, "train/policy_entropy_max": 2.732170502344767, "train/policy_entropy_mean": 0.48960181257941504, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7112118579221495, "train/policy_logprob_mag": 7.438384236711444, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4884153717395031, "train/policy_logprob_min": -7.438384236711444, "train/policy_logprob_std": 1.0975065393881365, "train/policy_randomness_mag": 0.9643362896008925, "train/policy_randomness_max": 0.9643362896008925, "train/policy_randomness_mean": 0.17280795312289035, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2510265739578189, "train/post_ent_mag": 55.17053251555472, "train/post_ent_max": 55.17053251555472, "train/post_ent_mean": 39.86290937481505, "train/post_ent_min": 19.659619186863754, "train/post_ent_std": 5.844845526146166, "train/prior_ent_mag": 76.7421032298695, "train/prior_ent_max": 76.7421032298695, "train/prior_ent_mean": 45.600338791355945, "train/prior_ent_min": 26.70195622877641, "train/prior_ent_std": 8.085498174031576, "train/rep_loss_mean": 5.786308165752526, "train/rep_loss_std": 9.044338833202016, "train/reward_avg": 0.05124437718680411, "train/reward_loss_mean": 0.06399134478785774, "train/reward_loss_std": 0.2253531770724239, "train/reward_max_data": 1.0393939487861865, "train/reward_max_pred": 1.0402792511564312, "train/reward_neg_acc": 0.9923764702045557, "train/reward_neg_loss": 0.02509852854365652, "train/reward_pos_acc": 0.987078994512558, "train/reward_pos_loss": 0.7305900075218894, "train/reward_pred": 0.05071138579285506, "train/reward_rate": 0.055338541666666664, "stats/sum_log_reward": 12.500000381469727, "stats/max_log_achievement_collect_coal": 0.8, "stats/max_log_achievement_collect_drink": 4.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.4, "stats/max_log_achievement_collect_stone": 13.8, "stats/max_log_achievement_collect_wood": 12.6, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.8, "stats/max_log_achievement_eat_cow": 0.6, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.6, "stats/max_log_achievement_make_wood_pickaxe": 1.4, "stats/max_log_achievement_make_wood_sword": 1.6, "stats/max_log_achievement_place_furnace": 1.2, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 3.4, "stats/max_log_achievement_place_table": 3.2, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.41512094140052797, "replay/size": 1000000.0, "replay/inserts": 1322.0, "replay/samples": 10576.0, "replay/insert_wait_avg": 3.889721568882375e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.414640948920315e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.331848859787, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025304794311523438, "timer/logger.write_frac": 8.425611338788528e-05, "timer/logger.write_avg": 0.025304794311523438, "timer/logger.write_min": 0.025304794311523438, "timer/logger.write_max": 0.025304794311523438, "timer/replay.add_count": 1322.0, "timer/replay.add_total": 0.27641892433166504, "timer/replay.add_frac": 0.0009203783261119071, "timer/replay.add_avg": 0.00020909147075012484, "timer/replay.add_min": 7.700920104980469e-05, "timer/replay.add_max": 0.0007991790771484375, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1322.0, "timer/env.step_total": 15.052542448043823, "timer/env.step_frac": 0.05011970094144513, "timer/env.step_avg": 0.011386189446326644, "timer/env.step_min": 0.002700328826904297, "timer/env.step_max": 1.6927452087402344, "timer/agent.policy_count": 1322.0, "timer/agent.policy_total": 10.111262321472168, "timer/agent.policy_frac": 0.033666966589989314, "timer/agent.policy_avg": 0.007648458639540218, "timer/agent.policy_min": 0.005585908889770508, "timer/agent.policy_max": 0.01804661750793457, "timer/dataset_count": 661.0, "timer/dataset_total": 0.06229114532470703, "timer/dataset_frac": 0.00020740772435955766, "timer/dataset_avg": 9.423773876657645e-05, "timer/dataset_min": 6.937980651855469e-05, "timer/dataset_max": 0.0001533031463623047, "timer/agent.train_count": 661.0, "timer/agent.train_total": 274.1073055267334, "timer/agent.train_frac": 0.912681444100533, "timer/agent.train_avg": 0.41468578748371165, "timer/agent.train_min": 0.37074995040893555, "timer/agent.train_max": 0.4496805667877197, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.26408839225769043, "timer/agent.report_frac": 0.000879321967551243, "timer/agent.report_avg": 0.26408839225769043, "timer/agent.report_min": 0.26408839225769043, "timer/agent.report_max": 0.26408839225769043, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.401730149325027}
{"step": 1338754, "episode/length": 112.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 12.899999976158142, "episode/reward_rate": 0.11504424778761062}
{"step": 1338976, "episode/length": 221.0, "episode/score": 13.100000016391277, "episode/sum_abs_reward": 16.300000093877316, "episode/reward_rate": 0.06756756756756757}
{"step": 1339200, "episode/length": 223.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.05803571428571429}
{"step": 1339469, "episode/length": 268.0, "episode/score": 14.099999994039536, "episode/sum_abs_reward": 16.30000004172325, "episode/reward_rate": 0.055762081784386616}
{"step": 1339681, "episode/length": 211.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.700000025331974, "episode/reward_rate": 0.07547169811320754}
{"step": 1339866, "episode/length": 184.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.08108108108108109}
{"step": 1340065, "stats/sum_log_reward": 13.266667048136393, "stats/max_log_achievement_collect_coal": 1.5, "stats/max_log_achievement_collect_drink": 1.8333333333333333, "stats/max_log_achievement_collect_iron": 0.3333333333333333, "stats/max_log_achievement_collect_sapling": 2.6666666666666665, "stats/max_log_achievement_collect_stone": 14.833333333333334, "stats/max_log_achievement_collect_wood": 12.0, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.3333333333333333, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 2.1666666666666665, "stats/max_log_achievement_place_stone": 3.3333333333333335, "stats/max_log_achievement_place_table": 3.1666666666666665, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.4833064178625743, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.447667902166193, "train/action_min": 0.0, "train/action_std": 3.3353865724621397, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03509742665019902, "train/actor_opt_grad_steps": 669155.0, "train/actor_opt_loss": -9.074527527346756, "train/adv_mag": 0.3874010940392812, "train/adv_max": 0.3188240523591186, "train/adv_mean": 0.0018563841615766498, "train/adv_min": -0.35395291154131747, "train/adv_std": 0.03964592849440647, "train/cont_avg": 0.9955610795454546, "train/cont_loss_mean": 7.355638223251823e-05, "train/cont_loss_std": 0.002309826226175115, "train/cont_neg_acc": 0.9949494952505286, "train/cont_neg_loss": 0.01714731709379457, "train/cont_pos_acc": 0.9999999819379864, "train/cont_pos_loss": 2.228989560759339e-05, "train/cont_pred": 0.995557374123371, "train/cont_rate": 0.9955610795454546, "train/dyn_loss_mean": 5.797094186147054, "train/dyn_loss_std": 8.972423221125748, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8615637304204883, "train/extr_critic_critic_opt_grad_steps": 669155.0, "train/extr_critic_critic_opt_loss": 14982.30527935606, "train/extr_critic_mag": 12.586037144516453, "train/extr_critic_max": 12.586037144516453, "train/extr_critic_mean": 3.591137586217938, "train/extr_critic_min": -0.3886049371777159, "train/extr_critic_std": 2.9747404979937, "train/extr_return_normed_mag": 1.3756614742857036, "train/extr_return_normed_max": 1.3756614742857036, "train/extr_return_normed_mean": 0.3809498826211149, "train/extr_return_normed_min": -0.06004601606929844, "train/extr_return_normed_std": 0.3089187307791276, "train/extr_return_rate": 0.8235726844180714, "train/extr_return_raw_mag": 13.266608816204648, "train/extr_return_raw_max": 13.266608816204648, "train/extr_return_raw_mean": 3.609160224596659, "train/extr_return_raw_min": -0.6718230401024674, "train/extr_return_raw_std": 2.99897808378393, "train/extr_reward_mag": 1.0919737310120554, "train/extr_reward_max": 1.0919737310120554, "train/extr_reward_mean": 0.0610606600953774, "train/extr_reward_min": -0.5832739761381438, "train/extr_reward_std": 0.23710754400852954, "train/image_loss_mean": 3.581235058379896, "train/image_loss_std": 9.149554599415172, "train/model_loss_mean": 7.12419859568278, "train/model_loss_std": 13.265421824021773, "train/model_opt_grad_norm": 20.051493948156182, "train/model_opt_grad_steps": 668603.0606060605, "train/model_opt_loss": 18940.664669152462, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2651.5151515151515, "train/policy_entropy_mag": 2.7395511612747656, "train/policy_entropy_max": 2.7395511612747656, "train/policy_entropy_mean": 0.4824769203410004, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7015459036285226, "train/policy_logprob_mag": 7.438384280060276, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4818957583470778, "train/policy_logprob_min": -7.438384280060276, "train/policy_logprob_std": 1.0966445623022136, "train/policy_randomness_mag": 0.966941338596922, "train/policy_randomness_max": 0.966941338596922, "train/policy_randomness_mean": 0.17029317998976418, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2476149174300107, "train/post_ent_mag": 55.064796043164804, "train/post_ent_max": 55.064796043164804, "train/post_ent_mean": 39.829779942830406, "train/post_ent_min": 19.620661157550234, "train/post_ent_std": 5.772133971705581, "train/prior_ent_mag": 76.78396687363133, "train/prior_ent_max": 76.78396687363133, "train/prior_ent_mean": 45.608447566176906, "train/prior_ent_min": 27.512059558521617, "train/prior_ent_std": 7.952863816058997, "train/rep_loss_mean": 5.797094186147054, "train/rep_loss_std": 8.972423221125748, "train/reward_avg": 0.05056374237844438, "train/reward_loss_mean": 0.06463342645403111, "train/reward_loss_std": 0.22831240838224237, "train/reward_max_data": 1.0303030375278357, "train/reward_max_pred": 1.0302358287753481, "train/reward_neg_acc": 0.9924381032134547, "train/reward_neg_loss": 0.02653055123025269, "train/reward_pos_acc": 0.989616494287144, "train/reward_pos_loss": 0.7246142797397844, "train/reward_pred": 0.0501491277281082, "train/reward_rate": 0.054657907196969696, "replay/size": 1000000.0, "replay/inserts": 1320.0, "replay/samples": 10560.0, "replay/insert_wait_avg": 3.897421287767815e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4035087643247662e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3234131336212, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02364802360534668, "timer/logger.write_frac": 7.874185818081754e-05, "timer/logger.write_avg": 0.02364802360534668, "timer/logger.write_min": 0.02364802360534668, "timer/logger.write_max": 0.02364802360534668, "timer/replay.add_count": 1320.0, "timer/replay.add_total": 0.28447580337524414, "timer/replay.add_frac": 0.0009472315208693833, "timer/replay.add_avg": 0.00021551197225397282, "timer/replay.add_min": 7.462501525878906e-05, "timer/replay.add_max": 0.003660440444946289, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1320.0, "timer/env.step_total": 16.429068326950073, "timer/env.step_frac": 0.05470458714998814, "timer/env.step_avg": 0.012446263884053085, "timer/env.step_min": 0.00247955322265625, "timer/env.step_max": 1.611208200454712, "timer/agent.policy_count": 1320.0, "timer/agent.policy_total": 10.144020318984985, "timer/agent.policy_frac": 0.033776987991514545, "timer/agent.policy_avg": 0.0076848638780189285, "timer/agent.policy_min": 0.0056095123291015625, "timer/agent.policy_max": 0.017838716506958008, "timer/dataset_count": 660.0, "timer/dataset_total": 0.06126236915588379, "timer/dataset_frac": 0.00020398798920358123, "timer/dataset_avg": 9.282177144830877e-05, "timer/dataset_min": 6.413459777832031e-05, "timer/dataset_max": 0.0002465248107910156, "timer/agent.train_count": 660.0, "timer/agent.train_total": 272.689994096756, "timer/agent.train_frac": 0.9079877963941144, "timer/agent.train_avg": 0.41316665772235756, "timer/agent.train_min": 0.3641970157623291, "timer/agent.train_max": 0.4526102542877197, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.26119256019592285, "timer/agent.report_frac": 0.0008697042880226987, "timer/agent.report_avg": 0.26119256019592285, "timer/agent.report_min": 0.26119256019592285, "timer/agent.report_max": 0.26119256019592285, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.3952031103101135}
{"step": 1340074, "episode/length": 207.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.07211538461538461}
{"step": 1340277, "episode/length": 202.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.30000003427267, "episode/reward_rate": 0.07389162561576355}
{"step": 1340457, "episode/length": 179.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.500000022351742, "episode/reward_rate": 0.08888888888888889}
{"step": 1340689, "episode/length": 231.0, "episode/score": 13.100000023841858, "episode/sum_abs_reward": 14.899999976158142, "episode/reward_rate": 0.06465517241379311}
{"step": 1340879, "episode/length": 189.0, "episode/score": 11.099999971687794, "episode/sum_abs_reward": 13.900000043213367, "episode/reward_rate": 0.06842105263157895}
{"step": 1341265, "episode/length": 385.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.03626943005181347}
{"step": 1341363, "stats/sum_log_reward": 13.43333371480306, "stats/max_log_achievement_collect_coal": 1.5, "stats/max_log_achievement_collect_drink": 3.1666666666666665, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 1.1666666666666667, "stats/max_log_achievement_collect_stone": 18.166666666666668, "stats/max_log_achievement_collect_wood": 11.0, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.3333333333333333, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 2.1666666666666665, "stats/max_log_achievement_place_plant": 1.1666666666666667, "stats/max_log_achievement_place_stone": 4.166666666666667, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.5415860563516617, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.400066669170673, "train/action_min": 0.0, "train/action_std": 3.30716353563162, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.036472542182757306, "train/actor_opt_grad_steps": 669810.0, "train/actor_opt_loss": -11.022871002554893, "train/adv_mag": 0.42615475929700414, "train/adv_max": 0.32645718363615184, "train/adv_mean": 0.0017223453087353846, "train/adv_min": -0.40286067999326264, "train/adv_std": 0.04049406395508693, "train/cont_avg": 0.9956129807692308, "train/cont_loss_mean": 5.6840048794216414e-05, "train/cont_loss_std": 0.0017206669904068733, "train/cont_neg_acc": 0.9939560450040377, "train/cont_neg_loss": 0.008213495684182868, "train/cont_pos_acc": 0.9999999779921311, "train/cont_pos_loss": 1.3175163222128433e-05, "train/cont_pred": 0.9956253418555626, "train/cont_rate": 0.9956129807692308, "train/dyn_loss_mean": 5.826799201965332, "train/dyn_loss_std": 9.048898975665752, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8616267433533302, "train/extr_critic_critic_opt_grad_steps": 669810.0, "train/extr_critic_critic_opt_loss": 15094.270582932691, "train/extr_critic_mag": 12.70889056279109, "train/extr_critic_max": 12.70889056279109, "train/extr_critic_mean": 3.6740003145658053, "train/extr_critic_min": -0.34303973821493294, "train/extr_critic_std": 3.005033357326801, "train/extr_return_normed_mag": 1.3769194988104014, "train/extr_return_normed_max": 1.3769194988104014, "train/extr_return_normed_mean": 0.38779304440204915, "train/extr_return_normed_min": -0.06264131269775904, "train/extr_return_normed_std": 0.31085932873762573, "train/extr_return_rate": 0.8348297715187073, "train/extr_return_raw_mag": 13.340909473712628, "train/extr_return_raw_max": 13.340909473712628, "train/extr_return_raw_mean": 3.6908179356501654, "train/extr_return_raw_min": -0.7044837300594037, "train/extr_return_raw_std": 3.033047716434185, "train/extr_reward_mag": 1.0943877917069655, "train/extr_reward_max": 1.0943877917069655, "train/extr_reward_mean": 0.06390379575582651, "train/extr_reward_min": -0.6295534445689275, "train/extr_reward_std": 0.24214329559069414, "train/image_loss_mean": 3.612054333320031, "train/image_loss_std": 9.33936237188486, "train/model_loss_mean": 7.173924336066613, "train/model_loss_std": 13.494090124276967, "train/model_opt_grad_norm": 19.427864690927358, "train/model_opt_grad_steps": 669257.6923076923, "train/model_opt_loss": 19796.95546875, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2769.230769230769, "train/policy_entropy_mag": 2.727514875852145, "train/policy_entropy_max": 2.727514875852145, "train/policy_entropy_mean": 0.4558033672662882, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6757912186475901, "train/policy_logprob_mag": 7.438384298177866, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.45499410720971917, "train/policy_logprob_min": -7.438384298177866, "train/policy_logprob_std": 1.0758759397726791, "train/policy_randomness_mag": 0.9626930585274329, "train/policy_randomness_max": 0.9626930585274329, "train/policy_randomness_mean": 0.16087858550823653, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23852464442069715, "train/post_ent_mag": 55.10304365891677, "train/post_ent_max": 55.10304365891677, "train/post_ent_mean": 39.79329581627479, "train/post_ent_min": 19.632728209862343, "train/post_ent_std": 5.786233535179725, "train/prior_ent_mag": 76.83511810302734, "train/prior_ent_max": 76.83511810302734, "train/prior_ent_mean": 45.57693246694711, "train/prior_ent_min": 27.19684151869554, "train/prior_ent_std": 7.984741937197172, "train/rep_loss_mean": 5.826799201965332, "train/rep_loss_std": 9.048898975665752, "train/reward_avg": 0.052363280751384224, "train/reward_loss_mean": 0.06573365055597745, "train/reward_loss_std": 0.22257403823045585, "train/reward_max_data": 1.0415384714420026, "train/reward_max_pred": 1.042778418614314, "train/reward_neg_acc": 0.9926942577728859, "train/reward_neg_loss": 0.027146138365452106, "train/reward_pos_acc": 0.9915328355935904, "train/reward_pos_loss": 0.7068029183607835, "train/reward_pred": 0.05218011645170358, "train/reward_rate": 0.05673076923076923, "replay/size": 1000000.0, "replay/inserts": 1298.0, "replay/samples": 10384.0, "replay/insert_wait_avg": 3.86961803230556e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3868871198045822e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0085334777832, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03482413291931152, "timer/logger.write_frac": 0.00011607714125868485, "timer/logger.write_avg": 0.03482413291931152, "timer/logger.write_min": 0.03482413291931152, "timer/logger.write_max": 0.03482413291931152, "timer/replay.add_count": 1298.0, "timer/replay.add_total": 0.2671971321105957, "timer/replay.add_frac": 0.0008906317730804904, "timer/replay.add_avg": 0.00020585295231941118, "timer/replay.add_min": 6.890296936035156e-05, "timer/replay.add_max": 0.0011913776397705078, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1298.0, "timer/env.step_total": 16.05555009841919, "timer/env.step_frac": 0.053516978041586824, "timer/env.step_avg": 0.012369453080446216, "timer/env.step_min": 0.002624034881591797, "timer/env.step_max": 1.6740446090698242, "timer/agent.policy_count": 1298.0, "timer/agent.policy_total": 14.402217388153076, "timer/agent.policy_frac": 0.04800602576599581, "timer/agent.policy_avg": 0.011095699066373711, "timer/agent.policy_min": 0.0056841373443603516, "timer/agent.policy_max": 3.215205669403076, "timer/dataset_count": 649.0, "timer/dataset_total": 0.06027102470397949, "timer/dataset_frac": 0.00020089770115969984, "timer/dataset_avg": 9.286752650844298e-05, "timer/dataset_min": 6.556510925292969e-05, "timer/dataset_max": 0.0002224445343017578, "timer/agent.train_count": 649.0, "timer/agent.train_total": 268.5024902820587, "timer/agent.train_frac": 0.8949828432194992, "timer/agent.train_avg": 0.4137172423452368, "timer/agent.train_min": 0.37191081047058105, "timer/agent.train_max": 0.4513711929321289, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2629983425140381, "timer/agent.report_frac": 0.0008766362058615047, "timer/agent.report_avg": 0.2629983425140381, "timer/agent.report_min": 0.2629983425140381, "timer/agent.report_max": 0.2629983425140381, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00029087066650390625, "timer/checkpoint.save_frac": 9.695413098155968e-07, "timer/checkpoint.save_avg": 0.00029087066650390625, "timer/checkpoint.save_min": 0.00029087066650390625, "timer/checkpoint.save_max": 0.00029087066650390625, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.247413158416748, "timer/agent.save_frac": 0.004157925589503686, "timer/agent.save_avg": 1.247413158416748, "timer/agent.save_min": 1.247413158416748, "timer/agent.save_max": 1.247413158416748, "timer/replay.save_count": 1.0, "timer/replay.save_total": 6.341934204101562e-05, "timer/replay.save_frac": 2.113917937794662e-07, "timer/replay.save_avg": 6.341934204101562e-05, "timer/replay.save_min": 6.341934204101562e-05, "timer/replay.save_max": 6.341934204101562e-05, "fps": 4.326457091798258}
{"step": 1341452, "episode/length": 186.0, "episode/score": 9.099999979138374, "episode/sum_abs_reward": 10.900000020861626, "episode/reward_rate": 0.053475935828877004}
{"step": 1341625, "episode/length": 172.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.08670520231213873}
{"step": 1341841, "episode/length": 215.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.30000003427267, "episode/reward_rate": 0.06944444444444445}
{"step": 1342145, "episode/length": 303.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.049342105263157895}
{"step": 1342353, "episode/length": 207.0, "episode/score": 14.100000031292439, "episode/sum_abs_reward": 17.100000075995922, "episode/reward_rate": 0.07211538461538461}
{"step": 1342576, "episode/length": 222.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.30000004172325, "episode/reward_rate": 0.06726457399103139}
{"step": 1342681, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.433406020655776, "train/action_min": 0.0, "train/action_std": 3.3407800631089644, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03515709338314606, "train/actor_opt_grad_steps": 670465.0, "train/actor_opt_loss": -10.90185916175445, "train/adv_mag": 0.38444527780467813, "train/adv_max": 0.32551355705116736, "train/adv_mean": 0.00193900701589717, "train/adv_min": -0.3478137898174199, "train/adv_std": 0.03977623316600467, "train/cont_avg": 0.9947472774621212, "train/cont_loss_mean": 2.2039506623972365e-05, "train/cont_loss_std": 0.0006529019306614456, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0002871481944615644, "train/cont_pos_acc": 0.9999999855503892, "train/cont_pos_loss": 2.0921969705641047e-05, "train/cont_pred": 0.994729423161709, "train/cont_rate": 0.9947472774621212, "train/dyn_loss_mean": 5.716633312629931, "train/dyn_loss_std": 9.092580816962503, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8083295334469188, "train/extr_critic_critic_opt_grad_steps": 670465.0, "train/extr_critic_critic_opt_loss": 14687.642548532196, "train/extr_critic_mag": 12.789963245391846, "train/extr_critic_max": 12.789963245391846, "train/extr_critic_mean": 3.9225836992263794, "train/extr_critic_min": -0.38247138984275586, "train/extr_critic_std": 3.1320802479079277, "train/extr_return_normed_mag": 1.379577611431931, "train/extr_return_normed_max": 1.379577611431931, "train/extr_return_normed_mean": 0.40861244454528345, "train/extr_return_normed_min": -0.06140214066500917, "train/extr_return_normed_std": 0.3198681803363742, "train/extr_return_rate": 0.8439266121748722, "train/extr_return_raw_mag": 13.531098611427076, "train/extr_return_raw_max": 13.531098611427076, "train/extr_return_raw_mean": 3.9417194922765098, "train/extr_return_raw_min": -0.7016536092216318, "train/extr_return_raw_std": 3.160236047975945, "train/extr_reward_mag": 1.0944045023484663, "train/extr_reward_max": 1.0944045023484663, "train/extr_reward_mean": 0.06660913331716349, "train/extr_reward_min": -0.6111613403667103, "train/extr_reward_std": 0.24713840809735385, "train/image_loss_mean": 3.504921060619932, "train/image_loss_std": 8.667778911012592, "train/model_loss_mean": 7.003590670498935, "train/model_loss_std": 12.89232775659272, "train/model_opt_grad_norm": 19.09655371579257, "train/model_opt_grad_steps": 669912.0, "train/model_opt_loss": 17508.976636482006, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7389602769504893, "train/policy_entropy_max": 2.7389602769504893, "train/policy_entropy_mean": 0.47011689615972113, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6942516009915959, "train/policy_logprob_mag": 7.438384251161055, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4711035584861582, "train/policy_logprob_min": -7.438384251161055, "train/policy_logprob_std": 1.0912506977717082, "train/policy_randomness_mag": 0.9667327819448529, "train/policy_randomness_max": 0.9667327819448529, "train/policy_randomness_mean": 0.16593063419515436, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24504034966230392, "train/post_ent_mag": 54.95608803720185, "train/post_ent_max": 54.95608803720185, "train/post_ent_mean": 39.6181302504106, "train/post_ent_min": 19.288736169988457, "train/post_ent_std": 5.765212824850371, "train/prior_ent_mag": 76.75800346605706, "train/prior_ent_max": 76.75800346605706, "train/prior_ent_mean": 45.308452143813625, "train/prior_ent_min": 27.33657342737371, "train/prior_ent_std": 8.061242038553411, "train/rep_loss_mean": 5.716633312629931, "train/rep_loss_std": 9.092580816962503, "train/reward_avg": 0.05512991180699883, "train/reward_loss_mean": 0.06866758085335746, "train/reward_loss_std": 0.22852500302321982, "train/reward_max_data": 1.0454545562917537, "train/reward_max_pred": 1.0438986980553828, "train/reward_neg_acc": 0.9923727485266599, "train/reward_neg_loss": 0.028163354251195084, "train/reward_pos_acc": 0.9927516886682222, "train/reward_pos_loss": 0.7114915883902347, "train/reward_pred": 0.05481888119582877, "train/reward_rate": 0.05937795928030303, "stats/sum_log_reward": 13.266667048136393, "stats/max_log_achievement_collect_coal": 1.3333333333333333, "stats/max_log_achievement_collect_drink": 2.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 18.333333333333332, "stats/max_log_achievement_collect_wood": 11.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.3333333333333333, "stats/max_log_achievement_defeat_zombie": 2.1666666666666665, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_stone_sword": 1.1666666666666667, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.3333333333333335, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 2.8333333333333335, "stats/max_log_achievement_place_table": 3.1666666666666665, "stats/max_log_achievement_wake_up": 0.8333333333333334, "stats/mean_log_entropy": 0.4755597760279973, "replay/size": 1000000.0, "replay/inserts": 1318.0, "replay/samples": 10544.0, "replay/insert_wait_avg": 3.800406622416333e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.398040962508669e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.10105061531067, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026427268981933594, "timer/logger.write_frac": 8.806123446668573e-05, "timer/logger.write_avg": 0.026427268981933594, "timer/logger.write_min": 0.026427268981933594, "timer/logger.write_max": 0.026427268981933594, "timer/replay.add_count": 1318.0, "timer/replay.add_total": 0.2728900909423828, "timer/replay.add_frac": 0.0009093273428495635, "timer/replay.add_avg": 0.00020704862742214173, "timer/replay.add_min": 7.653236389160156e-05, "timer/replay.add_max": 0.0014865398406982422, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1318.0, "timer/env.step_total": 16.09919023513794, "timer/env.step_frac": 0.0536458976139172, "timer/env.step_avg": 0.012214863607843657, "timer/env.step_min": 0.0022881031036376953, "timer/env.step_max": 1.4448237419128418, "timer/agent.policy_count": 1318.0, "timer/agent.policy_total": 9.999866724014282, "timer/agent.policy_frac": 0.033321665164154225, "timer/agent.policy_avg": 0.007587152294396268, "timer/agent.policy_min": 0.00556182861328125, "timer/agent.policy_max": 0.016507863998413086, "timer/dataset_count": 659.0, "timer/dataset_total": 0.060790300369262695, "timer/dataset_frac": 0.00020256610313300008, "timer/dataset_avg": 9.224628280616494e-05, "timer/dataset_min": 6.604194641113281e-05, "timer/dataset_max": 0.0002110004425048828, "timer/agent.train_count": 659.0, "timer/agent.train_total": 272.95902705192566, "timer/agent.train_frac": 0.9095570525070322, "timer/agent.train_avg": 0.41420186199078246, "timer/agent.train_min": 0.3652760982513428, "timer/agent.train_max": 0.45185279846191406, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.26209545135498047, "timer/agent.report_frac": 0.0008733573268657153, "timer/agent.report_avg": 0.26209545135498047, "timer/agent.report_min": 0.26209545135498047, "timer/agent.report_max": 0.26209545135498047, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.391811277194515}
{"step": 1342757, "episode/length": 180.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.07734806629834254}
{"step": 1342936, "episode/length": 178.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.08379888268156424}
{"step": 1343143, "episode/length": 206.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06280193236714976}
{"step": 1343503, "episode/length": 359.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.700000040233135, "episode/reward_rate": 0.041666666666666664}
{"step": 1343726, "episode/length": 222.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.06726457399103139}
{"step": 1343927, "episode/length": 200.0, "episode/score": 12.099999979138374, "episode/sum_abs_reward": 14.100000023841858, "episode/reward_rate": 0.06467661691542288}
{"step": 1343999, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.471693559126421, "train/action_min": 0.0, "train/action_std": 3.314336231260589, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03286602201335358, "train/actor_opt_grad_steps": 671125.0, "train/actor_opt_loss": -13.961097233223192, "train/adv_mag": 0.39474988119168714, "train/adv_max": 0.3240983142997279, "train/adv_mean": 0.0011224260855563057, "train/adv_min": -0.34949358981667145, "train/adv_std": 0.0383387982675975, "train/cont_avg": 0.9950136126893939, "train/cont_loss_mean": 1.3780686175275122e-05, "train/cont_loss_std": 0.0003347189651449436, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 6.888086466345038e-05, "train/cont_pos_acc": 0.9999999837441877, "train/cont_pos_loss": 1.3475703186162663e-05, "train/cont_pred": 0.9950011444814277, "train/cont_rate": 0.9950136126893939, "train/dyn_loss_mean": 5.703441670446685, "train/dyn_loss_std": 9.043198831153639, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8372083577242765, "train/extr_critic_critic_opt_grad_steps": 671125.0, "train/extr_critic_critic_opt_loss": 14730.735277580492, "train/extr_critic_mag": 12.810076915856564, "train/extr_critic_max": 12.810076915856564, "train/extr_critic_mean": 3.734488718437426, "train/extr_critic_min": -0.3988285588495659, "train/extr_critic_std": 3.125522833881956, "train/extr_return_normed_mag": 1.3812181136824868, "train/extr_return_normed_max": 1.3812181136824868, "train/extr_return_normed_mean": 0.38866563818671485, "train/extr_return_normed_min": -0.06453847571868788, "train/extr_return_normed_std": 0.3186137473041361, "train/extr_return_rate": 0.823278726050348, "train/extr_return_raw_mag": 13.561844739046963, "train/extr_return_raw_max": 13.561844739046963, "train/extr_return_raw_mean": 3.745563106103377, "train/extr_return_raw_min": -0.736288434176734, "train/extr_return_raw_std": 3.1509102004947085, "train/extr_reward_mag": 1.089555303255717, "train/extr_reward_max": 1.089555303255717, "train/extr_reward_mean": 0.06348933934262305, "train/extr_reward_min": -0.6059302272218646, "train/extr_reward_std": 0.241832039798751, "train/image_loss_mean": 3.559993388074817, "train/image_loss_std": 8.765702023650661, "train/model_loss_mean": 7.049283367214781, "train/model_loss_std": 12.944925871762363, "train/model_opt_grad_norm": 18.51865583566519, "train/model_opt_grad_steps": 670571.2878787878, "train/model_opt_loss": 19243.29569128788, "train/model_opt_model_opt_grad_overflow": 0.015151515151515152, "train/model_opt_model_opt_grad_scale": 2727.2727272727275, "train/policy_entropy_mag": 2.7486190940394546, "train/policy_entropy_max": 2.7486190940394546, "train/policy_entropy_mean": 0.4916266225504153, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7114208227757252, "train/policy_logprob_mag": 7.438384265610666, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4911611053076657, "train/policy_logprob_min": -7.438384265610666, "train/policy_logprob_std": 1.1036786446065614, "train/policy_randomness_mag": 0.97014192107952, "train/policy_randomness_max": 0.97014192107952, "train/policy_randomness_mean": 0.17352262455405612, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.25110033493150363, "train/post_ent_mag": 54.75273380857526, "train/post_ent_max": 54.75273380857526, "train/post_ent_mean": 39.58661293260979, "train/post_ent_min": 19.41659586357348, "train/post_ent_std": 5.758268732013124, "train/prior_ent_mag": 76.75536831942472, "train/prior_ent_max": 76.75536831942472, "train/prior_ent_mean": 45.27500701673103, "train/prior_ent_min": 26.76087220509847, "train/prior_ent_std": 8.143286748365922, "train/rep_loss_mean": 5.703441670446685, "train/rep_loss_std": 9.043198831153639, "train/reward_avg": 0.052768406232423855, "train/reward_loss_mean": 0.0672112362967296, "train/reward_loss_std": 0.23803104437661893, "train/reward_max_data": 1.0363636450334028, "train/reward_max_pred": 1.034971002376441, "train/reward_neg_acc": 0.9918817281723022, "train/reward_neg_loss": 0.026925223724295694, "train/reward_pos_acc": 0.9861169972202994, "train/reward_pos_loss": 0.7351388967398441, "train/reward_pred": 0.052191641040597904, "train/reward_rate": 0.05704012784090909, "stats/sum_log_reward": 13.266666730244955, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 2.8333333333333335, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 15.666666666666666, "stats/max_log_achievement_collect_wood": 12.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.6666666666666667, "stats/max_log_achievement_eat_cow": 0.6666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 1.1666666666666667, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.1666666666666667, "stats/max_log_achievement_place_stone": 3.6666666666666665, "stats/max_log_achievement_place_table": 3.3333333333333335, "stats/max_log_achievement_wake_up": 1.6666666666666667, "stats/mean_log_entropy": 0.5043225139379501, "replay/size": 1000000.0, "replay/inserts": 1318.0, "replay/samples": 10544.0, "replay/insert_wait_avg": 3.756811115919006e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.406294261197219e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0472996234894, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.031168460845947266, "timer/logger.write_frac": 0.00010387849144137815, "timer/logger.write_avg": 0.031168460845947266, "timer/logger.write_min": 0.031168460845947266, "timer/logger.write_max": 0.031168460845947266, "timer/replay.add_count": 1318.0, "timer/replay.add_total": 0.2766108512878418, "timer/replay.add_frac": 0.0009218908206637536, "timer/replay.add_avg": 0.00020987166258561594, "timer/replay.add_min": 7.915496826171875e-05, "timer/replay.add_max": 0.001894235610961914, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1318.0, "timer/env.step_total": 16.237054109573364, "timer/env.step_frac": 0.05411498163772255, "timer/env.step_avg": 0.01231946442304504, "timer/env.step_min": 0.0025298595428466797, "timer/env.step_max": 1.7431790828704834, "timer/agent.policy_count": 1318.0, "timer/agent.policy_total": 9.998520851135254, "timer/agent.policy_frac": 0.03332314892912475, "timer/agent.policy_avg": 0.007586131146536611, "timer/agent.policy_min": 0.0053522586822509766, "timer/agent.policy_max": 0.01996445655822754, "timer/dataset_count": 659.0, "timer/dataset_total": 0.06082320213317871, "timer/dataset_frac": 0.00020271204643235234, "timer/dataset_avg": 9.229620961028636e-05, "timer/dataset_min": 6.413459777832031e-05, "timer/dataset_max": 0.00025391578674316406, "timer/agent.train_count": 659.0, "timer/agent.train_total": 272.7987563610077, "timer/agent.train_frac": 0.9091858407102007, "timer/agent.train_avg": 0.4139586591214077, "timer/agent.train_min": 0.37195682525634766, "timer/agent.train_max": 0.45150160789489746, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22124266624450684, "timer/agent.report_frac": 0.0007373592980911024, "timer/agent.report_avg": 0.22124266624450684, "timer/agent.report_min": 0.22124266624450684, "timer/agent.report_max": 0.22124266624450684, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.392563653612553}
{"step": 1344118, "episode/length": 190.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.500000044703484, "episode/reward_rate": 0.07853403141361257}
{"step": 1344297, "episode/length": 178.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.061452513966480445}
{"step": 1344504, "episode/length": 206.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.06763285024154589}
{"step": 1344902, "episode/length": 397.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.03768844221105527}
{"step": 1345079, "episode/length": 176.0, "episode/score": 13.100000023841858, "episode/sum_abs_reward": 14.700000047683716, "episode/reward_rate": 0.07909604519774012}
{"step": 1345200, "episode/length": 120.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.700000025331974, "episode/reward_rate": 0.09090909090909091}
{"step": 1345299, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4600247896634615, "train/action_min": 0.0, "train/action_std": 3.280338166310237, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03457980559995541, "train/actor_opt_grad_steps": 671780.0, "train/actor_opt_loss": -10.950177337802373, "train/adv_mag": 0.4024217000374427, "train/adv_max": 0.32704685628414154, "train/adv_mean": 0.0016471579720158704, "train/adv_min": -0.3630943298339844, "train/adv_std": 0.03956764122614494, "train/cont_avg": 0.9953275240384616, "train/cont_loss_mean": 6.767641119525846e-05, "train/cont_loss_std": 0.002120117268982715, "train/cont_neg_acc": 0.9961538461538462, "train/cont_neg_loss": 0.011237303599947537, "train/cont_pos_acc": 0.9999849035189702, "train/cont_pos_loss": 2.3705312154421477e-05, "train/cont_pred": 0.9953264309809758, "train/cont_rate": 0.9953275240384616, "train/dyn_loss_mean": 5.869592263148381, "train/dyn_loss_std": 9.043247868464544, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8800282404972957, "train/extr_critic_critic_opt_grad_steps": 671780.0, "train/extr_critic_critic_opt_loss": 14883.949353966345, "train/extr_critic_mag": 12.708766467754657, "train/extr_critic_max": 12.708766467754657, "train/extr_critic_mean": 3.7504357778109036, "train/extr_critic_min": -0.38708544144263635, "train/extr_critic_std": 3.067508943264301, "train/extr_return_normed_mag": 1.3668188443550697, "train/extr_return_normed_max": 1.3668188443550697, "train/extr_return_normed_mean": 0.3909898015168997, "train/extr_return_normed_min": -0.06343960607281098, "train/extr_return_normed_std": 0.313159244794112, "train/extr_return_rate": 0.8294080917651837, "train/extr_return_raw_mag": 13.393098831176758, "train/extr_return_raw_max": 13.393098831176758, "train/extr_return_raw_mean": 3.766679253944984, "train/extr_return_raw_min": -0.7173713363133944, "train/extr_return_raw_std": 3.089882252766536, "train/extr_reward_mag": 1.09496551660391, "train/extr_reward_max": 1.09496551660391, "train/extr_reward_mean": 0.06452740425100693, "train/extr_reward_min": -0.6081079959869384, "train/extr_reward_std": 0.24340033577038692, "train/image_loss_mean": 3.6353486941410944, "train/image_loss_std": 9.030690097808838, "train/model_loss_mean": 7.225422587761512, "train/model_loss_std": 13.200680527320275, "train/model_opt_grad_norm": 20.177791419396033, "train/model_opt_grad_steps": 671225.0, "train/model_opt_loss": 9031.778185096155, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.7384502520928016, "train/policy_entropy_max": 2.7384502520928016, "train/policy_entropy_mean": 0.4823075927220858, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6985680401325226, "train/policy_logprob_mag": 7.438384224818303, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.48273375630378723, "train/policy_logprob_min": -7.438384224818303, "train/policy_logprob_std": 1.0975137738081124, "train/policy_randomness_mag": 0.9665527673868033, "train/policy_randomness_max": 0.9665527673868033, "train/policy_randomness_mean": 0.17023341770355518, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24656386077404022, "train/post_ent_mag": 54.82582297691932, "train/post_ent_max": 54.82582297691932, "train/post_ent_mean": 39.69012298583984, "train/post_ent_min": 19.53253442324125, "train/post_ent_std": 5.7510887659513035, "train/prior_ent_mag": 76.77583829439604, "train/prior_ent_max": 76.77583829439604, "train/prior_ent_mean": 45.52348374586839, "train/prior_ent_min": 27.45063350384052, "train/prior_ent_std": 7.949731731414795, "train/rep_loss_mean": 5.869592263148381, "train/rep_loss_std": 9.043247868464544, "train/reward_avg": 0.05488431442242402, "train/reward_loss_mean": 0.0682509272144391, "train/reward_loss_std": 0.2424061296077875, "train/reward_max_data": 1.0400000095367432, "train/reward_max_pred": 1.0396363735198975, "train/reward_neg_acc": 0.9923270298884466, "train/reward_neg_loss": 0.026767649458578, "train/reward_pos_acc": 0.9883793354034424, "train/reward_pos_loss": 0.7288146000642043, "train/reward_pred": 0.05435286307564149, "train/reward_rate": 0.05925480769230769, "stats/sum_log_reward": 12.433333396911621, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 4.833333333333333, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8333333333333333, "stats/max_log_achievement_collect_stone": 13.833333333333334, "stats/max_log_achievement_collect_wood": 10.166666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.3333333333333333, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.3333333333333333, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.3333333333333335, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_stone": 2.5, "stats/max_log_achievement_place_table": 2.8333333333333335, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.4431702196598053, "replay/size": 1000000.0, "replay/inserts": 1300.0, "replay/samples": 10400.0, "replay/insert_wait_avg": 3.817081451416016e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4187051699711727e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.23122000694275, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030559062957763672, "timer/logger.write_frac": 0.00010178509402538817, "timer/logger.write_avg": 0.030559062957763672, "timer/logger.write_min": 0.030559062957763672, "timer/logger.write_max": 0.030559062957763672, "timer/replay.add_count": 1300.0, "timer/replay.add_total": 0.26830625534057617, "timer/replay.add_frac": 0.0008936654067300919, "timer/replay.add_avg": 0.00020638942718505859, "timer/replay.add_min": 7.581710815429688e-05, "timer/replay.add_max": 0.0020182132720947266, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1300.0, "timer/env.step_total": 15.865178108215332, "timer/env.step_frac": 0.05284319901124358, "timer/env.step_avg": 0.01220398316016564, "timer/env.step_min": 0.0026390552520751953, "timer/env.step_max": 1.4433319568634033, "timer/agent.policy_count": 1300.0, "timer/agent.policy_total": 14.438437938690186, "timer/agent.policy_frac": 0.04809106107737997, "timer/agent.policy_avg": 0.011106490722069373, "timer/agent.policy_min": 0.005539655685424805, "timer/agent.policy_max": 3.170109748840332, "timer/dataset_count": 650.0, "timer/dataset_total": 0.060526371002197266, "timer/dataset_frac": 0.00020159919078634663, "timer/dataset_avg": 9.311749384953426e-05, "timer/dataset_min": 6.556510925292969e-05, "timer/dataset_max": 0.00017452239990234375, "timer/agent.train_count": 650.0, "timer/agent.train_total": 268.92560839653015, "timer/agent.train_frac": 0.8957283269551759, "timer/agent.train_avg": 0.413731705225431, "timer/agent.train_min": 0.36338090896606445, "timer/agent.train_max": 0.5105655193328857, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.23038220405578613, "timer/agent.report_frac": 0.0007673492585163483, "timer/agent.report_avg": 0.23038220405578613, "timer/agent.report_min": 0.23038220405578613, "timer/agent.report_max": 0.23038220405578613, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004029273986816406, "timer/checkpoint.save_frac": 1.3420569608727668e-06, "timer/checkpoint.save_avg": 0.0004029273986816406, "timer/checkpoint.save_min": 0.0004029273986816406, "timer/checkpoint.save_max": 0.0004029273986816406, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.374619483947754, "timer/agent.save_frac": 0.004578536115984095, "timer/agent.save_avg": 1.374619483947754, "timer/agent.save_min": 1.374619483947754, "timer/agent.save_max": 1.374619483947754, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.606910705566406e-05, "timer/replay.save_frac": 2.8667607270714134e-07, "timer/replay.save_avg": 8.606910705566406e-05, "timer/replay.save_min": 8.606910705566406e-05, "timer/replay.save_max": 8.606910705566406e-05, "fps": 4.329922460633874}
{"step": 1345439, "episode/length": 238.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.30000001937151, "episode/reward_rate": 0.06694560669456066}
{"step": 1345656, "episode/length": 216.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.299999997019768, "episode/reward_rate": 0.03686635944700461}
{"step": 1345948, "episode/length": 291.0, "episode/score": 9.099999979138374, "episode/sum_abs_reward": 12.500000044703484, "episode/reward_rate": 0.03424657534246575}
{"step": 1346166, "episode/length": 217.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 12.900000005960464, "episode/reward_rate": 0.05963302752293578}
{"step": 1346411, "episode/length": 244.0, "episode/score": 14.099999994039536, "episode/sum_abs_reward": 16.700000017881393, "episode/reward_rate": 0.0653061224489796}
{"step": 1346625, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.432175145004734, "train/action_min": 0.0, "train/action_std": 3.285895246447939, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.035043321239451565, "train/actor_opt_grad_steps": 672435.0, "train/actor_opt_loss": -9.635414951678479, "train/adv_mag": 0.3947142976703066, "train/adv_max": 0.3334864910804864, "train/adv_mean": 0.002008864323105434, "train/adv_min": -0.33685815650405304, "train/adv_std": 0.03928897699171847, "train/cont_avg": 0.9953687263257576, "train/cont_loss_mean": 1.1839657334049166e-05, "train/cont_loss_std": 0.0002937756765451275, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0001792643938517043, "train/cont_pos_acc": 0.999999972003879, "train/cont_pos_loss": 1.0913298067097541e-05, "train/cont_pred": 0.9953591606833718, "train/cont_rate": 0.9953687263257576, "train/dyn_loss_mean": 5.685903498620698, "train/dyn_loss_std": 8.89245437853264, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8300133817123644, "train/extr_critic_critic_opt_grad_steps": 672435.0, "train/extr_critic_critic_opt_loss": 14917.953095407196, "train/extr_critic_mag": 12.619678136074182, "train/extr_critic_max": 12.619678136074182, "train/extr_critic_mean": 3.712278243267175, "train/extr_critic_min": -0.34408034700335877, "train/extr_critic_std": 3.0384082541321265, "train/extr_return_normed_mag": 1.3686149662191218, "train/extr_return_normed_max": 1.3686149662191218, "train/extr_return_normed_mean": 0.3892728609569145, "train/extr_return_normed_min": -0.05998827178369869, "train/extr_return_normed_std": 0.3129509265224139, "train/extr_return_rate": 0.8271603177894246, "train/extr_return_raw_mag": 13.321430639787154, "train/extr_return_raw_max": 13.321430639787154, "train/extr_return_raw_mean": 3.7319447380123716, "train/extr_return_raw_min": -0.6672372402566852, "train/extr_return_raw_std": 3.064369700171731, "train/extr_reward_mag": 1.083740613677285, "train/extr_reward_max": 1.083740613677285, "train/extr_reward_mean": 0.06326742848437844, "train/extr_reward_min": -0.5844940308368567, "train/extr_reward_std": 0.24113911977320007, "train/image_loss_mean": 3.6352859609054797, "train/image_loss_std": 8.676046140266187, "train/model_loss_mean": 7.113806594501842, "train/model_loss_std": 12.731575734687574, "train/model_opt_grad_norm": 20.332542130441375, "train/model_opt_grad_steps": 671880.0, "train/model_opt_loss": 13119.288315281723, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1856.060606060606, "train/policy_entropy_mag": 2.7388619328990127, "train/policy_entropy_max": 2.7388619328990127, "train/policy_entropy_mean": 0.48172121743361157, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6983112200643077, "train/policy_logprob_mag": 7.438384272835472, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4813601528153275, "train/policy_logprob_min": -7.438384272835472, "train/policy_logprob_std": 1.0940012561552452, "train/policy_randomness_mag": 0.9666980721733787, "train/policy_randomness_max": 0.9666980721733787, "train/policy_randomness_mean": 0.17002645270390945, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24647321439150607, "train/post_ent_mag": 55.14392904801802, "train/post_ent_max": 55.14392904801802, "train/post_ent_mean": 39.87048495899547, "train/post_ent_min": 19.58837801037413, "train/post_ent_std": 5.813277959823608, "train/prior_ent_mag": 76.7074106389826, "train/prior_ent_max": 76.7074106389826, "train/prior_ent_mean": 45.51463017319188, "train/prior_ent_min": 27.188206296978574, "train/prior_ent_std": 8.013821291201042, "train/rep_loss_mean": 5.685903498620698, "train/rep_loss_std": 8.89245437853264, "train/reward_avg": 0.052141039152488564, "train/reward_loss_mean": 0.06696676090359688, "train/reward_loss_std": 0.2348219481381503, "train/reward_max_data": 1.0318181894042275, "train/reward_max_pred": 1.0333531842087254, "train/reward_neg_acc": 0.9922054256453658, "train/reward_neg_loss": 0.027827842062282743, "train/reward_pos_acc": 0.9891957902547085, "train/reward_pos_loss": 0.7211702574383129, "train/reward_pred": 0.05173242837190628, "train/reward_rate": 0.05650745738636364, "stats/sum_log_reward": 11.100000190734864, "stats/max_log_achievement_collect_coal": 1.2, "stats/max_log_achievement_collect_drink": 3.8, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8, "stats/max_log_achievement_collect_stone": 11.6, "stats/max_log_achievement_collect_wood": 10.6, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.2, "stats/max_log_achievement_eat_cow": 0.4, "stats/max_log_achievement_make_stone_pickaxe": 0.4, "stats/max_log_achievement_make_stone_sword": 0.6, "stats/max_log_achievement_make_wood_pickaxe": 1.2, "stats/max_log_achievement_make_wood_sword": 0.8, "stats/max_log_achievement_place_furnace": 1.4, "stats/max_log_achievement_place_plant": 1.6, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 2.6, "stats/max_log_achievement_wake_up": 1.8, "stats/mean_log_entropy": 0.4287777304649353, "replay/size": 1000000.0, "replay/inserts": 1326.0, "replay/samples": 10608.0, "replay/insert_wait_avg": 3.7938401350248634e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4057211566654626e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2358491420746, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0268707275390625, "timer/logger.write_frac": 8.949873113369284e-05, "timer/logger.write_avg": 0.0268707275390625, "timer/logger.write_min": 0.0268707275390625, "timer/logger.write_max": 0.0268707275390625, "timer/replay.add_count": 1326.0, "timer/replay.add_total": 0.2623410224914551, "timer/replay.add_frac": 0.000873783138293098, "timer/replay.add_avg": 0.00019784390836459658, "timer/replay.add_min": 7.271766662597656e-05, "timer/replay.add_max": 0.0011072158813476562, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1326.0, "timer/env.step_total": 14.576819896697998, "timer/env.step_frac": 0.04855123043551039, "timer/env.step_avg": 0.010993076845171944, "timer/env.step_min": 0.0023882389068603516, "timer/env.step_max": 1.4778351783752441, "timer/agent.policy_count": 1326.0, "timer/agent.policy_total": 9.880576372146606, "timer/agent.policy_frac": 0.032909382408464555, "timer/agent.policy_avg": 0.007451415061950684, "timer/agent.policy_min": 0.005585432052612305, "timer/agent.policy_max": 0.01795816421508789, "timer/dataset_count": 663.0, "timer/dataset_total": 0.06195402145385742, "timer/dataset_frac": 0.00020635117901773338, "timer/dataset_avg": 9.34449795684124e-05, "timer/dataset_min": 6.246566772460938e-05, "timer/dataset_max": 0.00020360946655273438, "timer/agent.train_count": 663.0, "timer/agent.train_total": 274.74404668807983, "timer/agent.train_frac": 0.9150940751184854, "timer/agent.train_avg": 0.4143952438734236, "timer/agent.train_min": 0.3708069324493408, "timer/agent.train_max": 0.4496579170227051, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.26066040992736816, "timer/agent.report_frac": 0.0008681854970757375, "timer/agent.report_avg": 0.26066040992736816, "timer/agent.report_min": 0.26066040992736816, "timer/agent.report_max": 0.26066040992736816, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.4164628283231355}
{"step": 1346629, "episode/length": 217.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.06422018348623854}
{"step": 1346824, "episode/length": 194.0, "episode/score": 15.100000023841858, "episode/sum_abs_reward": 17.30000001192093, "episode/reward_rate": 0.08717948717948718}
{"step": 1347076, "episode/length": 251.0, "episode/score": 12.099999979138374, "episode/sum_abs_reward": 15.100000023841858, "episode/reward_rate": 0.051587301587301584}
{"step": 1347397, "episode/length": 320.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.04672897196261682}
{"step": 1347550, "episode/length": 152.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.0718954248366013}
{"step": 1347646, "episode/length": 95.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.11458333333333333}
{"step": 1347874, "episode/length": 227.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.06578947368421052}
{"step": 1347935, "stats/sum_log_reward": 12.385714667184013, "stats/max_log_achievement_collect_coal": 1.4285714285714286, "stats/max_log_achievement_collect_drink": 2.2857142857142856, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 14.714285714285714, "stats/max_log_achievement_collect_wood": 12.428571428571429, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.2857142857142858, "stats/max_log_achievement_eat_cow": 0.42857142857142855, "stats/max_log_achievement_make_stone_pickaxe": 0.7142857142857143, "stats/max_log_achievement_make_stone_sword": 1.1428571428571428, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.8571428571428572, "stats/max_log_achievement_place_plant": 1.1428571428571428, "stats/max_log_achievement_place_stone": 2.5714285714285716, "stats/max_log_achievement_place_table": 4.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.42065291106700897, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.413611778846154, "train/action_min": 0.0, "train/action_std": 3.3046595646784858, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03467617725523619, "train/actor_opt_grad_steps": 673090.0, "train/actor_opt_loss": -11.097186750632066, "train/adv_mag": 0.40030605655450086, "train/adv_max": 0.34247178068527806, "train/adv_mean": 0.0021125715326399167, "train/adv_min": -0.3531305446074559, "train/adv_std": 0.04033888045411844, "train/cont_avg": 0.9949669471153846, "train/cont_loss_mean": 1.7774220744006295e-05, "train/cont_loss_std": 0.00046910559335716385, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 4.727182545039864e-05, "train/cont_pos_acc": 0.9999999834940984, "train/cont_pos_loss": 1.7629891206419975e-05, "train/cont_pred": 0.9949506402015686, "train/cont_rate": 0.9949669471153846, "train/dyn_loss_mean": 5.816108975043663, "train/dyn_loss_std": 8.96060911325308, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.835360572888301, "train/extr_critic_critic_opt_grad_steps": 673090.0, "train/extr_critic_critic_opt_loss": 14886.558022836538, "train/extr_critic_mag": 12.897931553767277, "train/extr_critic_max": 12.897931553767277, "train/extr_critic_mean": 3.8423240698300876, "train/extr_critic_min": -0.3497485931103046, "train/extr_critic_std": 3.1279837681696967, "train/extr_return_normed_mag": 1.3913684826630812, "train/extr_return_normed_max": 1.3913684826630812, "train/extr_return_normed_mean": 0.39813964504462024, "train/extr_return_normed_min": -0.06181559141438741, "train/extr_return_normed_std": 0.3197885125875473, "train/extr_return_rate": 0.8379567751517663, "train/extr_return_raw_mag": 13.668230438232422, "train/extr_return_raw_max": 13.668230438232422, "train/extr_return_raw_mean": 3.8631716618171104, "train/extr_return_raw_min": -0.6770356017809648, "train/extr_return_raw_std": 3.1570141425499547, "train/extr_reward_mag": 1.0939885249504677, "train/extr_reward_max": 1.0939885249504677, "train/extr_reward_mean": 0.06493720435179197, "train/extr_reward_min": -0.5861797314423781, "train/extr_reward_std": 0.24463105224646053, "train/image_loss_mean": 3.5503844517927905, "train/image_loss_std": 8.529806657937856, "train/model_loss_mean": 7.105893699939434, "train/model_loss_std": 12.66936798095703, "train/model_opt_grad_norm": 19.315884443429802, "train/model_opt_grad_steps": 672535.0, "train/model_opt_loss": 17764.734329927884, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7433122708247257, "train/policy_entropy_max": 2.7433122708247257, "train/policy_entropy_mean": 0.47699575974391056, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7021837124457726, "train/policy_logprob_mag": 7.438384254162128, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4775187382331261, "train/policy_logprob_min": -7.438384254162128, "train/policy_logprob_std": 1.0985802366183355, "train/policy_randomness_mag": 0.9682688465485206, "train/policy_randomness_max": 0.9682688465485206, "train/policy_randomness_mean": 0.16835857125429007, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2478400367956895, "train/post_ent_mag": 54.77258294912485, "train/post_ent_max": 54.77258294912485, "train/post_ent_mean": 39.73629338191106, "train/post_ent_min": 19.52807143284724, "train/post_ent_std": 5.771653079986573, "train/prior_ent_mag": 76.8003180870643, "train/prior_ent_max": 76.8003180870643, "train/prior_ent_mean": 45.473919736422026, "train/prior_ent_min": 26.953668036827676, "train/prior_ent_std": 8.003563550802378, "train/rep_loss_mean": 5.816108975043663, "train/rep_loss_std": 8.96060911325308, "train/reward_avg": 0.05236478339021022, "train/reward_loss_mean": 0.06582617988953224, "train/reward_loss_std": 0.22429072925677665, "train/reward_max_data": 1.0476923190630398, "train/reward_max_pred": 1.046823813365056, "train/reward_neg_acc": 0.9924355901204622, "train/reward_neg_loss": 0.026350884454754683, "train/reward_pos_acc": 0.9898384543565604, "train/reward_pos_loss": 0.7197646562869732, "train/reward_pred": 0.051961846076525174, "train/reward_rate": 0.05695612980769231, "replay/size": 1000000.0, "replay/inserts": 1310.0, "replay/samples": 10480.0, "replay/insert_wait_avg": 3.818519242847239e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4044173801218281e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1719973087311, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.034598588943481445, "timer/logger.write_frac": 0.00011526254698534159, "timer/logger.write_avg": 0.034598588943481445, "timer/logger.write_min": 0.034598588943481445, "timer/logger.write_max": 0.034598588943481445, "timer/replay.add_count": 1310.0, "timer/replay.add_total": 0.2773277759552002, "timer/replay.add_frac": 0.0009238962276350006, "timer/replay.add_avg": 0.0002117005923322139, "timer/replay.add_min": 6.842613220214844e-05, "timer/replay.add_max": 0.0020263195037841797, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1310.0, "timer/env.step_total": 17.86407160758972, "timer/env.step_frac": 0.05951278522898415, "timer/env.step_avg": 0.013636695883656276, "timer/env.step_min": 0.0025191307067871094, "timer/env.step_max": 1.7832415103912354, "timer/agent.policy_count": 1310.0, "timer/agent.policy_total": 9.943030834197998, "timer/agent.policy_frac": 0.03312444506264671, "timer/agent.policy_avg": 0.007590099873433586, "timer/agent.policy_min": 0.005593776702880859, "timer/agent.policy_max": 0.016125917434692383, "timer/dataset_count": 655.0, "timer/dataset_total": 0.06072354316711426, "timer/dataset_frac": 0.00020229582942961615, "timer/dataset_avg": 9.27076994917775e-05, "timer/dataset_min": 6.794929504394531e-05, "timer/dataset_max": 0.00018477439880371094, "timer/agent.train_count": 655.0, "timer/agent.train_total": 271.30116176605225, "timer/agent.train_frac": 0.9038190244209063, "timer/agent.train_avg": 0.4142002469710721, "timer/agent.train_min": 0.3651554584503174, "timer/agent.train_max": 0.4516913890838623, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2628951072692871, "timer/agent.report_frac": 0.0008758148982128264, "timer/agent.report_avg": 0.2628951072692871, "timer/agent.report_min": 0.2628951072692871, "timer/agent.report_max": 0.2628951072692871, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.364099453249617}
{"step": 1348136, "episode/length": 261.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 14.899999991059303, "episode/reward_rate": 0.05725190839694656}
{"step": 1348320, "episode/length": 183.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.07608695652173914}
{"step": 1348550, "episode/length": 229.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.06521739130434782}
{"step": 1348829, "episode/length": 278.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.053763440860215055}
{"step": 1349016, "episode/length": 186.0, "episode/score": 13.100000023841858, "episode/sum_abs_reward": 15.500000059604645, "episode/reward_rate": 0.0748663101604278}
{"step": 1349237, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.3883310171274035, "train/action_min": 0.0, "train/action_std": 3.3056593528160683, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.034881712926121855, "train/actor_opt_grad_steps": 673740.0, "train/actor_opt_loss": -11.206856157229497, "train/adv_mag": 0.40676298645826486, "train/adv_max": 0.31901708520375766, "train/adv_mean": 0.0016215561109744997, "train/adv_min": -0.3714642045589594, "train/adv_std": 0.0390502043068409, "train/cont_avg": 0.9955078125, "train/cont_loss_mean": 0.00025677683384012304, "train/cont_loss_std": 0.008140258115912066, "train/cont_neg_acc": 0.9899553582072258, "train/cont_neg_loss": 0.055095576361379586, "train/cont_pos_acc": 0.9999999807431148, "train/cont_pos_loss": 2.7413876702334725e-05, "train/cont_pred": 0.9955278479135954, "train/cont_rate": 0.9955078125, "train/dyn_loss_mean": 5.900822059924786, "train/dyn_loss_std": 9.106993755927453, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8635030792309688, "train/extr_critic_critic_opt_grad_steps": 673740.0, "train/extr_critic_critic_opt_loss": 15031.220147235577, "train/extr_critic_mag": 12.887165744488057, "train/extr_critic_max": 12.887165744488057, "train/extr_critic_mean": 3.662769651412964, "train/extr_critic_min": -0.3366293943845309, "train/extr_critic_std": 3.092489983485295, "train/extr_return_normed_mag": 1.366843768266531, "train/extr_return_normed_max": 1.366843768266531, "train/extr_return_normed_mean": 0.3765618539773501, "train/extr_return_normed_min": -0.056756567009366474, "train/extr_return_normed_std": 0.3123464563718209, "train/extr_return_rate": 0.8157903066048255, "train/extr_return_raw_mag": 13.578379176213192, "train/extr_return_raw_max": 13.578379176213192, "train/extr_return_raw_mean": 3.6789937239426833, "train/extr_return_raw_min": -0.6528831330629495, "train/extr_return_raw_std": 3.1224604313190167, "train/extr_reward_mag": 1.0917415435497577, "train/extr_reward_max": 1.0917415435497577, "train/extr_reward_mean": 0.06319948509335518, "train/extr_reward_min": -0.5858947295408983, "train/extr_reward_std": 0.24120749556101284, "train/image_loss_mean": 3.7640106017772967, "train/image_loss_std": 9.162617441324088, "train/model_loss_mean": 7.370969948401818, "train/model_loss_std": 13.362258470975435, "train/model_opt_grad_norm": 22.31781492966872, "train/model_opt_grad_steps": 673184.2615384615, "train/model_opt_loss": 22377.224384014422, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3038.4615384615386, "train/policy_entropy_mag": 2.7395718647883487, "train/policy_entropy_max": 2.7395718647883487, "train/policy_entropy_mean": 0.49713383729641253, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7137163831637456, "train/policy_logprob_mag": 7.438384254162128, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4954644785477565, "train/policy_logprob_min": -7.438384254162128, "train/policy_logprob_std": 1.1033679842948914, "train/policy_randomness_mag": 0.9669486476824833, "train/policy_randomness_max": 0.9669486476824833, "train/policy_randomness_mean": 0.1754664285824849, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.25191056178166316, "train/post_ent_mag": 55.14129973191481, "train/post_ent_max": 55.14129973191481, "train/post_ent_mean": 39.75131272536058, "train/post_ent_min": 19.064649156423716, "train/post_ent_std": 5.81547806079571, "train/prior_ent_mag": 76.74506037785457, "train/prior_ent_max": 76.74506037785457, "train/prior_ent_mean": 45.63022736769456, "train/prior_ent_min": 27.231389617919923, "train/prior_ent_std": 8.027149948706993, "train/rep_loss_mean": 5.900822059924786, "train/rep_loss_std": 9.106993755927453, "train/reward_avg": 0.05094951904163911, "train/reward_loss_mean": 0.06620939385432463, "train/reward_loss_std": 0.23545047205228073, "train/reward_max_data": 1.0415384714420026, "train/reward_max_pred": 1.0411664375892051, "train/reward_neg_acc": 0.9921812057495117, "train/reward_neg_loss": 0.027876132583388915, "train/reward_pos_acc": 0.9910139001332796, "train/reward_pos_loss": 0.7237441906562219, "train/reward_pred": 0.05065590570179316, "train/reward_rate": 0.05512319711538462, "stats/sum_log_reward": 13.500000190734863, "stats/max_log_achievement_collect_coal": 0.8, "stats/max_log_achievement_collect_drink": 1.6, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 15.4, "stats/max_log_achievement_collect_wood": 13.2, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.4, "stats/max_log_achievement_eat_cow": 0.4, "stats/max_log_achievement_make_stone_pickaxe": 1.2, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.2, "stats/max_log_achievement_place_plant": 1.8, "stats/max_log_achievement_place_stone": 2.4, "stats/max_log_achievement_place_table": 4.0, "stats/max_log_achievement_wake_up": 1.2, "stats/mean_log_entropy": 0.4790726274251938, "replay/size": 1000000.0, "replay/inserts": 1302.0, "replay/samples": 10416.0, "replay/insert_wait_avg": 3.799132304623746e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4120166385961202e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 299.9904074668884, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02329564094543457, "timer/logger.write_frac": 7.76546194998113e-05, "timer/logger.write_avg": 0.02329564094543457, "timer/logger.write_min": 0.02329564094543457, "timer/logger.write_max": 0.02329564094543457, "timer/replay.add_count": 1302.0, "timer/replay.add_total": 0.2752265930175781, "timer/replay.add_frac": 0.0009174513123322331, "timer/replay.add_avg": 0.00021138755224084341, "timer/replay.add_min": 7.534027099609375e-05, "timer/replay.add_max": 0.0019001960754394531, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1302.0, "timer/env.step_total": 17.00624704360962, "timer/env.step_frac": 0.05668930279207908, "timer/env.step_avg": 0.013061633674047326, "timer/env.step_min": 0.0026216506958007812, "timer/env.step_max": 2.651176929473877, "timer/agent.policy_count": 1302.0, "timer/agent.policy_total": 11.970339059829712, "timer/agent.policy_frac": 0.03990240608327099, "timer/agent.policy_avg": 0.00919380880171253, "timer/agent.policy_min": 0.005544424057006836, "timer/agent.policy_max": 1.4699041843414307, "timer/dataset_count": 651.0, "timer/dataset_total": 0.05977916717529297, "timer/dataset_frac": 0.00019927026227293992, "timer/dataset_avg": 9.182667768862207e-05, "timer/dataset_min": 6.413459777832031e-05, "timer/dataset_max": 0.00022172927856445312, "timer/agent.train_count": 651.0, "timer/agent.train_total": 270.02345061302185, "timer/agent.train_frac": 0.900106949729137, "timer/agent.train_avg": 0.41478256622584003, "timer/agent.train_min": 0.37227535247802734, "timer/agent.train_max": 0.4489908218383789, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21943187713623047, "timer/agent.report_frac": 0.0007314629790635901, "timer/agent.report_avg": 0.21943187713623047, "timer/agent.report_min": 0.21943187713623047, "timer/agent.report_max": 0.21943187713623047, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0006389617919921875, "timer/checkpoint.save_frac": 2.1299407450643673e-06, "timer/checkpoint.save_avg": 0.0006389617919921875, "timer/checkpoint.save_min": 0.0006389617919921875, "timer/checkpoint.save_max": 0.0006389617919921875, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4815678596496582, "timer/agent.save_frac": 0.004938717448201029, "timer/agent.save_avg": 1.4815678596496582, "timer/agent.save_min": 1.4815678596496582, "timer/agent.save_max": 1.4815678596496582, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.00010561943054199219, "timer/replay.save_frac": 3.520760261431025e-07, "timer/replay.save_avg": 0.00010561943054199219, "timer/replay.save_min": 0.00010561943054199219, "timer/replay.save_max": 0.00010561943054199219, "fps": 4.3400604880974925}
{"step": 1349330, "episode/length": 313.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.700000040233135, "episode/reward_rate": 0.041401273885350316}
{"step": 1349700, "episode/length": 369.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 14.900000013411045, "episode/reward_rate": 0.03783783783783784}
{"step": 1349889, "episode/length": 188.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.06878306878306878}
{"step": 1349950, "episode/length": 60.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.100000016391277, "episode/reward_rate": 0.09836065573770492}
{"step": 1350185, "episode/length": 234.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.059574468085106386}
{"step": 1350379, "episode/length": 193.0, "episode/score": 7.099999971687794, "episode/sum_abs_reward": 9.100000031292439, "episode/reward_rate": 0.04639175257731959}
{"step": 1350555, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.43850615530303, "train/action_min": 0.0, "train/action_std": 3.3141701221466064, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.035104455341669644, "train/actor_opt_grad_steps": 674395.0, "train/actor_opt_loss": -13.284908506003292, "train/adv_mag": 0.39286372110699164, "train/adv_max": 0.3037901385263963, "train/adv_mean": 0.0011428057760224678, "train/adv_min": -0.36371861127289856, "train/adv_std": 0.03968699045027747, "train/cont_avg": 0.9953835227272727, "train/cont_loss_mean": 1.697085164578587e-05, "train/cont_loss_std": 0.0005041594898840733, "train/cont_neg_acc": 0.9974747480768146, "train/cont_neg_loss": 0.0022292168957287473, "train/cont_pos_acc": 0.999999980131785, "train/cont_pos_loss": 4.354217426966346e-06, "train/cont_pred": 0.9953888690832889, "train/cont_rate": 0.9953835227272727, "train/dyn_loss_mean": 5.673585277615172, "train/dyn_loss_std": 8.959016482035318, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8559874187816273, "train/extr_critic_critic_opt_grad_steps": 674395.0, "train/extr_critic_critic_opt_loss": 14876.994288589016, "train/extr_critic_mag": 12.87953974983909, "train/extr_critic_max": 12.87953974983909, "train/extr_critic_mean": 3.8665478229522705, "train/extr_critic_min": -0.3572934576959321, "train/extr_critic_std": 3.107611262437069, "train/extr_return_normed_mag": 1.3729874365257495, "train/extr_return_normed_max": 1.3729874365257495, "train/extr_return_normed_mean": 0.39938033959179214, "train/extr_return_normed_min": -0.05986471254039894, "train/extr_return_normed_std": 0.31456163096608536, "train/extr_return_rate": 0.8377377734039769, "train/extr_return_raw_mag": 13.56436824798584, "train/extr_return_raw_max": 13.56436824798584, "train/extr_return_raw_mean": 3.87792490829121, "train/extr_return_raw_min": -0.6913099126382307, "train/extr_return_raw_std": 3.1299178311319062, "train/extr_reward_mag": 1.0884514866453228, "train/extr_reward_max": 1.0884514866453228, "train/extr_reward_mean": 0.0662936433359529, "train/extr_reward_min": -0.585252330158696, "train/extr_reward_std": 0.24671468499935034, "train/image_loss_mean": 3.4089474280675254, "train/image_loss_std": 9.118318731134588, "train/model_loss_mean": 6.878802350073149, "train/model_loss_std": 13.23321076595422, "train/model_opt_grad_norm": 21.355799906181566, "train/model_opt_grad_steps": 673838.9545454546, "train/model_opt_loss": 19928.426743016098, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2916.6666666666665, "train/policy_entropy_mag": 2.7342442057349463, "train/policy_entropy_max": 2.7342442057349463, "train/policy_entropy_mean": 0.4563152026949507, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6741864907019066, "train/policy_logprob_mag": 7.438384287285082, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.45651225248972577, "train/policy_logprob_min": -7.438384287285082, "train/policy_logprob_std": 1.0762594721534036, "train/policy_randomness_mag": 0.965068212964318, "train/policy_randomness_max": 0.965068212964318, "train/policy_randomness_mean": 0.16105924298365912, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2379582445278312, "train/post_ent_mag": 54.73287819371079, "train/post_ent_max": 54.73287819371079, "train/post_ent_mean": 39.610810308745414, "train/post_ent_min": 19.214882388259426, "train/post_ent_std": 5.685076677437984, "train/prior_ent_mag": 76.74290096398556, "train/prior_ent_max": 76.74290096398556, "train/prior_ent_mean": 45.27076865687515, "train/prior_ent_min": 27.148512204488117, "train/prior_ent_std": 7.948549855839122, "train/rep_loss_mean": 5.673585277615172, "train/rep_loss_std": 8.959016482035318, "train/reward_avg": 0.053123519558346634, "train/reward_loss_mean": 0.06568672282226158, "train/reward_loss_std": 0.2229039380044648, "train/reward_max_data": 1.0333333412806194, "train/reward_max_pred": 1.0288018602313418, "train/reward_neg_acc": 0.9919004250656475, "train/reward_neg_loss": 0.02633049300956455, "train/reward_pos_acc": 0.9917507298064955, "train/reward_pos_loss": 0.7118046590776155, "train/reward_pred": 0.05275115636036252, "train/reward_rate": 0.057306463068181816, "stats/sum_log_reward": 10.4333336353302, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 4.666666666666667, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 0.8333333333333334, "stats/max_log_achievement_collect_stone": 16.0, "stats/max_log_achievement_collect_wood": 11.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 0.3333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.1666666666666665, "stats/max_log_achievement_place_plant": 0.8333333333333334, "stats/max_log_achievement_place_stone": 2.5, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.45880266030629474, "replay/size": 1000000.0, "replay/inserts": 1318.0, "replay/samples": 10544.0, "replay/insert_wait_avg": 3.8065570258225947e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4161756078462499e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1983742713928, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.038687944412231445, "timer/logger.write_frac": 0.00012887459669337119, "timer/logger.write_avg": 0.038687944412231445, "timer/logger.write_min": 0.038687944412231445, "timer/logger.write_max": 0.038687944412231445, "timer/replay.add_count": 1318.0, "timer/replay.add_total": 0.2689938545227051, "timer/replay.add_frac": 0.0008960536684303378, "timer/replay.add_avg": 0.00020409245411434377, "timer/replay.add_min": 7.009506225585938e-05, "timer/replay.add_max": 0.0014007091522216797, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1318.0, "timer/env.step_total": 16.08630919456482, "timer/env.step_frac": 0.053585597302475974, "timer/env.step_avg": 0.012205090435936889, "timer/env.step_min": 0.0026412010192871094, "timer/env.step_max": 1.4723834991455078, "timer/agent.policy_count": 1318.0, "timer/agent.policy_total": 10.095124006271362, "timer/agent.policy_frac": 0.03362817680399867, "timer/agent.policy_avg": 0.007659426408400123, "timer/agent.policy_min": 0.005494117736816406, "timer/agent.policy_max": 0.01871800422668457, "timer/dataset_count": 659.0, "timer/dataset_total": 0.061547279357910156, "timer/dataset_frac": 0.00020502202754192348, "timer/dataset_avg": 9.339496108939326e-05, "timer/dataset_min": 6.67572021484375e-05, "timer/dataset_max": 0.00018525123596191406, "timer/agent.train_count": 659.0, "timer/agent.train_total": 273.0031855106354, "timer/agent.train_frac": 0.9094092736952274, "timer/agent.train_avg": 0.41426887027410525, "timer/agent.train_min": 0.36606836318969727, "timer/agent.train_max": 0.45194149017333984, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21817803382873535, "timer/agent.report_frac": 0.0007267795315623282, "timer/agent.report_avg": 0.21817803382873535, "timer/agent.report_min": 0.21817803382873535, "timer/agent.report_max": 0.21817803382873535, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.390347178546051}
{"step": 1350722, "episode/length": 342.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.500000037252903, "episode/reward_rate": 0.043731778425655975}
{"step": 1350918, "episode/length": 195.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.07142857142857142}
{"step": 1351147, "episode/length": 228.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.05240174672489083}
{"step": 1351338, "episode/length": 190.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.06282722513089005}
{"step": 1351530, "episode/length": 191.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.07291666666666667}
{"step": 1351877, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.485618822502367, "train/action_min": 0.0, "train/action_std": 3.418958747025692, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03466594628425258, "train/actor_opt_grad_steps": 675055.0, "train/actor_opt_loss": -12.177171921639731, "train/adv_mag": 0.40000429072163324, "train/adv_max": 0.3234017220410434, "train/adv_mean": 0.0014356909121929537, "train/adv_min": -0.35449214776357013, "train/adv_std": 0.03904059300707145, "train/cont_avg": 0.9955462831439394, "train/cont_loss_mean": 1.9373086521721746e-05, "train/cont_loss_std": 0.000541148695254268, "train/cont_neg_acc": 0.9974747480768146, "train/cont_neg_loss": 0.002167873836078113, "train/cont_pos_acc": 0.9999999810348857, "train/cont_pos_loss": 6.722661180490239e-06, "train/cont_pred": 0.995548278093338, "train/cont_rate": 0.9955462831439394, "train/dyn_loss_mean": 5.975053071975708, "train/dyn_loss_std": 8.998353307897395, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8358804791262655, "train/extr_critic_critic_opt_grad_steps": 675055.0, "train/extr_critic_critic_opt_loss": 14839.27783203125, "train/extr_critic_mag": 12.867199724370783, "train/extr_critic_max": 12.867199724370783, "train/extr_critic_mean": 3.818845237746383, "train/extr_critic_min": -0.41329949191122345, "train/extr_critic_std": 3.134652943322153, "train/extr_return_normed_mag": 1.3829030268120044, "train/extr_return_normed_max": 1.3829030268120044, "train/extr_return_normed_mean": 0.3954297335761966, "train/extr_return_normed_min": -0.06006685731876077, "train/extr_return_normed_std": 0.3174967368443807, "train/extr_return_rate": 0.8198528655550696, "train/extr_return_raw_mag": 13.665191982731674, "train/extr_return_raw_max": 13.665191982731674, "train/extr_return_raw_mean": 3.8331240487821177, "train/extr_return_raw_min": -0.7021172222766009, "train/extr_return_raw_std": 3.1612953055988657, "train/extr_reward_mag": 1.0809699333075322, "train/extr_reward_max": 1.0809699333075322, "train/extr_reward_mean": 0.06543103029782121, "train/extr_reward_min": -0.5821767070076682, "train/extr_reward_std": 0.24498311091553082, "train/image_loss_mean": 3.5928600159558384, "train/image_loss_std": 8.715294469486583, "train/model_loss_mean": 7.244688308600224, "train/model_loss_std": 12.8704433296666, "train/model_opt_grad_norm": 20.706163146279074, "train/model_opt_grad_steps": 674496.6515151515, "train/model_opt_loss": 8702.250628847065, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1202.6515151515152, "train/policy_entropy_mag": 2.7434195280075073, "train/policy_entropy_max": 2.7434195280075073, "train/policy_entropy_mean": 0.4923516096490802, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7124705535895897, "train/policy_logprob_mag": 7.438384251161055, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.49203967641700397, "train/policy_logprob_min": -7.438384251161055, "train/policy_logprob_std": 1.1028694140188622, "train/policy_randomness_mag": 0.9683067012916912, "train/policy_randomness_max": 0.9683067012916912, "train/policy_randomness_mean": 0.17377851203535544, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2514708369518771, "train/post_ent_mag": 54.72079779885032, "train/post_ent_max": 54.72079779885032, "train/post_ent_mean": 39.509692567767516, "train/post_ent_min": 19.491040822231408, "train/post_ent_std": 5.695195125811027, "train/prior_ent_mag": 76.685258807558, "train/prior_ent_max": 76.685258807558, "train/prior_ent_mean": 45.402233990755946, "train/prior_ent_min": 27.05229551141912, "train/prior_ent_std": 8.058290698311545, "train/rep_loss_mean": 5.975053071975708, "train/rep_loss_std": 8.998353307897395, "train/reward_avg": 0.05388997382286823, "train/reward_loss_mean": 0.06677708972358343, "train/reward_loss_std": 0.22935695539821277, "train/reward_max_data": 1.04242425253897, "train/reward_max_pred": 1.0421020533099319, "train/reward_neg_acc": 0.9921174636392882, "train/reward_neg_loss": 0.026778265269416752, "train/reward_pos_acc": 0.9910399733167706, "train/reward_pos_loss": 0.7165871885689822, "train/reward_pred": 0.05358375213814504, "train/reward_rate": 0.05795750473484849, "stats/sum_log_reward": 12.500000381469727, "stats/max_log_achievement_collect_coal": 1.2, "stats/max_log_achievement_collect_drink": 2.6, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.2, "stats/max_log_achievement_collect_stone": 16.2, "stats/max_log_achievement_collect_wood": 13.6, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.4, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.2, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.2, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 3.6, "stats/max_log_achievement_place_table": 4.0, "stats/max_log_achievement_wake_up": 1.4, "stats/mean_log_entropy": 0.4861244440078735, "replay/size": 1000000.0, "replay/inserts": 1322.0, "replay/samples": 10576.0, "replay/insert_wait_avg": 3.7623966696042338e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4286178323396575e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2036621570587, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02759575843811035, "timer/logger.write_frac": 9.192345702855874e-05, "timer/logger.write_avg": 0.02759575843811035, "timer/logger.write_min": 0.02759575843811035, "timer/logger.write_max": 0.02759575843811035, "timer/replay.add_count": 1322.0, "timer/replay.add_total": 0.2695791721343994, "timer/replay.add_frac": 0.0008979876201289065, "timer/replay.add_avg": 0.00020391767937549124, "timer/replay.add_min": 7.104873657226562e-05, "timer/replay.add_max": 0.0018155574798583984, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1322.0, "timer/env.step_total": 15.129170179367065, "timer/env.step_frac": 0.050396354497007696, "timer/env.step_avg": 0.01144415293446828, "timer/env.step_min": 0.002730846405029297, "timer/env.step_max": 1.5611724853515625, "timer/agent.policy_count": 1322.0, "timer/agent.policy_total": 9.954076290130615, "timer/agent.policy_frac": 0.03315774437462692, "timer/agent.policy_avg": 0.007529558464546607, "timer/agent.policy_min": 0.0055119991302490234, "timer/agent.policy_max": 0.017621755599975586, "timer/dataset_count": 661.0, "timer/dataset_total": 0.061044931411743164, "timer/dataset_frac": 0.0002033450590612917, "timer/dataset_avg": 9.235239245346923e-05, "timer/dataset_min": 6.4849853515625e-05, "timer/dataset_max": 0.0001552104949951172, "timer/agent.train_count": 661.0, "timer/agent.train_total": 274.12291169166565, "timer/agent.train_frac": 0.9131231435419722, "timer/agent.train_avg": 0.4147093974155305, "timer/agent.train_min": 0.3698582649230957, "timer/agent.train_max": 0.4531726837158203, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2185380458831787, "timer/agent.report_frac": 0.000727965955887791, "timer/agent.report_avg": 0.2185380458831787, "timer/agent.report_min": 0.2185380458831787, "timer/agent.report_max": 0.2185380458831787, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.403589287604178}
{"step": 1352012, "episode/length": 481.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 18.500000037252903, "episode/reward_rate": 0.03319502074688797}
{"step": 1352195, "episode/length": 182.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.06557377049180328}
{"step": 1352416, "episode/length": 220.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.700000002980232, "episode/reward_rate": 0.07239819004524888}
{"step": 1352670, "episode/length": 253.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 11.700000002980232, "episode/reward_rate": 0.04330708661417323}
{"step": 1352892, "episode/length": 221.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.06306306306306306}
{"step": 1353181, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.486678614760891, "train/action_min": 0.0, "train/action_std": 3.371987158601934, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.034654136577790436, "train/actor_opt_grad_steps": 675715.0, "train/actor_opt_loss": -11.974538354259549, "train/adv_mag": 0.39876030498381815, "train/adv_max": 0.334016953228098, "train/adv_mean": 0.0018792671093747645, "train/adv_min": -0.34717849642038345, "train/adv_std": 0.03997934524985877, "train/cont_avg": 0.9953539299242424, "train/cont_loss_mean": 7.08378621162138e-05, "train/cont_loss_std": 0.002255791254439266, "train/cont_neg_acc": 0.9955128211241502, "train/cont_neg_loss": 0.009395196359864227, "train/cont_pos_acc": 0.9999999900658926, "train/cont_pos_loss": 5.646745849628415e-06, "train/cont_pred": 0.9953743716080984, "train/cont_rate": 0.9953539299242424, "train/dyn_loss_mean": 5.74720683964816, "train/dyn_loss_std": 8.975983417395389, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8690529041218035, "train/extr_critic_critic_opt_grad_steps": 675715.0, "train/extr_critic_critic_opt_loss": 14864.320445667614, "train/extr_critic_mag": 12.932287534077963, "train/extr_critic_max": 12.932287534077963, "train/extr_critic_mean": 3.8375836683042124, "train/extr_critic_min": -0.35940576141530817, "train/extr_critic_std": 3.129091649344473, "train/extr_return_normed_mag": 1.3825130607142593, "train/extr_return_normed_max": 1.3825130607142593, "train/extr_return_normed_mean": 0.3970626533934564, "train/extr_return_normed_min": -0.05922655910817963, "train/extr_return_normed_std": 0.31923928811694635, "train/extr_return_rate": 0.8271376300941814, "train/extr_return_raw_mag": 13.596911054669004, "train/extr_return_raw_max": 13.596911054669004, "train/extr_return_raw_mean": 3.856118762131893, "train/extr_return_raw_min": -0.6538484439705358, "train/extr_return_raw_std": 3.1557392459927183, "train/extr_reward_mag": 1.091298688541759, "train/extr_reward_max": 1.091298688541759, "train/extr_reward_mean": 0.06543398970230059, "train/extr_reward_min": -0.5653099435748477, "train/extr_reward_std": 0.2448179220611399, "train/image_loss_mean": 3.6005867502906104, "train/image_loss_std": 8.98145932862253, "train/model_loss_mean": 7.116223205219615, "train/model_loss_std": 13.077247084993305, "train/model_opt_grad_norm": 18.67849925070098, "train/model_opt_grad_steps": 675156.0, "train/model_opt_loss": 4950.2288448449335, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 691.2878787878788, "train/policy_entropy_mag": 2.7475160107468115, "train/policy_entropy_max": 2.7475160107468115, "train/policy_entropy_mean": 0.49202308103893744, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7108744581540426, "train/policy_logprob_mag": 7.438384251161055, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4928188640059847, "train/policy_logprob_min": -7.438384251161055, "train/policy_logprob_std": 1.1066273441820433, "train/policy_randomness_mag": 0.9697525763150417, "train/policy_randomness_max": 0.9697525763150417, "train/policy_randomness_mean": 0.17366255594022345, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.25090748884461145, "train/post_ent_mag": 54.96448071797689, "train/post_ent_max": 54.96448071797689, "train/post_ent_mean": 39.682270223444156, "train/post_ent_min": 19.65938511761752, "train/post_ent_std": 5.845735159787265, "train/prior_ent_mag": 76.75158275257458, "train/prior_ent_max": 76.75158275257458, "train/prior_ent_mean": 45.39282885464755, "train/prior_ent_min": 27.158119808543812, "train/prior_ent_std": 8.094306454514012, "train/rep_loss_mean": 5.74720683964816, "train/rep_loss_std": 8.975983417395389, "train/reward_avg": 0.05429095611201994, "train/reward_loss_mean": 0.0672414864441662, "train/reward_loss_std": 0.23545286601239984, "train/reward_max_data": 1.0333333412806194, "train/reward_max_pred": 1.0296946113759822, "train/reward_neg_acc": 0.991511735049161, "train/reward_neg_loss": 0.027036032258448275, "train/reward_pos_acc": 0.992366710395524, "train/reward_pos_loss": 0.7157580066810955, "train/reward_pred": 0.05390512099433126, "train/reward_rate": 0.05837180397727273, "stats/sum_log_reward": 12.500000190734863, "stats/max_log_achievement_collect_coal": 0.8, "stats/max_log_achievement_collect_drink": 5.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.8, "stats/max_log_achievement_collect_stone": 15.6, "stats/max_log_achievement_collect_wood": 12.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.8, "stats/max_log_achievement_eat_cow": 0.6, "stats/max_log_achievement_make_stone_pickaxe": 0.6, "stats/max_log_achievement_make_stone_sword": 0.8, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.4, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 2.6, "stats/max_log_achievement_place_table": 2.6, "stats/max_log_achievement_wake_up": 1.4, "stats/mean_log_entropy": 0.5015823006629944, "replay/size": 1000000.0, "replay/inserts": 1304.0, "replay/samples": 10432.0, "replay/insert_wait_avg": 3.73827167815226e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4075426601924779e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3484342098236, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03227424621582031, "timer/logger.write_frac": 0.00010745601621240183, "timer/logger.write_avg": 0.03227424621582031, "timer/logger.write_min": 0.03227424621582031, "timer/logger.write_max": 0.03227424621582031, "timer/replay.add_count": 1304.0, "timer/replay.add_total": 0.2703678607940674, "timer/replay.add_frac": 0.0009001806901553155, "timer/replay.add_avg": 0.00020733731655986763, "timer/replay.add_min": 7.677078247070312e-05, "timer/replay.add_max": 0.001453399658203125, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1304.0, "timer/env.step_total": 14.939155578613281, "timer/env.step_frac": 0.04973941554886475, "timer/env.step_avg": 0.0114564076523108, "timer/env.step_min": 0.002390146255493164, "timer/env.step_max": 1.7424976825714111, "timer/agent.policy_count": 1304.0, "timer/agent.policy_total": 14.597615957260132, "timer/agent.policy_frac": 0.048602270878037035, "timer/agent.policy_avg": 0.01119449076477004, "timer/agent.policy_min": 0.00563359260559082, "timer/agent.policy_max": 3.2260239124298096, "timer/dataset_count": 652.0, "timer/dataset_total": 0.06056714057922363, "timer/dataset_frac": 0.00020165625547064245, "timer/dataset_avg": 9.289438739144729e-05, "timer/dataset_min": 6.699562072753906e-05, "timer/dataset_max": 0.00020194053649902344, "timer/agent.train_count": 652.0, "timer/agent.train_total": 269.8045129776001, "timer/agent.train_frac": 0.8983050425663764, "timer/agent.train_avg": 0.41381060272638054, "timer/agent.train_min": 0.3658583164215088, "timer/agent.train_max": 0.4648294448852539, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2185046672821045, "timer/agent.report_frac": 0.0007275039334130738, "timer/agent.report_avg": 0.2185046672821045, "timer/agent.report_min": 0.2185046672821045, "timer/agent.report_max": 0.2185046672821045, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.001068115234375, "timer/checkpoint.save_frac": 3.5562537130751745e-06, "timer/checkpoint.save_avg": 0.001068115234375, "timer/checkpoint.save_min": 0.001068115234375, "timer/checkpoint.save_max": 0.001068115234375, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.5151331424713135, "timer/agent.save_frac": 0.005044584788522122, "timer/agent.save_avg": 1.5151331424713135, "timer/agent.save_min": 1.5151331424713135, "timer/agent.save_max": 1.5151331424713135, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.0001385211944580078, "timer/replay.save_frac": 4.612016534144367e-07, "timer/replay.save_avg": 0.0001385211944580078, "timer/replay.save_min": 0.0001385211944580078, "timer/replay.save_max": 0.0001385211944580078, "fps": 4.341552414648107}
{"step": 1353414, "episode/length": 521.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 13.300000049173832, "episode/reward_rate": 0.019157088122605363}
{"step": 1353674, "episode/length": 259.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 17.900000013411045, "episode/reward_rate": 0.06538461538461539}
{"step": 1353843, "episode/length": 168.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.07100591715976332}
{"step": 1354065, "episode/length": 221.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.05855855855855856}
{"step": 1354243, "episode/length": 177.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.056179775280898875}
{"step": 1354327, "episode/length": 83.0, "episode/score": 8.100000008940697, "episode/sum_abs_reward": 9.899999991059303, "episode/reward_rate": 0.11904761904761904}
{"step": 1354499, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.494421756628788, "train/action_min": 0.0, "train/action_std": 3.3850765047651348, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03271242713725025, "train/actor_opt_grad_steps": 676375.0, "train/actor_opt_loss": -12.491407519037073, "train/adv_mag": 0.40689723374265613, "train/adv_max": 0.33531205356121063, "train/adv_mean": 0.0013695538310099491, "train/adv_min": -0.36404901043032156, "train/adv_std": 0.038629344354073204, "train/cont_avg": 0.9952651515151515, "train/cont_loss_mean": 5.7400348673513e-06, "train/cont_loss_std": 0.00013747463632260846, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00011961418310241055, "train/cont_pos_acc": 0.9999999738100803, "train/cont_pos_loss": 5.386202222766632e-06, "train/cont_pred": 0.9952602982521057, "train/cont_rate": 0.9952651515151515, "train/dyn_loss_mean": 5.766736406268495, "train/dyn_loss_std": 9.046570460001627, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8405315785697012, "train/extr_critic_critic_opt_grad_steps": 676375.0, "train/extr_critic_critic_opt_loss": 14844.521173650568, "train/extr_critic_mag": 12.919339815775553, "train/extr_critic_max": 12.919339815775553, "train/extr_critic_mean": 3.630072676774227, "train/extr_critic_min": -0.38952234297087696, "train/extr_critic_std": 3.124587991020896, "train/extr_return_normed_mag": 1.368764806877483, "train/extr_return_normed_max": 1.368764806877483, "train/extr_return_normed_mean": 0.3745896592736244, "train/extr_return_normed_min": -0.06337996544034193, "train/extr_return_normed_std": 0.31745381540421286, "train/extr_return_rate": 0.8109937707583109, "train/extr_return_raw_mag": 13.495745196486965, "train/extr_return_raw_max": 13.495745196486965, "train/extr_return_raw_mean": 3.643650286125414, "train/extr_return_raw_min": -0.6973943710327148, "train/extr_return_raw_std": 3.1462411880493164, "train/extr_reward_mag": 1.092153043457956, "train/extr_reward_max": 1.092153043457956, "train/extr_reward_mean": 0.0626954599989183, "train/extr_reward_min": -0.5710921287536621, "train/extr_reward_std": 0.24065529600237356, "train/image_loss_mean": 3.7096002716006655, "train/image_loss_std": 9.0872696240743, "train/model_loss_mean": 7.235922054810957, "train/model_loss_std": 13.205810532425389, "train/model_opt_grad_norm": 19.896117239287406, "train/model_opt_grad_steps": 675816.0, "train/model_opt_loss": 9044.902632279829, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.7534110762856225, "train/policy_entropy_max": 2.7534110762856225, "train/policy_entropy_mean": 0.5058452446352352, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7264138866554607, "train/policy_logprob_mag": 7.43838425838586, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.5068934523698055, "train/policy_logprob_min": -7.43838425838586, "train/policy_logprob_std": 1.116881785067645, "train/policy_randomness_mag": 0.971833277832378, "train/policy_randomness_max": 0.971833277832378, "train/policy_randomness_mean": 0.17854117319890947, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.25639221546324814, "train/post_ent_mag": 55.317318078243375, "train/post_ent_max": 55.317318078243375, "train/post_ent_mean": 39.9059632619222, "train/post_ent_min": 19.28226629892985, "train/post_ent_std": 5.837396412184744, "train/prior_ent_mag": 76.78384202899355, "train/prior_ent_max": 76.78384202899355, "train/prior_ent_mean": 45.640432473384976, "train/prior_ent_min": 27.41777974909002, "train/prior_ent_std": 8.033426292014845, "train/rep_loss_mean": 5.766736406268495, "train/rep_loss_std": 9.046570460001627, "train/reward_avg": 0.05163352270469521, "train/reward_loss_mean": 0.06627423090465141, "train/reward_loss_std": 0.2284421744671735, "train/reward_max_data": 1.0409091006625781, "train/reward_max_pred": 1.0396653088656338, "train/reward_neg_acc": 0.9920160445300016, "train/reward_neg_loss": 0.027804854424726782, "train/reward_pos_acc": 0.9906592820629929, "train/reward_pos_loss": 0.7144882588675527, "train/reward_pred": 0.051411845297975975, "train/reward_rate": 0.055974786931818184, "stats/sum_log_reward": 10.766667048136393, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 4.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 10.0, "stats/max_log_achievement_collect_wood": 14.0, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.8333333333333333, "stats/max_log_achievement_eat_cow": 0.6666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.3333333333333333, "stats/max_log_achievement_make_stone_sword": 0.5, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.1666666666666667, "stats/max_log_achievement_place_plant": 1.1666666666666667, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 2.8333333333333335, "stats/max_log_achievement_wake_up": 1.8333333333333333, "stats/mean_log_entropy": 0.43733548869689304, "replay/size": 1000000.0, "replay/inserts": 1318.0, "replay/samples": 10544.0, "replay/insert_wait_avg": 3.730762348551309e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.414479724554082e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.42418789863586, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02964305877685547, "timer/logger.write_frac": 9.86706795621168e-05, "timer/logger.write_avg": 0.02964305877685547, "timer/logger.write_min": 0.02964305877685547, "timer/logger.write_max": 0.02964305877685547, "timer/replay.add_count": 1318.0, "timer/replay.add_total": 0.2714192867279053, "timer/replay.add_frac": 0.0009034535089414407, "timer/replay.add_avg": 0.00020593269099234088, "timer/replay.add_min": 7.653236389160156e-05, "timer/replay.add_max": 0.003939151763916016, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1318.0, "timer/env.step_total": 16.04309630393982, "timer/env.step_frac": 0.05340148014098257, "timer/env.step_avg": 0.012172303720743414, "timer/env.step_min": 0.002641439437866211, "timer/env.step_max": 1.7037782669067383, "timer/agent.policy_count": 1318.0, "timer/agent.policy_total": 9.902286291122437, "timer/agent.policy_frac": 0.03296101542417584, "timer/agent.policy_avg": 0.007513115547133867, "timer/agent.policy_min": 0.005463600158691406, "timer/agent.policy_max": 0.017040729522705078, "timer/dataset_count": 659.0, "timer/dataset_total": 0.0615997314453125, "timer/dataset_frac": 0.00020504251630396836, "timer/dataset_avg": 9.3474554545239e-05, "timer/dataset_min": 6.437301635742188e-05, "timer/dataset_max": 0.0001952648162841797, "timer/agent.train_count": 659.0, "timer/agent.train_total": 273.4743404388428, "timer/agent.train_frac": 0.9102940157771648, "timer/agent.train_avg": 0.4149838246416431, "timer/agent.train_min": 0.37246108055114746, "timer/agent.train_max": 0.44913268089294434, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2166440486907959, "timer/agent.report_frac": 0.0007211271842195754, "timer/agent.report_avg": 0.2166440486907959, "timer/agent.report_min": 0.2166440486907959, "timer/agent.report_max": 0.2166440486907959, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.387070040159255}
{"step": 1354598, "episode/length": 270.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.30000003427267, "episode/reward_rate": 0.04797047970479705}
{"step": 1354936, "episode/length": 337.0, "episode/score": 13.099999979138374, "episode/sum_abs_reward": 16.30000004172325, "episode/reward_rate": 0.04142011834319527}
{"step": 1355146, "episode/length": 209.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 15.900000013411045, "episode/reward_rate": 0.07142857142857142}
{"step": 1355378, "episode/length": 231.0, "episode/score": 13.099999979138374, "episode/sum_abs_reward": 14.900000020861626, "episode/reward_rate": 0.0603448275862069}
{"step": 1355629, "episode/length": 250.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 10.500000014901161, "episode/reward_rate": 0.035856573705179286}
{"step": 1355821, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.484239982836174, "train/action_min": 0.0, "train/action_std": 3.3015858404564136, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03459346624599262, "train/actor_opt_grad_steps": 677035.0, "train/actor_opt_loss": -10.70084032867894, "train/adv_mag": 0.4155300627603675, "train/adv_max": 0.35310904184977215, "train/adv_mean": 0.0019879278084069733, "train/adv_min": -0.3324672281742096, "train/adv_std": 0.039585300467231056, "train/cont_avg": 0.9953687263257576, "train/cont_loss_mean": 6.272180185276559e-06, "train/cont_loss_std": 0.0001750510221715341, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 8.188096068988234e-05, "train/cont_pos_acc": 0.9999999864534899, "train/cont_pos_loss": 5.805028854324794e-06, "train/cont_pred": 0.9953636770898645, "train/cont_rate": 0.9953687263257576, "train/dyn_loss_mean": 5.803290721141931, "train/dyn_loss_std": 8.945921529423106, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8703305694189939, "train/extr_critic_critic_opt_grad_steps": 677035.0, "train/extr_critic_critic_opt_loss": 14992.06875887784, "train/extr_critic_mag": 12.817912983171867, "train/extr_critic_max": 12.817912983171867, "train/extr_critic_mean": 3.7840621254660864, "train/extr_critic_min": -0.3992336265968554, "train/extr_critic_std": 3.1270781285835034, "train/extr_return_normed_mag": 1.3722849108956077, "train/extr_return_normed_max": 1.3722849108956077, "train/extr_return_normed_mean": 0.3918655627604687, "train/extr_return_normed_min": -0.06387945467775519, "train/extr_return_normed_std": 0.3178779936649583, "train/extr_return_rate": 0.8242385233893539, "train/extr_return_raw_mag": 13.541853803576846, "train/extr_return_raw_max": 13.541853803576846, "train/extr_return_raw_mean": 3.8038140788222803, "train/extr_return_raw_min": -0.7237697591384252, "train/extr_return_raw_std": 3.1576156146598584, "train/extr_reward_mag": 1.09168520118251, "train/extr_reward_max": 1.09168520118251, "train/extr_reward_mean": 0.0657558844735225, "train/extr_reward_min": -0.5992363185593577, "train/extr_reward_std": 0.24551910974762656, "train/image_loss_mean": 3.5557565038854424, "train/image_loss_std": 8.946315664233584, "train/model_loss_mean": 7.106239932956117, "train/model_loss_std": 13.007099267208215, "train/model_opt_grad_norm": 19.777211463812627, "train/model_opt_grad_steps": 676476.0, "train/model_opt_loss": 14051.957083037405, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1988.6363636363637, "train/policy_entropy_mag": 2.7469204555858266, "train/policy_entropy_max": 2.7469204555858266, "train/policy_entropy_mean": 0.4893378321871613, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.703554860570214, "train/policy_logprob_mag": 7.438384301734693, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.48942207838549756, "train/policy_logprob_min": -7.438384301734693, "train/policy_logprob_std": 1.100353335792368, "train/policy_randomness_mag": 0.9695423742135366, "train/policy_randomness_max": 0.9695423742135366, "train/policy_randomness_mean": 0.17271478135477414, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24832399437824884, "train/post_ent_mag": 55.31454970619895, "train/post_ent_max": 55.31454970619895, "train/post_ent_mean": 39.709546407063804, "train/post_ent_min": 19.568096392082445, "train/post_ent_std": 5.8743907755071465, "train/prior_ent_mag": 76.6864426352761, "train/prior_ent_max": 76.6864426352761, "train/prior_ent_mean": 45.4776896274451, "train/prior_ent_min": 27.02530511220296, "train/prior_ent_std": 8.064597375465162, "train/rep_loss_mean": 5.803290721141931, "train/rep_loss_std": 8.945921529423106, "train/reward_avg": 0.05617749730520176, "train/reward_loss_mean": 0.06850277542164832, "train/reward_loss_std": 0.22591413286599246, "train/reward_max_data": 1.04242425253897, "train/reward_max_pred": 1.0392038533181855, "train/reward_neg_acc": 0.9915043558135177, "train/reward_neg_loss": 0.027063673997128553, "train/reward_pos_acc": 0.9918541483806841, "train/reward_pos_loss": 0.7135767629652312, "train/reward_pred": 0.055851406954003105, "train/reward_rate": 0.060369318181818184, "stats/sum_log_reward": 11.899999809265136, "stats/max_log_achievement_collect_coal": 1.4, "stats/max_log_achievement_collect_drink": 3.6, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 15.8, "stats/max_log_achievement_collect_wood": 9.8, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.6, "stats/max_log_achievement_eat_cow": 0.2, "stats/max_log_achievement_make_stone_pickaxe": 1.2, "stats/max_log_achievement_make_stone_sword": 0.8, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.4, "stats/max_log_achievement_place_plant": 1.8, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 2.6, "stats/max_log_achievement_wake_up": 1.8, "stats/mean_log_entropy": 0.7367427349090576, "replay/size": 1000000.0, "replay/inserts": 1322.0, "replay/samples": 10576.0, "replay/insert_wait_avg": 3.9072152165169075e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4058264950219875e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.08123779296875, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03261971473693848, "timer/logger.write_frac": 0.00010870294649825253, "timer/logger.write_avg": 0.03261971473693848, "timer/logger.write_min": 0.03261971473693848, "timer/logger.write_max": 0.03261971473693848, "timer/replay.add_count": 1322.0, "timer/replay.add_total": 0.27640342712402344, "timer/replay.add_frac": 0.0009210953312406655, "timer/replay.add_avg": 0.00020907974820274087, "timer/replay.add_min": 7.343292236328125e-05, "timer/replay.add_max": 0.001359701156616211, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1322.0, "timer/env.step_total": 14.890233278274536, "timer/env.step_frac": 0.04962067401410669, "timer/env.step_avg": 0.011263413977514777, "timer/env.step_min": 0.0024862289428710938, "timer/env.step_max": 1.4751181602478027, "timer/agent.policy_count": 1322.0, "timer/agent.policy_total": 10.069042205810547, "timer/agent.policy_frac": 0.033554387738020976, "timer/agent.policy_avg": 0.0076165220921411095, "timer/agent.policy_min": 0.005597114562988281, "timer/agent.policy_max": 0.015003681182861328, "timer/dataset_count": 661.0, "timer/dataset_total": 0.06265449523925781, "timer/dataset_frac": 0.000208791778186693, "timer/dataset_avg": 9.478743606544299e-05, "timer/dataset_min": 6.67572021484375e-05, "timer/dataset_max": 0.0001728534698486328, "timer/agent.train_count": 661.0, "timer/agent.train_total": 274.08322930336, "timer/agent.train_frac": 0.9133634322464864, "timer/agent.train_avg": 0.41464936354517395, "timer/agent.train_min": 0.36315011978149414, "timer/agent.train_max": 0.4541497230529785, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2301023006439209, "timer/agent.report_frac": 0.0007668000250074697, "timer/agent.report_avg": 0.2301023006439209, "timer/agent.report_min": 0.2301023006439209, "timer/agent.report_max": 0.2301023006439209, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.405411673985315}
{"step": 1355839, "episode/length": 209.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.06666666666666667}
{"step": 1356107, "episode/length": 267.0, "episode/score": 15.100000008940697, "episode/sum_abs_reward": 17.700000047683716, "episode/reward_rate": 0.05970149253731343}
{"step": 1356170, "episode/length": 62.0, "episode/score": 8.100000031292439, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.15873015873015872}
{"step": 1356384, "episode/length": 213.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.06542056074766354}
{"step": 1356628, "episode/length": 243.0, "episode/score": 14.100000023841858, "episode/sum_abs_reward": 16.500000059604645, "episode/reward_rate": 0.06147540983606557}
{"step": 1356832, "episode/length": 203.0, "episode/score": 14.099999979138374, "episode/sum_abs_reward": 16.30000002682209, "episode/reward_rate": 0.07352941176470588}
{"step": 1357016, "episode/length": 183.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.07065217391304347}
{"step": 1357113, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.472848892211914, "train/action_min": 0.0, "train/action_std": 3.333691544830799, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03449775907211006, "train/actor_opt_grad_steps": 677685.0, "train/actor_opt_loss": -13.225984197109938, "train/adv_mag": 0.39755583507940173, "train/adv_max": 0.3024383168667555, "train/adv_mean": 0.0011099184688418973, "train/adv_min": -0.36199635709635913, "train/adv_std": 0.03906421107240021, "train/cont_avg": 0.9951629638671875, "train/cont_loss_mean": 2.6321525245842636e-05, "train/cont_loss_std": 0.000806355352134247, "train/cont_neg_acc": 0.9982638889923692, "train/cont_neg_loss": 0.0020615445659388776, "train/cont_pos_acc": 0.9999999813735485, "train/cont_pos_loss": 8.329733851786258e-06, "train/cont_pred": 0.9951661145314574, "train/cont_rate": 0.9951629638671875, "train/dyn_loss_mean": 5.639649853110313, "train/dyn_loss_std": 8.97844985127449, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8607911206781864, "train/extr_critic_critic_opt_grad_steps": 677685.0, "train/extr_critic_critic_opt_loss": 14862.459014892578, "train/extr_critic_mag": 12.95414151251316, "train/extr_critic_max": 12.95414151251316, "train/extr_critic_mean": 3.7562465965747833, "train/extr_critic_min": -0.4097171239554882, "train/extr_critic_std": 3.1407653130590916, "train/extr_return_normed_mag": 1.3690574690699577, "train/extr_return_normed_max": 1.3690574690699577, "train/extr_return_normed_mean": 0.3868189351633191, "train/extr_return_normed_min": -0.0611950232705567, "train/extr_return_normed_std": 0.31664225785061717, "train/extr_return_rate": 0.8217875584959984, "train/extr_return_raw_mag": 13.587126180529594, "train/extr_return_raw_max": 13.587126180529594, "train/extr_return_raw_mean": 3.767353504896164, "train/extr_return_raw_min": -0.7124914885498583, "train/extr_return_raw_std": 3.166005227714777, "train/extr_reward_mag": 1.0920030698180199, "train/extr_reward_max": 1.0920030698180199, "train/extr_reward_mean": 0.06508572131861001, "train/extr_reward_min": -0.5807915087789297, "train/extr_reward_std": 0.24458119133487344, "train/image_loss_mean": 3.5250298380851746, "train/image_loss_std": 8.744985356926918, "train/model_loss_mean": 6.97565670311451, "train/model_loss_std": 12.859633088111877, "train/model_opt_grad_norm": 18.787001490592957, "train/model_opt_grad_steps": 677125.953125, "train/model_opt_loss": 17439.14176940918, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.74503280967474, "train/policy_entropy_max": 2.74503280967474, "train/policy_entropy_mean": 0.4898628811351955, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7108706617727876, "train/policy_logprob_mag": 7.43838432431221, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4885653010569513, "train/policy_logprob_min": -7.43838432431221, "train/policy_logprob_std": 1.0993119310587645, "train/policy_randomness_mag": 0.968876120634377, "train/policy_randomness_max": 0.968876120634377, "train/policy_randomness_mean": 0.17290010082069784, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.25090614799410105, "train/post_ent_mag": 55.23672437667847, "train/post_ent_max": 55.23672437667847, "train/post_ent_mean": 39.643523931503296, "train/post_ent_min": 19.29160526394844, "train/post_ent_std": 5.770564720034599, "train/prior_ent_mag": 76.69047152996063, "train/prior_ent_max": 76.69047152996063, "train/prior_ent_mean": 45.25951486825943, "train/prior_ent_min": 26.713156163692474, "train/prior_ent_std": 8.097980082035065, "train/rep_loss_mean": 5.639649853110313, "train/rep_loss_std": 8.97844985127449, "train/reward_avg": 0.053285216563381255, "train/reward_loss_mean": 0.06681064830627292, "train/reward_loss_std": 0.23053025919944048, "train/reward_max_data": 1.0281250067055225, "train/reward_max_pred": 1.026673762127757, "train/reward_neg_acc": 0.9926669932901859, "train/reward_neg_loss": 0.02667138729884755, "train/reward_pos_acc": 0.9891012543812394, "train/reward_pos_loss": 0.7246858524158597, "train/reward_pred": 0.05285425699548796, "train/reward_rate": 0.0576019287109375, "stats/sum_log_reward": 12.814285959516253, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 3.2857142857142856, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 15.142857142857142, "stats/max_log_achievement_collect_wood": 12.0, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_stone_pickaxe": 0.5714285714285714, "stats/max_log_achievement_make_stone_sword": 0.7142857142857143, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.2857142857142858, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 4.571428571428571, "stats/max_log_achievement_place_table": 3.142857142857143, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.4121546766587666, "replay/size": 1000000.0, "replay/inserts": 1292.0, "replay/samples": 10336.0, "replay/insert_wait_avg": 3.8191260937197655e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4091977394033143e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0557487010956, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023226261138916016, "timer/logger.write_frac": 7.740648609286654e-05, "timer/logger.write_avg": 0.023226261138916016, "timer/logger.write_min": 0.023226261138916016, "timer/logger.write_max": 0.023226261138916016, "timer/replay.add_count": 1292.0, "timer/replay.add_total": 0.2642402648925781, "timer/replay.add_frac": 0.000880637235035295, "timer/replay.add_avg": 0.00020452032886422456, "timer/replay.add_min": 8.082389831542969e-05, "timer/replay.add_max": 0.0028595924377441406, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1292.0, "timer/env.step_total": 17.04053235054016, "timer/env.step_frac": 0.056791221045777426, "timer/env.step_avg": 0.013189266525185882, "timer/env.step_min": 0.002597332000732422, "timer/env.step_max": 1.4558436870574951, "timer/agent.policy_count": 1292.0, "timer/agent.policy_total": 14.344210386276245, "timer/agent.policy_frac": 0.04780515103733412, "timer/agent.policy_avg": 0.01110233002033765, "timer/agent.policy_min": 0.005615949630737305, "timer/agent.policy_max": 3.234292507171631, "timer/dataset_count": 646.0, "timer/dataset_total": 0.060478925704956055, "timer/dataset_frac": 0.00020155896351515304, "timer/dataset_avg": 9.362062802624776e-05, "timer/dataset_min": 6.628036499023438e-05, "timer/dataset_max": 0.00031065940856933594, "timer/agent.train_count": 646.0, "timer/agent.train_total": 267.6734595298767, "timer/agent.train_frac": 0.8920790909309426, "timer/agent.train_avg": 0.41435520051064506, "timer/agent.train_min": 0.37253260612487793, "timer/agent.train_max": 0.4525578022003174, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.23224759101867676, "timer/agent.report_frac": 0.0007740148023293938, "timer/agent.report_avg": 0.23224759101867676, "timer/agent.report_min": 0.23224759101867676, "timer/agent.report_max": 0.23224759101867676, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0008454322814941406, "timer/checkpoint.save_frac": 2.817584016150042e-06, "timer/checkpoint.save_avg": 0.0008454322814941406, "timer/checkpoint.save_min": 0.0008454322814941406, "timer/checkpoint.save_max": 0.0008454322814941406, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2356464862823486, "timer/agent.save_frac": 0.004118056366629569, "timer/agent.save_avg": 1.2356464862823486, "timer/agent.save_min": 1.2356464862823486, "timer/agent.save_max": 1.2356464862823486, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.00010323524475097656, "timer/replay.save_frac": 3.4405354737534356e-07, "timer/replay.save_avg": 0.00010323524475097656, "timer/replay.save_min": 0.00010323524475097656, "timer/replay.save_max": 0.00010323524475097656, "fps": 4.305776470327478}
{"step": 1357277, "episode/length": 260.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.04597701149425287}
{"step": 1357433, "episode/length": 155.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.0641025641025641}
{"step": 1357624, "episode/length": 190.0, "episode/score": 12.099999994039536, "episode/sum_abs_reward": 14.300000011920929, "episode/reward_rate": 0.07329842931937172}
{"step": 1357770, "episode/length": 145.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.0821917808219178}
{"step": 1357976, "episode/length": 205.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.05825242718446602}
{"step": 1358066, "episode/length": 89.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.899999991059303, "episode/reward_rate": 0.08888888888888889}
{"step": 1358215, "episode/length": 148.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 12.899999976158142, "episode/reward_rate": 0.087248322147651}
{"step": 1358270, "episode/length": 54.0, "episode/score": 7.100000023841858, "episode/sum_abs_reward": 8.899999976158142, "episode/reward_rate": 0.16363636363636364}
{"step": 1358421, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.496913100733901, "train/action_min": 0.0, "train/action_std": 3.404221292698022, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03424877004528588, "train/actor_opt_grad_steps": 678335.0, "train/actor_opt_loss": -11.782844773070378, "train/adv_mag": 0.396818506898302, "train/adv_max": 0.31771840764717624, "train/adv_mean": 0.0013463110144860393, "train/adv_min": -0.3596458988207759, "train/adv_std": 0.03838635679108627, "train/cont_avg": 0.9951319839015151, "train/cont_loss_mean": 6.458430861066449e-05, "train/cont_loss_std": 0.001949844549030493, "train/cont_neg_acc": 0.9950757577563777, "train/cont_neg_loss": 0.008054485788499977, "train/cont_pos_acc": 0.9999999882596912, "train/cont_pos_loss": 9.520505630132275e-06, "train/cont_pred": 0.9951464949232159, "train/cont_rate": 0.9951319839015151, "train/dyn_loss_mean": 5.908423611612031, "train/dyn_loss_std": 8.99247333497712, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8383733639211366, "train/extr_critic_critic_opt_grad_steps": 678335.0, "train/extr_critic_critic_opt_loss": 15002.633167613636, "train/extr_critic_mag": 12.946068749283299, "train/extr_critic_max": 12.946068749283299, "train/extr_critic_mean": 3.4968720042344295, "train/extr_critic_min": -0.3793889916304386, "train/extr_critic_std": 3.101195295651754, "train/extr_return_normed_mag": 1.3886096260764382, "train/extr_return_normed_max": 1.3886096260764382, "train/extr_return_normed_mean": 0.3643010701193954, "train/extr_return_normed_min": -0.05794361544152101, "train/extr_return_normed_std": 0.31510718324870773, "train/extr_return_rate": 0.7977371793804746, "train/extr_return_raw_mag": 13.658687490405459, "train/extr_return_raw_max": 13.658687490405459, "train/extr_return_raw_mean": 3.5102025866508484, "train/extr_return_raw_min": -0.6735026353236401, "train/extr_return_raw_std": 3.1223991097825947, "train/extr_reward_mag": 1.0884368744763462, "train/extr_reward_max": 1.0884368744763462, "train/extr_reward_mean": 0.06158456595783884, "train/extr_reward_min": -0.6021289410013141, "train/extr_reward_std": 0.23834495156100302, "train/image_loss_mean": 3.8186927419720273, "train/image_loss_std": 9.119698025963523, "train/model_loss_mean": 7.430142315951261, "train/model_loss_std": 13.167583335529674, "train/model_opt_grad_norm": 19.09846529816136, "train/model_opt_grad_steps": 677775.0, "train/model_opt_loss": 18575.355735085228, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7416108124183887, "train/policy_entropy_max": 2.7416108124183887, "train/policy_entropy_mean": 0.5273943850488374, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7446010668169368, "train/policy_logprob_mag": 7.438384287285082, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.5264786238020117, "train/policy_logprob_min": -7.438384287285082, "train/policy_logprob_std": 1.1232261766086926, "train/policy_randomness_mag": 0.9676683075500258, "train/policy_randomness_max": 0.9676683075500258, "train/policy_randomness_mean": 0.18614707548509946, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2628114973053788, "train/post_ent_mag": 55.118662574074484, "train/post_ent_max": 55.118662574074484, "train/post_ent_mean": 39.65790349786932, "train/post_ent_min": 18.99486969456528, "train/post_ent_std": 5.8247251366124, "train/prior_ent_mag": 76.66011579108961, "train/prior_ent_max": 76.66011579108961, "train/prior_ent_mean": 45.55126461838231, "train/prior_ent_min": 27.11240389852813, "train/prior_ent_std": 8.121662905721953, "train/rep_loss_mean": 5.908423611612031, "train/rep_loss_std": 8.99247333497712, "train/reward_avg": 0.051229580785288956, "train/reward_loss_mean": 0.06633086581573341, "train/reward_loss_std": 0.22724282222263742, "train/reward_max_data": 1.0272727337750522, "train/reward_max_pred": 1.0270730762770681, "train/reward_neg_acc": 0.9921443841674111, "train/reward_neg_loss": 0.02785610705331871, "train/reward_pos_acc": 0.9901862848888744, "train/reward_pos_loss": 0.7187684169321349, "train/reward_pred": 0.050844972783868965, "train/reward_rate": 0.05567885890151515, "stats/sum_log_reward": 9.850000321865082, "stats/max_log_achievement_collect_coal": 0.25, "stats/max_log_achievement_collect_drink": 2.25, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 0.625, "stats/max_log_achievement_collect_stone": 10.75, "stats/max_log_achievement_collect_wood": 8.5, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.125, "stats/max_log_achievement_make_stone_sword": 0.375, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.75, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 0.5, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 2.0, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.33232999779284, "replay/size": 1000000.0, "replay/inserts": 1308.0, "replay/samples": 10464.0, "replay/insert_wait_avg": 3.7570976700622372e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4237672181668997e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.33640718460083, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.031179189682006836, "timer/logger.write_frac": 0.00010381421944240894, "timer/logger.write_avg": 0.031179189682006836, "timer/logger.write_min": 0.031179189682006836, "timer/logger.write_max": 0.031179189682006836, "timer/replay.add_count": 1308.0, "timer/replay.add_total": 0.2630183696746826, "timer/replay.add_frac": 0.0008757458749016039, "timer/replay.add_avg": 0.00020108438048523135, "timer/replay.add_min": 7.200241088867188e-05, "timer/replay.add_max": 0.0011034011840820312, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1308.0, "timer/env.step_total": 18.8265380859375, "timer/env.step_frac": 0.06268483485708687, "timer/env.step_avg": 0.01439337774154243, "timer/env.step_min": 0.0026509761810302734, "timer/env.step_max": 1.682873249053955, "timer/agent.policy_count": 1308.0, "timer/agent.policy_total": 9.86438798904419, "timer/agent.policy_frac": 0.03284446291914611, "timer/agent.policy_avg": 0.00754158103137935, "timer/agent.policy_min": 0.005455493927001953, "timer/agent.policy_max": 0.01690387725830078, "timer/dataset_count": 654.0, "timer/dataset_total": 0.061911821365356445, "timer/dataset_frac": 0.0002061415795231996, "timer/dataset_avg": 9.466639352500985e-05, "timer/dataset_min": 6.0558319091796875e-05, "timer/dataset_max": 0.001836538314819336, "timer/agent.train_count": 654.0, "timer/agent.train_total": 270.6583149433136, "timer/agent.train_frac": 0.9011838340895991, "timer/agent.train_avg": 0.41385063446989845, "timer/agent.train_min": 0.3656601905822754, "timer/agent.train_max": 0.4521479606628418, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.21138882637023926, "timer/agent.report_frac": 0.0007038401649398096, "timer/agent.report_avg": 0.21138882637023926, "timer/agent.report_min": 0.21138882637023926, "timer/agent.report_max": 0.21138882637023926, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.355018281794279}
{"step": 1358539, "episode/length": 268.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 16.500000037252903, "episode/reward_rate": 0.05204460966542751}
{"step": 1358751, "episode/length": 211.0, "episode/score": 14.100000031292439, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.07547169811320754}
{"step": 1358980, "episode/length": 228.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.5, "episode/reward_rate": 0.06986899563318777}
{"step": 1359204, "episode/length": 223.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.07142857142857142}
{"step": 1359498, "episode/length": 293.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 15.900000020861626, "episode/reward_rate": 0.047619047619047616}
{"step": 1359662, "episode/length": 163.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.100000016391277, "episode/reward_rate": 0.0975609756097561}
{"step": 1359727, "episode/length": 64.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 7.500000022351742, "episode/reward_rate": 0.1076923076923077}
{"step": 1359729, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.484612567608173, "train/action_min": 0.0, "train/action_std": 3.368494650033804, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03462650552392006, "train/actor_opt_grad_steps": 678990.0, "train/actor_opt_loss": -11.798138706959211, "train/adv_mag": 0.39745729015423703, "train/adv_max": 0.32187835482450633, "train/adv_mean": 0.0016028777814846343, "train/adv_min": -0.35963210944945995, "train/adv_std": 0.0392505546601919, "train/cont_avg": 0.9954026442307692, "train/cont_loss_mean": 2.715589843201262e-05, "train/cont_loss_std": 0.0008292885930193104, "train/cont_neg_acc": 0.9974358980472271, "train/cont_neg_loss": 0.003835637979209822, "train/cont_pos_acc": 0.9999999798261202, "train/cont_pos_loss": 4.705345577567991e-06, "train/cont_pred": 0.9954101626689618, "train/cont_rate": 0.9954026442307692, "train/dyn_loss_mean": 5.754795918097863, "train/dyn_loss_std": 8.958503150939942, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8365945880229656, "train/extr_critic_critic_opt_grad_steps": 678990.0, "train/extr_critic_critic_opt_loss": 14995.898707932693, "train/extr_critic_mag": 12.770530480604906, "train/extr_critic_max": 12.770530480604906, "train/extr_critic_mean": 3.684792379232553, "train/extr_critic_min": -0.35065168417417086, "train/extr_critic_std": 3.1144653687110315, "train/extr_return_normed_mag": 1.3807316431632408, "train/extr_return_normed_max": 1.3807316431632408, "train/extr_return_normed_mean": 0.38428628398821907, "train/extr_return_normed_min": -0.062133668907559836, "train/extr_return_normed_std": 0.3180708807248336, "train/extr_return_rate": 0.8208884651844318, "train/extr_return_raw_mag": 13.530859110905574, "train/extr_return_raw_max": 13.530859110905574, "train/extr_return_raw_mean": 3.700608257146982, "train/extr_return_raw_min": -0.7032491541825808, "train/extr_return_raw_std": 3.1381995274470404, "train/extr_reward_mag": 1.0882730080531193, "train/extr_reward_max": 1.0882730080531193, "train/extr_reward_mean": 0.06511574954940723, "train/extr_reward_min": -0.6293405551176805, "train/extr_reward_std": 0.2445880325940939, "train/image_loss_mean": 3.6909694744990422, "train/image_loss_std": 8.834227217160738, "train/model_loss_mean": 7.209775660588191, "train/model_loss_std": 12.896353721618652, "train/model_opt_grad_norm": 18.798308020371657, "train/model_opt_grad_steps": 678429.7692307692, "train/model_opt_loss": 23194.99050480769, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3230.769230769231, "train/policy_entropy_mag": 2.744803568033072, "train/policy_entropy_max": 2.744803568033072, "train/policy_entropy_mean": 0.49615295116718, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7183229923248291, "train/policy_logprob_mag": 7.438384246826172, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4947044574297391, "train/policy_logprob_min": -7.438384246826172, "train/policy_logprob_std": 1.1028035649886498, "train/policy_randomness_mag": 0.9687952050795922, "train/policy_randomness_max": 0.9687952050795922, "train/policy_randomness_mean": 0.17512022176614175, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.25353649464937356, "train/post_ent_mag": 55.4264276944674, "train/post_ent_max": 55.4264276944674, "train/post_ent_mean": 39.80805135873648, "train/post_ent_min": 19.57375007042518, "train/post_ent_std": 5.847955835782565, "train/prior_ent_mag": 76.71939873328576, "train/prior_ent_max": 76.71939873328576, "train/prior_ent_mean": 45.55951966505784, "train/prior_ent_min": 27.43586258521447, "train/prior_ent_std": 8.07333536881667, "train/rep_loss_mean": 5.754795918097863, "train/rep_loss_std": 8.958503150939942, "train/reward_avg": 0.053099458779280004, "train/reward_loss_mean": 0.06590146124362946, "train/reward_loss_std": 0.22719017336001762, "train/reward_max_data": 1.0384615476314838, "train/reward_max_pred": 1.0352335122915415, "train/reward_neg_acc": 0.9920050593522879, "train/reward_neg_loss": 0.026032442671175188, "train/reward_pos_acc": 0.9908600009404696, "train/reward_pos_loss": 0.721843460889963, "train/reward_pred": 0.052599843878012434, "train/reward_rate": 0.05721153846153846, "stats/sum_log_reward": 12.814285959516253, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 2.7142857142857144, "stats/max_log_achievement_collect_iron": 0.42857142857142855, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 10.0, "stats/max_log_achievement_collect_wood": 10.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.8571428571428572, "stats/max_log_achievement_eat_cow": 1.0, "stats/max_log_achievement_make_stone_pickaxe": 0.7142857142857143, "stats/max_log_achievement_make_stone_sword": 0.5714285714285714, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.8571428571428572, "stats/max_log_achievement_place_stone": 2.857142857142857, "stats/max_log_achievement_place_table": 2.7142857142857144, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.4369197977440698, "replay/size": 1000000.0, "replay/inserts": 1308.0, "replay/samples": 10464.0, "replay/insert_wait_avg": 3.7653001441138966e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4190052262869085e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2043471336365, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.024734973907470703, "timer/logger.write_frac": 8.239378990891124e-05, "timer/logger.write_avg": 0.024734973907470703, "timer/logger.write_min": 0.024734973907470703, "timer/logger.write_max": 0.024734973907470703, "timer/replay.add_count": 1308.0, "timer/replay.add_total": 0.27269411087036133, "timer/replay.add_frac": 0.0009083616325814599, "timer/replay.add_avg": 0.00020848173613941998, "timer/replay.add_min": 7.43865966796875e-05, "timer/replay.add_max": 0.0014553070068359375, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1308.0, "timer/env.step_total": 17.69945764541626, "timer/env.step_frac": 0.05895803246825509, "timer/env.step_avg": 0.013531695447565948, "timer/env.step_min": 0.0027468204498291016, "timer/env.step_max": 1.4936563968658447, "timer/agent.policy_count": 1308.0, "timer/agent.policy_total": 9.864237785339355, "timer/agent.policy_frac": 0.032858410877535604, "timer/agent.policy_avg": 0.007541466196742627, "timer/agent.policy_min": 0.00560450553894043, "timer/agent.policy_max": 0.017388343811035156, "timer/dataset_count": 654.0, "timer/dataset_total": 0.06017136573791504, "timer/dataset_frac": 0.00020043469161067694, "timer/dataset_avg": 9.20051463882493e-05, "timer/dataset_min": 6.389617919921875e-05, "timer/dataset_max": 0.0001537799835205078, "timer/agent.train_count": 654.0, "timer/agent.train_total": 271.6398959159851, "timer/agent.train_frac": 0.9048499747242639, "timer/agent.train_avg": 0.4153515228073167, "timer/agent.train_min": 0.3713662624359131, "timer/agent.train_max": 0.4528791904449463, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22494840621948242, "timer/agent.report_frac": 0.0007493176177070689, "timer/agent.report_avg": 0.22494840621948242, "timer/agent.report_min": 0.22494840621948242, "timer/agent.report_max": 0.22494840621948242, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.35695544918069}
{"step": 1359773, "episode/length": 45.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 8.900000013411045, "episode/reward_rate": 0.17391304347826086}
{"step": 1360026, "episode/length": 252.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.05533596837944664}
{"step": 1360195, "episode/length": 168.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.08875739644970414}
{"step": 1360490, "episode/length": 294.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.03728813559322034}
{"step": 1360705, "episode/length": 214.0, "episode/score": 6.100000001490116, "episode/sum_abs_reward": 8.500000037252903, "episode/reward_rate": 0.03255813953488372}
{"step": 1360902, "episode/length": 196.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.07106598984771574}
{"step": 1361118, "episode/length": 215.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.06018518518518518}
{"step": 1361159, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.425208197699653, "train/action_min": 0.0, "train/action_std": 3.3415665990776486, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0349147233646363, "train/actor_opt_grad_steps": 679675.0, "train/actor_opt_loss": -12.265682091315588, "train/adv_mag": 0.3569837460915248, "train/adv_max": 0.3047599353724056, "train/adv_mean": 0.0015361189190217475, "train/adv_min": -0.308335548473729, "train/adv_std": 0.0392747199576762, "train/cont_avg": 0.9953477647569444, "train/cont_loss_mean": 0.00010566240629275272, "train/cont_loss_std": 0.0033086597211280377, "train/cont_neg_acc": 0.9898148154218992, "train/cont_neg_loss": 0.024553003693526667, "train/cont_pos_acc": 0.9999999817874696, "train/cont_pos_loss": 9.735075684444735e-06, "train/cont_pred": 0.9953759494755003, "train/cont_rate": 0.9953477647569444, "train/dyn_loss_mean": 5.778193672498067, "train/dyn_loss_std": 8.994923214117685, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.7999842713276545, "train/extr_critic_critic_opt_grad_steps": 679675.0, "train/extr_critic_critic_opt_loss": 14862.46910264757, "train/extr_critic_mag": 12.985542641745674, "train/extr_critic_max": 12.985542641745674, "train/extr_critic_mean": 3.8500369456079273, "train/extr_critic_min": -0.3760138534837299, "train/extr_critic_std": 3.0862481362289853, "train/extr_return_normed_mag": 1.3833355738057032, "train/extr_return_normed_max": 1.3833355738057032, "train/extr_return_normed_mean": 0.3968251918752988, "train/extr_return_normed_min": -0.05959333026678198, "train/extr_return_normed_std": 0.3130356489370267, "train/extr_return_rate": 0.8369403291079733, "train/extr_return_raw_mag": 13.677627656194899, "train/extr_return_raw_max": 13.677627656194899, "train/extr_return_raw_mean": 3.865319437450833, "train/extr_return_raw_min": -0.6746252444055345, "train/extr_return_raw_std": 3.1137582163016, "train/extr_reward_mag": 1.0897259414196014, "train/extr_reward_max": 1.0897259414196014, "train/extr_reward_mean": 0.06644672848698166, "train/extr_reward_min": -0.5807210091087553, "train/extr_reward_std": 0.24699489751623738, "train/image_loss_mean": 3.5937283039093018, "train/image_loss_std": 9.038997345500523, "train/model_loss_mean": 7.127985775470734, "train/model_loss_std": 13.149549298816257, "train/model_opt_grad_norm": 19.713466193940903, "train/model_opt_grad_steps": 679114.0, "train/model_opt_loss": 17819.964477539062, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7388832999600305, "train/policy_entropy_max": 2.7388832999600305, "train/policy_entropy_mean": 0.4771143895470434, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7001276765432622, "train/policy_logprob_mag": 7.43838424815072, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4773548866311709, "train/policy_logprob_min": -7.43838424815072, "train/policy_logprob_std": 1.0919941183593538, "train/policy_randomness_mag": 0.9667056136661105, "train/policy_randomness_max": 0.9667056136661105, "train/policy_randomness_mean": 0.16840044346948466, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24711434688005182, "train/post_ent_mag": 55.19801558388604, "train/post_ent_max": 55.19801558388604, "train/post_ent_mean": 39.61421622170342, "train/post_ent_min": 19.280056675275166, "train/post_ent_std": 5.75050421555837, "train/prior_ent_mag": 76.82586097717285, "train/prior_ent_max": 76.82586097717285, "train/prior_ent_mean": 45.33139721552531, "train/prior_ent_min": 26.966230975257027, "train/prior_ent_std": 8.05649228228463, "train/rep_loss_mean": 5.778193672498067, "train/rep_loss_std": 8.994923214117685, "train/reward_avg": 0.054401312566672765, "train/reward_loss_mean": 0.06723569157636827, "train/reward_loss_std": 0.22948869462642404, "train/reward_max_data": 1.0333333412806194, "train/reward_max_pred": 1.0316724909676447, "train/reward_neg_acc": 0.9920513679583868, "train/reward_neg_loss": 0.02689962308957345, "train/reward_pos_acc": 0.9926882311701775, "train/reward_pos_loss": 0.716299395594332, "train/reward_pred": 0.05403386568650603, "train/reward_rate": 0.058525933159722224, "stats/sum_log_reward": 10.814285823277064, "stats/max_log_achievement_collect_coal": 0.42857142857142855, "stats/max_log_achievement_collect_drink": 3.0, "stats/max_log_achievement_collect_iron": 0.14285714285714285, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 11.571428571428571, "stats/max_log_achievement_collect_wood": 9.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.142857142857143, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.42857142857142855, "stats/max_log_achievement_make_stone_sword": 0.5714285714285714, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 2.2857142857142856, "stats/max_log_achievement_place_table": 2.7142857142857144, "stats/max_log_achievement_wake_up": 0.7142857142857143, "stats/mean_log_entropy": 0.3380084676401956, "replay/size": 1000000.0, "replay/inserts": 1430.0, "replay/samples": 11440.0, "replay/insert_wait_avg": 3.8201992328350365e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4051482394025042e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.26317620277405, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030635833740234375, "timer/logger.write_frac": 0.0001020299396271801, "timer/logger.write_avg": 0.030635833740234375, "timer/logger.write_min": 0.030635833740234375, "timer/logger.write_max": 0.030635833740234375, "timer/replay.add_count": 1430.0, "timer/replay.add_total": 0.31169676780700684, "timer/replay.add_frac": 0.0010380785674381579, "timer/replay.add_avg": 0.00021796976769720758, "timer/replay.add_min": 7.605552673339844e-05, "timer/replay.add_max": 0.011554479598999023, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1430.0, "timer/env.step_total": 20.8183434009552, "timer/env.step_frac": 0.06933365477655554, "timer/env.step_avg": 0.01455828209857007, "timer/env.step_min": 0.002527952194213867, "timer/env.step_max": 3.322467803955078, "timer/agent.policy_count": 1430.0, "timer/agent.policy_total": 12.768287658691406, "timer/agent.policy_frac": 0.04252365481562985, "timer/agent.policy_avg": 0.008928872488595389, "timer/agent.policy_min": 0.0056111812591552734, "timer/agent.policy_max": 1.409231424331665, "timer/dataset_count": 715.0, "timer/dataset_total": 0.06736540794372559, "timer/dataset_frac": 0.00022435454388929898, "timer/dataset_avg": 9.421735376744837e-05, "timer/dataset_min": 6.413459777832031e-05, "timer/dataset_max": 0.000179290771484375, "timer/agent.train_count": 715.0, "timer/agent.train_total": 265.5860524177551, "timer/agent.train_frac": 0.8845109006586918, "timer/agent.train_avg": 0.3714490243604967, "timer/agent.train_min": 0.3616664409637451, "timer/agent.train_max": 0.4505887031555176, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20597553253173828, "timer/agent.report_frac": 0.0006859833268154024, "timer/agent.report_avg": 0.20597553253173828, "timer/agent.report_min": 0.20597553253173828, "timer/agent.report_max": 0.20597553253173828, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004048347473144531, "timer/checkpoint.save_frac": 1.3482663856225237e-06, "timer/checkpoint.save_avg": 0.0004048347473144531, "timer/checkpoint.save_min": 0.0004048347473144531, "timer/checkpoint.save_max": 0.0004048347473144531, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.435581922531128, "timer/agent.save_frac": 0.004781078854510116, "timer/agent.save_avg": 1.435581922531128, "timer/agent.save_min": 1.435581922531128, "timer/agent.save_max": 1.435581922531128, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.870529174804688e-05, "timer/replay.save_frac": 3.287292600987779e-07, "timer/replay.save_avg": 9.870529174804688e-05, "timer/replay.save_min": 9.870529174804688e-05, "timer/replay.save_max": 9.870529174804688e-05, "fps": 4.762379537553059}
{"step": 1361403, "episode/length": 284.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.100000016391277, "episode/reward_rate": 0.056140350877192984}
{"step": 1361640, "episode/length": 236.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.06329113924050633}
{"step": 1361936, "episode/length": 295.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.900000028312206, "episode/reward_rate": 0.05405405405405406}
{"step": 1362098, "episode/length": 161.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.09259259259259259}
{"step": 1362344, "episode/length": 245.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.056910569105691054}
{"step": 1362614, "episode/length": 269.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.30000003427267, "episode/reward_rate": 0.05555555555555555}
{"step": 1362615, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.423654344346788, "train/action_min": 0.0, "train/action_std": 3.3138243191772037, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.034184925775561065, "train/actor_opt_grad_steps": 680395.0, "train/actor_opt_loss": -12.740051422061192, "train/adv_mag": 0.38798573261333835, "train/adv_max": 0.308379540219903, "train/adv_mean": 0.0013927402101722287, "train/adv_min": -0.3545684191501803, "train/adv_std": 0.038933228235691786, "train/cont_avg": 0.9951307508680556, "train/cont_loss_mean": 1.3823511643017304e-05, "train/cont_loss_std": 0.00040530023011480724, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0006239978380691014, "train/cont_pos_acc": 0.9999999817874696, "train/cont_pos_loss": 8.749078743313592e-06, "train/cont_pred": 0.9951268840167258, "train/cont_rate": 0.9951307508680556, "train/dyn_loss_mean": 5.613929318057166, "train/dyn_loss_std": 9.031316240628561, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8417906959851583, "train/extr_critic_critic_opt_grad_steps": 680395.0, "train/extr_critic_critic_opt_loss": 14827.508802625867, "train/extr_critic_mag": 13.005337145593431, "train/extr_critic_max": 13.005337145593431, "train/extr_critic_mean": 3.7694614198472767, "train/extr_critic_min": -0.3784952428605821, "train/extr_critic_std": 3.1470447613133326, "train/extr_return_normed_mag": 1.3957205265760422, "train/extr_return_normed_max": 1.3957205265760422, "train/extr_return_normed_mean": 0.3894652761518955, "train/extr_return_normed_min": -0.05752208782359958, "train/extr_return_normed_std": 0.3189801594449414, "train/extr_return_rate": 0.8176315186752213, "train/extr_return_raw_mag": 13.789375437630547, "train/extr_return_raw_max": 13.789375437630547, "train/extr_return_raw_mean": 3.783310830593109, "train/extr_return_raw_min": -0.6619417410757806, "train/extr_return_raw_std": 3.172312342458301, "train/extr_reward_mag": 1.0906983647081587, "train/extr_reward_max": 1.0906983647081587, "train/extr_reward_mean": 0.06617790781375435, "train/extr_reward_min": -0.5640783078140683, "train/extr_reward_std": 0.24663202154139677, "train/image_loss_mean": 3.507507711648941, "train/image_loss_std": 8.700277513927883, "train/model_loss_mean": 6.941340923309326, "train/model_loss_std": 12.85932461420695, "train/model_opt_grad_norm": 19.352936175134445, "train/model_opt_grad_steps": 679833.4444444445, "train/model_opt_loss": 22998.43132188585, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3333.3333333333335, "train/policy_entropy_mag": 2.749176469114092, "train/policy_entropy_max": 2.749176469114092, "train/policy_entropy_mean": 0.4991073360045751, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7265426081915697, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4995965117381679, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 1.1136704641911719, "train/policy_randomness_mag": 0.9703386467364099, "train/policy_randomness_max": 0.9703386467364099, "train/policy_randomness_mean": 0.1761629885683457, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2564376557452811, "train/post_ent_mag": 55.146989557478165, "train/post_ent_max": 55.146989557478165, "train/post_ent_mean": 39.6304464870029, "train/post_ent_min": 19.4354506333669, "train/post_ent_std": 5.757721324761708, "train/prior_ent_mag": 76.74079714881049, "train/prior_ent_max": 76.74079714881049, "train/prior_ent_mean": 45.223252826266815, "train/prior_ent_min": 26.60144352912903, "train/prior_ent_std": 8.077661838796404, "train/rep_loss_mean": 5.613929318057166, "train/rep_loss_std": 9.031316240628561, "train/reward_avg": 0.052825248826088175, "train/reward_loss_mean": 0.06546181197174722, "train/reward_loss_std": 0.22615440810720125, "train/reward_max_data": 1.0402777873807483, "train/reward_max_pred": 1.0425811111927032, "train/reward_neg_acc": 0.9917006269097328, "train/reward_neg_loss": 0.026293913264655404, "train/reward_pos_acc": 0.9923970889714029, "train/reward_pos_loss": 0.7139247084657351, "train/reward_pred": 0.0526488054698954, "train/reward_rate": 0.056925455729166664, "stats/sum_log_reward": 14.266666889190674, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 4.666666666666667, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.8333333333333335, "stats/max_log_achievement_collect_stone": 15.0, "stats/max_log_achievement_collect_wood": 13.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 3.0, "stats/max_log_achievement_eat_cow": 1.1666666666666667, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 2.6666666666666665, "stats/max_log_achievement_place_stone": 4.833333333333333, "stats/max_log_achievement_place_table": 3.8333333333333335, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.47193146745363873, "replay/size": 1000000.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.964363873659909e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4811303916868274e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 301.488267660141, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03249216079711914, "timer/logger.write_frac": 0.00010777255463136832, "timer/logger.write_avg": 0.03249216079711914, "timer/logger.write_min": 0.03249216079711914, "timer/logger.write_max": 0.03249216079711914, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.3244900703430176, "timer/replay.add_frac": 0.0010762941883655846, "timer/replay.add_avg": 0.00022286405930152306, "timer/replay.add_min": 7.653236389160156e-05, "timer/replay.add_max": 0.004979610443115234, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1456.0, "timer/env.step_total": 19.399025440216064, "timer/env.step_frac": 0.06434421342751562, "timer/env.step_avg": 0.01332350648366488, "timer/env.step_min": 0.0027403831481933594, "timer/env.step_max": 1.8195207118988037, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 11.430548906326294, "timer/agent.policy_frac": 0.03791374369238017, "timer/agent.policy_avg": 0.007850651721377949, "timer/agent.policy_min": 0.005618572235107422, "timer/agent.policy_max": 0.02274465560913086, "timer/dataset_count": 728.0, "timer/dataset_total": 0.07013964653015137, "timer/dataset_frac": 0.00023264469650679, "timer/dataset_avg": 9.634566831064748e-05, "timer/dataset_min": 6.67572021484375e-05, "timer/dataset_max": 0.0001971721649169922, "timer/agent.train_count": 728.0, "timer/agent.train_total": 269.5295321941376, "timer/agent.train_frac": 0.8939967524639149, "timer/agent.train_avg": 0.3702328738930461, "timer/agent.train_min": 0.36110901832580566, "timer/agent.train_max": 0.3839378356933594, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2028961181640625, "timer/agent.report_frac": 0.0006729818036991788, "timer/agent.report_avg": 0.2028961181640625, "timer/agent.report_min": 0.2028961181640625, "timer/agent.report_max": 0.2028961181640625, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.829279786331239}
{"step": 1362915, "episode/length": 300.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.04983388704318937}
{"step": 1363091, "episode/length": 175.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.900000050663948, "episode/reward_rate": 0.07954545454545454}
{"step": 1363338, "episode/length": 246.0, "episode/score": 15.099999971687794, "episode/sum_abs_reward": 17.500000037252903, "episode/reward_rate": 0.06882591093117409}
{"step": 1363545, "episode/length": 206.0, "episode/score": 14.100000023841858, "episode/sum_abs_reward": 16.300000056624413, "episode/reward_rate": 0.07246376811594203}
{"step": 1363767, "episode/length": 221.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.04054054054054054}
{"step": 1364054, "episode/length": 286.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.041811846689895474}
{"step": 1364066, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4542478796553935, "train/action_min": 0.0, "train/action_std": 3.370523243734281, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.034690867267446975, "train/actor_opt_grad_steps": 681120.0, "train/actor_opt_loss": -12.354285297226417, "train/adv_mag": 0.36599881497964465, "train/adv_max": 0.306770019539415, "train/adv_mean": 0.001252580832729171, "train/adv_min": -0.33499836880866796, "train/adv_std": 0.03924072814518458, "train/cont_avg": 0.9952643407534246, "train/cont_loss_mean": 5.918999470028696e-05, "train/cont_loss_std": 0.0018825916443472891, "train/cont_neg_acc": 0.9972222223877907, "train/cont_neg_loss": 0.009441828868313327, "train/cont_pos_acc": 0.9999999804039524, "train/cont_pos_loss": 1.2295317846400712e-05, "train/cont_pred": 0.9952723155282948, "train/cont_rate": 0.9952643407534246, "train/dyn_loss_mean": 5.639430816859415, "train/dyn_loss_std": 8.894840554015277, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8130850506155458, "train/extr_critic_critic_opt_grad_steps": 681120.0, "train/extr_critic_critic_opt_loss": 14818.202389233733, "train/extr_critic_mag": 12.743028980411895, "train/extr_critic_max": 12.743028980411895, "train/extr_critic_mean": 3.8418061504625296, "train/extr_critic_min": -0.34825490272208437, "train/extr_critic_std": 3.064532760071428, "train/extr_return_normed_mag": 1.381889379187806, "train/extr_return_normed_max": 1.381889379187806, "train/extr_return_normed_mean": 0.40166691884602584, "train/extr_return_normed_min": -0.05907638442434677, "train/extr_return_normed_std": 0.31435598820856175, "train/extr_return_rate": 0.835689611630897, "train/extr_return_raw_mag": 13.468143959567971, "train/extr_return_raw_max": 13.468143959567971, "train/extr_return_raw_mean": 3.8540926600155765, "train/extr_return_raw_min": -0.6651082924784046, "train/extr_return_raw_std": 3.0832716863449305, "train/extr_reward_mag": 1.0960565495164427, "train/extr_reward_max": 1.0960565495164427, "train/extr_reward_mean": 0.06624469911194827, "train/extr_reward_min": -0.5834134670153056, "train/extr_reward_std": 0.24648567768808913, "train/image_loss_mean": 3.445826530456543, "train/image_loss_std": 8.49233160933403, "train/model_loss_mean": 6.896288943617312, "train/model_loss_std": 12.624492697519798, "train/model_opt_grad_norm": 19.167724126005826, "train/model_opt_grad_steps": 680557.0, "train/model_opt_loss": 8620.36118766053, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.7407464850438785, "train/policy_entropy_max": 2.7407464850438785, "train/policy_entropy_mean": 0.4814021064810557, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7123342564661209, "train/policy_logprob_mag": 7.438384304307911, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4814163605644278, "train/policy_logprob_min": -7.438384304307911, "train/policy_logprob_std": 1.1000145967692545, "train/policy_randomness_mag": 0.9673632350686479, "train/policy_randomness_max": 0.9673632350686479, "train/policy_randomness_mean": 0.1699138157171746, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2514227320478387, "train/post_ent_mag": 54.96800169226241, "train/post_ent_max": 54.96800169226241, "train/post_ent_mean": 39.66965124051865, "train/post_ent_min": 19.585181784956422, "train/post_ent_std": 5.759955824237981, "train/prior_ent_mag": 76.76363864010328, "train/prior_ent_max": 76.76363864010328, "train/prior_ent_mean": 45.28361030474101, "train/prior_ent_min": 26.79378559164805, "train/prior_ent_std": 8.034631846702261, "train/rep_loss_mean": 5.639430816859415, "train/rep_loss_std": 8.894840554015277, "train/reward_avg": 0.05358251258220575, "train/reward_loss_mean": 0.06674475794377392, "train/reward_loss_std": 0.23378441309275694, "train/reward_max_data": 1.045205490229881, "train/reward_max_pred": 1.0418405075595802, "train/reward_neg_acc": 0.9923823467672688, "train/reward_neg_loss": 0.026267669890841394, "train/reward_pos_acc": 0.9884301179075894, "train/reward_pos_loss": 0.7280597703097618, "train/reward_pred": 0.05301385467285163, "train/reward_rate": 0.0576974529109589, "stats/sum_log_reward": 12.600000381469727, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 2.8333333333333335, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.3333333333333333, "stats/max_log_achievement_collect_stone": 16.5, "stats/max_log_achievement_collect_wood": 12.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.1666666666666665, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 2.1666666666666665, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 3.5, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.492544357975324, "replay/size": 1000000.0, "replay/inserts": 1451.0, "replay/samples": 11600.0, "replay/insert_wait_avg": 4.001357159394383e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4878552535484576e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 299.99866461753845, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027590036392211914, "timer/logger.write_frac": 9.19671973453143e-05, "timer/logger.write_avg": 0.027590036392211914, "timer/logger.write_min": 0.027590036392211914, "timer/logger.write_max": 0.027590036392211914, "timer/replay.add_count": 1451.0, "timer/replay.add_total": 0.33213019371032715, "timer/replay.add_frac": 0.0011071055737323114, "timer/replay.add_avg": 0.00022889744569974305, "timer/replay.add_min": 7.700920104980469e-05, "timer/replay.add_max": 0.0019249916076660156, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1451.0, "timer/env.step_total": 18.667412519454956, "timer/env.step_frac": 0.062224985378697, "timer/env.step_avg": 0.012865205044421058, "timer/env.step_min": 0.0030364990234375, "timer/env.step_max": 1.7632131576538086, "timer/agent.policy_count": 1451.0, "timer/agent.policy_total": 11.364519357681274, "timer/agent.policy_frac": 0.03788189981501966, "timer/agent.policy_avg": 0.007832198041131134, "timer/agent.policy_min": 0.005778312683105469, "timer/agent.policy_max": 0.03188371658325195, "timer/dataset_count": 725.0, "timer/dataset_total": 0.06981515884399414, "timer/dataset_frac": 0.00023271823203946563, "timer/dataset_avg": 9.629677081930227e-05, "timer/dataset_min": 6.985664367675781e-05, "timer/dataset_max": 0.0001766681671142578, "timer/agent.train_count": 725.0, "timer/agent.train_total": 268.81774830818176, "timer/agent.train_frac": 0.8960631496506541, "timer/agent.train_avg": 0.37078310111473345, "timer/agent.train_min": 0.3630790710449219, "timer/agent.train_max": 0.3850860595703125, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20173096656799316, "timer/agent.report_frac": 0.0006724395484399087, "timer/agent.report_avg": 0.20173096656799316, "timer/agent.report_min": 0.20173096656799316, "timer/agent.report_max": 0.20173096656799316, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.83659828961136}
{"step": 1364217, "episode/length": 162.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 12.899999976158142, "episode/reward_rate": 0.07975460122699386}
{"step": 1364273, "episode/length": 55.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.07142857142857142}
{"step": 1364436, "episode/length": 162.0, "episode/score": 12.099999979138374, "episode/sum_abs_reward": 13.700000002980232, "episode/reward_rate": 0.07975460122699386}
{"step": 1364997, "episode/length": 560.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 14.900000013411045, "episode/reward_rate": 0.024955436720142603}
{"step": 1365161, "episode/length": 163.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.08536585365853659}
{"step": 1365420, "episode/length": 258.0, "episode/score": 15.100000008940697, "episode/sum_abs_reward": 17.299999997019768, "episode/reward_rate": 0.06563706563706563}
{"step": 1365497, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.473755742462588, "train/action_min": 0.0, "train/action_std": 3.3594084860573354, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03454745652705011, "train/actor_opt_grad_steps": 681840.0, "train/actor_opt_loss": -10.25584607309019, "train/adv_mag": 0.39319635906689604, "train/adv_max": 0.30633464056841087, "train/adv_mean": 0.0018824726458135533, "train/adv_min": -0.3642995762573162, "train/adv_std": 0.03898764328217842, "train/cont_avg": 0.995392275528169, "train/cont_loss_mean": 0.0001323786597725444, "train/cont_loss_std": 0.004149319225178456, "train/cont_neg_acc": 0.9952380955219269, "train/cont_neg_loss": 0.03823677182805515, "train/cont_pos_acc": 0.9999999840494612, "train/cont_pos_loss": 1.6254117788330315e-05, "train/cont_pred": 0.995403701990423, "train/cont_rate": 0.995392275528169, "train/dyn_loss_mean": 5.853052085554096, "train/dyn_loss_std": 9.021568647572693, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8280046573826965, "train/extr_critic_critic_opt_grad_steps": 681840.0, "train/extr_critic_critic_opt_loss": 14968.326446963029, "train/extr_critic_mag": 12.677128952993474, "train/extr_critic_max": 12.677128952993474, "train/extr_critic_mean": 3.6753055612805863, "train/extr_critic_min": -0.3634882325857458, "train/extr_critic_std": 3.058795838288858, "train/extr_return_normed_mag": 1.3791121597021399, "train/extr_return_normed_max": 1.3791121597021399, "train/extr_return_normed_mean": 0.38597604590402523, "train/extr_return_normed_min": -0.061685073701008945, "train/extr_return_normed_std": 0.3162522798692676, "train/extr_return_rate": 0.8216476398454585, "train/extr_return_raw_mag": 13.377486403559296, "train/extr_return_raw_max": 13.377486403559296, "train/extr_return_raw_mean": 3.693660259246826, "train/extr_return_raw_min": -0.6722677312266658, "train/extr_return_raw_std": 3.083956419582098, "train/extr_reward_mag": 1.0975863396281926, "train/extr_reward_max": 1.0975863396281926, "train/extr_reward_mean": 0.06523249607900498, "train/extr_reward_min": -0.5992145420799793, "train/extr_reward_std": 0.24503794564327724, "train/image_loss_mean": 3.702736901565337, "train/image_loss_std": 8.653157993101738, "train/model_loss_mean": 7.282573129089785, "train/model_loss_std": 12.852153348251127, "train/model_opt_grad_norm": 19.21864286610778, "train/model_opt_grad_steps": 681277.0, "train/model_opt_loss": 15924.592037577024, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2200.7042253521126, "train/policy_entropy_mag": 2.740881107222866, "train/policy_entropy_max": 2.740881107222866, "train/policy_entropy_mean": 0.48129514195549655, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6982110944432272, "train/policy_logprob_mag": 7.438384210559684, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.48085307571249947, "train/policy_logprob_min": -7.438384210559684, "train/policy_logprob_std": 1.0965930458525537, "train/policy_randomness_mag": 0.967410748273554, "train/policy_randomness_max": 0.967410748273554, "train/policy_randomness_mean": 0.1698760665218595, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24643787531785563, "train/post_ent_mag": 55.22131240199989, "train/post_ent_max": 55.22131240199989, "train/post_ent_mean": 39.786384851160186, "train/post_ent_min": 19.272314998465525, "train/post_ent_std": 5.816060522912254, "train/prior_ent_mag": 76.75495018757564, "train/prior_ent_max": 76.75495018757564, "train/prior_ent_mean": 45.60054956355565, "train/prior_ent_min": 26.949991306788483, "train/prior_ent_std": 8.047275630521103, "train/rep_loss_mean": 5.853052085554096, "train/rep_loss_std": 9.021568647572693, "train/reward_avg": 0.053426220986834715, "train/reward_loss_mean": 0.06787262117149125, "train/reward_loss_std": 0.2296955064988472, "train/reward_max_data": 1.042253531200785, "train/reward_max_pred": 1.0413864699887558, "train/reward_neg_acc": 0.9921675341230043, "train/reward_neg_loss": 0.028417059705710748, "train/reward_pos_acc": 0.9914871345103626, "train/reward_pos_loss": 0.7135444904716921, "train/reward_pred": 0.053061670925415735, "train/reward_rate": 0.0576446963028169, "stats/sum_log_reward": 11.266666968663534, "stats/max_log_achievement_collect_coal": 0.6666666666666666, "stats/max_log_achievement_collect_drink": 3.6666666666666665, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 1.1666666666666667, "stats/max_log_achievement_collect_stone": 12.166666666666666, "stats/max_log_achievement_collect_wood": 9.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.3333333333333333, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 2.8333333333333335, "stats/max_log_achievement_place_table": 2.6666666666666665, "stats/max_log_achievement_wake_up": 0.8333333333333334, "stats/mean_log_entropy": 0.5066128099958102, "replay/size": 1000000.0, "replay/inserts": 1431.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.9936361572777454e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4047258060071721e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1842167377472, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03847312927246094, "timer/logger.write_frac": 0.0001281650637417509, "timer/logger.write_avg": 0.03847312927246094, "timer/logger.write_min": 0.03847312927246094, "timer/logger.write_max": 0.03847312927246094, "timer/replay.add_count": 1431.0, "timer/replay.add_total": 0.31937432289123535, "timer/replay.add_frac": 0.0010639277652970457, "timer/replay.add_avg": 0.0002231826155773832, "timer/replay.add_min": 8.463859558105469e-05, "timer/replay.add_max": 0.0023915767669677734, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1431.0, "timer/env.step_total": 20.25733757019043, "timer/env.step_frac": 0.06748302022783577, "timer/env.step_avg": 0.014156070978469902, "timer/env.step_min": 0.0028808116912841797, "timer/env.step_max": 2.7541229724884033, "timer/agent.policy_count": 1431.0, "timer/agent.policy_total": 12.207406759262085, "timer/agent.policy_frac": 0.040666384435284815, "timer/agent.policy_avg": 0.008530682571112568, "timer/agent.policy_min": 0.0056209564208984375, "timer/agent.policy_max": 1.1648125648498535, "timer/dataset_count": 716.0, "timer/dataset_total": 0.06863689422607422, "timer/dataset_frac": 0.0002286492440275037, "timer/dataset_avg": 9.58615841146288e-05, "timer/dataset_min": 6.747245788574219e-05, "timer/dataset_max": 0.0002067089080810547, "timer/agent.train_count": 716.0, "timer/agent.train_total": 266.5871136188507, "timer/agent.train_frac": 0.8880783823879447, "timer/agent.train_avg": 0.3723283709760485, "timer/agent.train_min": 0.3630995750427246, "timer/agent.train_max": 0.9433493614196777, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20030617713928223, "timer/agent.report_frac": 0.0006672775115097994, "timer/agent.report_avg": 0.20030617713928223, "timer/agent.report_min": 0.20030617713928223, "timer/agent.report_max": 0.20030617713928223, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0005338191986083984, "timer/checkpoint.save_frac": 1.7783053499936808e-06, "timer/checkpoint.save_avg": 0.0005338191986083984, "timer/checkpoint.save_min": 0.0005338191986083984, "timer/checkpoint.save_max": 0.0005338191986083984, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1698887348175049, "timer/agent.save_frac": 0.0038972359957204746, "timer/agent.save_avg": 1.1698887348175049, "timer/agent.save_min": 1.1698887348175049, "timer/agent.save_max": 1.1698887348175049, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.179115295410156e-05, "timer/replay.save_frac": 3.057827421829241e-07, "timer/replay.save_avg": 9.179115295410156e-05, "timer/replay.save_min": 9.179115295410156e-05, "timer/replay.save_max": 9.179115295410156e-05, "fps": 4.766990410419345}
{"step": 1365605, "episode/length": 184.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.04864864864864865}
{"step": 1365760, "episode/length": 154.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.07741935483870968}
{"step": 1365924, "episode/length": 163.0, "episode/score": 10.099999994039536, "episode/sum_abs_reward": 12.700000017881393, "episode/reward_rate": 0.07317073170731707}
{"step": 1366142, "episode/length": 217.0, "episode/score": 15.099999979138374, "episode/sum_abs_reward": 17.30000002682209, "episode/reward_rate": 0.07339449541284404}
{"step": 1366317, "episode/length": 174.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 13.299999982118607, "episode/reward_rate": 0.07428571428571429}
{"step": 1366492, "episode/length": 174.0, "episode/score": 7.1000000312924385, "episode/sum_abs_reward": 10.100000031292439, "episode/reward_rate": 0.05142857142857143}
{"step": 1366778, "episode/length": 285.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.04895104895104895}
{"step": 1366938, "episode/length": 159.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.0625}
{"step": 1366939, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.423691004922945, "train/action_min": 0.0, "train/action_std": 3.309776809117565, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03508210215360334, "train/actor_opt_grad_steps": 682560.0, "train/actor_opt_loss": -11.591900034310067, "train/adv_mag": 0.37867854719292626, "train/adv_max": 0.3102307864656187, "train/adv_mean": 0.001757237531483167, "train/adv_min": -0.3318734403750668, "train/adv_std": 0.039227203402208956, "train/cont_avg": 0.9952242080479452, "train/cont_loss_mean": 0.00013005264597232432, "train/cont_loss_std": 0.004029478558407683, "train/cont_neg_acc": 0.9925636020425248, "train/cont_neg_loss": 0.021060546322527293, "train/cont_pos_acc": 0.9999999722389326, "train/cont_pos_loss": 1.7173383312946535e-05, "train/cont_pred": 0.9952503010018231, "train/cont_rate": 0.9952242080479452, "train/dyn_loss_mean": 5.795907621514307, "train/dyn_loss_std": 9.03651196336093, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8297622799873352, "train/extr_critic_critic_opt_grad_steps": 682560.0, "train/extr_critic_critic_opt_loss": 14815.990956763699, "train/extr_critic_mag": 12.723543127922163, "train/extr_critic_max": 12.723543127922163, "train/extr_critic_mean": 3.822395060160389, "train/extr_critic_min": -0.33656901692690916, "train/extr_critic_std": 3.0889829544171894, "train/extr_return_normed_mag": 1.3825426787546236, "train/extr_return_normed_max": 1.3825426787546236, "train/extr_return_normed_mean": 0.4007367936715688, "train/extr_return_normed_min": -0.06305298718228323, "train/extr_return_normed_std": 0.31857628548798494, "train/extr_return_rate": 0.8343358048020977, "train/extr_return_raw_mag": 13.43361939469429, "train/extr_return_raw_max": 13.43361939469429, "train/extr_return_raw_mean": 3.839568987284621, "train/extr_return_raw_min": -0.692786989554967, "train/extr_return_raw_std": 3.113474378847096, "train/extr_reward_mag": 1.0883814602682036, "train/extr_reward_max": 1.0883814602682036, "train/extr_reward_mean": 0.06662032105130693, "train/extr_reward_min": -0.5693607689583138, "train/extr_reward_std": 0.24725940292828705, "train/image_loss_mean": 3.5455364005206382, "train/image_loss_std": 8.723121486298025, "train/model_loss_mean": 7.090743580909624, "train/model_loss_std": 12.903238701493773, "train/model_opt_grad_norm": 18.66400065487378, "train/model_opt_grad_steps": 681996.6575342466, "train/model_opt_loss": 18311.499892979453, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2568.4931506849316, "train/policy_entropy_mag": 2.715532747033524, "train/policy_entropy_max": 2.715532747033524, "train/policy_entropy_mean": 0.4624332610058458, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.675300269094232, "train/policy_logprob_mag": 7.4383842651158165, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.46249577260180696, "train/policy_logprob_min": -7.4383842651158165, "train/policy_logprob_std": 1.0803011255721524, "train/policy_randomness_mag": 0.9584638917282836, "train/policy_randomness_max": 0.9584638917282836, "train/policy_randomness_mean": 0.16321864836428263, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.23835136037166804, "train/post_ent_mag": 55.34345308068681, "train/post_ent_max": 55.34345308068681, "train/post_ent_mean": 39.722087651082916, "train/post_ent_min": 19.851730634088387, "train/post_ent_std": 5.719305502225275, "train/prior_ent_mag": 76.79431204599877, "train/prior_ent_max": 76.79431204599877, "train/prior_ent_mean": 45.477015194827565, "train/prior_ent_min": 27.15731385636003, "train/prior_ent_std": 8.032342669082015, "train/rep_loss_mean": 5.795907621514307, "train/rep_loss_std": 9.03651196336093, "train/reward_avg": 0.05485739523213204, "train/reward_loss_mean": 0.06753257253806885, "train/reward_loss_std": 0.23436584701276805, "train/reward_max_data": 1.0410959002089828, "train/reward_max_pred": 1.038167225171442, "train/reward_neg_acc": 0.9914743222602426, "train/reward_neg_loss": 0.02661493712755507, "train/reward_pos_acc": 0.98988792586, "train/reward_pos_loss": 0.7202776531650595, "train/reward_pred": 0.054523710926918136, "train/reward_rate": 0.059061964897260275, "stats/sum_log_reward": 10.599999964237213, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 2.75, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 8.75, "stats/max_log_achievement_collect_wood": 11.25, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.125, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_stone_pickaxe": 0.625, "stats/max_log_achievement_make_stone_sword": 0.625, "stats/max_log_achievement_make_wood_pickaxe": 1.125, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 1.125, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 1.625, "stats/max_log_achievement_place_table": 2.75, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.4433796592056751, "replay/size": 1000000.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.895547948829344e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3610278353115722e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2917900085449, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030986309051513672, "timer/logger.write_frac": 0.00010318733339540167, "timer/logger.write_avg": 0.030986309051513672, "timer/logger.write_min": 0.030986309051513672, "timer/logger.write_max": 0.030986309051513672, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.3018167018890381, "timer/replay.add_frac": 0.0010050781004717103, "timer/replay.add_avg": 0.00020930423154579618, "timer/replay.add_min": 8.893013000488281e-05, "timer/replay.add_max": 0.003973722457885742, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1442.0, "timer/env.step_total": 20.66953945159912, "timer/env.step_frac": 0.06883151700887646, "timer/env.step_avg": 0.01433393859334197, "timer/env.step_min": 0.0028982162475585938, "timer/env.step_max": 1.6554286479949951, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 10.69112515449524, "timer/agent.policy_frac": 0.035602455712129256, "timer/agent.policy_avg": 0.007414095114074369, "timer/agent.policy_min": 0.005733013153076172, "timer/agent.policy_max": 0.02774953842163086, "timer/dataset_count": 721.0, "timer/dataset_total": 0.06469845771789551, "timer/dataset_frac": 0.0002154519699524735, "timer/dataset_avg": 8.973433802759432e-05, "timer/dataset_min": 6.604194641113281e-05, "timer/dataset_max": 0.00020503997802734375, "timer/agent.train_count": 721.0, "timer/agent.train_total": 267.83849906921387, "timer/agent.train_frac": 0.8919274784754935, "timer/agent.train_avg": 0.3714819681958583, "timer/agent.train_min": 0.36517763137817383, "timer/agent.train_max": 0.41532444953918457, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20039987564086914, "timer/agent.report_frac": 0.0006673504981110762, "timer/agent.report_avg": 0.20039987564086914, "timer/agent.report_min": 0.20039987564086914, "timer/agent.report_max": 0.20039987564086914, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.8018968686594965}
{"step": 1367158, "episode/length": 219.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 11.900000013411045, "episode/reward_rate": 0.05}
{"step": 1367375, "episode/length": 216.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.059907834101382486}
{"step": 1367623, "episode/length": 247.0, "episode/score": 13.099999979138374, "episode/sum_abs_reward": 15.500000029802322, "episode/reward_rate": 0.056451612903225805}
{"step": 1367921, "episode/length": 297.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 12.900000013411045, "episode/reward_rate": 0.040268456375838924}
{"step": 1368016, "episode/length": 94.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.11578947368421053}
{"step": 1368244, "episode/length": 227.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.30000001937151, "episode/reward_rate": 0.07017543859649122}
{"step": 1368401, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.3512815710616435, "train/action_min": 0.0, "train/action_std": 3.258446618302228, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0347892799197811, "train/actor_opt_grad_steps": 683290.0, "train/actor_opt_loss": -11.517937649602759, "train/adv_mag": 0.41474058244326345, "train/adv_max": 0.3342628601479204, "train/adv_mean": 0.0019296194496958266, "train/adv_min": -0.37469895041152224, "train/adv_std": 0.03959183599034401, "train/cont_avg": 0.9953446061643836, "train/cont_loss_mean": 1.0639808286289e-05, "train/cont_loss_std": 0.00026593367873259274, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00024487081126593546, "train/cont_pos_acc": 0.9999999812204544, "train/cont_pos_loss": 9.488928550424184e-06, "train/cont_pred": 0.9953366452700472, "train/cont_rate": 0.9953446061643836, "train/dyn_loss_mean": 5.755710543018498, "train/dyn_loss_std": 9.025502609880004, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8304798766358258, "train/extr_critic_critic_opt_grad_steps": 683290.0, "train/extr_critic_critic_opt_loss": 14900.167554045376, "train/extr_critic_mag": 12.720971421019671, "train/extr_critic_max": 12.720971421019671, "train/extr_critic_mean": 3.7433844167892247, "train/extr_critic_min": -0.39569127233061074, "train/extr_critic_std": 3.057347931273996, "train/extr_return_normed_mag": 1.37674218007963, "train/extr_return_normed_max": 1.37674218007963, "train/extr_return_normed_mean": 0.39134359808817304, "train/extr_return_normed_min": -0.06388153421552215, "train/extr_return_normed_std": 0.31395320859673903, "train/extr_return_rate": 0.8265857337272331, "train/extr_return_raw_mag": 13.445316902578693, "train/extr_return_raw_max": 13.445316902578693, "train/extr_return_raw_mean": 3.762348609427883, "train/extr_return_raw_min": -0.7110703558954474, "train/extr_return_raw_std": 3.0855554685200732, "train/extr_reward_mag": 1.0874605897354752, "train/extr_reward_max": 1.0874605897354752, "train/extr_reward_mean": 0.06323402089207139, "train/extr_reward_min": -0.6025167083087033, "train/extr_reward_std": 0.24163717296842027, "train/image_loss_mean": 3.5370687164672434, "train/image_loss_std": 9.24353986243679, "train/model_loss_mean": 7.054805298374124, "train/model_loss_std": 13.337575742643173, "train/model_opt_grad_norm": 18.501394167338333, "train/model_opt_grad_steps": 682726.0, "train/model_opt_loss": 17637.013283925513, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.710408975000251, "train/policy_entropy_max": 2.710408975000251, "train/policy_entropy_mean": 0.46425614822400757, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.680719695270878, "train/policy_logprob_mag": 7.438384271647832, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.46390677682340964, "train/policy_logprob_min": -7.438384271647832, "train/policy_logprob_std": 1.0810127617561653, "train/policy_randomness_mag": 0.9566554247516476, "train/policy_randomness_max": 0.9566554247516476, "train/policy_randomness_mean": 0.1638620481507419, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24026417793476418, "train/post_ent_mag": 55.11811745003478, "train/post_ent_max": 55.11811745003478, "train/post_ent_mean": 39.732150247652235, "train/post_ent_min": 19.45550966916019, "train/post_ent_std": 5.737561761516414, "train/prior_ent_mag": 76.78626836489325, "train/prior_ent_max": 76.78626836489325, "train/prior_ent_mean": 45.487318587629765, "train/prior_ent_min": 27.604101181030273, "train/prior_ent_std": 7.9677969200970375, "train/rep_loss_mean": 5.755710543018498, "train/rep_loss_std": 9.025502609880004, "train/reward_avg": 0.051395279852903056, "train/reward_loss_mean": 0.06429963410921292, "train/reward_loss_std": 0.22320751151809953, "train/reward_max_data": 1.0273972668059885, "train/reward_max_pred": 1.0296366378052595, "train/reward_neg_acc": 0.9921768568966487, "train/reward_neg_loss": 0.02583388517266267, "train/reward_pos_acc": 0.9901566742217704, "train/reward_pos_loss": 0.7183073938709416, "train/reward_pred": 0.051028290125605176, "train/reward_rate": 0.0556105522260274, "stats/sum_log_reward": 11.766667048136393, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 1.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.1666666666666667, "stats/max_log_achievement_collect_stone": 19.5, "stats/max_log_achievement_collect_wood": 11.5, "stats/max_log_achievement_defeat_skeleton": 0.3333333333333333, "stats/max_log_achievement_defeat_zombie": 1.5, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.6666666666666665, "stats/max_log_achievement_place_plant": 1.1666666666666667, "stats/max_log_achievement_place_stone": 3.5, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.4829771916071574, "replay/size": 1000000.0, "replay/inserts": 1462.0, "replay/samples": 11696.0, "replay/insert_wait_avg": 3.7171772175383144e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.380711834668787e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2305865287781, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028720378875732422, "timer/logger.write_frac": 9.566106907291899e-05, "timer/logger.write_avg": 0.028720378875732422, "timer/logger.write_min": 0.028720378875732422, "timer/logger.write_max": 0.028720378875732422, "timer/replay.add_count": 1462.0, "timer/replay.add_total": 0.2946770191192627, "timer/replay.add_frac": 0.000981502326349474, "timer/replay.add_avg": 0.00020155746861782675, "timer/replay.add_min": 8.416175842285156e-05, "timer/replay.add_max": 0.0019276142120361328, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1462.0, "timer/env.step_total": 17.71808648109436, "timer/env.step_frac": 0.059014928112249565, "timer/env.step_avg": 0.01211907420047494, "timer/env.step_min": 0.002881765365600586, "timer/env.step_max": 1.617335319519043, "timer/agent.policy_count": 1462.0, "timer/agent.policy_total": 10.684202432632446, "timer/agent.policy_frac": 0.03558665543095267, "timer/agent.policy_avg": 0.00730793600043259, "timer/agent.policy_min": 0.005736112594604492, "timer/agent.policy_max": 0.029817819595336914, "timer/dataset_count": 731.0, "timer/dataset_total": 0.06310200691223145, "timer/dataset_frac": 0.00021017847529063437, "timer/dataset_avg": 8.632285487309364e-05, "timer/dataset_min": 6.389617919921875e-05, "timer/dataset_max": 0.00016736984252929688, "timer/agent.train_count": 731.0, "timer/agent.train_total": 270.7696371078491, "timer/agent.train_frac": 0.9018722583812925, "timer/agent.train_avg": 0.37040990028433535, "timer/agent.train_min": 0.36366748809814453, "timer/agent.train_max": 0.44597315788269043, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.19951272010803223, "timer/agent.report_frac": 0.0006645316268897482, "timer/agent.report_avg": 0.19951272010803223, "timer/agent.report_min": 0.19951272010803223, "timer/agent.report_max": 0.19951272010803223, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.869507266257694}
{"step": 1368596, "episode/length": 351.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.04261363636363636}
{"step": 1368878, "episode/length": 281.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.5, "episode/reward_rate": 0.05319148936170213}
{"step": 1369064, "episode/length": 185.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.08064516129032258}
{"step": 1369240, "episode/length": 175.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.056818181818181816}
{"step": 1369448, "episode/length": 207.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.0673076923076923}
{"step": 1369608, "episode/length": 159.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.08125}
{"step": 1369764, "episode/length": 155.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.08333333333333333}
{"step": 1369817, "episode/length": 52.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 7.900000020861626, "episode/reward_rate": 0.1509433962264151}
{"step": 1369825, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.52092216384243, "train/action_min": 0.0, "train/action_std": 3.412879487158547, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0342924045792348, "train/actor_opt_grad_steps": 684010.0, "train/actor_opt_loss": -12.910134821710452, "train/adv_mag": 0.3789531193988424, "train/adv_max": 0.3145315582063836, "train/adv_mean": 0.0010222484571629688, "train/adv_min": -0.33214391705016016, "train/adv_std": 0.038208753211607396, "train/cont_avg": 0.995240977112676, "train/cont_loss_mean": 0.00011421995338372946, "train/cont_loss_std": 0.0035184861095164215, "train/cont_neg_acc": 0.9907891809100836, "train/cont_neg_loss": 0.016134985622833907, "train/cont_pos_acc": 0.9999999773334449, "train/cont_pos_loss": 1.7363969292000626e-05, "train/cont_pred": 0.9952718900962615, "train/cont_rate": 0.995240977112676, "train/dyn_loss_mean": 5.788674958994691, "train/dyn_loss_std": 9.006675935127365, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8149722277278632, "train/extr_critic_critic_opt_grad_steps": 684010.0, "train/extr_critic_critic_opt_loss": 14889.747482944542, "train/extr_critic_mag": 12.722065374884806, "train/extr_critic_max": 12.722065374884806, "train/extr_critic_mean": 3.6854766791974995, "train/extr_critic_min": -0.36923887528164284, "train/extr_critic_std": 3.0777483624471746, "train/extr_return_normed_mag": 1.3673707431470845, "train/extr_return_normed_max": 1.3673707431470845, "train/extr_return_normed_mean": 0.3832422049952225, "train/extr_return_normed_min": -0.06122736184215042, "train/extr_return_normed_std": 0.3139535209662478, "train/extr_return_rate": 0.823484309122596, "train/extr_return_raw_mag": 13.40956156018754, "train/extr_return_raw_max": 13.40956156018754, "train/extr_return_raw_mean": 3.695558427085339, "train/extr_return_raw_min": -0.6906794783934741, "train/extr_return_raw_std": 3.098656805468277, "train/extr_reward_mag": 1.0944727944656156, "train/extr_reward_max": 1.0944727944656156, "train/extr_reward_mean": 0.06556933787716947, "train/extr_reward_min": -0.5968688978275782, "train/extr_reward_std": 0.24505867861526112, "train/image_loss_mean": 3.6039097208372306, "train/image_loss_std": 8.950699940533704, "train/model_loss_mean": 7.143880206094662, "train/model_loss_std": 13.090755717855105, "train/model_opt_grad_norm": 19.2970539684027, "train/model_opt_grad_steps": 683445.4507042253, "train/model_opt_loss": 25556.603666923416, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3556.3380281690143, "train/policy_entropy_mag": 2.7122564215055656, "train/policy_entropy_max": 2.7122564215055656, "train/policy_entropy_mean": 0.4853189205619651, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6947408200989307, "train/policy_logprob_mag": 7.438384271003831, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.48478429754015423, "train/policy_logprob_min": -7.438384271003831, "train/policy_logprob_std": 1.0910045949506089, "train/policy_randomness_mag": 0.9573074923434728, "train/policy_randomness_max": 0.9573074923434728, "train/policy_randomness_mean": 0.1712962839175278, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2452130223244009, "train/post_ent_mag": 54.94106083184901, "train/post_ent_max": 54.94106083184901, "train/post_ent_mean": 39.78990108866087, "train/post_ent_min": 19.603592912915726, "train/post_ent_std": 5.75736906159092, "train/prior_ent_mag": 76.79783759318607, "train/prior_ent_max": 76.79783759318607, "train/prior_ent_mean": 45.565437531807056, "train/prior_ent_min": 27.408139242252833, "train/prior_ent_std": 7.9613729732137335, "train/rep_loss_mean": 5.788674958994691, "train/rep_loss_std": 9.006675935127365, "train/reward_avg": 0.053981899008364746, "train/reward_loss_mean": 0.06665136324058116, "train/reward_loss_std": 0.22306474119844572, "train/reward_max_data": 1.0464788843208634, "train/reward_max_pred": 1.0435927753717127, "train/reward_neg_acc": 0.991954074779027, "train/reward_neg_loss": 0.026871999305948406, "train/reward_pos_acc": 0.9928349231330442, "train/reward_pos_loss": 0.7100489089186762, "train/reward_pred": 0.05375877620888428, "train/reward_rate": 0.05826364436619718, "stats/sum_log_reward": 11.725000321865082, "stats/max_log_achievement_collect_coal": 1.25, "stats/max_log_achievement_collect_drink": 3.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 0.875, "stats/max_log_achievement_collect_stone": 12.625, "stats/max_log_achievement_collect_wood": 9.875, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.625, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.625, "stats/max_log_achievement_make_stone_sword": 0.375, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.25, "stats/max_log_achievement_place_furnace": 1.75, "stats/max_log_achievement_place_plant": 0.875, "stats/max_log_achievement_place_stone": 3.375, "stats/max_log_achievement_place_table": 2.625, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.4396064132452011, "replay/size": 1000000.0, "replay/inserts": 1424.0, "replay/samples": 11392.0, "replay/insert_wait_avg": 3.76949149571108e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3921074987797255e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0285210609436, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030585765838623047, "timer/logger.write_frac": 0.00010194286106689931, "timer/logger.write_avg": 0.030585765838623047, "timer/logger.write_min": 0.030585765838623047, "timer/logger.write_max": 0.030585765838623047, "timer/replay.add_count": 1424.0, "timer/replay.add_total": 0.2849564552307129, "timer/replay.add_frac": 0.0009497645564597201, "timer/replay.add_avg": 0.00020010987024628713, "timer/replay.add_min": 7.796287536621094e-05, "timer/replay.add_max": 0.0006635189056396484, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1424.0, "timer/env.step_total": 22.60954713821411, "timer/env.step_frac": 0.07535799282769362, "timer/env.step_avg": 0.015877490967846988, "timer/env.step_min": 0.003175020217895508, "timer/env.step_max": 1.905277967453003, "timer/agent.policy_count": 1424.0, "timer/agent.policy_total": 12.203054666519165, "timer/agent.policy_frac": 0.04067298209972647, "timer/agent.policy_avg": 0.008569560861319638, "timer/agent.policy_min": 0.005719423294067383, "timer/agent.policy_max": 1.235443115234375, "timer/dataset_count": 712.0, "timer/dataset_total": 0.06060171127319336, "timer/dataset_frac": 0.00020198650134626225, "timer/dataset_avg": 8.511476302414797e-05, "timer/dataset_min": 6.198883056640625e-05, "timer/dataset_max": 0.00027871131896972656, "timer/agent.train_count": 712.0, "timer/agent.train_total": 264.1719617843628, "timer/agent.train_frac": 0.8804894976324688, "timer/agent.train_avg": 0.37102803621399266, "timer/agent.train_min": 0.3625619411468506, "timer/agent.train_max": 0.9613752365112305, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2001950740814209, "timer/agent.report_frac": 0.0006672534776810638, "timer/agent.report_avg": 0.2001950740814209, "timer/agent.report_min": 0.2001950740814209, "timer/agent.report_max": 0.2001950740814209, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002846717834472656, "timer/checkpoint.save_frac": 9.488157407190011e-07, "timer/checkpoint.save_avg": 0.0002846717834472656, "timer/checkpoint.save_min": 0.0002846717834472656, "timer/checkpoint.save_max": 0.0002846717834472656, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2404778003692627, "timer/agent.save_frac": 0.004134532930345276, "timer/agent.save_avg": 1.2404778003692627, "timer/agent.save_min": 1.2404778003692627, "timer/agent.save_max": 1.2404778003692627, "timer/replay.save_count": 1.0, "timer/replay.save_total": 2.5033950805664062e-05, "timer/replay.save_frac": 8.343857016373126e-08, "timer/replay.save_avg": 2.5033950805664062e-05, "timer/replay.save_min": 2.5033950805664062e-05, "timer/replay.save_max": 2.5033950805664062e-05, "fps": 4.746110813730241}
{"step": 1369974, "episode/length": 156.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.08280254777070063}
{"step": 1370190, "episode/length": 215.0, "episode/score": 12.100000023841858, "episode/sum_abs_reward": 14.299999982118607, "episode/reward_rate": 0.06481481481481481}
{"step": 1370441, "episode/length": 250.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.05976095617529881}
{"step": 1370680, "episode/length": 238.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.058577405857740586}
{"step": 1370847, "episode/length": 166.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.0718562874251497}
{"step": 1371014, "episode/length": 166.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.500000022351742, "episode/reward_rate": 0.07784431137724551}
{"step": 1371289, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.464353796553938, "train/action_min": 0.0, "train/action_std": 3.3418928793031877, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03362473472952843, "train/actor_opt_grad_steps": 684730.0, "train/actor_opt_loss": -10.998675270848079, "train/adv_mag": 0.37510459553705505, "train/adv_max": 0.32295936019453286, "train/adv_mean": 0.002085265222034002, "train/adv_min": -0.32475082188436427, "train/adv_std": 0.0388249507403537, "train/cont_avg": 0.9954382491438356, "train/cont_loss_mean": 6.855880086395824e-05, "train/cont_loss_std": 0.0021211938998295745, "train/cont_neg_acc": 0.9954337910430072, "train/cont_neg_loss": 0.00959139275848216, "train/cont_pos_acc": 0.9999999795874505, "train/cont_pos_loss": 1.2537772662442078e-05, "train/cont_pred": 0.9954500337169595, "train/cont_rate": 0.9954382491438356, "train/dyn_loss_mean": 5.822370679411169, "train/dyn_loss_std": 9.068964154752967, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8263006545092961, "train/extr_critic_critic_opt_grad_steps": 684730.0, "train/extr_critic_critic_opt_loss": 14994.869368043665, "train/extr_critic_mag": 12.715242803913274, "train/extr_critic_max": 12.715242803913274, "train/extr_critic_mean": 3.6555419850022823, "train/extr_critic_min": -0.3780321242058114, "train/extr_critic_std": 3.0780495421527183, "train/extr_return_normed_mag": 1.3826721939322066, "train/extr_return_normed_max": 1.3826721939322066, "train/extr_return_normed_mean": 0.3812661632283093, "train/extr_return_normed_min": -0.057795103269386784, "train/extr_return_normed_std": 0.3156906494947329, "train/extr_return_rate": 0.820930587102289, "train/extr_return_raw_mag": 13.5270311015926, "train/extr_return_raw_max": 13.5270311015926, "train/extr_return_raw_mean": 3.67603902620812, "train/extr_return_raw_min": -0.6434952024727651, "train/extr_return_raw_std": 3.105563278067602, "train/extr_reward_mag": 1.087563733532004, "train/extr_reward_max": 1.087563733532004, "train/extr_reward_mean": 0.06424216951613557, "train/extr_reward_min": -0.5290006333834505, "train/extr_reward_std": 0.24299926076033343, "train/image_loss_mean": 3.7515316466762596, "train/image_loss_std": 9.026905288435009, "train/model_loss_mean": 7.312183628343556, "train/model_loss_std": 13.170794682959988, "train/model_opt_grad_norm": 18.650039320122705, "train/model_opt_grad_steps": 684164.1369863014, "train/model_opt_loss": 10437.08930864726, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1421.2328767123288, "train/policy_entropy_mag": 2.719894980731076, "train/policy_entropy_max": 2.719894980731076, "train/policy_entropy_mean": 0.4711855805083497, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6846787341653484, "train/policy_logprob_mag": 7.438384278179848, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4714604620247671, "train/policy_logprob_min": -7.438384278179848, "train/policy_logprob_std": 1.0870588258521197, "train/policy_randomness_mag": 0.9600035678850461, "train/policy_randomness_max": 0.9600035678850461, "train/policy_randomness_mean": 0.16630783299468968, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24166154800212547, "train/post_ent_mag": 55.381688679734324, "train/post_ent_max": 55.381688679734324, "train/post_ent_mean": 39.93055787805009, "train/post_ent_min": 19.60005133119348, "train/post_ent_std": 5.822624565803841, "train/prior_ent_mag": 76.86018685118793, "train/prior_ent_max": 76.86018685118793, "train/prior_ent_mean": 45.7076837200008, "train/prior_ent_min": 27.536307295707807, "train/prior_ent_std": 8.029626487052603, "train/rep_loss_mean": 5.822370679411169, "train/rep_loss_std": 9.068964154752967, "train/reward_avg": 0.05364271135975237, "train/reward_loss_mean": 0.06716106576870566, "train/reward_loss_std": 0.2345535391814088, "train/reward_max_data": 1.0301369934865874, "train/reward_max_pred": 1.026744248115853, "train/reward_neg_acc": 0.9921943316720936, "train/reward_neg_loss": 0.02672308248352923, "train/reward_pos_acc": 0.9890303268824538, "train/reward_pos_loss": 0.7276004218075374, "train/reward_pred": 0.05300934413728649, "train/reward_rate": 0.05779109589041096, "stats/sum_log_reward": 12.43333371480306, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 1.6666666666666667, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 14.166666666666666, "stats/max_log_achievement_collect_wood": 10.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.8333333333333333, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.5, "stats/max_log_achievement_make_stone_sword": 1.1666666666666667, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.8333333333333333, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 2.5, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3445052703221639, "replay/size": 1000000.0, "replay/inserts": 1464.0, "replay/samples": 11712.0, "replay/insert_wait_avg": 3.575138706978553e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3873754629020483e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.345232963562, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02481245994567871, "timer/logger.write_frac": 8.261313056594765e-05, "timer/logger.write_avg": 0.02481245994567871, "timer/logger.write_min": 0.02481245994567871, "timer/logger.write_max": 0.02481245994567871, "timer/replay.add_count": 1464.0, "timer/replay.add_total": 0.28383731842041016, "timer/replay.add_frac": 0.0009450368684721072, "timer/replay.add_avg": 0.00019387794974071732, "timer/replay.add_min": 8.106231689453125e-05, "timer/replay.add_max": 0.0013127326965332031, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1464.0, "timer/env.step_total": 17.94097137451172, "timer/env.step_frac": 0.05973449685711617, "timer/env.step_avg": 0.012254761867835874, "timer/env.step_min": 0.0029349327087402344, "timer/env.step_max": 1.6467137336730957, "timer/agent.policy_count": 1464.0, "timer/agent.policy_total": 10.573721647262573, "timer/agent.policy_frac": 0.03520522547646155, "timer/agent.policy_avg": 0.007222487463977167, "timer/agent.policy_min": 0.0057599544525146484, "timer/agent.policy_max": 0.015715360641479492, "timer/dataset_count": 732.0, "timer/dataset_total": 0.05997729301452637, "timer/dataset_frac": 0.00019969450629437103, "timer/dataset_avg": 8.193619264279558e-05, "timer/dataset_min": 6.008148193359375e-05, "timer/dataset_max": 0.0001552104949951172, "timer/agent.train_count": 732.0, "timer/agent.train_total": 270.7928764820099, "timer/agent.train_frac": 0.9016053752877862, "timer/agent.train_avg": 0.3699356236093031, "timer/agent.train_min": 0.3632853031158447, "timer/agent.train_max": 0.4032127857208252, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20348334312438965, "timer/agent.report_frac": 0.0006774981614210482, "timer/agent.report_avg": 0.20348334312438965, "timer/agent.report_min": 0.20348334312438965, "timer/agent.report_max": 0.20348334312438965, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.874309069749222}
{"step": 1371559, "episode/length": 544.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.500000022351742, "episode/reward_rate": 0.029357798165137616}
{"step": 1371790, "episode/length": 230.0, "episode/score": 14.099999971687794, "episode/sum_abs_reward": 16.900000043213367, "episode/reward_rate": 0.06926406926406926}
{"step": 1371971, "episode/length": 180.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.08287292817679558}
{"step": 1372296, "episode/length": 324.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 15.900000013411045, "episode/reward_rate": 0.046153846153846156}
{"step": 1372541, "episode/length": 244.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.05714285714285714}
{"step": 1372759, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.426095498574747, "train/action_min": 0.0, "train/action_std": 3.3485384502926387, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03456307778990752, "train/actor_opt_grad_steps": 685465.0, "train/actor_opt_loss": -11.098488338895747, "train/adv_mag": 0.3724936836877385, "train/adv_max": 0.30641392437187404, "train/adv_mean": 0.0018753155943429462, "train/adv_min": -0.32897371416156357, "train/adv_std": 0.038942076618204244, "train/cont_avg": 0.9952491554054054, "train/cont_loss_mean": 0.00015361839128806, "train/cont_loss_std": 0.004842284935813191, "train/cont_neg_acc": 0.9939189190800125, "train/cont_neg_loss": 0.030996908293474332, "train/cont_pos_acc": 0.9999999806687638, "train/cont_pos_loss": 1.8528439316156664e-05, "train/cont_pred": 0.9952649917151477, "train/cont_rate": 0.9952491554054054, "train/dyn_loss_mean": 5.769226306193584, "train/dyn_loss_std": 9.06468002216236, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8571306128759641, "train/extr_critic_critic_opt_grad_steps": 685465.0, "train/extr_critic_critic_opt_loss": 14990.827108847128, "train/extr_critic_mag": 12.799823464574041, "train/extr_critic_max": 12.799823464574041, "train/extr_critic_mean": 3.6898748971320487, "train/extr_critic_min": -0.3566282198235795, "train/extr_critic_std": 3.087096855447099, "train/extr_return_normed_mag": 1.3812040380529456, "train/extr_return_normed_max": 1.3812040380529456, "train/extr_return_normed_mean": 0.38753365342681473, "train/extr_return_normed_min": -0.06274559497329835, "train/extr_return_normed_std": 0.31878413320393173, "train/extr_return_rate": 0.8269778022894988, "train/extr_return_raw_mag": 13.415399744703963, "train/extr_return_raw_max": 13.415399744703963, "train/extr_return_raw_mean": 3.7082130490122616, "train/extr_return_raw_min": -0.6906865597576708, "train/extr_return_raw_std": 3.114329238195677, "train/extr_reward_mag": 1.090794031684463, "train/extr_reward_max": 1.090794031684463, "train/extr_reward_mean": 0.06541555319484826, "train/extr_reward_min": -0.5704319299878301, "train/extr_reward_std": 0.24517814593540654, "train/image_loss_mean": 3.568723108317401, "train/image_loss_std": 9.022761808859336, "train/model_loss_mean": 7.097187976579408, "train/model_loss_std": 13.165100058993778, "train/model_opt_grad_norm": 19.52962403684049, "train/model_opt_grad_steps": 684899.0, "train/model_opt_loss": 13306.221033044763, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1875.0, "train/policy_entropy_mag": 2.7338805102013253, "train/policy_entropy_max": 2.7338805102013253, "train/policy_entropy_mean": 0.4798729097520983, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.699990642634598, "train/policy_logprob_mag": 7.438384288066143, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.47915405598846644, "train/policy_logprob_min": -7.438384288066143, "train/policy_logprob_std": 1.091961215476732, "train/policy_randomness_mag": 0.9649398463803369, "train/policy_randomness_max": 0.9649398463803369, "train/policy_randomness_mean": 0.16937407881424232, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2470659790812312, "train/post_ent_mag": 55.34525500117122, "train/post_ent_max": 55.34525500117122, "train/post_ent_mean": 39.68775759516536, "train/post_ent_min": 19.7812661866884, "train/post_ent_std": 5.816301223394033, "train/prior_ent_mag": 76.80840600503457, "train/prior_ent_max": 76.80840600503457, "train/prior_ent_mean": 45.40026541013975, "train/prior_ent_min": 27.160986642579775, "train/prior_ent_std": 8.047907178466385, "train/rep_loss_mean": 5.769226306193584, "train/rep_loss_std": 9.06468002216236, "train/reward_avg": 0.053266205170468706, "train/reward_loss_mean": 0.0667755271534662, "train/reward_loss_std": 0.22282060235738754, "train/reward_max_data": 1.0310810884913884, "train/reward_max_pred": 1.0296362509598602, "train/reward_neg_acc": 0.9922159966584798, "train/reward_neg_loss": 0.027616110655504303, "train/reward_pos_acc": 0.9932395880286758, "train/reward_pos_loss": 0.7093996711679407, "train/reward_pred": 0.05307550813902069, "train/reward_rate": 0.05741923564189189, "stats/sum_log_reward": 14.100000381469727, "stats/max_log_achievement_collect_coal": 0.6, "stats/max_log_achievement_collect_drink": 5.6, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 3.0, "stats/max_log_achievement_collect_stone": 18.4, "stats/max_log_achievement_collect_wood": 14.8, "stats/max_log_achievement_defeat_skeleton": 0.2, "stats/max_log_achievement_defeat_zombie": 1.8, "stats/max_log_achievement_eat_cow": 0.8, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.2, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 3.0, "stats/max_log_achievement_place_stone": 4.4, "stats/max_log_achievement_place_table": 4.0, "stats/max_log_achievement_wake_up": 1.4, "stats/mean_log_entropy": 0.7139091968536377, "replay/size": 1000000.0, "replay/inserts": 1470.0, "replay/samples": 11760.0, "replay/insert_wait_avg": 3.641478869379783e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4026757000254937e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.31606912612915, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025343656539916992, "timer/logger.write_frac": 8.438994494587954e-05, "timer/logger.write_avg": 0.025343656539916992, "timer/logger.write_min": 0.025343656539916992, "timer/logger.write_max": 0.025343656539916992, "timer/replay.add_count": 1470.0, "timer/replay.add_total": 0.29283928871154785, "timer/replay.add_frac": 0.0009751036285326406, "timer/replay.add_avg": 0.00019921040048404617, "timer/replay.add_min": 7.462501525878906e-05, "timer/replay.add_max": 0.0008170604705810547, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1470.0, "timer/env.step_total": 16.753259658813477, "timer/env.step_frac": 0.0557854253605634, "timer/env.step_avg": 0.011396775278104405, "timer/env.step_min": 0.003023862838745117, "timer/env.step_max": 1.6175522804260254, "timer/agent.policy_count": 1470.0, "timer/agent.policy_total": 10.729922771453857, "timer/agent.policy_frac": 0.03572876670461286, "timer/agent.policy_avg": 0.007299267191465209, "timer/agent.policy_min": 0.005757570266723633, "timer/agent.policy_max": 0.029221534729003906, "timer/dataset_count": 735.0, "timer/dataset_total": 0.059705257415771484, "timer/dataset_frac": 0.0001988080677451062, "timer/dataset_avg": 8.123164274254623e-05, "timer/dataset_min": 6.079673767089844e-05, "timer/dataset_max": 0.00017118453979492188, "timer/agent.train_count": 735.0, "timer/agent.train_total": 271.78319096565247, "timer/agent.train_frac": 0.904990504692264, "timer/agent.train_avg": 0.3697730489328605, "timer/agent.train_min": 0.36342906951904297, "timer/agent.train_max": 0.3815798759460449, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20192193984985352, "timer/agent.report_frac": 0.0006723647536990394, "timer/agent.report_avg": 0.20192193984985352, "timer/agent.report_min": 0.20192193984985352, "timer/agent.report_max": 0.20192193984985352, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.894735879552945}
{"step": 1372984, "episode/length": 442.0, "episode/score": 15.100000016391277, "episode/sum_abs_reward": 17.700000055134296, "episode/reward_rate": 0.03611738148984198}
{"step": 1373054, "episode/length": 69.0, "episode/score": 3.099999986588955, "episode/sum_abs_reward": 5.100000016391277, "episode/reward_rate": 0.05714285714285714}
{"step": 1373211, "episode/length": 156.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.08917197452229299}
{"step": 1373349, "episode/length": 137.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.100000031292439, "episode/reward_rate": 0.07971014492753623}
{"step": 1373619, "episode/length": 269.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.044444444444444446}
{"step": 1373735, "episode/length": 115.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.10344827586206896}
{"step": 1373900, "episode/length": 164.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.30000001937151, "episode/reward_rate": 0.06666666666666667}
{"step": 1374122, "episode/length": 221.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.06756756756756757}
{"step": 1374191, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.344336281360035, "train/action_min": 0.0, "train/action_std": 3.2915366468295244, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03421823730246282, "train/actor_opt_grad_steps": 686190.0, "train/actor_opt_loss": -12.322859039818736, "train/adv_mag": 0.4022131402727584, "train/adv_max": 0.32925097497416217, "train/adv_mean": 0.0012905037257669519, "train/adv_min": -0.3541829288005829, "train/adv_std": 0.039570125843017875, "train/cont_avg": 0.995268485915493, "train/cont_loss_mean": 1.1858519784664407e-05, "train/cont_loss_std": 0.0003433095635075925, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00012535439746561133, "train/cont_pos_acc": 0.999999979012449, "train/cont_pos_loss": 1.1320382275249905e-05, "train/cont_pred": 0.9952594176144667, "train/cont_rate": 0.995268485915493, "train/dyn_loss_mean": 5.793100733152578, "train/dyn_loss_std": 9.01995350609363, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8257982176794133, "train/extr_critic_critic_opt_grad_steps": 686190.0, "train/extr_critic_critic_opt_loss": 14942.058855083627, "train/extr_critic_mag": 12.82080763158664, "train/extr_critic_max": 12.82080763158664, "train/extr_critic_mean": 3.8056951072854055, "train/extr_critic_min": -0.38363576271164584, "train/extr_critic_std": 3.141809735499637, "train/extr_return_normed_mag": 1.3819392298308897, "train/extr_return_normed_max": 1.3819392298308897, "train/extr_return_normed_mean": 0.39525693613038937, "train/extr_return_normed_min": -0.06304958053457906, "train/extr_return_normed_std": 0.32124852336628335, "train/extr_return_rate": 0.821301025404057, "train/extr_return_raw_mag": 13.539032895800094, "train/extr_return_raw_max": 13.539032895800094, "train/extr_return_raw_mean": 3.8184206586488534, "train/extr_return_raw_min": -0.6969479603666655, "train/extr_return_raw_std": 3.1650092467455795, "train/extr_reward_mag": 1.086486299272994, "train/extr_reward_max": 1.086486299272994, "train/extr_reward_mean": 0.06542136430950232, "train/extr_reward_min": -0.6361996590251654, "train/extr_reward_std": 0.24535901844501495, "train/image_loss_mean": 3.6346146556693064, "train/image_loss_std": 9.313070411413488, "train/model_loss_mean": 7.179395816695522, "train/model_loss_std": 13.459616190950635, "train/model_opt_grad_norm": 20.51778906164035, "train/model_opt_grad_steps": 685623.1830985915, "train/model_opt_loss": 10679.624731789172, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1478.8732394366198, "train/policy_entropy_mag": 2.72150002398961, "train/policy_entropy_max": 2.72150002398961, "train/policy_entropy_mean": 0.4640150787964673, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6739913674307542, "train/policy_logprob_mag": 7.438384297867896, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4633115911987466, "train/policy_logprob_min": -7.438384297867896, "train/policy_logprob_std": 1.0782658885902083, "train/policy_randomness_mag": 0.9605700818585677, "train/policy_randomness_max": 0.9605700818585677, "train/policy_randomness_mean": 0.16377696289982593, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2378893752752895, "train/post_ent_mag": 54.65095498528279, "train/post_ent_max": 54.65095498528279, "train/post_ent_mean": 39.51435051501637, "train/post_ent_min": 19.500718546585297, "train/post_ent_std": 5.752079063737896, "train/prior_ent_mag": 76.84996569996149, "train/prior_ent_max": 76.84996569996149, "train/prior_ent_mean": 45.28503648999711, "train/prior_ent_min": 27.258082913680816, "train/prior_ent_std": 8.039676686407814, "train/rep_loss_mean": 5.793100733152578, "train/rep_loss_std": 9.01995350609363, "train/reward_avg": 0.054323007942925036, "train/reward_loss_mean": 0.06890886161528842, "train/reward_loss_std": 0.23745201507084807, "train/reward_max_data": 1.0380281780807066, "train/reward_max_pred": 1.037671320874926, "train/reward_neg_acc": 0.9919959399062144, "train/reward_neg_loss": 0.02813403267728191, "train/reward_pos_acc": 0.9910028484505666, "train/reward_pos_loss": 0.7241848094362608, "train/reward_pred": 0.05390110661761022, "train/reward_rate": 0.058538732394366196, "stats/sum_log_reward": 10.975000202655792, "stats/max_log_achievement_collect_coal": 0.75, "stats/max_log_achievement_collect_drink": 2.125, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 14.125, "stats/max_log_achievement_collect_wood": 11.875, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.625, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.75, "stats/max_log_achievement_make_wood_pickaxe": 0.875, "stats/max_log_achievement_make_wood_sword": 0.75, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 3.125, "stats/max_log_achievement_place_table": 3.5, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.4394455626606941, "replay/size": 1000000.0, "replay/inserts": 1432.0, "replay/samples": 11456.0, "replay/insert_wait_avg": 3.678838633958188e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3689713438129958e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.14094710350037, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.031184673309326172, "timer/logger.write_frac": 0.0001039000963056616, "timer/logger.write_avg": 0.031184673309326172, "timer/logger.write_min": 0.031184673309326172, "timer/logger.write_max": 0.031184673309326172, "timer/replay.add_count": 1432.0, "timer/replay.add_total": 0.2799715995788574, "timer/replay.add_frac": 0.0009328004135414161, "timer/replay.add_avg": 0.00019551089356065462, "timer/replay.add_min": 8.535385131835938e-05, "timer/replay.add_max": 0.004326820373535156, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1432.0, "timer/env.step_total": 20.74934196472168, "timer/env.step_frac": 0.06913199336832403, "timer/env.step_avg": 0.014489763941844749, "timer/env.step_min": 0.002948284149169922, "timer/env.step_max": 1.6065683364868164, "timer/agent.policy_count": 1432.0, "timer/agent.policy_total": 13.486747980117798, "timer/agent.policy_frac": 0.04493471520720909, "timer/agent.policy_avg": 0.009418120097847624, "timer/agent.policy_min": 0.005543708801269531, "timer/agent.policy_max": 3.1280975341796875, "timer/dataset_count": 716.0, "timer/dataset_total": 0.058389902114868164, "timer/dataset_frac": 0.0001945416067962664, "timer/dataset_avg": 8.155014261853096e-05, "timer/dataset_min": 6.0558319091796875e-05, "timer/dataset_max": 0.00019073486328125, "timer/agent.train_count": 716.0, "timer/agent.train_total": 264.87018394470215, "timer/agent.train_frac": 0.8824860003302533, "timer/agent.train_avg": 0.36993042450377395, "timer/agent.train_min": 0.36380767822265625, "timer/agent.train_max": 0.3833315372467041, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20041489601135254, "timer/agent.report_frac": 0.0006677359352179349, "timer/agent.report_avg": 0.20041489601135254, "timer/agent.report_min": 0.20041489601135254, "timer/agent.report_max": 0.20041489601135254, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002601146697998047, "timer/checkpoint.save_frac": 8.666417305270479e-07, "timer/checkpoint.save_avg": 0.0002601146697998047, "timer/checkpoint.save_min": 0.0002601146697998047, "timer/checkpoint.save_max": 0.0002601146697998047, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4076132774353027, "timer/agent.save_frac": 0.004689840859834105, "timer/agent.save_avg": 1.4076132774353027, "timer/agent.save_min": 1.4076132774353027, "timer/agent.save_max": 1.4076132774353027, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.606910705566406e-05, "timer/replay.save_frac": 2.8676229580225875e-07, "timer/replay.save_avg": 8.606910705566406e-05, "timer/replay.save_min": 8.606910705566406e-05, "timer/replay.save_max": 8.606910705566406e-05, "fps": 4.771012549180148}
{"step": 1374324, "episode/length": 201.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.07425742574257425}
{"step": 1374549, "episode/length": 224.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.30000001937151, "episode/reward_rate": 0.07111111111111111}
{"step": 1374769, "episode/length": 219.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 11.700000002980232, "episode/reward_rate": 0.05}
{"step": 1375006, "episode/length": 236.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.05907172995780591}
{"step": 1375223, "episode/length": 216.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.06451612903225806}
{"step": 1375425, "episode/length": 201.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.06930693069306931}
{"step": 1375592, "episode/length": 166.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.08383233532934131}
{"step": 1375647, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.501340265143408, "train/action_min": 0.0, "train/action_std": 3.3794792090376764, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03441214650767307, "train/actor_opt_grad_steps": 686910.0, "train/actor_opt_loss": -13.141435109997449, "train/adv_mag": 0.41485153118224993, "train/adv_max": 0.3488527062821062, "train/adv_mean": 0.0011236141483893073, "train/adv_min": -0.35508122856486335, "train/adv_std": 0.038896362820308505, "train/cont_avg": 0.995465004280822, "train/cont_loss_mean": 0.00019411443951543184, "train/cont_loss_std": 0.0059741887087991375, "train/cont_neg_acc": 0.9958904116121057, "train/cont_neg_loss": 0.011885574010416565, "train/cont_pos_acc": 0.9999730309394941, "train/cont_pos_loss": 0.00011731407154689019, "train/cont_pred": 0.9954327842960619, "train/cont_rate": 0.995465004280822, "train/dyn_loss_mean": 5.6872342449345, "train/dyn_loss_std": 8.956026665151935, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8502773111813688, "train/extr_critic_critic_opt_grad_steps": 686910.0, "train/extr_critic_critic_opt_loss": 14781.582713505994, "train/extr_critic_mag": 12.743610355952015, "train/extr_critic_max": 12.743610355952015, "train/extr_critic_mean": 3.7547896724857694, "train/extr_critic_min": -0.3415253995216056, "train/extr_critic_std": 3.070198999692316, "train/extr_return_normed_mag": 1.370182265974071, "train/extr_return_normed_max": 1.370182265974071, "train/extr_return_normed_mean": 0.38940553469200656, "train/extr_return_normed_min": -0.05965691368567617, "train/extr_return_normed_std": 0.31350594187436037, "train/extr_return_rate": 0.8342430534428114, "train/extr_return_raw_mag": 13.457480927036233, "train/extr_return_raw_max": 13.457480927036233, "train/extr_return_raw_mean": 3.7658826063757074, "train/extr_return_raw_min": -0.6715431335854204, "train/extr_return_raw_std": 3.097822506133824, "train/extr_reward_mag": 1.0915915770073459, "train/extr_reward_max": 1.0915915770073459, "train/extr_reward_mean": 0.06434851874635644, "train/extr_reward_min": -0.5948028139872094, "train/extr_reward_std": 0.24299758856427178, "train/image_loss_mean": 3.4998778970274205, "train/image_loss_std": 8.532866850291214, "train/model_loss_mean": 6.977230718691055, "train/model_loss_std": 12.63965287927079, "train/model_opt_grad_norm": 18.814842916514774, "train/model_opt_grad_steps": 686343.0, "train/model_opt_loss": 12532.656290132705, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1780.8219178082193, "train/policy_entropy_mag": 2.727691620996554, "train/policy_entropy_max": 2.727691620996554, "train/policy_entropy_mean": 0.48524714822638526, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7110652588818172, "train/policy_logprob_mag": 7.438384252051785, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.484871360945375, "train/policy_logprob_min": -7.438384252051785, "train/policy_logprob_std": 1.0968980062497806, "train/policy_randomness_mag": 0.9627554400326455, "train/policy_randomness_max": 0.9627554400326455, "train/policy_randomness_mean": 0.17127095550706942, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.25097483008691707, "train/post_ent_mag": 55.28221574548173, "train/post_ent_max": 55.28221574548173, "train/post_ent_mean": 39.612169709924146, "train/post_ent_min": 19.60229447769792, "train/post_ent_std": 5.7563656062296, "train/prior_ent_mag": 76.69626356151007, "train/prior_ent_max": 76.69626356151007, "train/prior_ent_mean": 45.25982942973098, "train/prior_ent_min": 27.119124164320016, "train/prior_ent_std": 8.00641076205528, "train/rep_loss_mean": 5.6872342449345, "train/rep_loss_std": 8.956026665151935, "train/reward_avg": 0.052382544601616794, "train/reward_loss_mean": 0.0648181532343773, "train/reward_loss_std": 0.2199137023050491, "train/reward_max_data": 1.038356173528384, "train/reward_max_pred": 1.0365604668447417, "train/reward_neg_acc": 0.9924175224892081, "train/reward_neg_loss": 0.026312551984231766, "train/reward_pos_acc": 0.9942267684087361, "train/reward_pos_loss": 0.7076180022056788, "train/reward_pred": 0.052247782378164055, "train/reward_rate": 0.0565603595890411, "stats/sum_log_reward": 12.957143102373395, "stats/max_log_achievement_collect_coal": 0.14285714285714285, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.4285714285714284, "stats/max_log_achievement_collect_stone": 15.285714285714286, "stats/max_log_achievement_collect_wood": 12.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.7142857142857144, "stats/max_log_achievement_eat_cow": 0.42857142857142855, "stats/max_log_achievement_make_stone_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_stone_sword": 0.8571428571428571, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.8571428571428572, "stats/max_log_achievement_place_plant": 2.4285714285714284, "stats/max_log_achievement_place_stone": 2.5714285714285716, "stats/max_log_achievement_place_table": 3.5714285714285716, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.31019256157534464, "replay/size": 1000000.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.6109934796343794e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3844775302069529e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.28911876678467, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03178119659423828, "timer/logger.write_frac": 0.00010583532538493578, "timer/logger.write_avg": 0.03178119659423828, "timer/logger.write_min": 0.03178119659423828, "timer/logger.write_max": 0.03178119659423828, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.30048060417175293, "timer/replay.add_frac": 0.0010006376701418775, "timer/replay.add_avg": 0.00020637404132675338, "timer/replay.add_min": 8.273124694824219e-05, "timer/replay.add_max": 0.007303714752197266, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1456.0, "timer/env.step_total": 19.370503187179565, "timer/env.step_frac": 0.06450617746899912, "timer/env.step_avg": 0.013303917024161789, "timer/env.step_min": 0.002817869186401367, "timer/env.step_max": 1.5945374965667725, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 10.642564296722412, "timer/agent.policy_frac": 0.03544105873842139, "timer/agent.policy_avg": 0.007309453500496162, "timer/agent.policy_min": 0.00572967529296875, "timer/agent.policy_max": 0.024226665496826172, "timer/dataset_count": 728.0, "timer/dataset_total": 0.05913734436035156, "timer/dataset_frac": 0.00019693468948596751, "timer/dataset_avg": 8.12326158796038e-05, "timer/dataset_min": 6.0558319091796875e-05, "timer/dataset_max": 0.0001461505889892578, "timer/agent.train_count": 728.0, "timer/agent.train_total": 269.21860933303833, "timer/agent.train_frac": 0.8965313509815291, "timer/agent.train_avg": 0.36980578205087683, "timer/agent.train_min": 0.362835168838501, "timer/agent.train_max": 0.3826122283935547, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.19909238815307617, "timer/agent.report_frac": 0.0006630023391147199, "timer/agent.report_avg": 0.19909238815307617, "timer/agent.report_min": 0.19909238815307617, "timer/agent.report_max": 0.19909238815307617, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.848570049083444}
{"step": 1375860, "episode/length": 267.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.700000002980232, "episode/reward_rate": 0.05223880597014925}
{"step": 1376086, "episode/length": 225.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.06637168141592921}
{"step": 1376372, "episode/length": 285.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 18.300000049173832, "episode/reward_rate": 0.055944055944055944}
{"step": 1376645, "episode/length": 272.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.05128205128205128}
{"step": 1376824, "episode/length": 178.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.0782122905027933}
{"step": 1376949, "episode/length": 124.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.100000016391277, "episode/reward_rate": 0.104}
{"step": 1377110, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.542583308807791, "train/action_min": 0.0, "train/action_std": 3.436026582979176, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0340676355902871, "train/actor_opt_grad_steps": 687640.0, "train/actor_opt_loss": -12.711227328809974, "train/adv_mag": 0.3950836760540531, "train/adv_max": 0.30519795887274287, "train/adv_mean": 0.001368451028449197, "train/adv_min": -0.3638801227693688, "train/adv_std": 0.038602238087213206, "train/cont_avg": 0.9954382491438356, "train/cont_loss_mean": 8.740757470436682e-05, "train/cont_loss_std": 0.0027026443387048607, "train/cont_neg_acc": 0.9938356166016565, "train/cont_neg_loss": 0.007149834886320734, "train/cont_pos_acc": 0.9999731607633094, "train/cont_pos_loss": 5.68425843838456e-05, "train/cont_pred": 0.9954277783224027, "train/cont_rate": 0.9954382491438356, "train/dyn_loss_mean": 5.775580458445091, "train/dyn_loss_std": 8.951704038332586, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8245667210996968, "train/extr_critic_critic_opt_grad_steps": 687640.0, "train/extr_critic_critic_opt_loss": 14953.50968535959, "train/extr_critic_mag": 12.8031807860283, "train/extr_critic_max": 12.8031807860283, "train/extr_critic_mean": 3.685749485068125, "train/extr_critic_min": -0.3770970873636742, "train/extr_critic_std": 3.097362704472999, "train/extr_return_normed_mag": 1.3827690065723577, "train/extr_return_normed_max": 1.3827690065723577, "train/extr_return_normed_mean": 0.38723910426440306, "train/extr_return_normed_min": -0.06313926749543784, "train/extr_return_normed_std": 0.3177162576211642, "train/extr_return_rate": 0.8246112016782369, "train/extr_return_raw_mag": 13.466058678822975, "train/extr_return_raw_max": 13.466058678822975, "train/extr_return_raw_mean": 3.6991679113205165, "train/extr_return_raw_min": -0.7199246809907156, "train/extr_return_raw_std": 3.117323930949381, "train/extr_reward_mag": 1.0846587174559292, "train/extr_reward_max": 1.0846587174559292, "train/extr_reward_mean": 0.06645265573712245, "train/extr_reward_min": -0.6114295329133125, "train/extr_reward_std": 0.2470936322048919, "train/image_loss_mean": 3.6346827141226155, "train/image_loss_std": 8.614553046553102, "train/model_loss_mean": 7.165829573592094, "train/model_loss_std": 12.749972095228221, "train/model_opt_grad_norm": 18.24765895164176, "train/model_opt_grad_steps": 687073.0, "train/model_opt_loss": 18930.343602846748, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2636.986301369863, "train/policy_entropy_mag": 2.7400393322722554, "train/policy_entropy_max": 2.7400393322722554, "train/policy_entropy_mean": 0.4986434721783416, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7158370842672375, "train/policy_logprob_mag": 7.438384271647832, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4988037743797041, "train/policy_logprob_min": -7.438384271647832, "train/policy_logprob_std": 1.1066418763709396, "train/policy_randomness_mag": 0.9671136402103999, "train/policy_randomness_max": 0.9671136402103999, "train/policy_randomness_mean": 0.1759992635821643, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.25265907628895484, "train/post_ent_mag": 55.4240633298273, "train/post_ent_max": 55.4240633298273, "train/post_ent_mean": 39.67295340969138, "train/post_ent_min": 19.227542877197266, "train/post_ent_std": 5.780683491327991, "train/prior_ent_mag": 76.75334292895174, "train/prior_ent_max": 76.75334292895174, "train/prior_ent_mean": 45.40312435202403, "train/prior_ent_min": 27.325410346462302, "train/prior_ent_std": 8.053237248773444, "train/rep_loss_mean": 5.775580458445091, "train/rep_loss_std": 8.951704038332586, "train/reward_avg": 0.05412296642077296, "train/reward_loss_mean": 0.06571109674564779, "train/reward_loss_std": 0.22754171388606503, "train/reward_max_data": 1.0301369934865874, "train/reward_max_pred": 1.0254468754546282, "train/reward_neg_acc": 0.9926773277047563, "train/reward_neg_loss": 0.025239145868036845, "train/reward_pos_acc": 0.9908930447003613, "train/reward_pos_loss": 0.7203008279408494, "train/reward_pred": 0.0536685448701251, "train/reward_rate": 0.058259310787671235, "stats/sum_log_reward": 13.100000222524008, "stats/max_log_achievement_collect_coal": 2.0, "stats/max_log_achievement_collect_drink": 3.1666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 12.166666666666666, "stats/max_log_achievement_collect_wood": 12.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.3333333333333333, "stats/max_log_achievement_place_furnace": 1.3333333333333333, "stats/max_log_achievement_place_plant": 1.1666666666666667, "stats/max_log_achievement_place_stone": 3.1666666666666665, "stats/max_log_achievement_place_table": 3.5, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.5972532480955124, "replay/size": 1000000.0, "replay/inserts": 1463.0, "replay/samples": 11696.0, "replay/insert_wait_avg": 3.7244143587061583e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3890083772213123e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0106956958771, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.026926755905151367, "timer/logger.write_frac": 8.975265312689787e-05, "timer/logger.write_avg": 0.026926755905151367, "timer/logger.write_min": 0.026926755905151367, "timer/logger.write_max": 0.026926755905151367, "timer/replay.add_count": 1463.0, "timer/replay.add_total": 0.2853553295135498, "timer/replay.add_frac": 0.00095115052098948, "timer/replay.add_avg": 0.0001950480721213601, "timer/replay.add_min": 8.153915405273438e-05, "timer/replay.add_max": 0.0019044876098632812, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1463.0, "timer/env.step_total": 18.04976987838745, "timer/env.step_frac": 0.06016375461721747, "timer/env.step_avg": 0.012337505043327035, "timer/env.step_min": 0.002935171127319336, "timer/env.step_max": 1.6754000186920166, "timer/agent.policy_count": 1463.0, "timer/agent.policy_total": 10.554404973983765, "timer/agent.policy_frac": 0.03518009566126548, "timer/agent.policy_avg": 0.00721422076143798, "timer/agent.policy_min": 0.005695819854736328, "timer/agent.policy_max": 0.015595436096191406, "timer/dataset_count": 731.0, "timer/dataset_total": 0.059694766998291016, "timer/dataset_frac": 0.0001989754627241824, "timer/dataset_avg": 8.166178795935844e-05, "timer/dataset_min": 6.127357482910156e-05, "timer/dataset_max": 0.0001735687255859375, "timer/agent.train_count": 731.0, "timer/agent.train_total": 270.36697721481323, "timer/agent.train_frac": 0.9011911278286096, "timer/agent.train_avg": 0.36985906595733686, "timer/agent.train_min": 0.36385393142700195, "timer/agent.train_max": 0.38648080825805664, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.19995450973510742, "timer/agent.report_frac": 0.0006664912704905785, "timer/agent.report_avg": 0.19995450973510742, "timer/agent.report_min": 0.19995450973510742, "timer/agent.report_max": 0.19995450973510742, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.876413225495253}
{"step": 1377113, "episode/length": 163.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 14.900000013411045, "episode/reward_rate": 0.08536585365853659}
{"step": 1377409, "episode/length": 295.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.04054054054054054}
{"step": 1377653, "episode/length": 243.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.05737704918032787}
{"step": 1377890, "episode/length": 236.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 17.500000037252903, "episode/reward_rate": 0.06751054852320675}
{"step": 1378085, "episode/length": 194.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.07692307692307693}
{"step": 1378329, "episode/length": 243.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.500000022351742, "episode/reward_rate": 0.036885245901639344}
{"step": 1378549, "stats/sum_log_reward": 12.43333371480306, "stats/max_log_achievement_collect_coal": 1.3333333333333333, "stats/max_log_achievement_collect_drink": 1.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 17.5, "stats/max_log_achievement_collect_wood": 12.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 2.6666666666666665, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.5, "stats/max_log_achievement_place_furnace": 2.0, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 3.6666666666666665, "stats/max_log_achievement_place_table": 3.5, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.4797842005888621, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.480194939507379, "train/action_min": 0.0, "train/action_std": 3.354247553480996, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.034041909837267466, "train/actor_opt_grad_steps": 688365.0, "train/actor_opt_loss": -10.608750157058239, "train/adv_mag": 0.37998710614111686, "train/adv_max": 0.29092610213491654, "train/adv_mean": 0.0014298401174528408, "train/adv_min": -0.3584080361243751, "train/adv_std": 0.039025717311435275, "train/cont_avg": 0.9953070746527778, "train/cont_loss_mean": 1.1276175025029841e-05, "train/cont_loss_std": 0.0002420549678008557, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00027032700127656756, "train/cont_pos_acc": 0.9999999842709966, "train/cont_pos_loss": 1.0095822247140834e-05, "train/cont_pred": 0.9952984228730202, "train/cont_rate": 0.9953070746527778, "train/dyn_loss_mean": 5.990218083063762, "train/dyn_loss_std": 9.111382497681511, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8092259408699142, "train/extr_critic_critic_opt_grad_steps": 688365.0, "train/extr_critic_critic_opt_loss": 14942.321343315973, "train/extr_critic_mag": 12.561253971523708, "train/extr_critic_max": 12.561253971523708, "train/extr_critic_mean": 3.5956581864092083, "train/extr_critic_min": -0.4185065229733785, "train/extr_critic_std": 3.052273372809092, "train/extr_return_normed_mag": 1.3793155286047194, "train/extr_return_normed_max": 1.3793155286047194, "train/extr_return_normed_mean": 0.3827704360915555, "train/extr_return_normed_min": -0.06354888197448519, "train/extr_return_normed_std": 0.31696804405914414, "train/extr_return_rate": 0.8103443690472178, "train/extr_return_raw_mag": 13.281062854660881, "train/extr_return_raw_max": 13.281062854660881, "train/extr_return_raw_mean": 3.609539601537916, "train/extr_return_raw_min": -0.7227878119382594, "train/extr_return_raw_std": 3.0765118532710605, "train/extr_reward_mag": 1.0914418167538114, "train/extr_reward_max": 1.0914418167538114, "train/extr_reward_mean": 0.06497117504477501, "train/extr_reward_min": -0.5972097665071487, "train/extr_reward_std": 0.24447986649142373, "train/image_loss_mean": 3.701558623048994, "train/image_loss_std": 9.354083008236355, "train/model_loss_mean": 7.361914581722683, "train/model_loss_std": 13.495779964658949, "train/model_opt_grad_norm": 19.089066942532856, "train/model_opt_grad_steps": 687797.0, "train/model_opt_loss": 18404.786444769965, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7396350966559515, "train/policy_entropy_max": 2.7396350966559515, "train/policy_entropy_mean": 0.492253119746844, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7185342100759348, "train/policy_logprob_mag": 7.438384268018934, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.49240945610735154, "train/policy_logprob_min": -7.438384268018934, "train/policy_logprob_std": 1.1067738102542028, "train/policy_randomness_mag": 0.9669709627827009, "train/policy_randomness_max": 0.9669709627827009, "train/policy_randomness_mean": 0.17374375172787243, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.25361104495823383, "train/post_ent_mag": 55.68282990985446, "train/post_ent_max": 55.68282990985446, "train/post_ent_mean": 39.80253521601359, "train/post_ent_min": 18.979174931844074, "train/post_ent_std": 5.824280096424951, "train/prior_ent_mag": 76.84171136220296, "train/prior_ent_max": 76.84171136220296, "train/prior_ent_mean": 45.74464363522, "train/prior_ent_min": 27.25818353229099, "train/prior_ent_std": 8.060536404450735, "train/rep_loss_mean": 5.990218083063762, "train/rep_loss_std": 9.111382497681511, "train/reward_avg": 0.051722547660271324, "train/reward_loss_mean": 0.06621387844077414, "train/reward_loss_std": 0.2328440532502201, "train/reward_max_data": 1.0333333412806194, "train/reward_max_pred": 1.0332964493168726, "train/reward_neg_acc": 0.9926052863399187, "train/reward_neg_loss": 0.0267608165094215, "train/reward_pos_acc": 0.9872277329365412, "train/reward_pos_loss": 0.7327934114469422, "train/reward_pred": 0.0511132822268539, "train/reward_rate": 0.05605740017361111, "replay/size": 1000000.0, "replay/inserts": 1439.0, "replay/samples": 11520.0, "replay/insert_wait_avg": 3.835407705088305e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3399662242995369e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.18226528167725, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027393341064453125, "timer/logger.write_frac": 9.125569439869632e-05, "timer/logger.write_avg": 0.027393341064453125, "timer/logger.write_min": 0.027393341064453125, "timer/logger.write_max": 0.027393341064453125, "timer/replay.add_count": 1439.0, "timer/replay.add_total": 0.28420424461364746, "timer/replay.add_frac": 0.0009467722696641097, "timer/replay.add_avg": 0.00019750121237918517, "timer/replay.add_min": 8.726119995117188e-05, "timer/replay.add_max": 0.000946044921875, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1439.0, "timer/env.step_total": 20.586257457733154, "timer/env.step_frac": 0.06857919283944358, "timer/env.step_avg": 0.014305946808709627, "timer/env.step_min": 0.0031354427337646484, "timer/env.step_max": 2.775848865509033, "timer/agent.policy_count": 1439.0, "timer/agent.policy_total": 11.564515113830566, "timer/agent.policy_frac": 0.03852497782631814, "timer/agent.policy_avg": 0.00803649417222416, "timer/agent.policy_min": 0.005688905715942383, "timer/agent.policy_max": 1.1262288093566895, "timer/dataset_count": 720.0, "timer/dataset_total": 0.060326576232910156, "timer/dataset_frac": 0.0002009664900633036, "timer/dataset_avg": 8.378691143459745e-05, "timer/dataset_min": 6.127357482910156e-05, "timer/dataset_max": 0.00019860267639160156, "timer/agent.train_count": 720.0, "timer/agent.train_total": 266.98312067985535, "timer/agent.train_frac": 0.8894033777422882, "timer/agent.train_avg": 0.3708098898331324, "timer/agent.train_min": 0.36368227005004883, "timer/agent.train_max": 0.8784165382385254, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20041251182556152, "timer/agent.report_frac": 0.0006676360831560239, "timer/agent.report_avg": 0.20041251182556152, "timer/agent.report_min": 0.20041251182556152, "timer/agent.report_max": 0.20041251182556152, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0006530284881591797, "timer/checkpoint.save_frac": 2.1754399366211983e-06, "timer/checkpoint.save_avg": 0.0006530284881591797, "timer/checkpoint.save_min": 0.0006530284881591797, "timer/checkpoint.save_max": 0.0006530284881591797, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.142460584640503, "timer/agent.save_frac": 0.0038058896769550005, "timer/agent.save_avg": 1.142460584640503, "timer/agent.save_min": 1.142460584640503, "timer/agent.save_max": 1.142460584640503, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.608268737792969e-05, "timer/replay.save_frac": 3.2008115898442604e-07, "timer/replay.save_avg": 9.608268737792969e-05, "timer/replay.save_min": 9.608268737792969e-05, "timer/replay.save_max": 9.608268737792969e-05, "fps": 4.793686007826051}
{"step": 1378612, "episode/length": 282.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.04946996466431095}
{"step": 1378968, "episode/length": 355.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.700000040233135, "episode/reward_rate": 0.042134831460674156}
{"step": 1379151, "episode/length": 182.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.07650273224043716}
{"step": 1379350, "episode/length": 198.0, "episode/score": 14.100000023841858, "episode/sum_abs_reward": 15.900000005960464, "episode/reward_rate": 0.08040201005025126}
{"step": 1379840, "episode/length": 489.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 19.10000006109476, "episode/reward_rate": 0.030612244897959183}
{"step": 1380003, "episode/length": 162.0, "episode/score": 10.100000023841858, "episode/sum_abs_reward": 12.299999982118607, "episode/reward_rate": 0.0736196319018405}
{"step": 1380021, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4496443464949325, "train/action_min": 0.0, "train/action_std": 3.388500152407466, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.033942376691344624, "train/actor_opt_grad_steps": 689095.0, "train/actor_opt_loss": -12.21141086075757, "train/adv_mag": 0.39274064109132095, "train/adv_max": 0.32739793871705597, "train/adv_mean": 0.0013489865231275798, "train/adv_min": -0.347654285865861, "train/adv_std": 0.03875541357273186, "train/cont_avg": 0.995433910472973, "train/cont_loss_mean": 5.1566598012039174e-05, "train/cont_loss_std": 0.001538765152098357, "train/cont_neg_acc": 0.9983108108108109, "train/cont_neg_loss": 0.005576859764789826, "train/cont_pos_acc": 0.9999999782523593, "train/cont_pos_loss": 1.1278863781485228e-05, "train/cont_pred": 0.9954366128186922, "train/cont_rate": 0.995433910472973, "train/dyn_loss_mean": 5.683585160487407, "train/dyn_loss_std": 8.947536223643535, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8325285863231968, "train/extr_critic_critic_opt_grad_steps": 689095.0, "train/extr_critic_critic_opt_loss": 14862.849714949325, "train/extr_critic_mag": 12.715655017543483, "train/extr_critic_max": 12.715655017543483, "train/extr_critic_mean": 3.5981777181496493, "train/extr_critic_min": -0.40528527143839244, "train/extr_critic_std": 3.013754841443655, "train/extr_return_normed_mag": 1.3813038919423077, "train/extr_return_normed_max": 1.3813038919423077, "train/extr_return_normed_mean": 0.3791130579806663, "train/extr_return_normed_min": -0.06481320043472019, "train/extr_return_normed_std": 0.31026160274003, "train/extr_return_rate": 0.8162188956866393, "train/extr_return_raw_mag": 13.435442254349992, "train/extr_return_raw_max": 13.435442254349992, "train/extr_return_raw_mean": 3.611408451118985, "train/extr_return_raw_min": -0.7410308106525524, "train/extr_return_raw_std": 3.042040728233956, "train/extr_reward_mag": 1.0898551071012341, "train/extr_reward_max": 1.0898551071012341, "train/extr_reward_mean": 0.06189225045208995, "train/extr_reward_min": -0.6484651243364489, "train/extr_reward_std": 0.23958535995837804, "train/image_loss_mean": 3.5557663440704346, "train/image_loss_std": 8.929615768226418, "train/model_loss_mean": 7.030846879288957, "train/model_loss_std": 12.994502660390493, "train/model_opt_grad_norm": 19.225007095852412, "train/model_opt_grad_steps": 688526.6621621621, "train/model_opt_loss": 22762.72507126267, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3209.4594594594596, "train/policy_entropy_mag": 2.7394456734528414, "train/policy_entropy_max": 2.7394456734528414, "train/policy_entropy_mean": 0.4965706407218366, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7221681298436345, "train/policy_logprob_mag": 7.438384300953633, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.495147121919168, "train/policy_logprob_min": -7.438384300953633, "train/policy_logprob_std": 1.1033693640618711, "train/policy_randomness_mag": 0.96690410858876, "train/policy_randomness_max": 0.96690410858876, "train/policy_randomness_mean": 0.175267646340905, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.254893655309806, "train/post_ent_mag": 55.099188830401445, "train/post_ent_max": 55.099188830401445, "train/post_ent_mean": 39.77694552653545, "train/post_ent_min": 19.782794050268226, "train/post_ent_std": 5.780011860099998, "train/prior_ent_mag": 76.62189122792837, "train/prior_ent_max": 76.62189122792837, "train/prior_ent_mean": 45.41448727169552, "train/prior_ent_min": 27.45973821588465, "train/prior_ent_std": 7.988157691182317, "train/rep_loss_mean": 5.683585160487407, "train/rep_loss_std": 8.947536223643535, "train/reward_avg": 0.050502797387338975, "train/reward_loss_mean": 0.06487784403804187, "train/reward_loss_std": 0.22402743149448084, "train/reward_max_data": 1.0310810884913884, "train/reward_max_pred": 1.0323497959085413, "train/reward_neg_acc": 0.9918163974542875, "train/reward_neg_loss": 0.0266391757649143, "train/reward_pos_acc": 0.9900656801623267, "train/reward_pos_loss": 0.7212560273505546, "train/reward_pred": 0.050038106538153986, "train/reward_rate": 0.054872255067567564, "stats/sum_log_reward": 13.100000381469727, "stats/max_log_achievement_collect_coal": 1.1666666666666667, "stats/max_log_achievement_collect_drink": 5.333333333333333, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 18.333333333333332, "stats/max_log_achievement_collect_wood": 13.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.6666666666666665, "stats/max_log_achievement_eat_cow": 0.6666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.8333333333333334, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 3.0, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 2.0, "stats/max_log_achievement_place_table": 3.6666666666666665, "stats/max_log_achievement_wake_up": 2.5, "stats/mean_log_entropy": 0.6280044714609782, "replay/size": 1000000.0, "replay/inserts": 1472.0, "replay/samples": 11776.0, "replay/insert_wait_avg": 3.7186495635820473e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4834753845048987e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.193514585495, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029607772827148438, "timer/logger.write_frac": 9.862895561894677e-05, "timer/logger.write_avg": 0.029607772827148438, "timer/logger.write_min": 0.029607772827148438, "timer/logger.write_max": 0.029607772827148438, "timer/replay.add_count": 1472.0, "timer/replay.add_total": 0.2962222099304199, "timer/replay.add_frac": 0.0009867708512605324, "timer/replay.add_avg": 0.00020123791435490483, "timer/replay.add_min": 7.82012939453125e-05, "timer/replay.add_max": 0.004333972930908203, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1472.0, "timer/env.step_total": 16.809725761413574, "timer/env.step_frac": 0.0559962988694953, "timer/env.step_avg": 0.011419650653134222, "timer/env.step_min": 0.0027823448181152344, "timer/env.step_max": 1.5341877937316895, "timer/agent.policy_count": 1472.0, "timer/agent.policy_total": 10.828187704086304, "timer/agent.policy_frac": 0.03607069166380155, "timer/agent.policy_avg": 0.007356105777232543, "timer/agent.policy_min": 0.005756855010986328, "timer/agent.policy_max": 0.016777753829956055, "timer/dataset_count": 736.0, "timer/dataset_total": 0.06398653984069824, "timer/dataset_frac": 0.00021315097339477966, "timer/dataset_avg": 8.693823347920957e-05, "timer/dataset_min": 6.270408630371094e-05, "timer/dataset_max": 0.0001804828643798828, "timer/agent.train_count": 736.0, "timer/agent.train_total": 271.4986026287079, "timer/agent.train_frac": 0.9044119524153983, "timer/agent.train_avg": 0.3688839709629183, "timer/agent.train_min": 0.3616793155670166, "timer/agent.train_max": 0.3827512264251709, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.19893741607666016, "timer/agent.report_frac": 0.0006626972483111485, "timer/agent.report_avg": 0.19893741607666016, "timer/agent.report_min": 0.19893741607666016, "timer/agent.report_max": 0.19893741607666016, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.903411714548888}
{"step": 1380196, "episode/length": 192.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.07253886010362694}
{"step": 1380497, "episode/length": 300.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.04983388704318937}
{"step": 1380560, "episode/length": 62.0, "episode/score": 8.099999994039536, "episode/sum_abs_reward": 10.10000005364418, "episode/reward_rate": 0.15873015873015872}
{"step": 1380758, "episode/length": 197.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.07575757575757576}
{"step": 1380975, "episode/length": 216.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.06451612903225806}
{"step": 1381177, "episode/length": 201.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.07425742574257425}
{"step": 1381385, "episode/length": 207.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.0673076923076923}
{"step": 1381481, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.446155286815069, "train/action_min": 0.0, "train/action_std": 3.320490102245383, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03408933290573832, "train/actor_opt_grad_steps": 689830.0, "train/actor_opt_loss": -12.741222822502868, "train/adv_mag": 0.37800553134859427, "train/adv_max": 0.3100112368390985, "train/adv_mean": 0.001388856675176824, "train/adv_min": -0.34696143967648074, "train/adv_std": 0.03912299284583902, "train/cont_avg": 0.9950502996575342, "train/cont_loss_mean": 0.00010739509095334479, "train/cont_loss_std": 0.0033446721207190124, "train/cont_neg_acc": 0.9965277777777778, "train/cont_neg_loss": 0.022767988191714415, "train/cont_pos_acc": 0.9999864917911895, "train/cont_pos_loss": 1.879016048918271e-05, "train/cont_pred": 0.9950508377323412, "train/cont_rate": 0.9950502996575342, "train/dyn_loss_mean": 5.672371746742562, "train/dyn_loss_std": 9.006339765574834, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.823932410919503, "train/extr_critic_critic_opt_grad_steps": 689830.0, "train/extr_critic_critic_opt_loss": 14747.311068600171, "train/extr_critic_mag": 12.731328258775685, "train/extr_critic_max": 12.731328258775685, "train/extr_critic_mean": 3.686340093612671, "train/extr_critic_min": -0.3966221989017643, "train/extr_critic_std": 3.079435546104222, "train/extr_return_normed_mag": 1.383595064894794, "train/extr_return_normed_max": 1.383595064894794, "train/extr_return_normed_mean": 0.39109591241568736, "train/extr_return_normed_min": -0.059208116481361324, "train/extr_return_normed_std": 0.3172012675706654, "train/extr_return_rate": 0.8200690713647294, "train/extr_return_raw_mag": 13.410503544219553, "train/extr_return_raw_max": 13.410503544219553, "train/extr_return_raw_mean": 3.6999339632792014, "train/extr_return_raw_min": -0.7060077141409051, "train/extr_return_raw_std": 3.1037003520416886, "train/extr_reward_mag": 1.0948929035500303, "train/extr_reward_max": 1.0948929035500303, "train/extr_reward_mean": 0.06527977610287601, "train/extr_reward_min": -0.5923841113913549, "train/extr_reward_std": 0.2446450160382545, "train/image_loss_mean": 3.4992114289166176, "train/image_loss_std": 9.236794138607914, "train/model_loss_mean": 6.971149973673363, "train/model_loss_std": 13.348186688880398, "train/model_opt_grad_norm": 18.91613663712593, "train/model_opt_grad_steps": 689261.0, "train/model_opt_loss": 17427.874946489726, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7403581175085616, "train/policy_entropy_max": 2.7403581175085616, "train/policy_entropy_mean": 0.47631120681762695, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6960297324886061, "train/policy_logprob_mag": 7.43838429124388, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4758340014170294, "train/policy_logprob_min": -7.43838429124388, "train/policy_logprob_std": 1.0932481688995883, "train/policy_randomness_mag": 0.9672261566331942, "train/policy_randomness_max": 0.9672261566331942, "train/policy_randomness_mean": 0.16811695368322607, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2456679491147603, "train/post_ent_mag": 55.21964776026059, "train/post_ent_max": 55.21964776026059, "train/post_ent_mean": 39.74702845534233, "train/post_ent_min": 19.25837410966011, "train/post_ent_std": 5.78368352210685, "train/prior_ent_mag": 76.80826955298855, "train/prior_ent_max": 76.80826955298855, "train/prior_ent_mean": 45.37548425752823, "train/prior_ent_min": 27.075054665134378, "train/prior_ent_std": 8.095314417799859, "train/rep_loss_mean": 5.672371746742562, "train/rep_loss_std": 9.006339765574834, "train/reward_avg": 0.055083475649765096, "train/reward_loss_mean": 0.06840809883728419, "train/reward_loss_std": 0.23427188845529948, "train/reward_max_data": 1.0424657635492822, "train/reward_max_pred": 1.041009638407459, "train/reward_neg_acc": 0.9915349148724177, "train/reward_neg_loss": 0.02763829070258222, "train/reward_pos_acc": 0.9892149249168292, "train/reward_pos_loss": 0.7189509043954823, "train/reward_pred": 0.05492161724665393, "train/reward_rate": 0.059222495719178085, "stats/sum_log_reward": 12.814285959516253, "stats/max_log_achievement_collect_coal": 1.5714285714285714, "stats/max_log_achievement_collect_drink": 2.4285714285714284, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 16.571428571428573, "stats/max_log_achievement_collect_wood": 10.714285714285714, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 0.8571428571428571, "stats/max_log_achievement_eat_cow": 0.42857142857142855, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.8571428571428572, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 4.285714285714286, "stats/max_log_achievement_place_table": 2.5714285714285716, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.39307444436209543, "replay/size": 1000000.0, "replay/inserts": 1460.0, "replay/samples": 11680.0, "replay/insert_wait_avg": 3.7728923640839043e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.5383509740437548e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.11044120788574, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022549867630004883, "timer/logger.write_frac": 7.513856412074862e-05, "timer/logger.write_avg": 0.022549867630004883, "timer/logger.write_min": 0.022549867630004883, "timer/logger.write_max": 0.022549867630004883, "timer/replay.add_count": 1460.0, "timer/replay.add_total": 0.2957489490509033, "timer/replay.add_frac": 0.0009854670429345002, "timer/replay.add_avg": 0.00020256777332253653, "timer/replay.add_min": 8.273124694824219e-05, "timer/replay.add_max": 0.0007722377777099609, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1460.0, "timer/env.step_total": 18.638245582580566, "timer/env.step_frac": 0.06210462224361565, "timer/env.step_avg": 0.012765921631904497, "timer/env.step_min": 0.0025081634521484375, "timer/env.step_max": 1.5041606426239014, "timer/agent.policy_count": 1460.0, "timer/agent.policy_total": 10.918369054794312, "timer/agent.policy_frac": 0.036381170248026076, "timer/agent.policy_avg": 0.0074783349690372, "timer/agent.policy_min": 0.0057451725006103516, "timer/agent.policy_max": 0.01591634750366211, "timer/dataset_count": 730.0, "timer/dataset_total": 0.06514191627502441, "timer/dataset_frac": 0.00021705981309027756, "timer/dataset_avg": 8.923550174660879e-05, "timer/dataset_min": 6.318092346191406e-05, "timer/dataset_max": 0.00024580955505371094, "timer/agent.train_count": 730.0, "timer/agent.train_total": 269.4968330860138, "timer/agent.train_frac": 0.8979921924786816, "timer/agent.train_avg": 0.36917374395344354, "timer/agent.train_min": 0.3621244430541992, "timer/agent.train_max": 0.38461732864379883, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20034027099609375, "timer/agent.report_frac": 0.0006675551513295019, "timer/agent.report_avg": 0.20034027099609375, "timer/agent.report_min": 0.20034027099609375, "timer/agent.report_max": 0.20034027099609375, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.8647722531877}
{"step": 1381569, "episode/length": 183.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 9.700000025331974, "episode/reward_rate": 0.04891304347826087}
{"step": 1381673, "episode/length": 103.0, "episode/score": 9.100000023841858, "episode/sum_abs_reward": 10.899999976158142, "episode/reward_rate": 0.10576923076923077}
{"step": 1381861, "episode/length": 187.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 13.700000040233135, "episode/reward_rate": 0.06382978723404255}
{"step": 1382023, "episode/length": 161.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 13.899999991059303, "episode/reward_rate": 0.08641975308641975}
{"step": 1382306, "episode/length": 282.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.05653710247349823}
{"step": 1382495, "episode/length": 188.0, "episode/score": 10.100000016391277, "episode/sum_abs_reward": 11.100000031292439, "episode/reward_rate": 0.0582010582010582}
{"step": 1382707, "episode/length": 211.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.900000050663948, "episode/reward_rate": 0.07075471698113207}
{"step": 1382927, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.438972473144531, "train/action_min": 0.0, "train/action_std": 3.322464085287518, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.034973934629104204, "train/actor_opt_grad_steps": 690555.0, "train/actor_opt_loss": -11.846413536204231, "train/adv_mag": 0.3933125146561199, "train/adv_max": 0.31082504408227074, "train/adv_mean": 0.0015203807593024976, "train/adv_min": -0.3565352052036259, "train/adv_std": 0.0390160636872881, "train/cont_avg": 0.9954698350694444, "train/cont_loss_mean": 3.884540619342797e-05, "train/cont_loss_std": 0.0012142406011044216, "train/cont_neg_acc": 0.9965277777777778, "train/cont_neg_loss": 0.009084517995315325, "train/cont_pos_acc": 0.9999999850988388, "train/cont_pos_loss": 3.2659820467826094e-06, "train/cont_pred": 0.9954798536168205, "train/cont_rate": 0.9954698350694444, "train/dyn_loss_mean": 5.73952552345064, "train/dyn_loss_std": 8.951158218913609, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8370272591710091, "train/extr_critic_critic_opt_grad_steps": 690555.0, "train/extr_critic_critic_opt_loss": 14992.45501030816, "train/extr_critic_mag": 12.707031899028355, "train/extr_critic_max": 12.707031899028355, "train/extr_critic_mean": 3.546090583006541, "train/extr_critic_min": -0.39183391961786485, "train/extr_critic_std": 3.0382185412777796, "train/extr_return_normed_mag": 1.3921022017796834, "train/extr_return_normed_max": 1.3921022017796834, "train/extr_return_normed_mean": 0.3779040094878938, "train/extr_return_normed_min": -0.060181527890058026, "train/extr_return_normed_std": 0.3152488989548551, "train/extr_return_rate": 0.8160138602058092, "train/extr_return_raw_mag": 13.408127307891846, "train/extr_return_raw_max": 13.408127307891846, "train/extr_return_raw_mean": 3.5608590642611184, "train/extr_return_raw_min": -0.6932047274377611, "train/extr_return_raw_std": 3.0611471202638416, "train/extr_reward_mag": 1.0960460040304396, "train/extr_reward_max": 1.0960460040304396, "train/extr_reward_mean": 0.0650324535349177, "train/extr_reward_min": -0.5967508835924996, "train/extr_reward_std": 0.24477938128014406, "train/image_loss_mean": 3.6087705857223935, "train/image_loss_std": 9.060498038927713, "train/model_loss_mean": 7.11840679248174, "train/model_loss_std": 13.11887968911065, "train/model_opt_grad_norm": 18.833516942130196, "train/model_opt_grad_steps": 689985.0277777778, "train/model_opt_loss": 17796.017049153645, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7359225153923035, "train/policy_entropy_max": 2.7359225153923035, "train/policy_entropy_mean": 0.4658200273083316, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6839889101684093, "train/policy_logprob_mag": 7.43838428788715, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4653967436816957, "train/policy_logprob_min": -7.43838428788715, "train/policy_logprob_std": 1.0842172238561842, "train/policy_randomness_mag": 0.9656605861253209, "train/policy_randomness_max": 0.9656605861253209, "train/policy_randomness_mean": 0.1644140277057886, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24141806902156937, "train/post_ent_mag": 54.763305293189156, "train/post_ent_max": 54.763305293189156, "train/post_ent_mean": 39.83104001151191, "train/post_ent_min": 19.854492770300972, "train/post_ent_std": 5.745795064502293, "train/prior_ent_mag": 76.76644897460938, "train/prior_ent_max": 76.76644897460938, "train/prior_ent_mean": 45.543284522162544, "train/prior_ent_min": 27.39012010892232, "train/prior_ent_std": 8.010891517003378, "train/rep_loss_mean": 5.73952552345064, "train/rep_loss_std": 8.951158218913609, "train/reward_avg": 0.053157551783240505, "train/reward_loss_mean": 0.06588205157054795, "train/reward_loss_std": 0.22509267326030466, "train/reward_max_data": 1.0430555658207998, "train/reward_max_pred": 1.0440480179256864, "train/reward_neg_acc": 0.9916646364662383, "train/reward_neg_loss": 0.026543755575807557, "train/reward_pos_acc": 0.9917686945862241, "train/reward_pos_loss": 0.7131539558370908, "train/reward_pred": 0.052952161317484245, "train/reward_rate": 0.057305230034722224, "stats/sum_log_reward": 11.385714394705635, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 1.8571428571428572, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.0, "stats/max_log_achievement_collect_stone": 13.428571428571429, "stats/max_log_achievement_collect_wood": 9.857142857142858, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.4285714285714286, "stats/max_log_achievement_eat_cow": 0.5714285714285714, "stats/max_log_achievement_make_stone_pickaxe": 0.7142857142857143, "stats/max_log_achievement_make_stone_sword": 0.7142857142857143, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.2857142857142858, "stats/max_log_achievement_place_plant": 0.8571428571428571, "stats/max_log_achievement_place_stone": 3.857142857142857, "stats/max_log_achievement_place_table": 2.4285714285714284, "stats/max_log_achievement_wake_up": 0.7142857142857143, "stats/mean_log_entropy": 0.3977459967136383, "replay/size": 1000000.0, "replay/inserts": 1446.0, "replay/samples": 11568.0, "replay/insert_wait_avg": 3.654432494610672e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.5419919461135547e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0750858783722, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023533344268798828, "timer/logger.write_frac": 7.842485223294236e-05, "timer/logger.write_avg": 0.023533344268798828, "timer/logger.write_min": 0.023533344268798828, "timer/logger.write_max": 0.023533344268798828, "timer/replay.add_count": 1446.0, "timer/replay.add_total": 0.28847312927246094, "timer/replay.add_frac": 0.0009613364882594291, "timer/replay.add_avg": 0.00019949732314831323, "timer/replay.add_min": 7.724761962890625e-05, "timer/replay.add_max": 0.0009891986846923828, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1446.0, "timer/env.step_total": 20.23040223121643, "timer/env.step_frac": 0.06741780035486289, "timer/env.step_avg": 0.013990596287148292, "timer/env.step_min": 0.0027925968170166016, "timer/env.step_max": 3.4090898036956787, "timer/agent.policy_count": 1446.0, "timer/agent.policy_total": 11.935337781906128, "timer/agent.policy_frac": 0.03977450426105623, "timer/agent.policy_avg": 0.008254037193572702, "timer/agent.policy_min": 0.0058193206787109375, "timer/agent.policy_max": 1.1933326721191406, "timer/dataset_count": 723.0, "timer/dataset_total": 0.06430935859680176, "timer/dataset_frac": 0.00021431088958470855, "timer/dataset_avg": 8.894793720166218e-05, "timer/dataset_min": 6.008148193359375e-05, "timer/dataset_max": 0.00017523765563964844, "timer/agent.train_count": 723.0, "timer/agent.train_total": 266.86074447631836, "timer/agent.train_frac": 0.8893132320371427, "timer/agent.train_avg": 0.3691019978925565, "timer/agent.train_min": 0.36121416091918945, "timer/agent.train_max": 0.40992164611816406, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20290780067443848, "timer/agent.report_frac": 0.0006761900944908235, "timer/agent.report_avg": 0.20290780067443848, "timer/agent.report_min": 0.20290780067443848, "timer/agent.report_max": 0.20290780067443848, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00043964385986328125, "timer/checkpoint.save_frac": 1.4651128352637703e-06, "timer/checkpoint.save_avg": 0.00043964385986328125, "timer/checkpoint.save_min": 0.00043964385986328125, "timer/checkpoint.save_max": 0.00043964385986328125, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.1912000179290771, "timer/agent.save_frac": 0.003969673171773746, "timer/agent.save_avg": 1.1912000179290771, "timer/agent.save_min": 1.1912000179290771, "timer/agent.save_max": 1.1912000179290771, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.369850158691406e-05, "timer/replay.save_frac": 3.1225018669124823e-07, "timer/replay.save_avg": 9.369850158691406e-05, "timer/replay.save_min": 9.369850158691406e-05, "timer/replay.save_max": 9.369850158691406e-05, "fps": 4.818692686386255}
{"step": 1382949, "episode/length": 241.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.100000016391277, "episode/reward_rate": 0.04132231404958678}
{"step": 1383269, "episode/length": 319.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 14.1000000461936, "episode/reward_rate": 0.0375}
{"step": 1383426, "episode/length": 156.0, "episode/score": 13.1000000461936, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.09554140127388536}
{"step": 1383656, "episode/length": 229.0, "episode/score": 14.099999994039536, "episode/sum_abs_reward": 16.30000001192093, "episode/reward_rate": 0.06956521739130435}
{"step": 1383854, "episode/length": 197.0, "episode/score": 8.099999994039536, "episode/sum_abs_reward": 10.300000011920929, "episode/reward_rate": 0.050505050505050504}
{"step": 1384043, "episode/length": 188.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.06878306878306878}
{"step": 1384366, "episode/length": 322.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.04024767801857585}
{"step": 1384387, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.563377066834332, "train/action_min": 0.0, "train/action_std": 3.417274148496863, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.034616308490911574, "train/actor_opt_grad_steps": 691280.0, "train/actor_opt_loss": -11.584768310801623, "train/adv_mag": 0.361941933631897, "train/adv_max": 0.297396401632322, "train/adv_mean": 0.0018350328205150156, "train/adv_min": -0.3353818691756627, "train/adv_std": 0.039203877981803185, "train/cont_avg": 0.9952509631849316, "train/cont_loss_mean": 3.168827522072144e-05, "train/cont_loss_std": 0.0009814073231775512, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0024055337760509237, "train/cont_pos_acc": 0.9999999844864623, "train/cont_pos_loss": 2.0416952568079478e-05, "train/cont_pred": 0.9952419040954277, "train/cont_rate": 0.9952509631849316, "train/dyn_loss_mean": 5.8536872733129215, "train/dyn_loss_std": 8.984350452684376, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8477092671067747, "train/extr_critic_critic_opt_grad_steps": 691280.0, "train/extr_critic_critic_opt_loss": 15058.9599609375, "train/extr_critic_mag": 12.737038494789438, "train/extr_critic_max": 12.737038494789438, "train/extr_critic_mean": 3.500919893996356, "train/extr_critic_min": -0.4344489035541064, "train/extr_critic_std": 3.0808347643238223, "train/extr_return_normed_mag": 1.406554146988751, "train/extr_return_normed_max": 1.406554146988751, "train/extr_return_normed_mean": 0.3742433288326002, "train/extr_return_normed_min": -0.0644169609279257, "train/extr_return_normed_std": 0.31942636836065, "train/extr_return_rate": 0.8042674856643154, "train/extr_return_raw_mag": 13.576421816055088, "train/extr_return_raw_max": 13.576421816055088, "train/extr_return_raw_mean": 3.5188045567029143, "train/extr_return_raw_min": -0.7557410320190534, "train/extr_return_raw_std": 3.1128423932480485, "train/extr_reward_mag": 1.0978530073819095, "train/extr_reward_max": 1.0978530073819095, "train/extr_reward_mean": 0.06519758640086815, "train/extr_reward_min": -0.569120562239869, "train/extr_reward_std": 0.2458346226852234, "train/image_loss_mean": 3.834731487378682, "train/image_loss_std": 9.062314562601586, "train/model_loss_mean": 7.41378293625296, "train/model_loss_std": 13.152949672855742, "train/model_opt_grad_norm": 20.94568512537708, "train/model_opt_grad_steps": 690709.7397260274, "train/model_opt_loss": 24560.28772474315, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3321.917808219178, "train/policy_entropy_mag": 2.7316396301739836, "train/policy_entropy_max": 2.7316396301739836, "train/policy_entropy_mean": 0.5006619797994013, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7177417984564011, "train/policy_logprob_mag": 7.438384258583801, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.5003987877336267, "train/policy_logprob_min": -7.438384258583801, "train/policy_logprob_std": 1.1064679100088877, "train/policy_randomness_mag": 0.9641489157937977, "train/policy_randomness_max": 0.9641489157937977, "train/policy_randomness_mean": 0.1767117073887015, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2533313570773765, "train/post_ent_mag": 55.01298826034755, "train/post_ent_max": 55.01298826034755, "train/post_ent_mean": 39.855621024353866, "train/post_ent_min": 19.754004818119416, "train/post_ent_std": 5.811246388579068, "train/prior_ent_mag": 76.79808556543638, "train/prior_ent_max": 76.79808556543638, "train/prior_ent_mean": 45.67004148927453, "train/prior_ent_min": 27.097173925948468, "train/prior_ent_std": 8.041109300639532, "train/rep_loss_mean": 5.8536872733129215, "train/rep_loss_std": 8.984350452684376, "train/reward_avg": 0.05180195759828776, "train/reward_loss_mean": 0.06680748836226659, "train/reward_loss_std": 0.232451078418183, "train/reward_max_data": 1.0410959002089828, "train/reward_max_pred": 1.0386398524454195, "train/reward_neg_acc": 0.9915753366195992, "train/reward_neg_loss": 0.027508310042321682, "train/reward_pos_acc": 0.9852719960147387, "train/reward_pos_loss": 0.7333441058250323, "train/reward_pred": 0.05111881638940883, "train/reward_rate": 0.05594499143835616, "stats/sum_log_reward": 11.385714530944824, "stats/max_log_achievement_collect_coal": 0.5714285714285714, "stats/max_log_achievement_collect_drink": 3.857142857142857, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.4285714285714286, "stats/max_log_achievement_collect_stone": 10.0, "stats/max_log_achievement_collect_wood": 11.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.5714285714285714, "stats/max_log_achievement_make_stone_pickaxe": 0.2857142857142857, "stats/max_log_achievement_make_stone_sword": 0.42857142857142855, "stats/max_log_achievement_make_wood_pickaxe": 1.2857142857142858, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.4285714285714286, "stats/max_log_achievement_place_plant": 1.4285714285714286, "stats/max_log_achievement_place_stone": 2.2857142857142856, "stats/max_log_achievement_place_table": 2.142857142857143, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.44399450932230267, "replay/size": 1000000.0, "replay/inserts": 1460.0, "replay/samples": 11680.0, "replay/insert_wait_avg": 3.7967342219940604e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4725613267454383e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.00757813453674, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.030071020126342773, "timer/logger.write_frac": 0.000100234201793588, "timer/logger.write_avg": 0.030071020126342773, "timer/logger.write_min": 0.030071020126342773, "timer/logger.write_max": 0.030071020126342773, "timer/replay.add_count": 1460.0, "timer/replay.add_total": 0.30964159965515137, "timer/replay.add_frac": 0.0010321125938901926, "timer/replay.add_avg": 0.00021208328743503517, "timer/replay.add_min": 7.462501525878906e-05, "timer/replay.add_max": 0.0009474754333496094, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1460.0, "timer/env.step_total": 18.175692558288574, "timer/env.step_frac": 0.06058411147913666, "timer/env.step_avg": 0.012449104491978476, "timer/env.step_min": 0.0025043487548828125, "timer/env.step_max": 1.5645804405212402, "timer/agent.policy_count": 1460.0, "timer/agent.policy_total": 11.044596672058105, "timer/agent.policy_frac": 0.036814392292134755, "timer/agent.policy_avg": 0.0075647922411356885, "timer/agent.policy_min": 0.0058422088623046875, "timer/agent.policy_max": 0.016838788986206055, "timer/dataset_count": 730.0, "timer/dataset_total": 0.06783318519592285, "timer/dataset_frac": 0.00022610490580842407, "timer/dataset_avg": 9.292217150126417e-05, "timer/dataset_min": 6.29425048828125e-05, "timer/dataset_max": 0.00019121170043945312, "timer/agent.train_count": 730.0, "timer/agent.train_total": 269.6807961463928, "timer/agent.train_frac": 0.898913280202062, "timer/agent.train_avg": 0.3694257481457436, "timer/agent.train_min": 0.36091113090515137, "timer/agent.train_max": 0.38950657844543457, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2030653953552246, "timer/agent.report_frac": 0.0006768675532061428, "timer/agent.report_avg": 0.2030653953552246, "timer/agent.report_min": 0.2030653953552246, "timer/agent.report_max": 0.2030653953552246, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.866486072089564}
{"step": 1384413, "episode/length": 46.0, "episode/score": 5.100000008940697, "episode/sum_abs_reward": 6.899999991059303, "episode/reward_rate": 0.14893617021276595}
{"step": 1384620, "episode/length": 206.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 11.900000028312206, "episode/reward_rate": 0.05314009661835749}
{"step": 1384817, "episode/length": 196.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.900000028312206, "episode/reward_rate": 0.050761421319796954}
{"step": 1385092, "episode/length": 274.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.900000028312206, "episode/reward_rate": 0.04363636363636364}
{"step": 1385311, "episode/length": 218.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.30000003427267, "episode/reward_rate": 0.0593607305936073}
{"step": 1385486, "episode/length": 174.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.07428571428571429}
{"step": 1385740, "episode/length": 253.0, "episode/score": 14.100000031292439, "episode/sum_abs_reward": 17.500000037252903, "episode/reward_rate": 0.06299212598425197}
{"step": 1385855, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.619947459599743, "train/action_min": 0.0, "train/action_std": 3.470038887572615, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03584847629886784, "train/actor_opt_grad_steps": 692010.0, "train/actor_opt_loss": -11.23384146821009, "train/adv_mag": 0.4090384938945509, "train/adv_max": 0.3345087133858302, "train/adv_mean": 0.001883420054856624, "train/adv_min": -0.3754128781083512, "train/adv_std": 0.03990587505371603, "train/cont_avg": 0.9954248715753424, "train/cont_loss_mean": 0.00015671153969822637, "train/cont_loss_std": 0.004897548611496274, "train/cont_neg_acc": 0.9963307250035952, "train/cont_neg_loss": 0.019283054668515032, "train/cont_pos_acc": 0.9999999836699603, "train/cont_pos_loss": 1.4978526032620398e-05, "train/cont_pred": 0.9954403793975098, "train/cont_rate": 0.9954248715753424, "train/dyn_loss_mean": 5.9270451036218095, "train/dyn_loss_std": 9.091343304882312, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8103876236366899, "train/extr_critic_critic_opt_grad_steps": 692010.0, "train/extr_critic_critic_opt_loss": 14989.657467358733, "train/extr_critic_mag": 12.77328245607141, "train/extr_critic_max": 12.77328245607141, "train/extr_critic_mean": 3.6616118607455737, "train/extr_critic_min": -0.39327586023774863, "train/extr_critic_std": 3.1021404658278375, "train/extr_return_normed_mag": 1.38394500784678, "train/extr_return_normed_max": 1.38394500784678, "train/extr_return_normed_mean": 0.38845097345032104, "train/extr_return_normed_min": -0.05992235656674594, "train/extr_return_normed_std": 0.31911839769311146, "train/extr_return_rate": 0.8090762724615124, "train/extr_return_raw_mag": 13.446810043021424, "train/extr_return_raw_max": 13.446810043021424, "train/extr_return_raw_mean": 3.6800890164832545, "train/extr_return_raw_min": -0.7188298073533463, "train/extr_return_raw_std": 3.1308383321108884, "train/extr_reward_mag": 1.0923868956631178, "train/extr_reward_max": 1.0923868956631178, "train/extr_reward_mean": 0.06564976703630734, "train/extr_reward_min": -0.5920114288591358, "train/extr_reward_std": 0.24609298861190065, "train/image_loss_mean": 3.510835983981825, "train/image_loss_std": 8.909091407305574, "train/model_loss_mean": 7.134798180567075, "train/model_loss_std": 13.126563059140558, "train/model_opt_grad_norm": 19.625203602934537, "train/model_opt_grad_steps": 691439.0, "train/model_opt_loss": 17836.99547838185, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7331733377012486, "train/policy_entropy_max": 2.7331733377012486, "train/policy_entropy_mean": 0.5169219817609003, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7377477876127583, "train/policy_logprob_mag": 7.4383842651158165, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.5178361265626672, "train/policy_logprob_min": -7.4383842651158165, "train/policy_logprob_std": 1.1206944250080684, "train/policy_randomness_mag": 0.9646902435446438, "train/policy_randomness_max": 0.9646902435446438, "train/policy_randomness_mean": 0.18245077521017153, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2603925933984861, "train/post_ent_mag": 55.133028840365476, "train/post_ent_max": 55.133028840365476, "train/post_ent_mean": 39.456461658216504, "train/post_ent_min": 19.269117159386205, "train/post_ent_std": 5.743594940394571, "train/prior_ent_mag": 76.75633595087757, "train/prior_ent_max": 76.75633595087757, "train/prior_ent_mean": 45.34365437128773, "train/prior_ent_min": 27.26854752841061, "train/prior_ent_std": 8.027312775180764, "train/rep_loss_mean": 5.9270451036218095, "train/rep_loss_std": 9.091343304882312, "train/reward_avg": 0.05340592836170164, "train/reward_loss_mean": 0.06757843897563137, "train/reward_loss_std": 0.23694224757690951, "train/reward_max_data": 1.0301369934865874, "train/reward_max_pred": 1.0311698619633505, "train/reward_neg_acc": 0.9915743935598086, "train/reward_neg_loss": 0.027269662957485407, "train/reward_pos_acc": 0.9886026210980873, "train/reward_pos_loss": 0.7293668381155354, "train/reward_pred": 0.05295966154806418, "train/reward_rate": 0.05752354452054795, "stats/sum_log_reward": 10.528571810041155, "stats/max_log_achievement_collect_coal": 0.14285714285714285, "stats/max_log_achievement_collect_drink": 3.7142857142857144, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.8571428571428572, "stats/max_log_achievement_collect_stone": 10.285714285714286, "stats/max_log_achievement_collect_wood": 9.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.7142857142857142, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.42857142857142855, "stats/max_log_achievement_make_stone_sword": 0.42857142857142855, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 2.4285714285714284, "stats/max_log_achievement_place_table": 2.5714285714285716, "stats/max_log_achievement_wake_up": 0.8571428571428571, "stats/mean_log_entropy": 0.3937831563608987, "replay/size": 1000000.0, "replay/inserts": 1468.0, "replay/samples": 11744.0, "replay/insert_wait_avg": 3.7297565865581626e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4699975216421184e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0936782360077, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02221393585205078, "timer/logger.write_frac": 7.402333825433239e-05, "timer/logger.write_avg": 0.02221393585205078, "timer/logger.write_min": 0.02221393585205078, "timer/logger.write_max": 0.02221393585205078, "timer/replay.add_count": 1468.0, "timer/replay.add_total": 0.29929375648498535, "timer/replay.add_frac": 0.0009973344265173315, "timer/replay.add_avg": 0.00020387858071184287, "timer/replay.add_min": 7.843971252441406e-05, "timer/replay.add_max": 0.0008993148803710938, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1468.0, "timer/env.step_total": 17.79256796836853, "timer/env.step_frac": 0.059290045938174094, "timer/env.step_avg": 0.012120277907607991, "timer/env.step_min": 0.00278472900390625, "timer/env.step_max": 1.5317888259887695, "timer/agent.policy_count": 1468.0, "timer/agent.policy_total": 10.774829387664795, "timer/agent.policy_frac": 0.03590488627084962, "timer/agent.policy_avg": 0.007339802035194002, "timer/agent.policy_min": 0.0057277679443359375, "timer/agent.policy_max": 0.017955303192138672, "timer/dataset_count": 734.0, "timer/dataset_total": 0.06581687927246094, "timer/dataset_frac": 0.00021932111219183853, "timer/dataset_avg": 8.966877285076422e-05, "timer/dataset_min": 6.4849853515625e-05, "timer/dataset_max": 0.0001747608184814453, "timer/agent.train_count": 734.0, "timer/agent.train_total": 270.46895837783813, "timer/agent.train_frac": 0.9012817596414967, "timer/agent.train_avg": 0.3684863193158558, "timer/agent.train_min": 0.36096811294555664, "timer/agent.train_max": 0.38452768325805664, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.19923686981201172, "timer/agent.report_frac": 0.0006639155845706371, "timer/agent.report_avg": 0.19923686981201172, "timer/agent.report_min": 0.19923686981201172, "timer/agent.report_max": 0.19923686981201172, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.8917042479726405}
{"step": 1385966, "episode/length": 225.0, "episode/score": 16.100000008940697, "episode/sum_abs_reward": 19.300000086426735, "episode/reward_rate": 0.07964601769911504}
{"step": 1386176, "episode/length": 209.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 14.900000013411045, "episode/reward_rate": 0.06666666666666667}
{"step": 1386389, "episode/length": 212.0, "episode/score": 13.100000023841858, "episode/sum_abs_reward": 15.10000005364418, "episode/reward_rate": 0.06572769953051644}
{"step": 1386455, "episode/length": 65.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.099999994039536, "episode/reward_rate": 0.12121212121212122}
{"step": 1386490, "episode/length": 34.0, "episode/score": 4.100000001490116, "episode/sum_abs_reward": 5.500000022351742, "episode/reward_rate": 0.14285714285714285}
{"step": 1386731, "episode/length": 240.0, "episode/score": 13.099999994039536, "episode/sum_abs_reward": 15.700000017881393, "episode/reward_rate": 0.06224066390041494}
{"step": 1386956, "episode/length": 224.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 14.1000000461936, "episode/reward_rate": 0.05333333333333334}
{"step": 1387144, "episode/length": 187.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 15.900000013411045, "episode/reward_rate": 0.0797872340425532}
{"step": 1387289, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.463858710394965, "train/action_min": 0.0, "train/action_std": 3.3895089063379498, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03454994218837884, "train/actor_opt_grad_steps": 692735.0, "train/actor_opt_loss": -11.241031884319252, "train/adv_mag": 0.37605187234779197, "train/adv_max": 0.3094738523165385, "train/adv_mean": 0.0018777849280316634, "train/adv_min": -0.3380595915433433, "train/adv_std": 0.03888529740894834, "train/cont_avg": 0.995361328125, "train/cont_loss_mean": 0.00011205002503612683, "train/cont_loss_std": 0.0035565724468660737, "train/cont_neg_acc": 0.9902777787711885, "train/cont_neg_loss": 0.01684308739630542, "train/cont_pos_acc": 0.9999863844778802, "train/cont_pos_loss": 3.414841418081238e-05, "train/cont_pred": 0.9953746894995371, "train/cont_rate": 0.995361328125, "train/dyn_loss_mean": 5.742445164256626, "train/dyn_loss_std": 9.045236349105835, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8027849983837869, "train/extr_critic_critic_opt_grad_steps": 692735.0, "train/extr_critic_critic_opt_loss": 14988.515543619791, "train/extr_critic_mag": 12.730694572130838, "train/extr_critic_max": 12.730694572130838, "train/extr_critic_mean": 3.6195209324359894, "train/extr_critic_min": -0.3777594417333603, "train/extr_critic_std": 3.0680027869012623, "train/extr_return_normed_mag": 1.3780572265386581, "train/extr_return_normed_max": 1.3780572265386581, "train/extr_return_normed_mean": 0.38466809979743427, "train/extr_return_normed_min": -0.05783456933891608, "train/extr_return_normed_std": 0.31762989920874435, "train/extr_return_rate": 0.8153727642363973, "train/extr_return_raw_mag": 13.315739830334982, "train/extr_return_raw_max": 13.315739830334982, "train/extr_return_raw_mean": 3.637801832622952, "train/extr_return_raw_min": -0.672873857534594, "train/extr_return_raw_std": 3.0942606065008373, "train/extr_reward_mag": 1.0849069820510016, "train/extr_reward_max": 1.0849069820510016, "train/extr_reward_mean": 0.0643913317989144, "train/extr_reward_min": -0.5538547568851047, "train/extr_reward_std": 0.24337403807375166, "train/image_loss_mean": 3.5810445646444955, "train/image_loss_std": 9.007784386475882, "train/model_loss_mean": 7.0937018394470215, "train/model_loss_std": 13.130109402868483, "train/model_opt_grad_norm": 17.968133489290874, "train/model_opt_grad_steps": 692163.3333333334, "train/model_opt_loss": 21612.843180338543, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3055.5555555555557, "train/policy_entropy_mag": 2.721318870782852, "train/policy_entropy_max": 2.721318870782852, "train/policy_entropy_mean": 0.4900666086210145, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7080072520507706, "train/policy_logprob_mag": 7.438384274641673, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.48896414207087624, "train/policy_logprob_min": -7.438384274641673, "train/policy_logprob_std": 1.0983272948198848, "train/policy_randomness_mag": 0.9605061370465491, "train/policy_randomness_max": 0.9605061370465491, "train/policy_randomness_mean": 0.172972008275489, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2498954871876372, "train/post_ent_mag": 55.346236652798126, "train/post_ent_max": 55.346236652798126, "train/post_ent_mean": 39.73078023062812, "train/post_ent_min": 19.14902436733246, "train/post_ent_std": 5.813638806343079, "train/prior_ent_mag": 76.77581479814317, "train/prior_ent_max": 76.77581479814317, "train/prior_ent_mean": 45.423918300204804, "train/prior_ent_min": 27.064563486311172, "train/prior_ent_std": 7.999712202284071, "train/rep_loss_mean": 5.742445164256626, "train/rep_loss_std": 9.045236349105835, "train/reward_avg": 0.05273437502587007, "train/reward_loss_mean": 0.06707816731391682, "train/reward_loss_std": 0.23662105637292066, "train/reward_max_data": 1.0291666736205418, "train/reward_max_pred": 1.0293593174881406, "train/reward_neg_acc": 0.9920753091573715, "train/reward_neg_loss": 0.027190539740129478, "train/reward_pos_acc": 0.9891471159127023, "train/reward_pos_loss": 0.7279651305741734, "train/reward_pred": 0.05217804625216457, "train/reward_rate": 0.056952582465277776, "stats/sum_log_reward": 11.350000321865082, "stats/max_log_achievement_collect_coal": 0.5, "stats/max_log_achievement_collect_drink": 2.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 12.75, "stats/max_log_achievement_collect_wood": 10.625, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 1.375, "stats/max_log_achievement_eat_cow": 0.25, "stats/max_log_achievement_make_stone_pickaxe": 1.125, "stats/max_log_achievement_make_stone_sword": 0.875, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.625, "stats/max_log_achievement_place_plant": 1.375, "stats/max_log_achievement_place_stone": 2.125, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.3599087819457054, "replay/size": 1000000.0, "replay/inserts": 1434.0, "replay/samples": 11472.0, "replay/insert_wait_avg": 3.68019194450006e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4722430390127866e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.13157892227173, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03250741958618164, "timer/logger.write_frac": 0.00010831056066446254, "timer/logger.write_avg": 0.03250741958618164, "timer/logger.write_min": 0.03250741958618164, "timer/logger.write_max": 0.03250741958618164, "timer/replay.add_count": 1434.0, "timer/replay.add_total": 0.2910330295562744, "timer/replay.add_frac": 0.0009696847982519238, "timer/replay.add_avg": 0.0002029519034562583, "timer/replay.add_min": 7.343292236328125e-05, "timer/replay.add_max": 0.0013592243194580078, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1434.0, "timer/env.step_total": 21.648189783096313, "timer/env.step_frac": 0.072128997091315, "timer/env.step_avg": 0.01509636665487888, "timer/env.step_min": 0.0027916431427001953, "timer/env.step_max": 1.9493012428283691, "timer/agent.policy_count": 1434.0, "timer/agent.policy_total": 12.74924111366272, "timer/agent.policy_frac": 0.0424788393125554, "timer/agent.policy_avg": 0.008890684179681115, "timer/agent.policy_min": 0.0057239532470703125, "timer/agent.policy_max": 1.4539411067962646, "timer/dataset_count": 717.0, "timer/dataset_total": 0.06546187400817871, "timer/dataset_frac": 0.00021811058417525625, "timer/dataset_avg": 9.129968480917533e-05, "timer/dataset_min": 6.437301635742188e-05, "timer/dataset_max": 0.00020074844360351562, "timer/agent.train_count": 717.0, "timer/agent.train_total": 264.66774439811707, "timer/agent.train_frac": 0.8818390432239751, "timer/agent.train_avg": 0.3691321400252679, "timer/agent.train_min": 0.36113810539245605, "timer/agent.train_max": 0.8787994384765625, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20225095748901367, "timer/agent.report_frac": 0.0006738742994498181, "timer/agent.report_avg": 0.20225095748901367, "timer/agent.report_min": 0.20225095748901367, "timer/agent.report_max": 0.20225095748901367, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0006008148193359375, "timer/checkpoint.save_frac": 2.0018380654690686e-06, "timer/checkpoint.save_avg": 0.0006008148193359375, "timer/checkpoint.save_min": 0.0006008148193359375, "timer/checkpoint.save_max": 0.0006008148193359375, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4652235507965088, "timer/agent.save_frac": 0.004881937302492163, "timer/agent.save_avg": 1.4652235507965088, "timer/agent.save_min": 1.4652235507965088, "timer/agent.save_max": 1.4652235507965088, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.00012946128845214844, "timer/replay.save_frac": 4.3134844029750165e-07, "timer/replay.save_avg": 0.00012946128845214844, "timer/replay.save_min": 0.00012946128845214844, "timer/replay.save_max": 0.00012946128845214844, "fps": 4.777799804575315}
{"step": 1387439, "episode/length": 294.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.30000003427267, "episode/reward_rate": 0.05084745762711865}
{"step": 1387751, "episode/length": 311.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 16.700000055134296, "episode/reward_rate": 0.05448717948717949}
{"step": 1387928, "episode/length": 176.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.0847457627118644}
{"step": 1388099, "episode/length": 170.0, "episode/score": 11.100000016391277, "episode/sum_abs_reward": 12.100000031292439, "episode/reward_rate": 0.07017543859649122}
{"step": 1388316, "episode/length": 216.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 15.900000013411045, "episode/reward_rate": 0.07373271889400922}
{"step": 1388661, "episode/length": 344.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.04057971014492753}
{"step": 1388763, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.494421056798987, "train/action_min": 0.0, "train/action_std": 3.432673254528561, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03460383392568376, "train/actor_opt_grad_steps": 693465.0, "train/actor_opt_loss": -12.065097010115513, "train/adv_mag": 0.38547275517437907, "train/adv_max": 0.3081071098914018, "train/adv_mean": 0.0016844084074782095, "train/adv_min": -0.350773503248756, "train/adv_std": 0.0395313959971473, "train/cont_avg": 0.995090793918919, "train/cont_loss_mean": 0.00017015874614247496, "train/cont_loss_std": 0.005379752005179964, "train/cont_neg_acc": 0.9906531540123192, "train/cont_neg_loss": 0.026371303691977824, "train/cont_pos_acc": 0.9999999806687638, "train/cont_pos_loss": 5.642181632942317e-06, "train/cont_pred": 0.9951340451433852, "train/cont_rate": 0.995090793918919, "train/dyn_loss_mean": 5.598870786460671, "train/dyn_loss_std": 8.972495955389899, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8325243004270502, "train/extr_critic_critic_opt_grad_steps": 693465.0, "train/extr_critic_critic_opt_loss": 14909.485457136825, "train/extr_critic_mag": 12.689173247363117, "train/extr_critic_max": 12.689173247363117, "train/extr_critic_mean": 3.7249173538104907, "train/extr_critic_min": -0.38982395706950007, "train/extr_critic_std": 3.0788826990771936, "train/extr_return_normed_mag": 1.3851440001178432, "train/extr_return_normed_max": 1.3851440001178432, "train/extr_return_normed_mean": 0.3942245309417312, "train/extr_return_normed_min": -0.060168216936290264, "train/extr_return_normed_std": 0.31758961423828796, "train/extr_return_rate": 0.8285350292115599, "train/extr_return_raw_mag": 13.420800917857402, "train/extr_return_raw_max": 13.420800917857402, "train/extr_return_raw_mean": 3.7413639861184196, "train/extr_return_raw_min": -0.6974184633912267, "train/extr_return_raw_std": 3.1025142911318184, "train/extr_reward_mag": 1.0946957130689878, "train/extr_reward_max": 1.0946957130689878, "train/extr_reward_mean": 0.06585528268604665, "train/extr_reward_min": -0.6056921465976818, "train/extr_reward_std": 0.24615650885813944, "train/image_loss_mean": 3.470328115128182, "train/image_loss_std": 8.89892653516821, "train/model_loss_mean": 6.896996472332929, "train/model_loss_std": 12.997819243250666, "train/model_opt_grad_norm": 17.584314681388236, "train/model_opt_grad_steps": 692893.0, "train/model_opt_loss": 22387.88942409206, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3243.2432432432433, "train/policy_entropy_mag": 2.7276056296116598, "train/policy_entropy_max": 2.7276056296116598, "train/policy_entropy_mean": 0.47870737314224243, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7065342435160199, "train/policy_logprob_mag": 7.438384300953633, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.48012177928073985, "train/policy_logprob_min": -7.438384300953633, "train/policy_logprob_std": 1.0985867872431472, "train/policy_randomness_mag": 0.9627250875975635, "train/policy_randomness_max": 0.9627250875975635, "train/policy_randomness_mean": 0.16896269681888657, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24937558194270004, "train/post_ent_mag": 55.247418996450065, "train/post_ent_max": 55.247418996450065, "train/post_ent_mean": 39.585861670004356, "train/post_ent_min": 19.818490982055664, "train/post_ent_std": 5.7522847974622575, "train/prior_ent_mag": 76.789461496714, "train/prior_ent_max": 76.789461496714, "train/prior_ent_mean": 45.13363791800834, "train/prior_ent_min": 27.277190698159707, "train/prior_ent_std": 8.058348984331698, "train/rep_loss_mean": 5.598870786460671, "train/rep_loss_std": 8.972495955389899, "train/reward_avg": 0.0531104832786966, "train/reward_loss_mean": 0.06717581281790862, "train/reward_loss_std": 0.23590029494182482, "train/reward_max_data": 1.0445946052267745, "train/reward_max_pred": 1.0439660162539095, "train/reward_neg_acc": 0.9913860696393091, "train/reward_neg_loss": 0.027255332047069394, "train/reward_pos_acc": 0.9883508593649477, "train/reward_pos_loss": 0.7229978377754623, "train/reward_pred": 0.05263357211810511, "train/reward_rate": 0.057353251689189186, "stats/sum_log_reward": 13.600000381469727, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 3.6666666666666665, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 20.666666666666668, "stats/max_log_achievement_collect_wood": 11.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.3333333333333333, "stats/max_log_achievement_eat_cow": 0.8333333333333334, "stats/max_log_achievement_make_stone_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_stone_sword": 0.6666666666666666, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.8333333333333335, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 3.8333333333333335, "stats/max_log_achievement_place_table": 3.1666666666666665, "stats/max_log_achievement_wake_up": 1.8333333333333333, "stats/mean_log_entropy": 0.573720263938109, "replay/size": 1000000.0, "replay/inserts": 1474.0, "replay/samples": 11792.0, "replay/insert_wait_avg": 3.62156851159022e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4441995154889338e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2342846393585, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02372431755065918, "timer/logger.write_frac": 7.901934843702755e-05, "timer/logger.write_avg": 0.02372431755065918, "timer/logger.write_min": 0.02372431755065918, "timer/logger.write_max": 0.02372431755065918, "timer/replay.add_count": 1474.0, "timer/replay.add_total": 0.29300951957702637, "timer/replay.add_frac": 0.0009759362423548311, "timer/replay.add_avg": 0.00019878529143624584, "timer/replay.add_min": 7.605552673339844e-05, "timer/replay.add_max": 0.0010213851928710938, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1474.0, "timer/env.step_total": 16.677571535110474, "timer/env.step_frac": 0.05554852456355401, "timer/env.step_avg": 0.011314499006180782, "timer/env.step_min": 0.002853870391845703, "timer/env.step_max": 1.4909405708312988, "timer/agent.policy_count": 1474.0, "timer/agent.policy_total": 10.888166427612305, "timer/agent.policy_frac": 0.0362655665414467, "timer/agent.policy_avg": 0.007386815758217303, "timer/agent.policy_min": 0.005670309066772461, "timer/agent.policy_max": 0.017572402954101562, "timer/dataset_count": 737.0, "timer/dataset_total": 0.06679224967956543, "timer/dataset_frac": 0.00022246709685336667, "timer/dataset_avg": 9.062720444988526e-05, "timer/dataset_min": 6.198883056640625e-05, "timer/dataset_max": 0.00018215179443359375, "timer/agent.train_count": 737.0, "timer/agent.train_total": 271.61688923835754, "timer/agent.train_frac": 0.9046831195998278, "timer/agent.train_avg": 0.3685439474061839, "timer/agent.train_min": 0.36020350456237793, "timer/agent.train_max": 0.3849503993988037, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.19959616661071777, "timer/agent.report_frac": 0.0006648013795308977, "timer/agent.report_avg": 0.19959616661071777, "timer/agent.report_min": 0.19959616661071777, "timer/agent.report_max": 0.19959616661071777, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.909393454131469}
{"step": 1388935, "episode/length": 273.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 16.100000008940697, "episode/reward_rate": 0.05474452554744526}
{"step": 1389098, "episode/length": 162.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.09202453987730061}
{"step": 1389633, "episode/length": 534.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 12.500000037252903, "episode/reward_rate": 0.018691588785046728}
{"step": 1389938, "episode/length": 304.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.04918032786885246}
{"step": 1390081, "episode/length": 142.0, "episode/score": 9.100000008940697, "episode/sum_abs_reward": 10.899999991059303, "episode/reward_rate": 0.07692307692307693}
{"step": 1390228, "episode/length": 146.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.09523809523809523}
{"step": 1390239, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.485628695101352, "train/action_min": 0.0, "train/action_std": 3.399745425662479, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03441093970291518, "train/actor_opt_grad_steps": 694205.0, "train/actor_opt_loss": -10.691146524371328, "train/adv_mag": 0.37446075355684433, "train/adv_max": 0.32663381462161606, "train/adv_mean": 0.0020141794704761342, "train/adv_min": -0.31817305108179916, "train/adv_std": 0.03928927749999472, "train/cont_avg": 0.995288745777027, "train/cont_loss_mean": 5.441019097467474e-05, "train/cont_loss_std": 0.0016925286011398055, "train/cont_neg_acc": 0.9983108108108109, "train/cont_neg_loss": 0.0057637552642953675, "train/cont_pos_acc": 0.9999999814742321, "train/cont_pos_loss": 1.1689765873176603e-05, "train/cont_pred": 0.9952937557890609, "train/cont_rate": 0.995288745777027, "train/dyn_loss_mean": 5.632641682753691, "train/dyn_loss_std": 8.950174280115077, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8421556506607983, "train/extr_critic_critic_opt_grad_steps": 694205.0, "train/extr_critic_critic_opt_loss": 15056.285829286318, "train/extr_critic_mag": 12.591142834843817, "train/extr_critic_max": 12.591142834843817, "train/extr_critic_mean": 3.620825619310946, "train/extr_critic_min": -0.37252981115031886, "train/extr_critic_std": 3.0577564448923678, "train/extr_return_normed_mag": 1.370506763458252, "train/extr_return_normed_max": 1.370506763458252, "train/extr_return_normed_mean": 0.38209215652298284, "train/extr_return_normed_min": -0.05837560560856316, "train/extr_return_normed_std": 0.3143205304403563, "train/extr_return_rate": 0.8189699875341879, "train/extr_return_raw_mag": 13.325717049676019, "train/extr_return_raw_max": 13.325717049676019, "train/extr_return_raw_mean": 3.640559196472168, "train/extr_return_raw_min": -0.6749112384544836, "train/extr_return_raw_std": 3.0801185031194946, "train/extr_reward_mag": 1.0900930939493954, "train/extr_reward_max": 1.0900930939493954, "train/extr_reward_mean": 0.06515430779875936, "train/extr_reward_min": -0.5715991065308854, "train/extr_reward_std": 0.24478993947441513, "train/image_loss_mean": 3.5735767209852063, "train/image_loss_std": 9.252560364233481, "train/model_loss_mean": 7.018689432659665, "train/model_loss_std": 13.330557874731115, "train/model_opt_grad_norm": 20.044875183620967, "train/model_opt_grad_steps": 693632.4459459459, "train/model_opt_loss": 25378.475533150337, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3614.864864864865, "train/policy_entropy_mag": 2.742895203667718, "train/policy_entropy_max": 2.742895203667718, "train/policy_entropy_mean": 0.48950090641910965, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.715681628198237, "train/policy_logprob_mag": 7.438384230072434, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.49000491201877594, "train/policy_logprob_min": -7.438384230072434, "train/policy_logprob_std": 1.104418326874037, "train/policy_randomness_mag": 0.9681216381691597, "train/policy_randomness_max": 0.9681216381691597, "train/policy_randomness_mean": 0.17277234208744927, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.25260420787978816, "train/post_ent_mag": 55.034361298019824, "train/post_ent_max": 55.034361298019824, "train/post_ent_mean": 39.60958527229928, "train/post_ent_min": 19.703651144697858, "train/post_ent_std": 5.8106018465918465, "train/prior_ent_mag": 76.66031832308383, "train/prior_ent_max": 76.66031832308383, "train/prior_ent_mean": 45.23680604470743, "train/prior_ent_min": 26.951473055659115, "train/prior_ent_std": 8.072878947129121, "train/rep_loss_mean": 5.632641682753691, "train/rep_loss_std": 8.950174280115077, "train/reward_avg": 0.051200907627070275, "train/reward_loss_mean": 0.06547330561521891, "train/reward_loss_std": 0.22983914593587051, "train/reward_max_data": 1.032432440164927, "train/reward_max_pred": 1.0308387923885036, "train/reward_neg_acc": 0.9921241861742895, "train/reward_neg_loss": 0.02739842648844461, "train/reward_pos_acc": 0.9933830797672272, "train/reward_pos_loss": 0.716200296137784, "train/reward_pred": 0.05091974204657851, "train/reward_rate": 0.05538692989864865, "stats/sum_log_reward": 12.100000222524008, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 4.166666666666667, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 12.5, "stats/max_log_achievement_collect_wood": 11.0, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.6666666666666665, "stats/max_log_achievement_eat_cow": 0.6666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 0.5, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.3333333333333333, "stats/max_log_achievement_place_furnace": 1.8333333333333333, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_stone": 2.6666666666666665, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.574265199402968, "replay/size": 1000000.0, "replay/inserts": 1476.0, "replay/samples": 11808.0, "replay/insert_wait_avg": 3.6248992775190813e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4513690620256956e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.22892785072327, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.029293060302734375, "timer/logger.write_frac": 9.756908007645142e-05, "timer/logger.write_avg": 0.029293060302734375, "timer/logger.write_min": 0.029293060302734375, "timer/logger.write_max": 0.029293060302734375, "timer/replay.add_count": 1476.0, "timer/replay.add_total": 0.29636192321777344, "timer/replay.add_frac": 0.000987119813335001, "timer/replay.add_avg": 0.00020078721085215002, "timer/replay.add_min": 7.987022399902344e-05, "timer/replay.add_max": 0.005587100982666016, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1476.0, "timer/env.step_total": 16.66956377029419, "timer/env.step_frac": 0.05552284348356484, "timer/env.step_avg": 0.011293742391798232, "timer/env.step_min": 0.0027511119842529297, "timer/env.step_max": 1.457263469696045, "timer/agent.policy_count": 1476.0, "timer/agent.policy_total": 10.80432415008545, "timer/agent.policy_frac": 0.03598695244802481, "timer/agent.policy_avg": 0.007320002811711009, "timer/agent.policy_min": 0.0055713653564453125, "timer/agent.policy_max": 0.014438152313232422, "timer/dataset_count": 738.0, "timer/dataset_total": 0.06604743003845215, "timer/dataset_frac": 0.00021999022716189285, "timer/dataset_avg": 8.94951626537292e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.00032711029052734375, "timer/agent.train_count": 738.0, "timer/agent.train_total": 271.6943106651306, "timer/agent.train_frac": 0.9049571359100335, "timer/agent.train_avg": 0.36814947244597646, "timer/agent.train_min": 0.36121463775634766, "timer/agent.train_max": 0.3815345764160156, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20532965660095215, "timer/agent.report_frac": 0.0006839103016183838, "timer/agent.report_avg": 0.20532965660095215, "timer/agent.report_min": 0.20532965660095215, "timer/agent.report_max": 0.20532965660095215, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.916160796555066}
{"step": 1390436, "episode/length": 207.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.07211538461538461}
{"step": 1390550, "episode/length": 113.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.09649122807017543}
{"step": 1390638, "episode/length": 87.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.100000016391277, "episode/reward_rate": 0.09090909090909091}
{"step": 1390894, "episode/length": 255.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.05859375}
{"step": 1391311, "episode/length": 416.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.03597122302158273}
{"step": 1391517, "episode/length": 205.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.900000028312206, "episode/reward_rate": 0.05825242718446602}
{"step": 1391687, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.474932352701823, "train/action_min": 0.0, "train/action_std": 3.329292631811566, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.035040762197847165, "train/actor_opt_grad_steps": 694935.0, "train/actor_opt_loss": -11.112905989504522, "train/adv_mag": 0.3644138171027104, "train/adv_max": 0.30815389814476174, "train/adv_mean": 0.0018842050097494696, "train/adv_min": -0.3183244996600681, "train/adv_std": 0.03950386313307616, "train/cont_avg": 0.9953477647569444, "train/cont_loss_mean": 1.212094032994789e-05, "train/cont_loss_std": 0.00029998761657326313, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00029445556420876825, "train/cont_pos_acc": 0.9999999842709966, "train/cont_pos_loss": 1.0969125913757378e-05, "train/cont_pred": 0.9953383290105395, "train/cont_rate": 0.9953477647569444, "train/dyn_loss_mean": 5.73573715156979, "train/dyn_loss_std": 9.01621060901218, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8463850534624524, "train/extr_critic_critic_opt_grad_steps": 694935.0, "train/extr_critic_critic_opt_loss": 14838.631320529514, "train/extr_critic_mag": 12.861783332294888, "train/extr_critic_max": 12.861783332294888, "train/extr_critic_mean": 3.875306953986486, "train/extr_critic_min": -0.3618226448694865, "train/extr_critic_std": 3.0840298566553326, "train/extr_return_normed_mag": 1.383114531636238, "train/extr_return_normed_max": 1.383114531636238, "train/extr_return_normed_mean": 0.4053128022286627, "train/extr_return_normed_min": -0.05782350292429328, "train/extr_return_normed_std": 0.31655424895385903, "train/extr_return_rate": 0.8309860080480576, "train/extr_return_raw_mag": 13.512745261192322, "train/extr_return_raw_max": 13.512745261192322, "train/extr_return_raw_mean": 3.893806901242998, "train/extr_return_raw_min": -0.6620906641085943, "train/extr_return_raw_std": 3.1140657564004264, "train/extr_reward_mag": 1.0923738380273182, "train/extr_reward_max": 1.0923738380273182, "train/extr_reward_mean": 0.06731517581890027, "train/extr_reward_min": -0.5851889269219505, "train/extr_reward_std": 0.2480351212951872, "train/image_loss_mean": 3.6399627957079144, "train/image_loss_std": 8.965530925326878, "train/model_loss_mean": 7.149098780420092, "train/model_loss_std": 13.10959882206387, "train/model_opt_grad_norm": 17.429548237058853, "train/model_opt_grad_steps": 694362.0, "train/model_opt_loss": 21154.42500813802, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2951.3888888888887, "train/policy_entropy_mag": 2.7407979468504586, "train/policy_entropy_max": 2.7407979468504586, "train/policy_entropy_mean": 0.4712205260164208, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.6887216977775097, "train/policy_logprob_mag": 7.438384268018934, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4700852504207028, "train/policy_logprob_min": -7.438384268018934, "train/policy_logprob_std": 1.082493647105164, "train/policy_randomness_mag": 0.9673814020223088, "train/policy_randomness_max": 0.9673814020223088, "train/policy_randomness_mean": 0.16632016810278097, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24308853492968613, "train/post_ent_mag": 55.237823751237656, "train/post_ent_max": 55.237823751237656, "train/post_ent_mean": 39.71423710717095, "train/post_ent_min": 19.290560338232254, "train/post_ent_std": 5.789586020840539, "train/prior_ent_mag": 76.7765056822035, "train/prior_ent_max": 76.7765056822035, "train/prior_ent_mean": 45.39463324016995, "train/prior_ent_min": 27.054241948657566, "train/prior_ent_std": 8.070927143096924, "train/rep_loss_mean": 5.73573715156979, "train/rep_loss_std": 9.01621060901218, "train/reward_avg": 0.05470648852901326, "train/reward_loss_mean": 0.06768153162880076, "train/reward_loss_std": 0.23460008224679363, "train/reward_max_data": 1.0444444550408258, "train/reward_max_pred": 1.0417323013146718, "train/reward_neg_acc": 0.9917296899689568, "train/reward_neg_loss": 0.02636647247709334, "train/reward_pos_acc": 0.9878479474120669, "train/reward_pos_loss": 0.7305794283747673, "train/reward_pred": 0.054159373614109226, "train/reward_rate": 0.05881076388888889, "stats/sum_log_reward": 11.766666809717814, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 2.1666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 12.833333333333334, "stats/max_log_achievement_collect_wood": 11.0, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.3333333333333333, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 0.5, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.1666666666666667, "stats/max_log_achievement_place_plant": 1.3333333333333333, "stats/max_log_achievement_place_stone": 3.8333333333333335, "stats/max_log_achievement_place_table": 2.5, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.42358599851528805, "replay/size": 1000000.0, "replay/inserts": 1448.0, "replay/samples": 11584.0, "replay/insert_wait_avg": 3.6681554594092607e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4373446037756146e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.13341879844666, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.027365922927856445, "timer/logger.write_frac": 9.117919303159611e-05, "timer/logger.write_avg": 0.027365922927856445, "timer/logger.write_min": 0.027365922927856445, "timer/logger.write_max": 0.027365922927856445, "timer/replay.add_count": 1448.0, "timer/replay.add_total": 0.2902371883392334, "timer/replay.add_frac": 0.0009670272290942082, "timer/replay.add_avg": 0.00020044004719560316, "timer/replay.add_min": 7.081031799316406e-05, "timer/replay.add_max": 0.0010499954223632812, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1448.0, "timer/env.step_total": 17.434927940368652, "timer/env.step_frac": 0.05809059187799745, "timer/env.step_avg": 0.012040696091414815, "timer/env.step_min": 0.002432584762573242, "timer/env.step_max": 1.4619672298431396, "timer/agent.policy_count": 1448.0, "timer/agent.policy_total": 14.66306734085083, "timer/agent.policy_frac": 0.0488551638119904, "timer/agent.policy_avg": 0.010126427721582065, "timer/agent.policy_min": 0.00570225715637207, "timer/agent.policy_max": 2.614649534225464, "timer/dataset_count": 724.0, "timer/dataset_total": 0.06592178344726562, "timer/dataset_frac": 0.00021964159709763985, "timer/dataset_avg": 9.10521870818586e-05, "timer/dataset_min": 6.151199340820312e-05, "timer/dataset_max": 0.00018787384033203125, "timer/agent.train_count": 724.0, "timer/agent.train_total": 266.99228048324585, "timer/agent.train_frac": 0.8895786465636584, "timer/agent.train_avg": 0.36877386807078155, "timer/agent.train_min": 0.360490083694458, "timer/agent.train_max": 0.45320773124694824, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.19968390464782715, "timer/agent.report_frac": 0.0006653171294527653, "timer/agent.report_avg": 0.19968390464782715, "timer/agent.report_min": 0.19968390464782715, "timer/agent.report_max": 0.19968390464782715, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002646446228027344, "timer/checkpoint.save_frac": 8.817565996556197e-07, "timer/checkpoint.save_avg": 0.0002646446228027344, "timer/checkpoint.save_min": 0.0002646446228027344, "timer/checkpoint.save_max": 0.0002646446228027344, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.229431390762329, "timer/agent.save_frac": 0.004096282898732942, "timer/agent.save_avg": 1.229431390762329, "timer/agent.save_min": 1.229431390762329, "timer/agent.save_max": 1.229431390762329, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.176399230957031e-05, "timer/replay.save_frac": 2.391069698165239e-07, "timer/replay.save_avg": 7.176399230957031e-05, "timer/replay.save_min": 7.176399230957031e-05, "timer/replay.save_max": 7.176399230957031e-05, "fps": 4.824419804816231}
{"step": 1391862, "episode/length": 344.0, "episode/score": 15.100000008940697, "episode/sum_abs_reward": 19.300000071525574, "episode/reward_rate": 0.0463768115942029}
{"step": 1392053, "episode/length": 190.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.07853403141361257}
{"step": 1392257, "episode/length": 203.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.700000025331974, "episode/reward_rate": 0.06862745098039216}
{"step": 1392438, "episode/length": 180.0, "episode/score": 10.099999994039536, "episode/sum_abs_reward": 11.900000035762787, "episode/reward_rate": 0.06077348066298342}
{"step": 1392763, "episode/length": 324.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.046153846153846156}
{"step": 1392960, "episode/length": 196.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.06598984771573604}
{"step": 1393139, "episode/length": 178.0, "episode/score": 11.099999964237213, "episode/sum_abs_reward": 12.699999988079071, "episode/reward_rate": 0.0670391061452514}
{"step": 1393151, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.510173640839041, "train/action_min": 0.0, "train/action_std": 3.407628885687214, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.034755002324507664, "train/actor_opt_grad_steps": 695660.0, "train/actor_opt_loss": -13.194035431701844, "train/adv_mag": 0.4151978149805983, "train/adv_max": 0.34873254372649, "train/adv_mean": 0.001240600163614607, "train/adv_min": -0.36942574524716154, "train/adv_std": 0.03906451308563964, "train/cont_avg": 0.9952375856164384, "train/cont_loss_mean": 5.619405011383269e-05, "train/cont_loss_std": 0.0017572341226471894, "train/cont_neg_acc": 0.9977168955215036, "train/cont_neg_loss": 0.006875083653181843, "train/cont_pos_acc": 0.9999865424143125, "train/cont_pos_loss": 1.6387830347195618e-05, "train/cont_pred": 0.9952387009581475, "train/cont_rate": 0.9952375856164384, "train/dyn_loss_mean": 5.823937396480613, "train/dyn_loss_std": 9.044160803703413, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8331495311162244, "train/extr_critic_critic_opt_grad_steps": 695660.0, "train/extr_critic_critic_opt_loss": 14824.950516374143, "train/extr_critic_mag": 12.830586668563216, "train/extr_critic_max": 12.830586668563216, "train/extr_critic_mean": 3.7422837002636635, "train/extr_critic_min": -0.4031125682674042, "train/extr_critic_std": 3.137027962567055, "train/extr_return_normed_mag": 1.3739079220654213, "train/extr_return_normed_max": 1.3739079220654213, "train/extr_return_normed_mean": 0.3916529647699774, "train/extr_return_normed_min": -0.06170757484864699, "train/extr_return_normed_std": 0.3199940768823232, "train/extr_return_rate": 0.8133704784798296, "train/extr_return_raw_mag": 13.441052554404898, "train/extr_return_raw_max": 13.441052554404898, "train/extr_return_raw_mean": 3.7545353745760983, "train/extr_return_raw_min": -0.7163274569870675, "train/extr_return_raw_std": 3.155545175892033, "train/extr_reward_mag": 1.0831688397551236, "train/extr_reward_max": 1.0831688397551236, "train/extr_reward_mean": 0.06578454834549394, "train/extr_reward_min": -0.6224858793493819, "train/extr_reward_std": 0.2456575670879181, "train/image_loss_mean": 3.7283528341005927, "train/image_loss_std": 9.055642742000215, "train/model_loss_mean": 7.289360823696607, "train/model_loss_std": 13.167400660580151, "train/model_opt_grad_norm": 20.70963403623398, "train/model_opt_grad_steps": 695086.0547945206, "train/model_opt_loss": 19213.001805971748, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2636.986301369863, "train/policy_entropy_mag": 2.7666388113204747, "train/policy_entropy_max": 2.7666388113204747, "train/policy_entropy_mean": 0.5195175176613951, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.742767334392626, "train/policy_logprob_mag": 7.438384278179848, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.5201554759724499, "train/policy_logprob_min": -7.438384278179848, "train/policy_logprob_std": 1.1246903399898582, "train/policy_randomness_mag": 0.9765020911007711, "train/policy_randomness_max": 0.9765020911007711, "train/policy_randomness_mean": 0.18336688808790624, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.262164273286519, "train/post_ent_mag": 55.14985447713774, "train/post_ent_max": 55.14985447713774, "train/post_ent_mean": 39.71401747612104, "train/post_ent_min": 19.054230180505204, "train/post_ent_std": 5.7681101054361426, "train/prior_ent_mag": 76.67471606110874, "train/prior_ent_max": 76.67471606110874, "train/prior_ent_mean": 45.50723517430972, "train/prior_ent_min": 27.330882085512762, "train/prior_ent_std": 7.97578149299099, "train/rep_loss_mean": 5.823937396480613, "train/rep_loss_std": 9.044160803703413, "train/reward_avg": 0.054369113726975164, "train/reward_loss_mean": 0.06658941507339478, "train/reward_loss_std": 0.2298661572475956, "train/reward_max_data": 1.0273972668059885, "train/reward_max_pred": 1.0254410880885712, "train/reward_neg_acc": 0.9921818971633911, "train/reward_neg_loss": 0.026169957924787313, "train/reward_pos_acc": 0.9920693301174739, "train/reward_pos_loss": 0.7167052014233315, "train/reward_pred": 0.05405345941855483, "train/reward_rate": 0.0587007705479452, "stats/sum_log_reward": 12.814285959516253, "stats/max_log_achievement_collect_coal": 1.2857142857142858, "stats/max_log_achievement_collect_drink": 2.7142857142857144, "stats/max_log_achievement_collect_iron": 0.14285714285714285, "stats/max_log_achievement_collect_sapling": 1.1428571428571428, "stats/max_log_achievement_collect_stone": 14.428571428571429, "stats/max_log_achievement_collect_wood": 15.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.8571428571428572, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 1.5714285714285714, "stats/max_log_achievement_make_wood_pickaxe": 1.5714285714285714, "stats/max_log_achievement_make_wood_sword": 1.2857142857142858, "stats/max_log_achievement_place_furnace": 1.1428571428571428, "stats/max_log_achievement_place_plant": 1.0, "stats/max_log_achievement_place_stone": 3.7142857142857144, "stats/max_log_achievement_place_table": 4.571428571428571, "stats/max_log_achievement_wake_up": 1.5714285714285714, "stats/mean_log_entropy": 0.5638104464326587, "replay/size": 1000000.0, "replay/inserts": 1464.0, "replay/samples": 11712.0, "replay/insert_wait_avg": 3.58051289626158e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4456569171342694e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.13604521751404, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02328348159790039, "timer/logger.write_frac": 7.757642565399444e-05, "timer/logger.write_avg": 0.02328348159790039, "timer/logger.write_min": 0.02328348159790039, "timer/logger.write_max": 0.02328348159790039, "timer/replay.add_count": 1464.0, "timer/replay.add_total": 0.3078124523162842, "timer/replay.add_frac": 0.0010255764251614861, "timer/replay.add_avg": 0.00021025440731986625, "timer/replay.add_min": 8.082389831542969e-05, "timer/replay.add_max": 0.0035707950592041016, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1464.0, "timer/env.step_total": 18.596973657608032, "timer/env.step_frac": 0.061961813497377394, "timer/env.step_avg": 0.01270285085902188, "timer/env.step_min": 0.002751588821411133, "timer/env.step_max": 1.5224249362945557, "timer/agent.policy_count": 1464.0, "timer/agent.policy_total": 10.842663288116455, "timer/agent.policy_frac": 0.036125828473079866, "timer/agent.policy_avg": 0.007406190770571349, "timer/agent.policy_min": 0.005594730377197266, "timer/agent.policy_max": 0.016330480575561523, "timer/dataset_count": 732.0, "timer/dataset_total": 0.06597256660461426, "timer/dataset_frac": 0.00021980887552777188, "timer/dataset_avg": 9.012645711012877e-05, "timer/dataset_min": 6.198883056640625e-05, "timer/dataset_max": 0.0001671314239501953, "timer/agent.train_count": 732.0, "timer/agent.train_total": 269.63603472709656, "timer/agent.train_frac": 0.8983793816956788, "timer/agent.train_avg": 0.36835523869821934, "timer/agent.train_min": 0.3581058979034424, "timer/agent.train_max": 0.38167786598205566, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.19723987579345703, "timer/agent.report_frac": 0.0006571682373255559, "timer/agent.report_avg": 0.19723987579345703, "timer/agent.report_min": 0.19723987579345703, "timer/agent.report_max": 0.19723987579345703, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.877682280353369}
{"step": 1393301, "episode/length": 161.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.08024691358024691}
{"step": 1393666, "episode/length": 364.0, "episode/score": 16.099999986588955, "episode/sum_abs_reward": 19.700000040233135, "episode/reward_rate": 0.04657534246575343}
{"step": 1393800, "episode/length": 133.0, "episode/score": 11.100000008940697, "episode/sum_abs_reward": 13.300000041723251, "episode/reward_rate": 0.08955223880597014}
{"step": 1393939, "episode/length": 138.0, "episode/score": 8.100000001490116, "episode/sum_abs_reward": 10.500000037252903, "episode/reward_rate": 0.06474820143884892}
{"step": 1394184, "episode/length": 244.0, "episode/score": 13.100000016391277, "episode/sum_abs_reward": 14.900000043213367, "episode/reward_rate": 0.05714285714285714}
{"step": 1394418, "episode/length": 233.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.0641025641025641}
{"step": 1394617, "episode/length": 198.0, "episode/score": 13.10000005364418, "episode/sum_abs_reward": 16.30000001192093, "episode/reward_rate": 0.08040201005025126}
{"step": 1394618, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.505603529002569, "train/action_min": 0.0, "train/action_std": 3.404192908169472, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03354380381842182, "train/actor_opt_grad_steps": 696390.0, "train/actor_opt_loss": -12.885039770848131, "train/adv_mag": 0.3910570883587615, "train/adv_max": 0.3142167821730653, "train/adv_mean": 0.0014556416331101465, "train/adv_min": -0.3563984673317165, "train/adv_std": 0.03831213824961283, "train/cont_avg": 0.9953981164383562, "train/cont_loss_mean": 0.00014366117293725624, "train/cont_loss_std": 0.0038524515809407207, "train/cont_neg_acc": 0.996086105908433, "train/cont_neg_loss": 0.01632055330986844, "train/cont_pos_acc": 0.9999999828534584, "train/cont_pos_loss": 3.2512174610249914e-05, "train/cont_pred": 0.9953931733353497, "train/cont_rate": 0.9953981164383562, "train/dyn_loss_mean": 5.686624533509555, "train/dyn_loss_std": 8.989954765528848, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8365278946210261, "train/extr_critic_critic_opt_grad_steps": 696390.0, "train/extr_critic_critic_opt_loss": 14893.216944028254, "train/extr_critic_mag": 12.65201670502963, "train/extr_critic_max": 12.65201670502963, "train/extr_critic_mean": 3.5358462105058646, "train/extr_critic_min": -0.3991962818250264, "train/extr_critic_std": 3.1000358241878145, "train/extr_return_normed_mag": 1.380444882667228, "train/extr_return_normed_max": 1.380444882667228, "train/extr_return_normed_mean": 0.3734403864978111, "train/extr_return_normed_min": -0.06584470397601389, "train/extr_return_normed_std": 0.3195861567781396, "train/extr_return_rate": 0.7930624354375552, "train/extr_return_raw_mag": 13.404857269705158, "train/extr_return_raw_max": 13.404857269705158, "train/extr_return_raw_mean": 3.5500992879475635, "train/extr_return_raw_min": -0.7494325686807501, "train/extr_return_raw_std": 3.1275935826236254, "train/extr_reward_mag": 1.0902730308166921, "train/extr_reward_max": 1.0902730308166921, "train/extr_reward_mean": 0.06309428790660754, "train/extr_reward_min": -0.6372503156531347, "train/extr_reward_std": 0.24172119939163939, "train/image_loss_mean": 3.791315931163422, "train/image_loss_std": 9.038576302463062, "train/model_loss_mean": 7.268647820982214, "train/model_loss_std": 13.108613941767445, "train/model_opt_grad_norm": 19.310827790874324, "train/model_opt_grad_steps": 695815.4520547945, "train/model_opt_loss": 18652.533524186645, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2568.4931506849316, "train/policy_entropy_mag": 2.756617938002495, "train/policy_entropy_max": 2.756617938002495, "train/policy_entropy_mean": 0.5071394508832121, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7269612093494363, "train/policy_logprob_mag": 7.438384297775896, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.5066313755838838, "train/policy_logprob_min": -7.438384297775896, "train/policy_logprob_std": 1.112706524052032, "train/policy_randomness_mag": 0.9729651588283174, "train/policy_randomness_max": 0.9729651588283174, "train/policy_randomness_mean": 0.1789979732608142, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.25658540774698124, "train/post_ent_mag": 55.20552010732154, "train/post_ent_max": 55.20552010732154, "train/post_ent_mean": 39.85592771556279, "train/post_ent_min": 19.55841003052176, "train/post_ent_std": 5.823214818353522, "train/prior_ent_mag": 76.75480359221157, "train/prior_ent_max": 76.75480359221157, "train/prior_ent_mean": 45.50776233411815, "train/prior_ent_min": 27.17021126943092, "train/prior_ent_std": 8.06139326095581, "train/rep_loss_mean": 5.686624533509555, "train/rep_loss_std": 8.989954765528848, "train/reward_avg": 0.05243471729224675, "train/reward_loss_mean": 0.06521352263141984, "train/reward_loss_std": 0.2188692868572392, "train/reward_max_data": 1.04794521691048, "train/reward_max_pred": 1.0432202195468014, "train/reward_neg_acc": 0.9919316556355725, "train/reward_neg_loss": 0.026293527028740268, "train/reward_pos_acc": 0.9912194862757644, "train/reward_pos_loss": 0.7132429088631721, "train/reward_pred": 0.05227924684343273, "train/reward_rate": 0.05676102311643835, "stats/sum_log_reward": 12.52857153756278, "stats/max_log_achievement_collect_coal": 1.1428571428571428, "stats/max_log_achievement_collect_drink": 3.7142857142857144, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 13.428571428571429, "stats/max_log_achievement_collect_wood": 12.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.2857142857142857, "stats/max_log_achievement_defeat_zombie": 1.4285714285714286, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.5714285714285714, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 3.4285714285714284, "stats/max_log_achievement_wake_up": 1.5714285714285714, "stats/mean_log_entropy": 0.5121005369084222, "replay/size": 1000000.0, "replay/inserts": 1467.0, "replay/samples": 11728.0, "replay/insert_wait_avg": 3.6685907198770076e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.436345899251441e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 301.2845993041992, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.023644447326660156, "timer/logger.write_frac": 7.847877847479013e-05, "timer/logger.write_avg": 0.023644447326660156, "timer/logger.write_min": 0.023644447326660156, "timer/logger.write_max": 0.023644447326660156, "timer/replay.add_count": 1467.0, "timer/replay.add_total": 0.3047151565551758, "timer/replay.add_frac": 0.001011386434151959, "timer/replay.add_avg": 0.00020771312648614572, "timer/replay.add_min": 7.343292236328125e-05, "timer/replay.add_max": 0.0019197463989257812, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1467.0, "timer/env.step_total": 18.46714997291565, "timer/env.step_frac": 0.06129470280115396, "timer/env.step_avg": 0.012588377622982719, "timer/env.step_min": 0.002811908721923828, "timer/env.step_max": 1.5098497867584229, "timer/agent.policy_count": 1467.0, "timer/agent.policy_total": 11.041324138641357, "timer/agent.policy_frac": 0.036647489331153034, "timer/agent.policy_avg": 0.007526464988848914, "timer/agent.policy_min": 0.005629777908325195, "timer/agent.policy_max": 0.01892876625061035, "timer/dataset_count": 733.0, "timer/dataset_total": 0.06793594360351562, "timer/dataset_frac": 0.0002254876079308736, "timer/dataset_avg": 9.268205130083987e-05, "timer/dataset_min": 6.175041198730469e-05, "timer/dataset_max": 0.0002574920654296875, "timer/agent.train_count": 733.0, "timer/agent.train_total": 270.7013432979584, "timer/agent.train_frac": 0.8984904768552019, "timer/agent.train_avg": 0.36930606179803327, "timer/agent.train_min": 0.3599379062652588, "timer/agent.train_max": 0.3837461471557617, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20171594619750977, "timer/agent.report_frac": 0.0006695196059253013, "timer/agent.report_avg": 0.20171594619750977, "timer/agent.report_min": 0.20171594619750977, "timer/agent.report_max": 0.20171594619750977, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.869059816178946}
{"step": 1394798, "episode/length": 180.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 13.899999991059303, "episode/reward_rate": 0.07734806629834254}
{"step": 1395146, "episode/length": 347.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.04310344827586207}
{"step": 1395360, "episode/length": 213.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.06542056074766354}
{"step": 1395530, "episode/length": 169.0, "episode/score": 13.100000023841858, "episode/sum_abs_reward": 14.899999976158142, "episode/reward_rate": 0.08823529411764706}
{"step": 1395696, "episode/length": 165.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.09036144578313253}
{"step": 1395985, "episode/length": 288.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.30000003427267, "episode/reward_rate": 0.05190311418685121}
{"step": 1396055, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.500556945800781, "train/action_min": 0.0, "train/action_std": 3.3807154132260218, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0343547933217552, "train/actor_opt_grad_steps": 697115.0, "train/actor_opt_loss": -10.649082291457388, "train/adv_mag": 0.3745781340532833, "train/adv_max": 0.3239603506194221, "train/adv_mean": 0.0019406993543371856, "train/adv_min": -0.3310170241942008, "train/adv_std": 0.039067774855842195, "train/cont_avg": 0.9952256944444444, "train/cont_loss_mean": 5.867089035266954e-05, "train/cont_loss_std": 0.0017972707546686844, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0008414999406115934, "train/cont_pos_acc": 0.9999863488806618, "train/cont_pos_loss": 5.3092661797945105e-05, "train/cont_pred": 0.9952066962917646, "train/cont_rate": 0.9952256944444444, "train/dyn_loss_mean": 5.719237930244869, "train/dyn_loss_std": 9.051564666959974, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8168802162011465, "train/extr_critic_critic_opt_grad_steps": 697115.0, "train/extr_critic_critic_opt_loss": 14811.107476128473, "train/extr_critic_mag": 12.700482143296135, "train/extr_critic_max": 12.700482143296135, "train/extr_critic_mean": 3.665873650047514, "train/extr_critic_min": -0.36812172167831, "train/extr_critic_std": 3.0841612882084317, "train/extr_return_normed_mag": 1.392441858847936, "train/extr_return_normed_max": 1.392441858847936, "train/extr_return_normed_mean": 0.38880931089321774, "train/extr_return_normed_min": -0.06292061467603263, "train/extr_return_normed_std": 0.3202392090525892, "train/extr_return_rate": 0.8103488923774825, "train/extr_return_raw_mag": 13.447577476501465, "train/extr_return_raw_max": 13.447577476501465, "train/extr_return_raw_mean": 3.684759192996555, "train/extr_return_raw_min": -0.7092000134289265, "train/extr_return_raw_std": 3.1149776015016766, "train/extr_reward_mag": 1.0851919419235654, "train/extr_reward_max": 1.0851919419235654, "train/extr_reward_mean": 0.06419907706893152, "train/extr_reward_min": -0.6074041343397565, "train/extr_reward_std": 0.2426766353762812, "train/image_loss_mean": 3.5735393365224204, "train/image_loss_std": 8.966979106267294, "train/model_loss_mean": 7.0713927083545265, "train/model_loss_std": 13.123398078812492, "train/model_opt_grad_norm": 18.5104232761595, "train/model_opt_grad_steps": 696539.8611111111, "train/model_opt_loss": 18248.828789605035, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2569.4444444444443, "train/policy_entropy_mag": 2.751213848590851, "train/policy_entropy_max": 2.751213848590851, "train/policy_entropy_mean": 0.49058427951402134, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7108031312624613, "train/policy_logprob_mag": 7.43838428788715, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.49023737758398056, "train/policy_logprob_min": -7.43838428788715, "train/policy_logprob_std": 1.1029183202319675, "train/policy_randomness_mag": 0.9710577544238832, "train/policy_randomness_max": 0.9710577544238832, "train/policy_randomness_mean": 0.17315472414096197, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2508823112067249, "train/post_ent_mag": 54.99077055189345, "train/post_ent_max": 54.99077055189345, "train/post_ent_mean": 39.70678477817111, "train/post_ent_min": 19.5047504901886, "train/post_ent_std": 5.7931498818927345, "train/prior_ent_mag": 76.81579356723361, "train/prior_ent_max": 76.81579356723361, "train/prior_ent_mean": 45.408127042982315, "train/prior_ent_min": 26.914011849297417, "train/prior_ent_std": 8.010609871811337, "train/rep_loss_mean": 5.719237930244869, "train/rep_loss_std": 9.051564666959974, "train/reward_avg": 0.052280001523387104, "train/reward_loss_mean": 0.06625198288303283, "train/reward_loss_std": 0.22942320547170109, "train/reward_max_data": 1.0236111167404387, "train/reward_max_pred": 1.022517705957095, "train/reward_neg_acc": 0.9918687128358417, "train/reward_neg_loss": 0.027023640409525897, "train/reward_pos_acc": 0.9916181961695353, "train/reward_pos_loss": 0.7205366823408339, "train/reward_pred": 0.05192951845108635, "train/reward_rate": 0.056477864583333336, "stats/sum_log_reward": 13.43333355585734, "stats/max_log_achievement_collect_coal": 1.8333333333333333, "stats/max_log_achievement_collect_drink": 2.1666666666666665, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 18.333333333333332, "stats/max_log_achievement_collect_wood": 12.0, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 0.5, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_stone_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_stone_sword": 1.1666666666666667, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.1666666666666665, "stats/max_log_achievement_place_plant": 1.6666666666666667, "stats/max_log_achievement_place_stone": 4.166666666666667, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.5551413695017496, "replay/size": 1000000.0, "replay/inserts": 1437.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.75364087236865e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4335580263416358e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2217655181885, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.04140353202819824, "timer/logger.write_frac": 0.00013790982794580187, "timer/logger.write_avg": 0.04140353202819824, "timer/logger.write_min": 0.04140353202819824, "timer/logger.write_max": 0.04140353202819824, "timer/replay.add_count": 1437.0, "timer/replay.add_total": 0.29953742027282715, "timer/replay.add_frac": 0.0009977205342051728, "timer/replay.add_avg": 0.00020844636066306692, "timer/replay.add_min": 7.796287536621094e-05, "timer/replay.add_max": 0.0006659030914306641, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1437.0, "timer/env.step_total": 17.676757097244263, "timer/env.step_frac": 0.058878999218240705, "timer/env.step_avg": 0.012301153164401018, "timer/env.step_min": 0.002478361129760742, "timer/env.step_max": 1.5184686183929443, "timer/agent.policy_count": 1437.0, "timer/agent.policy_total": 15.011876344680786, "timer/agent.policy_frac": 0.05000262495548916, "timer/agent.policy_avg": 0.01044667804083562, "timer/agent.policy_min": 0.005673408508300781, "timer/agent.policy_max": 2.5498926639556885, "timer/dataset_count": 719.0, "timer/dataset_total": 0.06831526756286621, "timer/dataset_frac": 0.0002275493498779236, "timer/dataset_avg": 9.501428033778332e-05, "timer/dataset_min": 6.389617919921875e-05, "timer/dataset_max": 0.0002524852752685547, "timer/agent.train_count": 719.0, "timer/agent.train_total": 266.4078493118286, "timer/agent.train_frac": 0.887370203995715, "timer/agent.train_avg": 0.3705255206005961, "timer/agent.train_min": 0.3614654541015625, "timer/agent.train_max": 0.4465506076812744, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.229522705078125, "timer/agent.report_frac": 0.0007645105433377371, "timer/agent.report_avg": 0.229522705078125, "timer/agent.report_min": 0.229522705078125, "timer/agent.report_max": 0.229522705078125, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00029850006103515625, "timer/checkpoint.save_frac": 9.94265224308236e-07, "timer/checkpoint.save_avg": 0.00029850006103515625, "timer/checkpoint.save_min": 0.00029850006103515625, "timer/checkpoint.save_max": 0.00029850006103515625, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.5156898498535156, "timer/agent.save_frac": 0.00504856750554846, "timer/agent.save_avg": 1.5156898498535156, "timer/agent.save_min": 1.5156898498535156, "timer/agent.save_max": 1.5156898498535156, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.605552673339844e-05, "timer/replay.save_frac": 2.533311553948301e-07, "timer/replay.save_avg": 7.605552673339844e-05, "timer/replay.save_min": 7.605552673339844e-05, "timer/replay.save_max": 7.605552673339844e-05, "fps": 4.786376319191494}
{"step": 1396257, "episode/length": 271.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 14.900000013411045, "episode/reward_rate": 0.051470588235294115}
{"step": 1396527, "episode/length": 269.0, "episode/score": 11.100000023841858, "episode/sum_abs_reward": 13.300000011920929, "episode/reward_rate": 0.04814814814814815}
{"step": 1396786, "episode/length": 258.0, "episode/score": 15.100000023841858, "episode/sum_abs_reward": 17.700000062584877, "episode/reward_rate": 0.06177606177606178}
{"step": 1397031, "episode/length": 244.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.700000055134296, "episode/reward_rate": 0.053061224489795916}
{"step": 1397259, "episode/length": 227.0, "episode/score": 12.099999994039536, "episode/sum_abs_reward": 14.300000041723251, "episode/reward_rate": 0.05701754385964912}
{"step": 1397383, "episode/length": 123.0, "episode/score": 6.100000023841858, "episode/sum_abs_reward": 8.299999982118607, "episode/reward_rate": 0.06451612903225806}
{"step": 1397517, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4885579984482025, "train/action_min": 0.0, "train/action_std": 3.367927512077436, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03425019775351433, "train/actor_opt_grad_steps": 697840.0, "train/actor_opt_loss": -11.95491066187212, "train/adv_mag": 0.3886207460540615, "train/adv_max": 0.32990728277866155, "train/adv_mean": 0.0015859778553158944, "train/adv_min": -0.34297845706547775, "train/adv_std": 0.03881098603038755, "train/cont_avg": 0.9952375856164384, "train/cont_loss_mean": 1.5481060017918935e-05, "train/cont_loss_std": 0.0003806456422885837, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00036078230921707597, "train/cont_pos_acc": 0.9999999787709485, "train/cont_pos_loss": 1.4123339690909172e-05, "train/cont_pred": 0.9952254132048725, "train/cont_rate": 0.9952375856164384, "train/dyn_loss_mean": 5.636631371223763, "train/dyn_loss_std": 8.989586007105162, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8161882153929096, "train/extr_critic_critic_opt_grad_steps": 697840.0, "train/extr_critic_critic_opt_loss": 14767.467974101028, "train/extr_critic_mag": 12.648282573647695, "train/extr_critic_max": 12.648282573647695, "train/extr_critic_mean": 3.656988292524259, "train/extr_critic_min": -0.3681567972653533, "train/extr_critic_std": 3.029386072942655, "train/extr_return_normed_mag": 1.3931349189314124, "train/extr_return_normed_max": 1.3931349189314124, "train/extr_return_normed_mean": 0.385200658073164, "train/extr_return_normed_min": -0.05886507210359998, "train/extr_return_normed_std": 0.31290601765456266, "train/extr_return_rate": 0.8245764186937515, "train/extr_return_raw_mag": 13.504682240420825, "train/extr_return_raw_max": 13.504682240420825, "train/extr_return_raw_mean": 3.672462092687006, "train/extr_return_raw_min": -0.6592959528916502, "train/extr_return_raw_std": 3.052681001898361, "train/extr_reward_mag": 1.0955238766866187, "train/extr_reward_max": 1.0955238766866187, "train/extr_reward_mean": 0.06516918065409137, "train/extr_reward_min": -0.550299974337016, "train/extr_reward_std": 0.24446559748420976, "train/image_loss_mean": 3.59695468536795, "train/image_loss_std": 8.977754756195905, "train/model_loss_mean": 7.045389149286976, "train/model_loss_std": 13.102595825717874, "train/model_opt_grad_norm": 19.40994998200299, "train/model_opt_grad_steps": 697264.0, "train/model_opt_loss": 17613.47289704623, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7573401503366965, "train/policy_entropy_max": 2.7573401503366965, "train/policy_entropy_mean": 0.4886066603333983, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7153021215576015, "train/policy_logprob_mag": 7.4383842651158165, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4879730507119061, "train/policy_logprob_min": -7.4383842651158165, "train/policy_logprob_std": 1.0997618836899326, "train/policy_randomness_mag": 0.973220068297974, "train/policy_randomness_max": 0.973220068297974, "train/policy_randomness_mean": 0.17245671224512465, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2524702585723302, "train/post_ent_mag": 54.74102955648344, "train/post_ent_max": 54.74102955648344, "train/post_ent_mean": 39.61967379426303, "train/post_ent_min": 19.007548684943213, "train/post_ent_std": 5.711005210876465, "train/prior_ent_mag": 76.85321159885355, "train/prior_ent_max": 76.85321159885355, "train/prior_ent_mean": 45.286054846358624, "train/prior_ent_min": 27.001614191760755, "train/prior_ent_std": 7.99358138646165, "train/rep_loss_mean": 5.636631371223763, "train/rep_loss_std": 8.989586007105162, "train/reward_avg": 0.05281196447880301, "train/reward_loss_mean": 0.06644017550430886, "train/reward_loss_std": 0.2306380271911621, "train/reward_max_data": 1.0328767201671862, "train/reward_max_pred": 1.0308617696370164, "train/reward_neg_acc": 0.991985606004114, "train/reward_neg_loss": 0.02626941821295513, "train/reward_pos_acc": 0.9882089479328835, "train/reward_pos_loss": 0.7305120090915732, "train/reward_pred": 0.05213608444757657, "train/reward_rate": 0.05702857448630137, "stats/sum_log_reward": 11.600000301996866, "stats/max_log_achievement_collect_coal": 0.3333333333333333, "stats/max_log_achievement_collect_drink": 3.6666666666666665, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5, "stats/max_log_achievement_collect_stone": 13.833333333333334, "stats/max_log_achievement_collect_wood": 12.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.16666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 0.5, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 3.5, "stats/max_log_achievement_place_table": 2.8333333333333335, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.5609319706757864, "replay/size": 1000000.0, "replay/inserts": 1462.0, "replay/samples": 11696.0, "replay/insert_wait_avg": 3.7760480157980026e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4221537781805412e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0346586704254, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03024888038635254, "timer/logger.write_frac": 0.00010081795390038447, "timer/logger.write_avg": 0.03024888038635254, "timer/logger.write_min": 0.03024888038635254, "timer/logger.write_max": 0.03024888038635254, "timer/replay.add_count": 1462.0, "timer/replay.add_total": 0.3221099376678467, "timer/replay.add_frac": 0.0010735757631976444, "timer/replay.add_avg": 0.00022032143479332878, "timer/replay.add_min": 7.271766662597656e-05, "timer/replay.add_max": 0.0009644031524658203, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1462.0, "timer/env.step_total": 17.427887439727783, "timer/env.step_frac": 0.05808624749206569, "timer/env.step_avg": 0.01192057964413665, "timer/env.step_min": 0.0027418136596679688, "timer/env.step_max": 1.5202667713165283, "timer/agent.policy_count": 1462.0, "timer/agent.policy_total": 11.128474950790405, "timer/agent.policy_frac": 0.037090631462728896, "timer/agent.policy_avg": 0.007611815971812863, "timer/agent.policy_min": 0.005746603012084961, "timer/agent.policy_max": 0.015334367752075195, "timer/dataset_count": 731.0, "timer/dataset_total": 0.06873774528503418, "timer/dataset_frac": 0.00022909935002055713, "timer/dataset_avg": 9.403248329006043e-05, "timer/dataset_min": 6.413459777832031e-05, "timer/dataset_max": 0.0003094673156738281, "timer/agent.train_count": 731.0, "timer/agent.train_total": 270.3598117828369, "timer/agent.train_frac": 0.901095270062833, "timer/agent.train_avg": 0.3698492637248111, "timer/agent.train_min": 0.3605220317840576, "timer/agent.train_max": 0.4343881607055664, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2009270191192627, "timer/agent.report_frac": 0.0006696793630764238, "timer/agent.report_avg": 0.2009270191192627, "timer/agent.report_min": 0.2009270191192627, "timer/agent.report_max": 0.2009270191192627, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.8726889706023915}
{"step": 1397586, "episode/length": 202.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 13.899999991059303, "episode/reward_rate": 0.06896551724137931}
{"step": 1397841, "episode/length": 254.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.054901960784313725}
{"step": 1398085, "episode/length": 243.0, "episode/score": 12.099999971687794, "episode/sum_abs_reward": 14.30000003427267, "episode/reward_rate": 0.05737704918032787}
{"step": 1398288, "episode/length": 202.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.100000016391277, "episode/reward_rate": 0.06896551724137931}
{"step": 1398569, "episode/length": 280.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.500000022351742, "episode/reward_rate": 0.0498220640569395}
{"step": 1398763, "episode/length": 193.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.07216494845360824}
{"step": 1398923, "episode/length": 159.0, "episode/score": 11.100000001490116, "episode/sum_abs_reward": 12.700000025331974, "episode/reward_rate": 0.075}
{"step": 1398977, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.530774260220462, "train/action_min": 0.0, "train/action_std": 3.429098815134127, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03474842519690729, "train/actor_opt_grad_steps": 698570.0, "train/actor_opt_loss": -11.460400746293264, "train/adv_mag": 0.3829135006829484, "train/adv_max": 0.3259018826974581, "train/adv_mean": 0.0018853808311452094, "train/adv_min": -0.34171586044847146, "train/adv_std": 0.03944146117731316, "train/cont_avg": 0.9952643407534246, "train/cont_loss_mean": 0.00012092329718356805, "train/cont_loss_std": 0.003742440885697798, "train/cont_neg_acc": 0.9977168955215036, "train/cont_neg_loss": 0.017631587588975782, "train/cont_pos_acc": 0.9999999738719365, "train/cont_pos_loss": 1.794998083516307e-05, "train/cont_pred": 0.9952620088237606, "train/cont_rate": 0.9952643407534246, "train/dyn_loss_mean": 5.673052108451111, "train/dyn_loss_std": 8.969705620857134, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8546518871228989, "train/extr_critic_critic_opt_grad_steps": 698570.0, "train/extr_critic_critic_opt_loss": 14999.150898972603, "train/extr_critic_mag": 12.805140573684483, "train/extr_critic_max": 12.805140573684483, "train/extr_critic_mean": 3.578309872379042, "train/extr_critic_min": -0.37858563416624724, "train/extr_critic_std": 3.0191608161142427, "train/extr_return_normed_mag": 1.399190368717664, "train/extr_return_normed_max": 1.399190368717664, "train/extr_return_normed_mean": 0.3798797996076819, "train/extr_return_normed_min": -0.05894034036932743, "train/extr_return_normed_std": 0.3134190515704351, "train/extr_return_rate": 0.8230861588700177, "train/extr_return_raw_mag": 13.503670666315784, "train/extr_return_raw_max": 13.503670666315784, "train/extr_return_raw_mean": 3.5966349889154303, "train/extr_return_raw_min": -0.6677783809296073, "train/extr_return_raw_std": 3.0458632168704516, "train/extr_reward_mag": 1.093790936143431, "train/extr_reward_max": 1.093790936143431, "train/extr_reward_mean": 0.06534296182328708, "train/extr_reward_min": -0.6077000343636291, "train/extr_reward_std": 0.24504352799833637, "train/image_loss_mean": 3.6325845783703947, "train/image_loss_std": 8.796456604787748, "train/model_loss_mean": 7.101715290383117, "train/model_loss_std": 12.887579839523525, "train/model_opt_grad_norm": 19.771632697847153, "train/model_opt_grad_steps": 697993.3287671233, "train/model_opt_loss": 19655.652276862158, "train/model_opt_model_opt_grad_overflow": 0.0136986301369863, "train/model_opt_model_opt_grad_scale": 2739.72602739726, "train/policy_entropy_mag": 2.768070253607345, "train/policy_entropy_max": 2.768070253607345, "train/policy_entropy_mean": 0.4963724270258864, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7250732595789923, "train/policy_logprob_mag": 7.438384310839927, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4969807001825881, "train/policy_logprob_min": -7.438384310839927, "train/policy_logprob_std": 1.1094927346869692, "train/policy_randomness_mag": 0.9770073278309548, "train/policy_randomness_max": 0.9770073278309548, "train/policy_randomness_mean": 0.17519768796963234, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2559190423113026, "train/post_ent_mag": 55.95093165358452, "train/post_ent_max": 55.95093165358452, "train/post_ent_mean": 39.966437927664145, "train/post_ent_min": 19.553909040477176, "train/post_ent_std": 5.958804542071198, "train/prior_ent_mag": 76.84048054316273, "train/prior_ent_max": 76.84048054316273, "train/prior_ent_mean": 45.592859503341046, "train/prior_ent_min": 26.850136848345194, "train/prior_ent_std": 8.144451637790628, "train/rep_loss_mean": 5.673052108451111, "train/rep_loss_std": 8.969705620857134, "train/reward_avg": 0.05241197549214918, "train/reward_loss_mean": 0.06517855593398826, "train/reward_loss_std": 0.2196696359817296, "train/reward_max_data": 1.026027403465689, "train/reward_max_pred": 1.0257629074462473, "train/reward_neg_acc": 0.9921836167165677, "train/reward_neg_loss": 0.026492430471292096, "train/reward_pos_acc": 0.9925951761742161, "train/reward_pos_loss": 0.709816479519622, "train/reward_pred": 0.052206905915924945, "train/reward_rate": 0.0566138698630137, "stats/sum_log_reward": 12.528571810041155, "stats/max_log_achievement_collect_coal": 1.1428571428571428, "stats/max_log_achievement_collect_drink": 2.5714285714285716, "stats/max_log_achievement_collect_iron": 0.2857142857142857, "stats/max_log_achievement_collect_sapling": 1.8571428571428572, "stats/max_log_achievement_collect_stone": 14.142857142857142, "stats/max_log_achievement_collect_wood": 12.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.4285714285714286, "stats/max_log_achievement_eat_cow": 0.2857142857142857, "stats/max_log_achievement_make_stone_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_stone_sword": 1.1428571428571428, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.4285714285714286, "stats/max_log_achievement_place_plant": 1.8571428571428572, "stats/max_log_achievement_place_stone": 2.2857142857142856, "stats/max_log_achievement_place_table": 3.142857142857143, "stats/max_log_achievement_wake_up": 1.4285714285714286, "stats/mean_log_entropy": 0.4408359293426786, "replay/size": 1000000.0, "replay/inserts": 1460.0, "replay/samples": 11680.0, "replay/insert_wait_avg": 3.7149207232749627e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.418794671150103e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0298795700073, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.02686619758605957, "timer/logger.write_frac": 8.954507339256775e-05, "timer/logger.write_avg": 0.02686619758605957, "timer/logger.write_min": 0.02686619758605957, "timer/logger.write_max": 0.02686619758605957, "timer/replay.add_count": 1460.0, "timer/replay.add_total": 0.3117711544036865, "timer/replay.add_frac": 0.0010391336851199833, "timer/replay.add_avg": 0.00021354188657786747, "timer/replay.add_min": 7.033348083496094e-05, "timer/replay.add_max": 0.0010530948638916016, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1460.0, "timer/env.step_total": 18.091756582260132, "timer/env.step_frac": 0.060299849495618986, "timer/env.step_avg": 0.012391614097438447, "timer/env.step_min": 0.002802133560180664, "timer/env.step_max": 1.4690897464752197, "timer/agent.policy_count": 1460.0, "timer/agent.policy_total": 11.094106435775757, "timer/agent.policy_frac": 0.03697667196239073, "timer/agent.policy_avg": 0.007598703038202573, "timer/agent.policy_min": 0.005636692047119141, "timer/agent.policy_max": 0.015733957290649414, "timer/dataset_count": 730.0, "timer/dataset_total": 0.07049155235290527, "timer/dataset_frac": 0.00023494844064841602, "timer/dataset_avg": 9.656377034644559e-05, "timer/dataset_min": 6.198883056640625e-05, "timer/dataset_max": 0.0019521713256835938, "timer/agent.train_count": 730.0, "timer/agent.train_total": 269.74514627456665, "timer/agent.train_frac": 0.8990609424006578, "timer/agent.train_avg": 0.3695138990062557, "timer/agent.train_min": 0.3602781295776367, "timer/agent.train_max": 0.3851795196533203, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20049810409545898, "timer/agent.report_frac": 0.0006682604558679491, "timer/agent.report_avg": 0.20049810409545898, "timer/agent.report_min": 0.20049810409545898, "timer/agent.report_max": 0.20049810409545898, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.866098118506202}
{"step": 1399099, "episode/length": 175.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.900000050663948, "episode/reward_rate": 0.07386363636363637}
{"step": 1399319, "episode/length": 219.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 14.900000028312206, "episode/reward_rate": 0.06363636363636363}
{"step": 1399599, "episode/length": 279.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.05}
{"step": 1399820, "episode/length": 220.0, "episode/score": 15.100000008940697, "episode/sum_abs_reward": 17.700000002980232, "episode/reward_rate": 0.07692307692307693}
{"step": 1400028, "episode/length": 207.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.100000016391277, "episode/reward_rate": 0.07692307692307693}
{"step": 1400318, "episode/length": 289.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.04827586206896552}
{"step": 1400415, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4553070068359375, "train/action_min": 0.0, "train/action_std": 3.357291337516573, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03460450012547275, "train/actor_opt_grad_steps": 699295.0, "train/actor_opt_loss": -13.026672242416275, "train/adv_mag": 0.4033609657651848, "train/adv_max": 0.3196523115038872, "train/adv_mean": 0.0013878645984277682, "train/adv_min": -0.3711840125421683, "train/adv_std": 0.039072737770362034, "train/cont_avg": 0.9954698350694444, "train/cont_loss_mean": 5.19469055712602e-05, "train/cont_loss_std": 0.0015897377255219187, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 4.321197736227115e-05, "train/cont_pos_acc": 0.9999727350142267, "train/cont_pos_loss": 5.192374596182011e-05, "train/cont_pred": 0.9954367925723394, "train/cont_rate": 0.9954698350694444, "train/dyn_loss_mean": 5.870086921585931, "train/dyn_loss_std": 9.058779451582167, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8294618369804488, "train/extr_critic_critic_opt_grad_steps": 699295.0, "train/extr_critic_critic_opt_loss": 14809.101019965277, "train/extr_critic_mag": 12.671195877922905, "train/extr_critic_max": 12.671195877922905, "train/extr_critic_mean": 3.692026025719113, "train/extr_critic_min": -0.35512124829822117, "train/extr_critic_std": 3.0140603648291693, "train/extr_return_normed_mag": 1.3850699447923236, "train/extr_return_normed_max": 1.3850699447923236, "train/extr_return_normed_mean": 0.39280540578895146, "train/extr_return_normed_min": -0.06395982824162477, "train/extr_return_normed_std": 0.3129403711193138, "train/extr_return_rate": 0.8275526679224439, "train/extr_return_raw_mag": 13.344664613405863, "train/extr_return_raw_max": 13.344664613405863, "train/extr_return_raw_mean": 3.7055032120810614, "train/extr_return_raw_min": -0.7314402022295527, "train/extr_return_raw_std": 3.040001802974277, "train/extr_reward_mag": 1.0936087800396814, "train/extr_reward_max": 1.0936087800396814, "train/extr_reward_mean": 0.0636423650301165, "train/extr_reward_min": -0.625495390759574, "train/extr_reward_std": 0.242178060942226, "train/image_loss_mean": 3.4990391433238983, "train/image_loss_std": 9.193582620885637, "train/model_loss_mean": 7.087508406904009, "train/model_loss_std": 13.35151645872328, "train/model_opt_grad_norm": 20.246004117859734, "train/model_opt_grad_steps": 698718.0, "train/model_opt_loss": 22445.304321289062, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3194.4444444444443, "train/policy_entropy_mag": 2.7485230465730033, "train/policy_entropy_max": 2.7485230465730033, "train/policy_entropy_mean": 0.48912134766578674, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7096721111900277, "train/policy_logprob_mag": 7.438384261396196, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.488955393847492, "train/policy_logprob_min": -7.438384261396196, "train/policy_logprob_std": 1.1006265572375722, "train/policy_randomness_mag": 0.9701080140140321, "train/policy_randomness_max": 0.9701080140140321, "train/policy_randomness_mean": 0.17263837272508276, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.25048311116794747, "train/post_ent_mag": 54.892830265892876, "train/post_ent_max": 54.892830265892876, "train/post_ent_mean": 39.467179987165665, "train/post_ent_min": 19.155240337053936, "train/post_ent_std": 5.809842864672343, "train/prior_ent_mag": 76.84024545881483, "train/prior_ent_max": 76.84024545881483, "train/prior_ent_mean": 45.30693891313341, "train/prior_ent_min": 27.05490893787808, "train/prior_ent_std": 8.0537475016382, "train/rep_loss_mean": 5.870086921585931, "train/rep_loss_std": 9.058779451582167, "train/reward_avg": 0.05357530389705466, "train/reward_loss_mean": 0.06636514281854033, "train/reward_loss_std": 0.23259846514297855, "train/reward_max_data": 1.0305555628405676, "train/reward_max_pred": 1.029820094505946, "train/reward_neg_acc": 0.9920196375913091, "train/reward_neg_loss": 0.026370798897308607, "train/reward_pos_acc": 0.990154984096686, "train/reward_pos_loss": 0.7225340174304115, "train/reward_pred": 0.05325865409233504, "train/reward_rate": 0.0576171875, "stats/sum_log_reward": 13.600000381469727, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 3.8333333333333335, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 13.333333333333334, "stats/max_log_achievement_collect_wood": 13.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.6666666666666667, "stats/max_log_achievement_eat_cow": 1.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 1.1666666666666667, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.1666666666666667, "stats/max_log_achievement_place_plant": 1.8333333333333333, "stats/max_log_achievement_place_stone": 3.1666666666666665, "stats/max_log_achievement_place_table": 4.0, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.37732403973738354, "replay/size": 1000000.0, "replay/inserts": 1438.0, "replay/samples": 11504.0, "replay/insert_wait_avg": 3.867421262950659e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4149471184806133e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.1601815223694, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03720712661743164, "timer/logger.write_frac": 0.00012395756968403481, "timer/logger.write_avg": 0.03720712661743164, "timer/logger.write_min": 0.03720712661743164, "timer/logger.write_max": 0.03720712661743164, "timer/replay.add_count": 1438.0, "timer/replay.add_total": 0.3190450668334961, "timer/replay.add_frac": 0.0010629160244218447, "timer/replay.add_avg": 0.00022186722311091524, "timer/replay.add_min": 6.866455078125e-05, "timer/replay.add_max": 0.0020172595977783203, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1438.0, "timer/env.step_total": 17.078256130218506, "timer/env.step_frac": 0.056897140865254145, "timer/env.step_avg": 0.011876395083601186, "timer/env.step_min": 0.002643108367919922, "timer/env.step_max": 1.4845128059387207, "timer/agent.policy_count": 1438.0, "timer/agent.policy_total": 15.992776870727539, "timer/agent.policy_frac": 0.053280807566195056, "timer/agent.policy_avg": 0.011121541634720124, "timer/agent.policy_min": 0.005798816680908203, "timer/agent.policy_max": 3.294360399246216, "timer/dataset_count": 719.0, "timer/dataset_total": 0.06936407089233398, "timer/dataset_frac": 0.00023109018171740624, "timer/dataset_avg": 9.647297759712655e-05, "timer/dataset_min": 6.67572021484375e-05, "timer/dataset_max": 0.00016355514526367188, "timer/agent.train_count": 719.0, "timer/agent.train_total": 265.97354650497437, "timer/agent.train_frac": 0.8861053626633443, "timer/agent.train_avg": 0.3699214833170714, "timer/agent.train_min": 0.3607313632965088, "timer/agent.train_max": 0.38526153564453125, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2033088207244873, "timer/agent.report_frac": 0.0006773344142228797, "timer/agent.report_avg": 0.2033088207244873, "timer/agent.report_min": 0.2033088207244873, "timer/agent.report_max": 0.2033088207244873, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002262592315673828, "timer/checkpoint.save_frac": 7.537949584779315e-07, "timer/checkpoint.save_avg": 0.0002262592315673828, "timer/checkpoint.save_min": 0.0002262592315673828, "timer/checkpoint.save_max": 0.0002262592315673828, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.5041344165802002, "timer/agent.save_frac": 0.0050111057667657525, "timer/agent.save_avg": 1.5041344165802002, "timer/agent.save_min": 1.5041344165802002, "timer/agent.save_max": 1.5041344165802002, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.009506225585938e-05, "timer/replay.save_frac": 2.335255192755657e-07, "timer/replay.save_avg": 7.009506225585938e-05, "timer/replay.save_min": 7.009506225585938e-05, "timer/replay.save_max": 7.009506225585938e-05, "fps": 4.7906844694863215}
{"step": 1400503, "episode/length": 184.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.08108108108108109}
{"step": 1400734, "episode/length": 230.0, "episode/score": 10.100000001490116, "episode/sum_abs_reward": 12.100000031292439, "episode/reward_rate": 0.047619047619047616}
{"step": 1400936, "episode/length": 201.0, "episode/score": 13.100000016391277, "episode/sum_abs_reward": 15.700000040233135, "episode/reward_rate": 0.07425742574257425}
{"step": 1401181, "episode/length": 244.0, "episode/score": 6.100000008940697, "episode/sum_abs_reward": 8.099999994039536, "episode/reward_rate": 0.0326530612244898}
{"step": 1401418, "episode/length": 236.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.30000003427267, "episode/reward_rate": 0.05485232067510549}
{"step": 1401666, "episode/length": 247.0, "episode/score": 13.100000031292439, "episode/sum_abs_reward": 16.100000090897083, "episode/reward_rate": 0.056451612903225805}
{"step": 1401728, "episode/length": 61.0, "episode/score": 7.100000008940697, "episode/sum_abs_reward": 8.899999991059303, "episode/reward_rate": 0.14516129032258066}
{"step": 1401873, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.476481398491011, "train/action_min": 0.0, "train/action_std": 3.3994415916808665, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03463173749512189, "train/actor_opt_grad_steps": 700020.0, "train/actor_opt_loss": -10.589845537909703, "train/adv_mag": 0.36437829349138967, "train/adv_max": 0.3086360605203942, "train/adv_mean": 0.002259560991860033, "train/adv_min": -0.32614281610266804, "train/adv_std": 0.03917379406829403, "train/cont_avg": 0.9957994434931506, "train/cont_loss_mean": 1.4691896662859344e-05, "train/cont_loss_std": 0.0003744116471159642, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0009760334684843946, "train/cont_pos_acc": 0.9999999787709485, "train/cont_pos_loss": 9.273478767308043e-06, "train/cont_pred": 0.9957953936433139, "train/cont_rate": 0.9957994434931506, "train/dyn_loss_mean": 5.693255574735876, "train/dyn_loss_std": 8.984410625614531, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8264100478120047, "train/extr_critic_critic_opt_grad_steps": 700020.0, "train/extr_critic_critic_opt_loss": 15092.093642979453, "train/extr_critic_mag": 12.603167716770956, "train/extr_critic_max": 12.603167716770956, "train/extr_critic_mean": 3.583174702239363, "train/extr_critic_min": -0.36594144122241296, "train/extr_critic_std": 2.976483015164937, "train/extr_return_normed_mag": 1.3744687168565515, "train/extr_return_normed_max": 1.3744687168565515, "train/extr_return_normed_mean": 0.3799833032774599, "train/extr_return_normed_min": -0.05419174446532988, "train/extr_return_normed_std": 0.30670273324398145, "train/extr_return_rate": 0.8179946574446273, "train/extr_return_raw_mag": 13.342882051859817, "train/extr_return_raw_max": 13.342882051859817, "train/extr_return_raw_mean": 3.605304375086745, "train/extr_return_raw_min": -0.6454402604331709, "train/extr_return_raw_std": 3.003398193071966, "train/extr_reward_mag": 1.0902875841480413, "train/extr_reward_max": 1.0902875841480413, "train/extr_reward_mean": 0.06614190084885245, "train/extr_reward_min": -0.5747839930939348, "train/extr_reward_std": 0.24569269198260896, "train/image_loss_mean": 3.556744497116298, "train/image_loss_std": 8.68739962251219, "train/model_loss_mean": 7.038747878923808, "train/model_loss_std": 12.778418292737987, "train/model_opt_grad_norm": 19.53607139848683, "train/model_opt_grad_steps": 699442.6301369863, "train/model_opt_loss": 28763.109589041094, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 4075.3424657534247, "train/policy_entropy_mag": 2.7538155627577274, "train/policy_entropy_max": 2.7538155627577274, "train/policy_entropy_mean": 0.5011381110916399, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7259172891100792, "train/policy_logprob_mag": 7.438384278179848, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.5005986151629931, "train/policy_logprob_min": -7.438384278179848, "train/policy_logprob_std": 1.1109125818291756, "train/policy_randomness_mag": 0.9719760442433292, "train/policy_randomness_max": 0.9719760442433292, "train/policy_randomness_mean": 0.17687976288877122, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.256216945917639, "train/post_ent_mag": 55.34030726184584, "train/post_ent_max": 55.34030726184584, "train/post_ent_mean": 39.78711872884672, "train/post_ent_min": 19.66215464186995, "train/post_ent_std": 5.836979336934547, "train/prior_ent_mag": 76.86029930637308, "train/prior_ent_max": 76.86029930637308, "train/prior_ent_mean": 45.42525043226268, "train/prior_ent_min": 27.24087370258488, "train/prior_ent_std": 8.054511338064115, "train/rep_loss_mean": 5.693255574735876, "train/rep_loss_std": 8.984410625614531, "train/reward_avg": 0.05354104221683659, "train/reward_loss_mean": 0.06603538244962692, "train/reward_loss_std": 0.22501269493201007, "train/reward_max_data": 1.0328767201671862, "train/reward_max_pred": 1.0340497624384213, "train/reward_neg_acc": 0.9910522438075444, "train/reward_neg_loss": 0.02644029900125445, "train/reward_pos_acc": 0.9921211020587242, "train/reward_pos_loss": 0.7157230973243713, "train/reward_pred": 0.0532900709914018, "train/reward_rate": 0.05744327910958904, "stats/sum_log_reward": 10.81428589139666, "stats/max_log_achievement_collect_coal": 0.14285714285714285, "stats/max_log_achievement_collect_drink": 4.285714285714286, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 9.285714285714286, "stats/max_log_achievement_collect_wood": 8.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.8571428571428572, "stats/max_log_achievement_eat_cow": 0.42857142857142855, "stats/max_log_achievement_make_stone_pickaxe": 0.2857142857142857, "stats/max_log_achievement_make_stone_sword": 0.7142857142857143, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.1428571428571428, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 2.4285714285714284, "stats/max_log_achievement_place_table": 2.2857142857142856, "stats/max_log_achievement_wake_up": 1.2857142857142858, "stats/mean_log_entropy": 0.4200259617396763, "replay/size": 1000000.0, "replay/inserts": 1458.0, "replay/samples": 11664.0, "replay/insert_wait_avg": 3.7643317496008017e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4089875751071506e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2020583152771, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022064208984375, "timer/logger.write_frac": 7.34978604350634e-05, "timer/logger.write_avg": 0.022064208984375, "timer/logger.write_min": 0.022064208984375, "timer/logger.write_max": 0.022064208984375, "timer/replay.add_count": 1458.0, "timer/replay.add_total": 0.3093736171722412, "timer/replay.add_frac": 0.0010305512857188073, "timer/replay.add_avg": 0.00021219040958315584, "timer/replay.add_min": 7.62939453125e-05, "timer/replay.add_max": 0.00201416015625, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1458.0, "timer/env.step_total": 18.378347158432007, "timer/env.step_frac": 0.06121992387917197, "timer/env.step_avg": 0.012605176377525382, "timer/env.step_min": 0.0027523040771484375, "timer/env.step_max": 1.6044952869415283, "timer/agent.policy_count": 1458.0, "timer/agent.policy_total": 11.020987510681152, "timer/agent.policy_frac": 0.03671189855436211, "timer/agent.policy_avg": 0.007558976344774453, "timer/agent.policy_min": 0.0056455135345458984, "timer/agent.policy_max": 0.01804041862487793, "timer/dataset_count": 729.0, "timer/dataset_total": 0.0688467025756836, "timer/dataset_frac": 0.00022933454541267556, "timer/dataset_avg": 9.443992122864691e-05, "timer/dataset_min": 6.771087646484375e-05, "timer/dataset_max": 0.00019669532775878906, "timer/agent.train_count": 729.0, "timer/agent.train_total": 269.7077884674072, "timer/agent.train_frac": 0.8984208502133443, "timer/agent.train_avg": 0.3699695315053597, "timer/agent.train_min": 0.3611595630645752, "timer/agent.train_max": 0.38715124130249023, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20247602462768555, "timer/agent.report_frac": 0.000674465810674229, "timer/agent.report_avg": 0.20247602462768555, "timer/agent.report_min": 0.20247602462768555, "timer/agent.report_max": 0.20247602462768555, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.8566168330465915}
{"step": 1402162, "episode/length": 433.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 10.900000013411045, "episode/reward_rate": 0.02304147465437788}
{"step": 1402404, "episode/length": 241.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.05785123966942149}
{"step": 1402604, "episode/length": 199.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.500000037252903, "episode/reward_rate": 0.065}
{"step": 1402815, "episode/length": 210.0, "episode/score": 13.10000005364418, "episode/sum_abs_reward": 15.700000077486038, "episode/reward_rate": 0.07109004739336493}
{"step": 1402992, "episode/length": 176.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.10000003129244, "episode/reward_rate": 0.0847457627118644}
{"step": 1403313, "episode/length": 320.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 15.900000013411045, "episode/reward_rate": 0.04672897196261682}
{"step": 1403339, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.495338233741554, "train/action_min": 0.0, "train/action_std": 3.4098532070984713, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.035036598357397156, "train/actor_opt_grad_steps": 700755.0, "train/actor_opt_loss": -11.70414940569852, "train/adv_mag": 0.39308190688088135, "train/adv_max": 0.31798041893823725, "train/adv_mean": 0.0015482055253635957, "train/adv_min": -0.3705202723677094, "train/adv_std": 0.039621064791808255, "train/cont_avg": 0.9953415329391891, "train/cont_loss_mean": 3.353391565381854e-05, "train/cont_loss_std": 0.0009491705460735264, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.004060277622100997, "train/cont_pos_acc": 0.9999999871125093, "train/cont_pos_loss": 2.184222336404212e-05, "train/cont_pred": 0.9953309329780372, "train/cont_rate": 0.9953415329391891, "train/dyn_loss_mean": 5.618643419162647, "train/dyn_loss_std": 8.968066718127277, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8319994146759445, "train/extr_critic_critic_opt_grad_steps": 700755.0, "train/extr_critic_critic_opt_loss": 14981.79637352196, "train/extr_critic_mag": 12.773628892125311, "train/extr_critic_max": 12.773628892125311, "train/extr_critic_mean": 3.598953472601401, "train/extr_critic_min": -0.41250236936517665, "train/extr_critic_std": 3.05274620571652, "train/extr_return_normed_mag": 1.3954771032204498, "train/extr_return_normed_max": 1.3954771032204498, "train/extr_return_normed_mean": 0.37942806852830424, "train/extr_return_normed_min": -0.0655002449764996, "train/extr_return_normed_std": 0.3141767014120076, "train/extr_return_rate": 0.8145209123959413, "train/extr_return_raw_mag": 13.565712490597287, "train/extr_return_raw_max": 13.565712490597287, "train/extr_return_raw_mean": 3.6141093904907637, "train/extr_return_raw_min": -0.7424651460873114, "train/extr_return_raw_std": 3.076779726389292, "train/extr_reward_mag": 1.0944742093215118, "train/extr_reward_max": 1.0944742093215118, "train/extr_reward_mean": 0.06446246218842429, "train/extr_reward_min": -0.6182708820781192, "train/extr_reward_std": 0.24379258824361338, "train/image_loss_mean": 3.5682299813708744, "train/image_loss_std": 8.614141444902163, "train/model_loss_mean": 7.005106242927345, "train/model_loss_std": 12.68457233583605, "train/model_opt_grad_norm": 17.831130040658486, "train/model_opt_grad_steps": 700177.0, "train/model_opt_loss": 17713.537478885137, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2533.7837837837837, "train/policy_entropy_mag": 2.7606843419977136, "train/policy_entropy_max": 2.7606843419977136, "train/policy_entropy_mean": 0.5117123533745069, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7359252882164877, "train/policy_logprob_mag": 7.438384326728615, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.51175780997083, "train/policy_logprob_min": -7.438384326728615, "train/policy_logprob_std": 1.1184858228709247, "train/policy_randomness_mag": 0.9744004244739944, "train/policy_randomness_max": 0.9744004244739944, "train/policy_randomness_mean": 0.1806120043872176, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2597493319898038, "train/post_ent_mag": 55.29826092075657, "train/post_ent_max": 55.29826092075657, "train/post_ent_mean": 39.84115451091045, "train/post_ent_min": 19.351062156058646, "train/post_ent_std": 5.8694705898697315, "train/prior_ent_mag": 76.81657358118005, "train/prior_ent_max": 76.81657358118005, "train/prior_ent_mean": 45.412664825851856, "train/prior_ent_min": 27.295295560682142, "train/prior_ent_std": 8.051699200192013, "train/rep_loss_mean": 5.618643419162647, "train/rep_loss_std": 8.968066718127277, "train/reward_avg": 0.05175517257806417, "train/reward_loss_mean": 0.06565668871877967, "train/reward_loss_std": 0.2299286821806753, "train/reward_max_data": 1.0405405502061587, "train/reward_max_pred": 1.0400235459611222, "train/reward_neg_acc": 0.9919460319183968, "train/reward_neg_loss": 0.0266471599681756, "train/reward_pos_acc": 0.9918713207180435, "train/reward_pos_loss": 0.7230487473913141, "train/reward_pred": 0.05126551694765284, "train/reward_rate": 0.055993982263513514, "stats/sum_log_reward": 12.600000063578287, "stats/max_log_achievement_collect_coal": 1.1666666666666667, "stats/max_log_achievement_collect_drink": 3.5, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 18.833333333333332, "stats/max_log_achievement_collect_wood": 11.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.0, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 2.1666666666666665, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 4.5, "stats/max_log_achievement_place_table": 3.3333333333333335, "stats/max_log_achievement_wake_up": 1.5, "stats/mean_log_entropy": 0.6039812937378883, "replay/size": 1000000.0, "replay/inserts": 1466.0, "replay/samples": 11728.0, "replay/insert_wait_avg": 3.7511081357281984e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.414248270032188e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0611095428467, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0403287410736084, "timer/logger.write_frac": 0.0001344017594784296, "timer/logger.write_avg": 0.0403287410736084, "timer/logger.write_min": 0.0403287410736084, "timer/logger.write_max": 0.0403287410736084, "timer/replay.add_count": 1466.0, "timer/replay.add_total": 0.3084697723388672, "timer/replay.add_frac": 0.0010280231677101755, "timer/replay.add_avg": 0.0002104159429323787, "timer/replay.add_min": 7.867813110351562e-05, "timer/replay.add_max": 0.0012271404266357422, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1466.0, "timer/env.step_total": 17.14111638069153, "timer/env.step_frac": 0.057125418241659516, "timer/env.step_avg": 0.011692439550267072, "timer/env.step_min": 0.0024199485778808594, "timer/env.step_max": 1.483504056930542, "timer/agent.policy_count": 1466.0, "timer/agent.policy_total": 11.114577293395996, "timer/agent.policy_frac": 0.0370410457734074, "timer/agent.policy_avg": 0.007581567048701225, "timer/agent.policy_min": 0.005613565444946289, "timer/agent.policy_max": 0.016368865966796875, "timer/dataset_count": 733.0, "timer/dataset_total": 0.06888866424560547, "timer/dataset_frac": 0.00022958211529164742, "timer/dataset_avg": 9.398180661064866e-05, "timer/dataset_min": 6.604194641113281e-05, "timer/dataset_max": 0.00020503997802734375, "timer/agent.train_count": 733.0, "timer/agent.train_total": 270.70463037490845, "timer/agent.train_frac": 0.9021649982809707, "timer/agent.train_avg": 0.36931054621406334, "timer/agent.train_min": 0.3611884117126465, "timer/agent.train_max": 0.4355735778808594, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20192790031433105, "timer/agent.report_frac": 0.0006729559209521524, "timer/agent.report_avg": 0.20192790031433105, "timer/agent.report_min": 0.20192790031433105, "timer/agent.report_max": 0.20192790031433105, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.885587702527787}
{"step": 1403498, "episode/length": 184.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.08108108108108109}
{"step": 1403531, "episode/length": 32.0, "episode/score": 2.1000000089406967, "episode/sum_abs_reward": 3.8999999910593033, "episode/reward_rate": 0.12121212121212122}
{"step": 1403789, "episode/length": 257.0, "episode/score": 15.100000008940697, "episode/sum_abs_reward": 17.900000050663948, "episode/reward_rate": 0.06201550387596899}
{"step": 1404011, "episode/length": 221.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 14.100000031292439, "episode/reward_rate": 0.05855855855855856}
{"step": 1404379, "episode/length": 367.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.035326086956521736}
{"step": 1404780, "episode/length": 400.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.100000016391277, "episode/reward_rate": 0.0399002493765586}
{"step": 1404793, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.47273423936632, "train/action_min": 0.0, "train/action_std": 3.3966183927324085, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03463223982705838, "train/actor_opt_grad_steps": 701485.0, "train/actor_opt_loss": -11.663472682651546, "train/adv_mag": 0.3813548628240824, "train/adv_max": 0.3036025139606661, "train/adv_mean": 0.0015083154340926638, "train/adv_min": -0.35294462988773984, "train/adv_std": 0.03877659343803922, "train/cont_avg": 0.9954427083333334, "train/cont_loss_mean": 1.3690282228257584e-05, "train/cont_loss_std": 0.00028820935884215574, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00016466065843613443, "train/cont_pos_acc": 0.9999999776482582, "train/cont_pos_loss": 1.289310268810024e-05, "train/cont_pred": 0.9954311582777235, "train/cont_rate": 0.9954427083333334, "train/dyn_loss_mean": 5.859489997227986, "train/dyn_loss_std": 9.10222578048706, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8313648377855619, "train/extr_critic_critic_opt_grad_steps": 701485.0, "train/extr_critic_critic_opt_loss": 14968.129421657986, "train/extr_critic_mag": 12.68480987019009, "train/extr_critic_max": 12.68480987019009, "train/extr_critic_mean": 3.467190408044391, "train/extr_critic_min": -0.4225946068763733, "train/extr_critic_std": 3.061356797814369, "train/extr_return_normed_mag": 1.3956943154335022, "train/extr_return_normed_max": 1.3956943154335022, "train/extr_return_normed_mean": 0.3690878471566571, "train/extr_return_normed_min": -0.061090747386010155, "train/extr_return_normed_std": 0.31671565274397534, "train/extr_return_rate": 0.7933160116275152, "train/extr_return_raw_mag": 13.480012403594124, "train/extr_return_raw_max": 13.480012403594124, "train/extr_return_raw_mean": 3.481901357571284, "train/extr_return_raw_min": -0.7079593067367872, "train/extr_return_raw_std": 3.0848838604158826, "train/extr_reward_mag": 1.0898770027690463, "train/extr_reward_max": 1.0898770027690463, "train/extr_reward_mean": 0.060994674606869616, "train/extr_reward_min": -0.5983258833487829, "train/extr_reward_std": 0.23812381881806585, "train/image_loss_mean": 3.803472191095352, "train/image_loss_std": 9.137794805897606, "train/model_loss_mean": 7.384548995229933, "train/model_loss_std": 13.28602061006758, "train/model_opt_grad_norm": 18.435555350612585, "train/model_opt_grad_steps": 700906.1388888889, "train/model_opt_loss": 21151.950439453125, "train/model_opt_model_opt_grad_overflow": 0.013888888888888888, "train/model_opt_model_opt_grad_scale": 2847.222222222222, "train/policy_entropy_mag": 2.7546794414520264, "train/policy_entropy_max": 2.7546794414520264, "train/policy_entropy_mean": 0.531632899824116, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7548398499687513, "train/policy_logprob_mag": 7.43838424815072, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.5331432301965024, "train/policy_logprob_min": -7.43838424815072, "train/policy_logprob_std": 1.1371004581451416, "train/policy_randomness_mag": 0.9722809592882792, "train/policy_randomness_max": 0.9722809592882792, "train/policy_randomness_mean": 0.18764308291590875, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.26642533929811585, "train/post_ent_mag": 55.676705837249756, "train/post_ent_max": 55.676705837249756, "train/post_ent_mean": 39.876613510979546, "train/post_ent_min": 19.706117471059162, "train/post_ent_std": 5.899965041213566, "train/prior_ent_mag": 76.85641066233318, "train/prior_ent_max": 76.85641066233318, "train/prior_ent_mean": 45.70671902762519, "train/prior_ent_min": 27.44490358564589, "train/prior_ent_std": 8.107607828246223, "train/rep_loss_mean": 5.859489997227986, "train/rep_loss_std": 9.10222578048706, "train/reward_avg": 0.050290255859080285, "train/reward_loss_mean": 0.065369153705736, "train/reward_loss_std": 0.22163296532299784, "train/reward_max_data": 1.0388888981607225, "train/reward_max_pred": 1.0377339753839705, "train/reward_neg_acc": 0.9914707574579451, "train/reward_neg_loss": 0.027929583564400673, "train/reward_pos_acc": 0.9925375663571887, "train/reward_pos_loss": 0.7158010618554221, "train/reward_pred": 0.050043918295866914, "train/reward_rate": 0.05447048611111111, "stats/sum_log_reward": 11.766666968663534, "stats/max_log_achievement_collect_coal": 1.1666666666666667, "stats/max_log_achievement_collect_drink": 2.5, "stats/max_log_achievement_collect_iron": 0.5, "stats/max_log_achievement_collect_sapling": 0.5, "stats/max_log_achievement_collect_stone": 22.666666666666668, "stats/max_log_achievement_collect_wood": 14.5, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.8333333333333333, "stats/max_log_achievement_eat_cow": 0.3333333333333333, "stats/max_log_achievement_make_stone_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_wood_sword": 1.1666666666666667, "stats/max_log_achievement_place_furnace": 1.6666666666666667, "stats/max_log_achievement_place_plant": 0.5, "stats/max_log_achievement_place_stone": 5.5, "stats/max_log_achievement_place_table": 4.333333333333333, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.5342740764220556, "replay/size": 1000000.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.6520347962517195e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.462732417383417e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3354341983795, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0217287540435791, "timer/logger.write_frac": 7.234828651362757e-05, "timer/logger.write_avg": 0.0217287540435791, "timer/logger.write_min": 0.0217287540435791, "timer/logger.write_max": 0.0217287540435791, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.2986116409301758, "timer/replay.add_frac": 0.0009942604399217673, "timer/replay.add_avg": 0.00020537251783368348, "timer/replay.add_min": 7.2479248046875e-05, "timer/replay.add_max": 0.0005970001220703125, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1454.0, "timer/env.step_total": 16.653230667114258, "timer/env.step_frac": 0.05544877084371722, "timer/env.step_avg": 0.011453391105305542, "timer/env.step_min": 0.002271890640258789, "timer/env.step_max": 1.5259559154510498, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 14.89117693901062, "timer/agent.policy_frac": 0.04958181833840693, "timer/agent.policy_avg": 0.010241524717338803, "timer/agent.policy_min": 0.005558013916015625, "timer/agent.policy_max": 2.9834837913513184, "timer/dataset_count": 727.0, "timer/dataset_total": 0.06479620933532715, "timer/dataset_frac": 0.00021574613567750895, "timer/dataset_avg": 8.912821091516801e-05, "timer/dataset_min": 6.079673767089844e-05, "timer/dataset_max": 0.0003063678741455078, "timer/agent.train_count": 727.0, "timer/agent.train_total": 267.74630308151245, "timer/agent.train_frac": 0.8914908884998861, "timer/agent.train_avg": 0.36828927521528537, "timer/agent.train_min": 0.3600435256958008, "timer/agent.train_max": 0.46117258071899414, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20220685005187988, "timer/agent.report_frac": 0.0006732700408514465, "timer/agent.report_avg": 0.20220685005187988, "timer/agent.report_min": 0.20220685005187988, "timer/agent.report_max": 0.20220685005187988, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00034880638122558594, "timer/checkpoint.save_frac": 1.1613893717089343e-06, "timer/checkpoint.save_avg": 0.00034880638122558594, "timer/checkpoint.save_min": 0.00034880638122558594, "timer/checkpoint.save_max": 0.00034880638122558594, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.300800085067749, "timer/agent.save_frac": 0.0043311575556833435, "timer/agent.save_avg": 1.300800085067749, "timer/agent.save_min": 1.300800085067749, "timer/agent.save_max": 1.300800085067749, "timer/replay.save_count": 1.0, "timer/replay.save_total": 8.511543273925781e-05, "timer/replay.save_frac": 2.8340123424476387e-07, "timer/replay.save_avg": 8.511543273925781e-05, "timer/replay.save_min": 8.511543273925781e-05, "timer/replay.save_max": 8.511543273925781e-05, "fps": 4.841162515331599}
{"step": 1404990, "episode/length": 209.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.07142857142857142}
{"step": 1405250, "episode/length": 259.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.05384615384615385}
{"step": 1405310, "episode/length": 59.0, "episode/score": 5.100000023841858, "episode/sum_abs_reward": 6.5, "episode/reward_rate": 0.11666666666666667}
{"step": 1405480, "episode/length": 169.0, "episode/score": 13.099999964237213, "episode/sum_abs_reward": 14.699999988079071, "episode/reward_rate": 0.08235294117647059}
{"step": 1405662, "episode/length": 181.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.08241758241758242}
{"step": 1405862, "episode/length": 199.0, "episode/score": 12.100000001490116, "episode/sum_abs_reward": 13.700000025331974, "episode/reward_rate": 0.065}
{"step": 1406047, "episode/length": 184.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.07567567567567568}
{"step": 1406247, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.480768073095034, "train/action_min": 0.0, "train/action_std": 3.3728754781696892, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03422071631640604, "train/actor_opt_grad_steps": 702210.0, "train/actor_opt_loss": -11.310362164288351, "train/adv_mag": 0.3931804756595664, "train/adv_max": 0.32108319581371464, "train/adv_mean": 0.0018907016623017302, "train/adv_min": -0.34976262282835296, "train/adv_std": 0.03958350047469139, "train/cont_avg": 0.995478381849315, "train/cont_loss_mean": 4.95818286027574e-06, "train/cont_loss_std": 0.00012617232121436383, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0001304972046624917, "train/cont_pos_acc": 0.9999999804039524, "train/cont_pos_loss": 4.356924938578425e-06, "train/cont_pred": 0.9954747590300155, "train/cont_rate": 0.995478381849315, "train/dyn_loss_mean": 5.695226022641953, "train/dyn_loss_std": 9.032100991026995, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8334387034586032, "train/extr_critic_critic_opt_grad_steps": 702210.0, "train/extr_critic_critic_opt_loss": 14951.802493578767, "train/extr_critic_mag": 12.577178968142157, "train/extr_critic_max": 12.577178968142157, "train/extr_critic_mean": 3.5372161799914217, "train/extr_critic_min": -0.4215870115854969, "train/extr_critic_std": 3.014038170853706, "train/extr_return_normed_mag": 1.3717422730302158, "train/extr_return_normed_max": 1.3717422730302158, "train/extr_return_normed_mean": 0.37850097719937154, "train/extr_return_normed_min": -0.05805895490291184, "train/extr_return_normed_std": 0.31269204902322323, "train/extr_return_rate": 0.8104523820419834, "train/extr_return_raw_mag": 13.224206937502508, "train/extr_return_raw_max": 13.224206937502508, "train/extr_return_raw_mean": 3.5556260853597563, "train/extr_return_raw_min": -0.694009492658589, "train/extr_return_raw_std": 3.0437662928071743, "train/extr_reward_mag": 1.0956063433869245, "train/extr_reward_max": 1.0956063433869245, "train/extr_reward_mean": 0.06480836041577875, "train/extr_reward_min": -0.6051431665681812, "train/extr_reward_std": 0.24405936835563347, "train/image_loss_mean": 3.711137533187866, "train/image_loss_std": 9.011182869950385, "train/model_loss_mean": 7.195733429634408, "train/model_loss_std": 13.177385839697433, "train/model_opt_grad_norm": 17.50842669238783, "train/model_opt_grad_steps": 701630.698630137, "train/model_opt_loss": 20950.290453767124, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2910.958904109589, "train/policy_entropy_mag": 2.7568349870916915, "train/policy_entropy_max": 2.7568349870916915, "train/policy_entropy_mean": 0.5123883914457609, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7393142862679207, "train/policy_logprob_mag": 7.438384238987753, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.5138066660051477, "train/policy_logprob_min": -7.438384238987753, "train/policy_logprob_std": 1.1224038674406809, "train/policy_randomness_mag": 0.9730417695763993, "train/policy_randomness_max": 0.9730417695763993, "train/policy_randomness_mean": 0.1808506197308841, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.26094549996395633, "train/post_ent_mag": 55.572943282453984, "train/post_ent_max": 55.572943282453984, "train/post_ent_mean": 39.85672174741144, "train/post_ent_min": 19.464846271358123, "train/post_ent_std": 5.813543796539307, "train/prior_ent_mag": 76.87036362739458, "train/prior_ent_max": 76.87036362739458, "train/prior_ent_mean": 45.492903670219526, "train/prior_ent_min": 26.76326641971118, "train/prior_ent_std": 8.044362224944651, "train/rep_loss_mean": 5.695226022641953, "train/rep_loss_std": 9.032100991026995, "train/reward_avg": 0.053183860770643576, "train/reward_loss_mean": 0.06745531404875729, "train/reward_loss_std": 0.23382215712168444, "train/reward_max_data": 1.0438356268895816, "train/reward_max_pred": 1.0397919563397968, "train/reward_neg_acc": 0.9915717578914067, "train/reward_neg_loss": 0.027399329621702023, "train/reward_pos_acc": 0.9895001902972183, "train/reward_pos_loss": 0.7263039252529405, "train/reward_pred": 0.05256862879718003, "train/reward_rate": 0.05736301369863014, "stats/sum_log_reward": 12.100000381469727, "stats/max_log_achievement_collect_coal": 1.0, "stats/max_log_achievement_collect_drink": 1.4285714285714286, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.5714285714285714, "stats/max_log_achievement_collect_stone": 9.571428571428571, "stats/max_log_achievement_collect_wood": 13.571428571428571, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.0, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.1428571428571428, "stats/max_log_achievement_make_wood_sword": 0.8571428571428571, "stats/max_log_achievement_place_furnace": 1.0, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 2.142857142857143, "stats/max_log_achievement_place_table": 4.142857142857143, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.4418242744037083, "replay/size": 1000000.0, "replay/inserts": 1454.0, "replay/samples": 11632.0, "replay/insert_wait_avg": 3.781902412928774e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4819379029936442e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2737305164337, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03109455108642578, "timer/logger.write_frac": 0.00010355401730596611, "timer/logger.write_avg": 0.03109455108642578, "timer/logger.write_min": 0.03109455108642578, "timer/logger.write_max": 0.03109455108642578, "timer/replay.add_count": 1454.0, "timer/replay.add_total": 0.3087317943572998, "timer/replay.add_frac": 0.0010281678448072007, "timer/replay.add_avg": 0.000212332733395667, "timer/replay.add_min": 7.605552673339844e-05, "timer/replay.add_max": 0.00102996826171875, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1454.0, "timer/env.step_total": 19.35373282432556, "timer/env.step_frac": 0.06445363299360064, "timer/env.step_avg": 0.013310682822782367, "timer/env.step_min": 0.002901792526245117, "timer/env.step_max": 1.671816349029541, "timer/agent.policy_count": 1454.0, "timer/agent.policy_total": 10.753511428833008, "timer/agent.policy_frac": 0.035812361641953484, "timer/agent.policy_avg": 0.007395812537024077, "timer/agent.policy_min": 0.005746603012084961, "timer/agent.policy_max": 0.016949176788330078, "timer/dataset_count": 727.0, "timer/dataset_total": 0.0656437873840332, "timer/dataset_frac": 0.00021861315430801755, "timer/dataset_avg": 9.029406792851885e-05, "timer/dataset_min": 6.532669067382812e-05, "timer/dataset_max": 0.0001938343048095703, "timer/agent.train_count": 727.0, "timer/agent.train_total": 269.07660722732544, "timer/agent.train_frac": 0.8961043870356122, "timer/agent.train_avg": 0.37011912961117666, "timer/agent.train_min": 0.36376500129699707, "timer/agent.train_max": 0.3820834159851074, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20268630981445312, "timer/agent.report_frac": 0.0006750051343680904, "timer/agent.report_avg": 0.20268630981445312, "timer/agent.report_min": 0.20268630981445312, "timer/agent.report_max": 0.20268630981445312, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.84215168940641}
{"step": 1406257, "episode/length": 209.0, "episode/score": 9.099999986588955, "episode/sum_abs_reward": 11.500000022351742, "episode/reward_rate": 0.047619047619047616}
{"step": 1406531, "episode/length": 273.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 15.900000013411045, "episode/reward_rate": 0.05474452554744526}
{"step": 1406721, "episode/length": 189.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.100000016391277, "episode/reward_rate": 0.08421052631578947}
{"step": 1407172, "episode/length": 450.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.900000028312206, "episode/reward_rate": 0.03547671840354767}
{"step": 1407377, "episode/length": 204.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.100000038743019, "episode/reward_rate": 0.06341463414634146}
{"step": 1407719, "stats/sum_log_reward": 13.1, "stats/max_log_achievement_collect_coal": 1.4, "stats/max_log_achievement_collect_drink": 3.6, "stats/max_log_achievement_collect_iron": 0.2, "stats/max_log_achievement_collect_sapling": 1.8, "stats/max_log_achievement_collect_stone": 15.4, "stats/max_log_achievement_collect_wood": 13.4, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.2, "stats/max_log_achievement_eat_cow": 0.6, "stats/max_log_achievement_make_stone_pickaxe": 0.8, "stats/max_log_achievement_make_stone_sword": 0.8, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.2, "stats/max_log_achievement_place_plant": 1.8, "stats/max_log_achievement_place_stone": 3.8, "stats/max_log_achievement_place_table": 3.8, "stats/max_log_achievement_wake_up": 1.4, "stats/mean_log_entropy": 0.5173086792230606, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.436996872360642, "train/action_min": 0.0, "train/action_std": 3.3520217167364583, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03390259839392997, "train/actor_opt_grad_steps": 702945.0, "train/actor_opt_loss": -12.177785727019245, "train/adv_mag": 0.3654296692158725, "train/adv_max": 0.3022532354335527, "train/adv_mean": 0.0013840134910227593, "train/adv_min": -0.33460873909093236, "train/adv_std": 0.038496009753765284, "train/cont_avg": 0.9951171875, "train/cont_loss_mean": 8.914261552484882e-05, "train/cont_loss_std": 0.002790965664943514, "train/cont_neg_acc": 0.9972972974583909, "train/cont_neg_loss": 0.006740693452521649, "train/cont_pos_acc": 0.9999867339391966, "train/cont_pos_loss": 5.653044787863266e-05, "train/cont_pred": 0.9951094960844195, "train/cont_rate": 0.9951171875, "train/dyn_loss_mean": 5.6857354834273055, "train/dyn_loss_std": 9.040070276002627, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8196189991525702, "train/extr_critic_critic_opt_grad_steps": 702945.0, "train/extr_critic_critic_opt_loss": 14885.57155299831, "train/extr_critic_mag": 12.678169894862819, "train/extr_critic_max": 12.678169894862819, "train/extr_critic_mean": 3.6520867573248372, "train/extr_critic_min": -0.4126259152953689, "train/extr_critic_std": 3.1229522131584786, "train/extr_return_normed_mag": 1.3824805407910734, "train/extr_return_normed_max": 1.3824805407910734, "train/extr_return_normed_mean": 0.3860472847481032, "train/extr_return_normed_min": -0.059548414387815704, "train/extr_return_normed_std": 0.3205578033183072, "train/extr_return_rate": 0.8093477672821766, "train/extr_return_raw_mag": 13.44659338770686, "train/extr_return_raw_max": 13.44659338770686, "train/extr_return_raw_mean": 3.6656770673958032, "train/extr_return_raw_min": -0.7082451501408139, "train/extr_return_raw_std": 3.1466165684364937, "train/extr_reward_mag": 1.089194655418396, "train/extr_reward_max": 1.089194655418396, "train/extr_reward_mean": 0.06459432860483995, "train/extr_reward_min": -0.5880550742149353, "train/extr_reward_std": 0.24377552842771685, "train/image_loss_mean": 3.5369847497424565, "train/image_loss_std": 8.839697844273335, "train/model_loss_mean": 7.0167263005230875, "train/model_loss_std": 12.980858467720651, "train/model_opt_grad_norm": 18.712680030513454, "train/model_opt_grad_steps": 702365.0, "train/model_opt_loss": 17541.815759607263, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7588765170123124, "train/policy_entropy_max": 2.7588765170123124, "train/policy_entropy_mean": 0.4850019220564816, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7099932778525997, "train/policy_logprob_mag": 7.43838424940367, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4854304883125666, "train/policy_logprob_min": -7.43838424940367, "train/policy_logprob_std": 1.1018327402101982, "train/policy_randomness_mag": 0.973762343058715, "train/policy_randomness_max": 0.973762343058715, "train/policy_randomness_mean": 0.1711843948106508, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.25059646831170934, "train/post_ent_mag": 55.390159039884, "train/post_ent_max": 55.390159039884, "train/post_ent_mean": 39.719738625191354, "train/post_ent_min": 19.39824139105307, "train/post_ent_std": 5.808095596932076, "train/prior_ent_mag": 76.82595165355785, "train/prior_ent_max": 76.82595165355785, "train/prior_ent_mean": 45.36224066244589, "train/prior_ent_min": 27.259897644455368, "train/prior_ent_std": 8.067645092268247, "train/rep_loss_mean": 5.6857354834273055, "train/rep_loss_std": 9.040070276002627, "train/reward_avg": 0.05399334823360314, "train/reward_loss_mean": 0.06821114212475918, "train/reward_loss_std": 0.23229460982052055, "train/reward_max_data": 1.0270270334707725, "train/reward_max_pred": 1.0254244063351605, "train/reward_neg_acc": 0.9916314337704633, "train/reward_neg_loss": 0.027670385743919258, "train/reward_pos_acc": 0.9892541000971923, "train/reward_pos_loss": 0.7231955343001598, "train/reward_pred": 0.053645939289315325, "train/reward_rate": 0.05839579814189189, "replay/size": 1000000.0, "replay/inserts": 1472.0, "replay/samples": 11776.0, "replay/insert_wait_avg": 3.551821345868318e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4881522435209025e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0363562107086, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0410923957824707, "timer/logger.write_frac": 0.0001369580550218803, "timer/logger.write_avg": 0.0410923957824707, "timer/logger.write_min": 0.0410923957824707, "timer/logger.write_max": 0.0410923957824707, "timer/replay.add_count": 1472.0, "timer/replay.add_total": 0.3101012706756592, "timer/replay.add_frac": 0.0010335456495741543, "timer/replay.add_avg": 0.00021066662410031194, "timer/replay.add_min": 8.177757263183594e-05, "timer/replay.add_max": 0.001172780990600586, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1472.0, "timer/env.step_total": 16.162567138671875, "timer/env.step_frac": 0.053868695590081346, "timer/env.step_avg": 0.01098000484964122, "timer/env.step_min": 0.0027294158935546875, "timer/env.step_max": 1.5772085189819336, "timer/agent.policy_count": 1472.0, "timer/agent.policy_total": 10.864916563034058, "timer/agent.policy_frac": 0.036212000106426695, "timer/agent.policy_avg": 0.007381057447713354, "timer/agent.policy_min": 0.005706787109375, "timer/agent.policy_max": 0.016989469528198242, "timer/dataset_count": 736.0, "timer/dataset_total": 0.061568498611450195, "timer/dataset_frac": 0.00020520346063732377, "timer/dataset_avg": 8.365285137425299e-05, "timer/dataset_min": 5.91278076171875e-05, "timer/dataset_max": 0.0001780986785888672, "timer/agent.train_count": 736.0, "timer/agent.train_total": 271.9006793498993, "timer/agent.train_frac": 0.9062257747156138, "timer/agent.train_avg": 0.3694302708558414, "timer/agent.train_min": 0.3616361618041992, "timer/agent.train_max": 0.4277324676513672, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.22655200958251953, "timer/agent.report_frac": 0.0007550818588911847, "timer/agent.report_avg": 0.22655200958251953, "timer/agent.report_min": 0.22655200958251953, "timer/agent.report_max": 0.22655200958251953, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.905990303546654}
{"step": 1407855, "episode/length": 477.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.03138075313807531}
{"step": 1408013, "episode/length": 157.0, "episode/score": 14.100000016391277, "episode/sum_abs_reward": 15.30000003427267, "episode/reward_rate": 0.0949367088607595}
{"step": 1408252, "episode/length": 238.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.700000047683716, "episode/reward_rate": 0.06276150627615062}
{"step": 1408489, "episode/length": 236.0, "episode/score": 17.099999986588955, "episode/sum_abs_reward": 19.700000025331974, "episode/reward_rate": 0.0759493670886076}
{"step": 1408766, "episode/length": 276.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 18.10000003129244, "episode/reward_rate": 0.05776173285198556}
{"step": 1409075, "episode/length": 308.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 16.500000037252903, "episode/reward_rate": 0.045307443365695796}
{"step": 1409163, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.426209343804254, "train/action_min": 0.0, "train/action_std": 3.3379107084539203, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03524554613977671, "train/actor_opt_grad_steps": 703675.0, "train/actor_opt_loss": -11.976511930012041, "train/adv_mag": 0.40350080529848736, "train/adv_max": 0.33646807571252185, "train/adv_mean": 0.001622133289351445, "train/adv_min": -0.3454623907390568, "train/adv_std": 0.03973542021897932, "train/cont_avg": 0.9953748914930556, "train/cont_loss_mean": 8.214191110441267e-05, "train/cont_loss_std": 0.002586370063070239, "train/cont_neg_acc": 0.9972222223877907, "train/cont_neg_loss": 0.015989210098828095, "train/cont_pos_acc": 0.9999999809596274, "train/cont_pos_loss": 4.711968089290666e-06, "train/cont_pred": 0.9953859150409698, "train/cont_rate": 0.9953748914930556, "train/dyn_loss_mean": 5.778855529096392, "train/dyn_loss_std": 9.038380834791395, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8519803144865565, "train/extr_critic_critic_opt_grad_steps": 703675.0, "train/extr_critic_critic_opt_loss": 14948.859185112848, "train/extr_critic_mag": 12.746407217449612, "train/extr_critic_max": 12.746407217449612, "train/extr_critic_mean": 3.649052527215746, "train/extr_critic_min": -0.407621325718032, "train/extr_critic_std": 3.0487355291843414, "train/extr_return_normed_mag": 1.389017128282123, "train/extr_return_normed_max": 1.389017128282123, "train/extr_return_normed_mean": 0.3871903357406457, "train/extr_return_normed_min": -0.06820079730823636, "train/extr_return_normed_std": 0.3144628202749623, "train/extr_return_rate": 0.8203405746155314, "train/extr_return_raw_mag": 13.447296738624573, "train/extr_return_raw_max": 13.447296738624573, "train/extr_return_raw_mean": 3.6648639142513275, "train/extr_return_raw_min": -0.7829951271414757, "train/extr_return_raw_std": 3.0710141393873425, "train/extr_reward_mag": 1.0866924557420943, "train/extr_reward_max": 1.0866924557420943, "train/extr_reward_mean": 0.06462992303487328, "train/extr_reward_min": -0.6058601985375086, "train/extr_reward_std": 0.24359891563653946, "train/image_loss_mean": 3.6277298629283905, "train/image_loss_std": 9.184766093889872, "train/model_loss_mean": 7.16305892335044, "train/model_loss_std": 13.309606883260939, "train/model_opt_grad_norm": 21.58406627178192, "train/model_opt_grad_steps": 703094.1527777778, "train/model_opt_loss": 19540.426879882812, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2743.0555555555557, "train/policy_entropy_mag": 2.737260162830353, "train/policy_entropy_max": 2.737260162830353, "train/policy_entropy_mean": 0.4796130326059129, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7047894228663709, "train/policy_logprob_mag": 7.438384314378102, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.47958484043677646, "train/policy_logprob_min": -7.438384314378102, "train/policy_logprob_std": 1.096001148223877, "train/policy_randomness_mag": 0.9661327161722713, "train/policy_randomness_max": 0.9661327161722713, "train/policy_randomness_mean": 0.16928235534578562, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24875973910093307, "train/post_ent_mag": 54.97452635235257, "train/post_ent_max": 54.97452635235257, "train/post_ent_mean": 39.56981081432767, "train/post_ent_min": 19.7443282339308, "train/post_ent_std": 5.757928550243378, "train/prior_ent_mag": 76.81807475619846, "train/prior_ent_max": 76.81807475619846, "train/prior_ent_mean": 45.30944750044081, "train/prior_ent_min": 26.99871516227722, "train/prior_ent_std": 8.117689530054728, "train/rep_loss_mean": 5.778855529096392, "train/rep_loss_std": 9.038380834791395, "train/reward_avg": 0.05322401210044821, "train/reward_loss_mean": 0.06793357747503453, "train/reward_loss_std": 0.23687766016357475, "train/reward_max_data": 1.0319444520605936, "train/reward_max_pred": 1.0323301156361897, "train/reward_neg_acc": 0.9911474560697874, "train/reward_neg_loss": 0.027822100686737232, "train/reward_pos_acc": 0.988220375445154, "train/reward_pos_loss": 0.7262336421344016, "train/reward_pred": 0.05274324677884579, "train/reward_rate": 0.057413736979166664, "stats/sum_log_reward": 14.59999974568685, "stats/max_log_achievement_collect_coal": 0.8333333333333334, "stats/max_log_achievement_collect_drink": 5.833333333333333, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 2.1666666666666665, "stats/max_log_achievement_collect_stone": 16.166666666666668, "stats/max_log_achievement_collect_wood": 14.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.5, "stats/max_log_achievement_defeat_zombie": 2.3333333333333335, "stats/max_log_achievement_eat_cow": 0.6666666666666666, "stats/max_log_achievement_make_stone_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_stone_sword": 1.1666666666666667, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.3333333333333333, "stats/max_log_achievement_place_plant": 2.0, "stats/max_log_achievement_place_stone": 3.8333333333333335, "stats/max_log_achievement_place_table": 4.0, "stats/max_log_achievement_wake_up": 1.1666666666666667, "stats/mean_log_entropy": 0.5602764238913854, "replay/size": 1000000.0, "replay/inserts": 1444.0, "replay/samples": 11552.0, "replay/insert_wait_avg": 3.639515747323921e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.45926122189889e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.3491940498352, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.034215688705444336, "timer/logger.write_frac": 0.00011391969541881682, "timer/logger.write_avg": 0.034215688705444336, "timer/logger.write_min": 0.034215688705444336, "timer/logger.write_max": 0.034215688705444336, "timer/replay.add_count": 1444.0, "timer/replay.add_total": 0.2929511070251465, "timer/replay.add_frac": 0.0009753683806341055, "timer/replay.add_avg": 0.00020287472785674964, "timer/replay.add_min": 7.200241088867188e-05, "timer/replay.add_max": 0.0011050701141357422, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1444.0, "timer/env.step_total": 17.964307069778442, "timer/env.step_frac": 0.05981140427764134, "timer/env.step_avg": 0.012440655865497537, "timer/env.step_min": 0.002496480941772461, "timer/env.step_max": 1.5298511981964111, "timer/agent.policy_count": 1444.0, "timer/agent.policy_total": 14.4224214553833, "timer/agent.policy_frac": 0.04801884520119695, "timer/agent.policy_avg": 0.009987826492647716, "timer/agent.policy_min": 0.0057260990142822266, "timer/agent.policy_max": 2.5597422122955322, "timer/dataset_count": 722.0, "timer/dataset_total": 0.06035971641540527, "timer/dataset_frac": 0.00020096513528646305, "timer/dataset_avg": 8.3600715256794e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.00022029876708984375, "timer/agent.train_count": 722.0, "timer/agent.train_total": 266.9033031463623, "timer/agent.train_frac": 0.8886433139623361, "timer/agent.train_avg": 0.3696721650226625, "timer/agent.train_min": 0.3616359233856201, "timer/agent.train_max": 0.4707033634185791, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.1995246410369873, "timer/agent.report_frac": 0.000664308894412686, "timer/agent.report_avg": 0.1995246410369873, "timer/agent.report_min": 0.1995246410369873, "timer/agent.report_max": 0.1995246410369873, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0004699230194091797, "timer/checkpoint.save_frac": 1.5645889142329714e-06, "timer/checkpoint.save_avg": 0.0004699230194091797, "timer/checkpoint.save_min": 0.0004699230194091797, "timer/checkpoint.save_max": 0.0004699230194091797, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.270031213760376, "timer/agent.save_frac": 0.004228515471060818, "timer/agent.save_avg": 1.270031213760376, "timer/agent.save_min": 1.270031213760376, "timer/agent.save_max": 1.270031213760376, "timer/replay.save_count": 1.0, "timer/replay.save_total": 0.00010037422180175781, "timer/replay.save_frac": 3.3419174677426735e-07, "timer/replay.save_avg": 0.00010037422180175781, "timer/replay.save_min": 0.00010037422180175781, "timer/replay.save_max": 0.00010037422180175781, "fps": 4.8076324263917884}
{"step": 1409266, "episode/length": 190.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 16.900000050663948, "episode/reward_rate": 0.07853403141361257}
{"step": 1409465, "episode/length": 198.0, "episode/score": 5.099999986588955, "episode/sum_abs_reward": 7.3000000193715096, "episode/reward_rate": 0.03015075376884422}
{"step": 1409994, "episode/length": 528.0, "episode/score": 15.099999979138374, "episode/sum_abs_reward": 17.700000032782555, "episode/reward_rate": 0.030245746691871456}
{"step": 1410402, "episode/length": 407.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 13.30000001937151, "episode/reward_rate": 0.029411764705882353}
{"step": 1410628, "episode/length": 225.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.700000002980232, "episode/reward_rate": 0.06637168141592921}
{"step": 1410633, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.464225873555223, "train/action_min": 0.0, "train/action_std": 3.3908797910768693, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.033816956442921126, "train/actor_opt_grad_steps": 704400.0, "train/actor_opt_loss": -10.191700051092122, "train/adv_mag": 0.3705301778773739, "train/adv_max": 0.3035365134885866, "train/adv_mean": 0.0020016278088418127, "train/adv_min": -0.3351791701088213, "train/adv_std": 0.0387108382603077, "train/cont_avg": 0.9956255351027398, "train/cont_loss_mean": 1.1875583938812681e-06, "train/cont_loss_std": 3.309362270377061e-05, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 7.38874111863266e-05, "train/cont_pos_acc": 0.9999999844864623, "train/cont_pos_loss": 8.487916311784385e-07, "train/cont_pred": 0.9956250672471033, "train/cont_rate": 0.9956255351027398, "train/dyn_loss_mean": 5.645012953510023, "train/dyn_loss_std": 8.988636944391956, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8264940046284297, "train/extr_critic_critic_opt_grad_steps": 704400.0, "train/extr_critic_critic_opt_loss": 14919.354264768835, "train/extr_critic_mag": 12.651337950196984, "train/extr_critic_max": 12.651337950196984, "train/extr_critic_mean": 3.5821501424867814, "train/extr_critic_min": -0.38149985221967303, "train/extr_critic_std": 2.9946123867818755, "train/extr_return_normed_mag": 1.3788316249847412, "train/extr_return_normed_max": 1.3788316249847412, "train/extr_return_normed_mean": 0.3768509701914983, "train/extr_return_normed_min": -0.05906128145958463, "train/extr_return_normed_std": 0.3079061181577918, "train/extr_return_rate": 0.8234651929711643, "train/extr_return_raw_mag": 13.43998916835001, "train/extr_return_raw_max": 13.43998916835001, "train/extr_return_raw_mean": 3.6018030578142977, "train/extr_return_raw_min": -0.6781651900239187, "train/extr_return_raw_std": 3.0232706233246684, "train/extr_reward_mag": 1.0932961032815176, "train/extr_reward_max": 1.0932961032815176, "train/extr_reward_mean": 0.06435600795770345, "train/extr_reward_min": -0.6104410021272424, "train/extr_reward_std": 0.24275174145012685, "train/image_loss_mean": 3.6491185181761443, "train/image_loss_std": 8.944364926586413, "train/model_loss_mean": 7.102443910624883, "train/model_loss_std": 13.05651206186373, "train/model_opt_grad_norm": 17.85903700737104, "train/model_opt_grad_steps": 703818.8904109589, "train/model_opt_loss": 24048.000227418663, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 3390.4109589041095, "train/policy_entropy_mag": 2.747942375810179, "train/policy_entropy_max": 2.747942375810179, "train/policy_entropy_mean": 0.48819949733067863, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7138433040004887, "train/policy_logprob_mag": 7.438384304307911, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.48914832285005755, "train/policy_logprob_min": -7.438384304307911, "train/policy_logprob_std": 1.1039303949434462, "train/policy_randomness_mag": 0.9699030689997216, "train/policy_randomness_max": 0.9699030689997216, "train/policy_randomness_mean": 0.17231299830217883, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2519553601741791, "train/post_ent_mag": 55.10334098502381, "train/post_ent_max": 55.10334098502381, "train/post_ent_mean": 39.741561053550406, "train/post_ent_min": 19.789974826655975, "train/post_ent_std": 5.799050213539437, "train/prior_ent_mag": 76.76529850371897, "train/prior_ent_max": 76.76529850371897, "train/prior_ent_mean": 45.35609284492388, "train/prior_ent_min": 26.528151368441648, "train/prior_ent_std": 8.052778387722904, "train/rep_loss_mean": 5.645012953510023, "train/rep_loss_std": 8.988636944391956, "train/reward_avg": 0.053653413633981795, "train/reward_loss_mean": 0.06631646116506563, "train/reward_loss_std": 0.23013936615970038, "train/reward_max_data": 1.0342465835074857, "train/reward_max_pred": 1.0337142911675858, "train/reward_neg_acc": 0.9916422146640412, "train/reward_neg_loss": 0.02593179020316225, "train/reward_pos_acc": 0.9899260622181304, "train/reward_pos_loss": 0.7268633768983084, "train/reward_pred": 0.053125059155568685, "train/reward_rate": 0.05768407534246575, "stats/sum_log_reward": 11.700000095367432, "stats/max_log_achievement_collect_coal": 0.8, "stats/max_log_achievement_collect_drink": 4.4, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.6, "stats/max_log_achievement_collect_stone": 18.2, "stats/max_log_achievement_collect_wood": 11.4, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.6, "stats/max_log_achievement_eat_cow": 0.8, "stats/max_log_achievement_make_stone_pickaxe": 1.0, "stats/max_log_achievement_make_stone_sword": 0.6, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 2.8, "stats/max_log_achievement_place_plant": 1.6, "stats/max_log_achievement_place_stone": 3.8, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 2.0, "stats/mean_log_entropy": 0.7001086711883545, "replay/size": 1000000.0, "replay/inserts": 1470.0, "replay/samples": 11760.0, "replay/insert_wait_avg": 3.66759138042424e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.4080887749081566e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.19197249412537, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03459787368774414, "timer/logger.write_frac": 0.00011525249459634103, "timer/logger.write_avg": 0.03459787368774414, "timer/logger.write_min": 0.03459787368774414, "timer/logger.write_max": 0.03459787368774414, "timer/replay.add_count": 1470.0, "timer/replay.add_total": 0.29778265953063965, "timer/replay.add_frac": 0.0009919740926332304, "timer/replay.add_avg": 0.00020257323777594534, "timer/replay.add_min": 7.987022399902344e-05, "timer/replay.add_max": 0.0011169910430908203, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1470.0, "timer/env.step_total": 16.456310033798218, "timer/env.step_frac": 0.054819287461526846, "timer/env.step_avg": 0.011194768730474978, "timer/env.step_min": 0.002970457077026367, "timer/env.step_max": 1.5784738063812256, "timer/agent.policy_count": 1470.0, "timer/agent.policy_total": 10.759846925735474, "timer/agent.policy_frac": 0.03584322004462008, "timer/agent.policy_avg": 0.0073196237590037235, "timer/agent.policy_min": 0.00573420524597168, "timer/agent.policy_max": 0.018813610076904297, "timer/dataset_count": 735.0, "timer/dataset_total": 0.0606541633605957, "timer/dataset_frac": 0.0002020512502604735, "timer/dataset_avg": 8.252267123890572e-05, "timer/dataset_min": 5.984306335449219e-05, "timer/dataset_max": 0.0001709461212158203, "timer/agent.train_count": 735.0, "timer/agent.train_total": 271.9037606716156, "timer/agent.train_frac": 0.9057662615443077, "timer/agent.train_avg": 0.3699370893491369, "timer/agent.train_min": 0.3640005588531494, "timer/agent.train_max": 0.38479113578796387, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20114445686340332, "timer/agent.report_frac": 0.0006700527505522808, "timer/agent.report_avg": 0.20114445686340332, "timer/agent.report_min": 0.20114445686340332, "timer/agent.report_max": 0.20114445686340332, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.896781364311392}
{"step": 1410879, "episode/length": 250.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.700000025331974, "episode/reward_rate": 0.055776892430278883}
{"step": 1411044, "episode/length": 164.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.07878787878787878}
{"step": 1411233, "episode/length": 188.0, "episode/score": 13.099999994039536, "episode/sum_abs_reward": 15.10000005364418, "episode/reward_rate": 0.07936507936507936}
{"step": 1411434, "episode/length": 200.0, "episode/score": 12.100000008940697, "episode/sum_abs_reward": 14.5, "episode/reward_rate": 0.06965174129353234}
{"step": 1411629, "episode/length": 194.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.500000022351742, "episode/reward_rate": 0.05641025641025641}
{"step": 1411819, "episode/length": 189.0, "episode/score": 14.100000016391277, "episode/sum_abs_reward": 16.30000003427267, "episode/reward_rate": 0.08421052631578947}
{"step": 1412052, "episode/length": 232.0, "episode/score": 14.100000023841858, "episode/sum_abs_reward": 15.900000005960464, "episode/reward_rate": 0.06866952789699571}
{"step": 1412089, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.546150103007277, "train/action_min": 0.0, "train/action_std": 3.425481133265038, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03340280821470365, "train/actor_opt_grad_steps": 705130.0, "train/actor_opt_loss": -11.779526615796025, "train/adv_mag": 0.3880217875519844, "train/adv_max": 0.3333064144196576, "train/adv_mean": 0.001208828743448029, "train/adv_min": -0.3377217511608176, "train/adv_std": 0.03793874400833698, "train/cont_avg": 0.9954917594178082, "train/cont_loss_mean": 5.407301836205236e-05, "train/cont_loss_std": 0.0017237410606024668, "train/cont_neg_acc": 0.9977168955215036, "train/cont_neg_loss": 0.007411506837615991, "train/cont_pos_acc": 0.9999865424143125, "train/cont_pos_loss": 1.1252501500145473e-05, "train/cont_pred": 0.9954971434318856, "train/cont_rate": 0.9954917594178082, "train/dyn_loss_mean": 5.626083537323834, "train/dyn_loss_std": 8.924028331286287, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8596052168166801, "train/extr_critic_critic_opt_grad_steps": 705130.0, "train/extr_critic_critic_opt_loss": 14756.204743685788, "train/extr_critic_mag": 12.67373872783086, "train/extr_critic_max": 12.67373872783086, "train/extr_critic_mean": 3.620026310829267, "train/extr_critic_min": -0.40378383577686466, "train/extr_critic_std": 3.0821592807769775, "train/extr_return_normed_mag": 1.3722178413443369, "train/extr_return_normed_max": 1.3722178413443369, "train/extr_return_normed_mean": 0.37897731118822753, "train/extr_return_normed_min": -0.06123061539375619, "train/extr_return_normed_std": 0.3147252985875901, "train/extr_return_rate": 0.816892342208183, "train/extr_return_raw_mag": 13.430131624822748, "train/extr_return_raw_max": 13.430131624822748, "train/extr_return_raw_mean": 3.631947442276837, "train/extr_return_raw_min": -0.7110795484830256, "train/extr_return_raw_std": 3.1050740986654204, "train/extr_reward_mag": 1.0905709821883947, "train/extr_reward_max": 1.0905709821883947, "train/extr_reward_mean": 0.06197783233572359, "train/extr_reward_min": -0.5759306117279889, "train/extr_reward_std": 0.2391829213050947, "train/image_loss_mean": 3.491948261652907, "train/image_loss_std": 8.594853205223606, "train/model_loss_mean": 6.933844625133357, "train/model_loss_std": 12.646966215682356, "train/model_opt_grad_norm": 19.805662168396843, "train/model_opt_grad_steps": 704547.698630137, "train/model_opt_loss": 14817.239839736729, "train/model_opt_model_opt_grad_overflow": 0.0136986301369863, "train/model_opt_model_opt_grad_scale": 2123.2876712328766, "train/policy_entropy_mag": 2.763131510721494, "train/policy_entropy_max": 2.763131510721494, "train/policy_entropy_mean": 0.5239717613344324, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7565018632640578, "train/policy_logprob_mag": 7.438384245519769, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.523191946826569, "train/policy_logprob_min": -7.438384245519769, "train/policy_logprob_std": 1.1257822864676175, "train/policy_randomness_mag": 0.9752641663159409, "train/policy_randomness_max": 0.9752641663159409, "train/policy_randomness_mean": 0.1849390396924868, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2670119594629497, "train/post_ent_mag": 55.050754494863014, "train/post_ent_max": 55.050754494863014, "train/post_ent_mean": 39.67440565971479, "train/post_ent_min": 19.437194693578434, "train/post_ent_std": 5.76252645988987, "train/prior_ent_mag": 76.74401395614834, "train/prior_ent_max": 76.74401395614834, "train/prior_ent_mean": 45.25911822384351, "train/prior_ent_min": 27.14287574977091, "train/prior_ent_std": 8.009544999632118, "train/rep_loss_mean": 5.626083537323834, "train/rep_loss_std": 8.924028331286287, "train/reward_avg": 0.05179928255918091, "train/reward_loss_mean": 0.06619218690958742, "train/reward_loss_std": 0.23165932256881505, "train/reward_max_data": 1.0342465835074857, "train/reward_max_pred": 1.032147613290238, "train/reward_neg_acc": 0.9916114766303807, "train/reward_neg_loss": 0.027491670293248678, "train/reward_pos_acc": 0.9907372936810532, "train/reward_pos_loss": 0.7188545179693666, "train/reward_pred": 0.05156620492367712, "train/reward_rate": 0.05593161386986301, "stats/sum_log_reward": 12.671428952898298, "stats/max_log_achievement_collect_coal": 1.1428571428571428, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.2857142857142858, "stats/max_log_achievement_collect_stone": 16.285714285714285, "stats/max_log_achievement_collect_wood": 12.285714285714286, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 1.2857142857142858, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.7142857142857143, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.5714285714285714, "stats/max_log_achievement_place_plant": 1.2857142857142858, "stats/max_log_achievement_place_stone": 4.428571428571429, "stats/max_log_achievement_place_table": 3.2857142857142856, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.36357482203415464, "replay/size": 1000000.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.5482776034009326e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3935860696729724e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 299.99910068511963, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028759002685546875, "timer/logger.write_frac": 9.586362965711837e-05, "timer/logger.write_avg": 0.028759002685546875, "timer/logger.write_min": 0.028759002685546875, "timer/logger.write_max": 0.028759002685546875, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.2832503318786621, "timer/replay.add_frac": 0.0009441706032844509, "timer/replay.add_avg": 0.00019454006310347673, "timer/replay.add_min": 8.058547973632812e-05, "timer/replay.add_max": 0.0026895999908447266, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1456.0, "timer/env.step_total": 19.116344690322876, "timer/env.step_frac": 0.06372133998624041, "timer/env.step_avg": 0.013129357616979998, "timer/env.step_min": 0.0029039382934570312, "timer/env.step_max": 1.6248388290405273, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 10.593381643295288, "timer/agent.policy_frac": 0.035311377997809895, "timer/agent.policy_avg": 0.00727567420555995, "timer/agent.policy_min": 0.005602121353149414, "timer/agent.policy_max": 0.015607357025146484, "timer/dataset_count": 728.0, "timer/dataset_total": 0.05836892127990723, "timer/dataset_frac": 0.00019456365417965535, "timer/dataset_avg": 8.017708967020223e-05, "timer/dataset_min": 5.888938903808594e-05, "timer/dataset_max": 0.00018930435180664062, "timer/agent.train_count": 728.0, "timer/agent.train_total": 269.2530870437622, "timer/agent.train_frac": 0.8975129806351367, "timer/agent.train_avg": 0.3698531415436294, "timer/agent.train_min": 0.3630855083465576, "timer/agent.train_max": 0.38211989402770996, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.19872641563415527, "timer/agent.report_frac": 0.0006624233712045004, "timer/agent.report_avg": 0.19872641563415527, "timer/agent.report_min": 0.19872641563415527, "timer/agent.report_max": 0.19872641563415527, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.853256451319977}
{"step": 1412350, "episode/length": 297.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.050335570469798654}
{"step": 1412590, "episode/length": 239.0, "episode/score": 15.099999979138374, "episode/sum_abs_reward": 17.700000032782555, "episode/reward_rate": 0.06666666666666667}
{"step": 1412929, "episode/length": 338.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.900000043213367, "episode/reward_rate": 0.04424778761061947}
{"step": 1413173, "episode/length": 243.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.900000028312206, "episode/reward_rate": 0.06147540983606557}
{"step": 1413545, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.474828432684076, "train/action_min": 0.0, "train/action_std": 3.397112865970559, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.033420124716342314, "train/actor_opt_grad_steps": 705860.0, "train/actor_opt_loss": -12.391350441599545, "train/adv_mag": 0.39780501674299373, "train/adv_max": 0.3256404377418022, "train/adv_mean": 0.0014500846468327425, "train/adv_min": -0.34992089622641265, "train/adv_std": 0.03834123307303207, "train/cont_avg": 0.9952643407534246, "train/cont_loss_mean": 2.405394816681932e-05, "train/cont_loss_std": 0.0006940010282645843, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.001759152302200187, "train/cont_pos_acc": 0.9999999828534584, "train/cont_pos_loss": 1.2837494239387561e-05, "train/cont_pred": 0.9952617156995486, "train/cont_rate": 0.9952643407534246, "train/dyn_loss_mean": 5.75638356927323, "train/dyn_loss_std": 9.021986817660396, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8097041167625009, "train/extr_critic_critic_opt_grad_steps": 705860.0, "train/extr_critic_critic_opt_loss": 14742.43679098887, "train/extr_critic_mag": 12.815162188386264, "train/extr_critic_max": 12.815162188386264, "train/extr_critic_mean": 3.6553520045868337, "train/extr_critic_min": -0.39748403470810145, "train/extr_critic_std": 3.124888300895691, "train/extr_return_normed_mag": 1.3897488509138969, "train/extr_return_normed_max": 1.3897488509138969, "train/extr_return_normed_mean": 0.38170326735875376, "train/extr_return_normed_min": -0.05314663590939894, "train/extr_return_normed_std": 0.31730878393943995, "train/extr_return_rate": 0.8119007234704004, "train/extr_return_raw_mag": 13.683894301114018, "train/extr_return_raw_max": 13.683894301114018, "train/extr_return_raw_mean": 3.669746555694162, "train/extr_return_raw_min": -0.6504340249381654, "train/extr_return_raw_std": 3.1523615938343412, "train/extr_reward_mag": 1.0898728174706027, "train/extr_reward_max": 1.0898728174706027, "train/extr_reward_mean": 0.06406944525772579, "train/extr_reward_min": -0.5626835610768567, "train/extr_reward_std": 0.24306015751949728, "train/image_loss_mean": 3.656648968997067, "train/image_loss_std": 8.959281594785926, "train/model_loss_mean": 7.177237896070088, "train/model_loss_std": 13.056860152989218, "train/model_opt_grad_norm": 20.303332746845403, "train/model_opt_grad_steps": 705277.0, "train/model_opt_loss": 8971.547396725171, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 1250.0, "train/policy_entropy_mag": 2.760725103012503, "train/policy_entropy_max": 2.760725103012503, "train/policy_entropy_mean": 0.5109762912743712, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7519032906179559, "train/policy_logprob_mag": 7.43838429124388, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.5104522256002034, "train/policy_logprob_min": -7.43838429124388, "train/policy_logprob_std": 1.123663349510872, "train/policy_randomness_mag": 0.9744148099259154, "train/policy_randomness_max": 0.9744148099259154, "train/policy_randomness_mean": 0.1803522095696567, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.26538886293156505, "train/post_ent_mag": 55.281537199673586, "train/post_ent_max": 55.281537199673586, "train/post_ent_mean": 39.71947609888364, "train/post_ent_min": 19.14969432517274, "train/post_ent_std": 5.7615456842396355, "train/prior_ent_mag": 76.75817965154778, "train/prior_ent_max": 76.75817965154778, "train/prior_ent_mean": 45.39757799122432, "train/prior_ent_min": 26.959363231920218, "train/prior_ent_std": 8.025895615146585, "train/rep_loss_mean": 5.75638356927323, "train/rep_loss_std": 9.021986817660396, "train/reward_avg": 0.052383882491147685, "train/reward_loss_mean": 0.06673477845240945, "train/reward_loss_std": 0.22711575051693067, "train/reward_max_data": 1.0424657635492822, "train/reward_max_pred": 1.0387725666777727, "train/reward_neg_acc": 0.9915968432818374, "train/reward_neg_loss": 0.027776728601080096, "train/reward_pos_acc": 0.9915150771402332, "train/reward_pos_loss": 0.7143452151180947, "train/reward_pred": 0.05207453632395562, "train/reward_rate": 0.0566941352739726, "stats/sum_log_reward": 14.350000143051147, "stats/max_log_achievement_collect_coal": 1.5, "stats/max_log_achievement_collect_drink": 4.5, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.25, "stats/max_log_achievement_collect_stone": 17.25, "stats/max_log_achievement_collect_wood": 12.5, "stats/max_log_achievement_defeat_skeleton": 0.25, "stats/max_log_achievement_defeat_zombie": 3.0, "stats/max_log_achievement_eat_cow": 0.75, "stats/max_log_achievement_make_stone_pickaxe": 0.75, "stats/max_log_achievement_make_stone_sword": 1.25, "stats/max_log_achievement_make_wood_pickaxe": 1.25, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.75, "stats/max_log_achievement_place_plant": 1.25, "stats/max_log_achievement_place_stone": 7.0, "stats/max_log_achievement_place_table": 3.5, "stats/max_log_achievement_wake_up": 1.25, "stats/mean_log_entropy": 0.6769653409719467, "replay/size": 1000000.0, "replay/inserts": 1456.0, "replay/samples": 11648.0, "replay/insert_wait_avg": 3.610829730610271e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3919281108038767e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.0780837535858, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03161907196044922, "timer/logger.write_frac": 0.00010536948105285074, "timer/logger.write_avg": 0.03161907196044922, "timer/logger.write_min": 0.03161907196044922, "timer/logger.write_max": 0.03161907196044922, "timer/replay.add_count": 1456.0, "timer/replay.add_total": 0.27681827545166016, "timer/replay.add_frac": 0.0009224874805551416, "timer/replay.add_avg": 0.00019012244193108527, "timer/replay.add_min": 7.891654968261719e-05, "timer/replay.add_max": 0.00124359130859375, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1456.0, "timer/env.step_total": 16.76734447479248, "timer/env.step_frac": 0.05587660473252445, "timer/env.step_avg": 0.011516033293126704, "timer/env.step_min": 0.0028252601623535156, "timer/env.step_max": 1.8953070640563965, "timer/agent.policy_count": 1456.0, "timer/agent.policy_total": 12.67586636543274, "timer/agent.policy_frac": 0.0422418931995105, "timer/agent.policy_avg": 0.008705952174060947, "timer/agent.policy_min": 0.0058231353759765625, "timer/agent.policy_max": 1.449254035949707, "timer/dataset_count": 728.0, "timer/dataset_total": 0.058489084243774414, "timer/dataset_frac": 0.00019491288238098625, "timer/dataset_avg": 8.034214868650332e-05, "timer/dataset_min": 5.984306335449219e-05, "timer/dataset_max": 0.00014662742614746094, "timer/agent.train_count": 728.0, "timer/agent.train_total": 269.61278438568115, "timer/agent.train_frac": 0.8984754268394963, "timer/agent.train_avg": 0.3703472312990126, "timer/agent.train_min": 0.36365652084350586, "timer/agent.train_max": 0.9017724990844727, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.19852590560913086, "timer/agent.report_frac": 0.0006615808229839063, "timer/agent.report_avg": 0.19852590560913086, "timer/agent.report_min": 0.19852590560913086, "timer/agent.report_max": 0.19852590560913086, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.00022792816162109375, "timer/checkpoint.save_frac": 7.595628403447844e-07, "timer/checkpoint.save_avg": 0.00022792816162109375, "timer/checkpoint.save_min": 0.00022792816162109375, "timer/checkpoint.save_max": 0.00022792816162109375, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4610443115234375, "timer/agent.save_frac": 0.004868880436877218, "timer/agent.save_avg": 1.4610443115234375, "timer/agent.save_min": 1.4610443115234375, "timer/agent.save_max": 1.4610443115234375, "timer/replay.save_count": 1.0, "timer/replay.save_total": 9.059906005859375e-05, "timer/replay.save_frac": 3.0191828381905657e-07, "timer/replay.save_avg": 9.059906005859375e-05, "timer/replay.save_min": 9.059906005859375e-05, "timer/replay.save_max": 9.059906005859375e-05, "fps": 4.851971922109337}
{"step": 1413561, "episode/length": 387.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.30000001937151, "episode/reward_rate": 0.03608247422680412}
{"step": 1413736, "episode/length": 174.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.07428571428571429}
{"step": 1413921, "episode/length": 184.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 14.900000013411045, "episode/reward_rate": 0.07567567567567568}
{"step": 1414131, "episode/length": 209.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 15.900000028312206, "episode/reward_rate": 0.06666666666666667}
{"step": 1414331, "episode/length": 199.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.075}
{"step": 1414531, "episode/length": 199.0, "episode/score": 6.099999971687794, "episode/sum_abs_reward": 8.100000031292439, "episode/reward_rate": 0.04}
{"step": 1414774, "episode/length": 242.0, "episode/score": 11.099999986588955, "episode/sum_abs_reward": 14.700000040233135, "episode/reward_rate": 0.04938271604938271}
{"step": 1414997, "episode/length": 222.0, "episode/score": 14.100000008940697, "episode/sum_abs_reward": 15.900000020861626, "episode/reward_rate": 0.07174887892376682}
{"step": 1414998, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4469451904296875, "train/action_min": 0.0, "train/action_std": 3.4126096268494925, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03258530348021951, "train/actor_opt_grad_steps": 706585.0, "train/actor_opt_loss": -12.769417110416624, "train/adv_mag": 0.3731388621446159, "train/adv_max": 0.3084580573356814, "train/adv_mean": 0.0012156702639458672, "train/adv_min": -0.33619683649804855, "train/adv_std": 0.03740991297591892, "train/cont_avg": 0.9956190321180556, "train/cont_loss_mean": 0.00016257332368674327, "train/cont_loss_std": 0.004331373140158313, "train/cont_neg_acc": 0.9944444447755814, "train/cont_neg_loss": 0.02684085037052, "train/cont_pos_acc": 0.9999863505363464, "train/cont_pos_loss": 3.178836808635942e-05, "train/cont_pred": 0.9956234676970376, "train/cont_rate": 0.9956190321180556, "train/dyn_loss_mean": 5.799621476067437, "train/dyn_loss_std": 9.015015072292751, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8117712628510263, "train/extr_critic_critic_opt_grad_steps": 706585.0, "train/extr_critic_critic_opt_loss": 14809.212280273438, "train/extr_critic_mag": 12.80897561709086, "train/extr_critic_max": 12.80897561709086, "train/extr_critic_mean": 3.5438230799304113, "train/extr_critic_min": -0.4374263965421253, "train/extr_critic_std": 3.0787661969661713, "train/extr_return_normed_mag": 1.3809973746538162, "train/extr_return_normed_max": 1.3809973746538162, "train/extr_return_normed_mean": 0.3719173088255856, "train/extr_return_normed_min": -0.06392330986758073, "train/extr_return_normed_std": 0.31359623186290264, "train/extr_return_rate": 0.8052517796556155, "train/extr_return_raw_mag": 13.538896653387281, "train/extr_return_raw_max": 13.538896653387281, "train/extr_return_raw_mean": 3.5558469461070166, "train/extr_return_raw_min": -0.7559187391565906, "train/extr_return_raw_std": 3.1026449269718595, "train/extr_reward_mag": 1.0884230501121945, "train/extr_reward_max": 1.0884230501121945, "train/extr_reward_mean": 0.06288235831177896, "train/extr_reward_min": -0.6201251099507014, "train/extr_reward_std": 0.24071691247324148, "train/image_loss_mean": 3.7166452639632754, "train/image_loss_std": 8.881655467881096, "train/model_loss_mean": 7.263510300053491, "train/model_loss_std": 13.007932172881233, "train/model_opt_grad_norm": 18.756456481085884, "train/model_opt_grad_steps": 706002.0, "train/model_opt_loss": 17379.509589301215, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2395.8333333333335, "train/policy_entropy_mag": 2.7452733715375266, "train/policy_entropy_max": 2.7452733715375266, "train/policy_entropy_mean": 0.5128224343061447, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7428238193194071, "train/policy_logprob_mag": 7.438384268018934, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.5136322105924288, "train/policy_logprob_min": -7.438384268018934, "train/policy_logprob_std": 1.1233095584644213, "train/policy_randomness_mag": 0.9689610252777735, "train/policy_randomness_max": 0.9689610252777735, "train/policy_randomness_mean": 0.18100381559795803, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.26218421053555274, "train/post_ent_mag": 55.48597526550293, "train/post_ent_max": 55.48597526550293, "train/post_ent_mean": 39.63533475663927, "train/post_ent_min": 18.973555697335136, "train/post_ent_std": 5.9156709048483105, "train/prior_ent_mag": 76.74006832970514, "train/prior_ent_max": 76.74006832970514, "train/prior_ent_mean": 45.4063507715861, "train/prior_ent_min": 26.95565170711941, "train/prior_ent_std": 8.11054958237542, "train/rep_loss_mean": 5.799621476067437, "train/rep_loss_std": 9.015015072292751, "train/reward_avg": 0.052560763718146414, "train/reward_loss_mean": 0.06692962203588751, "train/reward_loss_std": 0.23042498011555937, "train/reward_max_data": 1.0319444520605936, "train/reward_max_pred": 1.0305523872375488, "train/reward_neg_acc": 0.9918628666136, "train/reward_neg_loss": 0.0272123569674376, "train/reward_pos_acc": 0.9888886933525404, "train/reward_pos_loss": 0.7264829037917985, "train/reward_pred": 0.05191916853396429, "train/reward_rate": 0.056708441840277776, "stats/sum_log_reward": 12.100000083446503, "stats/max_log_achievement_collect_coal": 0.25, "stats/max_log_achievement_collect_drink": 2.75, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.0, "stats/max_log_achievement_collect_stone": 11.25, "stats/max_log_achievement_collect_wood": 11.75, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.125, "stats/max_log_achievement_eat_cow": 0.375, "stats/max_log_achievement_make_stone_pickaxe": 0.875, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 0.875, "stats/max_log_achievement_make_wood_sword": 0.875, "stats/max_log_achievement_place_furnace": 1.375, "stats/max_log_achievement_place_plant": 1.875, "stats/max_log_achievement_place_stone": 2.375, "stats/max_log_achievement_place_table": 3.125, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.5296859890222549, "replay/size": 1000000.0, "replay/inserts": 1453.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.6200899464134012e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3804920120344346e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.67322158813477, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.037201642990112305, "timer/logger.write_frac": 0.00012372782249651582, "timer/logger.write_avg": 0.037201642990112305, "timer/logger.write_min": 0.037201642990112305, "timer/logger.write_max": 0.037201642990112305, "timer/replay.add_count": 1453.0, "timer/replay.add_total": 0.2846674919128418, "timer/replay.add_frac": 0.0009467670263725122, "timer/replay.add_avg": 0.00019591706256905835, "timer/replay.add_min": 8.034706115722656e-05, "timer/replay.add_max": 0.0032591819763183594, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1453.0, "timer/env.step_total": 20.582474946975708, "timer/env.step_frac": 0.0684546327014442, "timer/env.step_avg": 0.014165502372316386, "timer/env.step_min": 0.002882242202758789, "timer/env.step_max": 1.5840120315551758, "timer/agent.policy_count": 1453.0, "timer/agent.policy_total": 10.519263505935669, "timer/agent.policy_frac": 0.03498570125524867, "timer/agent.policy_avg": 0.007239685826521451, "timer/agent.policy_min": 0.005629777908325195, "timer/agent.policy_max": 0.01678776741027832, "timer/dataset_count": 726.0, "timer/dataset_total": 0.05805563926696777, "timer/dataset_frac": 0.00019308549980048766, "timer/dataset_avg": 7.996644527130548e-05, "timer/dataset_min": 5.7697296142578125e-05, "timer/dataset_max": 0.0001327991485595703, "timer/agent.train_count": 726.0, "timer/agent.train_total": 268.51929545402527, "timer/agent.train_frac": 0.8930602267662058, "timer/agent.train_avg": 0.36986128850416705, "timer/agent.train_min": 0.36347031593322754, "timer/agent.train_max": 0.38259458541870117, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20505213737487793, "timer/agent.report_frac": 0.0006819767197484598, "timer/agent.report_avg": 0.20505213737487793, "timer/agent.report_min": 0.20505213737487793, "timer/agent.report_max": 0.20505213737487793, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.832413369940983}
{"step": 1415176, "episode/length": 178.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.08379888268156424}
{"step": 1415472, "episode/length": 295.0, "episode/score": 13.100000001490116, "episode/sum_abs_reward": 15.500000037252903, "episode/reward_rate": 0.0472972972972973}
{"step": 1416048, "episode/length": 575.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 17.300000049173832, "episode/reward_rate": 0.024305555555555556}
{"step": 1416264, "episode/length": 215.0, "episode/score": 14.100000001490116, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.06944444444444445}
{"step": 1416463, "episode/length": 198.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 6.0999999940395355, "episode/reward_rate": 0.03015075376884422}
{"step": 1416473, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.547674230627112, "train/action_min": 0.0, "train/action_std": 3.4611069737253963, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03428106614061304, "train/actor_opt_grad_steps": 707315.0, "train/actor_opt_loss": -11.575062195996981, "train/adv_mag": 0.41122177525146586, "train/adv_max": 0.3270438313484192, "train/adv_mean": 0.0016382629390234895, "train/adv_min": -0.3618823537552679, "train/adv_std": 0.038419487609251124, "train/cont_avg": 0.995433910472973, "train/cont_loss_mean": 9.700276120224157e-06, "train/cont_loss_std": 0.0002432350041810632, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0006735846429647629, "train/cont_pos_acc": 0.9999999798632957, "train/cont_pos_loss": 5.78887647679411e-06, "train/cont_pred": 0.9954318895533278, "train/cont_rate": 0.995433910472973, "train/dyn_loss_mean": 5.801217530224775, "train/dyn_loss_std": 9.053687450048086, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.7885926373907037, "train/extr_critic_critic_opt_grad_steps": 707315.0, "train/extr_critic_critic_opt_loss": 14782.433013091217, "train/extr_critic_mag": 12.84567521069501, "train/extr_critic_max": 12.84567521069501, "train/extr_critic_mean": 3.602202315588255, "train/extr_critic_min": -0.40463906687659185, "train/extr_critic_std": 3.1166111198631494, "train/extr_return_normed_mag": 1.3810316614202551, "train/extr_return_normed_max": 1.3810316614202551, "train/extr_return_normed_mean": 0.37984565705866424, "train/extr_return_normed_min": -0.060892964260199585, "train/extr_return_normed_std": 0.3189882483031299, "train/extr_return_rate": 0.8042194964112462, "train/extr_return_raw_mag": 13.469486249459756, "train/extr_return_raw_max": 13.469486249459756, "train/extr_return_raw_mean": 3.6183378728660376, "train/extr_return_raw_min": -0.7179279126025535, "train/extr_return_raw_std": 3.1385571988853247, "train/extr_reward_mag": 1.0898723570076194, "train/extr_reward_max": 1.0898723570076194, "train/extr_reward_mean": 0.06350561085383634, "train/extr_reward_min": -0.6016377355601337, "train/extr_reward_std": 0.2422807500571818, "train/image_loss_mean": 3.7395369426624194, "train/image_loss_std": 9.19967793129586, "train/model_loss_mean": 7.287050144092457, "train/model_loss_std": 13.31815682230769, "train/model_opt_grad_norm": 18.87322032773817, "train/model_opt_grad_steps": 706731.6351351351, "train/model_opt_loss": 21355.70094752956, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2939.189189189189, "train/policy_entropy_mag": 2.752488667900498, "train/policy_entropy_max": 2.752488667900498, "train/policy_entropy_mean": 0.5241057449901426, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7573398452352833, "train/policy_logprob_mag": 7.438384313841124, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.525764650589711, "train/policy_logprob_min": -7.438384313841124, "train/policy_logprob_std": 1.1331906697234593, "train/policy_randomness_mag": 0.9715077111849914, "train/policy_randomness_max": 0.9715077111849914, "train/policy_randomness_mean": 0.18498633046810692, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2673077325563173, "train/post_ent_mag": 55.45005153965305, "train/post_ent_max": 55.45005153965305, "train/post_ent_mean": 39.73731845134014, "train/post_ent_min": 19.771788249144684, "train/post_ent_std": 5.889625607310115, "train/prior_ent_mag": 76.80939947592246, "train/prior_ent_max": 76.80939947592246, "train/prior_ent_mean": 45.45302669422047, "train/prior_ent_min": 26.961988913046348, "train/prior_ent_std": 8.16998906393309, "train/rep_loss_mean": 5.801217530224775, "train/rep_loss_std": 9.053687450048086, "train/reward_avg": 0.051772328722919966, "train/reward_loss_mean": 0.06677300583671879, "train/reward_loss_std": 0.23574530111776815, "train/reward_max_data": 1.0459459569003131, "train/reward_max_pred": 1.0437233737997107, "train/reward_neg_acc": 0.9919084213875435, "train/reward_neg_loss": 0.027828585079594237, "train/reward_pos_acc": 0.989021696754404, "train/reward_pos_loss": 0.7225655542837607, "train/reward_pred": 0.05135126512598347, "train/reward_rate": 0.05615234375, "stats/sum_log_reward": 11.700000095367432, "stats/max_log_achievement_collect_coal": 1.8, "stats/max_log_achievement_collect_drink": 5.2, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 2.2, "stats/max_log_achievement_collect_stone": 7.0, "stats/max_log_achievement_collect_wood": 11.6, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 3.0, "stats/max_log_achievement_eat_cow": 0.4, "stats/max_log_achievement_make_stone_pickaxe": 0.6, "stats/max_log_achievement_make_stone_sword": 0.8, "stats/max_log_achievement_make_wood_pickaxe": 0.8, "stats/max_log_achievement_make_wood_sword": 0.8, "stats/max_log_achievement_place_furnace": 0.8, "stats/max_log_achievement_place_plant": 2.2, "stats/max_log_achievement_place_stone": 1.8, "stats/max_log_achievement_place_table": 3.2, "stats/max_log_achievement_wake_up": 1.6, "stats/mean_log_entropy": 0.6977902054786682, "replay/size": 1000000.0, "replay/inserts": 1475.0, "replay/samples": 11808.0, "replay/insert_wait_avg": 3.5837141133971135e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3889982125300379e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2195682525635, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.028872251510620117, "timer/logger.write_frac": 9.617045177525196e-05, "timer/logger.write_avg": 0.028872251510620117, "timer/logger.write_min": 0.028872251510620117, "timer/logger.write_max": 0.028872251510620117, "timer/replay.add_count": 1475.0, "timer/replay.add_total": 0.27288389205932617, "timer/replay.add_frac": 0.0009089477199892553, "timer/replay.add_avg": 0.0001850060285147974, "timer/replay.add_min": 7.367134094238281e-05, "timer/replay.add_max": 0.0006349086761474609, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1475.0, "timer/env.step_total": 15.80110216140747, "timer/env.step_frac": 0.052631819615817296, "timer/env.step_avg": 0.010712611634852523, "timer/env.step_min": 0.0029463768005371094, "timer/env.step_max": 1.571242094039917, "timer/agent.policy_count": 1475.0, "timer/agent.policy_total": 10.614341259002686, "timer/agent.policy_frac": 0.03535526122025876, "timer/agent.policy_avg": 0.0071961635654255495, "timer/agent.policy_min": 0.005686759948730469, "timer/agent.policy_max": 0.015111923217773438, "timer/dataset_count": 738.0, "timer/dataset_total": 0.05883526802062988, "timer/dataset_frac": 0.00019597412774617666, "timer/dataset_avg": 7.972258539380742e-05, "timer/dataset_min": 5.888938903808594e-05, "timer/dataset_max": 0.0001735687255859375, "timer/agent.train_count": 738.0, "timer/agent.train_total": 272.78119587898254, "timer/agent.train_frac": 0.9086056497473274, "timer/agent.train_avg": 0.36962221663818773, "timer/agent.train_min": 0.36310601234436035, "timer/agent.train_max": 0.38082242012023926, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20081186294555664, "timer/agent.report_frac": 0.0006688833246759623, "timer/agent.report_avg": 0.20081186294555664, "timer/agent.report_min": 0.20081186294555664, "timer/agent.report_max": 0.20081186294555664, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.91299652366136}
{"step": 1416536, "episode/length": 72.0, "episode/score": 8.100000023841858, "episode/sum_abs_reward": 9.700000047683716, "episode/reward_rate": 0.1232876712328767}
{"step": 1416690, "episode/length": 153.0, "episode/score": 14.100000023841858, "episode/sum_abs_reward": 15.700000047683716, "episode/reward_rate": 0.09740259740259741}
{"step": 1416888, "episode/length": 197.0, "episode/score": 14.100000023841858, "episode/sum_abs_reward": 16.299999982118607, "episode/reward_rate": 0.08080808080808081}
{"step": 1417214, "episode/length": 325.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 18.10000003129244, "episode/reward_rate": 0.049079754601226995}
{"step": 1417387, "episode/length": 172.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.500000022351742, "episode/reward_rate": 0.07514450867052024}
{"step": 1417595, "episode/length": 207.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.07211538461538461}
{"step": 1417751, "episode/length": 155.0, "episode/score": 9.100000001490116, "episode/sum_abs_reward": 10.700000025331974, "episode/reward_rate": 0.0641025641025641}
{"step": 1417910, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.4842885335286455, "train/action_min": 0.0, "train/action_std": 3.373305857181549, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.0342526591848582, "train/actor_opt_grad_steps": 708045.0, "train/actor_opt_loss": -10.93322698606385, "train/adv_mag": 0.39538413989875054, "train/adv_max": 0.3285963262120883, "train/adv_mean": 0.00199513884975507, "train/adv_min": -0.34581568443940747, "train/adv_std": 0.039118995838281184, "train/cont_avg": 0.9951985677083334, "train/cont_loss_mean": 8.243667926214707e-06, "train/cont_loss_std": 0.00022427268794977806, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 2.2665049884956152e-05, "train/cont_pos_acc": 0.9999999834431542, "train/cont_pos_loss": 8.164767132957786e-06, "train/cont_pred": 0.9951908671193652, "train/cont_rate": 0.9951985677083334, "train/dyn_loss_mean": 5.8138810528649225, "train/dyn_loss_std": 9.140029827753702, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8240489794148339, "train/extr_critic_critic_opt_grad_steps": 708045.0, "train/extr_critic_critic_opt_loss": 14781.202162000867, "train/extr_critic_mag": 12.774037665790981, "train/extr_critic_max": 12.774037665790981, "train/extr_critic_mean": 3.6647216545210943, "train/extr_critic_min": -0.37802987959649825, "train/extr_critic_std": 3.127525101105372, "train/extr_return_normed_mag": 1.3877919945451949, "train/extr_return_normed_max": 1.3877919945451949, "train/extr_return_normed_mean": 0.38659626038538086, "train/extr_return_normed_min": -0.053534375296698675, "train/extr_return_normed_std": 0.3212037889493836, "train/extr_return_rate": 0.8099881104297109, "train/extr_return_raw_mag": 13.526217685805427, "train/extr_return_raw_max": 13.526217685805427, "train/extr_return_raw_mean": 3.684332092603048, "train/extr_return_raw_min": -0.6422006123595767, "train/extr_return_raw_std": 3.157542967134052, "train/extr_reward_mag": 1.0911097990141974, "train/extr_reward_max": 1.0911097990141974, "train/extr_reward_mean": 0.06476953092755543, "train/extr_reward_min": -0.5488298618131213, "train/extr_reward_std": 0.24395573056406444, "train/image_loss_mean": 3.750214354859458, "train/image_loss_std": 9.33450252479977, "train/model_loss_mean": 7.306750800874498, "train/model_loss_std": 13.44357795185513, "train/model_opt_grad_norm": 19.85651965936025, "train/model_opt_grad_steps": 707461.0, "train/model_opt_loss": 18266.876980251734, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.756608350409402, "train/policy_entropy_max": 2.756608350409402, "train/policy_entropy_mean": 0.49213529502352077, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7180937425129943, "train/policy_logprob_mag": 7.438384261396196, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4920346380935775, "train/policy_logprob_min": -7.438384261396196, "train/policy_logprob_std": 1.1043601151969697, "train/policy_randomness_mag": 0.9729617792699072, "train/policy_randomness_max": 0.9729617792699072, "train/policy_randomness_mean": 0.1737021632078621, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2534555790738927, "train/post_ent_mag": 55.07474374771118, "train/post_ent_max": 55.07474374771118, "train/post_ent_mean": 39.778771294487846, "train/post_ent_min": 19.497868325975205, "train/post_ent_std": 5.819723520014021, "train/prior_ent_mag": 76.753203286065, "train/prior_ent_max": 76.753203286065, "train/prior_ent_mean": 45.505878607432045, "train/prior_ent_min": 27.046601004070705, "train/prior_ent_std": 8.071680492824978, "train/rep_loss_mean": 5.8138810528649225, "train/rep_loss_std": 9.140029827753702, "train/reward_avg": 0.0544894740709828, "train/reward_loss_mean": 0.0681995892793768, "train/reward_loss_std": 0.23850823587013614, "train/reward_max_data": 1.0305555628405676, "train/reward_max_pred": 1.0290510455767314, "train/reward_neg_acc": 0.9921869478291936, "train/reward_neg_loss": 0.027224840492837958, "train/reward_pos_acc": 0.9874988694985708, "train/reward_pos_loss": 0.7297190237376425, "train/reward_pred": 0.05399748310446739, "train/reward_rate": 0.05859375, "stats/sum_log_reward": 12.385714530944824, "stats/max_log_achievement_collect_coal": 0.7142857142857143, "stats/max_log_achievement_collect_drink": 2.4285714285714284, "stats/max_log_achievement_collect_iron": 0.14285714285714285, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 14.285714285714286, "stats/max_log_achievement_collect_wood": 11.0, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.1428571428571428, "stats/max_log_achievement_eat_cow": 0.14285714285714285, "stats/max_log_achievement_make_stone_pickaxe": 0.8571428571428571, "stats/max_log_achievement_make_stone_sword": 0.8571428571428571, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.7142857142857142, "stats/max_log_achievement_place_plant": 1.5714285714285714, "stats/max_log_achievement_place_stone": 3.0, "stats/max_log_achievement_place_table": 3.0, "stats/max_log_achievement_wake_up": 0.7142857142857143, "stats/mean_log_entropy": 0.40961953146117075, "replay/size": 1000000.0, "replay/inserts": 1437.0, "replay/samples": 11488.0, "replay/insert_wait_avg": 3.6366714233313487e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3882361746764118e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.34630846977234, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.022701501846313477, "timer/logger.write_frac": 7.558442107037988e-05, "timer/logger.write_avg": 0.022701501846313477, "timer/logger.write_min": 0.022701501846313477, "timer/logger.write_max": 0.022701501846313477, "timer/replay.add_count": 1437.0, "timer/replay.add_total": 0.26897168159484863, "timer/replay.add_frac": 0.0008955384967613766, "timer/replay.add_avg": 0.00018717583966238596, "timer/replay.add_min": 8.702278137207031e-05, "timer/replay.add_max": 0.0007121562957763672, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1437.0, "timer/env.step_total": 21.84335684776306, "timer/env.step_frac": 0.07272723596654905, "timer/env.step_avg": 0.015200665864831637, "timer/env.step_min": 0.002997875213623047, "timer/env.step_max": 2.533210277557373, "timer/agent.policy_count": 1437.0, "timer/agent.policy_total": 12.17270803451538, "timer/agent.policy_frac": 0.040528908434179986, "timer/agent.policy_avg": 0.008470917212606389, "timer/agent.policy_min": 0.005723476409912109, "timer/agent.policy_max": 1.190816879272461, "timer/dataset_count": 718.0, "timer/dataset_total": 0.057309627532958984, "timer/dataset_frac": 0.00019081182593834602, "timer/dataset_avg": 7.981842274785373e-05, "timer/dataset_min": 6.127357482910156e-05, "timer/dataset_max": 0.00015163421630859375, "timer/agent.train_count": 718.0, "timer/agent.train_total": 265.3219060897827, "timer/agent.train_frac": 0.8833866060867048, "timer/agent.train_avg": 0.369529117116689, "timer/agent.train_min": 0.36328983306884766, "timer/agent.train_max": 0.38480305671691895, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20476698875427246, "timer/agent.report_frac": 0.00068176962053416, "timer/agent.report_avg": 0.20476698875427246, "timer/agent.report_min": 0.20476698875427246, "timer/agent.report_max": 0.20476698875427246, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0003535747528076172, "timer/checkpoint.save_frac": 1.1772235677176698e-06, "timer/checkpoint.save_avg": 0.0003535747528076172, "timer/checkpoint.save_min": 0.0003535747528076172, "timer/checkpoint.save_max": 0.0003535747528076172, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.2018218040466309, "timer/agent.save_frac": 0.004001453555962668, "timer/agent.save_avg": 1.2018218040466309, "timer/agent.save_min": 1.2018218040466309, "timer/agent.save_max": 1.2018218040466309, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.367134094238281e-05, "timer/replay.save_frac": 2.452879854516251e-07, "timer/replay.save_avg": 7.367134094238281e-05, "timer/replay.save_min": 7.367134094238281e-05, "timer/replay.save_max": 7.367134094238281e-05, "fps": 4.784394850028535}
{"step": 1417961, "episode/length": 209.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.500000022351742, "episode/reward_rate": 0.07142857142857142}
{"step": 1418198, "episode/length": 236.0, "episode/score": 13.099999986588955, "episode/sum_abs_reward": 16.10000003129244, "episode/reward_rate": 0.05907172995780591}
{"step": 1418426, "episode/length": 227.0, "episode/score": 12.100000023841858, "episode/sum_abs_reward": 14.700000017881393, "episode/reward_rate": 0.06140350877192982}
{"step": 1418633, "episode/length": 206.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.07246376811594203}
{"step": 1418817, "episode/length": 183.0, "episode/score": 14.099999994039536, "episode/sum_abs_reward": 16.500000059604645, "episode/reward_rate": 0.08695652173913043}
{"step": 1419099, "episode/length": 281.0, "episode/score": 17.100000023841858, "episode/sum_abs_reward": 19.10000005364418, "episode/reward_rate": 0.06382978723404255}
{"step": 1419304, "episode/length": 204.0, "episode/score": 13.100000023841858, "episode/sum_abs_reward": 15.699999988079071, "episode/reward_rate": 0.07317073170731707}
{"step": 1419367, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.484454429312928, "train/action_min": 0.0, "train/action_std": 3.4232845600337196, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03360679694642759, "train/actor_opt_grad_steps": 708770.0, "train/actor_opt_loss": -12.97055206192683, "train/adv_mag": 0.3822258919069212, "train/adv_max": 0.31447550348223074, "train/adv_mean": 0.0015055086010288008, "train/adv_min": -0.34142616921908236, "train/adv_std": 0.03835670910265348, "train/cont_avg": 0.9955051369863014, "train/cont_loss_mean": 5.111633074554684e-05, "train/cont_loss_std": 0.0015528618896745658, "train/cont_neg_acc": 0.9965753424657534, "train/cont_neg_loss": 0.009845152275684017, "train/cont_pos_acc": 0.9999999877524702, "train/cont_pos_loss": 9.089252674710858e-06, "train/cont_pred": 0.9955145675842076, "train/cont_rate": 0.9955051369863014, "train/dyn_loss_mean": 5.838578021689637, "train/dyn_loss_std": 9.090021486151707, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8140815921025734, "train/extr_critic_critic_opt_grad_steps": 708770.0, "train/extr_critic_critic_opt_loss": 14979.570513163528, "train/extr_critic_mag": 12.687514305114746, "train/extr_critic_max": 12.687514305114746, "train/extr_critic_mean": 3.48932216592031, "train/extr_critic_min": -0.369234854227876, "train/extr_critic_std": 3.0769369373582816, "train/extr_return_normed_mag": 1.3777142403876945, "train/extr_return_normed_max": 1.3777142403876945, "train/extr_return_normed_mean": 0.36894913936314516, "train/extr_return_normed_min": -0.061254588708485644, "train/extr_return_normed_std": 0.31678379071901924, "train/extr_return_rate": 0.8030367501794475, "train/extr_return_raw_mag": 13.38151551599372, "train/extr_return_raw_max": 13.38151551599372, "train/extr_return_raw_mean": 3.504060637460996, "train/extr_return_raw_min": -0.7088043122258905, "train/extr_return_raw_std": 3.1017897227039075, "train/extr_reward_mag": 1.0888166296971988, "train/extr_reward_max": 1.0888166296971988, "train/extr_reward_mean": 0.06442477686764443, "train/extr_reward_min": -0.6045651729792765, "train/extr_reward_std": 0.24334795752616778, "train/image_loss_mean": 3.8658994583234394, "train/image_loss_std": 9.570819985376646, "train/model_loss_mean": 7.436361332462258, "train/model_loss_std": 13.69424412348499, "train/model_opt_grad_norm": 19.700697964184904, "train/model_opt_grad_steps": 708185.0410958905, "train/model_opt_loss": 19241.872819456337, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2568.4931506849316, "train/policy_entropy_mag": 2.749594459794972, "train/policy_entropy_max": 2.749594459794972, "train/policy_entropy_mean": 0.4943035873648238, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7201715691448891, "train/policy_logprob_mag": 7.4383842651158165, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4947283043436808, "train/policy_logprob_min": -7.4383842651158165, "train/policy_logprob_std": 1.1077579227212357, "train/policy_randomness_mag": 0.9704861804230572, "train/policy_randomness_max": 0.9704861804230572, "train/policy_randomness_mean": 0.1744674782026304, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2541889587085541, "train/post_ent_mag": 55.41223991080506, "train/post_ent_max": 55.41223991080506, "train/post_ent_mean": 39.73934858139247, "train/post_ent_min": 19.44435192787484, "train/post_ent_std": 5.847287164975519, "train/prior_ent_mag": 76.90583581793798, "train/prior_ent_max": 76.90583581793798, "train/prior_ent_mean": 45.517110275895625, "train/prior_ent_min": 26.882527625724062, "train/prior_ent_std": 8.074661313670955, "train/rep_loss_mean": 5.838578021689637, "train/rep_loss_std": 9.090021486151707, "train/reward_avg": 0.05265812264525727, "train/reward_loss_mean": 0.06726398410862439, "train/reward_loss_std": 0.2370515039114103, "train/reward_max_data": 1.0301369934865874, "train/reward_max_pred": 1.030138469722173, "train/reward_neg_acc": 0.9911472601433323, "train/reward_neg_loss": 0.02770675293948144, "train/reward_pos_acc": 0.9894159819981824, "train/reward_pos_loss": 0.7221893953950438, "train/reward_pred": 0.05236021204762263, "train/reward_rate": 0.05690817636986301, "stats/sum_log_reward": 13.957143238612584, "stats/max_log_achievement_collect_coal": 1.5714285714285714, "stats/max_log_achievement_collect_drink": 1.4285714285714286, "stats/max_log_achievement_collect_iron": 0.5714285714285714, "stats/max_log_achievement_collect_sapling": 1.7142857142857142, "stats/max_log_achievement_collect_stone": 17.0, "stats/max_log_achievement_collect_wood": 13.142857142857142, "stats/max_log_achievement_defeat_skeleton": 0.14285714285714285, "stats/max_log_achievement_defeat_zombie": 1.2857142857142858, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.2857142857142858, "stats/max_log_achievement_make_stone_sword": 0.8571428571428571, "stats/max_log_achievement_make_wood_pickaxe": 1.2857142857142858, "stats/max_log_achievement_make_wood_sword": 1.1428571428571428, "stats/max_log_achievement_place_furnace": 1.7142857142857142, "stats/max_log_achievement_place_plant": 1.7142857142857142, "stats/max_log_achievement_place_stone": 3.5714285714285716, "stats/max_log_achievement_place_table": 3.5714285714285716, "stats/max_log_achievement_wake_up": 1.1428571428571428, "stats/mean_log_entropy": 0.4326059477669852, "stats/max_log_achievement_make_iron_pickaxe": 0.5, "stats/max_log_achievement_make_iron_sword": 0.5, "replay/size": 1000000.0, "replay/inserts": 1457.0, "replay/samples": 11664.0, "replay/insert_wait_avg": 3.625696950688621e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3965801610541115e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.15260434150696, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03369021415710449, "timer/logger.write_frac": 0.00011224361764581765, "timer/logger.write_avg": 0.03369021415710449, "timer/logger.write_min": 0.03369021415710449, "timer/logger.write_max": 0.03369021415710449, "timer/replay.add_count": 1457.0, "timer/replay.add_total": 0.2801692485809326, "timer/replay.add_frac": 0.0009334226807579596, "timer/replay.add_avg": 0.0001922918658757259, "timer/replay.add_min": 8.0108642578125e-05, "timer/replay.add_max": 0.0016155242919921875, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1457.0, "timer/env.step_total": 19.155736446380615, "timer/env.step_frac": 0.06381999079570086, "timer/env.step_avg": 0.01314738259875128, "timer/env.step_min": 0.0028557777404785156, "timer/env.step_max": 1.5656404495239258, "timer/agent.policy_count": 1457.0, "timer/agent.policy_total": 10.452281713485718, "timer/agent.policy_frac": 0.03482322512715347, "timer/agent.policy_avg": 0.007173837826688893, "timer/agent.policy_min": 0.005731821060180664, "timer/agent.policy_max": 0.016798973083496094, "timer/dataset_count": 729.0, "timer/dataset_total": 0.05797171592712402, "timer/dataset_frac": 0.0001931408060053515, "timer/dataset_avg": 7.952224407012898e-05, "timer/dataset_min": 5.9604644775390625e-05, "timer/dataset_max": 0.00013113021850585938, "timer/agent.train_count": 729.0, "timer/agent.train_total": 269.5080976486206, "timer/agent.train_frac": 0.8979035788807626, "timer/agent.train_avg": 0.3696956071997539, "timer/agent.train_min": 0.362213134765625, "timer/agent.train_max": 0.45596909523010254, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.19945549964904785, "timer/agent.report_frac": 0.0006645136399420071, "timer/agent.report_avg": 0.19945549964904785, "timer/agent.report_min": 0.19945549964904785, "timer/agent.report_max": 0.19945549964904785, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.854101794268164}
{"step": 1419508, "episode/length": 203.0, "episode/score": 13.099999994039536, "episode/sum_abs_reward": 14.900000035762787, "episode/reward_rate": 0.06862745098039216}
{"step": 1419738, "episode/length": 229.0, "episode/score": 16.099999986588955, "episode/sum_abs_reward": 17.900000013411045, "episode/reward_rate": 0.07391304347826087}
{"step": 1419897, "episode/length": 158.0, "episode/score": 10.099999986588955, "episode/sum_abs_reward": 12.100000016391277, "episode/reward_rate": 0.06918238993710692}
{"step": 1420108, "episode/length": 210.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.061611374407582936}
{"step": 1420700, "episode/length": 591.0, "episode/score": 15.100000001490116, "episode/sum_abs_reward": 18.1000000461936, "episode/reward_rate": 0.02702702702702703}
{"step": 1420837, "episode/length": 136.0, "episode/score": 11.099999994039536, "episode/sum_abs_reward": 13.90000006556511, "episode/reward_rate": 0.0948905109489051}
{"step": 1420838, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.487054694188784, "train/action_min": 0.0, "train/action_std": 3.4035102014672267, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.034090049131071734, "train/actor_opt_grad_steps": 709500.0, "train/actor_opt_loss": -11.555352951157582, "train/adv_mag": 0.3889192618327598, "train/adv_max": 0.30414828658103943, "train/adv_mean": 0.0018296792202207842, "train/adv_min": -0.35116972029209137, "train/adv_std": 0.03893581221569074, "train/cont_avg": 0.9953178510273972, "train/cont_loss_mean": 1.4762812924118407e-05, "train/cont_loss_std": 0.00043125131625470516, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0013145738742430038, "train/cont_pos_acc": 0.9999999812204544, "train/cont_pos_loss": 7.799182008064747e-06, "train/cont_pred": 0.9953168165193845, "train/cont_rate": 0.9953178510273972, "train/dyn_loss_mean": 5.7724719766068135, "train/dyn_loss_std": 9.067986553662443, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8222223414133673, "train/extr_critic_critic_opt_grad_steps": 709500.0, "train/extr_critic_critic_opt_loss": 14892.26828713613, "train/extr_critic_mag": 12.777777292957044, "train/extr_critic_max": 12.777777292957044, "train/extr_critic_mean": 3.6655276082966424, "train/extr_critic_min": -0.37736494573828294, "train/extr_critic_std": 3.0801956914875603, "train/extr_return_normed_mag": 1.3933190711557049, "train/extr_return_normed_max": 1.3933190711557049, "train/extr_return_normed_mean": 0.38746624654286527, "train/extr_return_normed_min": -0.059840309676038074, "train/extr_return_normed_std": 0.3165050698061512, "train/extr_return_rate": 0.8198808905196516, "train/extr_return_raw_mag": 13.534000266088198, "train/extr_return_raw_max": 13.534000266088198, "train/extr_return_raw_mean": 3.6835002735869526, "train/extr_return_raw_min": -0.6967948475112654, "train/extr_return_raw_std": 3.0996608570830464, "train/extr_reward_mag": 1.0929851531982422, "train/extr_reward_max": 1.0929851531982422, "train/extr_reward_mean": 0.06646429839199536, "train/extr_reward_min": -0.5827073561002131, "train/extr_reward_std": 0.24670695482868038, "train/image_loss_mean": 3.601299073598156, "train/image_loss_std": 9.045685990215981, "train/model_loss_mean": 7.132838824023939, "train/model_loss_std": 13.222079904112098, "train/model_opt_grad_norm": 18.440145823690628, "train/model_opt_grad_steps": 708914.4383561644, "train/model_opt_loss": 18577.019384096748, "train/model_opt_model_opt_grad_overflow": 0.0136986301369863, "train/model_opt_model_opt_grad_scale": 2568.4931506849316, "train/policy_entropy_mag": 2.7497071697287363, "train/policy_entropy_max": 2.7497071697287363, "train/policy_entropy_mean": 0.481348795433567, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.713988480094361, "train/policy_logprob_mag": 7.438384278179848, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4820221923801997, "train/policy_logprob_min": -7.438384278179848, "train/policy_logprob_std": 1.1028563976287842, "train/policy_randomness_mag": 0.9705259644821899, "train/policy_randomness_max": 0.9705259644821899, "train/policy_randomness_mean": 0.16989500085784964, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2520066028180188, "train/post_ent_mag": 55.187593277186565, "train/post_ent_max": 55.187593277186565, "train/post_ent_mean": 39.63211848637829, "train/post_ent_min": 19.12428703046825, "train/post_ent_std": 5.848753543749248, "train/prior_ent_mag": 76.78373122541872, "train/prior_ent_max": 76.78373122541872, "train/prior_ent_mean": 45.34268308665654, "train/prior_ent_min": 27.10583156428925, "train/prior_ent_std": 8.084235798822691, "train/rep_loss_mean": 5.7724719766068135, "train/rep_loss_std": 9.067986553662443, "train/reward_avg": 0.054104237983079805, "train/reward_loss_mean": 0.0680418169661744, "train/reward_loss_std": 0.23476548023419838, "train/reward_max_data": 1.035616446847785, "train/reward_max_pred": 1.0354055280554784, "train/reward_neg_acc": 0.9915788753391945, "train/reward_neg_loss": 0.027417463148395493, "train/reward_pos_acc": 0.9892130102196784, "train/reward_pos_loss": 0.7227608855456522, "train/reward_pred": 0.053543929623006144, "train/reward_rate": 0.05837970890410959, "stats/sum_log_reward": 12.93333371480306, "stats/max_log_achievement_collect_coal": 1.3333333333333333, "stats/max_log_achievement_collect_drink": 3.3333333333333335, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 16.333333333333332, "stats/max_log_achievement_collect_wood": 13.666666666666666, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.8333333333333333, "stats/max_log_achievement_eat_cow": 0.6666666666666666, "stats/max_log_achievement_make_iron_pickaxe": 0.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_stone_sword": 1.1666666666666667, "stats/max_log_achievement_make_wood_pickaxe": 1.3333333333333333, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.8333333333333333, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 3.8333333333333335, "stats/max_log_achievement_place_table": 3.6666666666666665, "stats/max_log_achievement_wake_up": 2.0, "stats/mean_log_entropy": 0.5484093204140663, "replay/size": 1000000.0, "replay/inserts": 1471.0, "replay/samples": 11760.0, "replay/insert_wait_avg": 3.6845476265913122e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3930659715821143e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 301.23798727989197, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.025577545166015625, "timer/logger.write_frac": 8.490810006060269e-05, "timer/logger.write_avg": 0.025577545166015625, "timer/logger.write_min": 0.025577545166015625, "timer/logger.write_max": 0.025577545166015625, "timer/replay.add_count": 1471.0, "timer/replay.add_total": 0.2798888683319092, "timer/replay.add_frac": 0.0009291287292789323, "timer/replay.add_avg": 0.00019027115454242635, "timer/replay.add_min": 7.796287536621094e-05, "timer/replay.add_max": 0.0007777214050292969, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1471.0, "timer/env.step_total": 17.910598278045654, "timer/env.step_frac": 0.05945663905065273, "timer/env.step_avg": 0.012175797605741437, "timer/env.step_min": 0.0031464099884033203, "timer/env.step_max": 1.5849058628082275, "timer/agent.policy_count": 1471.0, "timer/agent.policy_total": 10.63765835762024, "timer/agent.policy_frac": 0.03531313714341205, "timer/agent.policy_avg": 0.007231582839986567, "timer/agent.policy_min": 0.00574183464050293, "timer/agent.policy_max": 0.014560461044311523, "timer/dataset_count": 735.0, "timer/dataset_total": 0.059607505798339844, "timer/dataset_frac": 0.0001978751296826193, "timer/dataset_avg": 8.109864734468006e-05, "timer/dataset_min": 6.0558319091796875e-05, "timer/dataset_max": 0.00015044212341308594, "timer/agent.train_count": 735.0, "timer/agent.train_total": 271.64644980430603, "timer/agent.train_frac": 0.901766912789484, "timer/agent.train_avg": 0.3695870065364708, "timer/agent.train_min": 0.36356472969055176, "timer/agent.train_max": 0.38196778297424316, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.20684504508972168, "timer/agent.report_frac": 0.0006866499373385266, "timer/agent.report_avg": 0.20684504508972168, "timer/agent.report_min": 0.20684504508972168, "timer/agent.report_max": 0.20684504508972168, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.883100739359919}
{"step": 1420910, "episode/length": 72.0, "episode/score": 7.099999986588955, "episode/sum_abs_reward": 9.099999971687794, "episode/reward_rate": 0.1232876712328767}
{"step": 1421072, "episode/length": 161.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 13.900000013411045, "episode/reward_rate": 0.08024691358024691}
{"step": 1421211, "episode/length": 138.0, "episode/score": 12.100000023841858, "episode/sum_abs_reward": 13.899999976158142, "episode/reward_rate": 0.10071942446043165}
{"step": 1421472, "episode/length": 260.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.100000016391277, "episode/reward_rate": 0.04980842911877394}
{"step": 1421537, "episode/length": 64.0, "episode/score": 4.100000008940697, "episode/sum_abs_reward": 6.0999999940395355, "episode/reward_rate": 0.09230769230769231}
{"step": 1421763, "episode/length": 225.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.06637168141592921}
{"step": 1421976, "episode/length": 212.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.100000016391277, "episode/reward_rate": 0.07042253521126761}
{"step": 1422195, "episode/length": 218.0, "episode/score": 13.099999971687794, "episode/sum_abs_reward": 15.100000031292439, "episode/reward_rate": 0.0684931506849315}
{"step": 1422289, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.362583108144264, "train/action_min": 0.0, "train/action_std": 3.349370450189669, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.034091341015819, "train/actor_opt_grad_steps": 710230.0, "train/actor_opt_loss": -11.301405805431001, "train/adv_mag": 0.3911479613552355, "train/adv_max": 0.3368072773087515, "train/adv_mean": 0.0018683234023365626, "train/adv_min": -0.32237880585128315, "train/adv_std": 0.039112559175246385, "train/cont_avg": 0.9952375856164384, "train/cont_loss_mean": 6.06492382053498e-06, "train/cont_loss_std": 0.00014746505642417466, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.0002566169105602743, "train/cont_pos_acc": 0.9999999844864623, "train/cont_pos_loss": 4.95745656694889e-06, "train/cont_pred": 0.9952338884954584, "train/cont_rate": 0.9952375856164384, "train/dyn_loss_mean": 5.858109781186875, "train/dyn_loss_std": 9.085686448502214, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.823831415339692, "train/extr_critic_critic_opt_grad_steps": 710230.0, "train/extr_critic_critic_opt_loss": 14875.330078125, "train/extr_critic_mag": 12.678096614471853, "train/extr_critic_max": 12.678096614471853, "train/extr_critic_mean": 3.697393985643779, "train/extr_critic_min": -0.3897937209638831, "train/extr_critic_std": 3.047809747800435, "train/extr_return_normed_mag": 1.3768681026484868, "train/extr_return_normed_max": 1.3768681026484868, "train/extr_return_normed_mean": 0.39198627782194584, "train/extr_return_normed_min": -0.057775589267480866, "train/extr_return_normed_std": 0.31503219208488725, "train/extr_return_rate": 0.8197328464625633, "train/extr_return_raw_mag": 13.329171690222335, "train/extr_return_raw_max": 13.329171690222335, "train/extr_return_raw_mean": 3.715633941023317, "train/extr_return_raw_min": -0.6752333857425271, "train/extr_return_raw_std": 3.0752141638977886, "train/extr_reward_mag": 1.0935905436946922, "train/extr_reward_max": 1.0935905436946922, "train/extr_reward_mean": 0.06390993496122425, "train/extr_reward_min": -0.5909962523473452, "train/extr_reward_std": 0.24309200701648243, "train/image_loss_mean": 3.645641268116154, "train/image_loss_std": 9.038281819591784, "train/model_loss_mean": 7.2259695497277665, "train/model_loss_std": 13.169446474885287, "train/model_opt_grad_norm": 19.950130397326326, "train/model_opt_grad_steps": 709644.0, "train/model_opt_loss": 21381.865261130137, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2945.205479452055, "train/policy_entropy_mag": 2.7528632830267084, "train/policy_entropy_max": 2.7528632830267084, "train/policy_entropy_mean": 0.48022522318036587, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7062821024901247, "train/policy_logprob_mag": 7.438384323903959, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.48062601726349086, "train/policy_logprob_min": -7.438384323903959, "train/policy_logprob_std": 1.0977921110309967, "train/policy_randomness_mag": 0.9716399295689309, "train/policy_randomness_max": 0.9716399295689309, "train/policy_randomness_mean": 0.16949842921266817, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.24928658731179695, "train/post_ent_mag": 55.432039809553594, "train/post_ent_max": 55.432039809553594, "train/post_ent_mean": 39.6003728370144, "train/post_ent_min": 18.943746684348746, "train/post_ent_std": 5.793825443476846, "train/prior_ent_mag": 76.74845583144932, "train/prior_ent_max": 76.74845583144932, "train/prior_ent_mean": 45.4207228046574, "train/prior_ent_min": 27.067219747255926, "train/prior_ent_std": 8.103675306659856, "train/rep_loss_mean": 5.858109781186875, "train/rep_loss_std": 9.085686448502214, "train/reward_avg": 0.05205078106628706, "train/reward_loss_mean": 0.06545642237753084, "train/reward_loss_std": 0.22693044437121038, "train/reward_max_data": 1.0369863101880845, "train/reward_max_pred": 1.0332849613607746, "train/reward_neg_acc": 0.9924615637896812, "train/reward_neg_loss": 0.026686860427056272, "train/reward_pos_acc": 0.9913665015403539, "train/reward_pos_loss": 0.7148308468191591, "train/reward_pred": 0.05177563331919174, "train/reward_rate": 0.056346318493150686, "stats/sum_log_reward": 11.100000262260437, "stats/max_log_achievement_collect_coal": 1.5, "stats/max_log_achievement_collect_drink": 1.75, "stats/max_log_achievement_collect_iron": 0.0, "stats/max_log_achievement_collect_sapling": 1.125, "stats/max_log_achievement_collect_stone": 11.625, "stats/max_log_achievement_collect_wood": 11.125, "stats/max_log_achievement_defeat_skeleton": 0.125, "stats/max_log_achievement_defeat_zombie": 0.875, "stats/max_log_achievement_eat_cow": 0.125, "stats/max_log_achievement_make_iron_pickaxe": 0.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.625, "stats/max_log_achievement_make_stone_sword": 0.625, "stats/max_log_achievement_make_wood_pickaxe": 1.0, "stats/max_log_achievement_make_wood_sword": 1.0, "stats/max_log_achievement_place_furnace": 1.625, "stats/max_log_achievement_place_plant": 1.125, "stats/max_log_achievement_place_stone": 1.125, "stats/max_log_achievement_place_table": 2.875, "stats/max_log_achievement_wake_up": 1.0, "stats/mean_log_entropy": 0.38914079777896404, "replay/size": 1000000.0, "replay/inserts": 1451.0, "replay/samples": 11616.0, "replay/insert_wait_avg": 3.6395393019294346e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3910213449441368e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2671322822571, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03010725975036621, "timer/logger.write_frac": 0.00010026824954675621, "timer/logger.write_avg": 0.03010725975036621, "timer/logger.write_min": 0.03010725975036621, "timer/logger.write_max": 0.03010725975036621, "timer/replay.add_count": 1451.0, "timer/replay.add_total": 0.2720496654510498, "timer/replay.add_frac": 0.0009060254560106756, "timer/replay.add_avg": 0.00018749115468714666, "timer/replay.add_min": 7.224082946777344e-05, "timer/replay.add_max": 0.0004961490631103516, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1451.0, "timer/env.step_total": 20.39706254005432, "timer/env.step_frac": 0.06792972106211304, "timer/env.step_avg": 0.014057245031050531, "timer/env.step_min": 0.0029103755950927734, "timer/env.step_max": 1.631667137145996, "timer/agent.policy_count": 1451.0, "timer/agent.policy_total": 10.483025789260864, "timer/agent.policy_frac": 0.034912331927846874, "timer/agent.policy_avg": 0.007224690412998528, "timer/agent.policy_min": 0.0057675838470458984, "timer/agent.policy_max": 0.01625657081604004, "timer/dataset_count": 726.0, "timer/dataset_total": 0.059252262115478516, "timer/dataset_frac": 0.00019733182804630183, "timer/dataset_avg": 8.161468610947454e-05, "timer/dataset_min": 6.079673767089844e-05, "timer/dataset_max": 0.00016570091247558594, "timer/agent.train_count": 726.0, "timer/agent.train_total": 268.363920211792, "timer/agent.train_frac": 0.8937505686087699, "timer/agent.train_avg": 0.36964727301899725, "timer/agent.train_min": 0.363201379776001, "timer/agent.train_max": 0.3812565803527832, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2023022174835205, "timer/agent.report_frac": 0.0006737407985545098, "timer/agent.report_avg": 0.2023022174835205, "timer/agent.report_min": 0.2023022174835205, "timer/agent.report_max": 0.2023022174835205, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.832293968812947}
{"step": 1422402, "episode/length": 206.0, "episode/score": 15.099999986588955, "episode/sum_abs_reward": 17.500000022351742, "episode/reward_rate": 0.07729468599033816}
{"step": 1422579, "episode/length": 176.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 9.900000013411045, "episode/reward_rate": 0.05084745762711865}
{"step": 1422767, "episode/length": 187.0, "episode/score": 12.099999986588955, "episode/sum_abs_reward": 14.30000001937151, "episode/reward_rate": 0.06914893617021277}
{"step": 1423027, "episode/length": 259.0, "episode/score": 14.100000023841858, "episode/sum_abs_reward": 16.500000059604645, "episode/reward_rate": 0.057692307692307696}
{"step": 1423232, "episode/length": 204.0, "episode/score": 8.099999986588955, "episode/sum_abs_reward": 10.30000001937151, "episode/reward_rate": 0.04390243902439024}
{"step": 1423688, "episode/length": 455.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 17.900000043213367, "episode/reward_rate": 0.03289473684210526}
{"step": 1423731, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.506744384765625, "train/action_min": 0.0, "train/action_std": 3.437442875570721, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03347591403871775, "train/actor_opt_grad_steps": 710955.0, "train/actor_opt_loss": -11.33289407276445, "train/adv_mag": 0.400029173741738, "train/adv_max": 0.3175123826497131, "train/adv_mean": 0.001882216732459104, "train/adv_min": -0.35349117985202205, "train/adv_std": 0.038956141771955624, "train/cont_avg": 0.9952121310763888, "train/cont_loss_mean": 2.399069680309513e-05, "train/cont_loss_std": 0.0007423532059741925, "train/cont_neg_acc": 1.0, "train/cont_neg_loss": 0.00040457370848187877, "train/cont_pos_acc": 0.9999863025214937, "train/cont_pos_loss": 2.247268888271808e-05, "train/cont_pred": 0.9951979236470329, "train/cont_rate": 0.9952121310763888, "train/dyn_loss_mean": 5.6766148342026606, "train/dyn_loss_std": 8.94345047738817, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8229006752371788, "train/extr_critic_critic_opt_grad_steps": 710955.0, "train/extr_critic_critic_opt_loss": 14746.656507703992, "train/extr_critic_mag": 12.753407875696817, "train/extr_critic_max": 12.753407875696817, "train/extr_critic_mean": 3.7776067389382257, "train/extr_critic_min": -0.39520462188455796, "train/extr_critic_std": 3.1328513423601785, "train/extr_return_normed_mag": 1.3753697938389249, "train/extr_return_normed_max": 1.3753697938389249, "train/extr_return_normed_mean": 0.3953656628727913, "train/extr_return_normed_min": -0.058554798235288925, "train/extr_return_normed_std": 0.31931498356991345, "train/extr_return_rate": 0.8222521055075858, "train/extr_return_raw_mag": 13.508178737428453, "train/extr_return_raw_max": 13.508178737428453, "train/extr_return_raw_mean": 3.7962512506379023, "train/extr_return_raw_min": -0.7022865845097436, "train/extr_return_raw_std": 3.164702021413379, "train/extr_reward_mag": 1.0949888229370117, "train/extr_reward_max": 1.0949888229370117, "train/extr_reward_mean": 0.06651043648728067, "train/extr_reward_min": -0.5466111484501097, "train/extr_reward_std": 0.24709580652415752, "train/image_loss_mean": 3.5026320036914615, "train/image_loss_std": 8.632823116249508, "train/model_loss_mean": 6.975663284460704, "train/model_loss_std": 12.73639080259535, "train/model_opt_grad_norm": 18.6603913837009, "train/model_opt_grad_steps": 710368.0, "train/model_opt_loss": 17439.158230251734, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2500.0, "train/policy_entropy_mag": 2.7634776863786907, "train/policy_entropy_max": 2.7634776863786907, "train/policy_entropy_mean": 0.4987325684891807, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.7340785356031524, "train/policy_logprob_mag": 7.438384294509888, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.4983758226864868, "train/policy_logprob_min": -7.438384294509888, "train/policy_logprob_std": 1.1117013941208522, "train/policy_randomness_mag": 0.9753863505191274, "train/policy_randomness_max": 0.9753863505191274, "train/policy_randomness_mean": 0.1760307097186645, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2590975097070138, "train/post_ent_mag": 54.963955349392364, "train/post_ent_max": 54.963955349392364, "train/post_ent_mean": 39.48260445064969, "train/post_ent_min": 19.868792904747856, "train/post_ent_std": 5.739291999075148, "train/prior_ent_mag": 76.83695146772597, "train/prior_ent_max": 76.83695146772597, "train/prior_ent_mean": 45.15579001108805, "train/prior_ent_min": 27.456533432006836, "train/prior_ent_std": 8.049332055780622, "train/rep_loss_mean": 5.6766148342026606, "train/rep_loss_std": 8.94345047738817, "train/reward_avg": 0.05437011685636309, "train/reward_loss_mean": 0.06703841184369391, "train/reward_loss_std": 0.22974609976841343, "train/reward_max_data": 1.0458333442608516, "train/reward_max_pred": 1.043237441115909, "train/reward_neg_acc": 0.9922705805963941, "train/reward_neg_loss": 0.0266497448966321, "train/reward_pos_acc": 0.9899365959895982, "train/reward_pos_loss": 0.7163573412431611, "train/reward_pred": 0.05406325602800482, "train/reward_rate": 0.058675130208333336, "stats/sum_log_reward": 11.93333355585734, "stats/max_log_achievement_collect_coal": 0.3333333333333333, "stats/max_log_achievement_collect_drink": 4.333333333333333, "stats/max_log_achievement_collect_iron": 0.16666666666666666, "stats/max_log_achievement_collect_sapling": 2.6666666666666665, "stats/max_log_achievement_collect_stone": 15.333333333333334, "stats/max_log_achievement_collect_wood": 10.833333333333334, "stats/max_log_achievement_defeat_skeleton": 0.0, "stats/max_log_achievement_defeat_zombie": 2.1666666666666665, "stats/max_log_achievement_eat_cow": 0.5, "stats/max_log_achievement_make_iron_pickaxe": 0.0, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.6666666666666666, "stats/max_log_achievement_make_stone_sword": 0.3333333333333333, "stats/max_log_achievement_make_wood_pickaxe": 1.1666666666666667, "stats/max_log_achievement_make_wood_sword": 0.8333333333333334, "stats/max_log_achievement_place_furnace": 2.1666666666666665, "stats/max_log_achievement_place_plant": 2.5, "stats/max_log_achievement_place_stone": 3.8333333333333335, "stats/max_log_achievement_place_table": 2.3333333333333335, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.3551192134618759, "replay/size": 1000000.0, "replay/inserts": 1442.0, "replay/samples": 11536.0, "replay/insert_wait_avg": 3.5848763051872943e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3747302900570937e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.08733463287354, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.0339512825012207, "timer/logger.write_frac": 0.0001131380054501689, "timer/logger.write_avg": 0.0339512825012207, "timer/logger.write_min": 0.0339512825012207, "timer/logger.write_max": 0.0339512825012207, "timer/replay.add_count": 1442.0, "timer/replay.add_total": 0.2785966396331787, "timer/replay.add_frac": 0.0009283851981757693, "timer/replay.add_avg": 0.00019320155314367455, "timer/replay.add_min": 8.463859558105469e-05, "timer/replay.add_max": 0.0008955001831054688, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1442.0, "timer/env.step_total": 20.617943048477173, "timer/env.step_frac": 0.0687064753122658, "timer/env.step_avg": 0.014298157453867665, "timer/env.step_min": 0.002786874771118164, "timer/env.step_max": 3.25618839263916, "timer/agent.policy_count": 1442.0, "timer/agent.policy_total": 11.770339965820312, "timer/agent.policy_frac": 0.039223048117709235, "timer/agent.policy_avg": 0.008162510378516168, "timer/agent.policy_min": 0.005822181701660156, "timer/agent.policy_max": 1.406264066696167, "timer/dataset_count": 721.0, "timer/dataset_total": 0.05756497383117676, "timer/dataset_frac": 0.0001918274021847729, "timer/dataset_avg": 7.984046301134085e-05, "timer/dataset_min": 6.103515625e-05, "timer/dataset_max": 0.00016188621520996094, "timer/agent.train_count": 721.0, "timer/agent.train_total": 266.67127227783203, "timer/agent.train_frac": 0.8886455424854145, "timer/agent.train_avg": 0.3698630683465077, "timer/agent.train_min": 0.3638453483581543, "timer/agent.train_max": 0.4017820358276367, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.1993253231048584, "timer/agent.report_frac": 0.0006642243777089518, "timer/agent.report_avg": 0.1993253231048584, "timer/agent.report_min": 0.1993253231048584, "timer/agent.report_max": 0.1993253231048584, "timer/checkpoint.save_count": 1.0, "timer/checkpoint.save_total": 0.0002491474151611328, "timer/checkpoint.save_frac": 8.302496853655602e-07, "timer/checkpoint.save_avg": 0.0002491474151611328, "timer/checkpoint.save_min": 0.0002491474151611328, "timer/checkpoint.save_max": 0.0002491474151611328, "timer/agent.save_count": 1.0, "timer/agent.save_total": 1.4171147346496582, "timer/agent.save_frac": 0.004722341035763321, "timer/agent.save_avg": 1.4171147346496582, "timer/agent.save_min": 1.4171147346496582, "timer/agent.save_max": 1.4171147346496582, "timer/replay.save_count": 1.0, "timer/replay.save_total": 7.176399230957031e-05, "timer/replay.save_frac": 2.391436892775441e-07, "timer/replay.save_avg": 7.176399230957031e-05, "timer/replay.save_min": 7.176399230957031e-05, "timer/replay.save_max": 7.176399230957031e-05, "fps": 4.805168977093071}
{"step": 1423904, "episode/length": 215.0, "episode/score": 13.100000008940697, "episode/sum_abs_reward": 15.5, "episode/reward_rate": 0.06944444444444445}
{"step": 1424249, "episode/length": 344.0, "episode/score": 16.100000023841858, "episode/sum_abs_reward": 18.500000059604645, "episode/reward_rate": 0.04927536231884058}
{"step": 1424305, "episode/length": 55.0, "episode/score": 1.099999986588955, "episode/sum_abs_reward": 3.1000000163912773, "episode/reward_rate": 0.03571428571428571}
{"step": 1424538, "episode/length": 232.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.700000025331974, "episode/reward_rate": 0.06437768240343347}
{"step": 1424809, "episode/length": 270.0, "episode/score": 16.099999986588955, "episode/sum_abs_reward": 18.30000001937151, "episode/reward_rate": 0.06273062730627306}
{"step": 1425028, "episode/length": 218.0, "episode/score": 14.099999986588955, "episode/sum_abs_reward": 16.30000001937151, "episode/reward_rate": 0.0684931506849315}
{"step": 1425197, "train/action_mag": 16.0, "train/action_max": 16.0, "train/action_mean": 4.428634016481165, "train/action_min": 0.0, "train/action_std": 3.384920508894202, "train/actor_opt_actor_opt_grad_overflow": 0.0, "train/actor_opt_actor_opt_grad_scale": 10000.0, "train/actor_opt_grad_norm": 0.03491028472270868, "train/actor_opt_grad_steps": 711680.0, "train/actor_opt_loss": -11.321924002203223, "train/adv_mag": 0.378301227541819, "train/adv_max": 0.3051283847387523, "train/adv_mean": 0.0016549357506809343, "train/adv_min": -0.3486915538980536, "train/adv_std": 0.03976925171605528, "train/cont_avg": 0.9953981164383562, "train/cont_loss_mean": 7.936614515326617e-05, "train/cont_loss_std": 0.0024425598149775073, "train/cont_neg_acc": 0.9980430537707186, "train/cont_neg_loss": 0.009501384250444623, "train/cont_pos_acc": 0.9999999820369564, "train/cont_pos_loss": 1.5057307652727702e-05, "train/cont_pred": 0.99539851734083, "train/cont_rate": 0.9953981164383562, "train/dyn_loss_mean": 5.675748629112766, "train/dyn_loss_std": 8.931585338017712, "train/extr_critic_critic_opt_critic_opt_grad_overflow": 0.0, "train/extr_critic_critic_opt_critic_opt_grad_scale": 10000.0, "train/extr_critic_critic_opt_grad_norm": 0.8132855043019334, "train/extr_critic_critic_opt_grad_steps": 711680.0, "train/extr_critic_critic_opt_loss": 14821.890424336472, "train/extr_critic_mag": 12.77729274802012, "train/extr_critic_max": 12.77729274802012, "train/extr_critic_mean": 3.82759748746271, "train/extr_critic_min": -0.38930506575597473, "train/extr_critic_std": 3.129100646058174, "train/extr_return_normed_mag": 1.363691067042416, "train/extr_return_normed_max": 1.363691067042416, "train/extr_return_normed_mean": 0.39686134375938, "train/extr_return_normed_min": -0.05312346124842967, "train/extr_return_normed_std": 0.3164250319951201, "train/extr_return_rate": 0.8224377926081827, "train/extr_return_raw_mag": 13.482273088742609, "train/extr_return_raw_max": 13.482273088742609, "train/extr_return_raw_mean": 3.8441255811142594, "train/extr_return_raw_min": -0.6419138847148582, "train/extr_return_raw_std": 3.154746943957185, "train/extr_reward_mag": 1.0906616694306674, "train/extr_reward_max": 1.0906616694306674, "train/extr_reward_mean": 0.06562605949297343, "train/extr_reward_min": -0.5465420239592251, "train/extr_reward_std": 0.24580061394874364, "train/image_loss_mean": 3.462857344379164, "train/image_loss_std": 8.713447080899591, "train/model_loss_mean": 6.935159859591967, "train/model_loss_std": 12.758800389015512, "train/model_opt_grad_norm": 20.58707161472268, "train/model_opt_grad_steps": 711092.4109589041, "train/model_opt_loss": 17739.664490582192, "train/model_opt_model_opt_grad_overflow": 0.0, "train/model_opt_model_opt_grad_scale": 2568.4931506849316, "train/policy_entropy_mag": 2.752276463051365, "train/policy_entropy_max": 2.752276463051365, "train/policy_entropy_mean": 0.4849571544830113, "train/policy_entropy_min": 0.0793750137090683, "train/policy_entropy_std": 0.714595472567702, "train/policy_logprob_mag": 7.438384297775896, "train/policy_logprob_max": -0.009455657564103603, "train/policy_logprob_mean": -0.48430496699189485, "train/policy_logprob_min": -7.438384297775896, "train/policy_logprob_std": 1.0987558544498601, "train/policy_randomness_mag": 0.9714328140428622, "train/policy_randomness_max": 0.9714328140428622, "train/policy_randomness_mean": 0.171168594123566, "train/policy_randomness_min": 0.028015896677970886, "train/policy_randomness_std": 0.2522208435486441, "train/post_ent_mag": 55.8037035693861, "train/post_ent_max": 55.8037035693861, "train/post_ent_mean": 39.60366105380123, "train/post_ent_min": 19.398289393072258, "train/post_ent_std": 5.802684587975071, "train/prior_ent_mag": 76.86612795477043, "train/prior_ent_max": 76.86612795477043, "train/prior_ent_mean": 45.22058669834921, "train/prior_ent_min": 27.053900287575917, "train/prior_ent_std": 8.076284049308462, "train/rep_loss_mean": 5.675748629112766, "train/rep_loss_std": 8.931585338017712, "train/reward_avg": 0.05518648309046275, "train/reward_loss_mean": 0.06677403607188839, "train/reward_loss_std": 0.23162181001819976, "train/reward_max_data": 1.035616446847785, "train/reward_max_pred": 1.0326916322316209, "train/reward_neg_acc": 0.9916707113997577, "train/reward_neg_loss": 0.02580007345555988, "train/reward_pos_acc": 0.990956622443787, "train/reward_pos_loss": 0.716843165763437, "train/reward_pred": 0.054873770791782094, "train/reward_rate": 0.059209118150684935, "stats/sum_log_reward": 12.433333476384481, "stats/max_log_achievement_collect_coal": 1.6666666666666667, "stats/max_log_achievement_collect_drink": 2.0, "stats/max_log_achievement_collect_iron": 0.5, "stats/max_log_achievement_collect_sapling": 1.6666666666666667, "stats/max_log_achievement_collect_stone": 13.0, "stats/max_log_achievement_collect_wood": 10.333333333333334, "stats/max_log_achievement_defeat_skeleton": 0.16666666666666666, "stats/max_log_achievement_defeat_zombie": 1.8333333333333333, "stats/max_log_achievement_eat_cow": 0.0, "stats/max_log_achievement_make_iron_pickaxe": 0.16666666666666666, "stats/max_log_achievement_make_iron_sword": 0.0, "stats/max_log_achievement_make_stone_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_stone_sword": 1.0, "stats/max_log_achievement_make_wood_pickaxe": 0.8333333333333334, "stats/max_log_achievement_make_wood_sword": 1.3333333333333333, "stats/max_log_achievement_place_furnace": 1.5, "stats/max_log_achievement_place_plant": 1.5, "stats/max_log_achievement_place_stone": 4.5, "stats/max_log_achievement_place_table": 2.8333333333333335, "stats/max_log_achievement_wake_up": 1.3333333333333333, "stats/mean_log_entropy": 0.6117791210611662, "replay/size": 1000000.0, "replay/inserts": 1466.0, "replay/samples": 11728.0, "replay/insert_wait_avg": 3.584410288812031e-06, "replay/insert_wait_frac": 1.0, "replay/sample_wait_avg": 1.3936753162420464e-06, "replay/sample_wait_frac": 1.0, "timer/duration": 300.2075424194336, "timer/logger.write_count": 1.0, "timer/logger.write_total": 0.03292965888977051, "timer/logger.write_frac": 0.0001096896454512225, "timer/logger.write_avg": 0.03292965888977051, "timer/logger.write_min": 0.03292965888977051, "timer/logger.write_max": 0.03292965888977051, "timer/replay.add_count": 1466.0, "timer/replay.add_total": 0.27904248237609863, "timer/replay.add_frac": 0.0009294985733111119, "timer/replay.add_avg": 0.00019034275741889402, "timer/replay.add_min": 8.0108642578125e-05, "timer/replay.add_max": 0.0006558895111083984, "timer/checkpoint.load_count": 0.0, "timer/checkpoint.load_total": 0.0, "timer/checkpoint.load_frac": 0.0, "timer/env.step_count": 1466.0, "timer/env.step_total": 17.76263117790222, "timer/env.step_frac": 0.05916783780563795, "timer/env.step_avg": 0.012116392345090193, "timer/env.step_min": 0.0028772354125976562, "timer/env.step_max": 1.6745140552520752, "timer/agent.policy_count": 1466.0, "timer/agent.policy_total": 10.550606489181519, "timer/agent.policy_frac": 0.03514437513512165, "timer/agent.policy_avg": 0.007196866636549467, "timer/agent.policy_min": 0.005759239196777344, "timer/agent.policy_max": 0.015537023544311523, "timer/dataset_count": 733.0, "timer/dataset_total": 0.059261322021484375, "timer/dataset_frac": 0.00019740117634582175, "timer/dataset_avg": 8.084764259411238e-05, "timer/dataset_min": 5.9604644775390625e-05, "timer/dataset_max": 0.00017189979553222656, "timer/agent.train_count": 733.0, "timer/agent.train_total": 270.85998368263245, "timer/agent.train_frac": 0.9022424336834338, "timer/agent.train_avg": 0.3695224879708492, "timer/agent.train_min": 0.3633456230163574, "timer/agent.train_max": 0.3812239170074463, "timer/agent.report_count": 1.0, "timer/agent.report_total": 0.2014930248260498, "timer/agent.report_frac": 0.0006711790889801654, "timer/agent.report_avg": 0.2014930248260498, "timer/agent.report_min": 0.2014930248260498, "timer/agent.report_max": 0.2014930248260498, "timer/checkpoint.save_count": 0.0, "timer/checkpoint.save_total": 0.0, "timer/checkpoint.save_frac": 0.0, "timer/agent.save_count": 0.0, "timer/agent.save_total": 0.0, "timer/agent.save_frac": 0.0, "timer/replay.save_count": 0.0, "timer/replay.save_total": 0.0, "timer/replay.save_frac": 0.0, "fps": 4.883201723051067}